ランキング モデルは、広告、推奨、検索システムにおいて重要な役割を果たします。ランキングモジュールでは、クリック率推定技術が最優先されます。現在、業界のほとんどのクリック率予測技術は、データ ドライブに基づいてディープ ニューラル ネットワークをトレーニングするディープ ラーニング アルゴリズムを使用していますが、データ ドライブによって引き起こされる問題は、レコメンデーション システムの新しいプロジェクトにコールド スタートの問題が発生することです。
Exploration-Exploitation (E&E) 手法は、大規模なオンライン レコメンデーション システムにおけるデータ サイクルの問題に対処するために通常使用されます。過去の研究では通常、モデル予測における不確実性が高いと潜在的なリターンが高いと考えられていたため、ほとんどの研究文献は不確実性の推定に焦点を当てていました。ストリーミング トレーニングを使用するオンライン レコメンデーション システムの場合、探索戦略はトレーニング サンプルの収集に大きな影響を与え、それがモデルのさらなる学習に影響します。ただし、現在の探索戦略のほとんどは、探索されたサンプルがその後のモデル学習にどのような影響を与えるかを十分にモデル化できません。したがって、正常に探索および表示されたサンプルがその後の推奨モデルの学習に及ぼす影響をシミュレートする擬似探索 (Pseudo-Exploration) モジュールを設計しました。
疑似探索プロセスは、モデル入力に敵対的摂動を追加することで実現され、このプロセスの対応する理論分析と証明も提供します。このことから、この手法を敵対的勾配に基づく探索戦略(Adversarial Gradient Driven Exploration、以下AGE)と名付けます。探索の効率を向上させるために、低価値の探索でリソースを無駄にしないように、低価値のサンプルをフィルタリングする動的ゲート ユニットも提案します。 AGE アルゴリズムの有効性を検証するために、私たちは公的学術データセットで多数の実験を実施しただけでなく、AGE モデルを Alimama ディスプレイ広告プラットフォームに展開し、オンラインで良好な収益を達成しました。この研究は、KDD 2022 Research Track のフルペーパーとして収録されています。ぜひ読んでコミュニケーションをとってください。
論文: 詳細なクリックスルー率予測のための敵対的勾配駆動探索
ダウンロード: https://arxiv.org/abs/2112.11136
広告システムでは、クリックスルー率 (CTR) 推定モデルは通常、ストリーミング手法を使用してトレーニングされ、ストリーミング データのソースはオンラインで展開された CTR モデルによって生成され、いわゆるデータ サイクルの問題が発生します。コールド スタート広告とロングテール広告は完全には表示されないため、CTR モデルにはこれらの広告のトレーニング データが不足しており、これがモデルによる広告のこの部分の推定にもつながります。大きな誤差が発生する可能性があり、表示がより困難になります。これらの広告により、コールド スタート ブート プロセスを完了することが困難になります。具体的には、図 1 は、広告の実際のクリックスルー率とインプレッション数の関係を示しています。私たちのシステムでは、クリックスルー率が収束するまでに、新しい広告は平均約 10,000 回表示される必要があります。州。これにより、多くのオンライン システムに共通の問題が生じます。それは、ユーザー エクスペリエンスを確保しながら、これらの広告をどのようにコールドスタートするかということです。
図 1: 広告の CTR とインプレッション数の関係
探索および活用 (E&E) アルゴリズムは、通常、上記の問題を解決するために使用されます。レコメンデーションまたは広告システムでは、一般的な方法 (コンテキスト マルチアーム バンディット、コンテキスト マルチアーム バンディットなど) は、一般にこの問題を次のようにモデル化します。各ステップで、システムはポリシー P に基づいてアクションを選択します (つまり、アイテム _ _ をユーザーに推奨します)。累積報酬 (通常は合計クリック数で測定) を最大化するために、システムは現在重点を置いているのが探索なのか活用なのかを比較検討する必要があります。従来の研究では、一般に、高い不確実性が潜在的な利益の尺度であると考えられています。一方では、戦略 P は現在の利益を最大化するために、現在の有用性がより高いプロジェクトを優先する必要がありますが、他方では、アルゴリズムは探査を達成するためにより不確実性の高い操作を選択する必要もあります。探査と活用を比較検討する戦略を表すために使用される場合、システムによるプロジェクトの最終スコアは次の式で表すことができます。
不確実性推定は、多くの E&E アルゴリズムの中核モジュールとなっています。不確実性は、データの変動性、測定ノイズ、モデルの不安定性 (パラメーターのランダム性など) に起因する可能性があります。典型的な推定方法には、モンテカルロ MC ドロップアウト、ベイジアン ニューラル ネットワーク、予測の不確実性が含まれます。ガウス プロセス、および勾配ノルムに基づく不確実性モデリング (モデルの重量)など。これに基づいて、2 つの典型的な探索戦略があります。UCB ベースの手法は通常、最終スコアとして潜在的な収益の上限を使用します [1,2]。一方、トンプソン サンプリング ベースの手法は、推定された確率分布からサンプリングすることによって完成します [3] ]。
上記の方法は完全な探索閉ループを考慮していないと考えられます。データ駆動型のオンライン システムの場合、探索の最終的な利点は、探索プロセスから得られるフィードバック データと、フィードバック データに基づくモデルのトレーニングと更新から得られます。モデル推定自体の不確実性は、フィードバック ループ全体を完全には反映しません。この目的を達成するために、探索アクションの完了後にモデルに対するフィードバック データの影響をシミュレートする擬似探索モジュールを導入し、これを探索の有効性の測定に使用しました。分析の結果、探査の有効性はモデルの推定不確実性だけでなく、「逆妨害」の規模にも依存することが判明した。いわゆる敵対的摂動とは、モデルの出力に最大の変化を引き起こす、モデルの入力に追加される固定モジュール長を持つ摂動ベクトルを指します。この論文では、探索されたデータを使用してモデルが一度トレーニングされた後、モデルの出力変化の期待は、不確実性のモジュール長を持つ増分ベクトルと敵対的勾配の外乱ベクトルを入力ベクトルに追加することと同等であることも証明しました。この方法でのモデリングにより、探索されたサンプルがモデルに与えるその後の影響を閉ループ方式で推定できることを検証しました。これにより、探索されたサンプルの真の値が推定されます。
私たちはこのメソッドを Adversarial Gradient Driven Exploration (略して AGE) と呼びます。 AGE モデルは擬似探索モジュールと動的ゲーティング ユニットの 2 つの部分から構成されており、その全体構造を図 2 に示します。
図 2: AGE 構造図
それらの一部の詳細な紹介についてはセクション 3.1 を参照し、詳細についてはセクション 3.3 を参照してください。
3.1.1 モジュールの概要
擬似探索モジュールの主な目的は、擬似探索モジュールの使用を定量的にシミュレートすることです。モデル 探索サンプルがトレーニングされた後、サンプルのスコアの変化が推定され、モデルに対する探索の閉ループの影響が推定されます。導出後、上記のプロセスは式 (2) によって完了できることがわかりました。式 (2) は、モデルによる探索後のサンプルのスコアを表し、これを最終的なランキングに使用します。
上記の式は、元のモデル パラメーターに対して操作を実行する必要がないことを意味します。敵対的勾配の積、推定された不確実性を追加し、入力表現にハイパーパラメーターを手動で設定するだけで済みます。シミュレーションを完了する探索後のモデルの推定スコア。このうち、パラメータと の計算方法については次のセクションで紹介します。このセクションの後半では、提案された探索モジュールにおける式 (2) の詳細な導出プロセスを紹介します。
3.1.2 詳細な導出
データ サンプルごとに、モデルのトレーニングはパラメーターの 2 つの部分に影響します。サンプルに対応する表現 (製品、ユーザー埋め込みなど)とモデルパラメータ。トレーニングにおけるモデル パラメーターの目標は、単一のサンプルではなくすべてのサンプルに適応することであるため、単一のサンプルのトレーニングは主にサンプルの表現に影響を与え、モデル パラメーター自体はわずかな調整だけで済むと考えることができます。したがって、その後の研究では、調整を無視し、サンプルに対応する表現の変化のみに焦点を当てます。表現を含むサンプルの真のラベルがトレーニング中にあると仮定すると、損失関数を最小限に抑えるための更新量を見つける必要があります。これに基づいて、トレーニングで使用される損失関数を表す
# を定義します。一般に、クロスエントロピー損失関数は CTR 予測タスクで使用されます。同時に、表現の最大変化を制限するために を使用します。書きやすくするために、上の式の右辺を次のように書きます。
ラグランジュの平均値定理によれば、 の第 2 ノルムが 0 に近い場合、上記の損失関数式 (3) を次のように導出できます。
##式 (4) を観察すると、損失関数が 2 つのベクトルの方向が逆の場合に最小値が得られることが簡単にわかります。方程式 (3) では、摂動に対して制約を与えます。したがって、方程式 (3) を解くと、次の結果が得られます。 実際には、方程式 (5) の正規化された勾配を を使用して置き換えます。連鎖ルールを導出することにより、 と の 2 つの部分に拡張できます。さらに計算すると、次の結果が得られます。 #上記の方程式では、方程式を真に保つために再スケーリングします。意味は異なりますが、すべて手動で調整されたハイパーパラメータであるため、直接置き換えを完了できます。式 (6) をさらに単純化すると次のようになります。上記の式では、正規化された勾配は、入力表現に対するモデル出力の導関数の方向を表します。実際のユーザー フィードバックは調査時には入手できないため、推定の不確実性を使用して、予測スコアと実際のユーザー フィードバックの差を測定します。
式(7)では、制約条件下でモデル予測出力の変化を最大化できる解析解を求めます(導出は式(3)~式(5)と同じ)。さらに、入力表現を追加する上記のプロセスが敵対的摂動と同じ形式であることもわかります (式 (9) を参照)。
したがって、式 (7) の置換に敵対的勾配を使用し、このメソッドを敵対的勾配ベースの探索アルゴリズムと名付けます。
式 (9) は、AGE を探索する最も効果的な方法は、表現入力に敵対的な摂動を追加し、摂動モデルの出力を並べ替え要素として使用することであることを示しています。つまり、次の式で表される摂動ベクトルの方向です。入力としての敵対的勾配、および予測の不確実性における摂動の程度。したがって、合計を取得した後、次の式を使用して探索後のモデル予測スコアを計算できます。これが前述の式 (2) です。
AGE では、MC-Dropout 法を使用して不確実性を推定します。具体的には、MC-Dropoutはディープモデルの各ニューロンにランダムなMask重みを与えるものであり、その具体的な方法は以下の式(11)に示される。この方法の利点の 1 つは、モデルの元の構造を変更せずに不確実性を直接取得できることです。実際の運用では、不確かさは、UCB の考え方によってドロップアウトの分散を計算することによって、またはサンプリングと平均の差を計算することによってトンプソンランダムサンプリング法を参照することによって、つまり式 ( 12)および式(13))。
正規化された敵対的勾配は、式 (8) の高速勾配法 (FGM) に従って計算できます。敵対的勾配をより正確に計算するために、式 (14) に示すように、近接勾配降下法 (PGD) 法をさらに使用して、複数のステップで勾配を繰り返し更新できます。
実際に、すべての広告が調査する価値があるわけではないことがわかりました。一般的な Top-K 広告システムでは、エンドユーザーに表示できる広告の数は比較的少ないです。したがって、クリックスルー率が低い広告 (たとえば、低品質の広告自体) の場合、モデルがこれらの広告の予測に高い不確実性を持っていたとしても、広告システムのビジネス特性を考慮すると、探索的価値は依然として非常に低くなります。 . .探索を通じてこれらの広告に関する大量のデータを取得できるため、これらの広告をモデルによって完全にトレーニングし、より正確に推定することができますが、これらの広告のクリックスルー率が低いため、これらの広告を取得することは不可能になります。完全な探索を行った後でも、自分自身で探索を行うことはできません。このペーパーでは、探索をより効率的にするために単純なヒューリスティックを試しました。モデルの広告の推定スコアが、すべてのグループにわたる広告の平均クリックスルー率よりも高ければ探索しますが、そうでない場合は探索は行われません。
広告の平均クリックスルー率を計算するために、Dynamic Gating Threshold Unit (DGU) モジュールを導入しました。 DGU は、広告の平均クリックスルー率を推定するために、広告側の機能のみを入力として使用します。モデルの推定クリックスルー率が DGU モジュールによって推定された平均広告クリックスルー率よりも低い場合、探索は実行されません。それ以外の場合は、通常の探索が実行されます。このプロセスは次の式で示されます。
最後に、これを式 (10) に代入して、次の AGE 探査モデルの最終的かつ完全な計算方法を取得します。 。
ランダム サンプリングに基づく探索手法、ディープ モデルに基づく探索手法、および勾配ベースの探索手法を含む、ベースライン手法の 3 つの主要カテゴリを比較しました。探査方法、結果を表1に示します。トンプソン サンプリング (TS) 法に基づいて構築されたベースライン モデルが UCB に基づくモデルよりも優れていることが観察でき、TS がモデルの不確実性を測定するためのより優れたアルゴリズムであることが証明されています。さらに、AGE アルゴリズムがすべてのベースライン手法よりも優れていることが観察でき、これも AGE 手法の有効性を証明しています。具体的には、AGE-TS と AGE-UCB は両方とも、最良のベースラインである UR-gradient-TS と UR-gradient-UCB [4] を上回り、それぞれ 5.41% と 15.3% の改善値を示しています。 AGE-TS メソッドは、探索を行わないベースラインメソッドと比較して、クリック数を 28.0% 増加させます。 AGE ベースの UCB および TS アルゴリズム AGE-UCB および AGE-TS が同様の結果を達成することは注目に値しますが、これは勾配ベースの UCB および TS アルゴリズムには当てはまりません。これは、AGE が不安定性を補償できることも証明しています。 UCB方式です。
表 1: オフライン実験結果
各モジュールの有効性を証明するために、多数のアブレーション実験も実施しました。表 2 に示すように、閾値ユニット、敵対的勾配、および不確実性ユニットはすべて必須です。 DGU の効果をさらに確認するために、さまざまな固定しきい値パラメーターを試しましたが、最終的に、それらの効果は DGU の動的しきい値ほど良くないことがわかりました。
表 2: アブレーション実験の結果
また、AGE モデルを Alimama ディスプレイ広告システムに導入しました。モデルの探査価値を正確に評価するために、フェアバケットに基づいた評価方法を設計しました。図 3 に示すように、まずデータ収集用にバケット C とバケット D を設定します。バケット D では AGE などの探索アルゴリズムをデプロイしますが、バケット C では探索なしで従来の CTR モデルを採用します。一定の時間が経過した後、バケット C とバケット D から取得したフィードバック データを、フェア バケット A と B にそれぞれ展開されたモデルのトレーニングに適用します。最後に、公平なバケット A と B でのモデルのパフォーマンスを比較します。オンライン実験では、クリックスルー率(CTR)、表示された広告のPV数とPCOC、予測CTRと実際のCTRの比率など、いくつかの標準的な指標を評価に使用します。さらに、広告主の満足度を測定するために運用指標 (AFR) を導入しました。
図 3: 公平なバケット実験計画
表 3 に示すように、上記の指標は効果的に改善されました。その中でも、AGE は他のすべての方法よりも大幅に優れており、CTR と PV はベースライン モデルよりそれぞれ 6.4% と 3.0% 高くなります。同時に、AGE モデルの使用によりモデルの予測精度も向上します。つまり、予測精度 PCOC が 1 に近づきます。さらに重要なことに、AFR 指標も 5.5% 増加しました。これは、当社の探索方法が広告主のエクスペリエンスを効果的に向上できることを示しています。
表 3: オンライン実験の結果
潜在的な収益の推定に焦点を当てたほとんどの探査および活用方法とは異なり、私たちのアプローチ AGE は、オンライン学習というデータ主導の観点からこの問題を再構成します。現在のモデル予測の不確実性を推定することに加えて、AGE アルゴリズムは準探査モジュールを使用して、モデルのトレーニングに対する探査サンプルのその後の影響をさらに考慮します。学術研究データセットと生産リンクの両方に対して A/B テスト実験を実施し、関連する結果により AGE メソッドの有効性が確認されました。将来的には、AGE をさらに多くのアプリケーション シナリオに導入する予定です。
以上が敵対的勾配に基づく探索モデルとクリック予測におけるその応用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。