タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用-AI-php.cn

この記事では、業界における継続学習のフレームワークの下でクロスドメイン推奨モデルを実装する方法を検討し、継続的事前学習の中間層表現の結果を使用して、連続転移学習の新しいクロスドメイン推奨パラダイムを提案します。トレーニングされたソースドメインモデルとしてターゲットドメインモデルの追加知識に基づいて、クロスドメインの知識の移行を実現する軽量のアダプターモジュールが設計され、推奨製品のランキングで重要なビジネス成果を達成しました。

背景

近年、ディープモデルの適用により、業界におけるレコメンドシステムのレコメンド効果が大幅に向上しています。シナリオ内のデータに依存してモデルの構造と機能を最適化することがより困難になります。タオバオのような大規模な電子商取引プラットフォームでは、さまざまなユーザーの多様なニーズを満たすために、情報フローのレコメンデーション（ホームページで気に入るかもしれません）、優れたこれらのシナリオは淘宝網の製品システムを共有していますが、特定の製品選択プール、コアユーザー、ビジネス目標には大きな違いがあり、シナリオによって規模も大きく異なります。今回の「良品」シナリオはタオバオの厳選商品のショッピングガイドシナリオです情報フローレコメンデーション、メイン検索、その他のシナリオに比べて規模が比較的小さいため、転移学習、クロスドメインレコメンデーションの活用方法モデルの効果を向上させるためのその他の方法は常に存在しており、これは良品仕分けモデルを最適化する際の重要なポイントの 1 つです。タオバオのさまざまなビジネスシナリオでは製品とユーザーが重複していますが、シナリオに大きな違いがあるため、情報フローの推奨などの大規模なシナリオのランキングモデルは、優れた製品が入手可能なシナリオに直接適用するとうまく機能しません。。したがって、チームは、事前トレーニングや微調整、マルチシナリオの共同トレーニング、グローバル学習などの一連の既存の手法の使用を含め、クロスドメインの推奨に向けて多大な試みを行ってきました。これらの方法は、実際のオンラインアプリケーションでは十分に効果的ではないか、かなりの問題が発生します。継続的転移学習プロジェクトは、これらの手法をビジネスに適用する際の一連の問題に対して、シンプルかつ効果的な新しいクロスドメイン推奨手法を提案します。この方法

は、継続的に事前トレーニングされたソースドメインモデルの中間層表現の結果をターゲットドメインモデル

の追加知識として使用し、淘宝網での優れた製品の推奨ランキングで重要なビジネス成果を達成しました。

この記事「淘宝網におけるクロスドメインのクリックスルー率予測のための継続的転移学習」の詳細版は、ArXiv https://arxiv.org/abs/2208.05728 で公開されています。

方法

▐ 既存の研究とその欠点

学界と産業界における既存のクロスドメイン研究の分析ドメインレコメンデーション (CDR) 関連の作業は、主に、共同学習と事前トレーニングと微調整の 2 つのカテゴリに分類できます。このうち、共同トレーニング手法は、ソースドメイン (Source Domain) モデルとターゲットドメイン (Target Domain) モデルを同時に最適化します。ただし、このタイプの方法では、トレーニングにソースドメインデータを導入する必要があり、ソースドメインのサンプルは通常サイズが大きいため、膨大なコンピューティングリソースとストレージリソースを消費します。多くの中小企業では、そのような大きなリソースオーバーヘッドを支払う余裕はありません。一方で、このタイプの方法は複数のシーンの目標を同時に最適化する必要があり、シーン間の違いも目標の競合による悪影響をもたらす可能性があるため、事前トレーニング微調整手法は、多くのシーンでより幅広い用途に使用できます。業界。

業界推奨システムの重要な特徴は、モデルのトレーニングが 継続学習 (継続学習) パラダイムに従っていることです。つまり、モデルは最新のサンプルを使用し、 を活用する必要があります。オフライン増分更新 (増分学習) または オンライン学習 および最新のデータ分布を学習するその他の方法。この記事で検討したクロスドメインレコメンデーションタスクでは、ソースドメインとターゲットドメインのモデルは両方とも継続学習トレーニング手法に従います。したがって、私たちは、学術および産業用途で広く使用されるであろう新しい問題を提案します: 継続転移学習、これは、時間の経過とともに変化するあるドメインから、同様に時間の経過とともに変化する別のドメインに移動することとして定義されます。私たちは、業界推奨システム、検索エンジン、コンピュテーショナル広告などにおける既存のクロスドメイン推奨および転移学習手法の適用は、連続転移学習パラダイムに従うべき、つまり転移プロセスは連続的かつ複数回であるべきであると考えています。その理由は、データ分布は急速に変化するため、継続的な移行のみが安定した移行効果を保証できるからです。この業界推奨制度の特徴と組み合わせると、事前トレーニングや微調整の実用化には課題が見えてきます。ソースドメインとターゲットドメインのシーンの違いにより、ソースドメインモデルを微調整してより良い結果を得るには、通常、多数のサンプルを使用する必要があります。継続的な転移学習を実現するには、最新のソースドメインモデルを使用して時々再微調整する必要があるため、非常に膨大な学習コストがかかり、この学習方法をオンライン化することも困難です。さらに、これらの多数のサンプルを微調整に使用すると、ソースドメインモデルが保持されている有用な知識を忘れてしまう可能性もあり、モデル内の壊滅的な忘却問題を回避できます。ソースドメインモデルのパラメーターを使用して、以前に作成された元のパラメーターを置き換えます。ターゲットドメインで学習された情報も元のモデルから歴史的に得られた有用な知識は破棄されます。したがって、業界の推奨シナリオに適した、より効率的な連続転移学習モデルを設計する必要があります。

この記事では、上記の問題を解決するためのシンプルで効果的なモデル CTNet (継続的転送ネットワーク、継続的移行ネットワーク) を提案します。従来の事前トレーニング微調整方法とは異なり、CTNet の中心的な考え方は、が履歴内のモデルによって取得されたすべての知識を忘れたり破棄したりすることができず、元のソースドメインモデルとターゲットのすべてのパラメーターを保持するということです。ドメインモデル。これらのパラメーターには、非常に長い履歴データの学習を通じて得られた知識が保存されています (たとえば、淘宝網の詳細ランキングモデルは、2 年以上にわたって継続的に段階的にトレーニングされています)。 CTNet はシンプルなツインタワー構造を採用し、軽量のアダプター層を使用して、継続的に事前トレーニングされたソースドメインモデルの中間層表現の結果をターゲットドメインモデルの追加知識としてマッピングします。連続転移学習を実現するためにデータのバックトラッキングが必要な事前トレーニング微調整方法とは異なり、CTNet では増分データの更新のみが必要なため、効率的な連続転移学習が実現します。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃方法＃＃＃＃＃＃＃

##大量のソースドメインサンプルを使用する必要はありませんソースドメインシナリオのターゲットの影響を受けません#いいえ #はいトレーニング前の微調整はいはいいいえこの記事で提案する CTNet はです＃＃＃＃＃＃＃＃＃＃＃＃はい＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

#表 1: CTNet と既存のクロスドメイン推奨モデルの比較

▐ 問題の定義

# #この記事では、継続的転移学習の新しい問題について検討します:

時間の経過とともに変化し続けるソースドメインとターゲットドメインを考慮すると、継続的転移学習 (継続的転移学習) では、次のことが可能になることが期待されます。過去の、または現在取得されているソースドメインとターゲットドメインの知識を使用して、将来のターゲットドメインの予測精度を向上させます。

継続的転移学習の問題を、淘宝網のクロスドメインレコメンデーションタスクに適用します。このタスクには次の特徴があります。

#推奨されるすべてのシナリオモデルは、最新のデータに基づいて継続的に増分トレーニングされます。

タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用 #図 1: モデル展開の概略図

上の図は、私たちのメソッドをオンラインで展開した様子を示しています。

瞬間の前に、ソースドメインモデルとターゲットドメインモデルは、それぞれのシーンの監視データのみを使用して、個別かつ継続的に増分的にトレーニングされました。タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用の瞬間から、クロスドメインレコメンデーションモデル CTNet をターゲットドメインにデプロイしました。このモデルは、履歴で得た知識を忘れることなくターゲットドメインデータをインクリメントし続けます。トレーニングは継続的に行われます。最新のソースドメインモデルから知識を移転します。 #▐ 継続的移行ネットワークモデル (CTNet) タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用

図 2: 継続的移行ネットワーク CTNet タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用

図 2 に示すように、私たちが提案した連続転送ネットワーク (CTNet) モデルは、すべてのソースドメインモデルをターゲットドメインのオリジナルのファインランキングモデルに埋め込みます。それらのネットワークパラメータは 2 つのタワー構造を形成し、CTNet の左側のタワーがソースタワー、右側のタワーがターゲットタワーです。ソースドメインモデルの最終スコアリングのみを使用する、または一部の浅い表現 (埋め込みなど) のみを使用する一般的な方法とは異なり、軽量のアダプターネットワークを使用して、ソースドメインモデルのすべての中間隠れ層を結合します。 MLP (特に、ソースドメイン MLP に深く含まれるユーザーとアイテムの

高次機能インタラクション情報

)、表現結果 をターゲットレコメンデーションドメインにマッピングし、その結果をターゲットタワーの対応するレイヤー タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用 # に追加します (以下の式は # の状況を表します) ＃＃＃＃＃＃＃）。

CTNet の効果を向上させる鍵は、MLP での深い表現情報の移行を利用することです。ゲート線形ユニット (GLU) のアイデアに基づいて、アダプターネットワークはゲート線形層を使用し、ソースドメイン特徴の適応特徴選択を効果的に実装できます。モデル内の有用な知識は移行され、モデルと矛盾する情報は移行されます。シーンの特徴が転送されます。フィルターで除外できます。ソースドメインモデルは継続的な事前トレーニングに最新のソースドメイン監視データを使用し続けるため、トレーニングプロセス中、Source Tower は最新の更新されたソースドメインモデルパラメーターの読み込みも継続し、バックプロパゲーションプロセス中も固定されたままになります。継続的な転移学習の効率的な進行。したがって、CTNet モデルは継続学習パラダイムに非常に適しており、ターゲットドメインモデルがソースドメインモデルによって提供される最新の知識を継続的に学習して、最新のデータ分布の変更に適応できます。同時に、モデルはターゲットドメインデータでのみトレーニングされるため、モデルはソースドメインのトレーニング目標の影響を受けず、ソースドメインデータのトレーニングをまったく必要とせず、大量のストレージを回避できます。そして計算のオーバーヘッド。さらに、このようなネットワーク構造は加算設計手法を採用しているため、移行プロセス中に元のモデルの MLP 層のディメンションを変更する必要がなく、ターゲットタワーは元のターゲットドメインのオンラインモデルによって完全に初期化され、 MLP 層のランダムな再初期化により、元のモデルの効果が最大限に損なわれず、良好な結果を得るために必要な増分データが少なくなり、モデルのホットスタートが実現されます。

タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用

ソースドメインモデルをタオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用 (元の単一ドメイン推奨ターゲットドメインモデル) として定義します。は、新しくデプロイされたターゲットドメインのクロスドメイン推奨モデルはタオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用、はオンラインでのクロスドメイン推奨モデルのデプロイですモデルは時間まで継続的に増分更新されます。アダプター、ソースタワー、およびターゲットタワーのパラメーターは、それぞれタオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用、、およびです。 CTNet トレーニングのプロセスは次のとおりです。

タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用

#図 3: CTNet トレーニング #実験

▐ オフライン効果

表2: オフライン実験結果タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用

上の表に示すように、2 つのサブシナリオ (表のドメイン B および C) に対応する実稼働データセットがあります。良品ビジネス一連のオフライン実験は、ソースドメイン (表のドメイン A) がホームページ情報フロー推奨シナリオである Web サイト上で実行されました。情報フローのレコメンデーション (ホームページで気に入っているかもしれません) ランキングモデルのスコアリング結果 (表のソースドメインモデル) を直接使用することは、良い商品のビジネスには効果的ではないことがわかります。、絶対値は GAUC-5.88.% と GAUC-9.06% であり、シナリオ間の違いが証明されています。

また、一般的な事前トレーニング微調整手法や共同トレーニング手法 (MLP、PLE、MiNet、DDTCDR、DASL など) を含む、一連の従来のクロスドメインレコメンデーションベースライン手法も比較しました。、そして提案された CTNet は両方のデータセットで既存の方法を大幅に上回っています。完全オンラインのメインモデルと比較して、CTNet は 2 つのデータセットでそれぞれ 1.0% と 3.6% という GAUC の大幅な改善を達成しました。さらに、実験を通じて、単一転送と比較した連続転送の利点を分析しました。 CTNet のフレームワークでは、1 回の転送による効果の向上はモデルの増分更新に伴って減衰しますが、継続的な転送学習によりモデル効果の安定した向上を保証できます。

タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用

# 図 4: 単一転移と比較した連続転移学習の利点

次の表は、従来の事前トレーニング微調整の効果を示しています。完全なソースドメインモデルを使用して、ターゲットドメインデータでトレーニングします。フィールド間の違いにより、モデルの効果を完全なオンライン基本モデルと同等のレベルに調整するには、非常に多くのサンプル (120 日サンプルなど) が必要になります。継続的な転移学習を実現するには、最新のソースドメインモデルを用いて定期的に再調整を行う必要があり、その都度の調整に膨大なコストがかかるため、継続的な転移学習には適していません。さらに、この方法は効果の点で移行なしのベースモデルを超えることはありませんが、その主な理由は、大規模なターゲットドメインサンプルトレーニングの使用により、モデルが元のソースドメインの知識を忘れてしまい、最終的なモデル効果が得られないためです。トレーニングは、ターゲットドメインデータのみに対するトレーニングの効果に似ています。事前トレーニングと微調整のパラダイムでは、すべてのパラメーターを再利用するよりも、一部の埋め込みパラメーターのみをロードする方が優れています (表 2 を参照)。

タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用

#表 3: 事前トレーニングされたソースドメインモデルを使用したターゲットドメインでのトレーニングの効果

▐ オンライン効果

CTNetは早ければ2021年末までに完成し、2022年2月から優良商品のレコメンド事業を本格的に開始する予定です。前世代のフルモデルと比較して、2 つの推奨シナリオでビジネス指標の大幅な改善が達成されました。シナリオ B:

CTR 2.5%、追加購入 6.7%、トランザクション数 3.4%、GMV 7.7%C シナリオ: CTR 12.3%、滞在期間 8.8%、追加購入 10.9%、トランザクション数 30.9%、GMV 31.9%

CTNet は並列ネットワーク構造を採用しています。コンピューティングリソースを節約するため、アテンションレイヤーの一部のパラメーターと結果を共有するため、ソースタワーとターゲットタワーのアテンションレイヤーの同じ部分を 1 回計算するだけで済みます。基本モデルと比較すると、CTNet のオンライン応答時間 (RT) は基本的に同じです。

概要と展望

この記事では、業界における継続的学習のフレームワークの下でクロスドメインレコメンデーションモデルを実装する方法を検討し、新しいクロスドメインを提案します。連続転移学習と呼ばれる推奨モデル. ドメイン推奨パラダイムは、継続的に事前トレーニングされたソースドメインモデルの中間層表現結果をターゲットドメインモデルの追加知識として使用します. 軽量のアダプターモジュールは、クロスドメインの知識の転送を実現するように設計されています優れた製品推奨ランキングを達成し、大きな業績を達成しました。この手法は、良品のビジネス特性に対して実装されていますが、比較的一般的なモデリング手法でもあり、関連するモデリング手法やアイデアは、他の多くの同様のビジネスシナリオの最適化に適用できます。 CTNet の既存の継続的事前トレーニング済みソースドメインモデルは情報フロー推奨シナリオのみを使用しているため、将来的には、継続的に事前トレーニング済みのソースドメインモデルを、推奨、検索、プライベートを含むフルドメイン学習済みの事前トレーニング済みモデルにアップグレードすることを検討します。ドメインやその他のシナリオを使用してモデルをトレーニングします。

チーム紹介

私たちは淘宝網テクノロジー・コンテンツアルゴリズム・良品アルゴリズムチームです。タオバオでは口コミに基づいて良い商品を推奨しており、消費者が良い商品を見つけられるように設計されたショッピングガイドです。このチームは、有利な製品マイニング機能とチャネルショッピングガイド機能を向上させるために、製品レコメンデーションおよびショートビデオコンテンツレコメンデーションビジネスのフルリンクアルゴリズムを最適化する責任を負います。現在の主な技術的方向性は、連続転移学習クロスドメイン推奨、不偏学習、推奨システムのフルリンクモデリング、シーケンスモデリングなどです。ビジネス価値を創造する一方、SIGIRなどの国際会議でも論文を発表しており、主な成果としてはPDN、UMI、CDANなどがあります。