KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈-AI-php.cn

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この研究は、National Key Laboratory の IEEE Fellow によって後援されました。認知知能の研究は、Chen Enhong のチームと Huawei 社のノアの方舟研究所によって完成されました。 Chen Enhong 教授のチームはデータマイニングと機械学習の分野に深く携わっており、トップジャーナルに多くの論文を発表しており、Google Scholar の論文は 20,000 回以上引用されています。ノアの方舟研究所は、人工知能の基礎研究に従事するファーウェイの研究所であり、理論研究と応用イノベーションを同等に重視するという概念を堅持し、人工知能分野における技術革新と開発の促進に取り組んでいます。

8月25日から29日までスペインのバルセロナで開催された第30回ACM Conference on Knowledge Discovery and Data Mining (KDD2024)に、大学認知知能国家重点研究所のChen Enhong教授が登壇しました。中国科学技術博士、IEEEフェロー、ファーウェイ・ノアと共同発表した論文「逐次推奨のためのデータセット再生成」が、2024年カンファレンスのリサーチトラックで唯一の最優秀学生論文賞を受賞した。論文の筆頭著者は、中国科学技術大学認知知能国家重点研究室のChen Enhong教授とLian Defu教授、そして准研究員としてWang Haote氏の共同指導を受けている博士課程学生のying Mingjia氏である。ファーウェイ・ノア・リウ・ヨン氏と研究者の郭偉氏もこの論文の関連研究に参加した。 KDDが2004年にこの賞を創設して以来、陳恩宏教授のチームの学生がこの賞を受賞するのは2回目となる。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

ペーパーリンク: https://arxiv.org/abs/2405.17795
コードリンク: https://github.com/USTC -StarTeam/DR4SR

研究動機

シーケンス推奨システム (Sequential Recommender、SR) は、ユーザーの変化する好みを捕捉することを目的としているため、最新のレコメンデーションシステムの重要な部分です。近年、研究者は配列推奨システムの機能を強化するために多大な努力を払ってきました。これらの手法は通常、固定データセットに基づいて効果的なモデルを開発するというモデル中心のパラダイムに従います。ただし、このアプローチでは、潜在的な品質問題やデータの欠陥が見落とされることがよくあります。これらの問題を解決するために、学界は、固定モデルを使用して高品質のデータセットを生成することに焦点を当てたデータ中心のパラダイムを提案しました。私たちはこれを「データセット再構成」問題として枠組み付けします。

最良のトレーニングデータを取得するために、研究チームの重要なアイデアは、アイテム転送パターンを明示的に含む新しいデータセットを学習することです。具体的には、レコメンダシステムのモデリングプロセスを、元のデータセットから転送パターン KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

を抽出する段階と、

に基づいてユーザーの好み KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

を学習する段階の2段階に分けました。 KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

からのマッピングの学習には 2 つの暗黙的なマッピング KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

が含まれるため、このプロセスは困難です。この目的を達成するために、研究チームは、 KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

のアイテム転送パターンを明示的に表すデータセットを開発する可能性を検討しました。これにより、学習プロセスを明示的に 2 つの段階に分けることができ、 KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

の学習が比較的容易になります。したがって、彼らの主な焦点は、1 対多のマッピングである KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

の効率的なマッピング関数を学習することです。研究チームは、図 1 に示すように、この学習プロセスをデータセット再生成パラダイムと定義しています。「再生成」とは、追加情報を導入せず、元のデータセットのみに依存することを意味します。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

^{図 1パラダイム、シーケンス推奨のためのデータセット再生成 (DR4SR)} は、元のデータセットを有益で一般化可能なデータセットに再構築することを目的としています。具体的には、研究チームはまず、データセットを再生成できるようにするための事前トレーニングタスクを構築しました。次に、彼らは、再生成プロセス中のシーケンスとパターンの間の 1 対多の関係をモデル化する、ダイバーシティを強化した再生成器を提案しました。最後に、彼らは、新しいデータセットを生成するための探索と活用のバランスをとるハイブリッド推論戦略を提案しています。

データセットの再構築プロセスは一般的ですが、特定のターゲットモデルには完全には適していない可能性があります。この問題を解決するために、研究チームは、ターゲットモデルの特性に応じてデータセットを調整するモデル認識型再生成プロセスである DR4SR+ を提案しました。 DR4SR+ はスコアリングをパーソナライズし、2 層の最適化問題と暗黙的な微分手法を通じて再構成されたデータセット内のパターンを最適化し、データセットの効果を高めます。

研究方法

この研究では、研究チームは A データを提案しました。「シーケンス推奨のためのデータ再生成」(DR4SR) と呼ばれる中心的なフレームワークは、図 2 に示すように、元のデータセットを有益で一般化可能なデータセットに再構築することを目的としています。データ再生成プロセスはターゲットモデルから独立しているため、再生成されたデータセットがターゲットモデルの要件を必ずしも満たさない場合があります。したがって、研究チームは DR4SR をモデル認識バージョン、つまり DR4SR+ に拡張し、再生成されたデータセットを特定のターゲットモデルに合わせて調整しました。

モデルに依存しないデータセット再構築

図 2 rator を使用して、データセットの自動再生成を容易にします。ただし、元のデータセットには、データセット再生成器を学習するための監視情報が不足しています。したがって、自己教師あり学習の方法でこれを達成する必要があります。この目的を達成するために、彼らは、多様性を強化した再生器の学習をガイドする事前トレーニングタスクを導入しました。事前トレーニングを完了した後、研究チームはさらにハイブリッド推論戦略を使用して新しいデータセットを再生成しました。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

データ再構成事前トレーニングタスクの構築:‍

^{図3次に、再生成器} は、 を対応するパターン

に再生成できる必要があります。研究チームは、事前トレーニングデータセット全体を

として示し、多様性を促進する再生器: KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

事前トレーニングタスクにより、研究チームはデータセット再生成器を事前トレーニングできるようになりました。この論文では、再生器の主なアーキテクチャとして Transformer モデルを採用しており、その発電能力は広く検証されています。データセット再生成器は、元のデータセット内のシーケンス表現を取得するエンコーダー、パターンを再生成するデコーダー、および 1 対多のマッピング関係をキャプチャするダイバーシティ強化モジュールの 3 つのモジュールで構成されます。次に、研究チームはこれらのモジュールを個別に紹介します。

エンコーダーは、複数のスタックされたマルチヘッドセルフアテンション (MHSA) レイヤーとフィードフォワードネットワーク (FFN) レイヤーで構成されます。デコーダに関しては、入力としてデータセット X' 内のパターンを再現します。デコーダの目的は、エンコーダによって生成されたシーケンス表現を考慮してパターン

を再構築することです。ただし、シーケンスから複数のパターンを抽出することもできます。 . モード。トレーニング中に課題が発生する可能性があります。この1対多マッピングの問題を解決するために、研究チームはさらにダイバーシティ強化モジュールを提案しました。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

具体的には、研究チームは、ターゲットパターンからの情報をデコード段階に統合することで、元のシーケンスの影響を適応的に調整します。まず、エンコーダによって生成されたメモリ

を

個の異なるベクトル空間、つまり

に投影します。理想的には、異なるターゲットパターンが異なる記憶と一致する必要があります。この目的のために、ターゲットパターンをエンコードして
を取得するための Transformer エンコーダも導入しました。

を確率ベクトルに圧縮しました:

ここで、

、

は k 番目のメモリを選択する確率です。各メモリ空間が完全にトレーニングされていることを確認するために、ハード選択は実行せず、代わりに重み付き合計を通じて最終メモリを取得します:

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

最終的には、取得したメモリを利用してデコードプロセスを容易にし、シーケンスとパターン間の複雑な 1 対多の関係を効果的にキャプチャできます。

モデル認識データセット再生成

前の再生成プロセスとターゲットモデルによる不可知論的なため、再構成されたデータセットは特定のターゲットモデルにとって最適ではない可能性があります。したがって、モデルに依存しないデータセット再構成プロセスをモデル認識型再構成プロセスに拡張します。この目的を達成するために、データセット再生成器に基づいて、再生成されたデータセット内の各データサンプルのスコアを評価するデータセットパーソナライザーを導入しました。研究チームはその後、暗黙的な微分を通じてデータセットパーソナライザーをさらに効率的に最適化しました。

Dataset Personalizer:

研究チームの目標は、実装された Dataset Personalizer KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈