言語モデル、グラフニューラルネットワーク、テキストグラフトレーニングフレームワーク GLEM を効果的に統合して、新しい SOTA を実現します-AI-php.cn

言語モデル、グラフニューラルネットワーク、テキストグラフトレーニングフレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

WBOY

リリース： 2023-04-11 13:28:02

転載

1757 人が閲覧しました

言語モデル、グラフニューラルネットワーク、テキストグラフトレーニングフレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

#主な拠点: モントリオールアルゴリズム学習人工知能研究所 (Mila)、Microsoft Research Asia など
ペーパーアドレス: https://arxiv.org/abs/2210.14709
コードアドレス: https://github.com /andyjzhao/glem

はじめに

言語モデル、グラフニューラルネットワーク、テキストグラフトレーニングフレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

##図 1: (a) テキストグラフ (b) グラフニューラルネットワーク (c) 言語モデル

グラフは、ノード間の構造的関係をモデル化する汎用データ構造です。実際には、多くのノードにリッチテキスト機能が含まれており、このグラフはテキスト属性グラフと呼ばれます [2]。たとえば、論文引用ネットワークには論文のテキストと論文間の引用関係が含まれ、ソーシャルネットワークにはユーザーのテキスト説明とユーザーの直接の対話関係が含まれます。テキストグラフ上の表現学習モデルは、ノード分類やリンク予測などのタスクに適用でき、幅広い応用価値があります。

#テキストグラフには、ノードのテキスト情報とノード間のグラフ構造情報の 2 つの情報が含まれます。従来のテキストグラフのモデリングは、テキストモデリングとグラフモデリングの 2 つの観点に分けることができます。このうち、テキストモデリング手法 (図 1.b に示す) は通常、Transformer ベースの言語モデル (LM) を使用して単一ノードのテキスト表現を取得し、ターゲットタスクを予測します。グラフモデリングのモデリング手法 (図 1.b に示す)図 1.c) では、通常、グラフニューラルネットワーク (GNN) を使用してノード機能間の相互作用をモデル化し、メッセージ伝播メカニズムを通じてターゲットタスクを予測します。

ただし、2 つのモデルは、それぞれテキストグラフ内のテキストとグラフ構造のみをモデル化できます。従来の言語モデルは構造情報を直接考慮できず、グラフニューラルネットワークは構造情報を直接考慮できません。オリジナルのテキスト情報、モデリング。テキストとグラフの構造を同時にモデル化するために、研究者は言語モデルとグラフニューラルネットワークを統合し、2 つのモデルのパラメーターを同時に更新しようとしています。しかし、既存の研究 [2、3] は、同時に多数の隣接するテキストをモデル化することができず、拡張性が低く、大きなテキストグラフには適用できません。

GLEM フレームワーク

グラフニューラルネットワークと言語モデルをより効果的に統合するために、この記事では

raph と L## を提案します。 # anguage Expectation Maximization (GLEM) フレームワークによる学習。 GLEM フレームワークは、変分期待値最大化アルゴリズム (変分 EM) に基づいており、グラフニューラルネットワークと言語モデルを交互に学習するため、優れたスケーラビリティを実現します。

言語モデル、グラフニューラルネットワーク、テキストグラフトレーニングフレームワーク GLEM を効果的に統合して、新しい SOTA を実現します #図 2: GLEM フレームワーク

具体的には、ノード分類タスクを例に挙げると、E ステップで、GLEM は、グラフニューラルネットワークによって予測された実際のラベルと擬似ラベル

に基づいて言語モデル

をトレーニングします。 M ステップ では、GLEM は、言語モデル によって予測された実際のラベルと擬似ラベルに基づいて、グラフニューラルネットワークをトレーニングします。このようにして、GLEM フレームワークはローカルのテキスト情報とグローバルな構造的相互作用情報を効果的にマイニングします。 GLEM フレームワークを通じてトレーニングされたグラフニューラルネットワーク (GLEM-GNN) と言語モデル (GLEM-LM) の両方を使用して、ノードラベルを予測できます。実験

この論文の実験部分では、主に次の側面から GLEM フレームワークについて説明します。

有効性: GLEM モデルはグラフニューラルネットワークと言語モデルを効果的に統合し、両方のモデルを大幅に改善します。 GLEM フレームワークは、OGB の 3 つのテキストグラフノード分類タスクで 1 位を獲得しました。
スケーラビリティ: グラフニューラルネットワークと言語モデルを交互にトレーニングすることで、GLEM フレームワークは大規模な言語モデルと深い GNN を同時にトレーニングできます。
構造のない帰納的推論能力: 従来の GNN モデルは、グラフ構造のない新しいノードに直面するとパフォーマンスが低下します。対照的に、GLEM-LM では、(グラフ構造なしで) テキスト特徴のみを使用して効率的な推論が可能になります。
モデルの収束: GLEM は EM 反復アルゴリズムを使用し、一部のデータセットでは 1 回の EM 反復で収束できます。

言語モデル、グラフニューラルネットワーク、テキストグラフトレーニングフレームワーク GLEM を効果的に統合して、新しい SOTA を実現します