ホームページ > テクノロジー周辺機器 > AI > 言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

WBOY
リリース: 2023-04-11 13:28:02
転載
1757 人が閲覧しました

言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

  • #主な拠点: モントリオール アルゴリズム学習人工知能研究所 (Mila)、Microsoft Research Asia など
  • ペーパーアドレス: https://arxiv.org/abs/2210.14709
  • コードアドレス: https://github.com /andyjzhao/glem
はじめに

言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

##図 1: (a) テキストグラフ (b) グラフ ニューラル ネットワーク (c) 言語モデル

グラフは、ノード間の構造的関係をモデル化する汎用データ構造です。実際には、多くのノードにリッチ テキスト機能が含まれており、このグラフはテキスト属性グラフと呼ばれます [2]。たとえば、論文引用ネットワークには論文のテキストと論文間の引用関係が含まれ、ソーシャル ネットワークにはユーザーのテキスト説明とユーザーの直接の対話関係が含まれます。テキストグラフ上の表現学習モデルは、ノード分類やリンク予測などのタスクに適用でき、幅広い応用価値があります。

#テキスト グラフには、ノードのテキスト情報とノード間のグラフ構造情報の 2 つの情報が含まれます。従来のテキスト グラフのモデリングは、テキスト モデリングとグラフ モデリングの 2 つの観点に分けることができます。このうち、テキスト モデリング手法 (図 1.b に示す) は通常、Transformer ベースの言語モデル (LM) を使用して単一ノードのテキスト表現を取得し、ターゲット タスクを予測します。グラフ モデリングのモデリング手法 (図 1.b に示す)図 1.c) では、通常、グラフ ニューラル ネットワーク (GNN) を使用してノード機能間の相互作用をモデル化し、メッセージ伝播メカニズムを通じてターゲット タスクを予測します。

ただし、2 つのモデルは、それぞれテキスト グラフ内のテキストとグラフ構造のみをモデル化できます。従来の言語モデルは構造情報を直接考慮できず、グラフ ニューラル ネットワークは構造情報を直接考慮できません。オリジナルのテキスト情報、モデリング。テキストとグラフの構造を同時にモデル化するために、研究者は言語モデルとグラフ ニューラル ネットワークを統合し、2 つのモデルのパラメーターを同時に更新しようとしています。しかし、既存の研究 [2、3] は、同時に多数の隣接するテキストをモデル化することができず、拡張性が低く、大きなテキスト グラフには適用できません。

GLEM フレームワーク

グラフ ニューラル ネットワークと言語モデルをより効果的に統合するために、この記事では

G

raph と L## を提案します。 # anguage Expectation Maximization (GLEM) フレームワークによる学習。 GLEM フレームワークは、変分期待値最大化アルゴリズム (変分 EM) に基づいており、グラフ ニューラル ネットワークと言語モデルを交互に学習するため、優れたスケーラビリティを実現します。

言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現します#図 2: GLEM フレームワーク

具体的には、ノード分類タスクを例に挙げると、E ステップ で、GLEM は、グラフ ニューラル ネットワークによって予測された実際のラベルと擬似ラベル

に基づいて言語モデル

をトレーニングします。 M ステップ では、GLEM は、言語モデル によって予測された実際のラベルと擬似ラベルに基づいて、グラフ ニューラル ネットワーク をトレーニングします。このようにして、GLEM フレームワークはローカルのテキスト情報とグローバルな構造的相互作用情報を効果的にマイニングします。 GLEM フレームワークを通じてトレーニングされたグラフ ニューラル ネットワーク (GLEM-GNN) と言語モデル (GLEM-LM) の両方を使用して、ノード ラベルを予測できます。 実験

この論文の実験部分では、主に次の側面から GLEM フレームワークについて説明します。

  • 有効性: GLEM モデルはグラフ ニューラル ネットワークと言語モデルを効果的に統合し、両方のモデルを大幅に改善します。 GLEM フレームワークは、OGB の 3 つのテキスト グラフ ノード分類タスクで 1 位を獲得しました。
  • スケーラビリティ: グラフ ニューラル ネットワークと言語モデルを交互にトレーニングすることで、GLEM フレームワークは大規模な言語モデルと深い GNN を同時にトレーニングできます。
  • 構造のない帰納的推論能力: 従来の GNN モデルは、グラフ構造のない新しいノードに直面するとパフォーマンスが低下します。対照的に、GLEM-LM では、(グラフ構造なしで) テキスト特徴のみを使用して効率的な推論が可能になります。
  • モデルの収束: GLEM は EM 反復アルゴリズムを使用し、一部のデータ セットでは 1 回の EM 反復で収束できます。

言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現します

#図 3: GLEM フレームワークは、OGBN-arxiv、製品、論文100M データセットで 1 位を獲得

以上が言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート