Heim > Technologie-Peripheriegeräte > KI > Integrieren Sie effektiv Sprachmodelle, graphische neuronale Netze und das Textgraph-Trainings-Framework GLEM, um neue SOTA zu erreichen

Integrieren Sie effektiv Sprachmodelle, graphische neuronale Netze und das Textgraph-Trainings-Framework GLEM, um neue SOTA zu erreichen

WBOY
Freigeben: 2023-04-11 13:28:02
nach vorne
1736 Leute haben es durchsucht

Integrieren Sie effektiv Sprachmodelle, graphische neuronale Netze und das Textgraph-Trainings-Framework GLEM, um neue SOTA zu erreichen

  • Haupteinheiten: Montreal Algorithmic Learning Artificial Intelligence Laboratory (Mila), Microsoft Research Asia usw.
  • Papieradresse: https://arxiv.org/abs/2210.14709
  • Codeadresse: https://github.com/andyjzhao/glem

Einführung

Integrieren Sie effektiv Sprachmodelle, graphische neuronale Netze und das Textgraph-Trainings-Framework GLEM, um neue SOTA zu erreichen

Abbildung 1: (a) Textdiagramm (b) Diagramm neuronales Netzwerk (c) Sprachmodell

Graph ist eine universelle Datenstruktur, die die strukturelle Beziehung zwischen Knoten modelliert. Im wirklichen Leben enthalten viele Knoten Rich-Text-Features, und dieses Diagramm wird als textattributiertes Diagramm bezeichnet [2]. Beispielsweise enthält das Zitationsnetzwerk den Text des Artikels und die Zitatbeziehung zwischen den Artikeln; das soziale Netzwerk enthält die Textbeschreibung des Benutzers und die direkte interaktive Beziehung des Benutzers. Das Repräsentationslernmodell für Textdiagramme kann auf Aufgaben wie Knotenklassifizierung und Linkvorhersage angewendet werden und hat einen breiten Anwendungswert.

Textdiagramm enthält zwei Informationsaspekte: Textinformationen von Knoten und Diagrammstrukturinformationen zwischen Knoten. Die Modellierung traditioneller Textdiagramme kann in zwei Perspektiven unterteilt werden: Textmodellierung und Diagrammmodellierung. Unter diesen verwendet die Textmodellierungsmethode (siehe Abbildung 1.b) normalerweise ein transformatorbasiertes Sprachmodell (LM), um die Textdarstellung eines einzelnen Knotens zu erhalten und die Zielaufgabe vorherzusagen ( Wie gezeigt). In Abbildung 1.c) wird normalerweise ein graphisches neuronales Netzwerk (GNN) verwendet, um die Interaktion zwischen Knotenmerkmalen zu modellieren und Zielaufgaben durch einen Nachrichtenverbreitungsmechanismus vorherzusagen.

Die beiden Modelle können jedoch jeweils nur Text- und Diagrammstrukturen in Textdiagrammen modellieren: Herkömmliche Sprachmodelle können Strukturinformationen nicht direkt berücksichtigen, und neuronale Diagrammnetze können Originaltextinformationen nicht direkt modellieren. Um Text- und Diagrammstrukturen gleichzeitig zu modellieren, versuchen Forscher, Sprachmodelle und grafische neuronale Netze zu integrieren und die Parameter der beiden Modelle gleichzeitig zu aktualisieren. Vorhandene Arbeiten [2, 3] können jedoch nicht viele Nachbartexte gleichzeitig modellieren, weisen eine schlechte Skalierbarkeit auf und können nicht auf große Textdiagramme angewendet werden.

GLEM-Framework

Um graphische neuronale Netze und Sprachmodelle effektiver zu integrieren, schlägt dieser Artikel das Graph und Language Learning by Expectation Maximization (GLEM) Framework vor . Das GLEM-Framework basiert auf dem Variational Expectation Maximum-Algorithmus (Variational EM) und lernt abwechselnd graphische neuronale Netze und Sprachmodelle und erreicht so eine gute Skalierbarkeit. Abbildung 2: GLEM-Framework

Integrieren Sie effektiv Sprachmodelle, graphische neuronale Netze und das Textgraph-Trainings-Framework GLEM, um neue SOTA zu erreichen

Sprachmodell ; Im M-Schritt trainiert GLEM ein graphisches neuronales Netzwerk basierend auf den realen Bezeichnungen und den vom Sprachmodell vorhergesagten Pseudobezeichnungen . Auf diese Weise extrahiert das GLEM-Framework effektiv lokale Textinformationen und globale strukturelle Interaktionsinformationen. Sowohl graphische neuronale Netze (GLEM-GNN) als auch Sprachmodelle (GLEM-LM), die über das GLEM-Framework trainiert wurden, können zur Vorhersage von Knotenbezeichnungen verwendet werden.

ExperimentDer experimentelle Teil des Papiers diskutiert hauptsächlich das GLEM-Framework unter folgenden Gesichtspunkten:

  • Effektivität: Das GLEM-Modell kann graphische neuronale Netze und Sprachmodelle effektiv integrieren, wodurch beide Modelle erheblich verbessert werden. Das GLEM-Framework erreichte bei drei Textgraph-Knotenklassifizierungsaufgaben am OGB den ersten Platz.
  • Skalierbarkeit: Durch abwechselndes Training graphischer neuronaler Netze und Sprachmodelle kann das GLEM-Framework große Sprachmodelle und tiefe GNNs gleichzeitig trainieren.
  • Strukturfreie induktive Argumentationsfähigkeit: Das traditionelle GNN-Modell schneidet schlecht ab, wenn es mit neuen Knoten ohne Diagrammstruktur konfrontiert wird. Im Gegensatz dazu ermöglicht GLEM-LM eine effiziente Inferenz ausschließlich unter Verwendung von Textmerkmalen (ohne Diagrammstruktur).
  • Modellkonvergenz: GLEM verwendet den EM-Iterationsalgorithmus und kann bei einigen Datensätzen in einer EM-Iteration konvergieren.

Integrieren Sie effektiv Sprachmodelle, graphische neuronale Netze und das Textgraph-Trainings-Framework GLEM, um neue SOTA zu erreichen

Abbildung 3: GLEM-Framework gewann den ersten Platz im OGBN-arxiv, products, papers100M-Datensatz

Das obige ist der detaillierte Inhalt vonIntegrieren Sie effektiv Sprachmodelle, graphische neuronale Netze und das Textgraph-Trainings-Framework GLEM, um neue SOTA zu erreichen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage