Zweistufiges Multitasking-Text-to-SQL-Pre-Training-Modell MIGA basierend auf T5-KI-php.cn

Mehr und mehr Arbeiten haben gezeigt, dass vorab trainierte Sprachmodelle (PLM) umfangreiches Wissen enthalten. Für verschiedene Aufgaben kann die Verwendung geeigneter Trainingsmethoden zur Nutzung von PLM die Modellfähigkeiten besser verbessern. Bei Text-to-SQL-Aufgaben basieren die aktuellen Mainstream-Generatoren auf Syntaxbäumen und müssen für die SQL-Syntax entworfen werden.

Kürzlich hat sich das NetEase Interactive Entertainment AI Lab mit der Guangdong University of Foreign Studies und der Columbia University zusammengetan, um eine zweistufige Multitasking-Vortrainingsmethode basierend auf dem vorzuschlagen Vorab trainiertes Sprachmodell T5. Trainieren Sie das Modell MIGA. MIGA führt in der Vortrainingsphase drei Hilfsaufgaben ein und organisiert sie in einem einheitlichen Generierungsaufgabenparadigma, das alle Text-to-SQL-Datensätze gleichzeitig einheitlich trainieren kann. In der Feinabstimmungsphase zielt MIGA auf Fehler ab Mehrere Dialogrunden Das Übertragungsproblem wird für SQL-Störungen verwendet, was die Robustheit der Modellgenerierung verbessert.

Derzeit ist die Mainstream-Methode für die Text-to-SQL-Forschung hauptsächlich das auf dem SQL-Syntaxbaum basierende Encoder-Decoder-Modell, das sicherstellen kann, dass die generierten Ergebnisse vorhanden sein müssen entspricht der SQL-Syntax, erfordert jedoch ein spezielles Design für die SQL-Syntax. Es gibt auch einige aktuelle Forschungen zu Text-to-SQL, die auf generativen Sprachmodellen basieren, die das Wissen und die Fähigkeiten vorab trainierter Sprachmodelle leicht erben können.

Um die Abhängigkeit von Syntaxbäumen zu verringern und die Fähigkeiten vorab trainierter Sprachmodelle besser zu nutzen, wurde in dieser Studie ein vorab trainiertes T5-Modell im Rahmen von vorgeschlagen Zweistufiges Multitasking-Text-to-SQL-Vortrainingsmodell MIGA (MultI-task Ggeneration fr#🎜 🎜#Amework).

MIGA ist in zwei Phasen des Trainingsprozesses unterteilt:

Im Vor- In der Trainingsphase verwendet MIGA das gleiche Pre-Training-Paradigma wie T5 und schlägt zusätzlich drei Hilfsaufgaben im Zusammenhang mit Text-to-SQL vor, um das Wissen im vorab trainierten Sprachmodell besser zu stimulieren. Diese Trainingsmethode kann alle Text-to-SQL-Datensätze vereinheitlichen und den Umfang der Trainingsdaten erweitern. Sie kann außerdem flexiblere, effektivere Hilfsaufgaben entwerfen, um das potenzielle Wissen des vorab trainierten Sprachmodells weiter zu erkunden.
In der Feinabstimmungsphase zielt MIGA auf die Fehlerübertragungsprobleme ab, die bei Mehrrundendialogen und SQL häufig auftreten, und stört die historische SQL während des Trainingsprozesses um die aktuelle Runde zu generieren. Der SQL-Effekt ist stabiler.

Das MIGA-Modell übertrifft die derzeit besten syntaxbaumbasierten Modelle in zwei öffentlichen Text-to-SQL-Datensätzen mit Multiturn-Dialog. Relevante Untersuchungen wurden durchgeführt akzeptiert von AAAI 2023.

Zweistufiges Multitasking-Text-to-SQL-Pre-Training-Modell MIGA basierend auf T5

Papieradresse: https://arxiv.org/abs/2212.09278

MIGA-MODELLDETAILS

Zweistufiges Multitasking-Text-to-SQL-Pre-Training-Modell MIGA basierend auf T5

# 🎜 🎜#Abbildung 1 MIGA-Modelldiagramm.

Multitasking-Vortrainingsphase#🎜🎜 #Die Forschung bezieht sich hauptsächlich auf die Vortrainingsmethode von T5. Basierend auf dem bereits trainierten T5-Modell werden vier Vortrainingsaufgaben entworfen:

Text-to-SQL-Hauptaufgabe: Gestalten Sie für den gelben Teil im Bild oben die Eingabeaufforderung als „Dialog in Systemabfrage übersetzen“ und verwenden Sie dann einige spezielle Token, um den historischen Dialog, die Datenbankinformationen und SQL-Anweisungen einzugeben T5- Lassen Sie den Decoder im Encoder die entsprechende SQL-Anweisung direkt ausgeben.
Zugehörige Informationsvorhersage: Der grüne Teil im obigen Bild, die Designaufforderung lautet „Dialog in relevante Spalte übersetzen“, die Eingabe des T5-Encoders stimmt auch mit der Hauptaufgabe überein, dem Decoder. Dann müssen Sie Datentabellen und -spalten ausgeben, die sich auf das aktuelle Problem beziehen, um das Verständnis des Modells für Text-to-SQL zu stärken.
Operationsvorhersage der aktuellen Runde: Im grauen Teil des obigen Bildes lautet die Entwurfsaufforderung „Dialog übersetzen, um den Schalter einzuschalten“. Diese Aufgabe ist hauptsächlich für das Kontextverständnis in mehreren Dialogrunden konzipiert. Im Vergleich zur vorherigen Dialogrunde und SQL muss der Decoder was ausgeben Am Zweck des aktuellen Dialogs wurden Änderungen vorgenommen. Das Beispiel in der Abbildung zeigt, wo die Bedingungen geändert wurden.
Abschließende Dialogvorhersage: Der blaue Teil im obigen Bild ist als „Dialog übersetzen“ gestaltet Der Zweck besteht darin, dem Modell ein besseres Verständnis des kontextuellen Dialogs zu ermöglichen. Der Decoder muss den gesamten Mehrrundendialog ausgeben. , eine vollständige Problembeschreibung, die der SQL im letzten Moment entspricht.

Durch ein solches einheitliches Trainingsmethodendesign kann MIGA vielseitig und flexibel sein, um aufgabenbezogenere Zusatzaufgaben zu bewältigen, und es bietet außerdem die folgenden Vorteile:

Beziehen Sie sich auf die Schritte des Menschen beim Schreiben von SQL. Die Konversationstext-zu-SQL-Aufgabe wird in mehrere Unteraufgaben zerlegt, sodass die Hauptaufgabe daraus lernen kann.
Das Konstruktionsformat der Trainingsbeispiele stimmt mit T5 überein, wodurch das Potenzial des vorab trainierten T5-Modells maximiert werden kann die Zielaufgabe;
Das einheitliche Framework ermöglicht die flexible Planung mehrerer Hilfsaufgaben. Bei der Anwendung auf eine bestimmte Aufgabe muss das oben genannte vorab trainierte Modell lediglich unter Verwendung desselben Trainingsziels in den gekennzeichneten Daten der spezifischen Aufgabe verfeinert werden.

In der Vortrainingsphase integrierte die Studie Daten aus dem Text-to-SQL-Datensatz Spider und dem konversationsfähigen Text-to-SQL-Datensatz SparC und CoSQL, um das T5-Modell zu trainieren.

Feinabstimmungsphase

Nach der Vortrainingsphase verwendet diese Studie einfach Text-to-SQL-Aufgaben, um das Modell basierend auf den annotierten Daten der Zielaufgabe weiter zu verfeinern. Bei der Vorhersage der aktuellen SQL-Runde wird in dieser Studie die vorhergesagte SQL der vorherigen Runde gespleißt. Um das durch mehrere Dialog- und Generierungsrunden verursachte Fehlerübertragungsproblem zu überwinden, schlägt diese Studie ein SQL-Störungsschema vor ., stören Sie die historischen Runden von SQL in den Eingabedaten mit α-Wahrscheinlichkeit. Die Störung der SQL-Anweisung tastet hauptsächlich das entsprechende Token mit einer Wahrscheinlichkeit von β ab und führt dann eine der folgenden Störungen durch:

Verwenden Sie Spalten in derselben Datentabelle, um Spalten im SELECT-Teil zufällig zu ändern oder hinzuzufügen
Ändern Sie die Struktur in der JOIN-Bedingung nach dem Zufallsprinzip, z. B. tauschen Sie die Positionen der beiden Tabellen aus.
Ändern Sie alle Spalten von „*“ und einige andere Spalten. .
Die oben genannten Störungen sind die häufigsten Fehler bei der SQL-Generierung, die statistisch im Experiment festgestellt wurden. Daher werden für diese Situationen Störungen durchgeführt, um die Abhängigkeit des Modells von diesem Aspekt zu verringern.

Experimentelle Auswertung

Auswertungsdatensatz für Multi-Turn-Gespräche Text-to-SQL: SparC und CoSQL.

Die Bewertungsindikatoren sind:

QM: Fragenübereinstimmung, die den Anteil des generierten SQL angibt, der in einer einzelnen Fragerunde vollständig mit der Anmerkungsausgabe übereinstimmt;

IM: Interaktionsübereinstimmung, die die Gesamtheit angibt Mehrrundendialog Der Anteil aller generierten SQL-Anweisungen für eine vollständige Runde, die genau mit der Anmerkungsausgabe übereinstimmen.
Im Vergleichsexperiment in Tabelle 1 übertrifft MIGA das derzeit beste Multi-Turn-Dialog-Text-to-SQL-Modell hinsichtlich der IM-Werte für die beiden Datensätze und der QM-Werte von CoSQL. Und verglichen mit der gleichen Art von T5-basierten Lösungen verbesserte MIGA IM um 7,0 % und QM um 5,8 %.

Zweistufiges Multitasking-Text-to-SQL-Pre-Training-Modell MIGA basierend auf T5

Tabelle 1 Vergleichende experimentelle Analyse, der erste Teil ist das Baummodell und der zweite Teil ist das generative Modell basierend auf dem Vortraining.

Im Ablationsexperiment in Tabelle 2 untersuchte diese Studie mehrere Aufgaben im zweistufigen Trainingsprozess von MIGA und bewies auch, dass diese Aufgaben die Zielaufgabe in unterschiedlichem Maße verbessern.

Zweistufiges Multitasking-Text-to-SQL-Pre-Training-Modell MIGA basierend auf T5

Tabelle 2 Für die SparC-Aufgabe hat das Entfernen jeder Aufgabe bzw. jeder Daten die Indikatoren reduziert.

In den tatsächlichen Fallanalyseergebnissen ist die Stabilität und Korrektheit der MIGA-Generierung besser als beim auf T5-3B basierenden Trainingsmodell. Es ist ersichtlich, dass MIGA bei Verbindungsoperationen mit mehreren Tabellen und der Zuordnung von Spalten besser ist und Tische. Besser als andere Modelle. In Frage Nr. 2 von Fall Nr. 1 kann das T5-3B-Modell kein effektives SQL für die relativ komplexe JOIN-Struktur (Zwei-Tabellen-Verbindung) generieren, was zu falschen Vorhersagen für die komplexere JOIN-Struktur (Drei-Tabellen-Verbindung) in Frage führt #3. . MIGA sagt die JOIN-Struktur genau voraus und behält die vorherige Bedingung t1.sex="f" gut bei. In Fall Nr. 2 verwechselt T5-3B mehrere Spalten aus verschiedenen Tabellen und verwechselt Einnahmen mit einer Spalte der Personentabelle, während MIGA diese Spalte korrekt als zur Poker_player-Tabelle gehörend identifiziert und sie mit t1 verknüpft.

Zweistufiges Multitasking-Text-to-SQL-Pre-Training-Modell MIGA basierend auf T5

Tabelle 3 Fallanalyse.

Fazit

NetEase Interactive Entertainment AI Lab schlug ein zweistufiges Multitasking-Pre-Training-Modell basierend auf T5 für Text-to-SQL vor: MIGA. In der Vortrainingsphase zerlegt MIGA die Text-to-SQL-Aufgabe in drei zusätzliche Unteraufgaben und vereinheitlicht sie in einem Sequenz-zu-Sequenz-Generierungsparadigma, um das vorab trainierte T5-Modell besser zu motivieren. Und in der Feinabstimmungsphase wird ein SQL-Störungsmechanismus eingeführt, um die Auswirkungen der Fehlerübertragung in mehreren Runden von Text-to-SQL-Generierungsszenarien zu reduzieren.

In Zukunft wird das Forschungsteam weitere effektivere Strategien erforschen, um die Leistungsfähigkeit sehr großer Sprachmodelle zu nutzen, und elegantere und effektivere Wege erkunden, um das Problem der verringerten Leistung aufgrund falscher Übertragung weiter zu überwinden.

Das obige ist der detaillierte Inhalt vonZweistufiges Multitasking-Text-to-SQL-Pre-Training-Modell MIGA basierend auf T5. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!