Wenn GPT-4 bei der Simulation von Zustandsänderungen auf der Grundlage von Aufgaben des gesunden Menschenverstandes nur etwa 60 % genau ist, sollten wir dann trotzdem darüber nachdenken, große Sprachmodelle als Weltsimulatoren zu verwenden?
In den letzten zwei Tagen hat ein für ACL 2024 ausgewählter Beitrag „Can Language Models Serve as Text-Based World Simulators?“ hitzige Diskussionen in den sozialen Medien ausgelöst, und sogar Turing-Award-Gewinner Yann LeCun hat es geschafft beteiligt.
Die in diesem Artikel untersuchte Frage lautet:
Können aktuelle Sprachmodelle selbst als Weltsimulatoren fungieren und korrekt vorhersagen, wie Aktionen verschiedene Weltzustände verändern, wodurch die Notwendigkeit einer umfangreichen manuellen Codierung vermieden wird?
Als Antwort auf dieses Problem haben Forscher der University of Arizona, der New York University, der Johns Hopkins University, Microsoft Research, dem Allen Institute for Artificial Intelligence und anderen Institutionen im Kontext „textbasierter Simulatoren“ ihre Antworten gegeben gegeben in .
Sie glauben:
Sprachmodelle können nicht als Weltsimulatoren verwendet werden. GPT-4 ist beispielsweise nur etwa 60 % genau, wenn es Zustandsänderungen simuliert, die auf Aufgaben des gesunden Menschenverstands wie dem Kochen von Wasser basieren.
Die Genauigkeit des Aufgabentrainings kann 60 % erreichen. Bedeutet das nicht, dass sie mindestens „weltweit“ sind? Modelle bis zu einem gewissen Grad“? Und es wird sich mit LLM-Iterationen weiter verbessern. LeCun erklärte auch, dass das Weltmodell kein LLM sein werde.
Zurück in der Arbeit erstellten und verwendeten die Forscher einen neuen Benchmark namens „ByteSized32-State-Prediction“, der einen Datensatz enthält, der aus textuellen Spielzustandsübergängen und begleitenden Spielaufgaben besteht. Sie nutzen diesen Benchmark erstmals, um die Leistung großer Sprachmodelle (LLMs) als textbasierte Weltsimulatoren direkt zu quantifizieren.Beim Testen von GPT-4 an diesem Datensatz stellten die Forscher fest, dass es trotz seiner beeindruckenden Leistung ein unzuverlässiger Weltsimulator ohne weitere Innovationen bleibt.
Daher glauben die Forscher, dass ihre Arbeit sowohl neue Erkenntnisse über die Fähigkeiten und Schwächen aktueller LLMs als auch eine neue Grundlage für die Verfolgung zukünftiger Fortschritte bei der Entstehung neuer Modelle liefert.
Papieradresse: https://arxiv.org/pdf/2406.06485
Die Forscher untersuchten die Fähigkeit von LLM, als Weltsimulator in einer textbasierten virtuellen Umgebung zu fungieren. In dieser Umgebung empfängt ein Agent Beobachtungen und schlägt Aktionen in natürlicher Sprache vor, um ein Ziel zu erreichen.
Jede Textumgebung kann formal als zielkonditionierter teilweise beobachtbarer Markov-Entscheidungsprozess (POMDP) mit einem 7-Tupel (S,A,T,O,R,C,D) dargestellt werden, das S darstellt Zustandsraum, A repräsentiert den Aktionsraum, T: S×A→S repräsentiert die Transformationsfunktion, O repräsentiert die Beobachtungsfunktion, R: S×A→R repräsentiert die Belohnungsfunktion, C repräsentiert die natürliche Sprache „Kontextnachricht“, die die beschreibt Ziel- und Aktionssemantik, D: S×A→{0,1} repräsentiert die binäre Abschlussindikatorfunktion.
Große Modellsimulator-Aufgabe (LLM-Sim)
Die Forscher schlugen eine Vorhersageaufgabe namens
LLM as-a-Simulator (LLM-Sim) zur quantitativen Bewertung der Leistungsfähigkeit von Sprachmodellen vor als zuverlässige Simulatoren dienen.
LLM-Sim-Aufgabe besteht darin, eine Funktion F : C×S×A→S×R×{0,1} als Weltsimulator zu implementieren. In der Praxis sollte ein vollständiger Zustandsübergangssimulator F zwei Arten von Zustandsübergängen berücksichtigen:
aktionsgesteuerte Übergänge und umgebungsgesteuerte Übergänge.
Abbildung 1 ist ein Beispiel für die Verwendung von LLM als Textspielsimulator: Nachdem die Spüle geöffnet wurde, wird der Becher in der Spüle mit Wasser gefüllt. Der aktionsgesteuerte Übergang besteht darin, dass nach dem Ausführen der Aktion zum Öffnen des Spülbeckens das Spülbecken geöffnet wird (isOn=true), während beim umgebungsgesteuerten Übergang beim Öffnen des Spülbeckens Wasser den Becher im Spülbecken füllt.
Um die Fähigkeit von LLM, jeden Übergang zu modellieren, besser zu verstehen, haben die Forscher die Simulatorfunktion F weiter in drei Schritte zerlegt:
-
Aktionsgesteuerter Übergangssimulator: Gegeben sind c, s_t und a_t , F_act: C×S×A→S sagt s^act_t+1 voraus, wobei s^act_t+1 die durch die Aktion verursachte direkte Zustandsänderung darstellt.
-
Umgebungsgesteuerter Übergangssimulator: Gegeben c und s^act_t+1 sagt F_env: C×S→S s_t+1 voraus, wobei s_t+1 der Zustand ist, der sich aus jedem umgebungsgesteuerten Übergang ergibt.
-
Spielfortschrittssimulator: Bei gegebenen c, s_t+1 und a_t sagt F_R: C×S×A→R×{0,1} die Belohnung r_t+1 und den Spielabschlussstatus d_t+1 voraus.
Darüber hinaus betrachteten die Forscher zwei Varianten der LLM-Sim-Aufgabe
-
Vollständige Zustandsvorhersage: LLM gibt den vollständigen Zustand aus.
-
Zustandsdifferenzvorhersage: LLM gibt nur die Differenz zwischen Eingabe- und Ausgabezuständen aus.
Um diese Aufgabe zu erfüllen, führten die Forscher einen neuen Textspiel-Zustandsübergangsdatensatz ein. Der Datensatz ist „BYTESIZED32-State-Prediction (BYTESIZED32-SP)“, der 76.369 Transformationen enthält, ausgedrückt als (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1 ,d_t +1) Tupel
. Diese Übergänge wurden aus 31 verschiedenen Textspielen gesammelt.
Tabelle 1 unten fasst zusätzliche Korpusstatistiken zusammen.
Die Leistung von LLM-Sim wird durch die Vorhersagegenauigkeit des Modells im Verhältnis zu den tatsächlichen Bezeichnungen im Testbeispieldatensatz bestimmt. Gemäß den experimentellen Bedingungen muss LLM Objekteigenschaften (Simulation von F_act, F_env oder F) und/oder Spielfortschritt (Simulation von F_R oder F) simulieren, die wie folgt definiert sind:
-
Objekteigenschaften: alle Objekte in Das Spiel umfasst jeweils die Eigenschaften eines Objekts (z. B. Temperatur, Größe) und seine Beziehung zu anderen Objekten (z. B. dass es sich innerhalb oder auf einem anderen Objekt befindet).
-
Spielfortschritt: Der Status des Agenten im Verhältnis zum Gesamtziel, einschließlich der aktuell gesammelten Belohnungen, ob das Spiel beendet wurde und ob das Gesamtziel erreicht wurde.
Die Forscher stellten fest, dass LLM in jedem Fall den vorherigen Ground-Truth-Zustand (wenn die Funktion F_env ist, ist der vorherige Zustand s^act_t+1) sowie den gesamten Aufgabenkontext bereitstellte. Das heißt, LLM führt immer eine einstufige Vorhersage durch.
Experimentelle Ergebnisse
Abbildung 1 oben zeigt, wie der Forscher kontextuelles Lernen nutzt, um die Leistung des Modells in der LLM-Sim-Aufgabe zu bewerten. Sie bewerteten die Genauigkeit von GPT-4 in den vollständigen Vorhersagemechanismen für Zustände und Zustandsdifferenzen. Das Modell empfängt den vorherigen Zustand (kodiert als JSON-Objekt), frühere Aktionen und Kontextmeldungen und erzeugt den nachfolgenden Zustand (als vollständiges JSON-Objekt oder Differenz).
Tabelle 2 unten zeigt die Genauigkeit von GPT-4 für die Simulation vollständiger Zustandsübergänge sowie für die individuelle Simulation aktionsgesteuerter Übergänge und umgebungsgesteuerter Übergänge.
Die Forscher kamen zu folgenden wichtigen Erkenntnissen:
Es ist einfacher, aktionsgesteuerte Conversions vorherzusagen, als umgebungsgesteuerte Conversions vorherzusagen. Im besten Fall ist GPT-4 in der Lage, 77,1 % der dynamischen aktionsgesteuerten Übergänge korrekt zu modellieren. Im Vergleich dazu simuliert GPT-4 höchstens 49,7 % der dynamischen, umgebungsgesteuerten Transformationen korrekt.
Statische Übergänge lassen sich leichter vorhersagen als dynamische Übergänge. Wie erwartet ist es in den meisten Fällen viel einfacher, statische Transformationen zu modellieren als dynamische Transformationen.
Bei dynamischen Zuständen ist es einfacher, den gesamten Spielzustand vorherzusagen, während es bei statischen Zuständen einfacher ist, Zustandsunterschiede vorherzusagen. Die Vorhersage von Zustandsunterschieden in dynamischen Zuständen kann die Leistung bei der Simulation statischer Übergänge erheblich verbessern (> 10 %), während die Leistung bei der Simulation dynamischer Übergänge abnimmt.
Spielregeln sind sehr wichtig, LLM kann ausreichend gute Spielregeln generieren. Wenn in der Kontextnachricht keine Spielregeln angegeben sind, verschlechtert sich in den meisten Fällen die Leistung von GPT-4 bei allen drei Simulationsaufgaben.
GPT-4 kann in den meisten Fällen den Spielfortschritt vorhersagen. Tabelle 3 unten zeigt die Ergebnisse der GPT-4-Vorhersage des Spielfortschritts. Mit Spielregelinformationen im Kontext kann GPT-4 den Spielfortschritt in 92,1 % der Testfälle korrekt vorhersagen. Das Vorhandensein dieser Regeln ist im Kontext von entscheidender Bedeutung: Ohne sie sinkt die Vorhersagegenauigkeit von GPT-4 auf 61,5 %.
Die menschliche Leistung bei LLM-Sim-Aufgaben ist besser als bei GPT-4. Die Forscher führten vorläufige Studien am Menschen zur LLM-Sim-Aufgabe durch. Die Ergebnisse sind in Tabelle 4 unten aufgeführt.
Es wurde festgestellt, dass die Gesamtgenauigkeit von Menschen 80 % betrug, während die Genauigkeit von abgetasteten LLM 50 % betrug, wobei es kaum Unterschiede zwischen verschiedenen Annotatoren gab. Dies zeigt, dass die Aufgabe zwar im Allgemeinen intuitiv und für Menschen relativ einfach ist, für LLMs jedoch noch erheblicher Raum für Verbesserungen besteht.
GPT-4 ist fehleranfälliger, wenn Arithmetik, gesunder Menschenverstand oder wissenschaftliche Kenntnisse erforderlich sind. Abbildung 2 unten zeigt den Anteil der vorhergesagten Ergebnisse, die richtig waren, den Anteil, der das Attribut auf einen falschen Wert gesetzt hat, oder den Anteil, der den Attributwert nicht geändert hat, für allgemeine Zustandsübergänge, aktionsgesteuerte Übergänge und umgebungsgesteuerte Übergänge.
Wir können beobachten, dass GPT-4 die meisten einfachen booleschen Attribute sehr gut verarbeiten kann. Fehler konzentrieren sich auf nicht triviale Eigenschaften, die Arithmetik (z. B. Temperatur, timeAboveMaxTemp), gesunden Menschenverstand (z. B. aktuelle_Apertur, aktueller_Fokus) oder wissenschaftliche Kenntnisse (z. B. on) erfordern.
Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonDie abschließende Schlussfolgerung des ACL 2024-Papiers: großes Sprachmodell ≠ Weltsimulator, Yann LeCun: Das ist so richtig. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!