Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?-KI-php.cn

Sprachmodelle haben Forschung und Praxis im Bereich der Verarbeitung natürlicher Sprache tiefgreifend verändert. In den letzten Jahren haben große Modelle in vielen Bereichen wichtige Durchbrüche erzielt. Sie müssen nicht auf nachgelagerte Aufgaben abgestimmt werden. Mit entsprechenden Anweisungen oder Eingabeaufforderungen können sie hervorragende, manchmal sogar erstaunliche Leistungen erzielen.

Zum Beispiel kann GPT-3 [1] Liebesbriefe und Skripte schreiben und komplexe mathematische Denkaufgaben mit Daten lösen, und PaLM [2] kann Witze erklären. Das obige Beispiel ist nur die Spitze des Eisbergs der Fähigkeiten großer Modelle. Viele verwandte Demos finden Sie auf der OpenAI-Website [3], aber diese Fähigkeiten spiegeln sich selten in kleinen Modellen wider.

In dem heute vorgestellten Papier werden die Fähigkeiten, über die kleine Modelle nicht verfügen, große Modelle jedoch, als aufstrebende Fähigkeiten (Emergent Abilities) bezeichnet. Dies bezieht sich auf die Fähigkeiten, die plötzlich erworben werden, nachdem der Maßstab des Modells ein bestimmtes Niveau erreicht hat . Hierbei handelt es sich um einen Prozess, bei dem quantitative Veränderungen qualitative Veränderungen hervorrufen.

Die Entstehung neuer Fähigkeiten ist schwer vorherzusagen. Warum das Modell mit zunehmender Skalierung plötzlich bestimmte Fähigkeiten erlangt, ist noch eine offene Frage, deren Beantwortung weiterer Forschung bedarf. In diesem Artikel stellt der Autor einige aktuelle Fortschritte beim Verständnis großer Modelle vor und gibt einige diesbezügliche Gedanken. Ich freue mich darauf, sie mit Ihnen zu diskutieren.

Verwandte Artikel:

Neue Fähigkeiten großer Sprachmodelle.
http://arxiv.org/abs/2206.07682
Beyond the Imitation Game: Quantifizierung und Extrapolation der Fähigkeiten von Sprachmodellen .
https://arxiv.org/abs/2206.04615

Neue Fähigkeit großer Modelle

Was ist ein großes Modell? Welche Größe gilt als „groß“? Dafür gibt es keine klare Definition.

Im Allgemeinen müssen Modellparameter möglicherweise das Milliardenniveau erreichen, um Fähigkeiten zu zeigen, die sich deutlich von den Null- und Wenigschuss-Werten kleiner Modelle unterscheiden. In den letzten Jahren gab es viele Modelle mit Hunderten Milliarden und Billionen Parametern, die bei einer Reihe von Aufgaben die SOTA-Leistung erreichten. Bei einigen Aufgaben verbessert sich die Leistung des Modells zuverlässig mit zunehmendem Maßstab, während bei anderen Aufgaben das Modell ab einem bestimmten Maßstab einen plötzlichen Leistungsanstieg zeigt. Zur Klassifizierung verschiedener Aufgaben können zwei Indikatoren verwendet werden [4]:

Linearität: Ziel ist es, das Ausmaß zu messen, in dem sich die Leistung des Modells bei der Aufgabe mit zunehmender Skala zuverlässig verbessert.

Durchbruch: Entwickelt, um zu messen, wie gut eine Aufgabe erlernt werden kann, wenn die Modellgröße einen kritischen Wert überschreitet.

Diese beiden Indikatoren sind Funktionen der Modellgröße und der Modellleistung. Spezifische Berechnungsdetails finden Sie in [4]. Die folgende Abbildung zeigt einige Beispiele für Aufgaben mit hoher Linearität und hohem Durchbruch.

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

Die meisten Aufgaben mit hoher Linearität sind wissensbasiert, was bedeutet, dass sie hauptsächlich auf dem Auswendiglernen der in den Trainingsdaten enthaltenen Informationen beruhen, beispielsweise auf der Beantwortung einiger sachlicher Fragen. Größere Modelle verwenden normalerweise mehr Daten für das Training und können sich mehr Wissen merken, sodass das Modell bei solchen Aufgaben mit zunehmendem Maßstab eine stabile Verbesserung zeigt. Zu den Aufgaben mit hohem Durchbruch gehören komplexere Aufgaben, die den Einsatz verschiedener Fähigkeiten oder die Ausführung mehrerer Schritte erfordern, um zur richtigen Antwort zu gelangen, beispielsweise mathematisches Denken. Kleinere Modelle haben Schwierigkeiten, alle für die Ausführung solcher Aufgaben erforderlichen Fähigkeiten zu erwerben.

Die folgende Abbildung zeigt weiter die Leistung verschiedener Modelle bei einigen Aufgaben mit hohem Durchbruch.

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

In einem bestimmten Maßstab gab es eine deutliche Verbesserung.

Ist es sanft oder plötzlich?

Was wir zuvor gesehen haben, ist, dass das Modell, nachdem es ein bestimmtes Niveau erreicht hat, plötzlich bestimmte Fähigkeiten erwirbt. Aus der Perspektive aufgabenspezifischer Indikatoren sind diese Fähigkeiten im Entstehen begriffen, aber aus einer anderen Perspektive sind die potenziellen Änderungen der Modellfähigkeiten größer glatt. In diesem Artikel werden die folgenden zwei Perspektiven erörtert: (1) Verwendung glatterer Indikatoren; (2) Zerlegung komplexer Aufgaben in mehrere Teilaufgaben.

Die folgende Abbildung (a) zeigt die Änderungskurve der logarithmischen Wahrscheinlichkeit des realen Ziels für einige Aufgaben mit hohem Durchbruch. Die logarithmische Wahrscheinlichkeit des realen Ziels nimmt mit zunehmender Modellgröße allmählich zu.

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

Abbildung (b) zeigt, dass für eine bestimmte Multiple-Choice-Aufgabe mit zunehmender Modellgröße die logarithmische Wahrscheinlichkeit der richtigen Antwort allmählich zunimmt, während die logarithmische Wahrscheinlichkeit der falschen Antwort bei einem bestimmten Wert liegt Vor einer bestimmten Größe nimmt es allmählich zu und flacht danach ab. Ab dieser Skala vergrößert sich die Kluft zwischen der Wahrscheinlichkeit richtiger Antworten und der Wahrscheinlichkeit falscher Antworten und das Modell erzielt deutliche Leistungsverbesserungen.

Angenommen, wir können für eine bestimmte Aufgabe Exact Match verwenden und BLEU ist ein glatterer Indikator als Exact Match .

Bei einigen Aufgaben kann das Modell teilweise in der Lage sein, diese Aufgabe in verschiedenen Maßstäben auszuführen. Das Bild unten zeigt die Aufgabe, den Namen des Films anhand einer Reihe von Emojis zu erraten in einem größeren Maßstab und höchstens in einem größeren Maßstab richtige Antworten produzieren.

Große Modelle reagieren sehr empfindlich darauf, wie die Aufgabe formalisiert wird.

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

Der Maßstab, in dem das Modell eine plötzliche Leistungsverbesserung zeigt, hängt auch davon ab, wie die Aufgabe formalisiert wird. Wenn beispielsweise bei komplexen mathematischen Argumentationsaufgaben Standard-Eingabeaufforderungen verwendet werden, um sie als Frage-Antwort-Aufgaben zu behandeln, wird die Leistungsverbesserung mit zunehmender Modellgröße sehr begrenzt sein Wird es wie in der Abbildung unten gezeigt verwendet, wird es als Frage-und-Antwort-Aufgabe behandelt. Bei der Behandlung als mehrstufige Inferenzaufgabe werden in einem bestimmten Maßstab erhebliche Leistungsverbesserungen festgestellt.

Darüber hinaus fanden Forscher heraus, dass durch das Hinzufügen einer einfachen Aufforderung „Lass uns Schritt für Schritt denken“ die Fähigkeit zum Null-Schuss-Denken von GPT-3 erheblich verbessert werden kann[6] , as Wie in der Abbildung unten dargestellt

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

Das inspiriert uns, dass große Modelle manchmal eine bestimmte Aufgabe nicht gut erledigen können, sondern dass sie einen geeigneten Weg dazu benötigen stimulieren Sie es.

Ist das Modell zwangsläufig umso stärker, je größer es ist?

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

Die vorherige Diskussion gibt uns das intuitive Gefühl, dass die Leistung mit zunehmender Modellgröße verbessert werden muss, aber ist das wirklich der Fall? Tatsächlich kann die Leistung bei einigen Aufgaben tatsächlich abnehmen, wenn das Modell größer wird, wie in der Abbildung unten gezeigt. Mehrere Forscher der New York University haben außerdem einen Wettbewerb organisiert, um die Aufgaben zu finden, bei denen die Modellleistung zunimmt verschlechtert sich, je größer das Modell wird.

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

Wenn Sie beispielsweise bei einer Frage-und-Antwort-Aufgabe Ihre Überzeugungen zusammen mit der Frage hinzufügen, wird das große Modell leichter beeinflusst. Interessierte Studierende können aufmerksam sein.

Zusammenfassung und Gedanken

Bei den meisten Aufgaben wird die Leistung des Modells mit zunehmender Modellgröße besser, es wird jedoch auch einige Gegenbeispiele geben. Um das Verhalten von Modellen besser zu verstehen, ist weitere Forschung erforderlich.

Die Fähigkeiten großer Models müssen auf geeignete Weise gefördert werden.

Führt das große Modell wirklich Inferenz durch? Wie wir bereits gesehen haben, kann das große Modell durch Hinzufügen der Aufforderung „Lasst uns Schritt für Schritt denken“ mehrstufiges Denken durchführen und zufriedenstellende Ergebnisse bei mathematischen Denkaufgaben erzielen. Es scheint, dass das Modell bereits über menschliche Denkfähigkeiten verfügt. Wenn Sie GPT-3 jedoch, wie unten gezeigt, eine bedeutungslose Frage stellen und es eine mehrstufige Argumentation durchführen lassen, scheint GPT-3 eine Argumentation durchzuführen, tatsächlich handelt es sich jedoch um eine bedeutungslose Ausgabe. Wie das Sprichwort sagt: „Müll rein, Müll raus“. Im Vergleich dazu kann der Mensch beurteilen, ob die Frage sinnvoll ist, das heißt, ob die aktuelle Frage unter bestimmten Bedingungen beantwortbar ist. „Lass uns Schritt für Schritt denken“ kann funktionieren. Der Hauptgrund dafür ist, dass GPT-3 im Gegensatz zu Menschen viele ähnliche Daten gesehen hat. Es gibt immer noch grundlegende Unterschiede in der Denkweise. Wenn GPT-3 entsprechende Aufforderungen erhält, um festzustellen, ob die Frage vernünftig ist, kann dies natürlich bis zu einem gewissen Grad gelingen, aber ich fürchte, zwischen „Denken“ und „Begründen“ besteht immer noch ein beträchtlicher Abstand. Dies ist keine einfache Angelegenheit, die durch eine Vergrößerung des Modells gelöst werden kann. Modelle müssen möglicherweise nicht wie Menschen denken, aber es ist dringend mehr Forschung erforderlich, um andere Wege als die Vergrößerung der Modellgröße zu erkunden.

Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?

System 1 oder System 2? Das menschliche Gehirn verfügt über zwei Systeme, die miteinander kooperieren: System 1 (Intuition) ist schnell und automatisch, während System 2 (Rationalität) langsam und kontrollierbar ist. Zahlreiche Experimente haben gezeigt, dass Menschen ihre Urteile und Entscheidungen lieber anhand ihrer Intuition fällen und dass Rationalität die dadurch verursachten Vorurteile korrigieren kann. Die meisten aktuellen Modelle basieren auf System 1 oder System 2. Können zukünftige Modelle auf Basis dualer Systeme entwickelt werden?

Abfragesprache im Zeitalter großer Modelle. Bisher haben wir Wissen und Daten in Datenbanken und Wissensgraphen gespeichert. Wir können SQL verwenden, um relationale Datenbanken abzufragen, und SPARQL, um Wissensgraphen abzufragen. Welche Abfragesprache verwenden wir also, um das Wissen und die Fähigkeiten großer Modelle abzurufen?

Herr Mei Yiqi sagte einmal: „Mit dem sogenannten großen Gelehrten ist kein Gebäude gemeint, sondern ein Meister.“ Der Autor beendet diesen Artikel mit einer unangemessenen Analogie: der sogenannte große Modellmensch Das bedeutet nicht, dass es Parameter gibt, sondern dass es Fähigkeiten gibt.

Das obige ist der detaillierte Inhalt vonGoogle und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!