Sie können Filme anhand von Emoticons erraten. Woher kommt die „Emergenz'-Fähigkeit von ChatGPT?

WBOY
Freigeben: 2023-04-04 12:00:04
nach vorne
1321 Leute haben es durchsucht

Da große Sprachmodelle wie ChatGPT nun leistungsfähig genug sind, zeigen sie überraschendes und unvorhersehbares Verhalten.

Bevor wir diesen Artikel offiziell vorstellen, stellen wir eine Frage: Welchen Film beschreibt das Emoticon im Bild unten?

Sie können Filme anhand von Emoticons erraten. Woher kommt die „Emergenz-Fähigkeit von ChatGPT?

Sie können möglicherweise nicht einmal erraten, dass es sich bei dem durch diese vier Symbole dargestellten Film um „Findet Nemo“ handelt. Diese prompte Aufgabe war eine der 204 Aufgaben, die letztes Jahr zur Bewertung großer Sprachmodelle (LLM) verwendet wurden. Für das einfachste LLM-Modell ist die Antwort eher zufällig, und es wird angenommen, dass dieser Film die Geschichte eines Mannes erzählt. Für das relativ komplexe mittelgroße Modell lautet die Antwort „The Emoji Movie“. . Aber das komplexeste Modell hat es richtig erraten und die Antwort „Findet Nemo“ gegeben.

Der Google-Informatiker Ethan Dyer sagte: „Dieses Verhalten des Modells ist überraschend. Was noch überraschender ist, ist, dass diese Modelle nur Anweisungen verwenden: Das heißt, sie akzeptieren eine Textzeichenfolge als Eingabe und sagen dann voraus, was als nächstes passieren wird.“ Und wiederholen Sie diesen Vorgang immer wieder, basierend ausschließlich auf Statistiken.“ Einige Wissenschaftler begannen zu erwarten, dass die Skalierung des Modells die Leistung bei bekannten Aufgaben verbessern würde, aber sie hatten nicht damit gerechnet, dass diese Modelle plötzlich in der Lage sein würden, so viele neue, unvorhersehbare Aufgaben.

Eine kürzlich von Ethan Dyer durchgeführte Umfrage zeigt, dass LLM Hunderte von „emergenten“ Fähigkeiten schaffen kann, also die Fähigkeit großer Modelle, bestimmte Aufgaben zu erledigen, die kleine Modelle nicht erledigen können. Offensichtlich nimmt die Fähigkeit zur Skalierung des Modells zu, von der einfachen Multiplikation über die Generierung von ausführbarem Computercode bis hin zur Dekodierung von Filmen basierend auf Emojis. Neue Analysen zeigen, dass es für bestimmte Aufgaben und bestimmte Modelle eine Komplexitätsschwelle gibt, ab der die Fähigkeiten des Modells in die Höhe schießen. Die Forscher wiesen jedoch auch auf die negativen Auswirkungen der Modellskalierung hin, das heißt, dass einige Modelle mit zunehmender Komplexität neue Verzerrungen und Ungenauigkeiten in ihren Antworten aufweisen.

Rishi Bommasani, ein Informatiker an der Stanford University, der letztes Jahr dabei geholfen hat, eine Liste von Dutzenden modellbedingten Verhaltensweisen zusammenzustellen, sagte: „In der gesamten Literatur, die mir bekannt ist, gab es nie eine Diskussion darüber, dass Sprachmodelle diese Dinge tun.“ .“ , das mehrere Verhaltensweisen umfasst, die in Ethan Dyers Projekt identifiziert wurden. Heute wächst die Liste weiter.

Heutzutage kämpfen Forscher nicht nur darum, die Emergenzfähigkeit großer Modelle zu bestimmen, sondern auch herauszufinden, warum und wie sie auftreten – im Wesentlichen versuchen sie, die Unvorhersehbarkeit vorherzusagen. Das Verständnis seiner aufstrebenden Natur kann Antworten auf tiefgreifende Fragen im Zusammenhang mit künstlicher Intelligenz und maschinellem Lernen liefern, beispielsweise ob komplexe Modelle tatsächlich etwas Neues bewirken oder einfach nur sehr gut in der Statistik werden. Darüber hinaus kann es Forschern dabei helfen, potenzielle Vorteile zu nutzen und neu auftretende Risiken zu reduzieren.

Emergenz

Biologen, Physiker, Ökologen und andere Wissenschaftler verwenden den Begriff Emergenz, um das selbstorganisierende kollektive Verhalten zu beschreiben, das auftritt, wenn eine große Gruppe von Dingen als Einheit agiert. Die Kombination unbelebter Atome erzeugt lebende Zellen; das spektakuläre Naturschauspiel von Starenschwärmen, die in ständig wechselnden, aber erkennbaren Formationen über den Himmel fliegen, bringt Zellen in Bewegung und Herzen. Entscheidend ist, dass neue Fähigkeiten in Systemen auftreten, an denen viele unabhängige Teile beteiligt sind. Allerdings konnten Forscher diese entstehende Kraft in LLMs erst kürzlich dokumentieren, da die Modelle gerade erst ausreichend große Maßstäbe erreicht haben.

Sprachmodelle gibt es schon seit Jahrzehnten. Bis vor etwa fünf Jahren basierten die leistungsstärksten Modelle auf wiederkehrenden neuronalen Netzen. Diese Modelle nehmen im Wesentlichen eine Textfolge und sagen voraus, wie das nächste Wort lauten wird. Was eine Modellschleife ausmacht, ist, dass sie aus ihrer eigenen Ausgabe lernt: Ihre Vorhersagen werden in das Netzwerk zurückgekoppelt, um die zukünftige Leistung zu verbessern.

Im Jahr 2017 führten Forscher von Google Brain eine neue Architektur namens Transformer ein. Während das rekurrente Netzwerk den Satz Wort für Wort analysiert, verarbeitet der Transformer alle Wörter gleichzeitig. Dies bedeutet, dass Transformer große Textmengen parallel verarbeiten kann.

„Es ist wahrscheinlich, dass das Modell etwas grundlegend Neues und Anderes gelernt hat, was es bei kleineren Modellen nicht gelernt hat“, sagt Ellie Pavlick von der Brown University.

Transformer können die Komplexität von Sprachmodellen schnell steigern, indem sie unter anderem die Anzahl der Parameter im Modell erhöhen. Diese Parameter können als Verbindungen zwischen Wörtern betrachtet werden, und durch Mischen des Textes während des Trainings können Transformatoren diese Verbindungen anpassen, um das Modell zu verbessern. Je mehr Parameter ein Modell enthält, desto genauer kann es Zusammenhänge herstellen und desto näher kommt es der Nachahmung der menschlichen Sprache. Wie erwartet ergab eine Analyse von OpenAI-Forschern aus dem Jahr 2020, dass Modelle mit zunehmender Skalierung die Genauigkeit und Leistung verbessern.

Aber das Aufkommen groß angelegter Sprachmodelle bringt auch viele wirklich unerwartete Dinge mit sich. Mit dem Aufkommen von Modellen wie GPT-3, das über 175 Milliarden Parameter verfügt, oder Google PaLM, das auf 540 Milliarden Parameter skaliert, beginnen Benutzer, immer mehr aufkommende Verhaltensweisen zu beschreiben. Ein DeepMind-Ingenieur berichtete sogar, dass er ChatGPT davon überzeugen konnte, zuzugeben, dass es sich um ein Linux-Terminal handelte, und es einen einfachen mathematischen Code ausführen zu lassen, um die ersten 10 Primzahlen zu berechnen. Bemerkenswert ist, dass die Aufgabe viel schneller erledigt wird, als wenn derselbe Code auf einem echten Linux-Gerät ausgeführt wird.

Wie bei der Aufgabe, Filme durch Emojis zu beschreiben, haben die Forscher keinen Grund zu der Annahme, dass Sprachmodelle, die zur Vorhersage von Text erstellt wurden, dazu überredet werden könnten, zur Nachahmung von Computerterminals verwendet zu werden. Viele dieser aufkommenden Verhaltensweisen zeigen Zero-Shot- oder Fence-Shot-Lernen und beschreiben die Fähigkeit von LLMs, Probleme zu lösen, die noch nie (oder selten) zuvor aufgetreten sind. Dies sei ein langfristiges Ziel der Forschung im Bereich der künstlichen Intelligenz gewesen, sagte Ganguli. Es habe auch gezeigt, dass GPT-3 Probleme in einer Zero-Shot-Umgebung ohne explizite Trainingsdaten lösen könne, sagte Ganguli: „Es hat mich dazu gebracht, mit dem aufzuhören, was ich getan habe, und mich stärker auf diese Forschung einzulassen.“ dieses Forschungsgebiet. Die ersten Hinweise darauf, dass LLMs die Grenzen ihrer Trainingsdaten überwinden können, wurden von einer Vielzahl von Forschern entdeckt, die daran arbeiten, besser zu verstehen, wie Emergenz aussieht und wie sie auftritt. Und der erste Schritt besteht darin, es gründlich und umfassend zu dokumentieren.

Ethan Dyer hilft bei der Erforschung der unerwarteten Fähigkeiten großer Sprachmodelle und was sie mit sich bringen. -Gabrielle Lurie


Beyond Imitation

Im Jahr 2020 sagten Dyer und andere Forscher bei Google Research voraus, dass große Sprachmodelle transformative Auswirkungen haben würden – aber welche Auswirkungen diese haben würden, bleibt eine offene Frage. Daher baten sie die Forschungsgemeinschaft, Beispiele für schwierige und vielfältige Aufgaben bereitzustellen, um die äußeren Grenzen dessen zu dokumentieren, was Tracking-LLMs leisten können. Das als BIG-bench-Projekt (Beyond the Imitation Game Benchmark) bekannte Projekt, das seinen Namen von Alan Turings Nachahmungsspiel entlehnt, sollte testen, ob Computer Fragen auf überzeugend menschliche Weise beantworten können. (Dies wurde als Turing-Test bekannt.) Die Forschungsgruppe war besonders an Beispielen interessiert, bei denen LLMs plötzlich neue und beispiellose Fähigkeiten erlangten.

Wie zu erwarten, verbessert sich die Modellleistung bei einigen Aufgaben mit zunehmender Komplexität konsistenter und vorhersehbarer. Bei anderen Aufgaben führte die Erweiterung der Parameteranzahl zu keiner Verbesserung der Modellleistung. Und bei etwa fünf Prozent der Aufgaben stellten die Forscher einen sogenannten Durchbruch fest – einen schnellen, dramatischen Leistungssprung über einen bestimmten Schwellenwert. Dieser Schwellenwert variiert jedoch je nach Aufgabe und Modell.

Zum Beispiel ist ein Modell mit relativ wenigen Parametern (nur ein paar Millionen) möglicherweise nicht in der Lage, ein dreistelliges Additions- oder ein zweistelliges Multiplikationsproblem erfolgreich zu lösen, aber mit zig Milliarden Parametern ist die Genauigkeit einiger Modelle geringer wird steigen. Ähnliche Leistungssprünge wurden bei einer Reihe anderer Aufgaben beobachtet, darunter beim Entschlüsseln des Internationalen Phonetischen Alphabets, beim Entschlüsseln der Buchstaben eines Wortes, beim Erkennen anstößiger Inhalte in Passagen auf Hinglisch (einer Kombination aus Hindi und Englisch) und beim Generieren von Texten, die sich auf Swahili beziehen Englische Äquivalente von Sprichwörtern.

Die Forscher erkannten jedoch bald, dass die Komplexität des Modells nicht der einzige Treiber für seine Leistung war. Wenn die Datenqualität hoch genug ist, können einige unerwartete Fähigkeiten aus kleineren Modellen mit weniger Parametern abgeleitet oder auf kleineren Datensätzen trainiert werden. Darüber hinaus kann die Art und Weise, wie eine Anfrage formuliert ist, die Genauigkeit der Antwort des Modells beeinflussen. Als Dyer und Kollegen beispielsweise ein Multiple-Choice-Format für eine Film-Emoji-Aufgabe verwendeten, verbesserte sich die Genauigkeit nicht schlagartig, sondern mit zunehmender Modellkomplexität allmählich. Letztes Jahr zeigten Forscher von Google Brain in einem auf der NeurIPS, der führenden akademischen Konferenz auf diesem Gebiet, vorgestellten Artikel, wie sich ein Modell mit Eingabeaufforderungen selbst erklären kann (eine Fähigkeit, die als Gedankenkettenschlussfolgerung bekannt ist) und ein mathematisches Wortproblem richtig löst dass das gleiche Modell ohne die Eingabeaufforderung nicht gelöst werden könnte.

Solange Sie die Auswirkungen der Modellgröße nicht untersucht haben, werden Sie nicht wissen, welche Fähigkeiten es möglicherweise hat und welche Mängel es möglicherweise hat.

Yi Tay, ein Wissenschaftler für systematische Forschung bei Google Brain, wies darauf hin, dass neuere Forschungsergebnisse zeigen, dass die Eingabeaufforderung der Denkkette die Expansionskurve und damit den Knoten ändert, an dem das Modell entsteht. In ihrem NeurIPS-Artikel zeigen Google-Forscher, dass die Verwendung von Gedankenkettenaufforderungen aufkommendes Verhalten hervorrufen kann, das in der BIG-Bench-Studie nicht identifiziert wurde. Solche Aufforderungen, die Modelle erfordern, um ihre Argumentation zu erklären, können Forschern dabei helfen, zu untersuchen, warum es zu Emergenz kommt.

Diese jüngsten Erkenntnisse deuten auf mindestens zwei Möglichkeiten hin, warum Emergenz auftritt, sagt Ellie Pavlick, Informatikerin an der Brown University, die Computermodelle der Sprache untersucht. Die erste Möglichkeit besteht darin, dass größere Modelle spontan neue Fähigkeiten erwerben, wie Vergleiche mit biologischen Systemen nahelegen. Es könnte sehr gut sein, dass das Modell etwas völlig Neues und Anderes gelernt hat, was es bei dem kleineren Modell nicht hatte, was wir alle hoffen, dass etwas Grundlegendes passiert, wenn das Modell vergrößert wird.

Ellie Pavlick weist auch darauf hin, dass eine weitere relativ normale und objektive Möglichkeit darin besteht, dass das, was scheinbar entsteht, stattdessen der Höhepunkt eines internen, statistisch gesteuerten Prozesses sein könnte, der durch mentales Kettendenken abläuft. Große LLMs lernen möglicherweise einfach Heuristiken, die für kleinere Modelle mit weniger Parametern oder Daten von geringerer Qualität unverständlich sind.

Aber Pavlick glaubt, dass wir nicht sagen können, was vor sich geht, weil wir den zugrunde liegenden Funktionsmechanismus des Modells nicht kennen.

Unvorhersehbare Fähigkeiten und Mängel

Aber große Modelle haben auch Mängel. Beispielsweise hat Bard, der vor einiger Zeit von Google gestartete Chat-Roboter mit künstlicher Intelligenz, bei der Beantwortung von Fragen zum James Webb-Weltraumteleskop sachliche Fehler gemacht.

Emergenz führt zu Unvorhersehbarkeit, und Unvorhersehbarkeit – die mit zunehmender Größe des Modells zuzunehmen scheint – ist für Forscher schwer zu kontrollieren.

„Es ist schwer, im Voraus zu wissen, wie diese Modelle verwendet oder eingesetzt werden“, sagte Ganguli. „Um Emergenzphänomene zu untersuchen, müssen Sie eine Situation berücksichtigen. Bevor Sie die Auswirkungen der Modellgröße untersuchen, wissen Sie nicht, welche Fähigkeiten es haben kann und welche Mängel es hat. In der Analyse wurde im Juni letzten Jahres ein LLM veröffentlicht. Anthropic-Forscher untersuchten, ob diese Modelle möglicherweise bestimmte Arten von rassistischen oder sozialen Vorurteilen aufweisen, die sich von denen unterscheiden, die zuvor von nicht auf LLM basierenden Algorithmen zur Vorhersage, welche ehemaligen Straftäter wahrscheinlich erneut straffällig werden, gemeldet wurden. Die Forschung wurde von einem offensichtlichen Paradoxon inspiriert, das direkt mit der Emergenz zusammenhängt: Wenn Modelle mit zunehmender Skalierung ihre Leistung verbessern, erhöhen sie möglicherweise auch die Wahrscheinlichkeit unvorhersehbarer Phänomene, einschließlich solcher, die zu Verzerrungen führen oder Schaden anrichten können.

„Bestimmte schädliche Verhaltensweisen werden bei bestimmten Modellen auftauchen“, sagte Ganguli. Er verweist auf eine aktuelle Analyse des LLM – auch bekannt als BBQ-Benchmark –, die zeigte, dass soziale Voreingenommenheit bei einem breiten Spektrum von Parametern auftritt. „Größere Modelle werden plötzlich voreingenommener“, sagte er, ein Risiko, das die Verwendung dieser Modelle gefährden könnte, wenn es nicht angegangen wird.

Aber er machte auch einen Kontrapunkt: Wenn Forscher den Modellen einfach sagen, sie sollen sich nicht auf Stereotypen oder soziale Vorurteile verlassen – im wahrsten Sinne des Wortes, indem sie ihnen diese Anweisungen geben – sind die Modelle weniger voreingenommen in ihren Vorhersagen und Antworten. Dies deutet darauf hin, dass einige neue Eigenschaften auch zur Reduzierung von Verzerrungen genutzt werden können. In einem im Februar veröffentlichten Artikel berichtete das Anthropic-Team über eine neue Art der moralischen Selbstkorrektur, bei der Benutzer Programme dazu auffordern, hilfreich, ehrlich und harmlos zu sein.

Ganguli sagte, dass die Entstehung sowohl das erstaunliche Potenzial großer Sprachmodelle als auch ihre unvorhersehbaren Risiken offenbart. Die Anwendungen dieser LLMs haben zugenommen, sodass ein besseres Verständnis dieser Dualität dazu beitragen wird, die Vielfalt der Sprachmodellfunktionen auszuschöpfen.

Ganguli sagte: „Wir untersuchen, wie Benutzer diese Systeme tatsächlich nutzen, aber sie basteln auch ständig an diesen Systemen herum und verbessern sie. Wir verbringen viel Zeit damit, einfach mit unseren Modellen zu chatten, damit sie besser funktionieren. Und das ist tatsächlich der Zeitpunkt, an dem wir.“ fing an, diesen Modellen zu vertrauen.“

Das obige ist der detaillierte Inhalt vonSie können Filme anhand von Emoticons erraten. Woher kommt die „Emergenz'-Fähigkeit von ChatGPT?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage