Yann LeCun sagt, dass Riesenmodelle das Ziel, sich der menschlichen Intelligenz anzunähern, nicht erreichen können-KI-php.cn

„Sprache trägt nur einen kleinen Teil des gesamten menschlichen Wissens; das meiste menschliche Wissen und das gesamte tierische Wissen sind nicht sprachlich; daher können große Sprachmodelle nicht an Intelligenz auf menschlicher Ebene herankommen“, so Turing-Preisträger Yann LeCun. Die neuesten Überlegungen dazu die Aussichten der künstlichen Intelligenz.

Yann LeCun：大模型方向错了，智力无法接近人类

Gestern wurde sein neuer Artikel, den er gemeinsam mit dem Postdoc Jacob Browning von der New York University verfasst hat, in NOEMA veröffentlicht und löste eine Diskussion aus.

In dem Artikel diskutiert der Autor das derzeit beliebte groß angelegte Sprachmodell und glaubt, dass es offensichtliche Grenzen hat. Die Richtung zukünftiger Bemühungen im Bereich der KI könnte darin bestehen, Maschinen Vorrang beim Verständnis anderer Wissensebenen in der realen Welt einzuräumen.

Mal sehen, was sie zu sagen haben.

Vor einiger Zeit behauptete der ehemalige KI-Ethikforscher von Google, Blake Lemoine, dass der KI-Chatbot LaMDA so bewusst sei wie ein Mensch, was in der Branche für Aufruhr sorgte.

LaMDA ist eigentlich ein Large Language Model (LLM), das entwickelt wurde, um das nächstmögliche Wort für einen beliebigen Text vorherzusagen. Da viele Gespräche bis zu einem gewissen Grad vorhersehbar sind, können diese Systeme Rückschlüsse darauf ziehen, wie das Gespräch effizient gehalten werden kann. LaMDA leistet bei dieser Art von Aufgabe so gute Arbeit, dass Blake Lemoine begann, sich zu fragen, ob KI „Bewusstsein“ hat.

Forscher auf diesem Gebiet haben unterschiedliche Ansichten zu diesem Thema: Einige Leute spotten über die Idee, dass Maschinen bewusst sind; andere denken, dass das LaMDA-Modell möglicherweise nicht bewusst ist, aber das nächste Modell könnte bewusst sein. Andere weisen darauf hin, dass es für Maschinen nicht schwer sei, Menschen zu „betrügen“.

Die Vielfalt der Antworten verdeutlicht ein tieferes Problem: Da LLMs immer häufiger und leistungsfähiger werden, scheint es immer schwieriger zu werden, sich auf unsere Ansichten zu diesen Modellen zu einigen. Im Laufe der Jahre haben diese Systeme viele Benchmarks für das sprachliche Denken mit „gesundem Menschenverstand“ übertroffen, doch im Test scheinen diese Systeme wenig ausgeprägten gesunden Menschenverstand zu haben und neigen sogar dazu, Unsinn zu machen und unlogische und gefährliche Vorschläge zu machen. Dies wirft eine beunruhigende Frage auf: Wie können diese Systeme so intelligent sein und dennoch über so begrenzte Fähigkeiten verfügen?

Tatsächlich ist das grundlegendste Problem nicht die künstliche Intelligenz, sondern die Begrenztheit der Sprache. Sobald wir die Annahme über den Zusammenhang zwischen Bewusstsein und Sprache aufgeben, sind diese Systeme dazu bestimmt, nur ein oberflächliches Verständnis der Welt zu haben und niemals annähernd das „umfassende Denken“ des Menschen zu erreichen. Kurz gesagt: Obwohl diese Modelle bereits zu den beeindruckendsten KI-Systemen auf dem Planeten gehören, werden diese KI-Systeme niemals so intelligent sein wie wir Menschen.

Während eines Großteils des 19. und 20. Jahrhunderts war ein Hauptthema in Philosophie und Wissenschaft: Wissen ist nur Sprache. Das bedeutet, dass man zum Verständnis einer Sache nur den Inhalt eines Satzes verstehen und diesen Satz mit anderen Sätzen in Beziehung setzen muss. Nach dieser Logik wäre die ideale Sprachform eine logisch-mathematische Form, die aus beliebigen Symbolen besteht, die durch strenge Inferenzregeln verbunden sind.

Der Philosoph Wittgenstein sagte: „Die Gesamtheit der wahren Sätze ist die Naturwissenschaft.“ Diese Position wurde im 20. Jahrhundert etabliert und löste später viele Kontroversen aus.

Einige hochgebildete Intellektuelle vertreten immer noch die Ansicht: „Alles, was wir wissen können, kann in einer Enzyklopädie enthalten sein. Wenn wir also den gesamten Inhalt der Enzyklopädie lesen, erhalten wir ein umfassendes Verständnis für alles. Auch diese Perspektive inspiriert.“ Ein Großteil der frühen Arbeiten zur symbolischen KI, die die symbolische Verarbeitung als Standardparadigma beinhalteten. Für diese Forscher besteht KI-Wissen aus großen Datenbanken realer Sätze, die durch manuelle Logik miteinander verbunden sind. Ziel des KI-Systems ist es, den richtigen Satz zur richtigen Zeit auszugeben, also Symbole angemessen zu verarbeiten . .

Dieses Konzept ist die Grundlage des Turing-Tests: Wenn eine Maschine alles „sagt“, was sie sagen soll, bedeutet das, dass sie weiß, was sie sagt, weil sie die richtigen Sätze kennt und weiß, wann sie zu verwenden ist Wissen über künstliche Intelligenz.

Aber diese Ansicht wurde heftig kritisiert. Das Gegenargument lautet: Nur weil eine Maschine über Dinge sprechen kann, heißt das nicht, dass sie versteht, was gesagt wird. Dies liegt daran, dass Sprache nur eine sehr spezifische und sehr begrenzte Darstellung von Wissen ist. Alle Sprachen, ob Programmiersprachen, symbolische Logiksprachen oder alltägliche gesprochene Sprachen, ermöglichen eine bestimmte Art von Darstellungsmodus; sie sind gut darin, diskrete Objekte und Eigenschaften und die Beziehungen zwischen ihnen auf einem sehr hohen Abstraktionsniveau auszudrücken.

Allerdings beinhalten alle Darstellungsarten eine Komprimierung von Informationen über Dinge, unterscheiden sich jedoch darin, was bei der Komprimierung übrig bleibt und was weggelassen wird. Dem Darstellungsmodus der Sprache fehlen möglicherweise bestimmte Informationen, etwa die Beschreibung unregelmäßiger Formen, die Bewegung von Objekten, die Funktionen komplexer Mechanismen oder die sorgfältigen Pinselstriche in Gemälden usw. Einige nichtsprachliche Darstellungsschemata können diese Informationen auf leicht verständliche Weise ausdrücken, darunter ikonisches Wissen, verteiltes Wissen usw.

Die Grenzen der Sprache

Um die Mängel des Sprachdarstellungsmodells zu verstehen, müssen wir zunächst erkennen, wie viele Informationen Sprache vermittelt. Tatsächlich handelt es sich bei der Sprache um eine Methode zur Informationsübertragung mit sehr geringer Bandbreite, insbesondere wenn einzelne Wörter oder Sätze ohne Kontext nur wenig Informationen vermitteln. Darüber hinaus ist die Bedeutung vieler Sätze aufgrund der großen Anzahl an Homophonen und Pronomen sehr unklar. Forscher wie Chomsky haben darauf hingewiesen: Sprache ist kein klares und eindeutiges Kommunikationsmittel.

Aber Menschen brauchen keine perfekten Kommunikationsmittel, weil wir ein gemeinsames System zum Verstehen nonverbaler Sprache haben. Unser Verständnis eines Satzes hängt oft von einem tiefen Verständnis des Kontexts ab, in den der Satz gestellt wird, was es uns ermöglicht, auf die Bedeutung des sprachlichen Ausdrucks zu schließen. Wir sprechen oft direkt über die aktuelle Angelegenheit, beispielsweise über ein Fußballspiel. Oder mit einer sozialen Rolle in einer Situation kommunizieren, beispielsweise beim Bestellen von Essen bei einem Kellner.

Das Gleiche gilt für das Lesen von Textpassagen – eine Aufgabe, die den Zugang der KI zum gesunden Menschenverstand untergräbt, aber eine beliebte Methode ist, Kindern kontextfreies Leseverständnis zu vermitteln. Dieser Ansatz konzentriert sich auf die Verwendung allgemeiner Leseverständnisstrategien, um Text zu verstehen. Untersuchungen zeigen jedoch, dass der Umfang des Hintergrundwissens, das ein Kind über das Thema hat, tatsächlich ein Schlüsselfaktor für das Verständnis ist. Um zu verstehen, ob ein Satz oder Absatz korrekt ist, ist ein grundlegendes Verständnis des Themas erforderlich.

„Es ist klar, dass diese Systeme im oberflächlichen Verständnis stecken bleiben und niemals annähernd die gesamte Bandbreite des menschlichen Denkens erreichen werden.“

Der inhärente Kontextcharakter von Wörtern und Sätzen steht im Mittelpunkt der Arbeit von LLM. Neuronale Netze repräsentieren typischerweise Wissen als Know-how, also die kompetente Fähigkeit, Muster zu erfassen, die stark kontextsensitiv sind, und Regelmäßigkeiten (konkret und abstrakt) zusammenzufassen, die notwendig sind, um Eingaben aufwendig zu verarbeiten, aber nur begrenzt geeignet sind Aufgaben.

In LLM geht es darum, dass das System Muster auf mehreren Ebenen des vorhandenen Textes erkennt und sowohl erkennt, wie Wörter innerhalb eines Absatzes verbunden sind, als auch wie Sätze innerhalb der größeren Absätze, aus denen sie bestehen, verbunden sind. Das Ergebnis ist, dass das Sprachverständnis eines Modells zwangsläufig kontextsensitiv ist. Jedes Wort wird nicht nach seiner Wörterbuchbedeutung verstanden, sondern nach seiner Rolle in verschiedenen Sätzen. Da viele Wörter – wie „Vergaser“, „Menü“, „Tuning“ oder „Elektronik“ – fast ausschließlich in bestimmten Bereichen verwendet werden, wird selbst ein isolierter Satz mit einem dieser Wörter vorhersehbar aus dem Kontext gerissen.

Kurz gesagt, LLM ist darauf trainiert, das Hintergrundwissen jedes Satzes zu verstehen und sich die umgebenden Wörter und Sätze anzusehen, um zusammenzusetzen, was passiert. Dies gibt ihnen endlose Möglichkeiten, verschiedene Sätze oder Phrasen als Input zu verwenden und vernünftige (wenn auch kaum fehlerfreie) Möglichkeiten zu finden, ein Gespräch fortzusetzen oder den Rest eines Artikels zu ergänzen. Ein auf von Menschen geschriebenen Absätzen trainiertes System zur Verwendung in der täglichen Kommunikation sollte über das allgemeine Verständnis verfügen, das erforderlich ist, um qualitativ hochwertige Gespräche führen zu können.

Flaches Verständnis

Manche Menschen zögern, das Wort „Verstehen“ in diesem Zusammenhang zu verwenden oder LLM „Intelligenz“ zu nennen. Man kann noch nicht sagen, dass semantisches Verständnis irgendjemanden überzeugt hat. Kritiker werfen diesen Systemen vor, eine Form der Nachahmung zu sein – und das zu Recht. Dies liegt daran, dass LLMs Sprachverständnis zwar beeindruckend, aber oberflächlich ist. Diese oberflächliche Erkenntnis kommt einem bekannt vor: Klassenzimmer voller „Jargon sprechender“ Studenten, die keine Ahnung haben, wovon sie reden – und im Grunde genommen ihre Professoren oder den Text, den sie lesen, nachahmen. Es ist einfach ein Teil des Lebens. Wir sind oft unklar darüber, was wir wissen, insbesondere im Hinblick auf das aus der Sprache gewonnene Wissen.

LLM eignet sich dieses oberflächliche Verständnis für alles an. Systeme wie GPT-3 werden trainiert, indem sie Teile eines Satzes ausblenden oder das nächste Wort in einem Absatz vorhersagen, wodurch die Maschine gezwungen wird, das Wort zu erraten, das die Lücke am wahrscheinlichsten füllt, und falsche Vermutungen zu korrigieren. Mit der Zeit ist das System in der Lage, die wahrscheinlichsten Wörter zu erraten, was es zu einem effektiven Vorhersagesystem macht.

Das bringt echtes Verständnis mit sich: Auf jede Frage oder jedes Rätsel gibt es meist nur wenige richtige Antworten, aber unendlich viele falsche Antworten. Dies zwingt das System dazu, sprachspezifische Fähigkeiten zu erlernen, etwa das Dolmetschen von Witzen, das Lösen von Wortproblemen oder das Lösen von Logikrätseln, um regelmäßig die richtigen Antworten auf diese Art von Fragen vorherzusagen.

Diese Fähigkeiten und das damit verbundene Wissen ermöglichen es Maschinen, zu erklären, wie komplexe Dinge funktionieren, schwierige Konzepte zu vereinfachen, Geschichten neu zu schreiben und nachzuerzählen und viele andere sprachbezogene Fähigkeiten zu erwerben. Wie Symbolic AI postuliert, repräsentieren Maschinen anstelle einer riesigen Datenbank von Sätzen, die durch logische Regeln verknüpft sind, Wissen als kontextuelle Hervorhebungen, die verwendet werden, um anhand der vorherigen Zeile einen vernünftigen nächsten Satz zu bilden.

„Wenn wir die Vorstellung aufgeben, dass alles Wissen verbal ist, wird uns klar, wie viel von unserem Wissen nonverbal ist.“

#🎜 🎜#

Aber die Fähigkeit, ein Konzept in Worten zu erklären, unterscheidet sich von der Fähigkeit, es tatsächlich anzuwenden. Das System kann erklären, wie man eine lange Division durchführt, ohne dazu in der Lage zu sein, oder es kann erklären, was damit nicht vereinbar ist, und es dennoch gerne weiter erklären. Kontextuelles Wissen ist in einer Form eingebettet – der Fähigkeit, Sprachkenntnisse zu verbalisieren –, in einer anderen jedoch nicht – als Fähigkeiten, wie man Dinge angeht, wie etwa Einfühlungsvermögen oder der sensible Umgang mit schwierigen Themen.

Letztere Art von Fachwissen ist für Sprachanwender unerlässlich, ermöglicht es ihnen jedoch nicht, Sprachkenntnisse zu beherrschen – die Sprachkomponente ist nicht primär. Dies gilt für viele Konzepte, auch für solche, die aus Vorlesungen und Büchern gelernt werden: Während der naturwissenschaftliche Unterricht eine Vorlesungskomponente hat, basieren die Ergebnisse der Studierenden in erster Linie auf ihrer Arbeit im Labor. Besonders außerhalb der Geisteswissenschaften ist die Fähigkeit, über etwas sprechen zu können, oft nicht so nützlich oder wichtig wie die grundlegenden Fähigkeiten, die erforderlich sind, damit die Dinge funktionieren.

Wenn wir tiefer graben, ist es leicht zu erkennen, wie oberflächlich diese Systeme tatsächlich sind: Ihre Aufmerksamkeitsspanne und Erinnerungen entsprechen in etwa einem Absatz. Wenn wir uns unterhalten, übersieht man das leicht, da wir uns meist auf die letzten ein oder zwei Kommentare konzentrieren und uns mit der nächsten Antwort auseinandersetzen.

Aber der Trick für komplexere Gespräche – aktives Zuhören, das Abrufen und Wiederholen früherer Kommentare, das Festhalten an einem Thema, um einen bestimmten Punkt hervorzuheben und gleichzeitig Ablenkungen zu vermeiden und so weiter – Alle erfordern mehr Aufmerksamkeit und Gedächtnis als Maschinen.

Das schränkt die Art der Dinge, die sie verstehen können, noch weiter ein: Es ist leicht, sie auszutricksen, indem man das Thema wechselt, die Sprache ändert oder sich alle paar Minuten komisch verhält. Gehen Sie zu weit zurück und das System beginnt von vorne, mischt Ihre neuen Ansichten mit alten Kommentaren in einen Topf, wechselt die Chat-Sprache mit Ihnen oder glaubt alles, was Sie sagen. Das zur Entwicklung einer kohärenten Weltanschauung notwendige Verständnis übersteigt bei weitem die Fähigkeiten von Maschinen.

Außerhalb der Sprache

Wenn wir die Idee aufgeben, dass alles Wissen sprachlich ist, erkennen wir, dass ein beträchtlicher Teil unseres Wissens nichtsprachlich ist von. Während Bücher viele Informationen enthalten, die wir entpacken und verwenden können, gilt das Gleiche auch für viele andere Artikel: In den Anleitungen von IKEA wird nicht einmal die Mühe gemacht, Überschriften neben die Diagramme zu schreiben, und KI-Forscher schauen sich oft Diagramme in Aufsätzen an, um die Netzwerkarchitektur vorher zu verstehen Beim Durchsuchen des Textes können Reisende den roten oder grünen Linien auf der Karte folgen, um zu ihrem gewünschten Ziel zu navigieren.

Das Wissen hier geht über einfache Symbole, Diagramme und Karten hinaus. Die Menschheit hat durch die Erkundung der Welt viel direkt gelernt und uns gezeigt, was Materie und Menschen ausdrücken können und was nicht. Der Aufbau der Materie und die menschliche Umwelt vermitteln viele Informationen visuell: Die Türklinke befindet sich auf Handhöhe, der Griff eines Hammers ist weicher usw. Nonverbale mentale Simulationen bei Tieren und Menschen sind weit verbreitet und nützlich für die Planung von Szenarien und können zur Erstellung oder Rückentwicklung von Artefakten verwendet werden.

Ebenso können wir durch die Nachahmung sozialer Bräuche und Rituale vielfältige Fähigkeiten an die nächste Generation weitergeben, von der Zubereitung von Essen und Medikamenten bis hin zur Beruhigung in stressigen Zeiten. Ein Großteil unseres kulturellen Wissens ist ikonisch oder in Form präziser Bewegungen, die von erfahrenen Praktikern an Lehrlinge weitergegeben werden. Diese subtilen Informationsmuster lassen sich nur schwer in Worte fassen und vermitteln, sind aber dennoch für andere verständlich. Dies ist auch genau die Art von Kontextinformationen, die neuronale Netze gut erfassen und verfeinern können.

„Ein ausschließlich auf Sprache trainiertes System wird niemals an die menschliche Intelligenz herankommen, selbst wenn es von nun an bis zum Hitzetod des Universums trainiert wird.“# 🎜🎜#

Sprache ist wichtig, weil sie große Informationsmengen in einem kleinen Format vermitteln kann, insbesondere mit dem Aufkommen von Druck und Internet, was die Reproduktion und weite Verbreitung von Inhalten ermöglicht . Aber die Komprimierung von Informationen mit Sprache ist nicht ohne Kosten: Das Entschlüsseln einer dichten Passage erfordert viel Aufwand. Der geisteswissenschaftliche Unterricht erfordert möglicherweise umfangreiche externe Lektüre, wobei ein Großteil der Unterrichtszeit mit dem Lesen schwieriger Passagen verbracht wird. Der Aufbau eines tiefen Verständnisses ist zeitaufwändig und mühsam, aber aufschlussreich.

Das erklärt, warum eine sprachtrainierte Maschine so viel wissen und dennoch nichts verstehen kann – sie greift über einen winzigen Engpass auf einen kleinen Teil des menschlichen Wissens zu. Aber dieser kleine Ausschnitt menschlichen Wissens kann sich auf alles beziehen, sei es Liebe oder Astrophysik. Es ist also ein bisschen wie ein Spiegel: Er vermittelt die Illusion von Tiefe und kann fast alles reflektieren, ist aber nur einen Zentimeter dick. Wenn wir versuchen, seine Tiefen zu erforschen, stoßen wir an eine Wand.

Das Richtige tun

Das macht Maschinen nicht dümmer, zeigt aber auch, dass es inhärente Grenzen dafür gibt, wie intelligent sie sind kann sein. Ein ausschließlich auf Sprache trainiertes System wird niemals an die menschliche Intelligenz herankommen, selbst wenn es von nun an bis zum Hitzetod des Universums trainiert wird. Dies ist der falsche Weg, ein Wissenssystem aufzubauen. Aber wenn wir nur an der Oberfläche kratzen, scheinen Maschinen dem Menschen tatsächlich näher zu kommen. Und in vielen Fällen reicht die Oberfläche aus. Nur wenige von uns wenden den Turing-Test tatsächlich auf andere Menschen an, hinterfragen aktiv deren Tiefe des Verständnisses und zwingen sie, mehrstellige Multiplikationsaufgaben zu lösen. Die meisten Gespräche sind Smalltalk.

Wir sollten jedoch das oberflächliche Verständnis, das LLM hat, nicht mit dem verwechseln, was Menschen haben, indem sie die Wunder der Welt beobachten, sie erforschen, in ihr praktizieren und mit ihr interagieren Kulturen und andere Menschen. Das gewonnene tiefe Verständnis ist verschwommen. Sprache kann ein nützlicher Bestandteil sein, um unser Verständnis der Welt zu erweitern, aber Sprache erschöpft nicht die Intelligenz, ein Punkt, den wir aus dem Verhalten vieler Arten verstehen, wie zum Beispiel Rabenvögel, Kraken und Primaten.

Im Gegenteil, tiefes nonverbales Verständnis ist eine notwendige Voraussetzung dafür, dass Sprache sinnvoll ist. Gerade weil Menschen ein tiefes Verständnis für die Welt haben, können wir schnell verstehen, was andere sagen. Dieses umfassendere, kontextsensitive Lernen und Wissen ist ein grundlegenderes, altes Wissen, das der Entstehung des physisch-biologischen Empfindungsvermögens zugrunde liegt und Überleben und Wohlstand ermöglicht.

Dies ist auch die wichtigere Aufgabe, auf die sich Forscher der künstlichen Intelligenz konzentrieren, wenn sie nach gesundem Menschenverstand in der künstlichen Intelligenz suchen. LLMs haben keinen stabilen Körper oder eine stabile Welt, die sie wahrnehmen können – daher beginnt und endet ihr Wissen mehr mit Worten, und dieser gesunde Menschenverstand ist immer oberflächlich. Das Ziel besteht darin, dass sich KI-Systeme auf die Welt konzentrieren, über die sie sprechen, und nicht auf die Worte selbst – aber LLM erkennt den Unterschied nicht. Dieses tiefe Verständnis kann nicht durch Worte allein erreicht werden, was der falsche Weg ist.

Die umfangreiche Erfahrung des Menschen bei der Verarbeitung verschiedener großer Sprachmodelle zeigt deutlich, wie wenig man mit Sprache allein erreichen kann.

Das obige ist der detaillierte Inhalt vonYann LeCun sagt, dass Riesenmodelle das Ziel, sich der menschlichen Intelligenz anzunähern, nicht erreichen können. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!