Xi Xiaoyao Science and Technology Talk Original
Autor |. Kleines Drama, Python
Wenn Sie ein Neuling in großen Modellen sind, was werden Sie denken, wenn Sie zum ersten Mal die seltsame Kombination dieser Wörter GPT, PaLm und LLaMA sehen? Wenn ich tiefer gehe und seltsame Wörter wie BERT, BART, RoBERTa und ELMo sehe, die nacheinander auftauchen, frage ich mich, ob ich als Anfänger verrückt werde?
Selbst ein Veteran, der schon lange im kleinen NLP-Kreis tätig ist, ist angesichts der explosiven Entwicklungsgeschwindigkeit großer Modelle möglicherweise verwirrt und nicht in der Lage, mit der schnellen Entwicklung neuer und schneller großer Modelle Schritt zu halten . Zu diesem Zeitpunkt müssen Sie möglicherweise eine umfassende Modellbewertung anfordern, um weiterzuhelfen! Diese große Modellrezension „Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond“, die von Forschern von Amazon, der Texas A&M University und der Rice University ins Leben gerufen wurde, bietet uns eine Möglichkeit, einen „Stammbaum“ zu erstellen. In diesem Artikel haben wir mehr darüber erfahren Vergangenheit, Gegenwart und Zukunft großer Modelle werden von ChatGPT dargestellt. Basierend auf den Aufgaben wurde ein sehr umfassender praktischer Leitfaden für große Modelle erstellt, der uns die Vor- und Nachteile großer Modelle in verschiedenen Aufgaben vorstellte und schließlich auf die aktuelle Situation hinwies Risiken und Herausforderungen des Modells.
Papiertitel:
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
Papierlink: //m.sbmmt.com/link/f50fb34f27bd263e6be8ffcf8967ced0
Projekthomepage: https:// m.sbmmt.com/link/968b15768f3d19770471e9436d97913c
Die Suche nach der „Quelle allen Übels“ großer Models sollte wahrscheinlich mit dem Artikel „Aufmerksamkeit ist alles, was Sie brauchen“ beginnen ", basierend auf diesem Artikel Ausgehend von Transformer, einem vom Google Machine Translation-Team vorgeschlagenen maschinellen Übersetzungsmodell, das aus mehreren Gruppen von Encoder und Decoder besteht, folgt die Entwicklung großer Modelle im Allgemeinen zwei Wegen. Ein Weg besteht darin, den Decoder-Teil aufzugeben und Verwenden Sie den Encoder nur als Vortrainingsmodell für den Encoder, dessen bekanntester Vertreter die Bert-Familie ist. Diese Modelle begannen, die Methode des „unüberwachten Vortrainings“ auszuprobieren, um große Datenmengen in natürlicher Sprache besser zu nutzen, die leichter zu erhalten sind als andere Daten. Die „unüberwachte“ Methode ist das Masked Language Model (MLM) durch Entfernen der Maske einige Wörter im Satz und lassen Sie das Modell die Fähigkeit erlernen, den Kontext zu verwenden, um die von Mask entfernten Wörter vorherzusagen. Als Bert herauskam, war es auch eine Bombe im Bereich NLP. Gleichzeitig wurde SOTA für viele gängige Aufgaben der Verarbeitung natürlicher Sprache verwendet, wie z. B. Stimmungsanalyse, Erkennung benannter Entitäten usw. Mit Ausnahme von Bert und ALBert vorgeschlagen von Google, herausragende Vertreter der Familie Bert. Darüber hinaus gibt es ERNIE von Baidu, RoBERTa von Meta, DeBERTa von Microsoft usw.
Leider gelang es Berts Ansatz nicht, das Skalengesetz zu durchbrechen, und dieser Punkt wird durch die Hauptkraft aktueller Großmodelle hervorgehoben, d Teil von GPT Die Familie hat es wirklich geschafft. Der Erfolg der GPT-Familie beruht auf der überraschenden Entdeckung eines Forschers: „Die Erweiterung der Größe des Sprachmodells kann die Fähigkeit des Zero-Shot-Lernens (Zero-Shot) und des Small-Shot-Lernens (Few-Shot) erheblich verbessern.“ Es gibt einen großen Unterschied zwischen der Bert-Familie und der Quelle der magischen Kraft der heutigen groß angelegten Sprachmodelle. Die GPT-Familie wird auf der Grundlage der Vorhersage des nächsten Wortes anhand der vorherigen Wortfolge trainiert. Daher erschien GPT zunächst nur als Textgenerierungsmodell, und die Entstehung von GPT-3 war ein Wendepunkt im Schicksal der GPT-Familie. 3 war das erste. Es zeigt den Menschen die magischen Fähigkeiten großer Modelle, die über die Textgenerierung selbst hinausgehen, und zeigt die Überlegenheit dieser autoregressiven Sprachmodelle. Ausgehend von GPT-3 blühten die aktuellen Modelle ChatGPT, GPT-4, Bard, PaLM und LLaMA auf und leiteten die aktuelle Ära der großen Modelle ein.
Von der Zusammenführung der beiden Zweige dieses Stammbaums können wir die Anfänge von Word2Vec und FastText über die frühe Erforschung von ELMo und ULFMiT in Pre-Training-Modellen bis hin zur Entstehung von Bert sehen, die ein Volltreffer wurde Hit, und bis zum atemberaubenden Debüt von GPT-3 stieg ChatGPT in den Himmel. Zusätzlich zur Iteration der Technologie können wir auch sehen, dass OpenAI stillschweigend an seinem eigenen technischen Weg festhielt Wir haben gesehen, dass Google große Anstrengungen in der gesamten Encoder-Decoder-Modellarchitektur unternommen hat. Wir haben die bedeutenden theoretischen Beiträge von Meta, Metas fortgesetzte großzügige Beteiligung an großen Modell-Open-Source-Projekten und natürlich auch von uns gesehen Wir haben seit GPT-3 auch den Trend gesehen, dass LLMs allmählich zu „geschlossenen“ Quellen werden. Es ist sehr wahrscheinlich, dass die meisten Forschungsarbeiten in Zukunft auf API-basierte Forschung umgestellt werden müssen.
Kommt letztlich die magische Kraft großer Modelle von GPT? Ich denke, die Antwort lautet „Nein“. Fast jeder Leistungssprung der GPT-Familie hat zu wichtigen Verbesserungen in der Quantität, Qualität und Vielfalt der Pre-Training-Daten geführt. Zu den Trainingsdaten des großen Modells gehören Bücher, Artikel, Website-Informationen, Codeinformationen usw. Der Zweck der Eingabe dieser Daten in das große Modell besteht darin, den „Menschen“ vollständig und genau wiederzugeben, indem dem großen Modell Wörter, Grammatik usw. mitgeteilt werden. Syntax- und semantische Informationen ermöglichen es dem Modell, den Kontext zu erkennen und kohärente Antworten zu generieren, um Aspekte des menschlichen Wissens, der Sprache, der Kultur usw. zu erfassen.
Im Allgemeinen können wir viele NLP-Aufgaben aus der Perspektive der Datenanmerkungsinformationen in Nullproben, wenige Proben und mehrere Proben klassifizieren. Zweifellos sind LLMs die am besten geeignete Methode für Zero-Shot-Aufgaben. Bei Zero-Shot-Aufgaben sind große Modelle anderen Modellen weit voraus. Gleichzeitig eignen sich Aufgaben mit wenigen Stichproben auch sehr gut für die Anwendung großer Modelle. Durch die Anzeige von „Frage-Antwort“-Paaren kann die Leistung großer Modelle verbessert werden Lernen. Obwohl große Modelle auch Aufgaben mit mehreren Stichproben abdecken können, ist die Feinabstimmung möglicherweise immer noch die beste Methode. Unter bestimmten Einschränkungen wie Datenschutz und Computer können große Modelle jedoch immer noch nützlich sein.
Gleichzeitig wird das fein abgestimmte Modell wahrscheinlich mit dem Problem konfrontiert, dass sich die Verteilung von Trainingsdaten und Testdaten ändert. Bezeichnenderweise schneidet das fein abgestimmte Modell bei OOD-Daten im Allgemeinen sehr schlecht ab. Dementsprechend schneiden LLMs viel besser ab, da sie keinen expliziten Anpassungsprozess haben. Das typische ChatGPT-Verstärkungslernen basierend auf menschlichem Feedback (RLHF) funktioniert bei den meisten Klassifizierungs- und Übersetzungsaufgaben außerhalb der Verteilung gut Medizinischer Diagnosedatensatz für die OOD-Bewertung.
Oft folgt auf die Aussage „Große Modelle sind gut!“ die Frage „Wie nutzt man große Modelle und wann setzt man sie ein?“ Aufgabe: Sollten wir uns für die Feinabstimmung entscheiden oder ohne nachzudenken mit der Verwendung des großen Modells beginnen? Dieser Artikel fasst einen praktischen „Entscheidungsablauf“ zusammen, der uns anhand einer Reihe von Fragen helfen soll, anhand einer Reihe von Fragen zu beurteilen, ob ein großes Modell verwendet werden soll, z ist Multitasking“.
Aus Sicht der NLP-Aufgabenklassifizierung:
Derzeit gibt es viele NLP-Aufgaben mit einer großen Menge an reichhaltigen annotierten Daten, und das Feinabstimmungsmodell kann den Vorteil immer noch fest kontrollieren In den meisten Fällen sind LLMs im Datensatz den fein abgestimmten Modellen unterlegen, insbesondere:
Kurz gesagt: Für die meisten herkömmlichen Aufgaben zum Verstehen natürlicher Sprache erbringen fein abgestimmte Modelle eine bessere Leistung. Natürlich wird das Potenzial von LLMs durch das Prompt-Projekt begrenzt, das möglicherweise nicht vollständig freigegeben wird (tatsächlich hat das Feinabstimmungsmodell in einigen Nischenbereichen, wie z. B. Sonstiger Text, noch nicht die Obergrenze erreicht). Klassifizierung, kontradiktorisches NLI und andere Aufgaben, LLMs aufgrund stärker Die Generalisierungsfähigkeit führt somit zu einer besseren Leistung, aber für ausgereifte gekennzeichnete Daten kann die Feinabstimmung des Modells vorerst immer noch die optimale Lösung für traditionelle Aufgaben sein.
Im Vergleich zum Verständnis natürlicher Sprache kann die Erzeugung natürlicher Sprache die Bühne für große Modelle sein. Das Hauptziel der Generierung natürlicher Sprache besteht darin, kohärente, reibungslose und aussagekräftige Sequenzen zu erstellen. Eine davon sind Aufgaben, die durch maschinelle Übersetzung und Zusammenfassung von Absatzinformationen dargestellt werden, und die andere sind Aufgaben, die durch offenes natürliches Schreiben dargestellt werden B. E-Mails schreiben, Nachrichten schreiben, Geschichten erstellen usw. Konkret:
Wissensintensive Aufgaben beziehen sich im Allgemeinen auf Aufgaben, die stark auf Hintergrundwissen, domänenspezifischem Fachwissen oder allgemeinem Weltwissen beruhen. Wissensintensive Aufgaben unterscheiden sich von einfacher Mustererkennung und Syntaxanalyse und erfordern eine Verständnis unserer Realität. Die Welt verfügt über „gesunden Menschenverstand“ und kann ihn richtig nutzen, insbesondere:
Inferenzaufgaben
Große Models werden unweigerlich noch lange Zeit Teil unserer Arbeit und unseres Lebens sein, und das für einen solchen „Jeden“, der hochgradig interaktiv ist Mit unserem Leben „Mann“. Neben Leistung, Effizienz, Kosten und anderen Problemen ist die Sicherheit großer Sprachmodelle fast die höchste Priorität bei allen Herausforderungen, mit denen große Maschinen derzeit konfrontiert sind Lösung für große Modelle Das Hauptproblem besteht darin, dass voreingenommene oder schädliche Illusionen, die von großen Modellen ausgegeben werden, schwerwiegende Folgen für Benutzer haben. Gleichzeitig kann es sein, dass Benutzer mit zunehmender „Glaubwürdigkeit“ von LLMs übermäßig von LLMs abhängig werden und glauben, dass sie genaue Informationen liefern können. Dieser vorhersehbare Trend erhöht die Sicherheitsrisiken großer Modelle.
Neben irreführenden Informationen können LLMs aufgrund der hohen Qualität und der geringen Kosten der von LLMs generierten Texte auch als Werkzeuge für Angriffe wie Hass, Diskriminierung, Gewalt und Desinformation missbraucht werden angegriffen werden, ohne dass böswillige Angreifer illegale Informationen bereitstellen oder die Privatsphäre stehlen, wird berichtet, dass Samsung-Mitarbeiter versehentlich streng geheime Daten wie die Quellcodeattribute des neuesten Programms und interne Besprechungsaufzeichnungen im Zusammenhang mit der Hardware preisgegeben haben, während sie ChatGPT zur Arbeitsabwicklung nutzten.
Darüber hinaus liegt der Schlüssel dafür, ob große Modelle auf sensible Bereiche wie Gesundheitswesen, Finanzen, Recht usw. angewendet werden können das Problem der „Verfügbarkeit“ großer Modelle. Derzeit nimmt die Robustheit großer Modelle oft ab. Gleichzeitig hat sich gezeigt, dass LLMs sozial voreingenommen oder diskriminierend sind, wobei in vielen Studien erhebliche Leistungsunterschiede zwischen demografischen Kategorien wie Akzent, Religion, Geschlecht und Rasse festgestellt wurden. Dies kann bei großen Modellen zu „Fairness“-Problemen führen.
Wenn wir uns schließlich von sozialen Themen lösen, um eine Zusammenfassung zu erstellen, können wir auch in die Zukunft der großen Modellforschung blicken. Die größten Herausforderungen, denen sich große Modelle derzeit gegenübersehen, können wie folgt klassifiziert werden: #🎜 🎜#
# 🎜🎜#Praktische Verifizierung: Aktuelle Evaluierungsdatensätze für große Modelle sind oft akademische Datensätze, die eher „Spielzeug“ sind. Allerdings können diese akademischen Datensätze die verschiedenen Probleme und Herausforderungen in der Realität nicht vollständig abbilden Daher sind tatsächliche Datensätze dringend erforderlich. Bewerten Sie das Modell anhand verschiedener und komplexer realer Probleme, um sicherzustellen, dass die Werteauswahl so ausgerichtet ist, dass das Modellverhalten den Erwartungen entspricht wird unerwünschte Ergebnisse nicht „verstärken“, wenn dieses ethische Problem nicht ernsthaft behandelt wird.Das obige ist der detaillierte Inhalt vonDer große Modelltest ist da! Dieser Artikel wird Ihnen helfen, die Evolutionsgeschichte großer Modelle globaler KI-Giganten zu klären. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!