Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste-KI-php.cn

Um das Design, die Einschränkungen und die Entwicklung zeitgenössischer groß angelegter Sprachmodelle zu verstehen, können Sie der Leseliste dieses Artikels folgen.

Groß angelegte Sprachmodelle haben die Aufmerksamkeit der Öffentlichkeit auf sich gezogen und in nur fünf Jahren haben Modelle wie Transforme den Bereich der Verarbeitung natürlicher Sprache fast vollständig verändert. Darüber hinaus beginnen sie, Bereiche wie Computer Vision und Computational Biology zu revolutionieren.

Angesichts der Tatsache, dass Transformer einen so großen Einfluss auf den Forschungsprozess aller haben, stellt Ihnen dieser Artikel eine kurze Leseliste für Forscher und Praktiker des maschinellen Lernens vor, die den Einstieg erleichtern sollen.

Die folgende Liste wird hauptsächlich in chronologischer Reihenfolge erweitert, hauptsächlich einige wissenschaftliche Forschungsarbeiten. Natürlich gibt es noch viele weitere hilfreiche Ressourcen. Zum Beispiel:

„The Illustrated Transformer“ von Jay Alammar
„The Transformer Family“ von Lilian Weng
„Transformer-Modelle: eine Einführung und ein Katalog – Ausgabe 2023“ von Xavier Amatriain
nanoGPT von Andrej Karpathy Library

Verständnis der Hauptarchitektur und Aufgaben

Wenn Sie neu bei Transformers und großen Sprachmodellen sind, dann sind diese Artikel am besten für Sie geeignet.

Aufsatz 1: „Neural Machine Translation by Jointly Learning to Align and Translate“

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Aufsatzadresse: https://arxiv.org/pdf/1409.0473.pdf

Dieser Artikel stellt eine wiederkehrende neuronale The vor Der Aufmerksamkeitsmechanismus des Netzwerks (RNN) verbessert die Langstrecken-Sequenzmodellierungsfunktionen des Modells. Dadurch können RNNs längere Sätze genauer übersetzen – die Motivation hinter der Entwicklung der ursprünglichen Transformer-Architektur.

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Bildquelle: https://arxiv.org/abs/1409.0473

Papier 2: „Attention Is All You Need“

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Papieradresse: https://arxiv.org /abs/1706.03762

In diesem Artikel wird die ursprüngliche Transformer-Architektur bestehend aus Encoder und Decoder vorgestellt. Diese Teile werden in Zukunft als separate Module eingeführt. Darüber hinaus werden in diesem Artikel Konzepte wie Skalierungs-Punktprodukt-Aufmerksamkeitsmechanismen, Mehrkopf-Aufmerksamkeitsblöcke und Positionseingabekodierung vorgestellt, die nach wie vor die Grundlage moderner Transformer sind. Bildquelle: https://arxiv.org/abs/1706.03762 : https://arxiv.org/abs/1810.04805

Groß angelegte Sprachmodellforschung folgte der ursprünglichen Transformer-Architektur und begann sich dann in zwei Richtungen zu erweitern: Transformer für prädiktive Modellierungsaufgaben (z. B. Textklassifizierung) und Transformer für generative Konstruktionstransformator für modulare Aufgaben wie Übersetzung, Zusammenfassung und andere Formen der Texterstellung. Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Das BERT-Papier stellt das ursprüngliche Konzept der maskierten Sprachmodellierung vor. Wenn Sie sich für diesen Forschungszweig interessieren, können Sie RoBERTa verwenden, um das Ziel vor dem Training zu vereinfachen.

Bildquelle: https://arxiv.org/abs/1810.04805

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste Papier 4: „Verbesserung des Sprachverständnisses durch generatives Pre-Training“

Papieradresse: https:// www.semanticsscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

Das ursprüngliche GPT-Papier stellte die beliebte Decoder-Architektur und das Vortraining mit der Vorhersage des nächsten Wortes vor. BERT kann aufgrund seines maskierten Sprachmodells vor dem Training als ein bidirektionaler Transformer betrachtet werden, während GPT ein einseitig autoregressives Modell ist. Obwohl GPT-Einbettungen auch zur Klassifizierung verwendet werden können, bilden GPT-Methoden den Kern der heute einflussreichsten LLMs wie ChatGPT. Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Wenn Sie sich für diesen Forschungszweig interessieren, können Sie die GPT-2- und GPT-3-Papiere weiterverfolgen. Darüber hinaus wird in diesem Artikel die InstructGPT-Methode später separat vorgestellt.

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Papier 5: „BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension“

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Papieradresse https://arxiv.org/abs/1910.13461.

Wie oben erwähnt, wird LLM im Encoder-Stil vom BERT-Typ normalerweise für prädiktive Modellierungsaufgaben bevorzugt, während LLM im Decoder-Stil vom GPT-Typ besser für die Textgenerierung geeignet ist. Um das Beste aus beiden Welten herauszuholen, kombiniert das obige BART-Papier die Encoder- und Decoder-Teile.

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Expansionsgesetz und Effizienzverbesserung

Wenn Sie mehr über die Technologie zur Verbesserung der Transformatoreffizienz erfahren möchten, können Sie sich das folgende Papier ansehen

Papier 1: „Eine Umfrage zur effizienten Ausbildung von Transformatoren“
Papieradresse: https://arxiv.org/abs/2302.01107

Papier 2: „FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness“
Papieradresse: https:// arxiv.org /abs/2205.14135

Papier 3: „Cramming: Training eines Sprachmodells auf einer einzelnen GPU an einem Tag“
Papieradresse: https://arxiv.org/abs/2212.14034

Papier 4: „Training Compute-Optimal Large Language Models“
Papieradresse: https://arxiv.org/abs/2203.15556

Darüber hinaus gibt es auch das Papier „Training Compute-Optimal Große Sprachmodelle“

Papieradresse: https://arxiv.org/abs/2203.15556

In diesem Papier wird das Chinchilla-Modell mit 70 Milliarden Parametern vorgestellt, das das beliebte GPT-3-Modell mit 175 Milliarden Parametern bei generativen Modellierungsaufgaben übertrifft. Das Hauptaugenmerk liegt jedoch darauf, dass zeitgenössische groß angelegte Sprachmodelle stark untertrainiert sind.

Dieser Artikel definiert das lineare Skalierungsgesetz für das Training großer Sprachmodelle. Obwohl Chinchilla beispielsweise halb so groß ist wie GPT-3, übertrifft es GPT-3, da es auf 1,4 Billionen (statt 300 Milliarden) Token trainiert wird. Mit anderen Worten: Die Anzahl der Trainingstoken ist genauso wichtig wie die Modellgröße.

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Ausrichtung – Steuerung großer Sprachmodelle auf gewünschte Ziele und Interessen

In den letzten Jahren sind viele relativ leistungsstarke große Sprachmodelle entstanden, die echten Text generieren können (wie GPT-3 und Chinchilla). In Bezug auf häufig verwendete Paradigmen vor dem Training scheint eine Obergrenze erreicht zu sein.

Um das Sprachmodell für den Menschen hilfreicher zu machen und Fehlinformationen und schlechte Sprache zu reduzieren, haben Forscher zusätzliche Trainingsparadigmen entwickelt, um das vorab trainierte Grundmodell zu verfeinern, einschließlich der folgenden Artikel.

Aufsatz 1: „Training von Sprachmodellen zum Befolgen von Anweisungen mit menschlichem Feedback“
Auftragsadresse: https://arxiv.org/abs/2203.02155

In diesem sogenannten InstructGPT-Aufsatz verwendeten Forscher RLHF (Reinforcement Learning). aus menschlichem Feedback). Sie begannen mit einem vorab trainierten GPT-3-Basismodell und verfeinerten es mithilfe von überwachtem Lernen weiter auf von Menschen generierte Hinweis-Antwort-Paare (Schritt 1). Als nächstes baten sie Menschen, die Modellergebnisse zu ordnen, um das Belohnungsmodell zu trainieren (Schritt 2). Schließlich verwenden sie das Belohnungsmodell, um das vorab trainierte und fein abgestimmte GPT-3-Modell mithilfe von Reinforcement Learning durch proximale Richtlinienoptimierung zu aktualisieren (Schritt 3).

Übrigens ist dieses Papier auch als das Papier bekannt, das die Ideen hinter ChatGPT beschreibt – aktuellen Gerüchten zufolge handelt es sich bei ChatGPT um eine erweiterte Version von InstructGPT, die auf einen größeren Datensatz abgestimmt ist.

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Papier 2: „Verfassungsmäßige KI: Harmlosigkeit durch KI-Feedback“
Papieradresse: https://arxiv.org/abs/2212.08073

In diesem Papier treiben Forscher die Idee der Ausrichtung weiter voran und schlagen ein Training vor Mechanismus zur Schaffung „harmloser“ KI-Systeme. Die Forscher schlugen einen Selbsttrainingsmechanismus vor, der auf einer Liste von Regeln (von Menschen bereitgestellt) und nicht auf direkter menschlicher Aufsicht basiert. Ähnlich wie das oben erwähnte InstructGPT-Papier verwendet die vorgeschlagene Methode Methoden des verstärkenden Lernens.

Für ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste

Zusammenfassung

In diesem Artikel wird versucht, die Anordnung der obigen Tabelle so einfach und schön wie möglich zu halten. Es wird empfohlen, sich auf die ersten 10 Artikel zu konzentrieren, um das Design, die Einschränkungen und die Entwicklung hinter zeitgenössischen Großformaten zu verstehen Sprachmodelle.

Wenn Sie ausführlicher lesen möchten, empfiehlt es sich, auf die Referenzen im obigen Artikel zu verweisen. Alternativ finden Sie hier einige zusätzliche Ressourcen, mit denen Leser weiter recherchieren können:

Open-Source-Alternativen zu GPT

Papier 1: „BLOOM: A 176B-Parameter Open-Access Multilingual Language Model“
Papieradresse: https: / /arxiv.org/abs/2211.05100

Papier 2: „OPT: Open Pre-trained Transformer Language Models“
Papieradresse: https://arxiv.org/abs/2205.01068

Alternativen zu ChatGPT

Papier 1 „LaMDA: Sprachmodelle für Dialoganwendungen“
Papieradresse: https://arxiv.org/abs/2201.08239

Papier 2: „Verbesserung der Ausrichtung von Dialogagenten“. durch gezielte menschliche Urteile》
Papieradresse: https://arxiv.org/abs/2209.14375

Papier 3: „BlenderBot 3: ein eingesetzter Konversationsagent, der kontinuierlich lernt, verantwortungsbewusst zu handeln“
Papieradresse : https://arxiv.org/abs/2208.03188 Adresse: https://arxiv.org/abs/2007.06225 -021-03819-2

Papieradresse: https://www.nature.com/articles/s41587-022-01618 -2

Das obige ist der detaillierte Inhalt vonFür ein umfassendes Verständnis großer Sprachmodelle finden Sie hier eine Leseliste. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!