13 Milliarden Parameter, 8 A100-Schulungen, UC Berkeley veröffentlicht Dialogmodell Koala-KI-php.cn

13 Milliarden Parameter, 8 A100-Schulungen, UC Berkeley veröffentlicht Dialogmodell Koala

PHPz

Freigeben： 2023-04-07 15:12:29

nach vorne

1149 Leute haben es durchsucht

Seit Meta die LLaMA-Modellreihe veröffentlicht und als Open Source bereitgestellt hat, haben Forscher der Stanford University, der UC Berkeley und anderer Institutionen eine „zweite Schöpfung“ auf der Grundlage von LLaMA durchgeführt und nacheinander mehrere „Alpaka“-Modelle wie Alpaka und Vicuna auf den Markt gebracht . Modell.

Alpaca ist der neue Top-Player in der Open-Source-Community. Aufgrund der Fülle an „sekundären Schöpfungen“ sind die englischen Bezeichnungen für die biologische Gattung Alpaka nahezu außer Gebrauch geraten, es ist aber auch möglich, das große Vorbild nach anderen Tieren zu benennen.

Kürzlich hat das Berkeley Artificial Intelligence Institute (BAIR) an der UC Berkeley ein Konversationsmodell Koala (wörtlich übersetzt als Koala) veröffentlicht, das auf GPUs der Verbraucherklasse ausgeführt werden kann. Koala optimiert das LLaMA-Modell mithilfe von im Internet gesammelten Gesprächsdaten.

13 Milliarden Parameter, 8 A100-Schulungen, UC Berkeley veröffentlicht Dialogmodell Koala

Project Adresse: https: //bair.berkeley.edu/blog/2023/04/03/koala/

koala hat eine Online -Test -Demo gestartet:

13 Milliarden Parameter, 8 A100-Schulungen, UC Berkeley veröffentlicht Dialogmodell Koala

Demo-Adresse: https://chat.lmsys.org/?model=koala-13b
Open-Source-Adresse: https://github.com/young-geng/EasyLM

Koala-Übersicht

Ähnlich wie Vicuna optimiert auch Koala das LLaMA-Modell mithilfe von im Internet gesammelten Konversationsdaten, wobei der Schwerpunkt auf öffentlichen Daten zu Konversationen mit großen Closed-Source-Modellen wie ChatGPT liegt.

Das Forschungsteam gab an, dass das Koala-Modell in EasyLM unter Verwendung von JAX/Flax implementiert ist und das Koala-Modell auf einem einzelnen Nvidia DGX-Server trainiert wird, der mit 8 A100-GPUs ausgestattet ist. Es dauert 6 Stunden, um 2 Trainingsepochen abzuschließen. Die Kosten für eine solche Schulung betragen auf öffentlichen Cloud-Computing-Plattformen in der Regel weniger als 100 US-Dollar.

Das Forschungsteam verglich Koala experimentell mit ChatGPT und Alpaca der Stanford University. Die Ergebnisse zeigten: Koala-13B mit 13 Milliarden Parametern kann effektiv auf verschiedene Benutzeranfragen reagieren und die generierten Antworten sind im Allgemeinen besser als Alpaca und in der Leistung ist in mehr als der Hälfte der Fälle mit ChatGPT vergleichbar.

Die wichtigste Bedeutung von Koala besteht darin, dass es zeigt, dass ein Modell, das klein genug ist, um lokal ausgeführt zu werden, durch Training auf einem Datensatz höherer Qualität auch eine hervorragende Leistung ähnlich der eines großen Modells erzielen kann. Das bedeutet, dass die Open-Source-Community härter daran arbeiten sollte, qualitativ hochwertige Datensätze zu kuratieren, da dies zu sichereren, realistischeren und leistungsfähigeren Modellen führen kann, als nur die Größe bestehender Systeme zu vergrößern. Aus dieser Perspektive ist Koala eine kleine, aber feine Alternative zu ChatGPT.

Allerdings ist Koala immer noch nur ein Forschungsprototyp und weist immer noch große Mängel in Bezug auf Inhalt, Sicherheit und Zuverlässigkeit auf und sollte nicht für andere Zwecke als die Forschung verwendet werden.

Datensätze und Training

Die größte Hürde beim Aufbau eines Konversationsmodells ist die Verwaltung der Trainingsdaten. Große Konversationsmodelle wie ChatGPT, Bard, Bing Chat und Claude verwenden alle proprietäre Datensätze mit umfangreichen menschlichen Anmerkungen. Um den Trainingsdatensatz von Koala zu erstellen, sammelte und kuratierte das Forschungsteam Konversationsdaten aus dem Internet und öffentlichen Datensätzen, die Daten enthalten, die öffentlich von Benutzern geteilt wurden, die mit großen Sprachmodellen wie ChatGPT sprechen.

Im Gegensatz zu anderen Modellen, die so viele Webdaten wie möglich crawlen, um den Datensatz zu maximieren, konzentriert sich Koala auf das Sammeln kleiner, qualitativ hochwertiger Datensätze, einschließlich Frage-und-Antwort-Abschnitten in öffentlichen Datensätzen, menschlichem Feedback (positiv und negativ) und Interaktionen mit Gesprächen mit bestehenden Sprachmodellen. Konkret umfasst der Trainingsdatensatz von Koala die folgenden Teile:

ChatGPT-destillierte Daten:

Öffentlich verfügbare Konversationsdaten mit ChatGPT (ShareGPT);
Human ChatGPT-Vergleichskorpus (HC3), wobei beide Es werden menschliche und ChatGPT-Antworten aus dem HC3-Datensatz verwendet.

Open-Source-Daten:

Open Instruction Generalist (OIG);
Vom Stanford Alpaca-Modell verwendeter Datensatz;
OpenAI WebGPT;
OpenAI-Zusammenfassung .
Experiment und Auswertung

Diese Studie führte eine manuelle Auswertung durch, um die Generierungsergebnisse von Koala-All mit Koala-Distill, Alpaca und ChatGPT zu vergleichen. Die Ergebnisse sind in der folgenden Abbildung dargestellt. Unter ihnen werden zwei verschiedene Datensätze zum Testen verwendet: einer ist der Alpaca-Testsatz von Stanford, der 180 Testabfragen enthält (Alpaca-Testsatz), und der andere ist der Koala-Testsatz.

Insgesamt reicht das Koala-Modell aus, um viele der Fähigkeiten von LLM zu demonstrieren, und ist gleichzeitig klein genug, um eine Feinabstimmung oder Verwendung mit begrenzten Rechenressourcen zu ermöglichen. Das Forschungsteam hofft, dass das Koala-Modell eine nützliche Plattform für zukünftige akademische Forschung zu groß angelegten Sprachmodellen wird: 13 Milliarden Parameter, 8 A100-Schulungen, UC Berkeley veröffentlicht Dialogmodell Koala

Sicherheit und Ausrichtung: Koala ermöglicht weitere Forschung zur Sicherheit von Sprachmodellen und passt sich besser den menschlichen Absichten an. Seien Sie konsequent.

Modellverzerrung: Koala ermöglicht es uns, Verzerrungen in großen Sprachmodellen besser zu verstehen, Qualitätsprobleme in Konversationsdatensätzen zu untersuchen und letztendlich dazu beizutragen, die Leistung großer Sprachmodelle zu verbessern.
Große Sprachmodelle verstehen: Da Koala-Modelle auf relativ günstigen GPUs der Verbraucherklasse laufen und eine Vielzahl von Aufgaben ausführen können, können wir mit Koala die interne Struktur von Konversationssprachmodellen besser untersuchen und verstehen, wodurch Sprachmodelle besser erklärbar werden.

Das obige ist der detaillierte Inhalt von13 Milliarden Parameter, 8 A100-Schulungen, UC Berkeley veröffentlicht Dialogmodell Koala. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!