Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt-KI-php.cn

Grafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt

PHPz

Freigeben： 2024-03-07 17:50:02

nach vorne

761 Leute haben es durchsucht

Kai-Fu Lees KI-Unternehmen, Zero One, hat einen weiteren großen Modellspieler auf der Bühne:

9 Milliarden Parameter Yi-9B.

In der Yi-Reihe ist es als „Wissenschafts-Champion“ bekannt. Es gleicht die Code-Mathematik aus, ohne in Bezug auf umfassende Fähigkeiten ins Hintertreffen zu geraten. Erbringt die beste Leistung unter einer Reihe von Open-Source-Modellen

ähnlicher Größenordnung (einschließlich Mistral-7B, SOLAR-10.7B, Gemma-7B, DeepSeek-Coder-7B-Base-v1.5 usw.)

. Alte Regel, Veröffentlichung ist Open Source, besonders

Entwicklerfreundlich: Yi-9B (BF 16) und seine quantisierte Version Yi-9B (Int8) können auf

Consumer-Grafikkarten

eingesetzt werden. Eine RTX 4090 oder eine RTX 3090 reicht aus.

Die Yi-Familie von Zero One Thousand Things hat zuvor die Serien Yi-6B und Yi-34B herausgebracht.

Beide wurden vorab auf chinesischen und englischen 3,1T-Token-Daten trainiert, und Yi-9B wurde auf dieser Basis durch Hinzufügen eines 0,8T-Tokens trainiert.

Die Frist für Daten ist Juni 2023. Zu Beginn wurde erwähnt, dass die größte Verbesserung von Yi-9B in Mathematik und Codierung liegt. Wie können diese beiden Fähigkeiten also verbessert werden?

Einführung in Zero One Thousand Things:

Nur die Datenmenge zu erhöhen, kann die Erwartungen nicht erfüllen. basiert darauf,

zunächst die Modellgröße

auf 9B basierend auf Yi-6B zu erhöhen, und dann ein mehrstufiges inkrementelles Datentraining durchzuführen .

Wie kann man zunächst die Modellgröße erhöhen?

Eine Prämisse ist, dass das Team durch Analyse herausgefunden hat:

Yi-6B wurde vollständig trainiert und der Trainingseffekt wird möglicherweise nicht verbessert, egal wie viele weitere Token hinzugefügt werden, daher wird über eine Erweiterung seiner Größe nachgedacht.

(Die Einheit im Bild unten ist nicht TB, sondern B)

tiefe Verstärkung

. Einführung in Zero One Thousand Things:

Die Erweiterung der Breite des Originalmodells führt zu mehr Leistungsverlusten. Nach der Tiefenverstärkung des Modells durch Auswahl einer geeigneten Ebene liegt der Eingabe-/Ausgabekosinus der neuen Ebene näher bei 1,0 Das heißt, je mehr die Leistung des erweiterten Modells die Leistung des Originalmodells aufrechterhalten kann, desto geringer ist der Leistungsverlust des Modells.

Nach dieser Idee entschied sich Zero Yiwu dafür, die relativ hinteren 16 Schichten

(Schichten 12-28)

von Yi-6B zu kopieren, um das 48-schichtige Yi-9B zu bilden. Experimente zeigen, dass diese Methode eine bessere Leistung aufweist als die Verwendung des Solar-10.7B-Modells zum Kopieren der mittleren 16 Schichten

(8-24 Schichten)

Zweitens: Was ist die mehrstufige Trainingsmethode?

Die Antwort besteht darin, zuerst 0,4T-Daten hinzuzufügen, die Text und Code enthalten, aber das Datenverhältnis ist das gleiche wie bei Yi-6B.

Dann fügen Sie weitere 0,4 T Daten hinzu, die auch Text und Code enthalten, sich aber auf die Erhöhung des Anteils von Code und mathematischen Daten konzentrieren.

(Verstanden, es ist dasselbe wie unser Trick „Schritt für Schritt denken“, wenn wir Fragen zu großen Modellen stellen)

Nachdem diese beiden Schritte abgeschlossen sind, bezieht sich das Team immer noch auf zwei Papiere

(An Empirical Model of Large- Batch-Training und Lernrate nicht verschlechtern, Batch-Größe erhöhen)

und die Parameteranpassungsmethode optimiert. Das heißt, ausgehend von einer festen Lernrate wird die Stapelgröße immer dann erhöht, wenn der Modellverlust nicht mehr abnimmt, sodass der Rückgang ununterbrochen erfolgt und das Modell vollständiger lernt.

Am Ende enthielt Yi-9B tatsächlich insgesamt 8,8 Milliarden Parameter und erreichte eine Kontextlänge von 4k.

Die Yi-Serie verfügt über die stärksten Codierungs- und mathematischen Fähigkeiten

Bei tatsächlichen Tests verwendete Zero Yiwu zum Testen die Methode der gierigen Dekodierung

(d. h. jedes Mal wurde das Wort mit dem höchsten Wahrscheinlichkeitswert ausgewählt)

. Die teilnehmenden Modelle sind DeepSeek-Coder, DeepSeek-Math, Mistral-7B, SOLAR-10.7B und Gemma-7B:

(1)

DeepSeek-Coder, von einem inländischen Deep-Search-Unternehmen, seine 33B-Anweisungen Die menschliche Bewertung der optimierten Version übertrifft GPT-3.5-turbo und die Leistung der 7B-Version kann die Leistung von CodeLlama-34B erreichen.

DeepSeek-Math verlässt sich auf 7B-Parameter, um GPT-4 zu stürzen, was die gesamte Open-Source-Community schockiert. (2)

SOLAR-10.7BUpstage AI aus Südkorea, geboren im Dezember 2023, übertrifft Mixtral-8x7B-Instruct in der Leistung.

(3)Mistral-7B ist das erste Open-Source-MoE-Großmodell, das das Niveau von Llama 2 70B und GPT-3.5 erreicht oder sogar übertrifft.

(4)Gemma-7BZero One Wanwu von Google wies darauf hin:

Die Anzahl der effektiven Parameter liegt tatsächlich auf dem gleichen Niveau wie bei Yi-9B.

(Die Benennungsstandards der beiden sind unterschiedlich. Ersteres verwendet nur nicht einbettende Parameter, während letzteres alle Parameter verwendet und aufrundet)

Die Ergebnisse sind wie folgt.

Erstens ist die Leistung von Yi-9B in Bezug auf Codierungsaufgaben nach DeepSeek-Coder-7B an zweiter Stelle, und die anderen vier sind alle KO.

In Bezug auf die mathematischen Fähigkeiten liegt die Leistung von Yi-9B nach DeepSeek-Math-7B an zweiter Stelle und übertrifft die anderen vier.

Die Gesamtfähigkeit ist auch nicht schlecht.

Seine Leistung ist die beste unter Open-Source-Modellen ähnlicher Größe und übertrifft alle anderen fünf Player.

Abschließend wurden gesunder Menschenverstand und Denkvermögen getestet:

Das Ergebnis ist, dass Yi-9B auf Augenhöhe mit Mistral-7B, SOLAR-10.7B und Gemma-7B liegt.

Neben den Sprachkenntnissen ist nicht nur Englisch gut, sondern auch Chinesisch wird weithin gelobt:

Abschließend, nachdem sie diese gelesen hatten, sagten einige Internetnutzer: „Ich kann es kaum erwarten, es auszuprobieren.“

Manche Leute machen sich Sorgen um DeepSeek:

Beeilen Sie sich und stärken Sie Ihr „Spiel“. Die totale Dominanz ist weg ==

Das Portal ist hier: https://huggingface.co/01-ai/Yi-9B

Das obige ist der detaillierte Inhalt vonGrafikkarten für Endverbraucher verfügbar! Li Kaifu hat das 9-Milliarden-Parameter-Yi-Modell veröffentlicht und als Open Source bereitgestellt, das über die stärkste Code-Mathematikfähigkeit in der Geschichte verfügt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!