Gemeinschaft Lernen Tools-Bibliothek Freizeit

Deutsch

Heim > Technologie-Peripheriegeräte > KI > Durch die Einführung eines großen inländischen Open-Source-MoE-Modells ist seine Leistung mit Llama 2-7B vergleichbar, während der Rechenaufwand um 60 % reduziert wird

Durch die Einführung eines großen inländischen Open-Source-MoE-Modells ist seine Leistung mit Llama 2-7B vergleichbar, während der Rechenaufwand um 60 % reduziert wird

PHPz

Freigeben： 2024-01-15 21:36:14

nach vorne

1015 Leute haben es durchsucht

Das Open-Source-MoE-Modell begrüßt endlich seinen ersten inländischen Player!

Seine Leistung ist dem dichten Modell Llama 2-7B nicht unterlegen, aber der Berechnungsbetrag beträgt nur 40 %.

Dieses Modell kann als 19-seitiger Krieger bezeichnet werden, der Lama in Bezug auf seine Mathematik- und Programmierfähigkeiten besonders vernichtet.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Es ist das neueste Open-Source-Expertenmodell mit 16 Milliarden Parametern, DeepSeek MoE, vom Deep Search-Team.

Neben der hervorragenden Leistung liegt das Hauptaugenmerk von DeepSeek MoE auf der Einsparung von Rechenleistung.

In diesem Leistungsaktivierungsparameterdiagramm wird es „hervorgehoben“ und nimmt einen großen leeren Bereich in der oberen linken Ecke ein.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Nur einen Tag nach seiner Veröffentlichung erhielt der Tweet des DeepSeek-Teams auf X eine große Anzahl von Retweets und Aufmerksamkeit.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Auch Maxime Labonne, ein Ingenieur für maschinelles Lernen bei JP Morgan, sagte nach dem Testen, dass die Chat-Version von DeepSeek MoE etwas besser abschneidet als Microsofts „kleines Modell“ Phi-2.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Gleichzeitig erhielt DeepSeek MoE auch 300+ Sterne auf GitHub und erschien auf der Homepage der Hugging Face-Textgenerierungsmodell-Rangliste.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Was ist also die spezifische Leistung von DeepSeek MoE?

Der Rechenaufwand wird um 60 % reduziert

Die derzeit eingeführte Version von DeepSeek MoE verfügt über 16 Milliarden Parameter und die tatsächliche Anzahl der aktivierten Parameter beträgt etwa 2,8 Milliarden.

Verglichen mit unserem eigenen 7B-Dichtungsmodell hat die Leistung der beiden bei 19 Datensätzen unterschiedliche Vor- und Nachteile, aber die Gesamtleistung ist relativ ähnlich.

Im Vergleich zu Llama 2-7B, das ebenfalls ein dichtes Modell ist, weist DeepSeek MoE auch offensichtliche Vorteile in Mathematik, Code usw. auf.

Aber die Rechenlast beider dichter Modelle übersteigt 180 TFLOPs pro 4k-Token, während DeepSeek MoE nur 74,4 TFLOPs hat, was nur 40 % der beiden ausmacht.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Leistungstests, die mit 2 Milliarden Parametern durchgeführt wurden, zeigen, dass DeepSeek MoE auch gleichwertige oder sogar bessere Ergebnisse erzielen kann als GShard 2.8B, das ebenfalls ein MoE-Modell mit der 1,5-fachen Anzahl von Parametern ist und weniger Berechnungen benötigt.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Darüber hinaus hat das Deep Seek-Team auch die Chat-Version von DeepSeek MoE auf Basis von SFT verfeinert, und ihre Leistung kommt auch der eigenen dichten Version und Llama 2-7B nahe.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Darüber hinaus gab das DeepSeek-Team bekannt, dass sich auch eine 145B-Version des DeepSeek-MoE-Modells in der Entwicklung befindet.

Stufenweise vorläufige Tests zeigen, dass das 145B DeepSeek MoE einen großen Vorsprung gegenüber dem GShard 137B hat und mit 28,5 % des Rechenaufwands eine gleichwertige Leistung wie die dichte Version des DeepSeek 67B-Modells erreichen kann.

Nach Abschluss der Forschung und Entwicklung wird das Team auch die 145B-Version als Open Source veröffentlichen.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Hinter der Leistung dieser Modelle steht die neue selbstentwickelte MoE-Architektur von DeepSeek.

Selbst entwickelte neue MoE-Architektur

Erstens verfügt DeepSeek im Vergleich zur traditionellen MoE-Architektur über eine feinkörnigere Expertenabteilung.

Wenn die Gesamtzahl der Parameter festgelegt ist, kann das traditionelle Modell N Experten klassifizieren, während DeepSeek 2N Experten klassifizieren kann.

Gleichzeitig ist die Anzahl der Experten, die bei jeder Ausführung einer Aufgabe ausgewählt werden, doppelt so hoch wie beim herkömmlichen Modell, sodass die Gesamtzahl der verwendeten Parameter gleich bleibt, der Grad der Auswahlfreiheit jedoch zunimmt.

Diese Segmentierungsstrategie ermöglicht eine flexiblere und anpassungsfähigere Kombination von Aktivierungsexperten und verbessert dadurch die Genauigkeit des Modells für verschiedene Aufgaben und die Relevanz des Wissenserwerbs.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Zusätzlich zu den Unterschieden in der Expertenabteilung führt DeepSeek auch innovativ die Einstellung „gemeinsamer Experte“ ein.

Diese gemeinsamen Experten aktivieren Token für alle Eingaben und sind vom Routing-Modul nicht betroffen. Der Zweck besteht darin, gemeinsames Wissen zu erfassen und zu integrieren, das in verschiedenen Kontexten benötigt wird.

Durch die Komprimierung dieses gemeinsamen Wissens in gemeinsame Experten kann die Parameterredundanz zwischen anderen Experten reduziert und dadurch die Parametereffizienz des Modells verbessert werden.

Die Einstellung gemeinsamer Experten hilft anderen Experten, sich stärker auf ihre individuellen Wissensgebiete zu konzentrieren, wodurch das Gesamtniveau der Expertenspezialisierung erhöht wird.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Die Ergebnisse des Ablationsexperiments zeigen, dass beide Lösungen eine wichtige Rolle bei der „Kostensenkung und Effizienzsteigerung“ von DeepSeek MoE spielen.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Papieradresse: https://arxiv.org/abs/2401.06066.

Referenzlink: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.

Das obige ist der detaillierte Inhalt vonDurch die Einführung eines großen inländischen Open-Source-MoE-Modells ist seine Leistung mit Llama 2-7B vergleichbar, während der Rechenaufwand um 60 % reduziert wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten：

人工智能开源 moe模型

Quelle：51cto.com

Vorheriger Artikel：Ein Überblick über grundlegende Modelle und Roboterentwicklungspfade Nächster Artikel：Hou Zhenyu gab bekannt, dass Baidu eine Reihe nativer KI-Cloud-Produkte auf den Markt gebracht hat und sich für die Neugestaltung großer Modelltechnologien im Cloud Computing einsetzt.

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Die Schlüssel zum Codieren: Die Leistungsfähigkeit von C für Anfänger freischalten

2024-10-13 11:44:01
Verbinden Sie Ihre Website mit PHP und MySQL mit Datenbanken

2024-10-13 09:56:31
Problemlösung mit Python: Erschließen Sie leistungsstarke Lösungen als Programmieranfänger

2024-10-11 20:58:41
Python Power, vereinfacht: Ein anfängerfreundlicher Ansatz zur Programmierung

2024-10-11 16:53:11
PHP und Social Media: Integrieren Sie Ihre Website mit der Welt

2024-10-11 11:54:51
Dynamische Bildgalerien mit PHP: Präsentieren Sie Ihre Arbeit online

2024-10-10 16:21:01
Erstellen Sie APIs und Webdienste mit PHP

2024-10-10 15:18:02
Java entmystifizieren: Ein klarer und einfacher Weg für neue Programmierer

2024-10-10 13:34:01
Erstellen Sie Spiele und Grafiken mit C: Eine unterhaltsame und praktische Einführung

2024-10-10 13:26:26
Wie spielt man Cheng Yaojin in Glory of Kings?

2024-10-10 11:38:42

Aktuelle Ausgaben

Sudoku-Checker funktioniert nicht? Kann mir jemand helfen, den Fehler zu identifizieren? Ich habe alles im Online-Editor versucht, erhalte aber immer noch die Fehlermeldung. Aber ...

Aus 2024-04-06 21:21:07

0

1

474

Streudiagrammpunkte behalten beim Zoomen in d3.js keine Werte bei Dies ist das erste Mal, dass ich d3.js verwende. Bitte haben Sie Geduld. Ich habe es als r...

Aus 2024-04-06 18:16:26

0

1

403

Generieren Sie Standardwerte und CSS-Variablen mit SCSS Ich setze Website-Styling um. Aus Gründen der Legacy-Unterstützung muss ich IE11 zumindest...

Aus 2024-04-06 17:46:54

0

1

355

Verstehen Sie die Funktionsweise des Nuxtjs-Authentifizierungsmoduls Ich versuche tatsächlich, das Nuxtjsauth-Modul in mein Projekt zu integrieren, kann aber n...

Aus 2024-04-06 15:38:16

0

1

371

Node.js: SQL-Abfrageergebnisse können nicht in einem Array gespeichert werden Ich versuche, die Ergebnisse einer SQL-Abfrage in ein Array zu übertragen. Allerdings sche...

Aus 2024-04-06 14:14:46

0

1

373

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage