Die technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM-KI-php.cn

Die technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM

WBOY

Freigeben： 2024-03-01 16:01:33

nach vorne

738 Leute haben es durchsucht

Während sich die technische Analyse von Sora entfaltet, wird die Bedeutung der KI-Infrastruktur immer wichtiger.

Ein neuer Artikel von Byte und der Peking-Universität erregte zu diesem Zeitpunkt Aufmerksamkeit:

Der Artikel enthüllte, dass der von Byte gebaute Wanka-Cluster das GPT-3-Maßstabsmodell (175B) in 1,75 Tagen ) Training fertigstellen kann .

Die technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM

Konkret schlug Byte ein Produktionssystem namens MegaScale vor, das darauf abzielt, die Effizienz- und Stabilitätsherausforderungen zu lösen, die beim Training großer Modelle auf dem Wanka-Cluster auftreten.

Beim Training eines großen Sprachmodells mit 175 Milliarden Parametern auf 12288 GPUs erreichte MegaScale eine Rechenleistungsauslastung von 55,2 % (MFU) , was dem 1,34-fachen von NVIDIA Megatron-LM entspricht.

Das Papier enthüllte auch, dass Byte seit September 2023 einen GPU-Cluster mit Ampere-Architektur (A100/A800) mit mehr als 10.000 Karten eingerichtet hat und derzeit eine groß angelegte Hopper-Architektur (H100/H800) aufbaut Cluster.

Geeignet für das Wanka-Cluster-Produktionssystem

Im Zeitalter großer Modelle muss die Bedeutung der GPU nicht mehr näher erläutert werden.

Aber das Training großer Modelle kann nicht direkt gestartet werden, wenn die Anzahl der Karten voll ist – wenn die Skalierung des GPU-Clusters das „10.000“-Niveau erreicht, ist es eine Herausforderung für sich, ein „effizientes und stabiles“ Training zu erreichen technische Probleme.

Das Training eines großen Sprachmodells ist keine einfache parallele Aufgabe. Es erfordert die Verteilung des Modells auf mehrere GPUs, und diese GPUs erfordern häufige Kommunikation, um den Trainingsprozess gemeinsam voranzutreiben. Neben der Kommunikation haben Faktoren wie Bedieneroptimierung, Datenvorverarbeitung und GPU-Speicherverbrauch alle einen Einfluss auf die Rechenleistungsauslastung

(MFU)

, ein Indikator, der die Trainingseffizienz misst.

MFU ist das Verhältnis des tatsächlichen Durchsatzes zum theoretischen Maximaldurchsatz.

Die zweite Herausforderung: Stabilität.

Wir wissen, dass das Training großer Sprachmodelle oft sehr lange dauert, was auch bedeutet, dass Fehler und Verzögerungen während des Trainingsprozesses keine Seltenheit sind.

Die Kosten eines Ausfalls sind hoch, daher ist es besonders wichtig, die Wiederherstellungszeit nach einem Ausfall zu verkürzen.

Um diese Herausforderungen zu bewältigen, haben die Forscher von ByteDance MegaScale entwickelt und es im Rechenzentrum von Byte bereitgestellt, um das Training verschiedener großer Modelle zu unterstützen.

MegaScale wurde auf Basis von NVIDIA Megatron-LM verbessert.

Die technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM Zu den spezifischen Verbesserungen gehören das gemeinsame Design von Algorithmen und Systemkomponenten, die Optimierung von Kommunikations- und Rechenüberschneidungen, die Betreiberoptimierung, die Optimierung der Datenpipeline und die Optimierung der Netzwerkleistung usw.:

Algorithmusoptimierung: Forscher führten einen parallelisierten Transformer-Block, einen Schiebefenster-Aufmerksamkeitsmechanismus (SWA) und einen LAMB-Optimierer in die Modellarchitektur ein, um die Trainingseffizienz zu verbessern, ohne die Konvergenz des Modells zu beeinträchtigen.
Kommunikationsüberlappung: Basierend auf der spezifischen Analyse der Operationen jeder Recheneinheit in 3D-Parallelität (Datenparallelität, Pipeline-Parallelität, Tensor-Parallelität) entwickelten Forscher technische Strategien, um Operationen bei nicht kritischer Ausführung effektiv zu reduzieren paths Die verursachte Verzögerung verkürzt die Iterationszeit jeder Runde im Modelltraining.
Effiziente Operatoren: Der GEMM-Operator wurde optimiert und Operationen wie LayerNorm und GeLU wurden integriert, um den Overhead beim Starten mehrerer Kerne zu reduzieren und Speicherzugriffsmuster zu optimieren.
Optimierung der Datenpipeline: Optimieren Sie die Datenvorverarbeitung und das Laden und reduzieren Sie die GPU-Leerlaufzeit durch asynchrone Datenvorverarbeitung und Eliminierung redundanter Datenlader.
Initialisierung der kollektiven Kommunikationsgruppe: Der Initialisierungsprozess des NVIDIA Multi-Card-Kommunikationsframeworks NCCL im verteilten Training wurde optimiert. Ohne Optimierung beträgt die Initialisierungszeit eines 2048-GPU-Clusters 1047 Sekunden, was nach der Optimierung auf weniger als 5 Sekunden reduziert werden kann;
Optimierung der Netzwerkleistung: Analysierte den Datenverkehr zwischen Maschinen in 3D-Parallelität und entwickelte technische Lösungen zur Verbesserung der Netzwerkleistung, einschließlich Netzwerktopologiedesign, Reduzierung von ECMP-Hash-Konflikten, Überlastungskontrolle und Einstellungen für Zeitüberschreitungen bei Neuübertragungen.
Fehlertoleranz: Im Wanka-Cluster sind Software- und Hardwarefehler unvermeidbar. Die Forscher entwarfen einen Trainingsrahmen, um eine automatische Fehlererkennung und eine schnelle Wiederherstellung zu erreichen. Konkret umfasst es die Entwicklung von Diagnosetools zur Überwachung von Systemkomponenten und -ereignissen, die Optimierung von Checkpoint-Trainingsprozessen zur Hochfrequenzeinsparung usw.

In dem Artikel wurde erwähnt, dass MegaScale mehr als 90 % der Software- und Hardwarefehler automatisch erkennen und reparieren kann.

Die technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM

Experimentelle Ergebnisse zeigen, dass MegaScale beim Training eines 175B großen Sprachmodells auf 12288 GPUs 55,2 % MFU erreichte, was dem 1,34-fachen der Rechenleistungsauslastung von Megatrion-LM entspricht.

Die MFU-Vergleichsergebnisse des Trainings eines großen 530B-Sprachmodells lauten wie folgt:

Die technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM

One More Thing

Gerade als dieses technische Papier eine Diskussion auslöste, kamen neue Neuigkeiten über das bytebasierte Sora-Produkt heraus:

Screenshot Sein KI-Videotool ähnlich wie Sora hat einen Betatest nur auf Einladung gestartet.

Die technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM

Der Grundstein scheint gelegt zu sein, freuen Sie sich also auf die großen Modellprodukte von Byte?

Papieradresse: https://arxiv.org/abs/2402.15627

Das obige ist der detaillierte Inhalt vonDie technischen Details des Byte Wanka-Clusters werden bekannt gegeben: Das GPT-3-Training wurde in 2 Tagen abgeschlossen und die Rechenleistungsauslastung übertraf NVIDIA Megatron-LM. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!