Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen-KI-php.cn

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

WBOY

Freigeben： 2024-06-07 10:29:25

Original

525 Leute haben es durchsucht

Meister Karpathy gibt sich nicht mehr mit der Verwendung der C-Sprache zur Erstellung von Lamas zufrieden!

Die neueste Herausforderung, die er sich stellte: die klassischen Ergebnisse von OpenAI zu reproduzieren, beginnend mit der Basisversion von GPT-2.

Der Erfolg der Herausforderung selbst ist nicht unerwartet, aber die Durchführung des Trainings kostete nur 20 US-Dollar und 90 Minuten, und der Verlust und die Bewertung übertrafen die Originalversion um ein Vielfaches! haben! Punkt! Passieren! Punkt! Habe es! .

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Darüber hinaus hat er ein komplettes Tutorial zum Reproduktionsprozess geschrieben, und wie erwartet wurde es wieder populär.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Da Karpathy den A100-Cloud-Service gemietet hat, kostete das Training der 124M-Version 20 US-Dollar.

Jemand folgte jedoch dem Tutorial und lief mit H100. Nicht nur wurde die Trainingszeit kürzer, es sparte auch Geld: Es war in 43 Minuten abgeschlossen und kostete nur 14 US-Dollar.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Darüber hinaus gab Karpathy auch 200 US-Dollar aus eigener Tasche aus, um die 350-Millionen-Version von GPT-2 für alle zu reproduzieren.

Aber die 1,5B-Version mit großem Becher wird den Berechnungen zufolge 1 Woche und 2500 US-Dollar kosten, was etwas unerschwinglich ist, vor allem weil er kein H100 in der Hand hat.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Zum Glück sind alle Gräben sehr großzügig und handeln, wenn es Zeit zum Handeln ist:

Ich gebe es dir, wann immer du es brauchst!

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Es kostet Sie nur 2 $ pro Stunde!

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

GPT-2 in 90 Minuten reproduziert

Diesmal reproduzierte Karpathy GPT-2, immer noch basierend auf seiner llama.c-Codebasis, und schloss das Training durchgängig ab.

Die Codebasis wurde von ihm heutzutage kontinuierlich verbessert, und jetzt ist es sehr einfach, mit dem Training zu beginnen:

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Konkret ist die Netzwerkstruktur GPT-2, aber viele Hyperparametereinstellungen folgen dem Satz von GPT-3 .

Karpathy analysierte, dass nach dem Standard des Chinchilla-Gesetzes das GPT-2-Training auf 100B-Tokens übertrainiert sein sollte und die Erträge später abnehmen werden. Laut Berechnung reichen 2,5Btokens für das 124M-Modell.

Er hat jedoch selbst 10B-Token trainiert, und die Trainingsdaten verwendeten auch FineWeb, das gerade veröffentlicht wurde. Die Token-Qualität ist höher als die des ursprünglichen OpenAI-WebText-Datensatzes.

Der ursprüngliche WebText wurde nie veröffentlicht und es ist unmöglich, unter den gleichen Bedingungen mit kontrollierten Variablen zu experimentieren. Darüber hinaus kann sich die Verteilung von Internetdaten heute stark von der vor 5 Jahren unterscheiden.

Es wird spekuliert, dass der Grund, warum die Bewertungspunktzahl höher ist als die der Originalversion, in diesen Unterschieden liegen könnte.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Darüber hinaus bemerkten einige Internetnutzer, dass die GPU-Nutzungseffizienz während des Trainings ebenfalls höher ist als die von OpenAI, aber Karpathy sagte, dass dies hauptsächlich auf die Verwendung eines einzelnen Cloud-Service-Knotens zurückzuführen sei und keine Notwendigkeit bestehe Berücksichtigen Sie Kommunikationsprobleme zwischen Servern.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Schließlich erzielte die trainierte 350M-Version von GPT-2 auch Ergebnisse, die die Originalversion übertrafen.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Applaus~

Der große Meister ist nicht so dumm

Seit seinem Rücktritt von OpenAI im Februar dieses Jahres hat Karpathy die Sprache C verwendet, um viele große Modellergebnisse zu produzieren, und hat damit von Llama bis GPT gespielt.

Als ich seine GitHub-Heatmap beobachtete, machte ich nur am Anfang eine Pause und sie wurde nach Beginn des Aprils immer beliebter.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Ist das der Rhythmus, zurückzutreten und zu Hause zu bleiben, um 997 zu machen?

Tatsächlich ist Karpathy in dieser Zeit auch gereist und hat auch die Spiele, die er gespielt hat, geteilt, die nicht so überwältigend waren.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Laut dem von ihm veröffentlichten Wochenplan: 975 Stunden während der Arbeit und 4-20 Stunden Arbeit nach der Kündigung, je nach Stimmung.

Habe am Montag 4 Stunden gearbeitet,
Habe am Dienstag 14 Stunden bis 23 Uhr gearbeitet
Ich hatte am Mittwoch Schlaflosigkeit, stand um 16 Uhr auf, um Code zu schreiben, und brach mittags zusammen
Ich habe am Donnerstag 20 Stunden gearbeitet
Ruhe dich aus Freitag
Samstag 12 Stunden
4 Stunden am Sonntag
und dann zwei Wochen unterwegs.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Jeder ist neugierig, nachdem er das gesehen hat. Ist es besser, eine regelmäßige Vereinbarung zu treffen, oder funktioniert es nach Belieben?

Karpathy selbst ist sich nicht sicher, aber ein chaotischer Zeitplan ist definitiv interessanter.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Schließlich teilte er auch ein freiberufliches Erlebnis:

Beginnen Sie direkt nach dem Aufstehen mit der Arbeit, ohne irgendwelche Nachrichten zu lesen, und gehen Sie nach dem Mittagessen online, um Ablenkungen durch externe Informationen zu vermeiden.

Karpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen

Freunde, die die Voraussetzungen haben, können es ausprobieren.

Tutorial: https://github.com/karpathy/llm.c/discussions/481.

Referenzlink:
[1]https://x.com/karpathy/status/1795484547267834137.
[2]https://www.threads.net/@karpathy.

Das obige ist der detaillierte Inhalt vonKarpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!