Meister Karpathy gibt sich nicht mehr mit der Verwendung der C-Sprache zur Erstellung von Lamas zufrieden!
Die neueste Herausforderung, die er sich stellte: die klassischen Ergebnisse von OpenAI zu reproduzieren, beginnend mit der Basisversion von GPT-2.
Der Erfolg der Herausforderung selbst ist nicht unerwartet, aber die Durchführung des Trainings kostete nur 20 US-Dollar und 90 Minuten, und der Verlust und die Bewertung übertrafen die Originalversion um ein Vielfaches! haben! Punkt! Passieren! Punkt! Habe es! .
Darüber hinaus hat er ein komplettes Tutorial zum Reproduktionsprozess geschrieben, und wie erwartet wurde es wieder populär.
Da Karpathy den A100-Cloud-Service gemietet hat, kostete das Training der 124M-Version 20 US-Dollar.
Jemand folgte jedoch dem Tutorial und lief mit H100. Nicht nur wurde die Trainingszeit kürzer, es sparte auch Geld: Es war in 43 Minuten abgeschlossen und kostete nur 14 US-Dollar.
Darüber hinaus gab Karpathy auch 200 US-Dollar aus eigener Tasche aus, um die 350-Millionen-Version von GPT-2 für alle zu reproduzieren.
Aber die 1,5B-Version mit großem Becher wird den Berechnungen zufolge 1 Woche und 2500 US-Dollar kosten, was etwas unerschwinglich ist, vor allem weil er kein H100 in der Hand hat.
Zum Glück sind alle Gräben sehr großzügig und handeln, wenn es Zeit zum Handeln ist:
Ich gebe es dir, wann immer du es brauchst!
Es kostet Sie nur 2 $ pro Stunde!
Diesmal reproduzierte Karpathy GPT-2, immer noch basierend auf seiner llama.c-Codebasis, und schloss das Training durchgängig ab.
Die Codebasis wurde von ihm heutzutage kontinuierlich verbessert, und jetzt ist es sehr einfach, mit dem Training zu beginnen:
Konkret ist die Netzwerkstruktur GPT-2, aber viele Hyperparametereinstellungen folgen dem Satz von GPT-3 .
Karpathy analysierte, dass nach dem Standard des Chinchilla-Gesetzes das GPT-2-Training auf 100B-Tokens übertrainiert sein sollte und die Erträge später abnehmen werden. Laut Berechnung reichen 2,5Btokens für das 124M-Modell.
Er hat jedoch selbst 10B-Token trainiert, und die Trainingsdaten verwendeten auch FineWeb, das gerade veröffentlicht wurde. Die Token-Qualität ist höher als die des ursprünglichen OpenAI-WebText-Datensatzes.
Der ursprüngliche WebText wurde nie veröffentlicht und es ist unmöglich, unter den gleichen Bedingungen mit kontrollierten Variablen zu experimentieren. Darüber hinaus kann sich die Verteilung von Internetdaten heute stark von der vor 5 Jahren unterscheiden.
Es wird spekuliert, dass der Grund, warum die Bewertungspunktzahl höher ist als die der Originalversion, in diesen Unterschieden liegen könnte.
Darüber hinaus bemerkten einige Internetnutzer, dass die GPU-Nutzungseffizienz während des Trainings ebenfalls höher ist als die von OpenAI, aber Karpathy sagte, dass dies hauptsächlich auf die Verwendung eines einzelnen Cloud-Service-Knotens zurückzuführen sei und keine Notwendigkeit bestehe Berücksichtigen Sie Kommunikationsprobleme zwischen Servern.
Schließlich erzielte die trainierte 350M-Version von GPT-2 auch Ergebnisse, die die Originalversion übertrafen.
Applaus~
Seit seinem Rücktritt von OpenAI im Februar dieses Jahres hat Karpathy die Sprache C verwendet, um viele große Modellergebnisse zu produzieren, und hat damit von Llama bis GPT gespielt.
Als ich seine GitHub-Heatmap beobachtete, machte ich nur am Anfang eine Pause und sie wurde nach Beginn des Aprils immer beliebter.
Ist das der Rhythmus, zurückzutreten und zu Hause zu bleiben, um 997 zu machen?
Tatsächlich ist Karpathy in dieser Zeit auch gereist und hat auch die Spiele, die er gespielt hat, geteilt, die nicht so überwältigend waren.
Laut dem von ihm veröffentlichten Wochenplan: 975 Stunden während der Arbeit und 4-20 Stunden Arbeit nach der Kündigung, je nach Stimmung.
Jeder ist neugierig, nachdem er das gesehen hat. Ist es besser, eine regelmäßige Vereinbarung zu treffen, oder funktioniert es nach Belieben?
Karpathy selbst ist sich nicht sicher, aber ein chaotischer Zeitplan ist definitiv interessanter.
Schließlich teilte er auch ein freiberufliches Erlebnis:
Beginnen Sie direkt nach dem Aufstehen mit der Arbeit, ohne irgendwelche Nachrichten zu lesen, und gehen Sie nach dem Mittagessen online, um Ablenkungen durch externe Informationen zu vermeiden.
Freunde, die die Voraussetzungen haben, können es ausprobieren.
Tutorial: https://github.com/karpathy/llm.c/discussions/481.
Referenzlink:
[1]https://x.com/karpathy/status/1795484547267834137.
[2]https://www.threads.net/@karpathy.
Das obige ist der detaillierte Inhalt vonKarpathys neues Tutorial geht viral und Internetnutzer beeilen sich, ihm H100: GPT-2-Training von Grund auf neu zu erstellen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!