Master Karpathy ne se contente plus d'utiliser le langage C pour créer Llama !
Le dernier défi qu'il s'est donné : reproduire les résultats classiques d'OpenAI, à commencer par la version de base de GPT-2.
Le succès du défi lui-même n'est pas inattendu, mais il n'a coûté que 20 dollars américains et 90 minutes pour terminer la formation, et la perte et l'évaluation ont dépassé la version originale, tout simplement ! avoir! indiquer! Passer! indiquer! J'ai compris! .
Non seulement cela, il a écrit un tutoriel complet sur le processus de reproduction, et comme prévu, il est redevenu populaire.
Depuis que Karpathy a loué le service cloud A100, la formation sur la version 124M coûte 20 dollars américains.
Cependant, quelqu'un a suivi le tutoriel et a couru avec le H100. Non seulement le temps de formation est devenu plus court, mais cela a également permis d'économiser de l'argent : il a été réalisé en 43 minutes et n'a coûté que 14 dollars américains.
De plus, Karpathy a également dépensé 200 $ US de sa propre poche pour reproduire la version 350M de GPT-2 pour tout le monde.
Mais la version grande tasse 1,5B, selon les calculs, coûtera 1 semaine et 2500 dollars américains, ce qui est un peu inabordable, principalement parce qu'il n'a pas de H100 en main.
Heureusement, tous les trenchs sont très généreux et passent à l'action quand il est temps de passer à l'action :
Je te le donnerai quand tu en auras besoin !
Ne vous facture que 2 $ de l'heure !
Cette fois, Karpathy a reproduit GPT-2, toujours basé sur sa base de code lama.c, complétant la formation de bout en bout.
La base de code a été continuellement améliorée par lui ces jours-ci, et il est désormais très simple de commencer la formation :
Plus précisément, la structure du réseau est GPT-2, mais de nombreux paramètres d'hyperparamètres suivent l'ensemble de GPT-3 .
Karpathy a analysé que selon la norme de la loi de Chinchilla, la formation GPT-2 sur des jetons 100B devrait être surentraînée et les rendements diminueront plus tard. Selon les calculs, 2,5Btokens suffisent pour le modèle 124M.
Cependant, il a formé lui-même 10 milliards de jetons et les données de formation ont également utilisé FineWeb, qui vient de sortir. La qualité des jetons est supérieure à celle de l'ensemble de données OpenAI WebText d'origine.
Le WebText original n'a jamais été rendu public, et il est impossible d'expérimenter avec des variables contrôlées dans les mêmes conditions. De plus, la répartition des données Internet aujourd'hui peut être très différente de celle d'il y a 5 ans.
On suppose que la raison pour laquelle le score d'évaluation est plus élevé que la version originale peut être due à ces différences.
De plus, certains internautes ont remarqué que l'efficacité d'utilisation du GPU pendant la formation est également supérieure à celle d'OpenAI, mais Karpathy a déclaré que cela est principalement dû à l'utilisation d'un seul nœud de service cloud, et qu'il n'est pas nécessaire de prendre en compte les problèmes de communication inter-serveurs.
Enfin, pour la version 350M de GPT-2 qui a été entraînée, elle a également obtenu des résultats qui ont dépassé la version originale.
Applaudissements~
Depuis sa démission d'OpenAI en février de cette année, Karpathy a utilisé le langage C pour produire de nombreux résultats de grands modèles et a joué avec lui, de Llama à GPT.
En observant sa carte thermique GitHub, je n'ai fait une pause qu'au début, et elle est devenue de plus en plus populaire après le début du mois d'avril.
Est-ce le rythme de démissionner et de rester à la maison pour faire le 997 ?
En fait, Karpathy a également voyagé pendant cette période et a également partagé les jeux auxquels il jouait, qui n'étaient pas si écrasants.
Selon l'horaire hebdomadaire qu'il a affiché : 975 heures pendant son travail, et 4 à 20 heures de travail après sa démission, selon son humeur.
Tout le monde est curieux après avoir vu cela. Est-il préférable d'avoir un arrangement régulier, ou est-ce que cela fonctionne à votre guise ?
Karpathy lui-même n'en est pas sûr, mais un emploi du temps chaotique est définitivement plus intéressant.
Enfin, il a également partagé une expérience de freelancing :
Commencez à travailler directement après vous être levé, sans lire aucun message, et connectez-vous après le déjeuner pour éviter les distractions liées aux informations externes.
Les amis qui ont les conditions peuvent l'essayer.
Tutoriel : https://github.com/karpathy/llm.c/discussions/481.
Lien de référence :
[1]https://x.com/karpathy/status/1795484547267834137.
[2]https://www.threads.net/@karpathy.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!