Maison > Périphériques technologiques > IA > Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

WBOY
Libérer: 2024-06-07 10:29:25
original
525 Les gens l'ont consulté

Master Karpathy ne se contente plus d'utiliser le langage C pour créer Llama !

Le dernier défi qu'il s'est donné : reproduire les résultats classiques d'OpenAI, à commencer par la version de base de GPT-2.

Le succès du défi lui-même n'est pas inattendu, mais il n'a coûté que 20 dollars américains et 90 minutes pour terminer la formation, et la perte et l'évaluation ont dépassé la version originale, tout simplement ! avoir! indiquer! Passer! indiquer! J'ai compris! .

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Non seulement cela, il a écrit un tutoriel complet sur le processus de reproduction, et comme prévu, il est redevenu populaire.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Depuis que Karpathy a loué le service cloud A100, la formation sur la version 124M coûte 20 dollars américains.

Cependant, quelqu'un a suivi le tutoriel et a couru avec le H100. Non seulement le temps de formation est devenu plus court, mais cela a également permis d'économiser de l'argent : il a été réalisé en 43 minutes et n'a coûté que 14 dollars américains.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

De plus, Karpathy a également dépensé 200 $ US de sa propre poche pour reproduire la version 350M de GPT-2 pour tout le monde.

Mais la version grande tasse 1,5B, selon les calculs, coûtera 1 semaine et 2500 dollars américains, ce qui est un peu inabordable, principalement parce qu'il n'a pas de H100 en main.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Heureusement, tous les trenchs sont très généreux et passent à l'action quand il est temps de passer à l'action :

Je te le donnerai quand tu en auras besoin !

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Ne vous facture que 2 $ de l'heure !

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Reproduit GPT-2 en 90 minutes

Cette fois, Karpathy a reproduit GPT-2, toujours basé sur sa base de code lama.c, complétant la formation de bout en bout.

La base de code a été continuellement améliorée par lui ces jours-ci, et il est désormais très simple de commencer la formation :

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Plus précisément, la structure du réseau est GPT-2, mais de nombreux paramètres d'hyperparamètres suivent l'ensemble de GPT-3 .

Karpathy a analysé que selon la norme de la loi de Chinchilla, la formation GPT-2 sur des jetons 100B devrait être surentraînée et les rendements diminueront plus tard. Selon les calculs, 2,5Btokens suffisent pour le modèle 124M.

Cependant, il a formé lui-même 10 milliards de jetons et les données de formation ont également utilisé FineWeb, qui vient de sortir. La qualité des jetons est supérieure à celle de l'ensemble de données OpenAI WebText d'origine.

Le WebText original n'a jamais été rendu public, et il est impossible d'expérimenter avec des variables contrôlées dans les mêmes conditions. De plus, la répartition des données Internet aujourd'hui peut être très différente de celle d'il y a 5 ans.

On suppose que la raison pour laquelle le score d'évaluation est plus élevé que la version originale peut être due à ces différences.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

De plus, certains internautes ont remarqué que l'efficacité d'utilisation du GPU pendant la formation est également supérieure à celle d'OpenAI, mais Karpathy a déclaré que cela est principalement dû à l'utilisation d'un seul nœud de service cloud, et qu'il n'est pas nécessaire de prendre en compte les problèmes de communication inter-serveurs.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Enfin, pour la version 350M de GPT-2 qui a été entraînée, elle a également obtenu des résultats qui ont dépassé la version originale.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Applaudissements~

Le grand maître n'est pas si stupide

Depuis sa démission d'OpenAI en février de cette année, Karpathy a utilisé le langage C pour produire de nombreux résultats de grands modèles et a joué avec lui, de Llama à GPT.

En observant sa carte thermique GitHub, je n'ai fait une pause qu'au début, et elle est devenue de plus en plus populaire après le début du mois d'avril.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Est-ce le rythme de démissionner et de rester à la maison pour faire le 997 ?

En fait, Karpathy a également voyagé pendant cette période et a également partagé les jeux auxquels il jouait, qui n'étaient pas si écrasants.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Selon l'horaire hebdomadaire qu'il a affiché : 975 heures pendant son travail, et 4 à 20 heures de travail après sa démission, selon son humeur.

  • J'ai travaillé 4 heures le lundi,
  • ai travaillé 14 heures le mardi jusqu'à 23 heures
  • J'ai eu de l'insomnie le mercredi, je me suis levé à 16 heures pour écrire du code et je me suis effondré à midi
  • J'ai travaillé 20 heures jeudi
  • repos Vendredi
  • Samedi 12 heures
  • 4 heures dimanche
  • puis voyage pendant deux semaines.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Tout le monde est curieux après avoir vu cela. Est-il préférable d'avoir un arrangement régulier, ou est-ce que cela fonctionne à votre guise ?

Karpathy lui-même n'en est pas sûr, mais un emploi du temps chaotique est définitivement plus intéressant.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Enfin, il a également partagé une expérience de freelancing :

Commencez à travailler directement après vous être levé, sans lire aucun message, et connectez-vous après le déjeuner pour éviter les distractions liées aux informations externes.

Le nouveau tutoriel de Karpathy devient viral et les internautes se précipitent pour lui donner H100 : recréer la formation GPT-2 à partir de zéro

Les amis qui ont les conditions peuvent l'essayer.

Tutoriel : https://github.com/karpathy/llm.c/discussions/481.

Lien de référence :
[1]https://x.com/karpathy/status/1795484547267834137.
[2]https://www.threads.net/@karpathy.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal