コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > テクノロジー周辺機器 > AI > Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

WBOY

リリース： 2024-06-07 10:29:25

オリジナル

523 人が閲覧しました

マスターカルパシーは、C 言語を使用してラマを作成することにもう満足していません!

彼が自分自身に課した最新の課題は、GPT-2 の基本バージョンから始めて、OpenAI の古典的な結果を再現することです。

チャレンジの成功自体は予想外ではありませんが、トレーニングを完了するのにかかる費用は 20 米ドルと 90 分だけで、損失と評価はオリジナルバージョンを上回りました。持っている！ポイント！合格！ポイント！わかった！。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

それだけでなく、彼は複製プロセスに関する完全なチュートリアルを書き、予想通り、再び人気が出ました。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

Karpathy は A100 クラウドサービスをレンタルしたため、124M バージョンのトレーニングには 20 米ドルかかりました。

しかし、ある人がチュートリアルに従って H100 を実行したところ、トレーニング時間が短縮されただけでなく、コストも節約されました。43 分で完了し、費用は 14 米ドルのみでした。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

さらに、Karpathy は自腹から 200 米ドルを費やして、3 億 5000 万バージョンの GPT-2 を全員に再生産しました。

しかし、計算によると、1.5B ラージカップバージョンは 1 週間で 2,500 米ドルかかります。これは、主に H100 を手に持っていないため、少し手が届きません。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

幸いなことに、すべての塹壕は非常に寛大で、行動を起こすときは行動を起こします:

必要なときにいつでもあげます!

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

料金は 1 時間あたり 2 ドルだけです!

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

90 分で GPT-2 を再現

今回、Karpathy は依然として llama.c コードベースに基づいて GPT-2 を再現し、トレーニングをエンドツーエンドで完了しました。

コードベースは最近彼によって継続的に改善されており、トレーニングを開始するのは非常に簡単になりました:

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

具体的には、ネットワーク構造は GPT-2 ですが、多くのハイパーパラメータ設定は GPT-3 のセットに従います。

Karpathy 氏は、チンチラの法則の基準によれば、100B トークンでの GPT-2 トレーニングはオーバートレーニングされるべきであり、計算によれば、124M モデルには 2.5B トークンで十分であると分析しました。

ただし、彼は 10B トークンを自分でトレーニングし、トレーニングデータには、間もなくリリースされたばかりの FineWeb も使用しました。トークンの品質は、元の OpenAI WebText データセットよりも高くなっています。

オリジナルの WebText は公開されておらず、同じ条件で制御変数を実験することは不可能です。また、今日のインターネットデータの分布は 5 年前のものとは大きく異なる可能性があります。

これらの違いがレビュースコアがオリジナル版よりも高い理由ではないかと推測されています。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

さらに、一部のネチズンは、トレーニング中の GPU 使用効率も OpenAI よりも高いことに気づきましたが、Karpathy 氏は、これは主に単一のクラウドサービスノードの使用によるものであり、その必要はないと述べました。サーバー間の通信の問題を考慮してください。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

最後に、トレーニング済みの GPT-2 の 350M バージョンでも、オリジナルバージョンを超える結果を達成しました。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

拍手~

偉大なマスターはそれほど愚かではありません

今年2月にOpenAIを辞めて以来、KarpathyはC言語を使用して多くの大規模なモデル結果を作成し、LlamaからGPTまでC言語を使って遊んできました。

彼の GitHub ヒートマップを観察していると、最初は休憩しただけで、4 月に入ってからどんどん人気が高まってきました。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

これは997をやるために辞めて家に居るというリズムでしょうか？

実際、カルパシーもこの期間に旅行し、プレイしていたゲームを共有しましたが、それほど圧倒的ではありませんでした。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

彼が投稿した週間スケジュールによると、勤務中は975時間、退職後は気分に応じて4〜20時間労働。

月曜日は4時間働き、
火曜日は午後11時まで14時間働きました
水曜日は不眠症になり、午後4時に起きてコードを書き、正午に倒れました
木曜日は20時間働きました
休みは金曜日
土曜日12時間
日曜日
に4時間、その後2週間の旅行になります。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

これを見て皆さんも気になるのは、定期的な取り決めが良いのか、それとも好き勝手に動くのか？

カルパシー自身もよくわかりませんが、混沌としたスケジュールの方が間違いなく興味深いです。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

最後に、彼はフリーランスの経験も共有しました:

起きたらメッセージを読まずにすぐに仕事を始め、外部情報に気を散らされないよう昼食後にオンラインにアクセスします。

Karpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成する

条件のあるお友達は試してみてください。

チュートリアル: https://github.com/karpathy/llm.c/Discussions/481。

参考リンク:
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。

以上がKarpathy の新しいチュートリアルが急速に広まり、ネチズンは彼に H100 を与えようと殺到します: GPT-2 トレーニングをゼロから再作成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

AI karpathy GPT-2

ソース：51cto.com

前の記事：GenAI および LLM の技術面接に関する 7 つのクールな質問次の記事：メモリストレージに基づいて Elasticsearch を展開 - 1 億個以上のデータ、全文検索 100 ミリ秒の応答

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

NullPointerException とは何ですか?どのように修正すればよいですか?

2024-10-22 09:46:29
初心者からプログラマーへ: 旅は C の基礎から始まります

2024-10-13 13:53:41
PHP による Web 開発のロックを解除する: 初心者ガイド

2024-10-12 12:15:51
C の謎を解く: 新人プログラマーのための明確でシンプルな道

2024-10-11 22:47:31
コーディングの可能性を解き放つ: まったくの初心者のための C プログラミング

2024-10-11 19:36:51
内なるプログラマーを解き放つ: まったくの初心者のための C

2024-10-11 15:50:41
C で生活を自動化する: 初心者向けのスクリプトとツール

2024-10-11 15:07:41
PHP を簡単に: Web 開発の最初のステップ

2024-10-11 14:21:21
Python で何でも構築: 創造性を解き放つための初心者ガイド

2024-10-11 12:59:11
コーディングの鍵: 初心者のための Python の力を解き放つ

2024-10-11 12:17:31

最新の問題

数独チェッカーが動作しないのですが？エラーの特定を手伝ってくれる人はいますか? オンラインエディターですべてを試しましたが、それでもエラーが発生します。しかし、私のマシンのVSCodeでこれを実行すると、正常に動作します。混乱していて、バグを見つけずにコードを...

から 2024-04-06 21:21:07

0

1

474

d3.js でズームインすると散布図のポイントの値が維持されない d3.js を使用するのは初めてなので、ご容赦ください。 vue.js ファイルに純粋な JavaScript として実装しました。ズーム機能を使用して散布図を作成しようとしていま...

から 2024-04-06 18:16:26

0

1

403

SCSSを使用してデフォルト値とCSS変数を生成するウェブサイトのスタイリングを実装しています。レガシーサポートの理由から、少なくともしばらくの間は IE11 をサポートする必要があります。ワークフローと私の健全性の理由から、私は...

から 2024-04-06 17:46:54

0

1

355

Nuxtjs 認証モジュールの内部動作を理解する実際に Nuxtjsauth モジュールをプロジェクトに統合しようとしていますが、認証モジュールが実際にどのように機能するのか理解できません。誰かがこの概念を理解するのを手伝ってく...

から 2024-04-06 15:38:16

0

1

371

Node.js: SQL クエリ結果を配列に保存できない SQLクエリの結果を配列にプッシュしようとしています。しかし、うまくいかないようです。オンラインで解決策が見つかりません。誰かがこの問題の解決を手伝ってくれたら、とても感謝します。...

から 2024-04-06 14:14:46

0

1

373

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート