Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal-AI-php.cn

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

WBOY

Lepaskan： 2024-06-07 10:29:25

asal

525 orang telah melayarinya

Master Karpathy tidak lagi berpuas hati menggunakan bahasa C untuk mencipta Llama!

Cabaran terbaru yang dia berikan sendiri: untuk menghasilkan semula hasil klasik OpenAI, bermula dengan versi asas GPT-2.

Kejayaan cabaran itu sendiri bukan di luar jangkaan, tetapi ia hanya menelan belanja 20 dolar AS dan 90 minit untuk melengkapkan latihan, dan kerugian serta penilaian mengatasi versi asal, cuma! mempunyai! titik! Lulus! titik! faham! .

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Bukan itu sahaja, dia menulis tutorial lengkap tentang proses pembiakan, dan seperti dijangka ia kembali popular.

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Sejak Karpathy menyewa perkhidmatan awan A100, latihan versi 124M berharga 20 dolar AS.

Walau bagaimanapun, seseorang mengikuti tutorial dan menjalankannya dengan H100 Bukan sahaja masa latihan menjadi lebih singkat, tetapi ia juga menjimatkan wang: ia telah disiapkan dalam masa 43 minit dan hanya berharga 14 dolar AS.

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Selain itu, Karpathy juga membelanjakan AS$200 dari poketnya sendiri untuk mengeluarkan semula versi 350M GPT-2 untuk semua orang.

Tetapi versi cawan besar 1.5B, mengikut pengiraan, akan menelan kos 1 minggu dan 2500 dolar AS, yang agak tidak mampu, terutamanya kerana dia tidak mempunyai H100 di tangannya.

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Nasib baik, semua parit sangat murah hati dan mengambil tindakan apabila tiba masanya untuk mengambil tindakan:

Saya akan memberikannya kepada anda bila-bila masa anda memerlukannya!

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Hanya caj anda $2 sejam!

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Menghasilkan semula GPT-2 dalam masa 90 minit

Kali ini Karpathy mengeluarkan semula GPT-2, masih berdasarkan asas kod llama.cnya, melengkapkan latihan dari hujung ke hujung.

Pangkalan kod telah dipertingkatkan secara berterusan oleh beliau hari ini, dan kini sangat mudah untuk memulakan latihan:

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Secara khusus, struktur rangkaian ialah GPT-2, tetapi banyak tetapan hiperparameter mengikut set GPT-3 .

Karpathy menganalisis bahawa mengikut piawaian undang-undang Chinchilla, latihan GPT-2 pada token 100B harus dilatih secara berlebihan, dan pulangan akan berkurangan kemudiannya, mengikut pengiraan, 2.5Btoken sudah memadai untuk model 124M.

Walau bagaimanapun, dia sendiri melatih token 10B, dan data latihan juga menggunakan FineWeb, yang baru dikeluarkan Kualiti token lebih tinggi daripada set data OpenAI WebText yang asal.

WebText asal tidak pernah didedahkan kepada umum, dan adalah mustahil untuk bereksperimen dengan pembolehubah terkawal di bawah keadaan yang sama Selain itu, pengedaran data Internet hari ini mungkin sangat berbeza daripada 5 tahun yang lalu.

Adalah spekulasi bahawa perbezaan ini mungkin menjadi sebab mengapa skor semakan lebih tinggi daripada versi asal.

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Di samping itu, sesetengah netizen menyedari bahawa kecekapan penggunaan GPU semasa latihan juga lebih tinggi daripada OpenAI, tetapi Karpathy berkata bahawa ini disebabkan terutamanya oleh penggunaan nod perkhidmatan awan tunggal, dan tidak perlu pertimbangkan isu komunikasi antara pelayan.

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Akhir sekali, untuk versi 350M GPT-2 yang telah dilatih, ia juga mencapai keputusan yang mengatasi versi asal. .

Memerhati peta haba GitHubnya, saya hanya berehat pada mulanya, dan ia menjadi semakin popular selepas memasuki bulan April. Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Adakah ini rentak meletak jawatan dan duduk di rumah untuk melakukan 997?

Sebenarnya, Karpathy juga pernah mengembara dalam tempoh ini dan turut berkongsi permainan yang dimainkannya, yang tidak begitu menggembirakan.

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Mengikut jadual mingguan yang dia hantar: 975 jam semasa bekerja, dan 4-20 jam selepas berhenti kerja, bergantung pada moodnya. . Jumaat

4 jam pada hari Ahad
dan kemudian perjalanan selama dua minggu.
Semua orang ingin tahu selepas melihat ini Adakah lebih baik untuk mempunyai susunan biasa, atau adakah ia berfungsi mengikut kehendak anda?
Karpathy sendiri tidak pasti, tetapi jadual yang bercelaru pasti lebih menarik.

Akhirnya, dia juga berkongsi pengalaman bebas:

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal Mula bekerja secara langsung selepas bangun, tanpa membaca sebarang mesej, dan pergi ke dalam talian selepas makan tengah hari untuk mengelakkan gangguan daripada maklumat luaran.

Kawan2 yang ada syarat boleh cuba.

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

Tutorial: https://github.com/karpathy/llm.c/discussions/481.

Pautan rujukan:

Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal

[1]https://x.com/karpathy/status/1795484547267834137.

[2]https://www.threads.net/@karpathy.

Atas ialah kandungan terperinci Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!