Master Karpathy tidak lagi berpuas hati menggunakan bahasa C untuk mencipta Llama!
Cabaran terbaru yang dia berikan sendiri: untuk menghasilkan semula hasil klasik OpenAI, bermula dengan versi asas GPT-2.
Kejayaan cabaran itu sendiri bukan di luar jangkaan, tetapi ia hanya menelan belanja 20 dolar AS dan 90 minit untuk melengkapkan latihan, dan kerugian serta penilaian mengatasi versi asal, cuma! mempunyai! titik! Lulus! titik! faham! .
Bukan itu sahaja, dia menulis tutorial lengkap tentang proses pembiakan, dan seperti dijangka ia kembali popular.
Sejak Karpathy menyewa perkhidmatan awan A100, latihan versi 124M berharga 20 dolar AS.
Walau bagaimanapun, seseorang mengikuti tutorial dan menjalankannya dengan H100 Bukan sahaja masa latihan menjadi lebih singkat, tetapi ia juga menjimatkan wang: ia telah disiapkan dalam masa 43 minit dan hanya berharga 14 dolar AS.
Selain itu, Karpathy juga membelanjakan AS$200 dari poketnya sendiri untuk mengeluarkan semula versi 350M GPT-2 untuk semua orang.
Tetapi versi cawan besar 1.5B, mengikut pengiraan, akan menelan kos 1 minggu dan 2500 dolar AS, yang agak tidak mampu, terutamanya kerana dia tidak mempunyai H100 di tangannya.
Nasib baik, semua parit sangat murah hati dan mengambil tindakan apabila tiba masanya untuk mengambil tindakan:
Saya akan memberikannya kepada anda bila-bila masa anda memerlukannya!
Hanya caj anda $2 sejam!
Kali ini Karpathy mengeluarkan semula GPT-2, masih berdasarkan asas kod llama.cnya, melengkapkan latihan dari hujung ke hujung.
Pangkalan kod telah dipertingkatkan secara berterusan oleh beliau hari ini, dan kini sangat mudah untuk memulakan latihan:
Secara khusus, struktur rangkaian ialah GPT-2, tetapi banyak tetapan hiperparameter mengikut set GPT-3 .
Karpathy menganalisis bahawa mengikut piawaian undang-undang Chinchilla, latihan GPT-2 pada token 100B harus dilatih secara berlebihan, dan pulangan akan berkurangan kemudiannya, mengikut pengiraan, 2.5Btoken sudah memadai untuk model 124M.
Walau bagaimanapun, dia sendiri melatih token 10B, dan data latihan juga menggunakan FineWeb, yang baru dikeluarkan Kualiti token lebih tinggi daripada set data OpenAI WebText yang asal.
WebText asal tidak pernah didedahkan kepada umum, dan adalah mustahil untuk bereksperimen dengan pembolehubah terkawal di bawah keadaan yang sama Selain itu, pengedaran data Internet hari ini mungkin sangat berbeza daripada 5 tahun yang lalu.
Adalah spekulasi bahawa perbezaan ini mungkin menjadi sebab mengapa skor semakan lebih tinggi daripada versi asal.
Di samping itu, sesetengah netizen menyedari bahawa kecekapan penggunaan GPU semasa latihan juga lebih tinggi daripada OpenAI, tetapi Karpathy berkata bahawa ini disebabkan terutamanya oleh penggunaan nod perkhidmatan awan tunggal, dan tidak perlu pertimbangkan isu komunikasi antara pelayan.
Akhir sekali, untuk versi 350M GPT-2 yang telah dilatih, ia juga mencapai keputusan yang mengatasi versi asal. .
Memerhati peta haba GitHubnya, saya hanya berehat pada mulanya, dan ia menjadi semakin popular selepas memasuki bulan April.
Adakah ini rentak meletak jawatan dan duduk di rumah untuk melakukan 997?
Sebenarnya, Karpathy juga pernah mengembara dalam tempoh ini dan turut berkongsi permainan yang dimainkannya, yang tidak begitu menggembirakan.
Mengikut jadual mingguan yang dia hantar: 975 jam semasa bekerja, dan 4-20 jam selepas berhenti kerja, bergantung pada moodnya. . Jumaat
Mula bekerja secara langsung selepas bangun, tanpa membaca sebarang mesej, dan pergi ke dalam talian selepas makan tengah hari untuk mengelakkan gangguan daripada maklumat luaran.
Kawan2 yang ada syarat boleh cuba. Tutorial: https://github.com/karpathy/llm.c/discussions/481. Pautan rujukan: [1]https://x.com/karpathy/status/1795484547267834137.[2]https://www.threads.net/@karpathy.
Atas ialah kandungan terperinci Tutorial baharu Karpathy menjadi viral, dan netizen bergegas memberikannya H100: Buat semula latihan GPT-2 dari awal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!