Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih-AI-php.cn

Meta FAIR Projek penyelidikan yang disertai Tian Yuandong menerima pujian meluas bulan lepas. Dalam kertas kerja mereka "MobileLLM: Mengoptimumkan Model Bahasa Parameter Sub-bilion untuk Kes Penggunaan Pada Peranti", mereka mula meneroka cara mengoptimumkan model kecil dengan kurang daripada 1 bilion parameter, bertujuan untuk mencapai matlamat menjalankan model bahasa besar pada peranti mudah alih .

Pada 6 Mac, pasukan Tian Yuandong mengeluarkan hasil penyelidikan terkini, kali ini memfokuskan pada meningkatkan kecekapan memori LLM. Selain Tian Yuandong sendiri, pasukan penyelidik juga termasuk penyelidik dari California Institute of Technology, University of Texas di Austin, dan CMU. Penyelidikan ini bertujuan untuk mengoptimumkan lagi prestasi memori LLM dan memberikan sokongan dan bimbingan untuk pembangunan teknologi masa hadapan.

Mereka bersama-sama mencadangkan strategi latihan yang dipanggil GaLore (Gradient Low-Rank Projection), yang membolehkan pembelajaran parameter penuh Berbanding dengan kaedah penyesuaian peringkat rendah biasa seperti LoRA, GaLore mempunyai kecekapan Memori yang lebih tinggi.

Kajian ini menunjukkan buat kali pertama bahawa model 7B boleh dilatih dengan jayanya pada GPU pengguna dengan memori 24GB (cth. NVIDIA RTX 4090) tanpa menggunakan strategi selari model, pemeriksaan atau pemunggahan. . Kandungan utama artikel.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih Pada masa ini, Model Bahasa Besar (LLM) telah menunjukkan potensi yang luar biasa dalam banyak bidang, tetapi kita juga mesti menghadapi masalah sebenar, iaitu pra-latihan dan penalaan halus LLM bukan sahaja memerlukan sejumlah besar sumber pengkomputeran, tetapi juga memerlukan sejumlah besar sokongan memori.

Keperluan memori LLM termasuk bukan sahaja parameter dalam berbilion-bilion, tetapi juga kecerunan dan Keadaan Pengoptimum (seperti momentum kecerunan dan varians dalam Adam), yang boleh lebih besar daripada storan itu sendiri. Contohnya, LLaMA 7B, dipralatih dari awal menggunakan saiz kelompok tunggal, memerlukan sekurang-kurangnya 58 GB memori (14 GB untuk parameter boleh dilatih, 42 GB untuk Adam Optimizer States dan kecerunan berat dan 2 GB untuk pengaktifan). Ini menjadikan latihan LLM tidak dapat dilaksanakan pada GPU gred pengguna seperti NVIDIA RTX 4090 dengan memori 24GB.

Untuk menyelesaikan masalah di atas, penyelidik terus membangunkan pelbagai teknik pengoptimuman untuk mengurangkan penggunaan memori semasa pra-latihan dan penalaan halus.

Kaedah ini mengurangkan penggunaan memori sebanyak 65.5% di bawah Negeri Pengoptimum, sambil mengekalkan kecekapan dan prestasi pra-latihan pada seni bina LLaMA 1B dan 7B menggunakan set data C4 dengan token sehingga 19.7B, dan dalam GLUE Penalaan Halus kecekapan dan prestasi RoBERTa pada tugas. Berbanding dengan garis dasar BF16, GaLore 8-bit seterusnya mengurangkan memori pengoptimum sebanyak 82.5% dan jumlah memori latihan sebanyak 63.3%.

Selepas melihat penyelidikan ini, netizen berkata: "Sudah tiba masanya untuk melupakan awan dan HPC. Dengan GaLore, semua AI4Science akan disiapkan pada GPU gred pengguna $2,000

berkata: "Dengan GaLore, kini mungkin untuk melatih model 7B dalam NVidia RTX 4090s dengan memori 24G.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih Kami tidak menganggap struktur berat peringkat rendah seperti LoRA, tetapi membuktikan bahawa kecerunan berat secara semula jadi rendah- rank , dan dengan itu boleh diunjurkan ke dalam ruang dimensi rendah (berbeza-beza) Oleh itu, kami pada masa yang sama menyimpan memori untuk kecerunan, momentum Adam dan varians

Oleh itu, tidak seperti LoRA, GaLore tidak mengubah dinamik latihan dan boleh. digunakan dari awal. Mulakan pra-latihan model 7B tanpa sebarang pemanasan yang memakan memori juga boleh digunakan untuk penalaan halus, menghasilkan hasil yang setanding dengan LoRA.

Pengenalan Kaedah

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih Seperti yang dinyatakan sebelum ini, GaLore ialah strategi latihan yang membolehkan pembelajaran parameter penuh, tetapi lebih cekap memori daripada kaedah penyesuaian peringkat rendah biasa (seperti LoRA). Idea utama GaLore adalah untuk menggunakan struktur peringkat rendah yang berubah secara perlahan bagi kecerunan

matriks berat W, dan bukannya cuba menganggarkan secara langsung matriks berat ke dalam bentuk peringkat rendah.

Artikel ini terlebih dahulu secara teori membuktikan bahawa matriks kecerunan G akan menjadi peringkat rendah semasa proses latihan Berdasarkan teori, artikel ini menggunakan GaLore untuk mengira dua matriks unjuran Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih dan untuk menayangkan matriks kecerunan G ke dalam. Borang peringkat rendah P^⊤GQ. Dalam kes ini, kos memori Negeri Pengoptimum yang bergantung pada statistik kecerunan komponen boleh dikurangkan dengan ketara. Seperti yang ditunjukkan dalam Jadual 1, GaLore lebih cekap ingatan daripada LoRA. Malah, ini boleh mengurangkan ingatan sehingga 30% semasa pra-latihan berbanding LoRA.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Artikel ini membuktikan bahawa GaLore menunjukkan prestasi yang baik dalam pra-latihan dan penalaan halus. Semasa pra-latihan LLaMA 7B pada set data C4, GaLore 8-bit menggabungkan teknologi kemas kini berat 8-bit dan lapisan demi lapisan untuk mencapai prestasi yang setanding dengan kedudukan penuh dengan kos memori kurang daripada 10% dalam keadaan pengoptimum.

Perlu diingat bahawa untuk pra-latihan, GaLore mengekalkan daya ingatan yang rendah sepanjang proses latihan tanpa memerlukan latihan peringkat penuh seperti ReLoRA. Terima kasih kepada kecekapan memori GaLore, buat pertama kalinya, LLaMA 7B boleh dilatih dari awal pada satu GPU dengan memori 24GB (cth., pada NVIDIA RTX 4090) tanpa memerlukan sebarang teknik pemunggahan memori yang mahal (Rajah 1).

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Sebagai kaedah unjuran kecerunan, GaLore adalah bebas daripada pilihan pengoptimum dan boleh dipalamkan dengan mudah ke pengoptimum sedia ada dengan hanya dua baris kod, seperti yang ditunjukkan dalam Algoritma 1.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Angka berikut menunjukkan algoritma untuk menggunakan GaLore kepada Adam:

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Eksperimen dan keputusan

Penyelidik yang telah menguji dan menilai. Semua eksperimen dilakukan pada NVIDIA A100 GPU.

Untuk menilai prestasinya, para penyelidik menggunakan GaLore untuk melatih model bahasa besar berdasarkan LLaMA pada set data C4. Set data C4 ialah versi korpus rangkak web Common Crawl yang besar dan bersih, digunakan terutamanya untuk melatih model bahasa dan perwakilan perkataan. Untuk mensimulasikan terbaik senario pra-latihan sebenar, para penyelidik melatih jumlah data yang cukup besar tanpa menduplikasi data, dengan saiz model antara sehingga 7 bilion parameter.

Makalah ini mengikuti persediaan percubaan Lialin et al., menggunakan seni bina berasaskan LLaMA3 dengan pengaktifan RMSNorm dan SwiGLU. Untuk setiap saiz model, kecuali untuk kadar pembelajaran, mereka menggunakan set hiperparameter yang sama dan menjalankan semua eksperimen dalam format BF16 untuk mengurangkan penggunaan memori sambil melaraskan kadar pembelajaran untuk setiap kaedah dengan belanjawan pengiraan yang sama dan melaporkan prestasi optimum.

Selain itu, para penyelidik menggunakan tugas GLUE sebagai penanda aras untuk penalaan halus GaLore dan LoRA yang cekap ingatan. GLUE ialah penanda aras untuk menilai prestasi model NLP dalam pelbagai tugas, termasuk analisis sentimen, menjawab soalan dan korelasi teks.

Kertas ini mula-mula menggunakan pengoptimum Adam untuk membandingkan GaLore dengan kaedah peringkat rendah sedia ada, dan hasilnya ditunjukkan dalam Jadual 2.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Penyelidik telah membuktikan bahawa GaLore boleh digunakan untuk pelbagai algoritma pembelajaran, terutamanya pengoptimum yang cekap memori, untuk mengurangkan lagi penggunaan memori. Para penyelidik menggunakan GaLore pada pengoptimum AdamW, 8-bit Adam, dan Adafactor. Mereka menggunakan Adafaktor statistik pesanan pertama untuk mengelakkan kemerosotan prestasi.

Percubaan menilai mereka pada seni bina LLaMA 1B dengan 10K langkah latihan, menala kadar pembelajaran untuk setiap tetapan dan melaporkan prestasi terbaik. Seperti yang ditunjukkan dalam Rajah 3, graf di bawah menunjukkan bahawa GaLore berfungsi dengan pengoptimum popular seperti AdamW, Adam 8-bit dan Adafactor. Tambahan pula, memperkenalkan sangat sedikit hiperparameter tidak menjejaskan prestasi GaLore.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Seperti yang ditunjukkan dalam Jadual 4, GaLore boleh mencapai prestasi yang lebih tinggi daripada LoRA dengan penggunaan memori yang kurang dalam kebanyakan tugas. Ini menunjukkan bahawa GaLore boleh digunakan sebagai strategi latihan cekap memori tindanan penuh untuk pra-latihan dan penalaan halus LLM.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Seperti yang ditunjukkan dalam Rajah 4, berbanding dengan penanda aras BF16 dan 8 bit Adam, 8 bit GaLore memerlukan lebih sedikit memori, hanya memerlukan memori 22.0G apabila pra-latihan LLaMA 7B, dan setiap saiz kumpulan GPU adalah token lebih kecil (sehingga 500 token).

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Untuk butiran lanjut teknikal, sila baca kertas asal.

Atas ialah kandungan terperinci Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!