Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Artikel ini memperkenalkan artikel daripada Universiti Sains dan Teknologi Hong Kong (Guangzhou) tentang Large Model Efficient LLM Penalaan Halus) Artikel "Penalaan Halus Cekap Parameter dengan Transformasi Fourier Diskret", Artikel ini telah diterima oleh ICML 2024 dan kodnya adalah sumber terbuka.
- Alamat kertas: https://arxiv.org/abs/2405.03003
- Alamat projek: https://github.com/Chaos96/fourierft
Model asas berskala besar telah mencapai pencapaian yang luar biasa dalam bidang pemprosesan bahasa semula jadi (NLP) dan penglihatan komputer (CV). Penalaan halus model asas berskala besar untuk menjadikannya lebih sesuai untuk tugas hiliran khas telah menjadi topik penyelidikan yang popular. Walau bagaimanapun, apabila model menjadi lebih besar dan lebih besar dan tugas hiliran menjadi lebih pelbagai, penggunaan pengkomputeran dan penyimpanan yang disebabkan oleh penalaan halus keseluruhan model tidak lagi boleh diterima. LoRA mengguna pakai skim peningkatan penalaan halus pemasangan peringkat rendah dan berjaya mengurangkan sejumlah besar penggunaan sedemikian, tetapi saiz setiap penyesuai (penyesuai) masih tidak boleh diabaikan. Ini mendorong persoalan teras artikel ini: Bagaimana untuk mengurangkan lagi parameter boleh dilatih dengan ketara berbanding dengan LoRA? Selain itu, soalan tambahan yang menarik ialah sama ada matriks tambahan peringkat tinggi boleh diperoleh dengan parameter yang lebih sedikit. Asas Fourier digunakan secara meluas dalam pelbagai aplikasi pemampatan data, seperti pemampatan isyarat vektor satu dimensi dan imej dua dimensi. Dalam aplikasi ini, isyarat domain spatial padat ditukar kepada isyarat domain frekuensi jarang melalui transformasi Fourier. Berdasarkan prinsip ini, penulis membuat spekulasi bahawa kenaikan berat model juga boleh dianggap sebagai isyarat domain spatial, dan isyarat domain frekuensi yang sepadan boleh direalisasikan melalui perwakilan jarang. Berdasarkan andaian ini, penulis mencadangkan kaedah baharu untuk mempelajari isyarat berat tambahan dalam domain frekuensi. Secara khusus, kaedah ini mewakili kenaikan berat domain spatial melalui isyarat domain frekuensi jarang di lokasi rawak. Apabila memuatkan model pra-latihan, n mata pertama kali dipilih secara rawak sebagai isyarat domain frekuensi yang sah, dan kemudian isyarat ini disambungkan menjadi vektor satu dimensi. Semasa proses perambatan ke hadapan, vektor satu dimensi ini digunakan untuk memulihkan matriks spatial melalui transformasi Fourier semasa proses perambatan belakang, disebabkan kebolehbezaan transformasi Fourier, vektor yang boleh dipelajari ini boleh dikemas kini secara langsung. Kaedah ini bukan sahaja berkesan mengurangkan bilangan parameter yang diperlukan untuk penalaan halus model, tetapi juga memastikan prestasi penalaan halus. Dengan cara ini, pengarang bukan sahaja mencapai penalaan halus yang cekap bagi model asas berskala besar, tetapi juga menunjukkan potensi nilai aplikasi transformasi Fourier dalam bidang pembelajaran mesin.
Terima kasih kepada kandungan maklumat yang tinggi dalam asas transformasi Fourier, hanya nilai n yang kecil diperlukan untuk mencapai prestasi yang setanding atau bahkan melebihi LoRA. Secara amnya, parameter penyesuaian Fourier yang boleh dilatih hanyalah satu perseribu hingga satu persepuluh daripada parameter LoRA. . Kaedah perbandingan asas termasuk Penalaan Penuh (FF), Bitfit, Penalaan Penyesuai, LoRA, DyLoRA dan AdaLoRA. Jadual berikut menunjukkan prestasi pelbagai kaedah pada pelbagai tugas GLUE dan jumlah parameter latihan yang diperlukan. Keputusan menunjukkan bahawa penalaan halus Fourier mencapai atau bahkan melebihi prestasi kaedah penalaan halus lain dengan bilangan parameter terkecil. 2. Penalaan bahasa semula jadiPenjanaan bahasa asli bagi model besar kini merupakan bidang aplikasi yang penting dalam penalaan halus. Penulis menilai prestasi penalaan halus Fourier pada keluarga model LLaMA, tugas MT-Bench dan tugas Vicuna. Keputusan menunjukkan bahawa penalaan halus Fourier mencapai kesan yang serupa dengan LoRA dengan jumlah parameter latihan yang sangat rendah, seterusnya mengesahkan kepelbagaian dan keberkesanan kaedah penalaan halus Fourier.
Pengarang menguji prestasi penalaan halus Fourier pada Vision Transformer, meliputi 8 set data pengelasan imej biasa. Keputusan eksperimen menunjukkan bahawa walaupun peningkatan kadar mampatan penalaan halus Fourier berbanding LoRA dalam tugas pengelasan imej tidak lebih ketara daripada tugas bahasa semula jadi, ia masih mengatasi kesan LoRA dengan bilangan parameter yang jauh lebih kecil daripada LoRA. Ini seterusnya menunjukkan keberkesanan dan kelebihan penalaan halus Fourier dalam bidang aplikasi yang berbeza.
4. Menembusi kedudukan rendah Pada set data RTE penanda aras GLUE, FourierFT boleh mencapai kedudukan yang jauh lebih tinggi daripada LoRA (biasanya 4 atau 8) dalam penambahan.
Semasa proses penalaan halus, FourierFT boleh mencapai penggunaan GPU yang kurang daripada LoRA. Rajah di bawah menunjukkan penggunaan memori puncak pada model RoBERTa-Large menggunakan satu kad grafik 4090 tunggal.
Pengarang memperkenalkan kaedah penalaan halus yang cekap dipanggil penalaan halus Fourier, yang menggunakan transformasi Fourier untuk mengurangkan bilangan parameter yang boleh dilatih apabila memperhalusi model asas yang besar. Kaedah ini mengurangkan keperluan penyimpanan dan pengkomputeran dengan ketara dengan mempelajari sebilangan kecil pekali spektrum Fourier untuk mewakili perubahan berat. Keputusan eksperimen menunjukkan bahawa penalaan halus Fourier berfungsi dengan baik pada tugas seperti pemahaman bahasa semula jadi, penjanaan bahasa semula jadi, penalaan arahan dan klasifikasi imej Berbanding dengan kaedah penyesuaian peringkat rendah sedia ada (seperti LoRA), penalaan halus Fourier mengekalkan atau melebihi. prestasi LoRA Pada masa yang sama, parameter boleh dilatih yang diperlukan sangat berkurangan. Atas ialah kandungan terperinci ICML 2024 |. Melepaskan diri daripada seni bina LoRA, parameter latihan dikurangkan dengan banyaknya, dan jenis penalaan halus Fourier baharu akan datang.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!