Penyesuaian peringkat rendah bagi model besar ialah kaedah mengurangkan kerumitan dengan menganggarkan struktur dimensi tinggi model besar dengan struktur dimensi rendah. Matlamatnya adalah untuk mencipta perwakilan model yang lebih kecil dan terurus yang masih mengekalkan prestasi yang baik. Dalam banyak tugas, maklumat berlebihan atau tidak berkaitan mungkin wujud dalam struktur dimensi tinggi model besar. Dengan mengenal pasti dan mengalih keluar lebihan ini, model yang lebih cekap boleh dibuat sambil mengekalkan prestasi asal dan boleh menggunakan lebih sedikit sumber untuk melatih dan menggunakan.
Penyesuaian peringkat rendah ialah kaedah yang boleh mempercepatkan latihan model besar sambil juga mengurangkan penggunaan memori. Prinsipnya adalah untuk membekukan berat model pra-latihan dan memperkenalkan matriks penguraian peringkat boleh dilatih ke dalam setiap lapisan seni bina Transformer, dengan itu mengurangkan dengan ketara bilangan parameter boleh dilatih untuk tugas hiliran. Kaedah ini dilaksanakan dengan menguraikan matriks asal kepada hasil darab dua matriks yang berlainan pangkat. Dengan hanya menggunakan matriks peringkat rendah untuk pengiraan, anda boleh mengurangkan bilangan parameter model, meningkatkan kelajuan latihan dan berprestasi baik dari segi kualiti model tanpa meningkatkan kependaman inferens.
Mengambil model GPT-3 sebagai contoh, penyesuaian peringkat rendah model besar (LoRA) ialah kaedah untuk secara tidak langsung melatih beberapa lapisan padat dalam rangkaian saraf dengan mengoptimumkan matriks penguraian pangkat dalam lapisan padat. Kelebihan LoRA ialah hanya beberapa parameter perlu diperhalusi dan bukannya melatih keseluruhan model dengan parameter penuh, sekali gus meningkatkan kecekapan operasi semasa penggunaan. Dalam model GPT-3, LoRA hanya perlu mengoptimumkan matriks penguraian peringkat sangat rendah untuk mencapai prestasi yang setanding dengan penalaan halus parameter penuh. Kaedah ini bukan sahaja sangat cekap dari segi penyimpanan dan pengiraan, tetapi juga boleh mengurangkan masalah pemasangan berlebihan dan meningkatkan keupayaan generalisasi model dengan berkesan. Melalui LoRA, model besar boleh digunakan dengan lebih fleksibel pada pelbagai senario, membawa lebih banyak kemungkinan kepada pembangunan pembelajaran mendalam.
Selain itu, idea penyesuaian peringkat rendah adalah mudah. Ia dicapai dengan menambah pintasan di sebelah PLM asal (model bahasa pra-latihan), yang melakukan pengurangan dimensi dan kemudian operasi dimensi untuk mensimulasikan dimensi intrinsik yang dipanggil. Semasa proses latihan, parameter PLM ditetapkan, dan hanya matriks pengurangan dimensi A dan matriks peningkatan dimensi B dilatih. Dimensi input dan output model kekal tidak berubah, tetapi parameter BA dan PLM ditindih pada output. Matriks pengurangan dimensi A dimulakan menggunakan taburan Gaussian rawak, manakala matriks peningkatan dimensi B dimulakan menggunakan matriks 0, yang memastikan bahawa matriks pintasan masih matriks 0 pada permulaan latihan.
Idea ini mempunyai beberapa persamaan dengan sambungan baki, yang menyerupai proses penalaan penuh dengan menggunakan kemas kini pintasan. Malah, penalaan penuh boleh dilihat sebagai kes khas LoRA, iaitu apabila r bersamaan dengan k. Ini bermakna dengan menggunakan LoRA pada semua matriks berat dan melatih semua istilah berat sebelah, sambil menetapkan pangkat r LoRA kepada pangkat k matriks berat pralatihan, kita boleh memulihkan secara kasar kuasa ekspresif penalaan penuh. Dalam erti kata lain, apabila bilangan parameter boleh dilatih meningkat, latihan LoRA cenderung kepada latihan model asal, manakala kaedah berasaskan penyesuai cenderung kepada MLP, dan kaedah berasaskan awalan cenderung kepada model yang tidak boleh mengendalikan lama. urutan input. Oleh itu, LoRA menyediakan cara yang fleksibel untuk mengimbangi bilangan parameter yang boleh dilatih dan kuasa ekspresif model.
Penyesuaian peringkat rendah dan pemampatan rangkaian saraf mempunyai beberapa perbezaan dalam matlamat dan kaedah.
Matlamat pemampatan rangkaian saraf adalah untuk mengurangkan parameter dan ruang storan, mengurangkan kos pengiraan dan keperluan storan, sambil mengekalkan prestasi. Kaedah termasuk menukar struktur rangkaian, kuantisasi dan anggaran, dsb.
Mampatan rangkaian saraf boleh dibahagikan kepada tiga kategori: kaedah penghampiran, kuantisasi dan pemangkasan.
Kaedah anggaran menggunakan penguraian matriks atau tensor untuk membina semula sebilangan kecil parameter dan mengurangkan overhed storan rangkaian.
2) Idea utama kaedah pengkuantitian adalah untuk memetakan kemungkinan nilai parameter rangkaian dari domain nombor nyata kepada set nombor terhingga, atau untuk mewakili parameter rangkaian dengan bit yang lebih sedikit untuk mengurangkan overhed storan rangkaian .
3) Kaedah keratan akan secara langsung mengubah struktur rangkaian, yang boleh dibahagikan kepada keratan hierarki, keratan peringkat neuron dan keratan peringkat sambungan saraf mengikut butiran.
Penyesuaian peringkat rendah merujuk kepada mengurangkan kerumitan model dengan mengurangkan dimensi parameter model, dan biasanya dilaksanakan menggunakan teknik seperti penguraian matriks. Pendekatan ini sering digunakan untuk mengurangkan kos pengiraan dan keperluan penyimpanan model sambil mengekalkan keupayaan ramalan model.
Secara amnya, pemampatan rangkaian saraf ialah konsep yang lebih luas yang merangkumi pelbagai kaedah untuk mengurangkan parameter dan ruang storan rangkaian saraf. Penyesuaian peringkat rendah ialah teknik khusus yang direka untuk mengurangkan kerumitan model besar dengan menghampirinya dengan struktur dimensi rendah.
Atas ialah kandungan terperinci Menyesuaikan diri dengan model berpangkat rendah yang besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!