IVG: Mengintegrasikan Nilai Manusia ke dalam Model Bahasa Besar pada Masa Inferens-web3.0-php.cn

IVG: Mengintegrasikan Nilai Manusia ke dalam Model Bahasa Besar pada Masa Inferens

Linda Hamilton

Lepaskan： 2024-10-03 15:16:13

asal

540 orang telah melayarinya

Penyelidik membangunkan kaedah penjajaran masa Inferens untuk menyepadukan nilai manusia selepas menyempurnakan LLM menggunakan fungsi tersirat dan eksplisit tanpa mengubah model asas.

IVG: Mengintegrasikan Nilai Manusia ke dalam Model Bahasa Besar pada Masa Inferens

Menyepadukan nilai kemanusiaan selepas melatih model dengan algoritma berasaskan Pembelajaran memerlukan LLM yang diperhalusi, yang mahal dari segi pengiraan dan memakan masa. Selain itu, ia menghasilkan tindak balas yang berat sebelah dan tidak diingini oleh pengguna. Model yang cekap boleh menyesuaikan diri dengan pilihan pengguna dalam masa nyata dengan menyepadukan algoritma yang boleh mengganggu pada masa inferens diperlukan. Kaedah ini akan mengelak daripada melatih semula model berulang kali untuk hasil yang diingini dengan membekukan model asas dan mengurangkan kos pengiraan penalaan halus LLM.

Penyelidik membangunkan kaedah penjajaran masa Inferens untuk menyepadukan nilai manusia selepas menyempurnakan LLM menggunakan fungsi tersirat dan eksplisit tanpa mengubah model asas. Fungsi tersirat digunakan untuk penjanaan token, yang menjalankan penilaian perkataan demi perkataan dan memilih output dengan kebarangkalian tertinggi. Sebaliknya, fungsi eksplisit memerlukan struktur tegar untuk menilai ketulan teks yang lebih besar dan menjana urutan perkataan berikut dengan kebarangkalian tertinggi sambil mengekalkan konteks keseluruhan. Fungsi eksplisit tidak fleksibel dan mahal dari segi pengiraan, gagal menangani pengoptimuman peringkat token, manakala fungsi tersirat menghadapi isu kebolehtafsiran dan memerlukan hantaran hadapan yang kerap, yang membawa kepada kecekapan masa nyata yang rendah.

Untuk menangani kelemahan kedua-dua fungsi, kaedah yang dicadangkan, Bimbingan Nilai Bersepadu (IVG), menggabungkan pengoptimuman tahap token fungsi tersirat dan perspektif yang lebih luas fungsi eksplisit. Ia dapat menangkis cabaran penyesuaian dan pertukaran dalam keberkesanan penjajaran, yang membawa kepada penurunan percanggahan prestasi dan menjadikannya lebih mudah untuk dilaksanakan. Kelebihan ini memudahkan prestasi yang lebih baik pada tugas seperti penjanaan sentimen terkawal dan ringkasan. IVG, digabungkan dengan model yang lebih kecil seperti GPT-2, boleh bersaing dengan model yang lebih tinggi.

IVG menggabungkan dua fungsi nilai, fungsi tersirat dan eksplisit, untuk menyelaraskan model dengan nilai manusia. Pertama, pensampelan mengikut token memperhalusi token individu kepada panjang jujukan tertentu, menjana berbilang jujukan. Kemudian, carian rasuk peringkat ketulan membandingkan kebarangkalian jujukan ini dan memilih satu yang mempunyai kebarangkalian tertinggi. Walaupun kaedah ini memastikan bahawa output lebih mantap, kuasa pengiraan meningkat semasa masa inferens disebabkan oleh hantaran ke hadapan yang kerap, yang membawa kepada tindak balas yang lebih perlahan.

Penyelidik telah menggunakan dua set-up percubaan untuk menilai IVG: 1. Penjanaan sentimen terkawal dan Rumusan, dan 2. Mengikuti arahan. Dalam yang pertama, keluarga model GPT-2 digunakan dengan memanfaatkan set data sintetik daripada model ganjaran emas untuk menjana ulasan filem yang positif dan meringkaskan siaran Reddit. Sebagai perbandingan, yang kedua memerlukan model yang ditala arahan, AlpacaEval 2.0. Ia menggunakan Tulu Guidance, yang menggunakan model khusus untuk fungsi tersirat dan melatih model berasaskan ganjaran untuk fungsi eksplisit, dan Ultraguidance, yang memperhalusi model dengan Pengoptimuman Keutamaan Terus (DPO) untuk kedua-dua fungsi. GPT-4-turbo telah digunakan sebagai rujukan untuk menilai respons dalam percubaan kedua, dan IVG secara konsisten menunjukkan prestasi yang baik.

Selain dua eksperimen ini, kajian ablasi membuktikan bahawa Carian Rasuk Tahap Chunk (CBS) mempunyai kecekapan kelajuan yang lebih tinggi daripada Penalaan Halus Emulator (EFT), yang menggunakan fungsi tersirat untuk penalaan halus. Keputusan ini telah membuktikan bahawa CBS adalah lebih baik untuk digunakan dalam amalan.

Kesimpulannya, Bimbingan Nilai Bersepadu (IVG) menawarkan pendekatan baru dan cekap untuk menyelaraskan model bahasa besar dengan keutamaan manusia semata-mata pada masa inferens, memintas kerumitan penalaan halus tradisional. Dengan memanfaatkan fungsi nilai tersirat dan eksplisit, IVG meningkatkan prestasi dalam kedua-dua pensampelan mengikut token dan penyahkodan tahap ketulan, seperti yang ditunjukkan melalui peningkatan ketara dalam penjanaan sentimen, ringkasan dan tugasan mengikut arahan. Keputusan menunjukkan bahawa IVG ialah kaedah serba boleh, memberikan bukti empirikal yang kukuh tentang keupayaannya untuk mengatasi pendekatan sedia ada, menjadikannya penyelesaian yang menjanjikan untuk memperhalusi model besar dalam aplikasi dunia sebenar.

Jangan Lupa sertai 50k ML SubReddit kami

Ingin tampil di hadapan 1 Juta Pembaca AI? Bekerjasama dengan kami di sini

Atas ialah kandungan terperinci IVG: Mengintegrasikan Nilai Manusia ke dalam Model Bahasa Besar pada Masa Inferens. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!