Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter-web3.0-php.cn

Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter

Susan Sarandon

Lepaskan： 2024-10-02 18:12:23

asal

283 orang telah melayarinya

Penyelidik dari KAIST AI memperkenalkan Penyahkodan Instruktif (ID), kaedah yang meningkatkan LM yang ditala arahan tanpa kemas kini parameter.

Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter

Model bahasa yang ditala arahan (LM) digeneralisasikan dengan baik kepada tugas yang tidak kelihatan dalam tetapan sifar tangkapan. Walau bagaimanapun, prestasi mereka pada tugas di luar data latihan mereka selalunya terhad. Walaupun dibina pada set data yang besar dan mempunyai berbilion parameter, LM ini cemerlang dalam Pembelajaran Dalam Konteks (ICL), di mana ia boleh menjana respons kepada beberapa contoh tanpa perlu dilatih semula. Walau bagaimanapun, skop set data latihan mengehadkan keberkesanannya pada tugas yang tidak dikenali. Teknik seperti kejuruteraan segera dan kepelbagaian output boleh membantu meningkatkan prestasi tetapi memerlukan usaha yang ketara. Penyelidikan terkini meneroka penggunaan kesan penambat kognitif pada LM, mencadangkan bahawa penekanan gesaan awal boleh meningkatkan respons khusus tugasan dan meningkatkan kesetiaan kepada arahan.

Dalam kerja ini, penyelidik dari KAIST AI memperkenalkan Penyahkodan Instruktif (ID), kaedah yang meningkatkan LM yang ditala arahan tanpa sebarang kemas kini parameter. Diilhamkan oleh teknik pengawasan bising, ID menggunakan "arahan bising", yang merupakan versi arahan asal yang diubah, untuk mencipta pendekatan kontras bagi meramalkan token seterusnya. Dengan mengemudi keluaran model dalam arah yang berbeza, terutamanya menggunakan arahan "bertentangan", ID meningkatkan prestasi model merentas tugas. Percubaan menunjukkan peningkatan yang ketara dalam ketepatan, dengan model yang lebih kecil dipertingkatkan dengan ID mengatasi yang lebih besar. Kaedah ini meningkatkan pematuhan kepada arahan dan meningkatkan kualiti tindak balas keseluruhan, menunjukkan keberkesanannya merentas pelbagai model dan tugas.

Matlamat penalaan arahan adalah untuk memperhalusi LM yang telah dilatih supaya lebih mengikuti arahan bahasa semula jadi, yang meningkatkan generalisasi kepada tugas yang tidak kelihatan, terutamanya dalam senario sifar tangkapan. Memperluas kepelbagaian dan kerumitan tugas latihan meningkatkan keupayaan ini, walaupun model sering bergantung pada pengetahuan pra-latihan. Penyelidikan terdahulu menyerlahkan bahawa LM sensitif terhadap arahan yang biasa, malah mengendalikan arahan yang mengelirukan, dan kepekaan ini boleh dimanfaatkan melalui teknik kontrastif. Kontras dalam penjanaan teks, seperti Penyahkodan Kontrastif, membandingkan output daripada model atau input yang berbeza untuk meningkatkan prestasi. Kajian ini meluaskan idea ini dengan menggunakan arahan yang bising untuk meningkatkan generalisasi dalam LM yang ditala arahan.

Penyahkodan Instruktif meningkatkan penjanaan tindak balas dalam model yang ditala arahan dengan membezakan output yang dihasilkan daripada arahan yang bising. Ia dibina berdasarkan kesan penambat, di mana maklumat awal mempengaruhi pertimbangan seterusnya dan memanfaatkan perbezaan antara respons yang dijana daripada arahan asal dan arahan yang diubah. Kaedah ini menggunakan varian arahan yang bising seperti perkataan dipotong, dikocok atau rawak untuk mengelirukan model sambil memastikan kesetiaan tugasan. Dengan membandingkan logit daripada arahan asal dan bising semasa penyahkodan, Penyahkodan Instruktif membantu model membetulkan bias dan menghasilkan respons yang lebih sejajar dengan arahan yang dimaksudkan, memperhalusi prestasinya pada tugas yang tidak kelihatan.

Persediaan percubaan menggunakan set data SUPNATINST dan UNNATINST, menilai model seperti Tk-Instruct, Alpaca dan T0 merentas tugas seperti Pembetulan Ralat Tatabahasa dan Pengaturan Teks. Metrik Rouge-L, Exact Match (EM), Label Adherence (LA) dan Label Coherence (LC) menilai prestasi. ID secara konsisten meningkatkan hasil, terutamanya untuk model yang lebih besar seperti Tk-XXL, meningkatkan LA dan LC. Menariknya, arahan yang bising meningkatkan kualiti output dengan ID walaupun kemerosotan prestasi asas. Walaupun prestasi khusus tugas berbeza-beza, varian arahan 'bertentangan' terbukti mantap merentas tugas. Secara keseluruhan, ID menunjukkan peningkatan yang ketara merentas saiz model dan jenis tugas.

Kajian ini menyiasat cabaran generalisasi tugas yang tidak kelihatan dalam model bahasa yang ditala arahan. Kaedah yang dicadangkan, ID, memanfaatkan kesan penambat menggunakan arahan "bising" untuk mengatasi bias model yang wujud. Dengan membezakan ramalan dengan ramalan yang dihasilkan daripada arahan yang diubah, ID meningkatkan prestasi model, terutamanya dengan varian bising "bertentangan", yang paling menyimpang daripada input asal. Keputusan empirikal menunjukkan keberkesanan ID merentas pelbagai tugas, dengan peningkatan ketara dalam kepelbagaian ramalan. Pendekatan ini tidak memerlukan kemas kini parameter tambahan, menjadikannya alat praktikal untuk menambah baik mengikut arahan dalam model bahasa.

Lihat Kertas. Semua kredit untuk penyelidikan ini diberikan kepada penyelidik projek ini. Juga, jangan lupa untuk mengikuti kami di Twitter dan sertai Saluran Telegram dan Kumpulan LinkedIn kami. Jika anda menyukai kerja kami, anda akan menyukai surat berita kami.

Jangan Lupa sertai 50k ML SubReddit kami

Atas ialah kandungan terperinci Penyahkodan Instruktif Meningkatkan Model Bahasa Ditala Arahan tanpa Kemas Kini Parameter. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!