RLHF ialah pembelajaran pengukuhan daripada maklum balas manusia. Artikel ini akan memperkenalkan cara model bahasa besar (LLM) digabungkan dengan RLHF.
Pembelajaran pengukuhan ialah satu cabang pembelajaran mesin yang mempelajari strategi optimum melalui interaksi ejen dengan persekitaran. Ejen memilih tindakan yang mempengaruhi peralihan dalam keadaan persekitaran dan diberi ganjaran sewajarnya. Ganjaran ialah isyarat maklum balas untuk agen pembelajaran pengukuhan untuk menyesuaikan strateginya. Semasa fasa latihan, ejen menyesuaikan strateginya berdasarkan ganjaran untuk memaksimumkan pulangan jangka panjang.
Oleh itu, adalah penting untuk mereka bentuk sistem ganjaran yang sesuai, yang merupakan kunci kepada pembelajaran pengukuhan. RLHF, sebaliknya, mengintegrasikan maklum balas manusia dan menggabungkan manusia ke dalam proses latihan untuk meningkatkan kesan latihan agen pembelajaran pengukuhan.
Proses penalaan halus pembelajaran pengukuhan model bahasa besar (LLM) biasanya terdiri daripada tiga peringkat. Mula-mula, kita mulakan dengan model bahasa yang telah dilatih. Memandangkan LLM memerlukan sejumlah besar data latihan, adalah tidak praktikal untuk melatihnya dari awal dengan maklum balas manual. Oleh itu, kita boleh pralatih melalui pembelajaran tanpa pengawasan dan menggunakan model bahasa sedia ada untuk penjanaan output. Selepas pra-latihan selesai, langkah seterusnya ialah fasa penalaan halus. Pada peringkat ini, kami akan menggunakan algoritma pembelajaran pengukuhan untuk mengoptimumkan LLM. Dengan berinteraksi dengan alam sekitar, LLM boleh mendapatkan maklum balas daripada persekitaran dan mengoptimumkan outputnya dengan melaraskan parameter model. Peringkat terakhir ialah penalaan halus seterusnya. Dalam fasa ini, LLM akan berinteraksi dengan tugasan tertentu dan melaksanakan tugasan tersebut melalui
Seterusnya, memasuki fasa kedua, kita perlu mencipta model ganjaran untuk sistem RL. Pada peringkat ini, kami melatih model pembelajaran mesin lain yang mengambil teks yang dijana oleh model utama dan menjana skor kualiti untuknya. Biasanya, kami akan menggunakan model LLM lain dan mengubah suainya supaya ia menghasilkan nilai skalar dan bukannya urutan token teks. Skor kualiti ini akan digunakan sebagai isyarat ganjaran untuk membimbing model utama menjana teks berkualiti tinggi.
Untuk melatih model ganjaran, kami perlu membina set data penilaian kualiti yang mengandungi teks yang dijana LLM. Setiap contoh latihan terdiri daripada petunjuk dan berbilang output yang dihasilkan oleh LLM. Seterusnya, kami meminta manusia menilai kualiti teks yang dihasilkan ini. Kami kemudian menggunakan keputusan penilaian ini untuk melatih model ganjaran untuk meramalkan skor teks yang dijana LLM. Dengan latihan antara output LLM dan penilaian, model ganjaran dapat membina perwakilan matematik keutamaan manusia.
Pada peringkat akhir, kami memperhalusi dan mencipta gelung pembelajaran pengukuhan. Replika LLM induk digunakan sebagai ejen RL. Pada setiap set latihan, LLM mengambil berbilang isyarat daripada set data dan menjana teks. Teks itu kemudiannya dihantar ke model ganjaran, yang memberikan skor yang menilai konsistensinya dengan keutamaan manusia. Kami kemudian mengemas kini LLM untuk menjana output yang mendapat skor lebih tinggi pada model ganjaran.
Walaupun ini adalah rangka kerja RLHF umum untuk model bahasa, matlamat pelaksanaan yang berbeza memerlukan pengubahsuaian yang sepadan.
Satu lagi pertimbangan untuk model bahasa dalam RLHF ialah mengekalkan keseimbangan antara pengoptimuman ganjaran dan ketekalan bahasa. Walaupun model ganjaran hanyalah anggaran pilihan manusia yang tidak sempurna, ejen LLM boleh memaksimumkan ganjaran dengan melanggar konsistensi sintaksis atau logik, sama seperti kebanyakan sistem RL. Untuk mengelakkan perkara ini berlaku, pasukan ML menyimpan salinan LLM asal dan menggunakannya dalam gelung RL. Mereka menyepadukan perbezaan antara output LLM asal dan output LLM terlatih RL (KL divergence) sebagai nilai negatif ke dalam isyarat ganjaran untuk mengelakkan sisihan berlebihan antara model dan output asal. Strategi ini bertujuan untuk mengimbangi pengoptimuman ganjaran dengan konsistensi bahasa.
Atas ialah kandungan terperinci Apakah asal usul dan aplikasi teknologi RLHF dalam model bahasa?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!