Rumah Peranti teknologi AI Di luar pemodelan bahasa kausal

Di luar pemodelan bahasa kausal

Feb 25, 2025 pm 06:28 PM

Neurips 2024 Spotlight: mengoptimumkan model bahasa pretraining dengan pemodelan bahasa terpilih (SLM)

Baru -baru ini, saya membentangkan kertas menarik dari Neurips 2024, "Tidak semua token adalah apa yang anda perlukan untuk pretraining," di kumpulan bacaan tempatan. Makalah ini menangani soalan yang mengejutkan namun berkesan: Adakah ramalan yang boleh ditarik seterusnya diperlukan untuk setiap token semasa model bahasa pretraining?

Pendekatan standard melibatkan dataset yang dikurangkan web secara besar-besaran dan memohon pemodelan bahasa kausal (CLM) secara universal. Makalah ini mencabar andaian itu, mencadangkan bahawa beberapa token menghalang, bukannya membantu, proses pembelajaran. Penulis menunjukkan bahawa memberi tumpuan kepada token "berguna" dengan ketara meningkatkan kecekapan data dan prestasi tugas hiliran. Jawatan ini meringkaskan idea teras mereka dan penemuan eksperimen utama.

Masalah: Kebisingan dan Pembelajaran Tidak cekap

Corpora Web Besar tidak dapat dielakkan mengandungi bunyi bising. Walaupun penapisan peringkat dokumen membantu, bunyi sering berada dalam dokumen individu. Tanda -tanda bising ini membazir sumber pengiraan dan berpotensi mengelirukan model.

Penulis menganalisis dinamik pembelajaran tahap token, mengkategorikan token berdasarkan trajektori kehilangan entropi mereka:

  • l → l (rendah hingga rendah): Cepat belajar, memberikan manfaat selanjutnya yang minimum.
  • h → l (tinggi hingga rendah): pada mulanya sukar, tetapi akhirnya belajar; mewakili peluang pembelajaran yang berharga.
  • H → H (Tinggi hingga Tinggi): Secara konsisten sukar, sering disebabkan oleh ketidakpastian yang wujud (ketidakpastian aleatoric).
  • L → H (rendah hingga tinggi): pada mulanya dipelajari, tetapi kemudian menjadi bermasalah, mungkin disebabkan oleh perubahan konteks atau bunyi.

Analisis mereka mendedahkan bahawa hanya sebahagian kecil daripada token yang memberikan isyarat pembelajaran yang bermakna.

Penyelesaian: Pemodelan Bahasa Selektif (SLM)

Penyelesaian yang dicadangkan, Pemodelan Bahasa Selektif (SLM), menawarkan pendekatan yang lebih disasarkan:

Beyond Causal Language Modeling

    Latihan Model Rujukan (RM)
  1. : Subset berkualiti tinggi data digunakan untuk menyesuaikan model asas pra-terlatih, mewujudkan model rujukan (RM). RM ini bertindak sebagai penanda aras untuk token "kegunaan."

  2. Pengiraan kerugian yang berlebihan: untuk setiap token dalam korpus besar, perbezaan antara kehilangan RM dan kehilangan model latihan semasa ("kehilangan berlebihan") dikira. Kerugian berlebihan yang lebih tinggi menunjukkan potensi yang lebih besar untuk penambahbaikan.

  3. Backpropagation selektif: Lulus ke hadapan penuh dilakukan pada semua token, tetapi backpropagation hanya berlaku untuk bahagian atas k% token dengan kerugian berlebihan tertinggi. Ini secara dinamik memfokuskan latihan pada token yang paling berharga.

Hasil eksperimen: Keuntungan yang signifikan

SLM menunjukkan kelebihan yang signifikan merentasi pelbagai eksperimen:

Beyond Causal Language Modeling

  • Domain matematik: pada OpenWebMath , SLM mencapai sehingga 10% keuntungan prestasi pada tanda aras GSM8K dan matematik berbanding dengan CLM standard, mencapai prestasi asas 5-10 kali lebih cepat. Model 7B sepadan dengan model canggih menggunakan hanya 3% daripada token latihannya. Penalaan halus terus meningkatkan prestasi sebanyak 40% untuk model 1B.

  • Domain Umum: Walaupun dengan model asas pra-terlatih yang kuat, SLM menghasilkan kira-kira 5.8% peningkatan purata di 15 tanda aras, terutamanya dalam domain yang mencabar seperti kod dan matematik.

  • Rujukan sendiri: Bahkan RM yang terlatih dengan cepat dari korpus mentah memberikan rangsangan ketepatan 2-3% dan pengurangan token 30-40% yang digunakan.

kesimpulan dan kerja masa depan

Makalah ini menawarkan pandangan yang berharga ke dalam dinamik pembelajaran peringkat token dan memperkenalkan SLM, teknik yang sangat berkesan untuk mengoptimumkan model bahasa pretraining. Arahan penyelidikan masa depan termasuk skala SLM kepada model yang lebih besar, meneroka model rujukan berasaskan API, mengintegrasikan pembelajaran tetulang, menggunakan model rujukan berganda, dan menyelaraskan SLM dengan pertimbangan keselamatan dan kebenaran. Kerja ini merupakan kemajuan yang ketara dalam latihan model bahasa yang cekap dan berkesan.

Atas ialah kandungan terperinci Di luar pemodelan bahasa kausal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Tag artikel panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah Protokol Konteks Model (MCP)? Apakah Protokol Konteks Model (MCP)? Mar 03, 2025 pm 07:09 PM

Apakah Protokol Konteks Model (MCP)?

Membina ejen penglihatan tempatan menggunakan omniparser v2 dan omnitool Membina ejen penglihatan tempatan menggunakan omniparser v2 dan omnitool Mar 03, 2025 pm 07:08 PM

Membina ejen penglihatan tempatan menggunakan omniparser v2 dan omnitool

Ejen replit: panduan dengan contoh praktikal Ejen replit: panduan dengan contoh praktikal Mar 04, 2025 am 10:52 AM

Ejen replit: panduan dengan contoh praktikal

Panduan Runway Act-One: Saya memfilmkan diri untuk mengujinya Panduan Runway Act-One: Saya memfilmkan diri untuk mengujinya Mar 03, 2025 am 09:42 AM

Panduan Runway Act-One: Saya memfilmkan diri untuk mengujinya

DeepSeek melepaskan rangka 3FS & Smallpond DeepSeek melepaskan rangka 3FS & Smallpond Mar 03, 2025 pm 07:07 PM

DeepSeek melepaskan rangka 3FS & Smallpond

5 grok 3 arahan yang dapat memudahkan kerja anda 5 grok 3 arahan yang dapat memudahkan kerja anda Mar 04, 2025 am 10:54 AM

5 grok 3 arahan yang dapat memudahkan kerja anda

Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate Mar 08, 2025 am 11:15 AM

Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate

Llama 3.3: Tutorial langkah demi langkah dengan projek demo Llama 3.3: Tutorial langkah demi langkah dengan projek demo Mar 02, 2025 am 09:58 AM

Llama 3.3: Tutorial langkah demi langkah dengan projek demo

See all articles