Di luar pemodelan bahasa kausal
Neurips 2024 Spotlight: mengoptimumkan model bahasa pretraining dengan pemodelan bahasa terpilih (SLM)
Baru -baru ini, saya membentangkan kertas menarik dari Neurips 2024, "Tidak semua token adalah apa yang anda perlukan untuk pretraining," di kumpulan bacaan tempatan. Makalah ini menangani soalan yang mengejutkan namun berkesan: Adakah ramalan yang boleh ditarik seterusnya diperlukan untuk setiap token semasa model bahasa pretraining?
Pendekatan standard melibatkan dataset yang dikurangkan web secara besar-besaran dan memohon pemodelan bahasa kausal (CLM) secara universal. Makalah ini mencabar andaian itu, mencadangkan bahawa beberapa token menghalang, bukannya membantu, proses pembelajaran. Penulis menunjukkan bahawa memberi tumpuan kepada token "berguna" dengan ketara meningkatkan kecekapan data dan prestasi tugas hiliran. Jawatan ini meringkaskan idea teras mereka dan penemuan eksperimen utama.
Masalah: Kebisingan dan Pembelajaran Tidak cekap
Corpora Web Besar tidak dapat dielakkan mengandungi bunyi bising. Walaupun penapisan peringkat dokumen membantu, bunyi sering berada dalam dokumen individu. Tanda -tanda bising ini membazir sumber pengiraan dan berpotensi mengelirukan model.
Penulis menganalisis dinamik pembelajaran tahap token, mengkategorikan token berdasarkan trajektori kehilangan entropi mereka:
- l → l (rendah hingga rendah): Cepat belajar, memberikan manfaat selanjutnya yang minimum.
- h → l (tinggi hingga rendah): pada mulanya sukar, tetapi akhirnya belajar; mewakili peluang pembelajaran yang berharga.
- H → H (Tinggi hingga Tinggi): Secara konsisten sukar, sering disebabkan oleh ketidakpastian yang wujud (ketidakpastian aleatoric).
- L → H (rendah hingga tinggi): pada mulanya dipelajari, tetapi kemudian menjadi bermasalah, mungkin disebabkan oleh perubahan konteks atau bunyi.
Analisis mereka mendedahkan bahawa hanya sebahagian kecil daripada token yang memberikan isyarat pembelajaran yang bermakna.
Penyelesaian: Pemodelan Bahasa Selektif (SLM)
Penyelesaian yang dicadangkan, Pemodelan Bahasa Selektif (SLM), menawarkan pendekatan yang lebih disasarkan:
-
Latihan Model Rujukan (RM)
-
: Subset berkualiti tinggi data digunakan untuk menyesuaikan model asas pra-terlatih, mewujudkan model rujukan (RM). RM ini bertindak sebagai penanda aras untuk token "kegunaan."
-
Pengiraan kerugian yang berlebihan: untuk setiap token dalam korpus besar, perbezaan antara kehilangan RM dan kehilangan model latihan semasa ("kehilangan berlebihan") dikira. Kerugian berlebihan yang lebih tinggi menunjukkan potensi yang lebih besar untuk penambahbaikan.
-
Backpropagation selektif: Lulus ke hadapan penuh dilakukan pada semua token, tetapi backpropagation hanya berlaku untuk bahagian atas k% token dengan kerugian berlebihan tertinggi. Ini secara dinamik memfokuskan latihan pada token yang paling berharga.
Hasil eksperimen: Keuntungan yang signifikan
SLM menunjukkan kelebihan yang signifikan merentasi pelbagai eksperimen:
-
Domain matematik: pada OpenWebMath , SLM mencapai sehingga 10% keuntungan prestasi pada tanda aras GSM8K dan matematik berbanding dengan CLM standard, mencapai prestasi asas 5-10 kali lebih cepat. Model 7B sepadan dengan model canggih menggunakan hanya 3% daripada token latihannya. Penalaan halus terus meningkatkan prestasi sebanyak 40% untuk model 1B.
-
Domain Umum: Walaupun dengan model asas pra-terlatih yang kuat, SLM menghasilkan kira-kira 5.8% peningkatan purata di 15 tanda aras, terutamanya dalam domain yang mencabar seperti kod dan matematik.
-
Rujukan sendiri: Bahkan RM yang terlatih dengan cepat dari korpus mentah memberikan rangsangan ketepatan 2-3% dan pengurangan token 30-40% yang digunakan.
kesimpulan dan kerja masa depan
Makalah ini menawarkan pandangan yang berharga ke dalam dinamik pembelajaran peringkat token dan memperkenalkan SLM, teknik yang sangat berkesan untuk mengoptimumkan model bahasa pretraining. Arahan penyelidikan masa depan termasuk skala SLM kepada model yang lebih besar, meneroka model rujukan berasaskan API, mengintegrasikan pembelajaran tetulang, menggunakan model rujukan berganda, dan menyelaraskan SLM dengan pertimbangan keselamatan dan kebenaran. Kerja ini merupakan kemajuan yang ketara dalam latihan model bahasa yang cekap dan berkesan.Atas ialah kandungan terperinci Di luar pemodelan bahasa kausal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tetapi kita mungkin tidak perlu menunggu 10 tahun untuk melihatnya. Malah, apa yang boleh dianggap sebagai gelombang pertama yang benar-benar berguna, mesin seperti manusia sudah ada di sini. Tahun -tahun kebelakangan ini telah melihat beberapa prototaip dan model pengeluaran melangkah keluar dari T

Para saintis telah menemui kaedah yang bijak namun membimbangkan untuk memintas sistem. Julai 2025 menandakan penemuan strategi yang rumit di mana penyelidik memasukkan arahan yang tidak kelihatan ke dalam penyerahan akademik mereka - arahan rahsia ini adalah ekor

Perlu diketahui bahawa Pertubuhan Bangsa -Bangsa Bersatu mempunyai minat yang berterusan dalam bagaimana AI sedang memajukan dan jenis pengaturan dan kerjasama antarabangsa yang sepatutnya berlaku (lihat liputan saya di pautan di sini). Elemen tersendiri t

Persaingan yang sengit dalam sektor teknologi telah mencipta perpecahan bagaimana AI mempengaruhi pekerjaan. Walaupun firma menawarkan pakej gaji mewah kepada pakar AI elit, pemotongan pekerjaan yang meluas berterusan di seluruh industri. Peranan yang terjejas melampaui tradisional

Dari pengekodan getaran ke debut CodeKiro yang berdaya maju pada masa industri perisian menyaksikan lonjakan dalam "pengekodan getaran" -a teknik di mana pemaju menggunakan bahasa semulajadi untuk membuat aplikasi berfungsi dengan cepat. Walaupun banyak pemaju a

Pelancaran perkhidmatan perundingan AI yang baru dengan harga lebih dari $ 10 juta menggariskan kesedaran utama: Pada tahun 2025, nilai sebenar dalam AI terletak bukan hanya dalam akses kepada model, tetapi bagaimana dengan berkesan mereka boleh digunakan. Pendekatan ini mencerminkan Palan

Alat CLI sumber terbuka telah mewujudkan banyak keseronokan dalam pemaju dan komuniti AI. Dengan pelepasan CODEX CLI Claude, Openai Codex CLI, dan, lebih baru -baru ini, Gemini CLI Google, ada yang tiba -tiba

Ketua Pegawai Eksekutif Cloudflare Matthew Prince sekarang-virus menekan adalah cabaran langsung kepada firma kecerdasan buatan-menetap dengan penerbit dan pencipta kandungan. Tindakan ini menetapkan tetapan lalai untuk crawler AI mengikis data ke "tidak," dan kali ini
