Rumah Peranti teknologi AI Di luar pemodelan bahasa kausal

Di luar pemodelan bahasa kausal

Feb 25, 2025 pm 06:28 PM

Neurips 2024 Spotlight: mengoptimumkan model bahasa pretraining dengan pemodelan bahasa terpilih (SLM)

Baru -baru ini, saya membentangkan kertas menarik dari Neurips 2024, "Tidak semua token adalah apa yang anda perlukan untuk pretraining," di kumpulan bacaan tempatan. Makalah ini menangani soalan yang mengejutkan namun berkesan: Adakah ramalan yang boleh ditarik seterusnya diperlukan untuk setiap token semasa model bahasa pretraining?

Pendekatan standard melibatkan dataset yang dikurangkan web secara besar-besaran dan memohon pemodelan bahasa kausal (CLM) secara universal. Makalah ini mencabar andaian itu, mencadangkan bahawa beberapa token menghalang, bukannya membantu, proses pembelajaran. Penulis menunjukkan bahawa memberi tumpuan kepada token "berguna" dengan ketara meningkatkan kecekapan data dan prestasi tugas hiliran. Jawatan ini meringkaskan idea teras mereka dan penemuan eksperimen utama.

Masalah: Kebisingan dan Pembelajaran Tidak cekap

Corpora Web Besar tidak dapat dielakkan mengandungi bunyi bising. Walaupun penapisan peringkat dokumen membantu, bunyi sering berada dalam dokumen individu. Tanda -tanda bising ini membazir sumber pengiraan dan berpotensi mengelirukan model.

Penulis menganalisis dinamik pembelajaran tahap token, mengkategorikan token berdasarkan trajektori kehilangan entropi mereka:

  • l → l (rendah hingga rendah): Cepat belajar, memberikan manfaat selanjutnya yang minimum.
  • h → l (tinggi hingga rendah): pada mulanya sukar, tetapi akhirnya belajar; mewakili peluang pembelajaran yang berharga.
  • H → H (Tinggi hingga Tinggi): Secara konsisten sukar, sering disebabkan oleh ketidakpastian yang wujud (ketidakpastian aleatoric).
  • L → H (rendah hingga tinggi): pada mulanya dipelajari, tetapi kemudian menjadi bermasalah, mungkin disebabkan oleh perubahan konteks atau bunyi.

Analisis mereka mendedahkan bahawa hanya sebahagian kecil daripada token yang memberikan isyarat pembelajaran yang bermakna.

Penyelesaian: Pemodelan Bahasa Selektif (SLM)

Penyelesaian yang dicadangkan, Pemodelan Bahasa Selektif (SLM), menawarkan pendekatan yang lebih disasarkan:

Beyond Causal Language Modeling

    Latihan Model Rujukan (RM)
  1. : Subset berkualiti tinggi data digunakan untuk menyesuaikan model asas pra-terlatih, mewujudkan model rujukan (RM). RM ini bertindak sebagai penanda aras untuk token "kegunaan."

  2. Pengiraan kerugian yang berlebihan: untuk setiap token dalam korpus besar, perbezaan antara kehilangan RM dan kehilangan model latihan semasa ("kehilangan berlebihan") dikira. Kerugian berlebihan yang lebih tinggi menunjukkan potensi yang lebih besar untuk penambahbaikan.

  3. Backpropagation selektif: Lulus ke hadapan penuh dilakukan pada semua token, tetapi backpropagation hanya berlaku untuk bahagian atas k% token dengan kerugian berlebihan tertinggi. Ini secara dinamik memfokuskan latihan pada token yang paling berharga.

Hasil eksperimen: Keuntungan yang signifikan

SLM menunjukkan kelebihan yang signifikan merentasi pelbagai eksperimen:

Beyond Causal Language Modeling

  • Domain matematik: pada OpenWebMath , SLM mencapai sehingga 10% keuntungan prestasi pada tanda aras GSM8K dan matematik berbanding dengan CLM standard, mencapai prestasi asas 5-10 kali lebih cepat. Model 7B sepadan dengan model canggih menggunakan hanya 3% daripada token latihannya. Penalaan halus terus meningkatkan prestasi sebanyak 40% untuk model 1B.

  • Domain Umum: Walaupun dengan model asas pra-terlatih yang kuat, SLM menghasilkan kira-kira 5.8% peningkatan purata di 15 tanda aras, terutamanya dalam domain yang mencabar seperti kod dan matematik.

  • Rujukan sendiri: Bahkan RM yang terlatih dengan cepat dari korpus mentah memberikan rangsangan ketepatan 2-3% dan pengurangan token 30-40% yang digunakan.

kesimpulan dan kerja masa depan

Makalah ini menawarkan pandangan yang berharga ke dalam dinamik pembelajaran peringkat token dan memperkenalkan SLM, teknik yang sangat berkesan untuk mengoptimumkan model bahasa pretraining. Arahan penyelidikan masa depan termasuk skala SLM kepada model yang lebih besar, meneroka model rujukan berasaskan API, mengintegrasikan pembelajaran tetulang, menggunakan model rujukan berganda, dan menyelaraskan SLM dengan pertimbangan keselamatan dan kebenaran. Kerja ini merupakan kemajuan yang ketara dalam latihan model bahasa yang cekap dan berkesan.

Atas ialah kandungan terperinci Di luar pemodelan bahasa kausal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Rimworld Odyssey Cara Ikan
1 bulan yang lalu By Jack chen
Bolehkah saya mempunyai dua akaun Alipay?
1 bulan yang lalu By 下次还敢
Panduan pemula ' s ke Rimworld: Odyssey
1 bulan yang lalu By Jack chen
Skop pembolehubah PHP dijelaskan
3 minggu yang lalu By 百草

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial PHP
1508
276
10 robot humanoid yang menakjubkan sudah berjalan di antara kita hari ini 10 robot humanoid yang menakjubkan sudah berjalan di antara kita hari ini Jul 16, 2025 am 11:12 AM

Tetapi kita mungkin tidak perlu menunggu 10 tahun untuk melihatnya. Malah, apa yang boleh dianggap sebagai gelombang pertama yang benar-benar berguna, mesin seperti manusia sudah ada di sini. Tahun -tahun kebelakangan ini telah melihat beberapa prototaip dan model pengeluaran melangkah keluar dari T

Krisis Komando yang tersembunyi: Penyelidik Permainan AI untuk Diterbitkan Krisis Komando yang tersembunyi: Penyelidik Permainan AI untuk Diterbitkan Jul 13, 2025 am 11:08 AM

Para saintis telah menemui kaedah yang bijak namun membimbangkan untuk memintas sistem. Julai 2025 menandakan penemuan strategi yang rumit di mana penyelidik memasukkan arahan yang tidak kelihatan ke dalam penyerahan akademik mereka - arahan rahsia ini adalah ekor

Pertubuhan Bangsa -Bangsa Bersatu Memandangkan empat tindakan penting ini untuk menyelamatkan dunia dari superintelligence AGI dan pembunuh AI Pertubuhan Bangsa -Bangsa Bersatu Memandangkan empat tindakan penting ini untuk menyelamatkan dunia dari superintelligence AGI dan pembunuh AI Jul 13, 2025 am 11:09 AM

Perlu diketahui bahawa Pertubuhan Bangsa -Bangsa Bersatu mempunyai minat yang berterusan dalam bagaimana AI sedang memajukan dan jenis pengaturan dan kerjasama antarabangsa yang sepatutnya berlaku (lihat liputan saya di pautan di sini). Elemen tersendiri t

Meta dan Openai's Talent Wars: Bagaimana Ai Mints Elites Tetapi Menggantikan Orang Lain Meta dan Openai's Talent Wars: Bagaimana Ai Mints Elites Tetapi Menggantikan Orang Lain Jul 13, 2025 am 11:07 AM

Persaingan yang sengit dalam sektor teknologi telah mencipta perpecahan bagaimana AI mempengaruhi pekerjaan. Walaupun firma menawarkan pakej gaji mewah kepada pakar AI elit, pemotongan pekerjaan yang meluas berterusan di seluruh industri. Peranan yang terjejas melampaui tradisional

AWS Melancarkan Kiro, IDE Agentik yang Didorong Spesifikasi AWS Melancarkan Kiro, IDE Agentik yang Didorong Spesifikasi Jul 16, 2025 am 11:13 AM

Dari pengekodan getaran ke debut CodeKiro yang berdaya maju pada masa industri perisian menyaksikan lonjakan dalam "pengekodan getaran" -a teknik di mana pemaju menggunakan bahasa semulajadi untuk membuat aplikasi berfungsi dengan cepat. Walaupun banyak pemaju a

Perniagaan Perundingan AI $ 10M Openai: Penempatan mengambil peringkat tengah Perniagaan Perundingan AI $ 10M Openai: Penempatan mengambil peringkat tengah Jul 17, 2025 am 11:12 AM

Pelancaran perkhidmatan perundingan AI yang baru dengan harga lebih dari $ 10 juta menggariskan kesedaran utama: Pada tahun 2025, nilai sebenar dalam AI terletak bukan hanya dalam akses kepada model, tetapi bagaimana dengan berkesan mereka boleh digunakan. Pendekatan ini mencerminkan Palan

Gemini CLI vs Codex CLI: Mana ejen pengekodan yang lebih baik? Gemini CLI vs Codex CLI: Mana ejen pengekodan yang lebih baik? Jul 13, 2025 am 09:05 AM

Alat CLI sumber terbuka telah mewujudkan banyak keseronokan dalam pemaju dan komuniti AI. Dengan pelepasan CODEX CLI Claude, Openai Codex CLI, dan, lebih baru -baru ini, Gemini CLI Google, ada yang tiba -tiba

CloudFlare memberikan syarikat bot AI Ultimatum CloudFlare memberikan syarikat bot AI Ultimatum Jul 13, 2025 am 11:10 AM

Ketua Pegawai Eksekutif Cloudflare Matthew Prince sekarang-virus menekan adalah cabaran langsung kepada firma kecerdasan buatan-menetap dengan penerbit dan pencipta kandungan. Tindakan ini menetapkan tetapan lalai untuk crawler AI mengikis data ke "tidak," dan kali ini

See all articles