ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar-AI-php.cn

Tingkatkan mekanisme teras Transformer untuk fokus, supaya model kecil boleh dibuat dua kali lebih besar!

Dalam kertas penskoran tinggi ICML+2024, pasukan Teknologi Caiyun membina rangka kerja DCFormer untuk menggantikan modul perhatian komponen teras Transformer (MHA) dan mencadangkan perhatian berbilang kepala yang boleh digabungkan secara dinamik (DMCHA).

DCMHA mengalih keluar pengikatan tetap gelung pemilihan carian dan gelung transformasi kepala perhatian MHA, membolehkan mereka digabungkan secara dinamik berdasarkan input, yang secara asasnya meningkatkan keupayaan ekspresi model.

Maksud asalnya ialah setiap lapisan telah menetapkan kepala perhatian H Kini ia boleh difahami pada asasnya bahawa setiap lapisan telah menetapkan kepala perhatian H Kini dengan jumlah parameter dan kuasa pengkomputeran yang hampir sama, ia boleh digabungkan secara dinamik sehingga HxH perhatian kepala. Kandungan yang diperhalusi boleh menyatakan dengan lebih jelas maksud teks asal, seperti berikut: Setiap lapisan model asal mengandungi nombor tetap kepala perhatian H Kini kita boleh menggunakan

DCMHA plug-and-play untuk menggantikan MHA dalam mana-mana seni bina Transformer untuk mendapatkan seni bina baharu DCFormer yang serba boleh, cekap dan boleh berskala.

ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar

Kerja ini telah disiapkan bersama oleh penyelidik dari Universiti Pos dan Telekomunikasi Beijing dan syarikat pemula AI Caiyun Technology.

Model DCPythia-6.9B yang dibina oleh penyelidik berdasarkan DCFormer adalah lebih baik daripada sumber terbuka Pythia-12B dari segi kebingungan pra-latihan dan penilaian tugas hiliran.

Model DCFormer adalah setanding dalam prestasi dengan model Transformer yang memerlukan 1.7-2 kali lebih pengiraan.

ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar

Apakah batasan modul perhatian berbilang kepala?

Undang-undang penskalaan model besar memberitahu kita bahawa apabila kuasa pengkomputeran meningkat, model menjadi lebih besar dan mempunyai lebih banyak data, dan kesan model akan menjadi lebih baik dan lebih baik. Walaupun tiada siapa dapat menjelaskan dengan jelas betapa tinggi siling jalan ini dan sama ada ia boleh mencapai AGI, ini sememangnya pendekatan yang paling biasa pada masa ini.

Tetapi sebagai tambahan kepada ini, soalan lain juga patut difikirkan: Kebanyakan model besar semasa adalah berdasarkan Transformer Mereka dibina satu demi satu dengan blok Transformer seperti blok binaan, Transformer itu sendiri. dan Berapa banyak ruang untuk penambahbaikan yang ada?

Ini ialah soalan asas yang perlu dijawab dalam penyelidikan struktur model, dan ia juga merupakan titik permulaan kerja DCFormer yang disiapkan bersama oleh Caiyun Technology dan Beijing University of Posts and Telecommunications.

Dalam modul perhatian berbilang kepala Transformer (MHA) , setiap ketua perhatian berfungsi sepenuhnya secara bebas antara satu sama lain.

Reka bentuk ini sangat berjaya dalam amalan kerana kesederhanaan dan kemudahan pelaksanaannya, tetapi ia juga membawa kepada kedudukan rendah matriks skor perhatian, yang melemahkan keupayaan ekspresif, dan lebihan berulang fungsi kepala perhatian membazir. parameter dan pengiraan sumber dan kelemahan lain. Berdasarkan ini, beberapa kerja penyelidikan dalam beberapa tahun kebelakangan ini telah cuba memperkenalkan beberapa bentuk interaksi antara ketua perhatian.

Menurut teori gelung Transformer, dalam MHA, tingkah laku setiap kepala perhatian digambarkan oleh empat matriks berat W^Q, W^K, W^V, W^O(di mana WO^{Diperolehi oleh membahagikan matriks unjuran keluaran MHA)}.

Antaranya, W

Q^WK^{dipanggil gelung QK} (atau gelung pemilihan carian) , yang menentukan token (beberapa) dalam konteks untuk difokuskan daripada token semasa, contohnya:

ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar

O^WV^{dipanggil gelung OV} (atau gelung transformasi unjuran), yang menentukan maklumat yang perlu diambil daripada tanda kebimbangan) untuk ditayangkan tulis ke dalam aliran baki pada kedudukan semasa, dan kemudian ramalkan token Seterusnya. Contohnya:

ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar

Penyelidik mendapati bahawa carian (di mana untuk mendapatkan) dan transformasi (apa yang perlu diperoleh) pada asalnya adalah dua perkara bebas, yang harus dinyatakan secara berasingan dan digabungkan secara bebas mengikut keperluan (sama seperti dalam pertanyaan SQL, Pemilihan keadaan selepas WHERE dan unjuran atribut selepas SELECT ditulis secara berasingan), dan MHA memaksanya untuk "dihimpunkan" dalam QKOV dengan kepala perhatian, yang mengehadkan keupayaan fleksibiliti dan ekspresi.

Sebagai contoh, katakan ada model dengan kepala perhatian A, B dan C yang gelung QK dan OV boleh melengkapkan contoh di atas =, kemudian gantikannya dengan:

ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar

Anda perlu silang- menggabungkan kepala perhatian sedia ada gelung QK dan OV, model mungkin "tidak dapat membelok" (disahkan oleh set ujian sintetik yang dibina oleh sistem penyelidik, model kecil dan sederhana

Apakah rupa kombinasi dinamik perhatian yang panjang?

Dengan ini sebagai titik permulaan, pasukan penyelidik artikel ini memperkenalkan operasi gubah dalam MHA:

ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar

Seperti yang ditunjukkan dalam rajah di bawah, DCMHA diperolehi:

. struktur keseluruhan DCMHA akan QW^{Q Matriks skor perhatian A}S^{dan matriks berat perhatian A}W^{yang dikira oleh} dan KW^K dipetakan secara linear pada dimensi num_heads untuk mendapatkan matriks baru A' didarab dengan VWV , melalui matriks pemetaan linear yang berbeza

(peta komposisi)

, untuk mencapai kesan gabungan pelbagai kepala perhatian.

Sebagai contoh, dalam Rajah 2(c), gelung QK kepala 3 dan 7 digabungkan dengan gelung OV kepala 1 untuk membentuk kepala perhatian "baru". ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar

△ Rajah 2. Dipermudahkan fungsi peta komposisi tipikal 8 kepala perhatian, warna terang mewakili nilai yang besar Untuk memaksimumkan keupayaan ekspresi, penyelidik berharap bahawa matriks pemetaan oleh dinamik input

Jana

, iaitu, secara dinamik menentukan cara kepala perhatian digabungkan. Tetapi matriks pemetaan yang ingin mereka hasilkan bukanlah satu, tetapi matriks sedemikian mesti dihasilkan untuk setiap pasangan pertanyaan Q_i pada kedudukan sumber dan kunci K

pada kedudukan destinasi dalam urutan, yang memerlukan kedua-dua overhed pengiraan dan penggunaan memori Ia akan menjadi sukar untuk diterima. Untuk tujuan ini, mereka menguraikan lagi matriks pemetaan kepada jumlah matriks statik bebas input W_b, matriks peringkat rendah w₁w₂, dan matriks pepenjuru Diag(wg ), Mereka masing-masing bertanggungjawab untuk kombinasi asas, kombinasi dinamik dalam cara yang terhad (iaitu pangkat R antara ketua perhatian, dan gating dinamik

kepala itu sendiri (lihat Rajah 2 (d) dan Rajah 3 (b ))

. Dua matriks terakhir dijana secara dinamik oleh matriks Q dan matriks K. Kurangkan pengiraan dan kerumitan parameter ke tahap yang hampir boleh diabaikan tanpa mengorbankan kesannya

(lihat analisis kerumitan dalam kertas untuk butiran)

. Digabungkan dengan pengoptimuman peringkat pelaksanaan JAX dan PyTorch, DCFormer boleh melatih dan membuat kesimpulan dengan cekap.

△Rajah 3. Bagaimanakah pengiraan

bagi Karang?

Peluasan skalaUntuk menilai kualiti seni bina, penunjuk teras yang menjadi tumpuan penyelidik ialah kecekapan menukar kuasa pengkomputeran kepada kecerdasan

(atau nisbah kuasa pengkomputeran prestasi)

, iaitu prestasi model yang boleh dicapai dengan melabur kuasa pengkomputeran unit Penambahbaikan - kurangkan kuasa pengkomputeran dan dapatkan model yang lebih baik. Ia boleh dilihat daripada lengkung undang-undang penskalaan

dalam Rajah 4 dan Rajah 5 (dalam koordinat logaritma, kehilangan setiap seni bina model boleh dilukis sebagai garis lurus anggaran apabila kuasa pengkomputeran berubah. Semakin rendah kerugian, semakin baik model)

, DCFormer boleh mencapai kesan model Transformer dengan 1.7~2 kali ganda kuasa pengkomputeran, iaitu, kadar penukaran pintar kuasa pengkomputeran meningkat sebanyak 1.7~2 kali ganda.

△Rajah 4. Kesan pengembangan skala Transformer dan DCFormer

△Rajah 5. Kesan pengembangan skala Pythia dan DCPythia

untuk memahami peningkatan ini?

Sejak kelahiran Transformer pada 2017, dari perspektif meningkatkan prestasi dan nisbah kuasa pengkomputeran, GLU MLP dan pengekodan kedudukan putaran RoPE adalah dua daripada beberapa penambahbaikan seni bina yang telah terbukti berkesan secara universal dan diterima pakai secara meluas dalam skala besar. bilangan amalan.

Seni bina yang menambah dua penambahbaikan ini kepada Transformer asal juga dipanggil Transformer++ Model sumber terbuka terkuat seperti Llama dan Mistral semuanya menggunakan seni bina ini. Tidak kira seni bina Transformer atau Transformer++, penambahbaikan yang ketara boleh diperolehi melalui DCMHA.

Pada skala model 1.4B, peningkatan DCMHA adalah lebih besar daripada jumlah dua penambahbaikan Transformer++, dan kebolehskalaan adalah lebih baik (Perbandingan garis biru-hijau dan garis hitam dalam Rajah 4, peningkatan DCMHA melemahkan apabila kuasa pengkomputeran meningkat Lebih perlahan, dan perbandingan Rajah 4 dan Rajah 5).

Boleh dikatakan DCFormer membawa keupayaan Transformer ke tahap yang baru. 🎜

Penilaian tugas hiliran

Pasukan penyelidik melatih dua model, DCPythia-2.8B dan DCPythia-6.9B, untuk menilai tugasan hiliran NLP arus perdana dan membandingkannya dengan model sumber terbuka Pythia dengan skala yang sama (latihan menggunakan perkara yang sama hiperparameter sebagai tetapan Pythia) .

△Jadual 1. Prestasi DCFormer dan Pythia dalam tugas hiliran

Seperti yang dapat dilihat dari Jadual 1, DCPythia-2.8B dan 6.9B bukan sahaja mempunyai ppl yang lebih rendah pada set pengesahan Cerucuk, tetapi juga mempunyai ppl yang lebih rendah pada kebanyakan Ia dengan ketara mengatasi Pythia pada tugas hiliran Ketepatan purata DCPythia6.9B pada tugas ppl dan hiliran malah melebihi Pythia-12B.

DCFormer++2.8B dipertingkatkan lagi berbanding DCPythia-2.8B, mengesahkan keberkesanan gabungan seni bina DCMHA dan Lllama.

Latihan dan kelajuan inferens

Walaupun pengenalan DCMHA akan membawa latihan tambahan dan overhed inferens, dapat dilihat daripada Jadual 2 bahawa kelajuan latihan DCFormer++ ialah 74.5%-89.2% daripada Transformer++, dan kelajuan inferens ialah 81.1% -89.7 %, dan apabila parameter model meningkat, overhed pengiraan tambahan akan berkurangan secara beransur-ansur.

△Jadual 2. Perbandingan kelajuan latihan dan inferens antara Transformer++ dan DCFormer++

Kelajuan latihan dibandingkan apabila pod TPU v3, panjang jujukan ialah 2048, saiz_batch ialah 1k, penilaian_GPU ialah 1k; panjang input ialah 1024 dan panjang yang dijana ialah 128.

Eksperimen Ablasi

Keputusannya adalah seperti berikut:

△Jadual 3. Eksperimen Ablasi DCMHA

Daripada Jadual 3, kita boleh lihat perkara berikut:

penambahan berat statik walaupun tambah berat tetapi Memperkenalkan berat gabungan dinamik boleh mengurangkan lagi ppl, yang menggambarkan keperluan gabungan dinamik.
Gabungan dinamik peringkat rendah berprestasi lebih baik daripada gating dinamik.
Ppl yang diperoleh dengan hanya menggunakan kombinasi dinamik mengikut pertanyaan atau kekunci adalah sangat serupa, dan jurang dengan DCFormer++ adalah sangat kecil.
Adalah lebih berkesan untuk melakukan kombinasi attention head selepas softmax berbanding sebelum softmax, mungkin kerana kebarangkalian selepas softmax boleh lebih mempengaruhi output secara langsung.
Pangkat berat gabungan dinamik tidak perlu ditetapkan terlalu besar, yang juga menggambarkan pangkat rendah berat gabungan.

Selain itu, penyelidik juga mengurangkan lagi latihan dan inferens overhed dengan meningkatkan perkadaran lapisan perhatian tempatan dan hanya menggunakan kombinasi dinamik mengikut pertanyaan Lihat Jadual 10 kertas untuk butiran.

Secara umumnya, pasukan penyelidik mempunyai dua kesimpulan.

Mengenai pemberat dinamik: Kerja SSM dan perhatian linear/RNN terkini seperti Mamba, GLA, RWKV6, HGRN, dll. telah mengejar Transformer++ dengan memperkenalkan pemberat dinamik (bergantung kepada input), tetapi DCFormer menggunakan gabungan dinamik kepala perhatian. Kaedah menunjukkan bahawa apabila menggunakan perhatian softmax, kesan Transformer++ boleh dipertingkatkan dengan banyaknya dengan memperkenalkan pemberat dinamik.

Mengenai inovasi seni bina model: Kerja ini menunjukkan bahawa jika terdapat "seni bina model ideal" dengan kuasa pengkomputeran yang melampau dan kecekapan transformasi pintar, walaupun seni bina Transformer semasa sudah sangat berkuasa, kemungkinan besar masih jauh untuk pergi dari seni bina yang ideal ini masih terdapat ruang yang besar untuk penambahbaikan. Oleh itu, sebagai tambahan kepada pembangunan keajaiban yang pesat dengan menyusun kuasa pengkomputeran dan data, inovasi dalam seni bina model juga mempunyai potensi yang besar.

Pasukan penyelidik juga menyatakan bahawa Teknologi Caiyun akan menjadi yang pertama menggunakan DCformer pada produknya Caiyun Weather, Caiyun Xiaoyi, dan Caiyun Xiaomeng.

Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Pautan kertas ICML2024: https://icml.cc/virtual/2024/poster/34047.
Pautan kertas Arxiv: https://arxiv.org/abs/2405.08553. Pautan kod: https://github.com/Caiyun-AI/DCFormer.

🎜

Atas ialah kandungan terperinci ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!