Gabungan pelbagai model besar heterogen membawa hasil yang menakjubkan-AI-php.cn

Gabungan pelbagai model besar heterogen membawa hasil yang menakjubkan

PHPz

Lepaskan： 2024-01-29 09:12:28

ke hadapan

1128 orang telah melayarinya

Dengan kejayaan model bahasa besar seperti LLaMA dan Mistral, banyak syarikat telah mula mencipta model bahasa besar mereka sendiri. Walau bagaimanapun, melatih model baharu dari awal adalah mahal dan mungkin mempunyai keupayaan yang berlebihan.

Baru-baru ini, penyelidik dari Universiti Sun Yat-sen dan Tencent AI Lab mencadangkan FuseLLM, yang digunakan untuk "menggabungkan berbilang model besar heterogen."

Berbeza daripada kaedah penyepaduan model tradisional dan penggabungan berat, FuseLLM menyediakan cara baharu untuk menggabungkan pengetahuan pelbagai model bahasa besar yang heterogen. Daripada menggunakan berbilang model bahasa besar pada masa yang sama atau memerlukan penggabungan hasil model, FuseLLM menggunakan kaedah latihan berterusan yang ringan untuk memindahkan pengetahuan dan keupayaan model individu ke dalam model bahasa besar yang digabungkan. Apa yang unik tentang pendekatan ini ialah keupayaannya untuk menggunakan pelbagai model bahasa besar yang heterogen pada masa inferens dan mengeksternalkan pengetahuan mereka ke dalam model bercantum. Dengan cara ini, FuseLLM meningkatkan prestasi dan kecekapan model dengan berkesan.

Makalah ini baru sahaja diterbitkan di arXiv dan telah menarik perhatian dan kiriman daripada netizen.

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

Seseorang fikir ia menarik untuk melatih model dalam bahasa lain dan saya telah memikirkannya.

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

Pada masa ini kertas kerja ini telah diterima oleh ICLR 2024.

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

Tajuk kertas: Gabungan Pengetahuan Model Bahasa Besar
Alamat kertas: https://absxiv/4
Gudang Kertas: https://github.com/fanqiwan/FuseLLM

Pengenalan kaedah

Kunci kepada FuseLLM ialah meneroka gabungan model bahasa besar dari perspektif kebarangkalian input yang sama teks, pengarang Perwakilan yang dihasilkan oleh model bahasa besar yang berbeza dianggap mencerminkan pengetahuan intrinsik mereka dalam memahami teks ini. Oleh itu, FuseLLM mula-mula menggunakan model bahasa besar berbilang sumber untuk menjana perwakilan, mengeksternalkan pengetahuan kolektif mereka dan kelebihan masing-masing, kemudian menyepadukan berbilang perwakilan yang dijana untuk saling melengkapi, dan akhirnya berhijrah ke model bahasa besar sasaran melalui latihan berterusan yang ringan. Rajah di bawah menunjukkan gambaran keseluruhan pendekatan FuseLLM.

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

Memandangkan perbezaan dalam senarai tokenizer dan perbendaharaan kata berbilang model bahasa besar yang heterogen, cara menyelaraskan hasil segmentasi perkataan adalah kunci apabila menggabungkan berbilang perwakilan: FuseLLM adalah berdasarkan padanan lengkap pada tahap perbendaharaan kata penjajaran berdasarkan jarak suntingan minimum direka bentuk tambahan untuk mengekalkan maklumat yang tersedia dalam perwakilan pada tahap yang paling besar.

Untuk menggabungkan pengetahuan kolektif berbilang model bahasa besar sambil mengekalkan kelebihan masing-masing, strategi untuk perwakilan yang dijana model gabungan perlu direka dengan teliti. Secara khususnya, FuseLLM menilai sejauh mana model bahasa besar yang berbeza memahami teks ini dengan mengira entropi silang antara perwakilan yang dijana dan teks label, dan kemudian memperkenalkan dua fungsi gabungan berasaskan entropi silang:

Dalam fasa latihan berterusan, FuseLLM menggunakan perwakilan bercantum sebagai sasaran untuk mengira kehilangan gabungan, sambil mengekalkan kehilangan model bahasa. Fungsi kehilangan akhir ialah jumlah kehilangan gabungan dan kehilangan model bahasa.

Hasil eksperimen

Dalam bahagian eksperimen, penulis mempertimbangkan senario gabungan model bahasa besar yang umum tetapi mencabar, di mana model sumber mempunyai persamaan kecil dalam struktur atau keupayaan. Secara khusus, ia menjalankan eksperimen pada skala 7B dan memilih tiga model sumber terbuka yang mewakili: Llama-2, OpenLLaMA dan MPT sebagai model besar untuk digabungkan.

Pengarang menilai FuseLLM dalam senario seperti penaakulan umum, penaakulan akal, penjanaan kod, penjanaan teks dan arahan yang mengikuti, dan mendapati ia mencapai peningkatan prestasi yang ketara berbanding semua model sumber dan model garis dasar latihan yang berterusan. . peningkatan purata sebanyak 1.86% telah dicapai pada setiap tugas, manakala FuseLLM telah mencapai peningkatan 5.16% berbanding Llama-2, yang jauh lebih baik daripada Llama-2 CLM, menunjukkan bahawa FuseLLM boleh menggabungkan kelebihan berbilang model bahasa besar untuk mencapai penambahbaikan prestasi.

Pada Penanda Aras Common Sense, yang menguji keupayaan penaakulan akal, FuseLLM mengatasi semua model sumber dan model asas, mencapai prestasi terbaik pada semua tugas. . 6.36%. Sebab mengapa FuseLLM tidak mengatasi MPT dan OpenLLaMA mungkin disebabkan oleh penggunaan Llama-2 sebagai model bahasa besar sasaran, yang mempunyai keupayaan penjanaan kod yang lemah dan bahagian data kod yang rendah dalam korpus latihan berterusan, menyumbang hanya kira-kira 7.59%. Pada tanda aras penjanaan berbilang teks yang mengukur jawapan soalan pengetahuan (TrivialQA), pemahaman bacaan (DROP), analisis kandungan (LAMBADA), terjemahan mesin (IWSLT2017) dan aplikasi teorem (SciBench), FuseLLM juga mengatasi semua tugas mengatasi semua sumber model dan mengatasi prestasi Llama-2 CLM dalam 80% tugasan.

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

Arahan ikut

Oleh kerana FuseLLM hanya perlu mengekstrak perwakilan model berbilang sumber untuk gabungan, dan kemudian terus melatih model sasaran yang besar, ia juga boleh digunakan secara berterusan untuk memperhalusi model bahasa dengan arahan. Pada Penanda Aras Vicuna, yang menilai keupayaan mengikut arahan, FuseLLM juga mencapai prestasi cemerlang, mengatasi semua model sumber dan CLM. FuseLLM lwn. Penyulingan Pengetahuan & integrasi model & penggabungan berat

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

Memandangkan penyulingan pengetahuan juga merupakan satu kaedah untuk mempertingkatkan penyulingan pengetahuan untuk mempertingkatkan penggunaan bahasa LLM. dan Llama- 2 13B suling Llama-2 KD dibandingkan. Keputusan menunjukkan bahawa FuseLLM mengatasi penyulingan daripada model 13B tunggal dengan menggabungkan tiga model 7B dengan seni bina yang berbeza.

Untuk membandingkan FuseLLM dengan kaedah gabungan sedia ada (seperti model ensembel dan penggabungan berat), penulis mensimulasikan senario di mana pelbagai model sumber datang daripada model asas struktur yang sama, tetapi dilatih secara berterusan pada korpora yang berbeza , dan menguji kebingungan pelbagai kaedah pada penanda aras ujian yang berbeza. Ia boleh dilihat bahawa walaupun semua teknik gabungan boleh menggabungkan kelebihan model berbilang sumber, FuseLLM boleh mencapai kebingungan purata terendah, menunjukkan bahawa FuseLLM mempunyai potensi untuk menggabungkan pengetahuan kolektif model sumber dengan lebih berkesan daripada kaedah ensembel model dan penggabungan berat.

Akhirnya, walaupun masyarakat kini memberi perhatian kepada gabungan model besar, pendekatan semasa kebanyakannya berdasarkan penggabungan berat dan tidak boleh diperluaskan kepada model senario gabungan struktur dan saiz yang berbeza. Walaupun FuseLLM hanyalah penyelidikan awal mengenai gabungan model heterogen, memandangkan pada masa ini terdapat sebilangan besar model besar bahasa, visual, audio dan pelbagai mod struktur dan saiz yang berbeza dalam komuniti teknikal, apakah gabungan model heterogen ini. meletus pada masa hadapan? Mari tunggu dan lihat! Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

Atas ialah kandungan terperinci Gabungan pelbagai model besar heterogen membawa hasil yang menakjubkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!