Menurut berita pada 9 Ogos, pasukan Alibaba Tongyi menggunakan sumber terbuka model matematik generasi baharu Qwen2-Math, yang merangkumi model asas dan model penalaan halus arahan dengan tiga parameter 1.5B, 7B dan 72B. Qwen2-Math dibangunkan berdasarkan model bahasa besar sumber terbuka Tongyi Qianwen Qwen2 Model utama Qwen2-Math-72B-Instruct mendapat markah lebih tinggi daripada GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro dan Llama pada set penilaian berwibawa MATH -3.1-405B, dsb., mengendalikan pelbagai masalah matematik seperti algebra, geometri, pengiraan dan kebarangkalian, teori nombor, dsb. dengan ketepatan 84%, menjadi model khusus matematik yang paling maju.
Nota: Dalam penilaian penanda aras MATH, Qwen2-Math-72B-Instruct, model utama model matematik Tongyi Qianwen, mencapai ketepatan 84%, mengatasi GPT-4, Claude-3.5, Gemini-1.5-Pro dan model sumber terbuka dan tertutup seperti Llama-3.1.Model asas Qwen2-Math dimulakan menggunakan model bahasa besar Qwen2 dan pra-latihan pada korpus khusus matematik yang direka dengan teliti Data latihan termasuk teks dalam talian, buku, kod, soalan peperiksaan matematik berskala besar dan berkualiti tinggi , dan data pra-latihan Matematik Qwen2 untuk sintesis model. Semua set data pra-latihan dan penalaan halus telah dinyahcemar.
Seterusnya, pasukan R&D melatih versi penalaan halus arahan model: pertama, model ganjaran khusus matematik dilatih berdasarkan Qwen2-Math-72B kemudian, isyarat ganjaran padat digabungkan dengan isyarat binari yang menunjukkan sama ada model menjawab soalan dengan betul, menggunakan label Belajar, kemudian bina data penalaan halus (SFT) yang diselia melalui pensampelan penolakan, akhirnya, gunakan kaedah GRPO untuk mengoptimumkan model berdasarkan model SFT.
Dilaporkan bahawa model siri Qwen2-Math kebanyakannya menyokong bahasa Inggeris Pasukan Tongyi tidak lama lagi akan melancarkan versi dwibahasa Cina dan Inggeris, dan versi berbilang bahasa juga sedang dibangunkan.
Pasukan Tongyi telah menilai prestasi model penalaan halus arahan dalam berbilang set penilaian penanda aras matematik Cina dan Inggeris Selain penanda aras penilaian biasa seperti GSM8K dan MATH, ia juga telah memperkenalkan ujian pertandingan peperiksaan yang lebih mencabar, seperti. Ujian peringkat Olimpik. OlympiadBench, penilaian penanda aras matematik kolej CollegeMath, Peperiksaan Masuk Kolej (GaoKao), soalan pertandingan American Mathematics Invitational Competition (AIME) 2024, soalan pertandingan American Mathematics Contest (AMC) 2023, penilaian Bahasa Cina termasuk set penilaian CMATH, Peperiksaan Kemasukan Kolej China 2024 dan soalan matematik peperiksaan kemasukan sekolah menengah. Pada akhirnya, Qwen2-Math-72B-Instruct menunjukkan prestasi yang sangat baik dan mencapai keputusan yang jauh melebihi model matematik sumber terbuka lain dalam sepuluh penilaian teratas.
Nota: Pasukan R&D menilai model di bawah syarat tamak dan RM@8 Jadual menyenaraikan tiga keputusan skor untuk setiap model Qwen2-Math-72B-Instruct, yang merupakan markah jawapan pertama (No subskrip). skor jawapan yang paling kerap muncul di antara 8 jawapan, dan skor jawapan yang dipilih oleh model ganjaran antara 8 jawapan."Bolehkah model besar melakukan masalah matematik bukan sahaja topik hangat di platform sosial, tetapi juga topik penyelidikan yang sangat membimbangkan industri. Mengendalikan masalah matematik lanjutan memerlukan model dengan keupayaan penaakulan logik pelbagai langkah yang kompleks. Pasukan Tongyi menyatakan dalam blog teknikal bahawa ia berharap untuk "menyumbang kepada komuniti saintifik dalam menyelesaikan masalah matematik lanjutan" melalui sumber terbuka, dan akan terus meningkatkan keupayaan matematik model pada masa hadapan.
Lampiran: Qwen2-Contoh penyelesaian masalah Matematik
Atas ialah kandungan terperinci Tongyi Qianwen sumber terbuka Qwen2-Math, menjadi model khusus matematik yang paling maju. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!