Baru-baru ini, model pundi kacang besar telah dikeluarkan secara rasmi di Persidangan Kuasa Enjin Gunung Berapi. Walaupun trend penurunan harga model besar dipromosikan pada harga yang sangat rendah, keupayaan model Doubao juga telah menarik perhatian industri.
Dalam maklumat produk Volcano Engine, pasukan Model Doubao mengeluarkan beberapa keputusan ujian dalaman fasa pertama: pada set penilaian awam 11 industri arus perdana seperti MMLU, BBH, GSM8K, HumanEval, dll., Doubao-pro- Jumlah 4k Skor ialah 76.8 mata, iaitu peningkatan sebanyak 19% berbanding 64.5 mata model generasi sebelumnya Skylark2. Ini juga lebih baik daripada model domestik lain yang diuji dalam tempoh yang sama.
Penilaian ini telah disiapkan pada bulan Mei tahun ini, dan terutamanya termasuk Model Universal Pro, Skylark2 dan sembilan model bahasa besar domestik. Kecuali untuk Skylark2, model lain ialah versi lanjutan terkini yang dikeluarkan oleh pelbagai pengeluar dan diuji melalui panggilan API.
Gambar: Keputusan ujian dalaman pasukan model Doubao
Menurut keputusan penilaian, Doubao telah meningkat sebanyak 50% berbanding model generasi sebelumnya pada dua set penilaian "HumanEval" dan "MBPP" yang menilai keupayaan kod Mengenai; dalam set penilaian pengetahuan profesional dan arahan berikut, Doubao mencapai peningkatan prestasi masing-masing sebanyak 33% dan 24%, dan juga merupakan model domestik dengan skor tertinggi.
Selain kebolehan matematik, kebolehan memahami bahasa, dan set penilaian komprehensif BCMMLU dan CEval, ia juga mempunyai prestasi yang baik. Kedudukan dalam tiga teratas dalam pemarkahan. Berdasarkan keputusan ujian pada 11 set penilaian awam, Doubao Universal Model-pro mempunyai jumlah markah sebanyak 76.8 mata. Menurut keputusan ujian yang dikeluarkan oleh OpenAI, GPT-4 mempunyai jumlah skor 80.1 mata pada set penilaian ini, yang masih mempunyai pendahuluan tertentu ke atas model domestik.
Dilaporkan bahawa model pundi kacang baru sahaja dilancarkan pada 15 Mei dan belum lagi dimasukkan dalam ujian institusi pihak ketiga. Dijangkakan dalam tempoh satu hingga dua bulan akan datang, banyak agensi penilaian pihak ketiga akan mendedahkan secara beransur-ansur keputusan penilaian model ini. Pembantu AI "Doubao" dengan nama yang sama dengan model itu secara rasmi mengumumkan bahawa bilangan pengguna aktif bulanan telah mencapai 26 juta, dan pengguna boleh mengalami dan mengujinya secara bebas.
Sebelum ini, Institut Penyelidikan Zhiyuan mengeluarkan laporan penilaian yang meliputi 91 model bahasa di seluruh dunia. Dalam penilaian subjektif yang memfokuskan pada keupayaan Cina, Skylark2 menduduki tempat pertama, dan keupayaan Cinanya melebihi GPT-4.
Gambar: Keputusan penilaian model bahasa Institut Penyelidikan Zhiyuan (model adalah versi sebelum 4bulan20hari)
Atas ialah kandungan terperinci Keputusan penilaian model besar pundi kacang didedahkan, iaitu 19% lebih tinggi daripada 'Skylark' generasi sebelumnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!