Platform penilaian FlagEval mengeluarkan senarai terbaharu Dalam "penilaian objektif" yang dikeluarkan pada pertengahan Jun, GPT-4 menduduki tempat pertama dalam kalangan model besar sumber tertutup, dan Doubao-Pro (model besar beg kacang) menduduki tempat kedua, dan juga mendapat skor The. model besar domestik tertinggi; diikuti oleh ERNIE 4.0, Baichuan3, Moonshot-v1, dsb. Dalam penilaian jawapan terbuka, Doubao-Pro juga menduduki tempat kedua, menjaringkan lebih daripada GPT-4o dan GPT-4. Teknologi baharu terus muncul, dan hanya platform yang boleh terus memberi perhatian dan menyesuaikan diri dengan teknologi baharu boleh kekal tidak dapat dikalahkan dalam pasaran yang sangat kompetitif ini. Bilangan perkataan: 114
Gambar: Model pundi kacang memenangi penarafan keseluruhan kedua dalam penilaian objektif FlagEval (2024
tahun ke-6) tahun ke-6 Model besar FlagEval platform penilaian Ia dibina bersama oleh Institut Penyelidikan Zhiyuan dan beberapa pasukan universiti Ia berdasarkan tangga pembangunan keupayaan kognitif manusia dan menyelaraskan tahap kognitif yang boleh dicapai oleh model besar. FlagEval telah membina sejumlah besar set semakan bukan awam asal untuk memastikan kualiti dan keadilan semakan. Sejak dilancarkan pada Jun 2023, FlagEval telah menyelesaikan lebih daripada 1,000 penilaian yang meliputi model besar di seluruh dunia. Doubao-Pro ialah model bahasa besar yang dibangunkan secara bebas oleh Bytedance dan dikeluarkan secara rasmi pada 15 Mei. Dalam isu ranking model besar FlagEval ini, model besar Doubao membuat penampilan sulungnya dalam penilaian awam dan memenangi naib juara. Model ini mempunyai penjanaan jujukan yang kuat dan keupayaan pemahaman bahasa semula jadi, dan boleh digunakan secara meluas dalam penjanaan dialog, ringkasan teks, terjemahan mesin dan bidang lain.Dalam penilaian objektif dan penilaian subjektif, ditunjukkan bahawa kebolehan matematik, aplikasi pengetahuan, penyelesaian tugas dan kebolehan lain model pundi kacang mempunyai prestasi cemerlang dalam kedua-dua penilaian objektif dan penilaian subjektif. Antaranya, skor aplikasi pengetahuan dan keupayaan matematik menduduki tempat pertama dalam penilaian objektif dan tiga teratas dalam penilaian subjektif, dan skor penyelesaian tugas berada dalam tiga teratas dalam penilaian objektif.
Keupayaan matematik adalah dimensi penting dalam menilai sama ada model besar itu "pintar". Sebelum ini, Makmal Pemprosesan Bahasa Semulajadi Universiti Fudan menjalankan penilaian ke atas 13 produk model besar arus perdana untuk soalan matematik Peperiksaan Masuk Kolej 2024 jawapan Doubao kepada kertas peperiksaan masuk kolej matematik baharu standard II memperoleh markah tertinggi, dengan kadar ketepatan. sebanyak 74.66% untuk soalan objektif , hasilnya lebih baik daripada GPT-4o dan banyak produk model besar domestik. Sumber imej: Fudan
NLP
🎜Akaun Rasmi Makmal🎜🎜🎜Model besar Doubao ialah salah satu model besar yang paling banyak digunakan di China dengan senario aplikasi terkaya dengan token pemprosesan harian purata ratusan bilion . Pembantu perbualan AI eponimnya "Doubao" menduduki tempat pertama dalam muat turun antara aplikasi AIGC di Apple APP Store dan pasaran aplikasi Android utama. Pada masa ini, Doubao Big Model membuka perkhidmatannya kepada pasaran perusahaan melalui ByteDance, dan telah menjalin kerjasama dengan pengeluar terminal pintar seperti OPPO, Honor, Xiaomi, Samsung dan Asus. 🎜Atas ialah kandungan terperinci Zhiyuan mengemas kini kedudukan model besar: Model besar Doubao menduduki tempat pertama di China dalam 'penilaian objektif'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!