ACL 2024 |. Dalam penilaian matematik 25 model sumber terbuka dan tertutup, GPT-3.5-Turbo hampir tidak lulus-AI-php.cn

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang artikel ini adalah dari Universiti Hong Kong dan Tencent. Senarai pengarang: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Antaranya, pengarang pertama Li Qintong ialah pelajar kedoktoran di Makmal Pemprosesan Bahasa Semulajadi Universiti Hong Kong. Minat penyelidikannya melibatkan penjanaan bahasa semula jadi dan penaakulan teks . Leyang Cui dan Wei Bi adalah penyelidik kanan di Tencent.

Kata Pengantar

Keupayaan luar biasa model bahasa besar (LLM) dalam menyelesaikan masalah semakin ketara. Baru-baru ini, fenomena yang patut diberi perhatian ialah model ini telah mencapai keputusan yang menakjubkan dalam pelbagai ujian penanda aras penaakulan matematik. Mengambil GPT-4 sebagai contoh, ia menunjukkan prestasi yang baik dalam set ujian soalan aplikasi sekolah rendah yang sukar GSM8K [1], dengan kadar ketepatan lebih 90%. Pada masa yang sama, banyak model sumber terbuka juga telah menunjukkan prestasi yang mengagumkan, dengan kadar ketepatan melebihi 80%.

Walau bagaimanapun, dalam penggunaan, kita sering mendapati bahawa apabila masalah matematik diubah sedikit, LLM mungkin mempunyai beberapa ralat peringkat rendah, seperti yang ditunjukkan dalam rajah berikut:

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

^{GPT-1: 3.5-Turbo Masalah matematik telah diselesaikan dengan betul (kiri), tetapi apabila kekangan ditambahkan pada masalah asal (kanan), Turbo menyalahgunakan operator dan membuat ralat kerana ia tidak membezakan dengan betul antara arah "keluar" dan "kembali" .}

Kami tidak boleh tidak bertanya: Adakah model bahasa besar benar-benar memahami intipati pengetahuan matematik? Bagaimanakah mereka mendapat markah yang tinggi dalam ujian ini? Adakah ini semata-mata meniru corak penaakulan cetek dalam sejumlah besar data latihan? Sama ada LLM benar-benar memahami konsep matematik masih menjadi persoalan yang patut diterokai.

Untuk meneroka isu ini, pengarang artikel ini mereka bentuk penanda aras penilaian GSM-Plus. Ujian ini direka bentuk untuk melakukan 8 transformasi matematik yang berbeza pada masalah untuk menilai secara sistematik keupayaan LLM semasa dalam menangani masalah perkataan matematik asas. Dalam penanda aras baharu ini, kertas kerja menilai dengan teliti 25 LLM berbeza, termasuk model sumber terbuka dan sumber tertutup dalam industri.

Hasil eksperimen menunjukkan bahawa GSM-Plus ialah penanda aras yang mencabar untuk kebanyakan LLM. Walaupun pada GSM8K, GPT-3.5-Turbo telah dapat mencapai ketepatan 73.62%, tetapi ia hanya boleh mencapai ketepatan 61.19% pada GSM-Plus. Kerja ini telah diterima oleh ACL2024 dengan markah 4, 4, dan 4.5.

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

Tajuk kertas: GSM-Plus: Penanda Aras Komprehensif untuk Menilai Kekukuhan LLM sebagai Penyelesai Masalah Matematik
Alamat kertas: https://arxiv.org/pdf/2402.19255

//qtli.github.io/GSM-Plus/

Latar Belakang

Penaakulan matematik merupakan bukti penting perkembangan kecerdasan buatan. Ia memerlukan pemahaman masalah yang ketat, pembangunan strategi, dan kemahiran pelaksanaan pengiraan. Sejak beberapa tahun kebelakangan ini, banyak set data yang tersedia secara terbuka telah digunakan untuk menilai keupayaan penaakulan matematik sistem kecerdasan buatan. Set data matematik awal memfokuskan pada masalah matematik berasaskan persamaan. Selepas itu, set data yang lebih sukar diperkenalkan meliputi masalah matematik peringkat rendah, sekolah menengah dan kolej.

Memandangkan kesukaran data penilaian terus meningkat, pembangunan LLM juga menjadi sangat pesat. Untuk meningkatkan prestasi LLM dalam bidang matematik, penyeliaan penalaan halus (SFT) boleh digunakan untuk membantu LLM menyesuaikan diri dengan cepat dalam bidang matematik dengan melatih data tugas yang pelbagai. Dalam peringkat penaakulan, kebolehan matematik LLM juga boleh dirangsang secara berkesan melalui gesaan input yang direka dengan bijak (cth. Rantaian Pemikiran dan Program Pemikiran).

Bagi kebanyakan LLM, masih terdapat banyak ruang untuk penambahbaikan apabila melibatkan masalah matematik di sekolah menengah dan ke atas. Walau bagaimanapun, dalam bidang matematik sekolah rendah, LLM telah menunjukkan potensi yang besar. Ini membuatkan kita tertanya-tanya,

Adakah LLM masih boleh mengekalkan prestasi tinggi dalam persekitaran sebenar?

Adversarial Evaluation Dataset GSM-Plus

Kajian ini bertujuan untuk melancarkan penanda aras komprehensif GSM-Plus untuk mengkaji secara sistematik kekukuhan penyelesaian masalah asas LLM. Diilhamkan oleh taksonomi keupayaan untuk menyelesaikan masalah matematik dalam prinsip Polya [2], artikel ini mengenal pasti lima prinsip panduan untuk membina set data GSM-Plus:

Untuk memudahkan pemahaman, di sini kami menggunakan "Janet's The duck lays 16 biji telur setiap hari dia makan tiga biji telur setiap pagi dan membakar muffin dengan empat biji telur untuk kawan-kawannya Dia menjual baki telur di pasar tani setiap hari dengan harga $2 setiap satu contoh. . jenis, seperti Gantikan "16" dengan "20" dalam soalan.

Peluasan digit: Tambahkan bilangan digit dalam nilai, contohnya, gantikan "16" dengan "1600".

Integer - Perpuluhan - Penukaran pecahan: Gantikan integer dengan perpuluhan atau pecahan, contohnya tukar "2" kepada "2.5".

(2) Perubahan aritmetik
: merujuk kepada pengenalan operasi tambahan atau penyongsangan kepada masalah matematik, tetapi hanya terhad kepada operasi tambah, tolak, darab dan bahagi:

pengembangan: Tambahkan sekatan pada masalah asal. Sebagai contoh, tambahkan keadaan baharu "Dia juga menggunakan dua telur untuk membuat topeng rambut buatan sendiri setiap hari."

Pembalikan operasi: Tukar keadaan masalah asal yang diketahui kepada pembolehubah untuk diselesaikan untuk masalah varian GSM-Plus. Sebagai contoh, pernyataan soalan asal dalam Rajah 2 "2 dolar AS bagi setiap telur itik" ditukar kepada ayat tanya soalan baharu "Berapa harga setiap telur itik?", manakala ayat tanya soalan asal. "Berapa banyak dolar yang anda perolehi di pasar tani setiap hari?" Merujuk kepada menyatakan semula masalah matematik dengan perkataan dan ayat yang berbeza tanpa mengubah maksud, seperti " Janet menternak sekawan itik yang bertelur 16 telur itik setiap hari. Dia mengambil tiga telur itik untuk sarapan pagi dan kemudian menggunakan empat telur itik untuk membakar mufin selama rakan-rakannya. Janet menjual telur itik segar di pasar tani dengan harga $2 setiap satu (4) Sisipan gangguan

: merujuk kepada memasukkan ayat yang berkaitan dengan topik dan mengandungi nilai berangka tetapi tidak berguna untuk menyelesaikan Pergi ke soalan asal, seperti "Janet juga ingin menggunakan dua telur itik untuk memberinya makan. Nasib baik, jirannya memberinya dua telur itik setiap hari untuk memberi makan burung kakak tua itu."

(5) Pemikiran Kritis
: Memberi tumpuan kepada sama ada LLM mempunyai keupayaan untuk bertanya atau meragui apabila masalah matematik kekurangan syarat yang diperlukan, seperti "Itik Janet bertelur setiap hari dia makan tiga telur setiap pagi sebagai Dia membuat empat biji telur untuk sarapan pagi dan membakar wafel untuk rakan-rakannya setiap hari Dia menjual baki telur di pasar tani setiap hari dengan harga $2 setiap satu.Berapakah jumlah wang yang dia peroleh setiap hari di pasar tani? ”.

Berdasarkan 1,319 soalan ujian GSM8K, kertas ini mencipta lapan varian untuk setiap soalan, menghasilkan set data GSM-Plus yang mengandungi 10,552 varian soalan (kertas ini juga menyediakan set data GSM-Plus yang mengandungi 2,400 subset ujian varian masalah untuk penilaian cepat). Dengan menguji LLM menggunakan setiap masalah dan lapan variannya, GSM-Plus boleh membantu penyelidik menilai secara menyeluruh kemantapan LLM dalam menyelesaikan masalah matematik. 个 Rajah 2: Berdasarkan masalah matematik benih, gunakan 8 sudut daripada 8 gangguan untuk menjana varian masalah skala yang berbeza, kaedah pra-latihan yang berbeza, penalaan halus tugas yang berbeza, dan gabungan 4 teknologi penggerak yang biasa digunakan Kertas ini mendapati bahawa LLM boleh menyelesaikan masalah GSM8K secara keseluruhan. tetapi akan menghadapi masalah yang jelas apabila menjawab soalan varian dalam GSM-Plus Penemuan utama adalah seperti berikut:

^{Pengoptimuman khusus tugasan, iaitu, penalaan halus pada set data yang berkaitan secara matematik, selalunya boleh meningkatkan hiliran. ketepatan tugasan; manakala tahap keteguhan lebih bergantung pada model asas dan Perhalusi pemilihan set data}
Prestasi LLM merosot dengan cepat apabila "pemikiran kritis" diperlukan, "perubahan aritmetik" dan "penyisipan gangguan. ” terlibat; tetapi untuk “perubahan berangka” dan “pemahaman masalah” Prestasi gangguan, LLM secara relatifnya stabil
Teknik dorongan sebelumnya (cth., CoT, PoT, LtM dan CoT berasaskan Kompleksiti) tidak mempunyai kesan yang ketara. mengenai peningkatan kekukuhan, terutamanya untuk "perubahan aritmetik" dan "Pemikiran Kritikal". fikir keupayaan untuk menjana soalan varian, dan kemudian hasilkan soalan untuk varian ini Jana jawapan calon untuk memastikan kualiti data, semua variasi soalan dan jawapan yang dijana oleh GPT-4 disemak dengan teliti oleh pasukan anotasi manual masalah ditulis semula.
Penilaian terperinci
: Untuk setiap soalan ujian dalam set data penilaian arus perdana GSM8K, GSM-Plus menyediakan 8 soalan varian dalam arah gangguan, menguji sepenuhnya keupayaan model besar untuk menyelesaikan masalah aplikasi matematik secara fleksibel dalam konteks yang berbeza
- Mencabar
^{Jadual 1: Warna yang berbeza mewakili jenis gangguan yang berbeza:}^{penggantian berangka, pengembangan digit, penukaran integer-perpuluhan pecahan pembalikan operasi, Pemahaman masalah, Sisipan distraktor,}Pemikiran kritis.

Seperti yang dapat dilihat dari jadual di atas, kajian terdahulu menggunakan gangguan yang berbeza untuk menguji keteguhan penaakulan matematik, tetapi tetapan penilaian hanya meliputi beberapa jenis gangguan, dan kebanyakannya memperkenalkan gangguan melalui pembinaan kaedah automatik, kualiti Sukar untuk dijamin. Sebaliknya, GSM-Plus menggunakan lapan kemahiran penaakulan matematik yang berbeza untuk mengganggu satu masalah, dengan liputan yang lebih komprehensif dan kawalan kualiti yang ketat. Analisis Experimental Kadar Pengurangan Metrik Pengurangan (PDR)
: Prestasi LLMS pada masalah yang ditimbulkan berbanding dengan masalah kejatuhan masalah asal.

Peratusan pasangan masalah yang diselesaikan secara serentak (ASP): Perkadaran masalah asal dan varian masalah sepadannya yang kedua-duanya dijawab dengan betul oleh LLM.

Prestasi Keseluruhan
- Seperti yang ditunjukkan dalam jadual di bawah, prestasi kebanyakan LLM pada GSM-Plus menurun dengan ketara berbanding GSM8K.
- Dalam menghadapi gangguan matematik, semakin besar saiz model, semakin stabil prestasinya. Walaupun penalaan halus yang diselia boleh meningkatkan ketepatan pada tugas hiliran, ia tidak meningkatkan keteguhan model dengan ketara terhadap gangguan (iaitu, menurunkan PDR). Data yang menyelia penalaan halus adalah penting untuk kekukuhan. Ia juga diperhalusi berdasarkan LLaMA-2 dan menggunakan data yang berbeza, yang akan membawa kepada perbezaan besar dalam ketepatan dan keteguhan model. Jadual 2: Prestasi keseluruhan Prestasi LLM di bawah gangguan
Kertas kerja ini menilai lagi LLM dalam 8 jenis Kestabilan Prestasi di bawah varian masalah. Berbanding garis dasar manusia untuk Pemikiran Kritikal (ungu), Pengembangan Operasi dan Pembalikan Operasi (biru), Sisipan Pengganggu (merah jambu) dan gangguan Penukaran Pecahan Integer-Perpuluhan (oren), prestasi LLM menurun dengan ketara. Untuk "penggantian angka" dan "pemahaman masalah", prestasi LLM adalah stabil atau bertambah baik sedikit.
berdasarkan keseluruhan set data. Seterusnya, artikel ini membahagikan dua set data mengikut sama ada soalan matematik dijawab dengan betul dan menganalisis sama ada apabila LLM berjaya menyelesaikan masalah GSM8K, ini bermakna kebarangkalian menjawab soalan varian GSM-Plus dengan betul menjadi lebih tinggi (iaitu, a nilai ASP yang tinggi). Jika pernyataan ini benar, LLM boleh dianggap berprestasi stabil pada subset khusus masalah matematik ini, walaupun ini tidak berlaku pada keseluruhan set data. Dalam persediaan percubaan, setiap masalah GSM8K dan variannya dalam GSM-Plus diubah menjadi 8 pasangan masalah, dan hasilnya ditunjukkan dalam Rajah 4.
Rajah 4: Kebolehpindahan inferens LLM antara pasangan masalah GSM8K dan GSM-Plus. Bar ungu (kedua-duanya betul) dan biru (kedua-duanya salah) menunjukkan gelagat model yang konsisten, manakala bar merah (GSM8K betul & GSM-Plus salah) dan kuning (GSM8K salah & GSM-Plus betul) menunjukkan gelagat model Tidak konsisten. Jumlah ketinggian bar ungu dan merah mewakili bilangan LLM yang menyelesaikan masalah GSM8K dengan betul.

Kehadiran bar merah (LLM yang menjawab soalan asal dengan betul, tetapi tidak menangani varian), menunjukkan bahawa kebanyakan model mempunyai kebolehpindahan prestasi yang terhad. Walaupun prestasi LLM berbeza pada masalah GSM8K (ketinggian bar ungu dan merah), kebolehpindahan prestasi adalah serupa (ketinggian bar merah). Ini bermakna penanda aras sedia ada tidak dapat menilai dengan tepat keupayaan sebenar model dalam penaakulan matematik. Ketepatan tinggi tidak sama dengan keteguhan inferens yang kuat.
Petunjuk membantu dalam keteguhan prestasi LLM
Kerja sebelum ini telah menunjukkan bahawa arahan pembayang yang baik adalah penting untuk merangsang keupayaan matematik model bahasa. Artikel ini memilih 4 model perwakilan dan menguji prestasi mereka dalam menyelesaikan masalah di bawah arahan segera yang berbeza. Seperti yang ditunjukkan dalam rajah di bawah, apabila berhadapan dengan gangguan, LLM berprestasi paling stabil apabila menggunakan contoh kompleks sebagai demonstrasi kontekstual (CoT berasaskan kerumitan sebaliknya, hanya menggunakan bahasa program untuk mewakili penaakulan pertengahan (Program-of-Thought), LLMs); lebih terdedah kepada gangguan. Secara keseluruhan, petua dan helah ini tidak mencukupi untuk LLM mengekalkan prestasi yang sama seperti GSM8K pada GSM-Plus. L Rajah 5: Kesan gesaan pada keteguhan prestasi LLMS

Adakah gesaan gabungan itu sah?

Bagaimana untuk meningkatkan keteguhan LLM berdasarkan kaedah pembayang sedia ada?
Artikel ini mendapati bahawa LLM sering mengabaikan syarat penting atau membuat ralat pengiraan semasa proses penyelesaian masalah. Untuk tujuan ini, kertas kerja ini meneroka Comp, kaedah gesaan gabungan. Kaedah ini mula-mula menggesa LLM untuk mengekstrak keadaan perlu yang berkaitan secara berangka dalam masalah (Prompt1). Seterusnya, berdasarkan masalah dan keadaan kritikal, LLM diarahkan untuk menjana matlamat inferens secara berulang (Prompt2) dan matlamat pengiraan (Prompt3), dan biarkan mereka memberikan maklum balas tentang langkah penyelesaian masalah sejarah yang dijana untuk menentukan sama ada jawapan akhir diperoleh ( Gesaan4). Pelaksanaan khusus ditunjukkan dalam Rajah 6.

Dapat dilihat bahawa Comp dapat meningkatkan prestasi LLM di bawah pelbagai jenis perubahan masalah melalui generasi berulang dan pengesahan diri, tetapi masih jurang prestasi antara LLMS pada set ujian standard dan set ujian adversarial tidak boleh berjembatan. Penyelidikan ini mengharapkan lebih banyak kaedah pada masa hadapan untuk menambah baik lagi keteguhan model dan menggalakkan pembangunan lanjut LLM dalam bidang penaakulan matematik.
^{表3：Comp表3：Comp 8K 問題和基於「運算逆轉」的GSM-Plus 改寫問題上，不同提示技術下GPT-3.5-Turbo 的表現。雖然所有提示都可以激發 Turbo 準確回答 GSM8K 問題，但只有 Comp 能夠幫助 Turbo 在 GSM-Plus 變體問題上產生正確的答案。}

本文介紹了一個對抗性小學數學應用題評測集GSM -Plus，旨在系統分析LLMs 在解決數學應用題中的穩健性。實驗分析發現，大多數 LLMs 在面臨擾動時，表現相較於它們在標準基準上的表現顯著下降，遠遠達不到人類的表現水準。研究者期望本文的工作能促進更多未來研究，包括但不限於：（1）對 LLMs 的數學技能進行系統評估；（2）建構能夠靈活進行數學推理的模型。

^參考連結

[1] Cobbe, Karl, et al. "Training verifiers to solve math word proivve." 70215 月 (apa41210 月 201373735953593593535933533933333333933333333333部分人(73) 字) https. code. com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. How to solve it: A new aspect of mathematical method, volume 85. ？

Atas ialah kandungan terperinci ACL 2024 |. Dalam penilaian matematik 25 model sumber terbuka dan tertutup, GPT-3.5-Turbo hampir tidak lulus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!