Pasukan Bengio mencadangkan penanda aras pelbagai mod baharu, menyasarkan kelemahan Claude 3.5 dan GPT-4o-AI-php.cn

Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang artikel ini, Zhang Tianyu, belajar di Institut Kepintaran Buatan Mila di Kanada dan belajar di bawah Profesor Yoshua Bengio, pemenang Anugerah Turing . Kerja utama semasa tempoh kedoktoran tertumpu pada pembelajaran pengukuhan multi-modal, GFlowNet, pelbagai ejen, dan penerapan AI dalam perubahan iklim. Pada masa ini, beliau telah menerbitkan kertas kerja di persidangan pembelajaran mesin terkemuka seperti ICML, ICLR dan ICASSP. Diwakili sebagai Pralatihan Bahasa Kontrastif Berskala Besar dengan Gabungan Ciri dan Pembesaran Kata Kunci-ke-Kapsyen (CLAP).

Untuk mencapai matlamat utama AGI kecerdasan buatan am, perkara pertama yang mesti dicapai ialah model mesti dapat menyelesaikan tugasan yang boleh dilakukan oleh manusia dengan mudah. Untuk melakukan ini, salah satu garis panduan utama untuk pembangunan model besar ialah cara membuat mesin berfikir dan menaakul seperti manusia. Teknologi seperti mekanisme perhatian dan Chain-of-Thought diilhamkan oleh ini.

Namun, mungkin ramai yang tidak menyedari bahawa banyak tugas kognitif yang sangat mudahuntuk manusia selalunya disertai dengan proses penaakulan yang sangat kompleks. Sebagai contoh, sila cuba isikan ruang teks yang disekat berdasarkan imej di bawah:

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

(Jawapan betul: Penyelidik pembelajaran mesin dari seluruh dunia teruja dengan GPU baharu. Ciri canggihnya juga boleh mendayakan Large -eksperimen berskala lebih cekap dan lebih murah, walaupun sebesar dapur )

Bagi kebanyakan penutur asli Cina, tugas ini tidak sepatutnya sukar, dan saya percaya anda boleh mendapatkan jawapannya dalam beberapa saat sahaja . Tetapi menyimpulkan teks lengkap daripada bahagian teks yang terdedah masih memerlukan proses penaakulan yang sangat kompleks: penyelidikan neurosains kontemporari menunjukkan bahawa memulihkan objek tersumbat separa memerlukan tahap penglibatan korteks prefrontal yang tinggi, yang mampu membuat keputusan peringkat tinggi -membuat.

Kami tahu bahawa model bahasa visual semasa (Model Bahasa Visi, VLM) boleh melaksanakan pengecaman objek dan pengecaman teks dengan sangat tepat. Walau bagaimanapun, apabila bahagian tersumbat adalah teks; apabila pengecaman aksara optik (OCR) model gagal; apabila satu-satunya maklumat utama hanya beberapa piksel teks tersumbat, bolehkah model mensimulasikan proses penaakulan manusia untuk menyelesaikan tugas ini?

Untuk tujuan ini, pasukan daripada pemenang Anugerah Turing Yoshua Bengio mencadangkan tugasan soalan dan jawapan visual baharu: Visual Caption Restoration (VCR). Marilah kita menggunakan tugas ini untuk meneroka keupayaan penaakulan model bahasa visual: Sejauh manakah model bahasa visual semasa daripada tahap kognitif manusia?

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Tajuk kertas: VCR: Visual Caption Restoration
Pautan kertas: arxiv.org/abs/2406.06462
Repositori kod terus: github.com/VCRu untuk baca teks asal akses, termasuk Semak semula kod penjanaan data untuk penilaian model dan pra-latihan)
Hugging Face link: huggingface.co/vcr-org

Pengenalan set data VCR

Untuk pembangunan Untuk tugas VCR, para penyelidik membina

proses untuk menjana imej komposit VCR daripada imej dan teks. Dalam proses ini, anda boleh menukar keterlihatan teks dalam imej dengan mengawal saiz segi empat tepat putih yang meliputi teks, dengan itu mengawal kesukaran tugasan.

Dengan proses penjanaan data ini, penyelidik menjana set data

VCR-wiki melalui imej utama Wikipedia - pasangan pengenalan . Terdapat dua tahap kesukaran untuk kedua-dua bahasa: "Mudah" dan "Keras". Antaranya:

"Mudah" tugasan VCR yang sukar
boleh menjadikan model OCR tidak sah ;
Tugasan VCR "Susah"
Ketinggian setiap 1-2cc hanya disimpan di bahagian bawah. pixels, tetapi masih membenarkan pengguna bahasa yang sepadan menyelesaikan tugasan.

Dalam setiap bahasa dan kesukaran, terdapat 5000 sampel dalam set ujian dan set pengesahan, dan sampel selebihnya berada dalam set latihan. Rajah: Dari kiri ke kanan, kesukaran mudah bahasa Inggeris, kesukaran dalam bahasa Inggeris, kesederhanaan dalam bahasa Cina, dan kesukaran dalam bahasa Cina

Contoh pada permulaan artikel hanyalah cabaran kecil untuk manusia tahap tertinggi manusia dalam melakukan tugasan ini dan pemikiran serta kemahiran yang digunakan manusia semasa menyelesaikan masalah. Contoh misi VCR tentang kesukaran "Keras" ditunjukkan di bawah. Pembaca boleh menumpukan dengan lebih teliti untuk cuba mengisi ruang teks kosong di bawah mereka sendiri. Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

^{(Jawapan yang betul: The Great Treatise, sebuah risalah mengenai matematik dan astronomi yang disusun oleh Ptolemy di Yunani purba sekitar 140 AD, yang mencadangkan laluan gerakan kompleks bintang dan planet. Sehingga Zaman Pertengahan dan Renaissance awal, Model geosentrik yang dicadangkan dalam buku itu diterima pakai oleh Islam dan Eropah...)}

Bagaimanakah manusia melengkapkan teks yang sebahagiannya tidak jelas?

Terdapat konsep dalam pendidikan dan sains kognitif yang dipanggil

meta-kognisi

. Apabila mereka bentuk AI, kita manusia, sebagai guru, boleh menggunakan

memantau proses pemikiran kita sendiri

sebagai rujukan untuk membantu pelajar yang bertindak sebagai model meningkatkan kecekapan pembelajaran mereka. Oleh itu, memikirkan "bagaimana manusia menyelesaikan tugas VCR" boleh menjadi pengajaran untuk reka bentuk model. Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Gambar di bawah menunjukkan salah satu idea penyelesai masalah penulis untuk tugasan VCR sebagai rujukan:

Nampaknya ada banyak langkah, tetapi sebenarnya ia hanya sentiasa mendapatkan maklumat melalui pelbagai kawasan

dan kemudian mengesahkannya berulang kali

untuk meningkatkan tahap keyakinan jawapan.

Apabila saya mula-mula melihat gambar itu, saya hanya mempunyai tekaan yang samar-samar dalam fikiran saya Sambil saya terus membaca gambar-gambar itu untuk mendapatkan maklumat baharu, saya secara beransur-ansur mengesahkan tekaan itu. Selepas membaca, apabila anda mula mengisi tempat kosong, anda masih tidak berhenti membandingkan pelbagai aspek maklumat untuk mengesahkan jawapan anda. Apabila "hipotesis" tidak konsisten dengan maklumat lain, "hipotesis" diterbalikkan dan hipotesis baru dicuba semula.

Hasil penilaian manusia

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Seberapa baikkah manusia dalam tugasan VCR? Rajah di bawah menunjukkan ketepatan penutur asli atau pengguna fasih setiap bahasa dalam bahasa Inggeris/Cina pada tetapan mudah/keras:

Jika kesilapan termasuk masa, nama tempat dan nama orang diambil kira, Purata ketepatan bahasa Cina dalam kesukaran mudah ialah kira-kira 98.58%, dan purata ketepatan bahasa Cina dalam kesukaran sukar ialah kira-kira 91.84%. Tidak termasuk ralat ini disebabkan oleh masa, nama tempat dan nama orang, manusia hampir hampir dengan markah penuh dalam tahap kesukaran bahasa Cina mudah, dan kadar ketepatan dalam tahap kesukaran sukar Cina juga telah mencapai 96.63%. Seperti yang dapat dilihat, tugas VCR adalah sangat mudah untuk manusia.

Hasil model sedia ada

Pengarang menguji "barisan semua bintang": Claude 3 Opus, Claude 3.5 Sonnet, Gwen 1.5 Pro, GPT-V4o - Max, Reka Core dan beberapa model sumber terbuka berprestasi terbaik tersedia hari ini.

Rajah berikut menunjukkan prestasi setiap model pada kesukaran mudah VCR-Wiki Cina:

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Penunjuk ukuran kotak merah termasuk wakil termasuk imej (VI) dan teks dalam imej TEI) Dua bahagian tersebut digunakan sebagai maklumat kontekstual dan model boleh memulihkan ketepatan teks yang dikaburkan. Kotak biru menunjukkan ketepatan model yang boleh memulihkan teks tertutup yang hanya mengandungi teks dalam imej (TEI) sebagai maklumat kontekstual dan tidak termasuk imej (VI).

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Hasilnya menunjukkan bahawa:

Sebilangan besar model pada masa ini tidak dapat melakukan tugas ini
kebanyakannya tidak menggunakan maklumat yang baik; , bukan kerana maklumat imej (VI) Dan meningkatkan ketepatan.

Mengenai kesukaran Chinese Hard

, model itu menghadapi masalah yang lebih besar. Prestasi terbaik ialah GPT-4o, tetapi ketepatannya hanya 2.2%. Kecuali untuk CogVLM2-Chinese dan Qwen-VL-Max, ketepatan kebanyakan model adalah hampir 0%.

Dapat diperhatikan dalam mod keras,

model asal sukar menjawab soalan ini dengan betul pada kadar yang ketara

, apatah lagi untuk mendekati manusia.

Hasil penilaian VCR Bahasa Inggeris

Pengarang juga menguji model bahasa visual sumber terbuka dan sumber tertutup terbaik semasa pada VCR-Wiki Inggeris. Sebelum menunjukkan keputusan ujian, sila lihat dua contoh tugas Bahasa Inggeris VCR-Wiki:

Contoh Bahasa Inggeris mudah:

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点 (Jawapan betul: Sejak Pejabat Pos Amerika Syarikat mengeluarkan setem pertamanya di 1847, lebih 4,000 setem telah dikeluarkan dan lebih 800 orang ditampilkan. Ramai daripada mereka ini...)

Bahasa Inggeris Kesukaran Contoh:

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点 (Jawapan betul: Lincoln ialah kenderaan mewah Amerika. Ford. Dipasarkan antara jenama kenderaan mewah terkemuka di Amerika Syarikat, untuk...)

Keputusan ujian VCR-Wiki Inggeris yang ditunjukkan dalam artikel adalah seperti berikut:

Melihat keputusan keseluruhan, model berprestasi lebih baik daripada bahasa Cina dalam kedua-dua mod mudah Inggeris dan mod sukar masing-masing. Keputusan ini tidak konsisten dengan intuisi umum kami bahawa "disebabkan konfigurasi modular khas, Bahasa Cina yang tidak lengkap lebih berkemungkinan untuk diselesaikan". Mungkin ini kerana semasa proses pra-latihan, bahasa Inggeris mempunyai kelebihan yang lebih besar daripada bahasa Cina dari segi volum data dan kualiti data.

Antara banyak model yang diuji, GPT-4o adalah yang terbaik di antara model sumber tertutup, dan CogVLM2 adalah yang terbaik antara model sumber terbuka.

Fenomena yang sangat menarik ialah penambahan imej telah banyak membantu CogVLM2 (naik 20.3% dalam mod keras), manakala untuk GPT-4o keputusannya telah merosot. Dalam ujian Cina, terdapat fenomena yang sama. Penulis percaya bahawa ini disebabkan oleh struktur model. Untuk butiran khusus, pembaca dialu-alukan untuk merujuk kepada kertas dan kod siri CogVLM.

Selain itu, model sumber tertutup umumnya mencapai hasil yang lebih baik daripada model sumber terbuka, yang mungkin dikaitkan dengan strategi latihan yang lebih baik atau lebih banyak parameter model. Tetapi walaupun begitu, model itu masih menghadapi cabaran besar dalam tetapan "sukar". Walaupun model sumber terbuka boleh melengkapkan sebahagian tetapan "mudah", dalam tetapan yang sukar, kebanyakan model sumber terbuka tidak dapat menyelesaikan tugas yang sangat mudah untuk manusia ini. .

Menilai VQA sangat mencabar kerana tiada jawapan standard tunggal

. Kaedah VQA tradisional tertumpu terutamanya pada pertanyaan langsung unsur-unsur yang boleh dilihat dalam imej tanpa melibatkan hubungan kompleks antara kandungan teks yang tertanam dalam imej dan konteks imej keseluruhan.

Dalam sesetengah penilaian VQA di mana teks menyumbang sebahagian besar maklumat dalam imej, modul visual model mungkin boleh melakukan tugas tanpa menjajarkan dengan modul bahasa sama sekali. Jenis proses ini ialah: imej adalah input kepada modul visual OCR, dan modul visual OCR mengeluarkan maklumat aksara dalam imej dan menggunakan ini sebagai konteks untuk memasukkan ke modul bahasa. Ini menyebabkan tugas VQA merosot kepada tugas QA yang tidak memerlukan maklumat imej. Keupayaan penjajaran modul visual yang diperlukan oleh VLM berbeza yang pada asalnya dibandingkan telah diabaikan manakala keupayaan OCR dinilai.

OCR

Tugasan Pengecaman Aksara Optik (OCR) biasanya memasukkan aksara lengkap dalam imej dan teks rentetan output yang mewakili aksara dalam imej, tanpa mengira konteks imej.

Model OCR pra-latihan mampu mengekstrak teks terbenam daripada imej input, walaupun teks tidak lengkap atau kabur. Walau bagaimanapun,

apabila tahap komponen teks menjadi kabur atau tersumbat meningkat

, ia menjadi sukar untuk memulihkan teks asal hanya menggunakan bahagian yang boleh dilihat, dan

Kaedah OCR mempunyai keberkesanan yang terhad dalam kes ini

Dapat dilihat bahawa tiada jawapan standard untuk tugas VQA, dan menilai kualiti jawapan model masih menjadi soalan terbuka. Tugas OCR tidak memerlukan konteks untuk diselesaikan, dan adalah mustahil untuk menguji sama ada model itu benar-benar telah belajar untuk menggunakan maklumat dalam konteks.

Tidak boleh digantikan dengan tugas VCR

Tugas Pemulihan Kapsyen Visual (VCR) bertujuan untuk memulihkan teks yang tersumbat dalam imej , tugas ini disokong

Membina
CR

Cabaran unik tugas VCR ialah ia memerlukan model untuk mencapai penjajaran tepat antara maklumat visual dan teks

, yang sangat berbeza dengan tugas pengekstrakan teks mudah OCR. Dalam OCR, kebimbangan utama adalah untuk mengenali watak yang boleh dilihat tanpa memahami kaitan kontekstualnya dalam naratif imej. Sebaliknya, VCR memerlukan model untuk mengeksploitasi secara kolaboratif isyarat teks tahap piksel separa dan konteks visual yang tersedia untuk membina semula kandungan tersumbat dengan tepat. Ini bukan sahaja menguji keupayaan model untuk memproses teks terbenam dan elemen visual, tetapi juga keupayaannya untuk mengekalkan konsistensi dalaman,

serupa dengan proses kognitif yang mana manusia memahami dan bertindak balas melalui konteks dan isyarat visual
.

Tidak seperti VQA, Soalan tugasan VCR mempunyai jawapan yang unik, yang membolehkan penilaian dijalankan melalui ketepatan, menjadikan metrik penilaian lebih jelas.

, sekali gus menyediakan persekitaran ujian yang kaya.
Seperti tugas OCR, tugas VCR juga boleh berfungsi sebagai tugas latihan untuk VLM. Kod transformasi sumber terbuka pengarang yang boleh menjana graf tugas VCR untuk mana-mana pasangan teks imej yang diberikan.

Ringkasan

Tugas Pemulihan Kapsyen Visual (VCR) yang dicadangkan dalam kertas ini dengan bijak mendedahkan batasan penjajaran tugasan imej-model sedia ada dan penjajaran teks perbezaan yang nampaknya mudah melalui penjajaran tugasan imej-model yang sedia ada dan perbezaan yang kelihatan mudah. kebolehan antara model dan manusia dalam tugasan kognitif peringkat tinggi. Adalah dipercayai bahawa tugas ini boleh memberi inspirasi kepada kaedah latihan, penilaian dan inferens VLM yang lebih berkesan pada masa hadapan, seterusnya merapatkan jurang antara model pelbagai mod dan kebolehan kognitif manusia.

Atas ialah kandungan terperinci Pasukan Bengio mencadangkan penanda aras pelbagai mod baharu, menyasarkan kelemahan Claude 3.5 dan GPT-4o. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!