Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu-AI-php.cn

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

青灯夜游

Lepaskan： 2023-03-31 23:37:09

ke hadapan

1831 orang telah melayarinya

Kertas ini telah diterima oleh CVPR2023.

GPT-4, yang boleh membaca imej, dikeluarkan! Tetapi anda perlu beratur untuk menggunakannya. . .

Mengapa tidak mencuba ini dahulu~

Tambah model kecil, anda boleh membuat model bahasa besar seperti ChatGPT dan GPT-3 yang hanya boleh memahami teks dengan mudah Baca gambar , semua jenis butiran rumit boleh dikendalikan di hujung jari anda.

Dan melatih model kecil ini boleh dilakukan dengan satu kad (RTX 3090).

Untuk kesannya, lihat sahaja pada gambar.

Sebagai contoh, masukkan gambar "pemandangan muzik" kepada GPT-3 terlatih dan tanyakannya: Apakah aktiviti yang diadakan di tempat kejadian?

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Tanpa teragak-agak, GPT-3 memberikan jawapan kepada Konsert.

Untuk menjadikannya lebih sukar, berikan GPT-3 foto Jiang Zi dan biarkan ia mengenal pasti jenis bahan tirai dalam foto itu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

GPT-3: Renda.

Bingo! (Nampaknya ada sesuatu padanya)

Kaedah ini merupakan pencapaian terbaru pasukan dari Universiti Sains dan Teknologi Elektronik Hangzhou dan Universiti Teknologi Hefei: Nabi, yang mereka miliki sudah dibangunkan setengah tahun yang lalu Dapatkan untuk bekerja pada ini.

Pengarang pertama makalah itu ialah Shao Zhenwei, seorang pelajar siswazah Universiti Hangzhou Dianzi Dia didiagnosis dengan "atrofi otot tulang belakang progresif" ketika dia berumur 1 tahun. Dia menyesal tidak lulus Universiti Zhejiang semasa kolej peperiksaan kemasukan dan memilih Universiti Hangzhou Dianzi, yang berhampiran dengan rumah .

Kertas kerja ini telah diterima oleh CVPR2023.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Mencapai SOTA baharu dalam tugasan silang modal

Tanpa berlengah lagi, mari kita lihat terus bacaan GPT-3 dengan sokongan kaedah Nabi Rajah kebolehan.

Mula-mula kita lihat keputusan ujiannya pada set data.

Pasukan penyelidik menguji Nabi pada dua set data soalan dan jawapan visual berasaskan pengetahuan luaran, OK-VQA dan A-OKVQA, yang kedua-duanya mencipta SOTA baharu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Lebih khusus lagi, pada set data OK-VQA, berbanding dengan model besar Deepmind Flamingo dengan parameter 80B, Nabi mencapai Dengan ketepatan kadar 61.1%, ia berjaya mengalahkan Flamingo (57.8%).

Dan dari segi sumber pengkomputeran yang diperlukan, Nabi juga "menewaskan" Flamingo.

Flamingo-80B perlu dilatih pada 1536 kad grafik TPUv4 selama 15 hari, manakala Nabi hanya memerlukan satu kad grafik RTX-3090 untuk melatih model VQA 4 hari, dan kemudian panggil OpenAI API beberapa kali.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Malah, kaedah seperti Nabi telah digunakan sebelum ini untuk membantu GPT-3 mengendalikan tugasan silang modal, seperti PICA, dan kemudiannya KAT dan REVIVE.

Walau bagaimanapun, mereka mungkin tidak memuaskan dalam mengendalikan beberapa butiran.

Beri saya buah berangan, biarkan mereka membaca gambar di bawah bersama-sama, dan kemudian jawab soalan: Apakah jenis buah yang akan dihasilkan oleh pokok dalam gambar itu?

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Satu-satunya maklumat PICA, KAT dan REVIVE yang diekstrak daripada gambar ialah: sekumpulan orang berjalan di dataran itu, langsung mengabaikan pokok kelapa di belakangnya. Jawapan akhir hanya boleh diteka.

Dengan Nabi, keadaan ini tidak akan berlaku Ia menyelesaikan masalah maklumat imej yang tidak mencukupi yang diekstrak dengan kaedah di atas dan seterusnya merangsang potensi GPT-3.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Jadi bagaimana Nabi melakukannya?

Model kecil + model besar

Mengekstrak maklumat dengan berkesan dan menjawab soalan dengan tepat dengan rangka kerja dua peringkat yang unik untuk dapat melakukan ini.

Pembahagian kerja antara dua peringkat ini juga jelas:

Fasa 1: Berikan beberapa jawapan yang mencerahkan berdasarkan soalan;
Fasa 2: Jawapan ini akan mengecilkan skop, memberikan GPT-3 ruang yang cukup untuk merealisasikan potensinya.

Pertama, pada peringkat pertama, pasukan penyelidik melatih model MCAN yang dipertingkatkan (model VQA) terhadap set data VQA pengetahuan luaran yang khusus.

Selepas melatih model, ekstrak dua jawapan heuristik daripadanya: calon jawab dan contoh sedar jawapan.

Antaranya, calon jawapan diisih berdasarkan output tahap keyakinan oleh lapisan klasifikasi model, dan 10 teratas dipilih.

Contoh kesedaran jawapan merujuk kepada menggunakan ciri sebelum lapisan pengelasan model sebagai ciri jawapan yang berpotensi bagi sampel, sampel berlabel yang paling serupa dalam ruang ciri ini.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Langkah seterusnya ialah peringkat kedua, yang agak mudah dan kasar.

Susun "jawapan yang diilhamkan" yang diperoleh pada langkah sebelumnya ke dalam gesaan, kemudian masukkan gesaan ke GPT-3 dan lengkapkan soalan visual dan jawapan di bawah gesaan tertentu.

Walau bagaimanapun, walaupun beberapa petunjuk jawapan telah diberikan dalam langkah sebelumnya, ini tidak bermakna GPT-3 terhad kepada jawapan ini.

Jika keyakinan jawapan yang diberikan oleh gesaan itu terlalu rendah atau jawapan yang betul bukan antara gesaan tersebut, GPT-3 benar-benar mungkin untuk menjana jawapan baharu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Pasukan Penyelidik

Sudah tentu, sebagai tambahan kepada hasil penyelidikan, pasukan di sebalik kajian ini juga perlu disebut.

Pengarang pertamaShao Zhenwei telah didiagnosis dengan "atrofi otot tulang belakang progresif" semasa dia berumur 1 tahun Ia adalah kecacatan fizikal peringkat pertama dan tidak mempunyai keupayaan untuk menjaga dirinya sendiri Kehidupan dan pembelajaran memerlukan penjagaan penuh daripada ibu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Walau bagaimanapun, walaupun keterbatasan fizikalnya, kehausan Shao Zhenwei untuk pengetahuan tidak berkurangan.

Dalam peperiksaan kemasukan kolej 2017, beliau mendapat markah tinggi sebanyak 644 mata dan diterima masuk ke jurusan komputer Universiti Sains dan Teknologi Elektronik Hangzhou dengan mendapat tempat pertama.

Dalam tempoh ini, beliau turut memenangi penghormatan seperti Bintang Peningkatan Diri Pelajar Kolej Cina 2018, Biasiswa Kebangsaan 2020 dan Graduan Cemerlang Wilayah Zhejiang 2021.

Semasa tempoh ijazahnya, Shao Zhenwei telah mula menjalankan aktiviti penyelidikan saintifik bersama Profesor Yu Zhou.

Pada tahun 2021, Shao Zhenwei berpeluang bertemu dengan Universiti Zhejiang ketika dia sedang bersiap untuk kenaikan pangkat pasca siswazah, jadi dia tinggal di sekolah itu dan menyertai kumpulan penyelidik Profesor Yu Zhou untuk melanjutkan pengajian ke peringkat sarjana tahun kedua sekolah siswazah, dan hala tuju penyelidikannya ialah pembelajaran silang modal.

Profesor Yu Zhou ialah pengarang kedua dan pengarang yang sepadan bagi kertas penyelidikan ini. Beliau ialah profesor termuda di Sekolah Sains Komputer Universiti Hangzhou Dianping dan ahli “Sistem Kompleks. Modeling and Simulation” Makmal Kementerian Pendidikan.

Sejak sekian lama, Yu Zhou mengkhusus dalam hala tuju kecerdasan pelbagai modal, dan telah mengetuai pasukan penyelidik untuk memenangi kejuaraan dan naib juara dalam cabaran menjawab soalan visual antarabangsa Cabaran VQA berkali-kali.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Kebanyakan ahli pasukan penyelidik berada di Hangzhou Electronics Makmal Perisikan Media (MIL).

Makmal ini diketuai oleh Profesor Yu Jun, Cendekiawan Muda Terbilang Negara Dalam beberapa tahun kebelakangan ini, makmal telah menerbitkan satu siri kertas persidangan jurnal peringkat tinggi (TPAMI, IJCV, CVPR, dll.) yang memfokuskan pada. pembelajaran pelbagai modal, dan telah memenangi banyak anugerah jurnal IEEE pada persidangan itu.

Makmal ini telah menganjurkan lebih daripada 20 projek nasional seperti Pelan R&D Utama Negara dan Yayasan Sains Semula Jadi Kebangsaan China Ia telah memenangi hadiah pertama Anugerah Sains Semula Jadi Wilayah Zhejiang dan hadiah kedua Semula Jadi Pendidikan Anugerah Sains.

Atas ialah kandungan terperinci Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!