Sejak kebelakangan ini, pembantu dialog AI telah mencapai kemajuan yang besar dalam tugas bahasa. Peningkatan ketara ini bukan sahaja berdasarkan keupayaan generalisasi LLM yang kukuh, tetapi juga harus dikaitkan dengan penalaan arahan. Ini melibatkan penalaan halus LLM pada pelbagai tugas melalui pengajaran yang pelbagai dan berkualiti tinggi.
Satu sebab yang berpotensi untuk mencapai prestasi tangkapan sifar dengan penalaan arahan ialah ia menghayati konteks. Ini penting terutamanya apabila input pengguna melangkau konteks akal. Dengan menggabungkan penalaan arahan, LLM memperoleh tahap pemahaman yang tinggi tentang niat pengguna dan mempamerkan keupayaan sifar pukulan yang lebih baik walaupun dalam tugas yang tidak kelihatan sebelum ini.
Walau bagaimanapun, pembantu perbualan AI yang ideal seharusnya dapat menyelesaikan tugasan yang melibatkan pelbagai modaliti. Ini memerlukan mendapatkan arahan multimodal yang pelbagai dan berkualiti tinggi berikutan set data. Contohnya, set data LLaVAInstruct-150K (juga dikenali sebagai LLaVA) ialah arahan visual-verbal yang biasa digunakan berikut set data, yang menggunakan imej COCO, arahan dan respons berdasarkan kapsyen imej dan kotak sempadan sasaran yang diperoleh daripada GPT-4 Constructed. Walau bagaimanapun, LLaVA-Instruct-150K mempunyai tiga had: kepelbagaian visual terhad;
Untuk mempromosikan pembantu dialog AI untuk menembusi batasan ini, sarjana dari Universiti Teknologi Nanyang di Singapura dan Microsoft Research Redmond mencadangkan set data penalaan arahan kontekstual pelbagai mod MIMIC-IT , set data yang mengandungi 2.8 juta pasangan arahan-tindak balas konteks pelbagai mod, meliputi pelbagai senario kehidupan sebenar.
Alamat kertas: https://arxiv.org/pdf/2306.05425.pdf
Di samping itu, untuk menjana pasangan tindak balas arahan dengan cekap, para penyelidik juga memperkenalkan "Sythus", saluran paip automatik bagi anotasi arahan-tindak balas yang diilhamkan oleh kaedah arahan kendiri. Sythus menggunakan maklumat sistem, anotasi visual dan contoh dalam konteks untuk membimbing model bahasa (GPT-4 atau ChatGPT) untuk menjana pasangan arahan-tindak balas berdasarkan konteks visual, menyasarkan tiga keupayaan asas model bahasa visual: persepsi, penaakulan dan perancangan. Selain itu, arahan dan respons bahasa Inggeris diterjemahkan ke dalam tujuh bahasa untuk menyokong penggunaan berbilang bahasa.
Adalah wajar diberi perhatian bahawa para penyelidik melatih model berbilang mod "Otter" berdasarkan OpenFlamingo pada MIMIC-IT. Dinilai pada kedua-dua ChatGPT dan manusia, keupayaan multimodal Otter mengatasi model bahasa visual terkini yang lain.
Dalam satu siri demo, penyelidik menunjukkan keupayaan soalan dan jawapan pelbagai mod Otter:
S: Kad manakah yang akan dimainkan seterusnya? ?
J: Lapan tiub. Dengan cara ini anda boleh mengekalkan empat dan lima menunggu lurus.
S: Saya mahu mendarat, apa yang perlu saya lakukan?
J: Tekan butang kiri bawah sekali untuk membelok ke kiri, dan tarik brek tangan di sebelah kanan apabila anda ingin mendarat.
S: Apa seterusnya?
J: Hantar bola ke tengah, lari ke gawang, dan cari peluang menjaringkan gol.
Seterusnya, mari lihat butiran kajian.
Set Data MIMIC-IT merangkumi 2.8 juta pasangan arahan-tindak balas pelbagai mod meliputi keupayaan asas: persepsi, penaakulan dan perancangan. Setiap arahan disertakan dengan konteks perbualan pelbagai mod, membolehkan VLM dilatih pada MIMIC-IT untuk menunjukkan kecekapan yang baik dalam arahan interaktif dan melakukan generalisasi sifar pukulan.
Berbanding dengan LLaVA, ciri-ciri MIMIC-IT termasuk:
(1) Pemandangan visual yang pelbagai, termasuk imej dan video daripada set data yang berbeza seperti adegan umum, adegan egosentrik dan imej RGB-D dalaman
(2) Lagi Satu imej (atau; video) sebagai data visual;
(3) Maklumat kontekstual berbilang modal, termasuk berbilang pasangan tindak balas arahan dan berbilang imej atau video
(4) Menyokong lapan bahasa, termasuk Inggeris, Cina, Sepanyol, Jepun, Perancis, Jerman, Korea dan Arab.
Rajah berikut menunjukkan lagi perbandingan arahan-tindak balas kedua-duanya (kotak kuning ialah LLaVA):
Seperti yang ditunjukkan dalam Jadual 1, sumber data MIMIC-IT datang daripada tujuh set data: COCO, Spot-the-diff (SD), ScanNetV2 (SN), VisualStorytelling (VIST), DenseCaption /Kapsyen aktiviti (DC), TVCaption (TVC) dan Ego4D (E4D). "lang." dalam lajur "Konteks" mewakili bahasa, dan "vis."
Sythus: Talian penjanaan pasangan arahan-tindak balas automatik
Pada masa yang sama, penyelidik mencadangkan Sythus (Rajah 3), iaitu Saluran paip automatik untuk menjana pasangan tindak balas arahan berkualiti tinggi dalam berbilang bahasa. Berdasarkan rangka kerja yang dicadangkan oleh LLaVA, penyelidik menggunakan ChatGPT untuk menjana pasangan arahan-tindak balas berdasarkan kandungan visual. Untuk memastikan kualiti pasangan arahan-tindak balas yang dijana, saluran paip menggunakan maklumat sistem, anotasi visual dan sampel dalam konteks sebagai gesaan untuk ChatGPT. Maklumat sistem mentakrifkan nada dan gaya yang dijangkakan bagi pasangan arahan-tindak balas yang dijana, manakala anotasi visual menyediakan maklumat imej asas seperti kotak sempadan dan penerangan imej. Contoh dalam konteks membantu ChatGPT belajar dalam konteks.
Memandangkan kualiti set teras akan mempengaruhi proses pengumpulan data seterusnya, para penyelidik menggunakan strategi permulaan yang dingin untuk mengukuhkan sampel dalam konteks sebelum pertanyaan berskala besar. Semasa fasa permulaan sejuk, pendekatan heuristik digunakan untuk menggesa ChatGPT mengumpul sampel dalam konteks hanya melalui maklumat sistem dan anotasi visual. Fasa ini tamat hanya selepas sampel dalam konteks yang memuaskan telah dikenal pasti. Dalam langkah keempat, setelah pasangan arahan-tindak balas diperoleh, saluran paip mengembangkannya ke dalam bahasa Cina (zh), Jepun (ja), Sepanyol (es), Jerman (de), Perancis (fr), Korea (ko) dan Arab (ar). Butiran lanjut boleh didapati dalam Lampiran C, dan gesaan tugas khusus boleh didapati dalam Lampiran D.
Penilaian EmpirikalKemudian, penyelidik menunjukkan pelbagai aplikasi dan keupayaan potensi model bahasa visual (VLM) dilatih untuk mereka. Pertama, penyelidik memperkenalkan Otter, model penalaan arahan kontekstual yang dibangunkan menggunakan dataset MIMIC-IT. Para penyelidik kemudian meneroka pelbagai kaedah melatih Otter pada dataset MIMIC-IT dan membincangkan pelbagai senario di mana Otter boleh digunakan dengan berkesan.
Rajah 5 ialah contoh tindak balas Otter dalam senario yang berbeza. Terima kasih kepada latihan mengenai set data MIMIC-IT, Otter mampu menyampaikan pemahaman dan penaakulan situasi, pembelajaran sampel kontekstual dan pembantu visual yang egosentrik.
Akhir sekali, penyelidik menjalankan analisis perbandingan prestasi Otter dengan VLM lain dalam satu siri ujian penanda aras.
Penilaian ChatGPT
Jadual 2 di bawah menunjukkan penilaian penyelidik terhadap model bahasa visual menggunakan rangka kerja MMAGIBench [43 ] Kebolehan persepsi dan penaakulan dinilai secara meluas.
Penilaian Manusia
Multi-Modaliti Arena [32] menggunakan sistem penilaian Elo untuk menilai kegunaan dan ketekalan respons VLM. Rajah 6(b) menunjukkan bahawa Otter menunjukkan kepraktisan dan konsistensi yang unggul, mencapai penarafan Elo tertinggi dalam VLM terkini.
Penilaian tanda aras pembelajaran kontekstual beberapa pukulan
Berang-berang diperhalusi berdasarkan OpenFlamingo, alat yang direka untuk multi-modal Seni bina yang direka untuk pembelajaran konteks dinamik. Selepas penalaan halus menggunakan set data MIMIC-IT, Otter mengungguli OpenFlamingo dengan ketara pada penilaian COCO Captioning (CIDEr) [27] (lihat Rajah 6 (c)). Seperti yang dijangkakan, penalaan halus juga membawa keuntungan prestasi kecil pada penilaian sampel sifar.
Rajah 6: Penilaian pemahaman video ChatGPT.
kelemahan. Walaupun penyelidik telah menambah baik mesej sistem dan contoh tindak balas perintah secara berulang, ChatGPT terdedah kepada halusinasi bahasa, jadi ia mungkin menghasilkan respons yang salah. Selalunya, model bahasa yang lebih dipercayai memerlukan penjanaan data arahan sendiri.
Masa depan kerja. Pada masa hadapan, penyelidik merancang untuk menyokong set data AI yang lebih khusus, seperti LanguageTable dan SayCan. Penyelidik juga sedang mempertimbangkan untuk menggunakan model bahasa atau teknik penjanaan yang lebih boleh dipercayai untuk menambah baik set arahan.
Atas ialah kandungan terperinci 2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!