Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang artikel ini adalah dari Universiti Nasional Singapura, Universiti Teknologi Nanyang dan Institut Teknologi Harbin. Antaranya, hala tuju penyelidikan Fei Hao ialah pembelajaran pelbagai mod dan model bahasa besar berbilang modal. Wu Shengqiong ialah pelajar kedoktoran di Universiti Nasional Singapura Halatuju penyelidikan utamanya ialah model bahasa besar berbilang modal. Arah penyelidikan utama Ji Wei ialah pembelajaran pelbagai mod dan penjanaan kandungan pelbagai mod. Minat penyelidikan Profesor Zhang Hanwang termasuk penglihatan komputer dan inferens sebab akibat. Minat penyelidikan Profesor Zhang Meishan termasuk kecerdasan kod, pemprosesan bahasa semula jadi, dan penjanaan dan pemahaman pelbagai mod. Arahan penyelidikan Profesor Mong-Li Lee dan Wynne Hsu termasuk analisis media sosial, pembelajaran mesin kolaboratif, dsb.
Baru-baru ini, penyelidik dari Universiti Nasional Singapura, Universiti Teknologi Nanyang dan Institut Teknologi Harbin bersama-sama mencadangkan rangka kerja penaakulan video baharu Ini juga merupakan kali pertama komuniti penaakulan model besar telah mencadangkan video-. rangka kerja rantai pemikiran berorientasikan (Video -of-Thought, VoT). Rangkaian Pemikiran Video VoT membenarkan model bahasa besar berbilang mod video untuk meningkatkan pemahaman dan prestasi penaakulan video yang kompleks dengan banyak. Karya ini telah diterima sebagai kertas Lisan oleh ICML 2024.
- Pautan kertas: https://openreview.net/pdf?id=fO31YAyNbI
- Pautan projek: http://haofei.vip/VoT
Lonjakan daripada persepsi kepada kognisiBerbanding dengan pemahaman dan penaakulan tentang gambar statik, dalam komuniti pemprosesan visual, penaakulan tentang video adalah jauh lebih rumit dan sukar kerana video secara semula jadi mempunyai ciri pemasaan dinamik yang lebih mencabar dan kehadiran kandungan visual yang lebih berlebihan. Penyelidikan pemahaman video lepas kebanyakannya tertumpu pada persepsi cetek terhadap video, seperti pengecaman tindakan video, pengecaman dinamik dan penjanaan penerangan video. Walau bagaimanapun, kaedah ini masih mempunyai kelemahan yang ketara dalam pemahaman mendalam dan penaakulan video yang kompleks. Berbanding dengan persepsi video cetek, penaakulan video yang kompleks memerlukan bukan sahaja pemahaman yang kompleks tentang ciri spatiotemporal video, tetapi juga pemahaman yang mendalam tentang akal budi tertib tinggi yang wujud di sebalik piksel. Untuk menyelesaikan masalah ini sepenuhnya, VoT wujud.
Bagi manusia, memahami video semudah makan dan minum. Jadi bagaimana kita manusia melakukan penaakulan pemahaman video? Mari kita pertimbangkan kes berikut. Video di bawah menunjukkan adegan di mana sebuah kereta berkelajuan tinggi bertembung dengan lori tangki merah di lebuh raya. Soalan yang sepadan ialah: "Apa yang akan berlaku kepada lori tangki minyak merah ini
Apabila manusia mendapat video soalan ini, pertama, kita akan menentukan sasaran minat berdasarkan soalan, iaitu minyak merah?" lori tangki. Kemudian, kami menonton video dengan teliti dan menjejaki semantik tindakan objek sasaran dalam video. Seterusnya, kami akan melakukan beberapa penaakulan yang mendalam dan peringkat tinggi, mungkin digabungkan dengan beberapa pengetahuan akal. Akhir sekali, kami memberikan jawapan yang munasabah: "Ia mungkin terbakar atau meletup." , pasukan penyelidik menegaskan bahawa untuk mencapai penaakulan video yang kompleks, dua keupayaan utama diperlukan: keupayaan persepsi pemahaman piksel dan keupayaan kognitif pemahaman semantik. Dan yang paling penting, penaakulan video mungkin bukan proses satu langkah segera, tetapi proses berbilang lompatan daripada persepsi peringkat rendah kepada kognisi peringkat tinggi.
Untuk mencapai persepsi kandungan yang tepat, pemahaman tahap piksel terperinci tentang gerakan video diperlukan. Proses ini mungkin memerlukan penyepaduan mendalam bagi kandungan video tertentu dan penyasaran kandungan berbutir.
Walau bagaimanapun, kebanyakan kaedah pemahaman video sedia ada terhad kepada analisis contoh dan tiada kawalan yang baik serta pengecaman atau penjejakan peringkat objek yang tepat, apatah lagi pemahaman video yang mendalam. Kebolehan kognitif: Penaakulan yang mendalam memerlukan kebolehan kognitif, membolehkan model memberikan penjelasan yang munasabah dan juga imaginasi kausal. Tahap ini memerlukan sejumlah pengetahuan akal sehat tentang dunia. Sebagai contoh, fahami bahawa "melompat dari tempat tinggi boleh menyebabkan keretakan", atau "berlanggar dengan kapal tangki minyak boleh menyebabkan letupan." Rangka kerja penaakulan baharu: Lahirnya rantaian pemikiran videoUntuk mencapai matlamat ini, pasukan penyelidik mencadangkan rangka kerja penaakulan baharu - "Rantaian Pemikiran Video". Rantaian pemikiran ini menguraikan masalah penaakulan video yang kompleks kepada satu siri sub-masalah daripada persepsi visual peringkat bawah kepada kognisi akal budi peringkat atas. Pada masa yang sama, untuk membantu dalam mencapai keupayaan persepsi video yang dinyatakan di atas, penulis juga mencadangkan untuk menggunakan perwakilan Spatial-Temporal Scene Graph (STSG) untuk membantu proses penaakulan dan membantu menjana hasil perantaraan persepsi halus, Ini membolehkan pemahaman ciri spatial dan temporal yang halus.
Dan digabungkan dengan model besar pelbagai mod video, akhirnya MLLM video baharu, MotionEmpic, telah dicadangkan.
Hasil eksperimen menunjukkan bahawa rangka kerja inferens baharu yang dicadangkan oleh pengarang boleh meningkatkan prestasi model dengan ketara pada pelbagai jenis QA video, mengatasi prestasi semua kaedah MLLM dan CoT video tradisional semasa. A. Rangka kerja penaakulan VoT rantai pemikiran video Rangka kerja penaakulan VoT mengandungi sejumlah 5 langkah: Pertama, diberi input video dan soalan, VoT mengenal pasti semua kemungkinan sasaran yang terlibat dalam soalan. Proses ini memastikan sistem mempunyai pemahaman yang jelas tentang objek yang perlu dianalisis dan tugasan yang berkaitan.
Langkah-2: Penjejakan sasaran
Seterusnya, VoT menganalisis kandungan video, menjejak trajektori gelagat sasaran yang terlibat dalam masalah dan mengeluarkan pemandangan spatiotemporal tahap. STSG yang dihasilkan tentang trajektori sasaran akan menjadi bukti persepsi untuk langkah seterusnya analisis tingkah laku. Langkah-3: Analisis Tingkah Laku
Dalam langkah ini, VoT terus menggesa model untuk mempertimbangkan pengetahuan akal yang lebih berpotensi relevan dengan menyepadukan model penjejakan sasaran boleh Sambungkan pemerhatian piksel video ke dunia nyata untuk mencapai pemahaman yang lebih mendalam tentang video.
Langkah-4: Mekanisme Kedudukan untuk Menjawab Soalan
Setelah memahami tingkah laku sasaran dalam video, sekarang mula menjawab soalan asal. Pertama, sistem ini menyatukan semua soalan QA kepada berbilang soalan, iaitu memilih jawapan akhir daripada berbilang jawapan calon yang disediakan. Tambahan pula, diilhamkan oleh cara manusia menjawab soalan aneka pilihan, sistem ini juga menggunakan mekanisme pemeringkatan untuk menentukan jawapan akhir. Khususnya, untuk setiap jawapan calon, VoT akan menggesa model untuk menilai kemungkinannya (dari 1 hingga 10) berdasarkan pengetahuan akal dan memberikan alasan yang sepadan. Berdasarkan keputusan muktamad, calon yang mendapat kedudukan tertinggi akan menjadi jawapan muktamad.
🎜🎜🎜Langkah-5: Pengesahan JawapanMemandangkan tugasan video yang kompleks biasanya melibatkan soalan dan jawapan yang rumit, dan keseluruhan proses penaakulan mengandungi berbilang pautan, adalah penting untuk mengesahkan jawapan yang diberikan dalam langkah sebelumnya. Idea pengesahan asas sistem ini ialah dengan menganggap jawapan A betul, kami akan menilai secara retrospektif sama ada jawapan itu bercanggah dengan soalan input dan kandungan video dari dua aspek:
- Pengesahan persepsi: Semak sama ada piksel maklumat kedudukan adalah Selaras dengan fakta yang dibentangkan dalam video dari perspektif persepsi.
- Pengesahan kognitif: Gesa model dari perspektif kognitif untuk menentukan sama ada pengetahuan akal yang wujud dalam jawapan bercanggah dengan pemerhatian utama yang disimpulkan dalam langkah penaakulan ketiga.
Akhirnya, pastikan VoT boleh mengeluarkan hasil yang paling betul. Lima langkah rangka kerja penaakulan VoT, daripada definisi tugas dan pengenalpastian sasaran kepada pengesahan jawapan akhir, meningkatkan ketepatan dan kebolehpercayaan pemahaman dan penaakulan video secara menyeluruh, menyediakan penyelesaian yang berkuasa kepada Skim tugasan video yang kompleks 1. Perbandingan percubaan utamaPengarang pertama kali menguji pada beberapa set data VideoQA yang kompleks. Keputusan eksperimen membuktikan bahawa VoT mencapai prestasi yang lebih baik secara konsisten daripada model garis dasar SoTA pada semua set ujian, malah mengatasi prestasi CoT tradisional. . Perlu diingat bahawa berbanding dengan CoT tradisional, peningkatan prestasi VoT adalah lebih besar dan lebih jelas. Selain itu, kesan peningkatan pada dua tugasan menjawab soalan video kompleks adalah lebih jelas berbanding tugasan yang agak mudah (cth., MSR-VTT dan ActivityNet). Ini terutamanya kerana set data yang terakhir lebih menjurus kepada penaakulan persepsi (cth., menerangkan perkara dalam video) dan bukannya penaakulan kognitif (cth., menerangkan, menjangka).
3. Analisis terperinci kebolehan penaakulan
Pertama, penulis menjalankan penilaian manusia. Seperti yang ditunjukkan dalam jadual atas Rajah 7, MotionEpic menggunakan rangka kerja inferens VoT mencapai keputusan yang agak cemerlang, malah setanding dengan prestasi manusia. Selanjutnya, penulis meringkaskan enam kes ralat biasa dan menganalisis perbezaan antara enam kategori ralat yang paling biasa. Seperti yang ditunjukkan di bahagian bawah rajah, MotionEpic (menggunakan VoT) dengan ketara mengurangkan kadar ralat VideoLLaVA (menggunakan CoT), terutamanya dari segi semantik tindakan dan pemahaman akal.
4. Analisis visual proses penaakulanAkhirnya, penulis secara intuitif menunjukkan keunggulan VoT melalui analisis kes. Seperti yang ditunjukkan dalam Rajah 8, kandungan video menunjukkan adegan kompleks "seorang jurulatih mengetuai anak anjing untuk bersaing merentasi pelbagai halangan", dan masalah yang diberikan adalah abstrak dan kompleks serta memerlukan akal dan bukannya hanya dilihat melalui video itu sendiri secara langsung. Keputusan eksperimen mendapati hanya sistem ini memberikan jawapan yang betul. Khususnya, pada tahap kesedaran kandungan, VoT memastikan pemahaman yang tepat dan mantap melalui penyetempatan video berasaskan STSG, menghalang ilusi mentafsir dengan betul bahawa haiwan itu ialah anjing dan kemudian membuat kesimpulan dari akal fikiran bahawa adegan itu melibatkan jurulatih melatih seekor anjing. Kemudian, pada tahap kognitif, ia menganalisis setiap pilihan untuk menentukan jawapan yang terbaik. Melalui pengesahan lanjut, keputusan adalah konsisten dengan kandungan video dan pemahaman akal tentang fakta. Secara keseluruhan, melalui penguraian masalah, penaakulan keseluruhan meningkatkan ketepatan pada setiap langkah sambil memastikan rasional yang boleh dijelaskan untuk keputusan proses.
Pengarang juga menyediakan lebih banyak analisis visual:
Atas ialah kandungan terperinci Rangka kerja penaakulan Video-Pemikiran yang pertama ada di sini: Penaakulan video yang komprehensif daripada persepsi kepada kognisi seperti manusia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!