Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio-AI-php.cn

Penglihatan dan pendengaran adalah penting dalam komunikasi manusia dan pemahaman adegan. Untuk meniru kebolehan persepsi manusia, pembelajaran audio-visual yang bertujuan untuk meneroka modaliti audio-visual telah menjadi bidang yang berkembang pesat dalam beberapa tahun kebelakangan ini. Artikel ini ialah ulasan pembelajaran audio-visual terkini "Pembelajaran dalam Konteks Audio-visual: Kajian, Analisis dan Tafsiran "Perspektif Baharu".

Semakan ini mula-mula menganalisis asas saintifik kognitif modaliti audio-visual, dan kemudian secara sistematik menganalisis dan meringkaskan kerja pembelajaran audio-visual terkini (hampir tiga ratus dokumen berkaitan) . Akhir sekali, untuk mengambil gambaran keseluruhan bidang pembelajaran visual-visual semasa, ulasan ini menyemak semula kemajuan pembelajaran visual-visual dalam beberapa tahun kebelakangan ini dari perspektif pemahaman pemandangan visual-visual dan meneroka arah pembangunan yang berpotensi dalam bidang ini.

Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio

pautan arXiv: https://arxiv.org/abs/2208.09579

Laman utama projek: https://gewu-lab.github.io/audio-visual-learning/

pautan senarai hebat: https://gewu-lab.github.io/awesome-audiovisual-learning/

1 Pengenalan

Penglihatan dan pendengaran Maklumat adalah sumber maklumat utama bagi manusia untuk melihat dunia luar. Otak manusia memperoleh kognisi keseluruhan persekitaran sekeliling dengan mengintegrasikan maklumat pelbagai mod yang heterogen. Sebagai contoh, dalam adegan pesta koktel dengan berbilang pembesar suara, kita boleh menggunakan perubahan dalam bentuk bibir untuk meningkatkan ucapan yang diterima daripada penceramah yang diminati. Oleh itu, pembelajaran visual dan audio amat diperlukan untuk penerokaan keupayaan persepsi mesin seperti manusia. Berbanding dengan modaliti lain, ciri-ciri modaliti audio-visual menjadikannya unik:

1) Asas kognitif. Sebagai dua deria yang paling banyak dikaji, integrasi penglihatan dan pendengaran ditemui di seluruh sistem saraf manusia. Di satu pihak, kepentingan kedua-dua deria ini dalam persepsi manusia menyediakan asas kognitif untuk penyelidikan persepsi mesin berdasarkan data audio-visual Sebaliknya, interaksi dan integrasi penglihatan dan pendengaran dalam sistem saraf boleh berfungsi sebagai a asas untuk menggalakkan pembelajaran visual-visual.

2) Pelbagai konsistensi. Dalam kehidupan seharian kita, penglihatan dan pendengaran berkait rapat. Seperti yang ditunjukkan dalam Rajah 1, kedua-dua salakan anjing dan penampilannya membolehkan kita mengaitkannya dengan konsep "anjing" (Ketekalan Semantik). Pada masa yang sama, kita boleh menentukan lokasi spatial tepat anjing itu dengan bantuan bunyi atau penglihatan yang didengar (Ketekalan Ruang). Dan apabila kita mendengar anjing menyalak, kita biasanya dapat melihat anjing itu secara visual pada masa yang sama (Konsistensi temporal). Perpaduan berbilang antara penglihatan dan pendengaran adalah asas penyelidikan tentang pembelajaran audiovisual.

3) Sokongan data yang kaya. Perkembangan pesat terminal mudah alih dan Internet telah mendorong lebih ramai orang untuk berkongsi video di platform awam, yang telah mengurangkan kos mengumpul video. Video awam yang kaya ini mengurangkan halangan kepada pemerolehan data dan menyediakan sokongan data untuk pembelajaran audio-visual.

Ciri-ciri modaliti visual dan audio ini secara semula jadi membawa kepada kelahiran bidang pembelajaran visual dan audio. Dalam tahun-tahun kebelakangan ini, bidang ini telah mencapai pembangunan yang pesat, dan penyelidik tidak lagi berpuas hati dengan hanya memperkenalkan modaliti tambahan ke dalam tugas modal tunggal asal, dan telah mula meneroka dan menyelesaikan masalah dan cabaran baharu.

Walau bagaimanapun, usaha pembelajaran audiovisual sedia ada selalunya berorientasikan tugas. Dalam karya ini, mereka menumpukan pada tugas audiovisual tertentu. Masih terdapat kekurangan kerja komprehensif yang mengkaji dan menganalisis secara sistematik perkembangan bidang pembelajaran audio-visual. Oleh itu, artikel ini meringkaskan bidang semasa pembelajaran audiovisual dan kemudian melihat lebih lanjut arah pembangunan potensinya.

Disebabkan hubungan rapat antara pembelajaran visual dan audio serta keupayaan persepsi manusia, artikel ini mula-mula meringkaskan asas kognitif modaliti visual dan pendengaran, dan kemudian atas dasar ini, Bahagikan audio- yang sedia ada. penyelidikan pembelajaran visual kepada tiga kategori:

1) Peningkatan Audio-visual. Data visual dan audio masing-masing mempunyai sejarah penyelidikan yang panjang dan pelbagai aplikasi. Walaupun kaedah satu-modal ini telah mencapai hasil yang agak berkesan, mereka hanya menggunakan sebahagian maklumat daripada perkara-perkara yang diminati, prestasi kaedah satu-modal adalah terhad, dan mereka mudah terdedah kepada bunyi satu-modal. Oleh itu, penyelidik memperkenalkan modaliti tambahan ke dalam tugas audio atau visual ini, yang bukan sahaja meningkatkan kesan model dengan menyepadukan maklumat pelengkap, tetapi juga menggalakkan keteguhan model.

2) Persepsi Rentas Modal. Manusia boleh mengaitkan gambar berkaitan apabila mendengar bunyi, dan juga boleh memikirkan bunyi yang sepadan apabila melihat gambar Ini kerana maklumat visual dan pendengaran adalah konsisten. Konsistensi ini menyediakan asas kepada mesin untuk memindahkan pengetahuan rentas modal atau menjana data yang sepadan dengan modaliti lain berdasarkan maklumat daripada satu modaliti. Oleh itu, banyak kajian telah ditumpukan untuk meneroka keupayaan persepsi silang modal dan telah mencapai keputusan yang luar biasa.

3) Kerjasama Audio-visual. Selain menggabungkan isyarat daripada modaliti yang berbeza, terdapat interaksi antara mod peringkat lebih tinggi di kawasan kortikal otak manusia untuk mencapai pemahaman adegan yang lebih mendalam. Oleh itu, keupayaan persepsi seperti manusia memerlukan penerokaan kerjasama antara modaliti audio dan video. Untuk mencapai matlamat ini, banyak kajian dalam beberapa tahun kebelakangan ini telah mencadangkan masalah pemahaman adegan yang lebih mencabar, yang telah mendapat perhatian yang meluas.

Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio

Rajah 1: Gambaran keseluruhan bidang ketekalan visual-visual dan pembelajaran visual-visual

Ketekalan antara modaliti audio dan video yang meliputi semantik, ruang dan masa memberikan kemungkinan untuk penyelidikan audio dan video di atas. Oleh itu, artikel ini, selepas merumuskan penyelidikan audiovisual terkini, menganalisis pelbagai koheren audiovisual. Di samping itu, artikel ini sekali lagi mengkaji kemajuan dalam bidang pembelajaran audio-visual daripada perspektif baharu pemahaman adegan audio-visual.

2 Asas kognisi visual dan audio

Penglihatan dan pendengaran ialah dua deria teras untuk pemahaman adegan manusia. Bab ini meringkaskan laluan saraf deria visual dan pendengaran dan integrasi modaliti visual dan audio dalam neurosains kognitif, meletakkan asas untuk perbincangan penyelidikan seterusnya dalam bidang pembelajaran visual dan audio.

2.1 Laluan saraf penglihatan dan pendengaran

Penglihatan ialah deria yang paling banyak dikaji, malah ada yang percaya bahawa ia menguasai persepsi manusia. Sejajar dengan itu, laluan saraf penglihatan juga agak kompleks. Cahaya yang dipantulkan daripada objek mengandungi maklumat visual, yang mengaktifkan banyak reseptor foto (kira-kira 260 juta) dalam retina. Keluaran fotoreseptor dihantar ke sel ganglion (kira-kira 2 juta). Proses ini memampatkan maklumat visual. Kemudian, selepas diproses oleh sel dalam nukleus geniculate sisi, maklumat visual akhirnya sampai ke kawasan berkaitan penglihatan korteks serebrum. Korteks visual ialah koleksi kawasan yang berbeza dari segi fungsi yang neuron visualnya mempunyai keutamaan. Sebagai contoh, neuron dalam V4 dan V5 masing-masing sensitif kepada warna dan gerakan.

Selain penglihatan, pendengaran juga merupakan deria penting untuk memerhati persekitaran sekeliling. Ia bukan sahaja mengingatkan manusia untuk mengelakkan risiko (contohnya, manusia akan mengambil tindakan aktif apabila mendengar jeritan binatang buas), tetapi juga menjadi asas kepada manusia untuk berkomunikasi antara satu sama lain. Gelombang bunyi ditukar kepada isyarat neuron pada gegendang telinga. Maklumat pendengaran kemudiannya dibawa ke kolikulus inferior dan nukleus koklea batang otak. Selepas diproses oleh nukleus geniculate medial talamus, bunyi akhirnya dikodkan dalam korteks pendengaran primer. Otak mengambil maklumat pendengaran dan menggunakan isyarat akustik yang terkandung di dalamnya, seperti frekuensi dan timbre, untuk menentukan identiti sumber bunyi. Pada masa yang sama, keamatan antara dua telinga dan perbezaan masa antara pendengaran memberikan petunjuk kepada lokasi bunyi, yang dipanggil kesan binaural. Secara praktiknya, persepsi manusia boleh menggabungkan pelbagai deria, terutamanya pendengaran dan penglihatan, yang dipanggil persepsi pelbagai saluran.

2.2 Integrasi Audio-Visual dalam Neurosains Kognitif

Setiap deria memberikan maklumat unik tentang persekitaran sekeliling. Walaupun maklumat yang diterima oleh pelbagai deria adalah berbeza, representasi persekitaran yang terhasil adalah pengalaman bersatu dan bukannya sensasi yang berasingan.

Contoh yang mewakili ialah kesan McGurk: isyarat visual dan isyarat pendengaran dengan semantik berbeza memperoleh maklumat semantik tunggal. Fenomena ini menunjukkan bahawa dalam persepsi manusia, isyarat daripada pelbagai deria sering disepadukan. Antaranya, persilangan laluan saraf pendengaran dan visual menggabungkan maklumat daripada dua deria manusia yang penting, menggalakkan kepekaan dan ketepatan persepsi Contohnya, maklumat visual yang berkaitan dengan bunyi boleh meningkatkan kecekapan pencarian ruang pendengaran.

Fenomena persepsi yang menggabungkan pelbagai maklumat deria telah menarik perhatian dalam bidang neurosains kognitif. Kawasan deria berbilang saluran yang dipelajari dengan baik dalam sistem saraf manusia ialah kolikulus unggul. Banyak neuron dalam kolikulus unggul mempunyai sifat multisensori dan boleh diaktifkan oleh maklumat daripada penglihatan, pendengaran, dan juga sentuhan. Tindak balas multisensori ini selalunya lebih kuat daripada satu tindak balas. Sulcus temporal unggul dalam korteks adalah satu lagi kawasan perwakilan.

Berdasarkan kajian pada monyet, ia telah diperhatikan untuk berhubung dengan pelbagai deria, termasuk penglihatan, pendengaran dan somatosensori. Kawasan otak selanjutnya, termasuk lobus parietal, lobus hadapan, dan hippocampus, mempamerkan fenomena persepsi berbilang saluran yang serupa. Berdasarkan penyelidikan tentang fenomena persepsi berbilang saluran, kita boleh melihat beberapa penemuan utama:

1) Penambahbaikan pelbagai mod. Seperti yang dinyatakan di atas, banyak neuron boleh bertindak balas kepada isyarat bercantum pelbagai deria Apabila rangsangan satu deria lemah, tindak balas yang dipertingkatkan ini lebih dipercayai daripada tindak balas mod tunggal.

2) Keplastikan silang modal. Fenomena ini bermakna kekurangan deria boleh menjejaskan perkembangan kawasan kortikal yang sepadan. Sebagai contoh, ada kemungkinan bahawa korteks berkaitan pendengaran orang pekak diaktifkan oleh rangsangan visual.

3) Kerjasama pelbagai modal. Terdapat penyepaduan isyarat yang lebih kompleks daripada deria berbeza di kawasan kortikal. Penyelidik telah menemui bahawa terdapat modul dalam korteks serebrum yang mempunyai keupayaan untuk mengintegrasikan maklumat multisensori secara kolaboratif untuk membina kesedaran dan kognisi.

Diinspirasikan oleh kognisi manusia, penyelidik telah mula mengkaji cara mencapai keupayaan persepsi visual dan audio seperti manusia, dan lebih banyak penyelidikan visual dan audio telah muncul secara beransur-ansur dalam beberapa tahun kebelakangan ini.

3 Peningkatan visual dan video

Walaupun setiap modaliti itu sendiri mempunyai maklumat yang agak mencukupi untuk pembelajaran, dan sudah terdapat banyak data Modal berasaskan tunggal tugasan, tetapi data mod tunggal hanya menyediakan maklumat setempat dan lebih sensitif kepada bunyi mod tunggal (contohnya, maklumat visual dipengaruhi oleh faktor seperti pencahayaan, sudut tontonan, dsb.). Oleh itu, diilhamkan oleh fenomena peningkatan multimodal dalam kognisi manusia, sesetengah penyelidik memperkenalkan data visual (atau audio) tambahan ke dalam tugas modal tunggal asal untuk meningkatkan prestasi tugas. Kami membahagikan tugas berkaitan kepada dua bahagian: pengenalan dan peningkatan.

Tugas pengecaman mod tunggal telah dikaji secara meluas pada masa lalu, seperti pengecaman pertuturan berasaskan audio dan pengecaman tindakan berasaskan penglihatan. Walau bagaimanapun, data mod tunggal hanya memerhati sebahagian daripada maklumat sesuatu dan terdedah kepada bunyi mod tunggal. Oleh itu, tugas pengecaman audio-visual, yang menyepadukan data berbilang mod untuk menggalakkan keupayaan dan keteguhan model, telah menarik perhatian dalam beberapa tahun kebelakangan ini dan merangkumi banyak aspek seperti pengecaman pertuturan, pengecaman pembesar suara, pengecaman tindakan dan pengecaman emosi.

Konsistensi modaliti audio dan video bukan sahaja menyediakan asas untuk tugas pengecaman berbilang modal, tetapi juga memungkinkan untuk menggunakan satu modaliti untuk meningkatkan isyarat modaliti yang lain. Contohnya, berbilang pembesar suara dipisahkan secara visual, jadi maklumat visual tentang pembesar suara boleh digunakan untuk membantu pemisahan pertuturan. Selain itu, maklumat audio boleh memberikan maklumat identiti seperti jantina dan umur untuk membina semula maklumat muka pembesar suara yang tidak jelas atau hilang. Fenomena ini telah memberi inspirasi kepada penyelidik untuk menggunakan maklumat daripada modaliti lain untuk denoising atau peningkatan, seperti peningkatan pertuturan, pemisahan sumber bunyi dan super-rekonstruksi muka.

Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio

Rajah 2: Tugas penambahbaikan video dan audio

4 Persepsi silang-modal

Fenomena keplastikan silang-modal dalam neurosains kognitif dan ketekalan antara modaliti audio dan video telah menggalakkan kajian persepsi silang-modal, yang bertujuan untuk mempelajari dan membina audio. perkaitan dengan modaliti visual telah membawa kepada penciptaan tugas seperti penjanaan rentas modal, pemindahan dan pengambilan semula.

Manusia mempunyai keupayaan untuk meramalkan maklumat yang sepadan dengan modaliti lain di bawah bimbingan modaliti yang diketahui. Sebagai contoh, tanpa mendengar bunyi, kita boleh membuat kesimpulan secara kasar apa yang dikatakan oleh orang itu hanya dengan melihat maklumat visual pergerakan bibir. Konsistensi semantik, spatial dan temporal antara audio dan penglihatan memberikan kemungkinan untuk mesin mempunyai keupayaan penjanaan rentas mod seperti manusia. Tugas penjanaan silang modal pada masa ini merangkumi banyak aspek termasuk penjanaan audio saluran tunggal, penjanaan stereo, penjanaan video/imej dan anggaran kedalaman.

Selain penjanaan silang-modal, ketekalan semantik antara audio dan video menunjukkan bahawa pembelajaran dalam satu modaliti dijangka dibantu oleh maklumat semantik daripada modaliti yang lain. Ini juga merupakan matlamat tugas pemindahan audiovisual. Di samping itu, ketekalan semantik audio dan video juga menggalakkan pembangunan tugas pencarian maklumat merentas modal.

Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio

Rajah 3: Tugasan berkaitan persepsi silang modal

5 Kolaborasi audio-visual

Otak manusia akan menyepadukan maklumat audio-visual adegan yang diterima, supaya mereka boleh bekerjasama dan saling melengkapi, seterusnya meningkatkan pemahaman adegan itu. Oleh itu, adalah perlu bagi mesin untuk mengejar persepsi seperti manusia dengan meneroka kerjasama audio-visual dan bukannya hanya menggabungkan atau meramalkan maklumat berbilang modal. Untuk tujuan ini, penyelidik telah memperkenalkan pelbagai cabaran baharu dalam bidang pembelajaran visual dan audio, termasuk analisis komponen visual dan audio serta penaakulan visual dan audio.

Pada permulaan kerjasama audio-visual, cara mengekstrak perwakilan secara berkesan daripada modaliti audio-visual tanpa anotasi manusia ialah topik penting. Ini kerana perwakilan berkualiti tinggi boleh menyumbang kepada pelbagai tugas hiliran. Untuk data audiovisual, konsistensi semantik, spatial dan temporal di antara mereka memberikan isyarat semula jadi untuk mempelajari perwakilan audiovisual dengan cara yang diselia sendiri.

Selain pembelajaran perwakilan, kerjasama antara modaliti audio dan video tertumpu terutamanya pada pemahaman adegan. Sesetengah penyelidik menumpukan pada analisis dan penyetempatan komponen visual dan audio dalam tempat kejadian, termasuk penyetempatan sumber bunyi, pengesanan kepentingan visual dan audio, navigasi visual dan audio, dsb. Tugas-tugas sedemikian mewujudkan perkaitan halus antara modaliti visual dan audio.

Selain itu, dalam banyak tugasan audio-visual, kami sering mengandaikan bahawa kandungan audio-visual dalam keseluruhan video sentiasa dipadankan dalam masa, iaitu, pada setiap titik dalam video. Pada setiap saat, gambar dan bunyi adalah konsisten. Tetapi sebenarnya, andaian ini tidak selalu dapat dipastikan. Contohnya, dalam sampel "bermain bola keranjang", kamera kadangkala merakam adegan seperti auditorium yang tiada kaitan dengan label "bermain bola keranjang." Oleh itu, tugas seperti penyetempatan dan analisis acara visual dan audio dicadangkan untuk mengupas lagi komponen visual dan audio dalam adegan dalam urutan temporal.

Manusia mampu membuat inferens di luar persepsi dalam adegan audio-visual. Walaupun tugasan kerjasama audio-visual di atas telah secara beransur-ansur mencapai pemahaman yang terperinci tentang adegan audio-visual, mereka tidak melakukan analisis inferensi bagi komponen audio-visual. Baru-baru ini, dengan perkembangan bidang pembelajaran visual-visual, beberapa pengkaji telah mula memberi perhatian lebih lanjut kepada penaakulan visual-visual, seperti menjawab soalan visual-visual dan tugasan dialog. Tugas-tugas ini bertujuan untuk melaksanakan penaakulan spatiotemporal silang mod tentang adegan audiovisual, menjawab soalan berkaitan adegan atau menjana dialog tentang adegan audiovisual yang diperhatikan.

Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio

Rajah 4: Tugasan yang berkaitan dengan kerjasama video dan audio

6 Set Data Perwakilan

Bahagian ini meringkaskan dan membincangkan beberapa set data perwakilan dalam bidang pembelajaran audio-visual.

Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio

7 Arah aliran dan perspektif baharu

7.1 Ketekalan semantik, ruang dan temporal

Walaupun modaliti audiovisual mempunyai bentuk data yang heterogen, ketekalan dalaman mereka meliputi aspek semantik, ruang dan temporal, meletakkan asas untuk penyelidikan audiovisual.

Pertama, modaliti visual dan audio menggambarkan perkara yang diminati daripada perspektif yang berbeza. Oleh itu, semantik data audiovisual dianggap konsisten secara semantik. Dalam pembelajaran visual-visual, konsistensi semantik memainkan peranan penting dalam kebanyakan tugas. Konsistensi ini memungkinkan, sebagai contoh, untuk menggabungkan maklumat visual dan audio untuk pengecaman visual dan audio yang lebih baik dan peningkatan mod tunggal. Selain itu, ketekalan semantik antara modaliti audio-visual juga memainkan peranan penting dalam pencarian semula modal dan pembelajaran pemindahan silang.

Kedua, kedua-dua visual dan audio boleh membantu menentukan lokasi spatial tepat objek yang berbunyi. Surat-menyurat spatial ini juga mempunyai pelbagai aplikasi. Contohnya, dalam tugas penyetempatan sumber bunyi, ketekalan ini digunakan untuk menentukan lokasi visual objek pemancar bunyi berpandukan audio input. Dalam kes stereo, maklumat kedalaman visual boleh dianggarkan berdasarkan audio binaural atau audio stereo boleh dijana menggunakan maklumat visual sebagai bantuan.

Akhir sekali, kandungan visual dan bunyi yang dihasilkannya selalunya konsisten sementara. Konsistensi ini juga dieksploitasi secara meluas dalam kebanyakan penyelidikan pembelajaran audiovisual, seperti menggabungkan atau meramalkan maklumat multimodal dalam pengecaman audiovisual atau tugas penjanaan.

Secara praktiknya, konsistensi audio-visual yang berbeza ini tidak diasingkan, tetapi sering berlaku bersama dalam adegan audio-visual. Oleh itu, mereka sering dieksploitasi secara bersama dalam tugas yang berkaitan. Gabungan konsistensi semantik dan temporal adalah kes yang paling biasa.

Dalam senario mudah, klip audio dan video pada cap masa yang sama dianggap konsisten dari segi semantik dan sementara. Walau bagaimanapun, andaian kuat ini mungkin gagal, contohnya, imej video dan bunyi latar belakang pada cap masa yang sama tidak konsisten dari segi semantik. Positif palsu ini mengganggu latihan.

Baru-baru ini, penyelidik telah mula menumpukan pada situasi ini untuk meningkatkan kualiti pemahaman adegan. Tambahan pula, gabungan konsistensi semantik dan ruang juga biasa. Contohnya, penyetempatan sumber bunyi yang berjaya dalam video bergantung pada ketekalan semantik untuk meneroka lokasi spatial visual yang sepadan berdasarkan bunyi input. Tambahan pula, semasa peringkat awal tugas navigasi audiovisual, sasaran vokal menghasilkan bunyi yang stabil dan berulang. Walaupun konsistensi spatial berpuas hati, kandungan semantik dalam visual dan audio tidak berkorelasi. Selepas itu, ketekalan semantik bunyi dan lokasi sebutan diperkenalkan untuk meningkatkan kualiti navigasi audio-visual.

Secara amnya, ketekalan semantik, ruang dan temporal modaliti visual dan audio memberikan sokongan padu untuk penyelidikan tentang pembelajaran visual dan audio. Analisis dan eksploitasi konsistensi ini bukan sahaja meningkatkan prestasi tugas audiovisual sedia ada tetapi juga menyumbang kepada pemahaman yang lebih baik tentang adegan audiovisual.

7.2 Perspektif baharu tentang pemahaman adegan

Artikel ini meringkaskan asas kognitif modaliti audio-visual dan menganalisis fenomena persepsi pelbagai saluran manusia Di sini Pada asasnya, penyelidikan pembelajaran audio-visual semasa dibahagikan kepada tiga kategori: Penggalak Audio-visual, Persepsi Rentas Modal dan Kerjasama Audio-visual. Untuk meninjau perkembangan semasa dalam bidang pembelajaran audio-visual daripada perspektif yang lebih makro, artikel itu seterusnya mencadangkan perspektif baharu tentang pemahaman adegan audio-visual:

1) Pemahaman asas adegan (Basic Scene Understanding). Tugas peningkatan audiovisual dan persepsi silang modal biasanya tertumpu pada menggabungkan atau meramalkan maklumat audiovisual yang konsisten. Teras tugasan ini ialah pemahaman asas adegan audio-visual (contohnya, klasifikasi tindakan video input.) atau ramalan maklumat rentas mod (contohnya, menjana audio yang sepadan berdasarkan video senyap.) Walau bagaimanapun, secara semula jadi. adegan Video selalunya mengandungi komponen visual dan audio yang pelbagai yang berada di luar skop tugas pemahaman adegan asas ini.

2) Pemahaman Adegan yang Berbutir Halus. Seperti yang dinyatakan di atas, adegan audio-visual biasanya mempunyai komponen yang kaya dengan modaliti yang berbeza. Oleh itu, penyelidik telah mencadangkan beberapa tugas untuk mengelupas komponen sasaran. Sebagai contoh, tugas penyetempatan sumber bunyi bertujuan untuk menandakan kawasan dalam penglihatan di mana objek penghasil bunyi sasaran berada. Tugasan penyetempatan dan analisis acara audio-visual menentukan sasaran acara boleh didengar atau acara kelihatan dalam siri masa. Tugas-tugas ini mengasingkan komponen audio-visual dan memisahkan adegan audio-visual, menghasilkan pemahaman yang lebih halus tentang adegan berbanding peringkat sebelumnya.

3) Pemahaman Adegan Sebab. Dalam adegan audio-visual, manusia bukan sahaja dapat melihat perkara yang menarik di sekeliling mereka, tetapi juga menyimpulkan interaksi antara mereka. Matlamat pemahaman adegan pada peringkat ini lebih dekat dengan mengejar persepsi seperti manusia. Pada masa ini, hanya beberapa misi yang diterokai pada peringkat ini. Tugasan menjawab soalan audio-visual dan dialog adalah karya yang mewakili. Tugasan ini cuba meneroka perkaitan komponen visual dan audio dalam video dan melakukan penaakulan spatiotemporal.

Secara umumnya, penerokaan ketiga-tiga peringkat ini adalah tidak sekata. Daripada pemahaman adegan asas kepada pemahaman adegan interaksi sebab, kepelbagaian dan kekayaan penyelidikan berkaitan secara beransur-ansur berkurangan Secara khususnya, pemahaman adegan interaksi sebab-akibat masih di peringkat awal. Ini mencadangkan beberapa arah pembangunan yang berpotensi untuk pembelajaran audio-visual:

1) Penyepaduan tugas. Kebanyakan penyelidikan dalam bidang audiovisual adalah berorientasikan tugas. Tugasan individu ini mensimulasikan dan mempelajari hanya aspek khusus adegan audiovisual. Walau bagaimanapun, pemahaman dan persepsi adegan audiovisual tidak berlaku secara berasingan. Sebagai contoh, tugasan penyetempatan sumber bunyi menekankan objek berkaitan bunyi dalam penglihatan, manakala penyetempatan peristiwa dan tugasan menghurai secara sementara mengenal pasti peristiwa sasaran. Kedua-dua tugas itu dijangka disepadukan untuk memudahkan pemahaman yang lebih baik tentang adegan audiovisual. Penyepaduan berbilang tugas pembelajaran audio-visual ialah hala tuju yang patut diterokai pada masa hadapan.

2) Pemahaman yang lebih mendalam tentang senario interaksi kausal. Pada masa ini, kepelbagaian penyelidikan mengenai pemahaman adegan yang melibatkan penaakulan masih terhad. Tugasan sedia ada, termasuk menjawab soalan audio-visual dan dialog, kebanyakannya menumpukan pada menjalankan dialog berdasarkan peristiwa dalam video. Jenis inferens yang lebih mendalam, seperti meramalkan peristiwa audio atau visual yang mungkin berlaku seterusnya berdasarkan adegan yang dipratonton, patut mendapat kajian lanjut pada masa hadapan.

Untuk mempersembahkan kandungan artikel dengan lebih baik, ulasan ini juga dilengkapi dengan laman utama projek yang dikemas kini secara berterusan, yang memaparkan matlamat dan pembangunan tugasan audio dan video yang berbeza dalam bentuk gambar, video dan banyak lagi , untuk pembaca memahami dengan cepat bidang pembelajaran audio-visual.

Atas ialah kandungan terperinci Melihat masa lalu dan masa depan pembelajaran multimodal dari perspektif visual dan audio. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!