Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Lei Jiahui, pelajar PhD di Jabatan Sains Komputer, Universiti Pennsylvania (2020 - sekarang), penyelianya ialah Profesor Kostas Daniilidis, utamanya sekarang hala tuju penyelidikan ialah adegan dinamik empat dimensi Perwakilan pemodelan geometri dan algoritma dengan aplikasi. Beliau telah menerbitkan 7 artikel sebagai pengarang pertama atau pengarang bersama dalam persidangan komputer dan pembelajaran mesin teratas (CVPR, NeurIPS, ICML, ECCV). Ijazah sarjana muda terdahulunya (2016-2020) lulus dari Jabatan Kawalan Universiti Zhejiang dan kelas campuran Kolej Zhu Kezhen dengan tempat pertama dalam jurusannya.
Membina semula adegan dinamik yang boleh ditukar daripada video monokular sewenang-wenangnya adalah perkara suci dalam penyelidikan penglihatan komputer. Dalam makalah ini, satu pasukan penyelidik dari University of Pennsylvania dan Stanford University cuba untuk mengambil langkah kecil ke arah matlamat ini.
Terdapat video monokular besar-besaran di Internet, yang mengandungi sejumlah besar maklumat tentang dunia fizikal Walau bagaimanapun, penglihatan 3D masih kekurangan cara yang berkesan untuk mengekstrak maklumat dinamik 3D daripada video ini untuk menyokong pemodelan model besar 3D dan Memahami dinamik. dunia fizikal. Walaupun penting, masalah songsang ini amat mencabar.
Pertama, video 2D tangkapan sebenar selalunya kekurangan maklumat berbilang paparan, jadi geometri berbilang paparan tidak boleh digunakan untuk pembinaan semula 3D Dalam kebanyakan kes, adalah mustahil untuk menyelesaikan pose kamera dan parameter dalaman melalui perisian sedia ada (. seperti COLMAP).
Kedua, tahap kebebasan adegan dinamik sangat tinggi, dan perwakilan empat dimensi ubah bentuk dan gabungan maklumat jangka panjangnya masih belum matang, menjadikan masalah songsang yang sukar ini lebih rumit.
Artikel ini mencadangkan sistem pemprosesan maklumat saraf novel - MoSca, yang hanya perlu menyediakan satu siri gambar bingkai video tanpa sebarang maklumat tambahan, dan boleh menjana video, filem dan klip siri TV daripada SORA , membina semula dinamik yang boleh ditukar adegan daripada video monokular dalam-liar daripada , video Internet dan set data awam.
, yang menaik taraf keluaran model asas di atas daripada dua dimensi kepada empat dimensi dan menggabungkannya, sambil turut menyepadukan fizik Inspired deformation regularization (ARAP) . Perancah gerakan empat dimensi ialah graf Setiap nod graf ialah rentetan lintasan gerakan badan tegar (SE (3)) Topologi graf ialah tepi jiran terdekat yang dibina dengan mengambil kira jarak antara jasad tegar lengkung trajektori gerakan secara global. Ubah bentuk pada mana-mana titik dalam ruang boleh diwakili dengan melicinkan trajektori badan tegar nod pada graf interpolasi dalam ruang-masa menggunakan dwi-quaternion. Perwakilan ini sangat memudahkan parameter gerakan yang perlu diselesaikan. (Lihat Bab 3.2 kertas untuk butiran). Satu lagi kelebihan besar perancah gerakan empat dimensi ialah ia boleh dimulakan secara langsung dengan kedalaman monokular dan penjejakan titik dua dimensi video, dan kemudian kedudukan titik oklusi yang tidak diketahui dan arah sistem koordinat tempatan boleh diselesaikan melalui cekap. pengoptimuman istilah biasa fizikal. Untuk butiran, sila rujuk Bab 3.3 kertas kerja Dengan perancah gerakan empat dimensi, sebarang titik pada bila-bila masa boleh diubah bentuk kepada sebarang masa sasaran, yang membolehkan maklumat pemerhatian digabungkan secara global. Khususnya, setiap bingkai video boleh diunjurkan kembali ke dalam ruang tiga dimensi menggunakan peta kedalaman anggaran dan dimulakan dengan Gaussian tiga dimensi (3DGS). Gaussians ini "terikat" pada perancah gerakan empat dimensi dan boleh ulang-alik secara bebas pada bila-bila masa. Jika anda ingin memaparkan adegan pada masa tertentu, anda hanya perlu memindahkan Gaussians semua momen global yang lain ke momen semasa melalui perancah empat dimensi untuk gabungan. Perwakilan pemandangan dinamik ini berdasarkan perancah gerakan empat dimensi dan Gaussian boleh dioptimumkan dengan cekap oleh pemapar Gaussian (lihat Bab 3.4 kertas untuk butiran). Akhir sekali, perlu dinyatakan bahawa Mosca adalah sistem yang tidak memerlukan parameter dalaman dan luaran kamera. Dengan menggunakan output ralat geometri epipolar oleh model asas yang disebutkan di atas untuk menentukan topeng latar belakang statik, dan menggunakan output penjejakan kedalaman dan titik oleh model asas, Mosca boleh mengoptimumkan ralat unjuran semula dengan cekap dan menyelesaikan pelarasan berkas global kepada output terus Parameter dalaman kamera dan pose, dan teruskan mengoptimumkan kamera melalui pemaparan berikutnya (lihat Bab 3.5 kertas untuk butiran). Hasil eksperimen Mosca boleh membina semula adegan dinamik dalam video dataset DAVIS. Perlu diingat bahawa Mosca menyokong berbilang pemapar berasaskan Gaussian secara fleksibel. Selain pemapar 3DGS asli, artikel ini juga menguji pemapar pembinaan semula permukaan Gaussian baru-baru ini (Medan Opacity Gaussian Seperti yang ditunjukkan dalam kereta api paling kanan dalam gambar, GOF boleh menjadikan kualiti yang lebih tinggi secara normal dan mendalam). Moska mencapai peningkatan ketara pada dataset IPhone DyCheck yang mencabar, sambil juga membandingkan kaedah lain pada dataset Nvidia yang boleh dibandingkan secara meluas.
Atas ialah kandungan terperinci Sama ada video sebenar atau AI, 'Mosca' boleh membina semula dan memulihkan adegan boleh render dinamik 4D.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!