Sama ada video sebenar atau AI, 'Mosca' boleh membina semula dan memulihkan adegan boleh render dinamik 4D.-AI-php.cn

Sama ada video sebenar atau AI, 'Mosca' boleh membina semula dan memulihkan adegan boleh render dinamik 4D.

WBOY

Lepaskan： 2024-06-22 07:09:52

asal

720 orang telah melayarinya

Sama ada video sebenar atau AI, Mosca boleh membina semula dan memulihkan adegan boleh render dinamik 4D.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Lei Jiahui, pelajar PhD di Jabatan Sains Komputer, Universiti Pennsylvania (2020 - sekarang), penyelianya ialah Profesor Kostas Daniilidis, utamanya sekarang hala tuju penyelidikan ialah adegan dinamik empat dimensi Perwakilan pemodelan geometri dan algoritma dengan aplikasi. Beliau telah menerbitkan 7 artikel sebagai pengarang pertama atau pengarang bersama dalam persidangan komputer dan pembelajaran mesin teratas (CVPR, NeurIPS, ICML, ECCV). Ijazah sarjana muda terdahulunya (2016-2020) lulus dari Jabatan Kawalan Universiti Zhejiang dan kelas campuran Kolej Zhu Kezhen dengan tempat pertama dalam jurusannya.

Membina semula adegan dinamik yang boleh ditukar daripada video monokular sewenang-wenangnya adalah perkara suci dalam penyelidikan penglihatan komputer. Dalam makalah ini, satu pasukan penyelidik dari University of Pennsylvania dan Stanford University cuba untuk mengambil langkah kecil ke arah matlamat ini.

Terdapat video monokular besar-besaran di Internet, yang mengandungi sejumlah besar maklumat tentang dunia fizikal Walau bagaimanapun, penglihatan 3D masih kekurangan cara yang berkesan untuk mengekstrak maklumat dinamik 3D daripada video ini untuk menyokong pemodelan model besar 3D dan Memahami dinamik. dunia fizikal. Walaupun penting, masalah songsang ini amat mencabar.

Pertama, video 2D tangkapan sebenar selalunya kekurangan maklumat berbilang paparan, jadi geometri berbilang paparan tidak boleh digunakan untuk pembinaan semula 3D Dalam kebanyakan kes, adalah mustahil untuk menyelesaikan pose kamera dan parameter dalaman melalui perisian sedia ada (. seperti COLMAP).
Kedua, tahap kebebasan adegan dinamik sangat tinggi, dan perwakilan empat dimensi ubah bentuk dan gabungan maklumat jangka panjangnya masih belum matang, menjadikan masalah songsang yang sukar ini lebih rumit.

Artikel ini mencadangkan sistem pemprosesan maklumat saraf novel - MoSca, yang hanya perlu menyediakan satu siri gambar bingkai video tanpa sebarang maklumat tambahan, dan boleh menjana video, filem dan klip siri TV daripada SORA , membina semula dinamik yang boleh ditukar adegan daripada video monokular dalam-liar daripada , video Internet dan set data awam.

Sama ada video sebenar atau AI, Mosca boleh membina semula dan memulihkan adegan boleh render dinamik 4D.

Alamat ArXiv: https://arxiv.org/pdf/2405.17421
Kod (akan menjadi sumber terbuka dalam masa terdekat): www.github.com/MoJiahui
/MoJiahui

Gambaran Keseluruhan Kaedah

Untuk mengatasi kesukaran di atas, Mosca mula-mula menggunakan pengetahuan sedia ada yang kukuh yang disimpan dalam model asas penglihatan komputer untuk mengurangkan ruang penyelesaian masalah.

Khususnya, Mosca menggunakan model anggaran kedalaman metrik monokular UniDepth, video sebarang titik penjejakan jangka panjang (jejak sebarang titik) model CoTracker dan anggaran aliran optik (aliran optik) ) Ralat geometri epipolar (ralat epipolar) dikira oleh model RAFT, dan ciri semantik yang disediakan oleh model semantik pra-terlatih DINO-v2. Lihat Bab 3.1 kertas untuk butiran Kami mendapati bahawa kebanyakan ubah bentuk dinamik dunia sebenar adalah padat dan jarang, dan kerumitannya selalunya jauh lebih rendah daripada struktur geometri sebenar. Sebagai contoh, gerakan objek keras boleh diwakili oleh putaran dan terjemahan, dan gerakan seseorang boleh dianggarkan secara kasar dengan putaran dan terjemahan pelbagai sendi. Sama ada video sebenar atau AI, Mosca boleh membina semula dan memulihkan adegan boleh render dinamik 4D.

Berdasarkan pemerhatian ini, artikel ini mencadangkan

perwakilan adegan dinamik kompak novel - Perancah Gerakan 4D

, yang menaik taraf keluaran model asas di atas daripada dua dimensi kepada empat dimensi dan menggabungkannya, sambil turut menyepadukan fizik Inspired deformation regularization (ARAP) .

Perancah gerakan empat dimensi ialah graf Setiap nod graf ialah rentetan lintasan gerakan badan tegar (SE (3)) Topologi graf ialah tepi jiran terdekat yang dibina dengan mengambil kira jarak antara jasad tegar lengkung trajektori gerakan secara global. Ubah bentuk pada mana-mana titik dalam ruang boleh diwakili dengan melicinkan trajektori badan tegar nod pada graf interpolasi dalam ruang-masa menggunakan dwi-quaternion. Perwakilan ini sangat memudahkan parameter gerakan yang perlu diselesaikan. (Lihat Bab 3.2 kertas untuk butiran).

Satu lagi kelebihan besar perancah gerakan empat dimensi ialah ia boleh dimulakan secara langsung dengan kedalaman monokular dan penjejakan titik dua dimensi video, dan kemudian kedudukan titik oklusi yang tidak diketahui dan arah sistem koordinat tempatan boleh diselesaikan melalui cekap. pengoptimuman istilah biasa fizikal. Untuk butiran, sila rujuk Bab 3.3 kertas kerja

Dengan perancah gerakan empat dimensi, sebarang titik pada bila-bila masa boleh diubah bentuk kepada sebarang masa sasaran, yang membolehkan maklumat pemerhatian digabungkan secara global. Khususnya, setiap bingkai video boleh diunjurkan kembali ke dalam ruang tiga dimensi menggunakan peta kedalaman anggaran dan dimulakan dengan Gaussian tiga dimensi (3DGS). Gaussians ini "terikat" pada perancah gerakan empat dimensi dan boleh ulang-alik secara bebas pada bila-bila masa. Jika anda ingin memaparkan adegan pada masa tertentu, anda hanya perlu memindahkan Gaussians semua momen global yang lain ke momen semasa melalui perancah empat dimensi untuk gabungan. Perwakilan pemandangan dinamik ini berdasarkan perancah gerakan empat dimensi dan Gaussian boleh dioptimumkan dengan cekap oleh pemapar Gaussian (lihat Bab 3.4 kertas untuk butiran).

Akhir sekali, perlu dinyatakan bahawa Mosca adalah sistem yang tidak memerlukan parameter dalaman dan luaran kamera. Dengan menggunakan output ralat geometri epipolar oleh model asas yang disebutkan di atas untuk menentukan topeng latar belakang statik, dan menggunakan output penjejakan kedalaman dan titik oleh model asas, Mosca boleh mengoptimumkan ralat unjuran semula dengan cekap dan menyelesaikan pelarasan berkas global kepada output terus Parameter dalaman kamera dan pose, dan teruskan mengoptimumkan kamera melalui pemaparan berikutnya (lihat Bab 3.5 kertas untuk butiran).

Hasil eksperimen

Mosca boleh membina semula adegan dinamik dalam video dataset DAVIS. Perlu diingat bahawa Mosca menyokong berbilang pemapar berasaskan Gaussian secara fleksibel. Selain pemapar 3DGS asli, artikel ini juga menguji pemapar pembinaan semula permukaan Gaussian baru-baru ini (Medan Opacity Gaussian Seperti yang ditunjukkan dalam kereta api paling kanan dalam gambar, GOF boleh menjadikan kualiti yang lebih tinggi secara normal dan mendalam).

Moska mencapai peningkatan ketara pada dataset IPhone DyCheck yang mencabar, sambil juga membandingkan kaedah lain pada dataset Nvidia yang boleh dibandingkan secara meluas.

Atas ialah kandungan terperinci Sama ada video sebenar atau AI, 'Mosca' boleh membina semula dan memulihkan adegan boleh render dinamik 4D.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!