Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang pertama kertas kerja ialah Chen Jiahao, pelajar sarjana tahun kedua di Sekolah Sains Komputer, Sun Yat-sen Arah penyelidikannya ialah rendering saraf dan pembinaan semula tiga dimensi. Kertas itu adalah karya pertamanya. Penulis kertas kerja yang sepadan ialah Profesor Li Guanbin dari Pusat Pengajian Sains Komputer dan Makmal Integrasi Pintar Objek-Mesin-Manusia Universiti Sun Yat-sen, seorang penyelia kedoktoran dan pemenang Dana Belia Cemerlang Negara. Bidang penyelidikan utama pasukan ialah persepsi visual, pemodelan adegan, pemahaman dan penjanaan. Sehingga kini, beliau telah menerbitkan lebih daripada 150 makalah CCF Kategori A/CAS Kawasan 1, yang telah dipetik oleh Google Scholar lebih daripada 12,000 kali Beliau telah memenangi penghormatan seperti Wu Wenjun Artificial Intelligence Outstanding Award. Sejak ia dicadangkan, Neural Radiance Fields (NeRF) telah mendapat perhatian yang besar kerana prestasi cemerlangnya dalam sintesis perspektif baharu dan pembinaan semula tiga dimensi. Walaupun banyak kerja sedang cuba untuk meningkatkan kualiti rendering atau kelajuan larian NeRF, masalah praktikal jarang disebut: Jika gangguan sementara yang tidak dijangka muncul di tempat kejadian untuk dimodelkan, kami Bagaimana untuk menghapuskan kesannya terhadap NeRF? Dalam artikel ini, penyelidik dari Universiti Sun Yat-sen, Universiti Cardiff, Universiti Pennsylvania dan Teknologi Simou menjalankan penyelidikan mendalam mengenai perkara ini dan mencadangkan paradigma baru untuk menyelesaikan masalah ini. Dengan meringkaskan kelebihan dan kekurangan kaedah sedia ada dan meluaskan idea aplikasi teknologi sedia ada, kaedah ini bukan sahaja dapat membezakan unsur statik dan sementara dengan tepat dalam pelbagai adegan serta meningkatkan kualiti rendering NeRF, tetapi juga telah disenarai pendek untuk Calon Kertas Terbaik CVPR 2024.
- Pautan kertas: https://arxiv.org/abs/2403.17537
- Pautan projek: https://www.sysu-hcp.net/projects/cv/132.html
Mari kita sama-sama memahami kerja ini.
Pengenalan latar belakang
Sintesis perspektif baharu ialah tugas penting dalam penglihatan dan grafik komputer Model algoritma perlu menggunakan imej berbilang paparan dan pose kamera untuk menghasilkan imej yang sepadan dengan sasaran. . NeRF telah mencapai kejayaan penting dalam tugas ini, tetapi keberkesanannya berkaitan dengan andaian adegan statik.
Secara khusus, NeRF memerlukan adegan yang dimodelkan kekal pegun semasa proses penggambaran dan kandungan imej berbilang paparan mestilah konsisten. Pada hakikatnya, sukar untuk kita memenuhi keperluan ini Contohnya, apabila merakam di luar, kenderaan atau orang yang lalu lalang di luar tempat kejadian mungkin bergerak secara rawak dalam kanta, dan apabila merakam di dalam rumah, objek atau bayang-bayang mungkin secara tidak sengaja menghalang lensa. Kami memanggil elemen yang mempamerkan gerakan atau ketidakkonsistenan di luar jenis pemandangan ini sebagai pengalih sementara. Jika kita tidak dapat menghapuskannya, mereka akan memperkenalkan artifak ke dalam hasil pemaparan NeRF.
(Kewujudan gangguan sementara (kotak kuning) boleh menyebabkan sejumlah besar pseudohadoscopy. Kaedah semasa untuk menyelesaikan masalah gangguan sementara boleh dibahagikan secara kasar kepada dua jenis.
Kaedah pertama menggunakan model segmentasi sedia ada seperti segmentasi semantik untuk mendapatkan topeng yang berkaitan dengan pengalih secara eksplisit, dan kemudian menutup piksel yang sepadan apabila melatih NeRF. Walaupun kaedah sedemikian boleh menghasilkan keputusan pembahagian yang tepat, ia tidak universal. Ini kerana kita perlu mengetahui pengetahuan terdahulu yang berkaitan dengan gangguan (seperti kategori objek, topeng awal, dll.) terlebih dahulu, dan model boleh mengenal pasti gangguan ini. Berbeza daripada kaedah pertama,
kaedah kedua menggunakan algoritma heuristik untuk secara tersirat mengendalikan gangguan sementara semasa melatih NeRF dan tidak memerlukan pengetahuan awal. Walaupun kaedah sedemikian adalah lebih umum, kaedah tersebut tidak dapat mengasingkan pengalih sementara dan elemen adegan statik dengan tepat kerana kerumitan reka bentuk dan tahap kecelaruan yang tinggi. Sebagai contoh, oleh kerana tekstur warna yang sepadan dengan piksel sementara tidak konsisten pada sudut tontonan yang berbeza, baki warna antara nilai ramalan dan nilai sebenar piksel ini selalunya lebih besar daripada baki piksel statik semasa melatih NeRF. Walau bagaimanapun, butiran statik frekuensi tinggi dalam tempat kejadian juga akan mempunyai sisa yang berlebihan kerana kesukaran dalam pemasangan, jadi beberapa kaedah yang menghilangkan gangguan sementara dengan menetapkan ambang baki boleh kehilangan butiran statik frekuensi tinggi dengan mudah. Perbandingan antara kaedah sedia ada dan segmentasi berpandu heuristik (HuGS) yang dicadangkan dalam kertas ini. Apabila adegan statik diganggu oleh pengalih sementara, (a) kaedah berasaskan segmentasi bergantung pada pengetahuan sedia ada dan akan mengalami artifak berkaitan kerana ketidakupayaan untuk mengenal pasti objek sementara yang tidak dijangka (seperti pizza (b) kaedah berasaskan heuristik The kaedah lebih umum tetapi tidak cukup tepat (cth. tekstur alas meja statik frekuensi tinggi hilang);
Overview Kaedah -kaedah berdasarkan model segmentasi adalah tepat tetapi tidak universal, dan kaedah berdasarkan algoritma heuristik adalah sejagat tetapi tidak tepat. menebus kelebihan masing-masing dan menebusnya Adakah ia tepat dan universal? . Dengan bijak menggabungkan heuristik rekaan tangan dan model segmentasi dipacu kiu, HuGS boleh membezakan dengan tepat antara pengalih sementara dan unsur statik dalam adegan tanpa pengetahuan awal tambahan. Secara khusus, HuGS mula-mula menggunakan algoritma heuristik untuk membezakan secara kasar unsur-unsur sementara statik dalam imej berbilang paparan dan mengeluarkan isyarat kasar, dan kemudian menggunakan isyarat kasar untuk membimbing model segmentasi untuk menjana topeng segmentasi yang lebih tepat. Apabila melatih NeRF, topeng ini akan digunakan untuk melindungi piksel sementara dan menghapuskan kesan gangguan sementara pada NeRF. idea reka bentuk HuGS.
Dari segi pelaksanaan khusus, pengarang kertas memilih Model Segmen Anything (SAM) sebagai model segmentasi HuGS. SAM ialah model pembahagian terdorong segera yang paling maju, yang boleh menerima pelbagai jenis input segera seperti titik, kotak dan topeng serta mengeluarkan topeng pembahagian contoh yang sepadan.
Bagi algoritma heuristik, penulis mencadangkan heuristik gabungan selepas analisis mendalam: heuristik berdasarkan Structure-from-Motion (SfM) digunakan untuk menangkap butiran statik frekuensi tinggi tempat kejadian , manakala heuristik berdasarkan A warna sisa heuristik digunakan untuk menangkap butiran statik frekuensi rendah. Output topeng statik kasar oleh dua heuristik adalah berbeza antara satu sama lain, dan kesatuan mereka digunakan untuk membimbing SAM kepada topeng statik yang lebih tepat. Dengan menggabungkan kedua-dua heuristik ini dengan lancar, HuGS boleh mengenal pasti pelbagai jenis elemen statik dengan mantap apabila berhadapan dengan butiran tekstur yang berbeza-beza.
Carta alir HuGS. (a) Memandangkan imej berbilang paparan yang tidak tertib dalam pemandangan statik dengan gangguan sementara, HuGS mula-mula memperoleh dua maklumat heuristik. (b) Algoritma heuristik berasaskan SfM menggunakan SfM untuk mendapatkan perbezaan antara titik ciri statik dan titik ciri sementara titik ciri statik dan titik ciri sementara, dan kemudian menggunakan titik ciri statik panduan SAM Hasilkan topeng statik padat. (c) Heuristik berasaskan sisa warna bergantung pada NeRF yang sebahagiannya dilatih (iaitu, dilatih dengan hanya beberapa ribu lelaran). Sisa warna antara imej yang diramalkan dan imej sebenar boleh digunakan untuk menjana satu lagi set topeng statik. (d) Gabungan dua topeng berbeza akhirnya membimbing SAM untuk menghasilkan (e) topeng statik yang tepat untuk setiap imej. Algoritma heuristik berasaskan SfMSfM ialah teknologi yang membina semula struktur tiga dimensi daripada imej dua dimensi Selepas mengekstrak ciri 2D imej, SfM melakukan pemadanan dan pengesahan geometri pada ciri tersebut dan membina semula awan titik 3D yang jarang. SfM sering digunakan untuk menganggarkan pose kamera imej dalam NeRF, dan pengarang kertas kerja mendapati bahawa
SfM juga boleh digunakan untuk membezakan unsur statik dan sementara adegan. Dengan mengandaikan bahawa bilangan padanan untuk titik ciri dua dimensi tertentu ialah bilangan titik ciri dua dimensi lain yang sepadan dengan titik awan titik tiga dimensi yang sama, maka bilangan padanan untuk titik ciri dua dimensi dari kawasan statik adalah lebih besar daripada bilangan mata padanan dari kawasan sementara. Berdasarkan penemuan ini, kami boleh menetapkan ambang pada bilangan padanan untuk menapis titik ciri statik, dan kemudian menggunakan SAM untuk menukar titik ciri statik kepada topeng statik. Untuk mengesahkan ketepatan penemuan ini, pengarang kertas kerja menjalankan statistik pada set data Kubric. Seperti yang ditunjukkan dalam rajah di bawah, terdapat perbezaan yang ketara dalam bilangan padanan titik ciri dalam kawasan imej yang berbeza. Visualisasi lain menunjukkan bahawa tetapan ambang munasabah boleh mengalih keluar titik ciri sementara sambil mengekalkan titik ciri statik. Gambar kiri ialah histogram bilangan nombor padanan titik ciri dari kawasan imej yang berbeza Bilangan padanan titik ciri kawasan statik diagihkan sama rata dalam selang [0,200], manakala ciri kawasan sementara. mata Bilangan padanan menghampiri 0 dan tertumpu dalam selang [0,10]. Gambar di sebelah kanan ialah carta lengkung ketumpatan titik ciri baki dalam kawasan imej yang berbeza selepas penapisan apabila ambang berubah Ketumpatan titik ciri baki keseluruhan imej dan kawasan statik berkurangan secara linear apabila ambang meningkat, manakala ciri baki. ketumpatan titik kawasan sementara berkurangan secara linear dan menjadi hampir 0 selepas ambang lebih daripada 0.2. Pengagihan visual titik ciri yang tinggal bagi dua imej daripada perspektif berbeza apabila ambang meningkat. Baki titik ciri yang terletak di kawasan sementara dikeluarkan secara beransur-ansur, manakala kebanyakan titik ciri dalam kawasan statik masih dikekalkan. Heuristik Berasaskan Sisa Warna 🎜Walaupun heuristik berasaskan SfM berprestasi baik dalam kebanyakan adegan, ia tidak dapat menangkap ciri-ciri Smooth yang statik dengan baik, ini adalah tekstur licin yang sukar. diiktiraf oleh algoritma pengekstrakan ciri SfM. 🎜🎜🎜🎜🎜Untuk dapat mengenal pasti tekstur frekuensi rendah, pengarang kertas kerja memperkenalkan algoritma heuristik berdasarkan sisa warna: mula-mula sebahagiannya melatih NeRF pada imej berbilang paparan asal (iaitu, hanya mengulangi beribu-ribu kali), dapatkan model yang tidak sesuai, dan kemudian Dapatkan baki warna antara imej yang diberikan dan imej sasaran. Seperti yang dinyatakan dalam pengenalan latar belakang, baki warna kawasan tekstur statik frekuensi rendah adalah lebih kecil daripada baki jenis kawasan lain, jadi ambang boleh ditetapkan pada sisa warna untuk mendapatkan topeng kasar yang berkaitan dengan tekstur statik frekuensi rendah. . Topeng yang diperolehi oleh sisa warna boleh dilengkapkan dengan topeng yang diperolehi oleh SfM untuk membentuk hasil yang lengkap. 🎜🎜🎜🎜Gabungan dua algoritma heuristik, dengan (a) ialah imej sasaran input, (d) ialah hasil pemaparan NeRF daripada lima ribu lelaran sahaja. Topeng statik (b) yang terhasil daripada heuristik berasaskan SfM menangkap butiran statik frekuensi tinggi (seperti tekstur kotak) manakala tiada bahagian licin statik (seperti sandaran kerusi putih). Topeng statik (e) yang diperoleh daripada heuristik berasaskan sisa warna dan topeng segmentasinya (f) yang diperoleh daripada SAM berpandu sahaja mencapai kesan yang bertentangan. Kesatuan mereka (c) membezakan pengacau sementara (iaitu belon merah jambu) sambil meliputi semua unsur statik.
Here are shown the visual segmentation process of HuGS in two different real scenes, and the baseline model Mip-NeRF 360 when applying static mask Perbandingan hasil pemaparan sebelum dan selepas filem. Dengan bantuan gabungan heuristik dan SAM, HuGS boleh menjana topeng statik yang tepat, manakala Mip-NeRF 360 menghapuskan sejumlah besar artifak selepas menggunakan topeng statik, dan kualiti pemaparan RGB dan peta kedalaman dipertingkatkan dengan ketara.
Perbandingan hasil rendering kualitatif/kuantitatifDi sini ditunjukkan keputusan percubaan kaedah kertas pada tiga set data dan dua model garis dasar, serta perbandingan dengan kaedah sedia ada. Kaedah sedia ada sama ada gagal untuk menghapuskan artifak yang disebabkan oleh gangguan sementara atau memadam terlalu banyak butiran tekstur statik. Sebaliknya, kaedah kami boleh mengekalkan butiran statik dengan lebih baik sambil menghapuskan artifak dengan berkesan.
Perbandingan hasil segmentasi kualitatif/kuantitatifPengarang kertas kerja juga membandingkannya dengan algoritma segmentasi sedia ada pada dataset Kubric. Keputusan percubaan menunjukkan bahawa walaupun pengetahuan sedia ada diberikan, model segmentasi sedia ada seperti segmentasi semantik dan segmentasi video masih berprestasi lemah kerana tiada model segmentasi sedia ada direka untuk tugas ini. Walaupun kaedah berasaskan heuristik sedia ada secara kasar boleh mengesan lokasi pengganggu sementara, mereka tidak dapat memperoleh hasil pembahagian yang lebih tepat. Sebaliknya, HuGS mengasingkan pengalih sementara dan elemen pemandangan statik dengan tepat tanpa pengetahuan awal tambahan dengan menggabungkan algoritma heuristik dan model segmentasi.
Pengarang kertas itu juga mengesahkan kesan setiap komponen pada HuGS dengan mengalih keluar komponen yang berbeza. Keputusan menunjukkan bahawa model (b) kekurangan heuristik berasaskan SfM tidak membina semula tekstur statik frekuensi rendah dalam kotak biru dengan baik, manakala model (c) dan (d) tidak mempunyai heuristik berasaskan sisa warna kehilangan warna kuning. warna Butiran statik frekuensi tinggi dalam kotak. Sebagai perbandingan, kaedah penuh (f) memberikan metrik berangka dan hasil visualisasi yang terbaik.
Kertas ini mencadangkan paradigma segmentasi berpandukan heuristik novel, yang secara berkesan menyelesaikan masalah gangguan sementara biasa dalam latihan kehidupan sebenar NeRF. Dengan menggabungkan secara strategik kekuatan pelengkap heuristik rekaan tangan dan model segmentasi tercanggih, kaedah ini mencapai pembahagian pengalih sementara yang sangat tepat dalam adegan yang pelbagai tanpa sebarang pengetahuan terlebih dahulu. Melalui heuristik yang direka dengan teliti, kaedah kami mampu menangkap elemen adegan statik frekuensi tinggi dan rendah dengan mantap. Sebilangan besar eksperimen telah membuktikan kemajuan kaedah ini. Atas ialah kandungan terperinci Calon kertas terbaik CVPR |. Terobosan baharu dalam NeRF, menggunakan segmentasi berpandukan heuristik untuk menghapuskan gangguan sementara tanpa pengetahuan awal tambahan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!