Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Penulis kertas kerja ini termasuk Yang Runyi, pelajar sarjana di Imperial College London, Zhu Zhenxin, pelajar tahun kedua sarjana Bei Universiti, dan Zhu Zhenxin, pelajar sarjana tahun kedua di Institut Teknologi Beijing Sheng Jiang Zhou, Ye Baijun, pelajar sarjana tahun empat di Institut Teknologi Beijing, Zhang Yifei, pelajar sarjana tahun ketiga di Universiti Cina Akademi Sains, Zhao Jian, pengarah Makmal Pembelajaran Kognitif Multimedia (EVOL Lab) Institut Penyelidikan Kecerdasan Buatan Telekom China, Penolong Profesor Institut Penyelidikan Industri Pintar Universiti Tsinghua (AIR) Zhao Hao dan lain-lain.
Baru-baru ini, 3D Gaussian Splatting (3DGS), sebagai kaedah perwakilan 3D yang baru, telah menarik perhatian kerana kelajuan pemaparan pantas dan kualiti pemaparan yang tinggi. Walau bagaimanapun, pendekatan ini juga datang dengan penggunaan memori yang tinggi, contohnya, medan Gaussian yang terlatih mungkin menggunakan lebih daripada tiga juta primitif Gaussian dan lebih daripada 700 MB memori.
Baru-baru ini, Imperial College London, Beihang University, Beijing Institute of Technology, University of Chinese Academy of Sciences, China Telecom Artificial Intelligence Research Institute Makmal Pembelajaran Kognitif Multimedia (EVOL Lab), Institut Penyelidikan Industri Pintar Universiti Tsinghua (AIR) dan institusi lain Para penyelidik bersama-sama menerbitkan makalah "SUNDAE: Spectrally Pruned Gaussian Fields with Neural Compensation". Dalam kertas kerja, kami mencadangkan medan Gaussian cekap ingatan bernama SUNDAE menggunakan pemangkasan spektrum dan pampasan saraf
Pautan artikel: https://arxiv.org/abs/2405.00676Laman utama projek: https://runyiyang.github.io/projects/
一Di satu pihak, kami membina graf berdasarkan maklumat spatial bagi primitif Gaussian untuk mensimulasikan hubungan antara mereka, dan mereka bentuk modul pensampelan rendah berdasarkan pemprosesan isyarat graf untuk dipangkas sambil mengekalkan isyarat yang dikehendaki. Sebaliknya, untuk mengimbangi kemerosotan kualiti yang disebabkan oleh pemangkasan, kami menggunakan rangkaian saraf ringan untuk menggabungkan ciri pemaparan, secara berkesan mengimbangi kemerosotan kualiti sambil menangkap perhubungan antara primitif dalam pemberatnya.
Kami menunjukkan prestasi SUNDAE dengan hasil yang meluas. Sebagai contoh, pada set data Mip-NeRF360, SUNDAE boleh mencapai 26.80 PSNR dan 145 FPS menggunakan memori 104 MB, manakala algoritma 3D Gaussian Splatting standard mencapai 25.60 PSNR dan 160 FPS menggunakan memori 523 MB.
Pada masa yang sama, sejak sumber terbukanya, SUNDAE telah mendapat perhatian antarabangsa yang meluas, dan telah dimajukan dan diikuti oleh komuniti NeRF yang terkenal MrNeRF, penyelenggara komuniti penyelidikan AI Ahsen Khaliq, dan ramai penyelidik dalam bidang berkaitan.
1. Pemangkasan spektrum Medan Gaussian dengan pampasan saraf
1.1 Strategi pemangkasan berasaskan spektrogram diwakili oleh satu set Adegan primitif Gaussian, Sejak ini primitif diedarkan secara tidak teratur dalam, ruang tiga dimensi, kami mencadangkan pendekatan berasaskan graf untuk menangkap hubungan antara primitif, bukannya menggunakan struktur konvensional seperti grid. Secara khusus, kami menggunakan teori pemprosesan isyarat graf untuk memperoleh strategi pensampelan optimum yang boleh mengekalkan maklumat spektrum tertentu berdasarkan isyarat graf. Dengan mengawal lebar jalur spektrum, kami boleh mengawal nisbah pemangkasan secara fleksibel dan memodelkan hubungan antara primitif Gaussian. Seperti yang ditunjukkan dalam Rajah 1(c), kita boleh mengawal pemangkasan 90% daripada primitif Gaussian tanpa merendahkan kualiti rendering. Rajah 1: (a) Hasil lelaran 3DGS 7k; (b) Hasil lelaran 3DGS 30k Lebih banyak primitif Gaussian digunakan untuk mewakili pemandangan tiga dimensi, jadi kualitinya lebih tinggi, kelajuannya lebih perlahan, dan ruang storan adalah Lebih Besar; (c) 90% primitif Gaussian dipangkas, yang sangat mengurangkan ruang penyimpanan, tetapi mencapai kesan rendering yang serupa. Kami menggunakan pusat primitif Gaussian sebagai input isyarat pada graf, dan jarak antara primitif Gaussian sebagai tepi graf Matriks bersebelahan graf boleh dinyatakan sebagai . dengan
ialah Titik tengah unsur Gaussian,
ialah parameter super ambang , ialah varians matriks jarak. Iaitu, jika jarak antara dua primitif Gaussian adalah lebih kecil daripada ambang, maka kami mewujudkan tepi graf di antara mereka. Selepas mewujudkan matriks bersebelahan graf, kita boleh memproses isyarat pada graf mengikut penapis seperti Haar untuk mendapatkan isyarat graf dalam jalur frekuensi tertentu. Akhir sekali, pemangkasan dilakukan berdasarkan isyarat jalur frekuensi yang dikehendaki Dalam artikel ini, kami menggunakan penapis henti jalur untuk mengekalkan isyarat frekuensi tinggi yang mewakili butiran objek dan isyarat frekuensi rendah titik latar belakang. 1.2 Mekanisme Pampasan Neural
Selepas pemangkasan spektrum, kualiti rendering pasti akan berkurangan kerana terlalu banyak primitif Gaussian digunakan untuk menyelesaikan masalah ini kehilangan kualiti, seperti yang ditunjukkan dalam Rajah 2.
Kami menukar daripada Gaussian Splatting kepada Feature Splatting, memperkenalkan rangkaian neural convolutional ringan untuk mengeluarkan primitif Gaussian yang dipetakan kepada nilai RGB pada imej, dengan itu menggabungkan maklumat daripada primitif yang berbeza. Ini membolehkan pemberat rangkaian pampasan secara tidak langsung menangkap hubungan antara primitif dalam ruang imej dua dimensi.
Figure 2: 3DG asal yang ditunjukkan di sebelah kiri memerlukan sejumlah besar ruang penyimpanan kerana ia tidak menangkap hubungan antara primitif; menunjukkan pampasan saraf menggunakan ciri 2D untuk meningkatkan pemaparan.
Khususnya, daripada memaparkan imej RGB secara langsung seperti 3DGS, kami memperoleh peta ciri melalui rasterizer boleh dibezakan untuk Gaussian 3D, yang menukar ciri Gaussian 3D Unjuran kepada peta ciri dua dimensi.
Kemudian, kami menggunakan rangkaian saraf ringan untuk memodelkan hubungan antara primitif dan mengimbangi kemerosotan kualiti selepas pemangkasan spektrum. Rangkaian ini terdiri daripada U-Net konvolusi penuh empat lapisan dengan sambungan langkau, yang mengagregatkan maklumat daripada primitif yang berbeza. Gunakan pengumpulan purata untuk pensampelan rendah dan interpolasi dwilinear untuk pensampelan naik imej. Rangkaian mengambil peta ciri raster sebagai input dan output imej RGB.
Rangka kerja keseluruhan SUNDAE ditunjukkan dalam Rajah 3 di bawah. Rajah 3: (a) Saluran Paip: Untuk medan Gaussian 3D terlatih, strategi pemangkasan berasaskan graf digunakan untuk mengurangkan sampel unsur Gaussian, dan rangkaian saraf konvolusi digunakan untuk mengimbangi kerugian yang disebabkan oleh pemangkasan. (b) Pemangkasan berasaskan graf: Graf berdasarkan hubungan ruang antara primitif Gaussian digunakan untuk pemangkasan. Dengan menggunakan penapis henti jalur, proses ini memudahkan pengekstrakan maklumat terperinci daripada komponen frekuensi tinggi sambil menangkap ciri umum bahagian frekuensi rendah, menghasilkan perwakilan menyeluruh dan cekap bagi keseluruhan pemandangan. . , Pemangkasan berterusan melibatkan penyingkiran nombor tertentu atau bahagian primitif secara berkala pada selang masa yang telah ditetapkan sepanjang proses latihan. Pendekatan ini bertujuan untuk mengawal bilangan primitif maksimum secara berterusan apabila melatih medan Gaussian 3D, dengan itu mengurangkan keperluan memori puncak semasa latihan dan membenarkan latihan pada peranti GPU dengan memori GPU rendah.
Pengalaman menunjukkan bahawa kelebihan memori puncak yang lebih rendah datang dengan mengorbankan kawalan jejak memori akhir yang lebih lemah. Sebagai contoh, jika kita memangkas 20% primitif setiap 2000 lelaran, keadaan penumpuan akhir medan Gaussian 3D mungkin menyimpang daripada pengurangan 20% yang dijangkakan. Selain itu, variasi ini mungkin berbeza mengikut senario, menambahkan kerumitan kepada kebolehramalan dan konsistensi kesan pemangkasan. Oleh itu, kami menganggap strategi pemangkasan berterusan sebagai alternatif apabila perlu. 2.1 Hasil kuantitatif yang kami bandingkan dengan algoritma 3R-R dan RF yang canggih DGS, model kami Serupa keputusan boleh dicapai dengan menggunakan hanya 10% daripada memori, dan boleh melebihi 3DGS asal dengan menggunakan 30% atau 50% daripada memori. Dan ia jauh melebihi algoritma lain yang berkaitan dengan NeRF dari segi FPS.
Ini kerana model kami boleh menangkap hubungan antara primitif Gaussian dengan lebih baik dan menggunakan lebih sedikit primitif Gaussian untuk mewakili pemandangan tiga dimensi dengan cekap.
Seperti yang dapat dilihat dalam keputusan kualitatif, kami membandingkan keputusan kualitatif SUNDAE dengan 3DGS dan InstantNGP pada kadar pensampelan 1% dan 10% Keputusan kualitatif menunjukkan bahawa SUNDAE mampu mencapai kualiti sintesis perspektif baharu yang serupa sambil menggunakan hanya 10% atau 1% penggunaan memori. Graf berjaya membina hubungan antara primitif, manakala kepala pampasan saraf dengan berkesan mengekalkan kualiti pemaparan. Dan seperti yang dapat dilihat dari baris keempat dan terakhir Rajah 5, pemangkasan spektrum mampu mengalihkan objek terapung dekat dengan kamera.
2.3.1 Penapis henti jalur
Nisbah bagi parameter henti jalur diwakili Khususnya, semasa proses pemangkasan berasaskan graf, kami mencuba beberapa primitif, termasuk bahagian tertentu () laluan tinggi dan baki (1-) laluan rendah.
Hasilnya menunjukkan bahawa parameter ini mempunyai kesan yang ketara ke atas kualiti rendering, dengan nisbah 50% memberikan hasil terbaik, manakala penekanan yang tidak seimbang pada isyarat frekuensi rendah atau tinggi membawa kepada penurunan kualiti, sebagai nisbah 50% Ia mengekalkan butiran frekuensi tinggi yang seimbang dan latar belakang frekuensi rendah, jadi kesannya lebih baik.
2.3.2 Rangkaian Pampasan
Seperti yang ditunjukkan dalam Rajah 6 dan Jadual 2, kami menunjukkan kepentingan rangkaian pampasan secara kualitatif dan kuantitatif. Seperti yang ditunjukkan dalam Jadual 2, menggunakan pampasan saraf menunjukkan prestasi yang lebih baik berbanding tidak menggunakannya pada semua kadar persampelan. Ini disokong lagi oleh hasil visualisasi yang dibentangkan dalam Rajah 6, menunjukkan keupayaan modul untuk mengimbangi kemerosotan prestasi yang disebabkan oleh pemangkasan spektrum. Pada masa yang sama, ia juga terbukti bahawa hubungan antara primitif ditangkap dengan baik.
Seperti yang ditunjukkan dalam Jadual 3, kami mencuba saiz rangkaian pampasan yang berbeza, dan meningkatkan saiz rangkaian tidak semestinya meningkatkan kualiti pemaparan, yang konsisten dengan penemuan ADOP, yang menunjukkan arah aliran yang sama. Kami menggunakan 30MB UNet 4 peringkat sebagai tetapan lalai untuk keseimbangan kualiti dan memori yang terbaik.
2.3.3 Lebih banyak titik persampelan Seperti yang ditunjukkan dalam Jadual 1 di atas, mengekalkan 50% daripada primitif adalah lebih baik daripada 3DGS asal dari segi kualiti pemaparan. Kami juga menguji pengekalan 80% dan mengekalkan semua primitif untuk mengkaji cara kadar persampelan mempengaruhi keputusan akhir, seperti yang ditunjukkan dalam Jadual 4. Hasilnya menunjukkan bahawa mengekalkan 80% daripada primitif meningkatkan kualiti rendering, menunjukkan peningkatan dari segi LPIPS, tetapi sedikit peningkatan visual dalam PSNR dan SSIM. Mengekalkan semua primitif (dan latihan untuk lebih banyak zaman) tidak meningkatkan kualiti lagi, yang juga menunjukkan kepentingan memodelkan hubungan primitif. Tanpa pemodelan hubungan yang berkesan, lebih banyak primitif menyukarkan model untuk menumpu, dan sebilangan besar primitif mempunyai kesan negatif terhadap perwakilan adegan. Selain itu, matlamat kami adalah untuk mengimbangi kualiti pemaparan dengan kecekapan storan, bagaimanapun, meningkatkan storan kepada 620MB untuk mengekalkan 80% daripada primitif hanya menghasilkan sedikit peningkatan kualiti, sekali gus mengurangkan kecekapan storan.
2.3.4 Strategi persampelan berterusan Kami menguji strategi pensampelan berterusan pada senario Basikal dan Kaunter dalam set data MipNeRF360, menetapkan lelaran selang pemangkasan dan pemangkasan yang berbeza Seperti yang ditunjukkan dalam Jadual 5, Mata ialah bilangan primitif selepas latihan, dan Nisbah ialah nisbah anggaran bilangan primitif selepas latihan kepada 3DGS asal. Hasilnya menunjukkan bahawa strategi ini boleh mengurangkan memori puncak, tetapi sukar untuk mengawal ingatan akhir (dicerminkan oleh Mata dan Nisbah). Oleh itu, kami mengesahkan strategi pemangkasan selepas latihan kami tetapi masih menyediakan strategi pemangkasan berterusan sebagai alternatif dalam kotak alat sumber terbuka kami.
2.3.5 Penilaian Kecekapan Lihat Jadual 6 untuk butiran tentang masa latihan, memori CUDA, kadar bingkai pemaparan dan storan ROM. Perlu diingat bahawa versi "Ours-50%" mencapai kualiti pemaparan terbaik dalam masa latihan yang boleh diterima (1.41 jam), sambil mencapai pemaparan masa nyata dan mengurangkan penggunaan memori CUDA dan penyimpanan ROM semasa latihan .
Dalam kerja ini, kami mencadangkan medan Gaussian yang dipangkas spektrum baru dengan pampasan saraf, dengan memperkenalkan pemprosesan isyarat graf, untuk mencampurkan hubungan antara Gaussian primisian maklumat primitif yang berbeza untuk mengimbangi kehilangan maklumat yang disebabkan oleh pemangkasan. Kami menggunakan maklumat spatial antara primitif Gaussian untuk membina graf untuk memodelkan perhubungan, dan memangkas berdasarkan maklumat spektrum untuk membuang primitif yang berlebihan. Rangkaian saraf ringan digunakan untuk mengimbangi kehilangan kualiti persembahan yang tidak dapat dielakkan selepas pemangkasan. Hasil eksperimen menunjukkan bahawa SUNDAE mengurangkan ingatan dengan ketara, meningkatkan kecekapan dan mengekalkan kualiti pemaparan ketelitian tinggi sambil mengekalkan kecekapan 3DGS. Atas ialah kandungan terperinci Ucapkan selamat tinggal kepada algoritma Gaussian Splatting 3D, pemangkasan spektrum Gaussian field SUNDAE dengan pampasan saraf adalah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!