Kaedah menukar imej kepada 3D biasanya menggunakan Pensampelan Penyulingan Skor (SDS) Walaupun hasilnya mengagumkan, masih terdapat beberapa kelemahan, termasuk ketidakkonsistenan berbilang paparan, terlalu tepu dan juga tekstur yang terlalu licin sebagai masalah seperti kelajuan penjanaan yang perlahan.
Untuk menyelesaikan masalah ini, penyelidik dari Universiti Peking, Universiti Nasional Singapura, Universiti Wuhan dan institusi lain mencadangkan Repaint123 untuk mengurangkan berat sebelah berbilang pandangan, degradasi tekstur dan mempercepatkan proses penjanaan.
Alamat kertas: https://arxiv.org/pdf/2312.13271.pdf
GitHub: https://github.com/PKU-YuanGroup3Project
1271 ://pku-yuangroup.github.io/repaint123/Idea teras adalah untuk menggabungkan keupayaan penjanaan imej model resapan 2D dengan keupayaan penjajaran tekstur untuk menghasilkan imej berbilang paparan berkualiti tinggi.
Pengarang seterusnya mencadangkan intensiti lukis semula penyesuaian yang sedar keterlihatan untuk meningkatkan kualiti imej yang dijana.
Imej konsisten berbilang paparan berkualiti tinggi yang dijana membolehkan penjanaan kandungan 3D pantas menggunakan kehilangan ralat min kuasa dua mudah (MSE).
Pengarang telah membuktikan secara eksperimen bahawa Repaint123 mampu menghasilkan kandungan 3D berkualiti tinggi dalam masa 2 minit, dengan konsistensi berbilang paparan dan tekstur yang halus. .
2. Penyebaran digunakan sebagai 2D sebelumnya dan kehilangan MSE dengan cepat memperhalusi tekstur mesh (1 minit).
3. Eksperimen yang meluas telah mengesahkan keberkesanan kaedah Repaint123, yang boleh menjana kandungan 3D yang sepadan dengan kualiti penjanaan 2D daripada satu imej dalam masa 2 minit sahaja. . bahagian: Penjanaan jujukan imej berkualiti tinggi yang konsisten daripada pelbagai perspektif dan pembinaan semula 3D yang pantas dan berkualiti tinggi.
Dalam peringkat model kasar, pengarang menggunakan 3D Gaussian Splatting sebagai perwakilan 3D, dan geometri dan tekstur model kasar dioptimumkan melalui kehilangan SDS.
Dalam peringkat penghalusan, pengarang menukar model kasar kepada perwakilan mesh dan mencadangkan skema lukisan semula penghalusan tekstur yang progresif dan boleh dikawal.
Pertama, pengarang melukis semula kawasan halimunan secara beransur-ansur berbanding paparan yang dioptimumkan sebelum ini melalui bimbingan kawalan geometri dan imej rujukan untuk mendapatkan imej paparan-konsisten paparan novel.
Kemudian, pengarang menggunakan petunjuk imej untuk panduan tanpa pengelas dan mereka bentuk strategi lukisan semula adaptif untuk meningkatkan lagi kualiti penjanaan kawasan bertindih.
Akhir sekali, dengan menghasilkan imej berkualiti tinggi yang konsisten paparan, pengarang memanfaatkan kehilangan MSE yang mudah untuk menjana kandungan 3D dengan cepat.
Penjanaan jujukan imej berkualiti tinggi yang konsisten berbilang paparan:
Seperti yang ditunjukkan dalam Rajah 2, penjanaan jujukan imej berkualiti tinggi yang konsisten berbilang paparan dibahagikan kepada empat bahagian berikut:
Rajah 2: Proses penjanaan imej yang konsisten daripada pelbagai perspektif
Penyongsangan DDIM
Untuk mengekalkan maklumat tekstur frekuensi rendah konsisten 3D yang dijana dalam peringkat model kasar, pengarang menggunakan Penyongsangan imej DDIM kepada terpendam tertentu untuk denoising berikutnya Jana imej yang setia dan konsisten sebagai asas.
Controlable Denoising
Untuk mengawal ketekalan geometri dan tekstur jarak jauh, dalam peringkat denoising, pengarang menggunakan ControlNet untuk memperkenalkan peta kedalaman rendering model kasar sebagai prior geometri, dan menyuntik ciri Perhatian imej rujukan untuk tekstur penghijrahan.
Pada masa yang sama, untuk melaksanakan bimbingan tanpa Pengelas untuk meningkatkan kualiti imej, kertas itu menggunakan CLIP untuk mengekodkan imej rujukan ke dalam rangkaian penyahtanda segera imej.
Dapatkan Topeng Oklusi
Untuk mendapatkan topeng oklusi Mn dari paparan novel imej yang diberikan Dalam dan peta kedalaman Dn, memandangkan paparan rujukan lukis semula Vr dari Ir dan Dr, pengarang Pertama , dengan menggunakan Dr kedalaman untuk menskalakan piksel 2D dari Vr ke awan titik 3D, dan kemudian memaparkan awan titik 3D Pr dari perspektif baharu Vn, peta kedalaman Dn' diperolehi.
Pengarang menganggap kawasan yang mempunyai nilai kedalaman berbeza antara dua peta kedalaman paparan novel (Dn dan Dn') sebagai kawasan oklusi dalam topeng oklusi.
Mengecat Semula Oklusi dan Bertindih Secara Berperingkat
Untuk memastikan kawasan bertindih jujukan imej dan imej bersebelahan diselaraskan pada tahap piksel, pengarang menggunakan strategi pengecatan semula setempat yang progresif kawasan tidak berubah Menjana kawasan bersebelahan yang harmoni, dan seterusnya dari perspektif rujukan kepada 360°.
Namun, seperti yang ditunjukkan dalam Rajah 3, penulis mendapati bahawa kawasan bertindih juga perlu diperhalusi, kerana resolusi visual kawasan yang sebelum ini strabismus menjadi lebih besar apabila menghadap terus, dan lebih banyak maklumat frekuensi tinggi perlu ditambah. .
Untuk memilih keamatan penipisan yang sesuai untuk memastikan kesetiaan sambil meningkatkan kualiti, penulis menggunakan teorem unjuran dan idea resolusi super imej untuk mencadangkan strategi lukisan semula sedar keterlihatan yang mudah dan langsung untuk memperhalusi kawasan bertindih, dan keamatan penghalusan adalah sama dengan 1-cosθ* (dengan θ* ialah sudut maksimum antara semua sudut kamera sebelumnya dan vektor normal permukaan yang dilihat), dengan itu melukis semula kawasan bertindih secara adaptif. . menggunakan perwakilan Gaussian Splatting untuk menjana geometri yang munasabah dan tekstur kasar Pada masa yang sama, dengan jujukan imej berkualiti tinggi yang konsisten di atas dari pelbagai perspektif, pengarang dapat menggunakan kehilangan MSE yang mudah untuk pembinaan semula tekstur 3D yang cepat. . kesan paling maju dari segi , kualiti dan kelajuan.
Perbandingan visual generasi 3D paparan tunggal
Perbandingan kuantitatif generasi 3D paparan tunggal
Pada masa yang sama , penulis juga menggunakan Keberkesanan setiap modul dan kenaikan putaran sudut tontonan adalah eksperimen yang dikurangkan:
Atas ialah kandungan terperinci Teknologi baharu Repaint123: Menjana 3D paparan tunggal berkualiti tinggi dengan cekap dalam masa 2 minit sahaja!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!