Dalam bidang grafik komputer, segi tiga mesh ialah cara utama untuk mewakili objek geometri 3D, dan ia juga kaedah ekspresi sumber 3D yang paling biasa digunakan dalam permainan, filem dan antara muka realiti maya. Industri biasanya menggunakan jerat segi tiga untuk mensimulasikan permukaan objek kompleks, seperti bangunan, kenderaan, haiwan, dll. Pada masa yang sama, transformasi geometri biasa, pengesanan geometri, pemaparan dan lorekan juga perlu dilakukan berdasarkan jerat segi tiga Berbanding dengan perwakilan bentuk 3D lain seperti awan titik atau voxel, jerat segi tiga menyediakan permukaan yang lebih koheren dikawal, lebih mudah untuk dikendalikan, lebih padat dan boleh digunakan secara langsung dalam saluran paip pemaparan moden, mencapai kualiti visual yang lebih tinggi dengan primitif yang lebih sedikit medan digunakan untuk menjana model 3D ini juga perlu ditukar kepada jerat melalui pemprosesan pasca untuk digunakan dalam aplikasi hiliran, seperti menggunakan algoritma Kiub Kawad untuk pemprosesan isosurface
Malangnya, pendekatan ini boleh membawa kepada jerat yang terlalu padat dan bersirat terlalu halus, selalunya dengan ralat beralun yang disebabkan oleh terlalu licin dan isosurfacing, seperti yang ditunjukkan di bawah:
Sebagai perbandingan, jerat 3D yang dimodelkan oleh profesional pemodelan 3D lebih padat dalam perwakilan sambil mengekalkan butiran yang jelas dengan lebih sedikit segi tiga.
Ramai penyelidik telah lama berharap dapat menyelesaikan tugas menghasilkan jejaring segi tiga secara automatik untuk memudahkan lagi proses penghasilan aset 3D.
Dalam kertas kerja baru-baru ini,
penyelidik mencadangkan penyelesaian baharu: MeshGPT, yang secara langsung menjana perwakilan mesh sebagai satu set segi tiga.
Pautan kertas boleh didapati di: https://nihalsid.github.io/mesh-gpt/static/MeshGPT.pdf
Diinspirasikan oleh model penjanaan bahasa Transformer, mereka mengguna pakai model penjanaan bahasa Kaedah penjanaan jujukan terus, mensintesis jalinan segi tiga kepada jujukan segi tiga
Mengikuti paradigma penjanaan teks, penyelidik mula-mula mempelajari perbendaharaan kata segi tiga, dan segi tiga telah dikodkan sebagai benam terkuantiti terpendam. Untuk menggalakkan pembenaman segi tiga yang dipelajari untuk mengekalkan ciri geometri dan topologi tempatan, kami menggunakan pengekod konvolusi graf. Pembenaman segi tiga ini kemudiannya dinyahkod oleh penyahkod ResNet, yang memproses jujukan token yang mewakili segi tiga untuk menjana koordinat bucu bagi segi tiga. Akhir sekali, penyelidik melatih seni bina berasaskan GPT berdasarkan perbendaharaan kata yang dipelajari untuk menjana urutan segi tiga secara automatik yang mewakili mesh, dan mencapai kelebihan tepi yang jelas dan kesetiaan yang tinggi.
Percubaan merentas berbilang kategori pada set data ShapeNet menunjukkan bahawa
MeshGPT meningkatkan kualiti jejaring 3D yang dijana dengan ketaraberbanding teknik sedia ada, dengan peningkatan purata 9% dalam liputan bentuk dan skor FID yang lebih baik.
Di platform media sosial, MeshGPT juga telah menyebabkan perbincangan hangat:
Seseorang pernah berkata: "Ini adalah idea yang benar-benar revolusioner." daripada kaedah ini ialah ia mengatasi halangan terbesar kaedah pemodelan 3D yang lain, iaitu keupayaan menyunting.
Ada yang berani meramalkan mungkin semua masalah yang belum selesai sejak tahun 1990-an boleh diilhamkan oleh Transformer:
Terdapat juga pengguna yang terlibat dalam industri berkaitan pengeluaran 3D/filem yang telah menyatakan kebimbangan mengenai kerjaya mereka:
Namun, sesetengah orang menunjukkan bahawa mengikut contoh generasi kertas, kaedah ini masih Ia belum sampai ke peringkat aplikasi berskala besar. Seorang pemodel profesional benar-benar boleh mencipta jerat ini dalam masa kurang daripada 5 minit
Pengulas ini mencadangkan bahawa langkah seterusnya mungkin adalah untuk meminta LLM mengawal penjanaan benih 3D dan menambah model imej ke bahagian Autoregressive seni bina. Selepas mencapai tahap ini, penghasilan aset 3D untuk permainan dan adegan lain boleh diautomasikan secara besar-besaran.
Seterusnya, mari kita lihat butiran penyelidikan kertas MeshGPT.
Diinspirasikan oleh kemajuan model bahasa yang besar, para penyelidik membangunkan kaedah berasaskan urutan untuk menjana jejaring segi tiga secara autoregresif sebagai jujukan segi tiga. Kaedah ini menghasilkan jerat yang bersih, koheren dan padat dengan tepi yang tajam dan kesetiaan yang tinggi.
Para penyelidik mula-mula mempelajari pembenaman perbendaharaan kata geometri daripada sejumlah besar jerat objek 3D untuk dapat mengekod dan menyahkod segi tiga. Kemudian, berdasarkan perbendaharaan kata benam yang dipelajari, Transformer untuk penjanaan grid dilatih dengan cara autoregresif untuk ramalan indeks.
Untuk mempelajari perbendaharaan kata segi tiga, para penyelidik menggunakan pengekod konvolusi graf yang beroperasi pada segi tiga mesh dan kawasan kejiranan mereka untuk mengekstrak ciri geometri yang kaya dan menangkap butiran kompleks bentuk 3D. Ciri-ciri ini dikuantisasi sebagai Membenamkan dalam buku kod melalui pengkuantitian sisa, dengan berkesan mengurangkan panjang jujukan perwakilan grid. Selepas mengisih, maklumat terbenam ini dinyahkod oleh ResNet satu dimensi berpandukan kehilangan pembinaan semula. Peringkat ini meletakkan asas untuk latihan Transformer seterusnya.
Seterusnya, penyelidik menggunakan benam geometri terkuantasi ini untuk melatih pengubah penyahkod tulen yang serupa dengan GPT. Mereka melakukan ini dengan mengekstrak jujukan benam geometri dalam segi tiga mesh dan melatih pengubah untuk meramalkan indeks buku kod pembenaman seterusnya dalam jujukan
Selepas latihan, pengubah boleh membuat sampel secara autoregresif untuk meramalkan jujukan benam dan kemudian menyahkod benam ini, menjana struktur jala baru dan pelbagai yang mempamerkan segi tiga yang cekap dan tidak teratur serupa dengan jerat yang ditarik oleh manusia.
MeshGPT menggunakan pengekod lilitan graf untuk memproses permukaan jejaring, menggunakan maklumat kejiranan geometri untuk menangkap ciri kukuh yang mewakili butiran kompleks bentuk 3D, dan kemudian menggunakan kaedah pengkuantitian baki ini untuk mengkuantifikasikan ciri ini. pembenaman buku kod. Pendekatan ini memastikan kualiti pembinaan semula yang lebih baik berbanding pengkuantitian vektor mudah. Berpandukan kehilangan pembinaan semula, MeshGPT menyusun dan menyahkod benam terkuantasi melalui ResNet.
Kajian ini menggunakan model Transformer untuk menjana jujukan grid sebagai indeks token daripada perpustakaan perbendaharaan kata buku kod yang telah terlatih. Semasa latihan, pengekod imej mengekstrak ciri daripada permukaan jejaring dan mengkuantiskannya ke dalam satu set benam permukaan. Pembenaman ini dijubin, ditandakan dengan token mula dan tamat, dan kemudian dimasukkan ke dalam model Transformer jenis GPT yang diterangkan di atas. Penyahkod dioptimumkan dengan kehilangan entropi silang, meramalkan indeks buku kod berikutnya untuk setiap pembenaman
Kajian menjalankan eksperimen membandingkan MeshGPT dengan kaedah penjanaan jejaring biasa, termasuk:
Selain itu, kajian itu membandingkan MeshGPT dengan kaedah SOTA berasaskan medan saraf GET3D.
Seperti yang ditunjukkan dalam Rajah 6, Rajah 7 dan Jadual 1, MeshGPT mengatasi kaedah asas dalam kesemua 4 kategori. MeshGPT boleh menghasilkan jerat yang tajam dan padat dengan butiran geometri yang lebih halus.
Secara khusus, berbanding dengan Polygen, MeshGPT boleh menghasilkan bentuk dengan butiran yang lebih kompleks, dan Polygen lebih berkemungkinan mengumpul ralat semasa membuat inferens, AtlasNet sering mengalami artifak lipatan, mengakibatkan kepelbagaian dan kualiti bentuk Penggunaan BSPNet lebih rendah; pokok cenderung menghasilkan bentuk berhalangan dengan corak triangulasi yang luar biasa; GET3D menghasilkan struktur bentuk aras tinggi yang baik, tetapi dengan terlalu banyak segi tiga dan satah yang tidak sempurna.
Seperti yang ditunjukkan dalam Jadual 2, kajian ini juga membolehkan pengguna menilai kualiti mesh yang dijana oleh MeshGPT yang lebih baik dari segi kualiti MeshGPT dan triang daripada AtlasNet, Polygen dan BSPNet. Kebanyakan pengguna memilih kualiti bentuk (68%) dan kualiti triangulasi (73%) yang dihasilkan oleh MeshGPT berbanding GET3D.
Kandungan yang ditulis semula ialah: bentuk novel. Seperti yang ditunjukkan dalam Rajah 8, MeshGPT dapat menjana bentuk baharu di luar set data latihan, memastikan model melakukan lebih daripada sekadar mendapatkan semula bentuk sedia ada
pelengkapan bentuk. Seperti yang ditunjukkan dalam Rajah 9 di bawah, MeshGPT juga boleh membuat kesimpulan berbilang penyiapan yang mungkin berdasarkan bentuk setempat yang diberikan dan menjana pelbagai hipotesis bentuk.
Atas ialah kandungan terperinci Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!