Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner-AI-php.cn

Dalam bidang grafik komputer, segi tiga mesh ialah cara utama untuk mewakili objek geometri 3D, dan ia juga kaedah ekspresi sumber 3D yang paling biasa digunakan dalam permainan, filem dan antara muka realiti maya. Industri biasanya menggunakan jerat segi tiga untuk mensimulasikan permukaan objek kompleks, seperti bangunan, kenderaan, haiwan, dll. Pada masa yang sama, transformasi geometri biasa, pengesanan geometri, pemaparan dan lorekan juga perlu dilakukan berdasarkan jerat segi tiga Berbanding dengan perwakilan bentuk 3D lain seperti awan titik atau voxel, jerat segi tiga menyediakan permukaan yang lebih koheren dikawal, lebih mudah untuk dikendalikan, lebih padat dan boleh digunakan secara langsung dalam saluran paip pemaparan moden, mencapai kualiti visual yang lebih tinggi dengan primitif yang lebih sedikit medan digunakan untuk menjana model 3D ini juga perlu ditukar kepada jerat melalui pemprosesan pasca untuk digunakan dalam aplikasi hiliran, seperti menggunakan algoritma Kiub Kawad untuk pemprosesan isosurface

Malangnya, pendekatan ini boleh membawa kepada jerat yang terlalu padat dan bersirat terlalu halus, selalunya dengan ralat beralun yang disebabkan oleh terlalu licin dan isosurfacing, seperti yang ditunjukkan di bawah:

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Sebagai perbandingan, jerat 3D yang dimodelkan oleh profesional pemodelan 3D lebih padat dalam perwakilan sambil mengekalkan butiran yang jelas dengan lebih sedikit segi tiga.

Ramai penyelidik telah lama berharap dapat menyelesaikan tugas menghasilkan jejaring segi tiga secara automatik untuk memudahkan lagi proses penghasilan aset 3D.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner Dalam kertas kerja baru-baru ini,

penyelidik mencadangkan penyelesaian baharu: MeshGPT, yang secara langsung menjana perwakilan mesh sebagai satu set segi tiga.

Pautan kertas boleh didapati di: https://nihalsid.github.io/mesh-gpt/static/MeshGPT.pdf

Diinspirasikan oleh model penjanaan bahasa Transformer, mereka mengguna pakai model penjanaan bahasa Kaedah penjanaan jujukan terus, mensintesis jalinan segi tiga kepada jujukan segi tiga

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner Mengikuti paradigma penjanaan teks, penyelidik mula-mula mempelajari perbendaharaan kata segi tiga, dan segi tiga telah dikodkan sebagai benam terkuantiti terpendam. Untuk menggalakkan pembenaman segi tiga yang dipelajari untuk mengekalkan ciri geometri dan topologi tempatan, kami menggunakan pengekod konvolusi graf. Pembenaman segi tiga ini kemudiannya dinyahkod oleh penyahkod ResNet, yang memproses jujukan token yang mewakili segi tiga untuk menjana koordinat bucu bagi segi tiga. Akhir sekali, penyelidik melatih seni bina berasaskan GPT berdasarkan perbendaharaan kata yang dipelajari untuk menjana urutan segi tiga secara automatik yang mewakili mesh, dan mencapai kelebihan tepi yang jelas dan kesetiaan yang tinggi.

Percubaan merentas berbilang kategori pada set data ShapeNet menunjukkan bahawa

MeshGPT meningkatkan kualiti jejaring 3D yang dijana dengan ketara

berbanding teknik sedia ada, dengan peningkatan purata 9% dalam liputan bentuk dan skor FID yang lebih baik.

Di platform media sosial, MeshGPT juga telah menyebabkan perbincangan hangat:

Seseorang pernah berkata: "Ini adalah idea yang benar-benar revolusioner." daripada kaedah ini ialah ia mengatasi halangan terbesar kaedah pemodelan 3D yang lain, iaitu keupayaan menyunting.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Ada yang berani meramalkan mungkin semua masalah yang belum selesai sejak tahun 1990-an boleh diilhamkan oleh Transformer:

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Terdapat juga pengguna yang terlibat dalam industri berkaitan pengeluaran 3D/filem yang telah menyatakan kebimbangan mengenai kerjaya mereka:

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Namun, sesetengah orang menunjukkan bahawa mengikut contoh generasi kertas, kaedah ini masih Ia belum sampai ke peringkat aplikasi berskala besar. Seorang pemodel profesional benar-benar boleh mencipta jerat ini dalam masa kurang daripada 5 minit

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Pengulas ini mencadangkan bahawa langkah seterusnya mungkin adalah untuk meminta LLM mengawal penjanaan benih 3D dan menambah model imej ke bahagian Autoregressive seni bina. Selepas mencapai tahap ini, penghasilan aset 3D untuk permainan dan adegan lain boleh diautomasikan secara besar-besaran.

Seterusnya, mari kita lihat butiran penyelidikan kertas MeshGPT.

Tinjauan Keseluruhan Kaedah

Diinspirasikan oleh kemajuan model bahasa yang besar, para penyelidik membangunkan kaedah berasaskan urutan untuk menjana jejaring segi tiga secara autoregresif sebagai jujukan segi tiga. Kaedah ini menghasilkan jerat yang bersih, koheren dan padat dengan tepi yang tajam dan kesetiaan yang tinggi.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Para penyelidik mula-mula mempelajari pembenaman perbendaharaan kata geometri daripada sejumlah besar jerat objek 3D untuk dapat mengekod dan menyahkod segi tiga. Kemudian, berdasarkan perbendaharaan kata benam yang dipelajari, Transformer untuk penjanaan grid dilatih dengan cara autoregresif untuk ramalan indeks.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Untuk mempelajari perbendaharaan kata segi tiga, para penyelidik menggunakan pengekod konvolusi graf yang beroperasi pada segi tiga mesh dan kawasan kejiranan mereka untuk mengekstrak ciri geometri yang kaya dan menangkap butiran kompleks bentuk 3D. Ciri-ciri ini dikuantisasi sebagai Membenamkan dalam buku kod melalui pengkuantitian sisa, dengan berkesan mengurangkan panjang jujukan perwakilan grid. Selepas mengisih, maklumat terbenam ini dinyahkod oleh ResNet satu dimensi berpandukan kehilangan pembinaan semula. Peringkat ini meletakkan asas untuk latihan Transformer seterusnya.

Seterusnya, penyelidik menggunakan benam geometri terkuantasi ini untuk melatih pengubah penyahkod tulen yang serupa dengan GPT. Mereka melakukan ini dengan mengekstrak jujukan benam geometri dalam segi tiga mesh dan melatih pengubah untuk meramalkan indeks buku kod pembenaman seterusnya dalam jujukan

Selepas latihan, pengubah boleh membuat sampel secara autoregresif untuk meramalkan jujukan benam dan kemudian menyahkod benam ini, menjana struktur jala baru dan pelbagai yang mempamerkan segi tiga yang cekap dan tidak teratur serupa dengan jerat yang ditarik oleh manusia.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

MeshGPT menggunakan pengekod lilitan graf untuk memproses permukaan jejaring, menggunakan maklumat kejiranan geometri untuk menangkap ciri kukuh yang mewakili butiran kompleks bentuk 3D, dan kemudian menggunakan kaedah pengkuantitian baki ini untuk mengkuantifikasikan ciri ini. pembenaman buku kod. Pendekatan ini memastikan kualiti pembinaan semula yang lebih baik berbanding pengkuantitian vektor mudah. Berpandukan kehilangan pembinaan semula, MeshGPT menyusun dan menyahkod benam terkuantasi melalui ResNet.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Kajian ini menggunakan model Transformer untuk menjana jujukan grid sebagai indeks token daripada perpustakaan perbendaharaan kata buku kod yang telah terlatih. Semasa latihan, pengekod imej mengekstrak ciri daripada permukaan jejaring dan mengkuantiskannya ke dalam satu set benam permukaan. Pembenaman ini dijubin, ditandakan dengan token mula dan tamat, dan kemudian dimasukkan ke dalam model Transformer jenis GPT yang diterangkan di atas. Penyahkod dioptimumkan dengan kehilangan entropi silang, meramalkan indeks buku kod berikutnya untuk setiap pembenaman

Hasil eksperimen

Kajian menjalankan eksperimen membandingkan MeshGPT dengan kaedah penjanaan jejaring biasa, termasuk:

yang menjana jerat poligon dengan mula-mula menghasilkan bucu dan kemudian menghadap dikondisikan pada bucu;
BSPNet, yang mewakili jerat melalui penguraian cembung
AtlasNet, yang mewakili jerat 3D sebagai berbilang 2D;

Selain itu, kajian itu membandingkan MeshGPT dengan kaedah SOTA berasaskan medan saraf GET3D.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Seperti yang ditunjukkan dalam Rajah 6, Rajah 7 dan Jadual 1, MeshGPT mengatasi kaedah asas dalam kesemua 4 kategori. MeshGPT boleh menghasilkan jerat yang tajam dan padat dengan butiran geometri yang lebih halus.

Secara khusus, berbanding dengan Polygen, MeshGPT boleh menghasilkan bentuk dengan butiran yang lebih kompleks, dan Polygen lebih berkemungkinan mengumpul ralat semasa membuat inferens, AtlasNet sering mengalami artifak lipatan, mengakibatkan kepelbagaian dan kualiti bentuk Penggunaan BSPNet lebih rendah; pokok cenderung menghasilkan bentuk berhalangan dengan corak triangulasi yang luar biasa; GET3D menghasilkan struktur bentuk aras tinggi yang baik, tetapi dengan terlalu banyak segi tiga dan satah yang tidak sempurna.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Seperti yang ditunjukkan dalam Jadual 2, kajian ini juga membolehkan pengguna menilai kualiti mesh yang dijana oleh MeshGPT yang lebih baik dari segi kualiti MeshGPT dan triang daripada AtlasNet, Polygen dan BSPNet. Kebanyakan pengguna memilih kualiti bentuk (68%) dan kualiti triangulasi (73%) yang dihasilkan oleh MeshGPT berbanding GET3D.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Kandungan yang ditulis semula ialah: bentuk novel. Seperti yang ditunjukkan dalam Rajah 8, MeshGPT dapat menjana bentuk baharu di luar set data latihan, memastikan model melakukan lebih daripada sekadar mendapatkan semula bentuk sedia ada

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

pelengkapan bentuk. Seperti yang ditunjukkan dalam Rajah 9 di bawah, MeshGPT juga boleh membuat kesimpulan berbilang penyiapan yang mungkin berdasarkan bentuk setempat yang diberikan dan menjana pelbagai hipotesis bentuk.

Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner

Atas ialah kandungan terperinci Transformer merevolusikan pemodelan 3D, kesan penjanaan MeshGPT memberi penggera kepada pemodel profesional, netizen: idea revolusioner. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!