Hanya mengambil masa beberapa saat untuk menukar foto ID kepada orang digital Microsoft telah mencapai generasi pertama model penyebaran 3D yang berkualiti tinggi, dan anda boleh menukar penampilan dan penampilan anda dalam satu ayat sahaja.-AI-php.cn

Nama model penyebaran 3D yang dijana "Rodin" ini diilhamkan oleh artis arca Perancis Auguste Rodin.

Dengan foto ID 2D, anda boleh mereka bentuk avatar permainan 3D dalam beberapa saat sahaja!

Ini adalah pencapaian terbaru model resapan dalam medan 3D. Sebagai contoh, hanya foto lama pengukir Perancis Rodin boleh "mengubah" dia ke dalam permainan dalam beberapa minit:

△Model RODIN dijana berdasarkan foto lama Rodin The 3D imej

malah boleh diubah suai dengan hanya satu ayat. Beritahu Rodin yang dijana AI untuk "memakai baju sejuk dan cermin mata merah":

Hanya mengambil masa beberapa saat untuk menukar foto ID kepada orang digital Microsoft telah mencapai generasi pertama model penyebaran 3D yang berkualiti tinggi, dan anda boleh menukar penampilan dan penampilan anda dalam satu ayat sahaja.

Tidak suka punggung yang besar? Kemudian tukar kepada "pandangan tocang":

Cuba tukar warna rambut anda semula? Ini adalah "orang bergaya bergaya dengan rambut perang", malah warna janggut tetap:

("Orang yang bergaya bergaya" di mata AI sememangnya agak terlalu bergaya)

Model resapan terjana 3D terbaharu "RODIN" (Roll-out Diffusion Network) di atas adalah daripada Microsoft Research Asia.

RODIN juga merupakan model pertama yang menggunakan model penyebaran generatif untuk menjana avatar digital 3D (Avatar) secara automatik pada data latihan 3D. Kertas kerja telah diterima oleh CVPR 2023.

Mari kita lihat.

Gunakan data 3D secara langsung untuk melatih model resapan

Nama model resapan janaan 3D "Rodin" RODIN ini diinspirasikan oleh artis arca Perancis Auguste Rodin.

Sebelum ini, model imej 3D yang dijana 2D biasanya diperoleh dengan melatih rangkaian adversarial generatif (GAN) atau pengekod auto variasi (VAE) dengan data 2D, tetapi hasilnya selalunya tidak memuaskan.

Penyelidik menganalisis bahawa sebab fenomena ini adalah kaedah ini mempunyai masalah asas yang tidak jelas (ill posed). Iaitu, disebabkan oleh kekaburan geometri imej paparan tunggal, adalah sukar untuk mempelajari pengedaran munasabah bagi avatar 3D berkualiti tinggi hanya melalui sejumlah besar data 2D, mengakibatkan hasil penjanaan yang lemah.

Oleh itu, kali ini mereka cuba terus menggunakan data 3D untuk melatih model resapan , terutamanya menyelesaikan tiga masalah:

Pertama, cara menggunakan resapan model untuk menghasilkan gambar rajah berbilang pandangan model 3D. Sebelum ini, tiada kaedah praktikal dan preseden untuk diikuti untuk model resapan pada data 3D.
Kedua, set data imej 3D yang berkualiti tinggi dan berskala besar sukar diperoleh, dan terdapat risiko privasi dan hak cipta, tetapi konsistensi berbilang paparan tidak boleh dijamin untuk imej 3D yang diterbitkan di Internet.
Akhir sekali, model resapan 2D diperluaskan terus kepada penjanaan 3D, yang memerlukan memori, penyimpanan dan overhed pengkomputeran yang besar.

Untuk menyelesaikan ketiga-tiga masalah ini, penyelidik mencadangkan model penyebaran RODIN "AI Sculptor", yang melepasi tahap SOTA model sedia ada.

Model RODIN menggunakan kaedah Neural Radiation Field (NeRF) dan menggunakan kerja EG3D NVIDIA untuk mengekspresikan ruang 3D secara padat menjadi tiga satah ciri saling berserenjang (Triplanes) dalam ruang dan mengembangkan peta ini menjadi satu 2D Dalam satah ciri, resapan persepsi 3D kemudiannya dilakukan.

Khususnya, ruang 3D diperluaskan dengan ciri dua dimensi pada tiga pandangan satah ortogon bagi satah mendatar, menegak dan menegak Ini bukan sahaja membenarkan model RODIN menggunakan seni bina 2D yang cekap untuk penyebaran persepsi 3D, tetapi juga Mengurangkan dimensi imej 3D kepada imej 2D juga sangat mengurangkan kerumitan dan kos pengiraan.

△Konvolusi sedar 3D dengan cekap memproses ciri 3D

Di sebelah kiri rajah di atas, triplane digunakan untuk menyatakan ruang 3D At kali ini, satah ciri bawah Titik ciri sepadan dengan dua baris dua satah ciri yang lain di sebelah kanan rajah di atas, lilitan persepsi 3D diperkenalkan untuk memproses satah ciri 2D yang diperluas, dengan mengambil kira tiga-; korespondensi wujud dimensi bagi tiga satah.

Secara khusus, tiga elemen utama diperlukan untuk mencapai penjanaan imej 3D:

Pertama, lilitan sedar 3D memastikan korelasi intrinsik tiga satah selepas pengurangan dimensi.

Rangkaian saraf konvolusi (CNN) 2D yang digunakan dalam penyebaran 2D tradisional tidak mengendalikan peta ciri Triplane dengan baik.

Konvolusi sedar 3D bukan sekadar menjana tiga satah ciri 2D, tetapi mempertimbangkan ciri tiga dimensi yang wujud apabila memproses ungkapan 3D tersebut, iaitu ciri 2D salah satu daripada tiga satah pandangan pada dasarnya adalah Unjuran lurus garisan dalam ruang 3D adalah berkaitan dengan ciri unjuran garis lurus yang sepadan dalam dua satah yang lain.

Untuk mencapai komunikasi merentas satah, penyelidik mempertimbangkan korelasi 3D sedemikian dalam konvolusi, dengan itu mensintesis butiran 3D dalam 2D dengan cekap.

Kedua, generasi ekspresi 3D tiga satah konserto ruang tersembunyi.

Penyelidik menyelaras penjanaan ciri melalui vektor terpendam untuk menjadikannya konsisten secara global merentas keseluruhan ruang tiga dimensi, menghasilkan avatar berkualiti tinggi dan pengeditan semantik.

Pada masa yang sama, pengekod imej tambahan juga dilatih dengan menggunakan imej dalam set data latihan, yang boleh mengekstrak vektor pendam semantik sebagai input bersyarat kepada model resapan.

Dengan cara ini, keseluruhan rangkaian generatif boleh dianggap sebagai pengekod auto, menggunakan model resapan sebagai vektor ruang pendam penyahkodan. Untuk kebolehsuntingan semantik, penyelidik menggunakan pengekod imej CLIP beku yang berkongsi ruang terpendam dengan gesaan teks.

Ketiga, sintesis hierarki menjana butiran tiga dimensi kesetiaan tinggi.

Para penyelidik menggunakan model resapan untuk mula-mula menjana satah tiga pandangan resolusi rendah (64×64), dan kemudian menghasilkan satah tiga pandangan resolusi tinggi (256×256) melalui resapan upsampling .

Dengan cara ini, model resapan asas memfokuskan pada keseluruhan penjanaan struktur 3D, manakala model pensampelan naik seterusnya memfokuskan pada penjanaan butiran.

Menjana sejumlah besar data rawak berdasarkan Blender

Pada set data latihan, para penyelidik menggunakan Blender perisian pemaparan 3D sumber terbuka untuk menggabungkan aksara 3D maya secara rawak dicipta secara manual oleh imej artis, ditambah dengan pensampelan rawak daripada sejumlah besar rambut, pakaian, ekspresi dan aksesori, untuk mencipta 100,000 individu sintetik, sambil memberikan 300 imej berbilang paparan dengan resolusi 256*256 untuk setiap individu.

Dalam penjanaan teks kepada avatar 3D, penyelidik menggunakan subset potret set data LAION-400M untuk melatih pemetaan daripada modaliti input kepada ruang tersembunyi model penyebaran 3D, dan akhirnya membenarkan Model RODIN untuk menggunakan hanya satu imej 2D atau penerangan teks boleh mencipta avatar 3D yang realistik.

△Diberikan foto untuk menghasilkan avatar

bukan sahaja boleh menukar imej dalam satu ayat, seperti "seorang lelaki berambut kerinting dan berjanggut memakai jaket kulit hitam" ":

Malah jantina boleh ditukar sesuka hati, "Wanita berpakaian merah dengan gaya rambut Afrika": (kepala anjing manual)

Para penyelidik juga memberikan demonstrasi demo aplikasi untuk mencipta imej anda sendiri hanya memerlukan beberapa butang:

△Gunakan teks untuk. Penyuntingan potret 3D

Untuk lebih banyak kesan, anda boleh klik pada alamat projek untuk melihat~

△Lebih banyak avatar yang dijana secara rawak

Selepas menjadikan RODIN, langkah seterusnya pasukan Apakah rancangannya?

Menurut pengarang Microsoft Research Asia, kerja semasa RODIN tertumpu terutamanya pada potret separuh panjang 3D Ini juga berkaitan dengan fakta bahawa ia terutamanya menggunakan data muka untuk latihan, tetapi Penjanaan imej 3D Permintaan tidak terhad kepada wajah manusia.

Langkah seterusnya, pasukan akan mempertimbangkan untuk mencuba menggunakan model RODIN untuk mencipta lebih banyak pemandangan 3D, termasuk bunga, pokok, bangunan, kereta dan rumah, dsb., untuk mencapai matlamat utama "menjana segala-galanya 3D dengan satu model".

Alamat kertas:
https://arxiv.org/abs/2212.06135

Halaman projek:
https://3d-avatar-diffusion.microsoft.com

Atas ialah kandungan terperinci Hanya mengambil masa beberapa saat untuk menukar foto ID kepada orang digital Microsoft telah mencapai generasi pertama model penyebaran 3D yang berkualiti tinggi, dan anda boleh menukar penampilan dan penampilan anda dalam satu ayat sahaja.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!