Kini, model imej terhasil teks baharu dikeluarkan sekali-sekala, dan setiap daripadanya mempunyai kesan yang sangat hebat. Medan ini telah memukau semua orang. Walau bagaimanapun, sistem AI seperti OpenAI's DALL-E 2 atau Google's Imagen hanya boleh menghasilkan imej dua dimensi Jika teks juga boleh diubah menjadi pemandangan tiga dimensi, pengalaman visual akan menjadi dua kali ganda. Kini, pasukan AI dari Apple telah melancarkan seni bina saraf terkini untuk penjanaan pemandangan 3D - GAUDI.
Ia boleh menangkap pengedaran pemandangan 3D yang kompleks dan realistik, pemaparan mendalam daripada kamera mudah alih dan juga berdasarkan gesaan teks Cipta pemandangan 3D ! Model ini dinamakan sempena Antoni Gaudi, seorang arkitek terkenal Sepanyol.
Alamat kertas: https://arxiv.org/pdf/2207.13751.pdf
Pada masa ini, NeRF digunakan terutamanya sebagai medium storan saraf untuk model 3D dan pemandangan 3D yang boleh dipaparkan dari perspektif kamera yang berbeza. NeRF juga sudah mula digunakan dalam pengalaman realiti maya.Jadi, bolehkah NeRF, dengan keupayaan hebatnya untuk memaparkan imej secara realistik dari sudut kamera yang berbeza, boleh digunakan dalam AI generatif? Sudah tentu, terdapat pasukan penyelidik yang telah cuba menjana pemandangan 3D Contohnya, Google melancarkan sistem AI Dream Fields untuk kali pertama tahun lepas Ia menggabungkan keupayaan NeRF untuk menjana paparan 3D dengan keupayaan CLIP OpenAI untuk menilai kandungan imej. , dan akhirnya mencapai keupayaan untuk Menjana penerangan teks padanan NeRF.
Kapsyen: Google Dream Fields
Walau bagaimanapun, Google’s Dream Fields boleh hanya menjana paparan 3D bagi satu objek, dan terdapat banyak kesukaran untuk memanjangkannya kepada pemandangan 3D yang tidak dikekang sepenuhnya. Kesukaran terbesar ialah terdapat sekatan besar pada kedudukan kamera Untuk satu objek, setiap kedudukan kamera yang mungkin dan munasabah boleh dipetakan ke kubah, tetapi dalam adegan 3D, kedudukan kamera akan dipengaruhi oleh objek. dan dinding, dsb. Had halangan. Jika faktor ini tidak dipertimbangkan semasa penjanaan pemandangan, sukar untuk menghasilkan pemandangan 3D.
2Pakar rendering 3D GAUDI
Untuk masalah kedudukan kamera terhad yang dinyatakan di atas, model GAUDI Apple telah menghasilkan tiga rangkaian khusus Untuk memudahkannya: GAUDI mempunyaiKapsyen: Seni bina model penyahkodKhusus adegan
Penyahkod adegan Kemudian anda boleh meramalkan perwakilan satah tiga dimensi, iaitu kanvas 3D. Kemudian, penyahkod medan radiasi akan menggunakan persamaan pemaparan volum pada kanvas ini untuk melukis imej seterusnya.
Generasi 3D GAUDI terdiri daripada dua peringkat: Salah satunya ialah pengoptimuman parameter terpendam dan rangkaian: mempelajari perwakilan terpendam yang mengekod medan sinaran 3D dan pose kamera yang sepadan dengan ribuan trajektori. Tidak seperti untuk objek tunggal, pose kamera yang berkesan berbeza-beza mengikut adegan, jadi perlu untuk mengekodkan pose kamera yang sah untuk setiap adegan. Yang kedua ialah menggunakan model resapan untuk mempelajari model generatif pada perwakilan terpendam, supaya ia boleh dimodelkan dengan baik dalam kedua-dua tugas penaakulan bersyarat dan tanpa syarat. Yang pertama menjana pemandangan 3D berdasarkan teks atau gesaan imej, manakala yang kedua menjana pemandangan 3D berdasarkan trajektori kamera. Dengan pemandangan dalaman 3D, GAUDI boleh menjana pergerakan kamera baharu. Seperti dalam beberapa contoh di bawah, penerangan teks mengandungi maklumat tentang pemandangan dan laluan navigasi. Di sini pasukan penyelidik menggunakan pengekod teks berasaskan RoBERTa yang telah terlatih dan menggunakan perwakilan perantaraannya untuk melaraskan model resapan Kesan yang dihasilkan adalah seperti berikut: Gesaan teks: Masuk ke dapur . Gesaan teks: Pergi ke tingkat atas Gesaan teks: Pergi melalui koridor Di samping itu, dengan menggunakan ResNet-18 yang telah terlatih sebagai pengekod imej, GAUDI dapat mencuba medan sinaran imej tertentu yang diperhatikan dari sudut pandangan rawak , dengan itu mengekstrak daripada isyarat imej Cipta pemandangan 3D. Petua Imej: Jana pemandangan 3D: Imej Petua: Jana adegan 3D: Eksperimen Penyelidik pada empat set data berbeza, termasuk set data pengimbasan dalaman ARKitScences, menunjukkan bahawa GAUDI boleh membina semula pandangan yang dipelajari dan memadankan kualiti kaedah sedia ada. Walaupun dalam tugas besar menghasilkan pemandangan 3D dengan ratusan ribu imej untuk beribu-ribu adegan dalaman, GAUDI tidak mengalami keruntuhan mod atau masalah orientasi. Kemunculan GAUDI bukan sahaja akan memberi kesan kepada banyak tugas penglihatan komputer, tetapi keupayaan penjanaan pemandangan 3Dnya juga akan memberi manfaat kepada pembelajaran dan perancangan pengukuhan berasaskan model, SLAM dan 3D kandungan dan bidang penyelidikan lain. Setakat ini, kualiti video yang dihasilkan oleh GAUDI tidaklah tinggi, dan banyak artifak boleh dilihat. Walau bagaimanapun, sistem ini mungkin merupakan permulaan dan asas yang baik untuk sistem AI berterusan Apple untuk memaparkan objek dan pemandangan 3D Dikatakan bahawa GAUDI juga akan digunakan pada set kepala XR Apple untuk menjana kedudukan digital. Anda boleh menantikannya~
Atas ialah kandungan terperinci Apple membangunkan 'Arkitek AI' GAUDI: menjana pemandangan 3D ultra-realistik berdasarkan teks!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!