Apple développe « AI architect » GAUDI : génère des scènes 3D ultra-réalistes à base de texte !-IA-php.cn

Apple développe « AI architect » GAUDI : génère des scènes 3D ultra-réalistes à base de texte !

WBOY

Libérer： 2023-05-02 15:46:07

avant

1542 Les gens l'ont consulté

De nos jours, de nouveaux modèles d'images générés par texte sont publiés de temps en temps, et chacun d'eux a des effets très puissants. Ils étonnent toujours tout le monde. Ce domaine a déjà atteint le ciel. Cependant, les systèmes d'IA tels que DALL-E 2 d'OpenAI ou Imagen de Google ne peuvent générer que des images en deux dimensions. Si le texte peut également être transformé en une scène en trois dimensions, l'expérience visuelle sera doublée. Aujourd'hui, l'équipe IA d'Apple a lancé la dernière architecture neuronale pour la génération de scènes 3D - GAUDI. Il peut capturer une distribution de scènes 3D complexe et réaliste, immersive à partir de caméras mobiles. Rendu et création de scènes 3D basées sur des invites de texte ! Le modèle porte le nom d'Antoni Gaudi, un célèbre architecte espagnol.

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

Adresse papier : https://arxiv.org/pdf/2207.13751.pdf#🎜 🎜#

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！ 1

Rendu 3D basé sur les NeRF

Le rendu neuronal combine l'infographie avec l'intelligence artificielle , de nombreux systèmes permettant de générer des modèles 3D à partir d'images 2D ont été réalisés. Par exemple, le 3D MoMa récemment développé par Nvidia peut créer un modèle 3D à partir de moins de 100 photos en une heure. Google s'appuie également sur les champs de rayonnement neuronal (NeRF) pour combiner les images satellite 2D et Street View en scènes 3D dans Google Maps afin d'obtenir des vues immersives. HumanNeRF de Google peut également restituer des corps humains en 3D à partir de vidéos.

Actuellement, les NeRF sont principalement utilisés comme support de stockage neuronal pour les modèles 3D et les scènes 3D qui peuvent être restituées sous différentes perspectives de caméra. Les NeRF commencent également à être utilisés dans les expériences de réalité virtuelle.

Alors, les NeRF, avec leur puissante capacité à restituer de manière réaliste des images sous différents angles de caméra, peuvent-ils être utilisés dans l'IA générative ? Bien sûr, certaines équipes de recherche ont essayé de générer des scènes 3D. Par exemple, Google a lancé pour la première fois l'année dernière le système d'IA Dream Fields. Il combine la capacité de NeRF à générer des vues 3D avec la capacité d'OpenAI à évaluer le contenu des images. , et obtient enfin la possibilité de générer une description textuelle correspondante NeRF.

Légende : Google Dream Fields

# 🎜🎜#

Cependant, Dream Fields de Google ne peut générer qu'une vue 3D d'un seul objet, et il existe encore de nombreuses difficultés pour l'étendre à une scène 3D totalement libre. La plus grande difficulté est qu'il existe de grandes restrictions sur la position de la caméra. Pour un seul objet, toutes les positions possibles et raisonnables de la caméra peuvent être mappées sur un dôme, mais dans une scène 3D, la position de la caméra sera affectée par les objets. et les murs, etc. Limites d’obstacles. Si ces facteurs ne sont pas pris en compte lors de la génération de la scène, il sera difficile de générer une scène 3D. 苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

2 expert en rendu 3D GAUDI

Pour le problème ci-dessus de position limitée de la caméra, le modèle GAUDI d'Apple Come avec trois réseaux spécialisés pour vous faciliter la tâche : GAUDI dispose d'un

décodeur de pose de caméra, qui sépare la pose de la caméra de la géométrie 3D et de l'apparence de la scène, et peut prédire la position possible de la caméra, Et assurez-vous que la sortie est un emplacement valide pour l’architecture de la scène 3D.

Remarque : Architecture du modèle de décodeur #🎜🎜 #Pour sceneScene decoder

peut prédire la représentation d'un plan tridimensionnel, qui est une toile 3D.

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

Ensuite, Radiation Field Decoder utilisera l'équation de rendu de volume sur cette toile pour dessiner les images suivantes. La génération 3D de GAUDI se compose de deux étapes :

L'une d'entre elles est l'optimisation des paramètres latents et de réseau : l'apprentissage de représentations latentes qui codent les champs de rayonnement 3D et les poses de caméra correspondantes pour des milliers de trajectoires. Contrairement à un objet unique, la pose effective de la caméra varie en fonction de la scène, il est donc nécessaire d'encoder la pose de caméra valide pour chaque scène.

La seconde consiste à utiliser le modèle de diffusion pour apprendre un modèle génératif sur la représentation latente, afin qu'il puisse bien se modéliser dans les tâches de raisonnement conditionnel et inconditionnel. Le premier génère des scènes 3D basées sur des invites de texte ou d'image, tandis que le second génère des scènes 3D basées sur les trajectoires de caméra.

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

Avec les scènes d'intérieur 3D, GAUDI peut générer de nouveaux mouvements de caméra. Comme dans certains des exemples ci-dessous, la description textuelle contient des informations sur la scène et le chemin de navigation. Ici, l'équipe de recherche a adopté un encodeur de texte pré-entraîné basé sur RoBERTa et a utilisé sa représentation intermédiaire pour ajuster le modèle de diffusion. L'effet généré est le suivant : Invite de texte : Entrez dans la cuisine

. #🎜🎜 # 苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

Invite de texte : Montez à l'étage

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

Texte invite : Porter Traverser le couloir 18 est utilisé comme codage d'image. GAUDI est capable de créer des scènes 3D à partir d'indices d'image en échantillonnant le champ de rayonnement d'une image donnée vue depuis des points de vue aléatoires. Invite d'image :

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！ Générer une scène 3D :

#🎜🎜 #

Invite d'image : 苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

Générer une scène 3D : #🎜 Les chercheurs ont mené des expériences sur quatre ensembles de données différents, y compris l'ensemble de données d'analyse intérieure ARKitScences, et les résultats montrent que GAUDI peut reconstruire la vue d'apprentissage et égaler la qualité des méthodes existantes. Même dans l'énorme tâche consistant à produire des scènes 3D avec des centaines de milliers d'images pour des milliers de scènes d'intérieur, GAUDI n'a pas souffert de problèmes d'effondrement de mode ou d'orientation. 苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

L'émergence de GAUDI n'aura pas seulement un impact sur de nombreuses tâches de vision par ordinateur, mais ses capacités de génération de scènes 3D seront également bénéfiques pour l'apprentissage et la planification par renforcement basés sur des modèles. , SLAM et des domaines de recherche tels que la production de contenu 3D.

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！ À l'heure actuelle, la qualité de la vidéo générée par GAUDI n'est pas élevée et de nombreux artefacts peuvent être vus. Cependant, ce système pourrait constituer un bon début et une base pour le système d'IA actuel d'Apple pour le rendu d'objets et de scènes 3D. Il est dit que GAUDI sera également appliqué aux casques XR d'Apple pour générer des positions numériques. Vous pouvez l'attendre avec impatience ~

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!