Deux articles ont été nominés pour la mention honorable du meilleur article en même temps. La première équipe chinoise en direct en temps réel de SIGGRAPH utilise l'IA générative pour créer un monde 3D.-IA-php.cn

SIGGRAPH, la plus grande conférence académique mondiale axée sur l'infographie, émerge avec une nouvelle tendance.

Lors de la conférence SIGGRAPH 2024 qui s'est tenue la semaine dernière, parmi les meilleurs articles et autres récompenses, l'équipe du laboratoire MARS de l'Université des sciences et technologies de Shanghai a reçu en même temps deux nominations honoraires pour le meilleur article, et ses résultats de recherche sont elle évolue également rapidement vers l’industrialisation.

L'auteur utilise la méthode des modèles génératifs pour ouvrir une nouvelle façon de transformer directement l'imagination en modèles 3D complexes.文 Clay et Dresscode, qui sont nominés pour les meilleurs articles, sont des produits générés en 3D et des vêtements en 3D.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Lors de la session Real-Time Live de SIGGARPH, l'équipe de l'Université des sciences et technologies de Shanghai a démontré une série de scénarios d'application basés sur ces deux tâches en temps réel.

Zhang Qixuan, l'auteur de l'article, étudiant de deuxième année et CTO de la startup Yingmo Technology, a été le premier à démontrer la solution de génération 3D basée sur CLAY. L'année dernière, l'équipe Shadow Eye a construit des modèles 3D réalistes pour Zuckerberg et Jen-Hsun Huang à l'aide de simples invites textuelles (Prompt), devenant ainsi la première équipe chinoise à participer au SIGGRAPH Real-Time Live. Cette année, leur solution de génération 3D utilise une seule image comme entrée pour générer des images de dessins animés de Xiao Zha et Lao Huang dans différents styles.

Derrière ces contenus générés se cache le moteur d'IA 3D nouvelle génération Rodin, qui rend hommage au célèbre sculpteur Rodin. Le contenu 3D affiché sur le site est directement généré à partir d'une seule image téléchargée par l'utilisateur, et Rodin peut en outre générer des textures PBR et des surfaces quadrilatérales pour faciliter les modifications et l'utilisation ultérieures par les artistes.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界 Avec 3D ControlNet, Rodin peut contrôler les formes générées par l'IA. Simplement fournis à titre indicatif, des éléments géométriques simples peuvent être convertis en voxels et transformés en actifs 3D requis en fonction des informations sémantiques de l'image de référence.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界 Rodin prend également en charge les images directes dessinées à la main, même les simples graffitis. Quelques photos ont été utilisées pour générer des personnages 3D et des graffitis d'enfants ont généré des arbres en arrière-plan. Les développeurs ont opéré sur place en temps réel et ont construit une scène de modélisation 3D complète en une minute. Lorsque l'hôte a demandé qui était le petit monstre au milieu, Zhang Qixuan a répondu avec humour qu'il s'agissait de l'IA.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界 En parlant de cela, la dernière fois que la génération de modèles 3D a été hors du cercle, c'était en fait au SIGGRAPH : en 2021, NVIDIA a introduit la méthode de création de modèles 3D pour Huang Renxun sur cette scène, choquant le monde avec du faux et du vrai. effets.

À cette époque, la génération de modèles 3D était considérée comme cruciale pour des technologies telles que les humains numériques et la réalité virtuelle. Mais il ne fait aucun doute que le coût élevé de la numérisation corporelle de haute précision + de la reconstruction par apprentissage profond détermine qu'il n'est pas destiné à être produit en série.

Utiliser la génération IA peut être une meilleure voie. Cependant, dans le passé, les technologies proposées par les gens dans ce sens ont toujours été « applaudies mais peu populaires ». 两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Pour les applications pratiques, ces méthodes présentent certains défis :

La 3D est un problème industriel. Il ne suffit pas qu'un modèle soit performant visuellement, il doit également se conformer à des normes industrielles spécifiques

, comme la manière dont les matériaux sont représentés, les patchs. planification, dans quelle mesure la structure est-elle raisonnable. S’il ne peut pas être aligné sur les normes de l’industrie humaine, les résultats générés nécessiteront de nombreux ajustements et seront difficiles à appliquer à la production.

Tout comme les grands modèles linguistiques (LLM) doivent être alignés sur les valeurs humaines, les modèles d'IA générés en 3D doivent être alignés sur les normes complexes de l'industrie 3D.

Une solution plus pratique a émergé : la 3D native

L'une des meilleures nominations d'articles pour le laboratoire MARS de l'Université des sciences et technologies de Shanghai - CLAY a permis à l'industrie de voir une solution réalisable aux problèmes ci-dessus, à savoir la 3D indigène.

Nous savons qu'au cours des deux dernières années, les voies techniques de génération 3D peuvent être grossièrement divisées en deux catégories : l'amélioration de la dimensionnalité 2D et la 3D native.

L'amélioration de la dimensionnalité 2D est un processus permettant de réaliser une reconstruction tridimensionnelle grâce à un modèle de diffusion 2D combiné à des méthodes telles que NeRF. Parce qu’ils peuvent être formés sur de grandes quantités de données d’images 2D, ces modèles ont tendance à produire des résultats divers. Cependant, en raison des capacités 3D préalables insuffisantes du modèle de diffusion 2D, ce type de modèle a une capacité limitée à comprendre le monde 3D et est susceptible de générer des résultats avec des structures géométriques déraisonnables (telles que des personnes ou des animaux à plusieurs têtes).

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Une série de travaux récents de reconstruction multi-vues ont atténué ce problème dans une certaine mesure en ajoutant des images 2D multi-vues d'actifs 3D aux données d'entraînement du modèle de diffusion 2D. Mais la limite est que le point de départ de ces méthodes est les images 2D, elles se concentrent donc sur la qualité des images générées plutôt que d'essayer de maintenir la fidélité géométrique, de sorte que les géométries générées sont souvent incomplètes et manquent de détails.

En d'autres termes, les données 2D n'enregistrent qu'un seul côté, ou projection, du monde réel. Les images sous plusieurs angles ne peuvent pas décrire complètement un contenu tridimensionnel. Par conséquent, il manque encore beaucoup d'informations dans ce que le modèle apprend. et les résultats générés sont toujours Cela nécessite beaucoup de modifications et est difficile à répondre aux normes de l'industrie.

Considérant ces limites, l'équipe de recherche de CLAY a choisi une autre voie : la 3D native.

Cet itinéraire entraîne des modèles génératifs directement à partir d'ensembles de données 3D, extrayant de riches a priori 3D à partir d'une variété de géométries 3D. En conséquence, le modèle peut mieux « comprendre » et préserver les caractéristiques géométriques.

Cependant, ce type de modèle doit être suffisamment grand pour « émerger » avec de puissantes capacités de génération, et des modèles plus grands doivent être formés sur des ensembles de données plus grands. Comme nous le savons tous, les ensembles de données 3D de haute qualité sont très rares et coûteux, ce qui constitue le premier problème que la route 3D native doit résoudre.

Dans cet article CLAY, les chercheurs utilisent des pipelines de traitement de données personnalisés pour exploiter plusieurs ensembles de données 3D et proposent des techniques efficaces pour mettre à l'échelle le modèle génératif.

Plus précisément, leur processus de traitement des données commence par un algorithme de remaillage personnalisé pour convertir les données 3D en maillages étanches, en préservant soigneusement des éléments tels que les bords durs et les surfaces planes. De plus, ils ont exploité GPT-4V pour créer des annotations détaillées mettant en évidence des caractéristiques géométriques importantes.

Après avoir suivi le processus de traitement ci-dessus, de nombreux ensembles de données sont combinés dans l'ensemble de données de modèle 3D ultra-large utilisé pour la formation du modèle CLAY. Auparavant, ces ensembles de données n'avaient jamais été utilisés ensemble pour former des modèles génératifs 3D en raison de formats différents et d'un manque de cohérence. L'ensemble de données combiné traité conserve une représentation cohérente et des annotations cohérentes, ce qui peut grandement améliorer la généralisation des modèles génératifs.

CLAY formé à l'aide de cet ensemble de données contient un modèle génératif 3D avec jusqu'à 1,5 milliard de paramètres. Afin de garantir que la perte d'informations résultant de la conversion d'un ensemble de données en expression implicite en sortie soit aussi faible que possible, ils ont passé beaucoup de temps à examiner et à améliorer, et ont finalement exploré une nouvelle méthode d'expression 3D efficace. Plus précisément, ils ont adopté la conception du champ neuronal dans 3DShape2VecSet pour décrire une surface continue et complète, et l'ont combiné avec un VAE géométrique multi-résolution spécialement conçu pour traiter des nuages de points de différentes résolutions, lui permettant de s'adapter à la taille du vecteur latent (latent). taille).

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Afin de faciliter l'expansion du modèle, CLAY utilise un transformateur de diffusion latente minimaliste (DiT). Il est composé de Transformer, peut s'adapter à la taille du vecteur latent et dispose d'une grande évolutivité du modèle. De plus, CLAY introduit également un schéma de formation progressif en augmentant progressivement la taille du vecteur latent et les paramètres du modèle. 两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Enfin, CLAY permet un contrôle précis de la géométrie, et les utilisateurs peuvent contrôler la complexité, le style, etc. (même les caractères) de la génération de géométrie en ajustant les mots d'invite. Par rapport aux méthodes précédentes, CLAY peut générer rapidement une géométrie détaillée et garantir des caractéristiques géométriques importantes telles que les surfaces planes et l'intégrité structurelle.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Certains résultats de l'article démontrent pleinement les avantages des chemins 3D natifs. La figure ci-dessous montre les trois premiers échantillons voisins les plus proches récupérés par le chercheur à partir de l'ensemble de données. La géométrie de haute qualité générée par CLAY correspond aux mots d'invite, mais est différente des échantillons de l'ensemble de données, montrant une richesse suffisante et la capacité d'émerger de grands modèles.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Um die direkte Nutzung der generierten digitalen Assets in bestehenden CG-Produktionspipelines zu ermöglichen, haben die Forscher außerdem eine zweistufige Lösung gewählt:

1. Die geometrische Optimierung gewährleistet strukturelle Integrität und Kompatibilität bei gleichzeitiger Beibehaltung der Ästhetik und der funktionalen Verfeinerung Form des Modells, wie z. B. Viereckigkeit, UV-Ausdehnung usw.;

2. Die Materialsynthese verleiht dem Modell eine realistische Textur. Zusammengenommen verwandeln diese Schritte ein grobes Netz in ein besser nutzbares Asset in einer digitalen Umgebung.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Unter anderem umfasst die zweite Stufe ein Multi-View-Materialdiffusionsmodell mit fast 1 Milliarde Parametern. Nach der Quadrifizierung des Netzes und der UV-Abwicklung wird über einen Multi-View-Ansatz ein PBR-Material generiert, das dann auf UV-Karten zurückprojiziert wird. Dieses Modell generiert realistischere PBR-Materialien als frühere Methoden, was zu realistischen Renderings führt.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Damit CLAY mehr Aufgaben unterstützen kann, haben die Forscher auch eine 3D-Version von ControlNet entworfen. Die minimalistische Architektur ermöglicht die effiziente Unterstützung der Zustandskontrolle verschiedener Modi. Sie implementierten mehrere Beispielbedingungen, die Benutzer einfach bereitstellen können, darunter Text (nativ unterstützt) sowie Bilder/Skizzen, Voxel, Multiview-Bilder, Punktwolken und Begrenzungsrahmen) und eine Teilpunktwolke mit einem Begrenzungsrahmen. Diese Bedingungen können einzeln oder in Kombination angewendet werden, sodass das Modell Inhalte basierend auf einer einzelnen Bedingung originalgetreu generieren oder mehrere Bedingungen kombinieren kann, um 3D-Inhalte mit Stil und Benutzerkontrolle zu erstellen, was eine breite Palette kreativer Möglichkeiten bietet.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Darüber hinaus unterstützt CLAY auch direkt Low-Rank Adaptation (LoRA) auf den Aufmerksamkeitsebenen von DiT. Dies ermöglicht eine effiziente Feinabstimmung, sodass der generierte 3D-Inhalt an einen bestimmten Stil angepasst werden kann.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Anhand dieser Designs ist nicht schwer zu erkennen, dass das Design von CLAY von Anfang an auf Anwendungsszenarien abzielt, was sich stark von einigen rein akademischen Untersuchungen unterscheidet.

Dadurch lässt sich das Modell auch schnell umsetzen: Rodin ist mittlerweile für viele 3D-Entwickler zum häufig verwendeten 3D-Generator geworden.文 Sie können auf klicken, um den Originaltext zu lesen und auf das Rodin-Erlebnisprodukt zuzugreifen (es wird empfohlen, die PC-Seite zu öffnen).

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Viele Branchenanwender im In- und Ausland haben berichtet, dass die von Rodin generierten 3D-Assets über wissenschaftliche Geometrie, Verdrahtungsregeln und exquisite Materialkarten verfügen und direkt in bestehende Mainstream-Rendering-Engines importiert werden können sind kurz vor der Produktion. - Bereit für die 3D-Generierung.

Das MARS-Laborteam der Shanghai University of Science and Technology, das zu CLAY beigetragen hat, wurde in den 50 Jahren seit der Gründung von SIGGRAPH im Jahr 2023 als erstes chinesisches Team für die Echtzeit-Live-Sitzung ausgewählt. Das hat es getan stand zum zweiten Mal in Folge auf dieser Bühne.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界 Shadow Eye Technology erforscht den Weg der nativen 3D-KI und entwickelt 3D-Produkte, die kurz vor der Produktionsreife stehen, wodurch die Schwelle für die 3D-Erstellung deutlich gesenkt wird.

Die auf CLAY basierende 3D-Generierungstechnologie gibt nicht nur die Richtung der Branche vor, sondern wird auch eine positive Rolle bei der Generierung von Bildern und Videos spielen. Denn aus Sicht der Informationsentropie ist der Spielraum für das Modell umso größer, je weniger Informationen Sie bereitstellen. Durch 3D-Modellierung kann die Konvergenzrichtung verankert und die Steuerbarkeit der Bild- und Videoerzeugung verbessert werden.

Der 3D-Bereich selbst ist jedoch nicht so einfach wie Bilder und Videos. Erst wenn die vollständige Kette abgeschlossen ist, werden Benutzer beginnen, die Fähigkeiten von 3D + KI wirklich zu akzeptieren. Dieser Teil der Arbeit kann über die API des Partners oder von dessen Team selbst erledigt werden. 两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界