Bonne nouvelle dans le domaine de la génération d'actifs 3D : les équipes de l'Institut d'automatisation et de l'Université des postes et télécommunications de Pékin créent conjointement un nouveau paradigme de génération de matériaux-IA-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

À l'ère numérique d'aujourd'hui, les actifs 3D jouent un rôle important dans la construction du métaverse, la réalisation de jumeaux numériques et l'application de la réalité virtuelle et augmentée. réalité. Favorise l’innovation technologique et l’amélioration de l’expérience utilisateur.

Les méthodes de génération d'actifs 3D existantes utilisent généralement des modèles génératifs pour déduire les propriétés matérielles des emplacements de surface dans des conditions d'éclairage prédéfinies en fonction de la fonction de distribution de réflexion bidirectionnelle spatialement variable (SVBRDF). Cependant, ces méthodes prennent rarement en compte les connaissances préalables solides et riches construites par la perception des gens sur les matériaux de surface des objets courants qui les entourent (par exemple, les pneus de voiture devraient être des roues métalliques enveloppées d'une bande de roulement en caoutchouc sur le bord extérieur) et ignorent les Le matériau doit être découplé de la couleur RVB de l'objet lui-même. Sans changer le sens original, les méthodes de génération d'actifs 3D existantes utilisent souvent des modèles génératifs basés sur une fonction de distribution de réflectance bidirectionnelle spatialement variable (SVBRDF) pour déduire les propriétés des matériaux en fonction des positions de la surface dans des conditions d'éclairage prédéfinies. Cependant, ces méthodes prennent rarement en compte les fortes conditions d'éclairage. et les riches connaissances préalables que les gens possèdent dans la construction des matériaux de surface des objets courants qui nous entourent (comme le fait que les pneus de voiture devraient avoir une bande de roulement en caoutchouc recouvrant les jantes métalliques sur le bord extérieur), et ils ne tiennent pas compte du découplage entre le matériau et la couleur RVB de l'objet. objets eux-mêmes.

Par conséquent, comment intégrer efficacement les connaissances préalables de l'homme sur les matériaux de surface des objets dans le processus de génération de matériaux, améliorant ainsi la qualité globale des actifs 3D existants, est devenu un sujet important de recherche actuelle.

Récemment, des équipes de recherche de Pékin et de Hong Kong, dont l'Institut d'automatisation de l'Académie chinoise des sciences, l'Université des postes et télécommunications de Pékin et l'Université polytechnique de Hong Kong, ont publié un article intitulé « MaterialSeg3D : Segmenting Dense Materials from 2D Priors for 3D Assets" Le document a construit le premier ensemble de données de segmentation de matériaux 2D MIO pour plusieurs types d'objets matériels complexes, qui contient des étiquettes de matériaux au niveau des pixels pour des objets uniques et divers angles de caméra sous plusieurs catégories sémantiques. Cette recherche propose un schéma de génération de matériaux qui peut exploiter les a priori sémantiques 2D pour déduire le matériau de surface des actifs 3D dans l'espace UV - MaterialSeg3D.

Bonne nouvelle dans le domaine de la génération dactifs 3D : les équipes de lInstitut dautomatisation et de lUniversité des postes et télécommunications de Pékin créent conjointement un nouveau paradigme de génération de matériaux

Papier : https://arxiv.org/pdf/2404.13923
Adresse du code : https://github.com/PROPHETE-pro/MaterialSeg3D_
Site Web du projet : https:/ / /materialseg3d.github.io/

Les modélisateurs 3D définissent généralement le matériau de la surface de l'actif en se basant sur le bon sens ou sur des prototypes d'objets du monde réel. En revanche, les méthodes de création d'actifs 3D basées sur des modèles génératifs utilisent SVBRDF pour déduire des informations sur les matériaux, mais en raison du manque d'échantillons d'actifs 3D précis de haute qualité, ces méthodes ont du mal à générer des informations sur les canaux de matériaux physiques avec une généralisation et une fidélité élevées. De plus, ce type de méthode ne parvient pas non plus à utiliser les données massives d’images Web présentes sur des sites Web publics pour enrichir les connaissances préalables sur les informations sur les matériaux de la surface des objets.

Par conséquent, cet article se concentre sur la manière d'introduire des connaissances préalables sur les matériaux dans les images 2D dans la tâche de résolution de la définition des informations matérielles pour les actifs 3D.

Ensemble de données MIO

Cet article tente d'abord d'extraire des connaissances préalables sur la classification des matériaux à partir d'ensembles de données d'actifs 3D existants. Cependant, en raison du trop petit nombre d'échantillons dans l'ensemble de données et d'un style unique, il est difficile pour le modèle de segmentation d'acquérir des connaissances préalables correctes.

Par rapport aux ressources 3D, les images 2D sont plus largement disponibles sur les sites Web publics ou sur les ensembles de données. Cependant, il existe un écart important dans la distribution des ensembles de données d'images 2D annotées et des rendus d'actifs 3D existants, et ne peut pas fournir directement une connaissance préalable suffisante des matériaux.

Par conséquent, cet article a construit un ensemble de données personnalisé MIO (Objets Individuels Matérialisés), qui est actuellement le plus grand ensemble de données de segmentation de matériaux 2D d'actifs matériels complexes uniques multicatégories. Il contient des images échantillonnées sous différents angles de caméra et a été compilé par un. équipe professionnelle. Notes précises.

^{Exemple visuel d'annotation de classe de matériaux et de PBR cartographie de la sphère matérielle.}

Lors de la construction de cet ensemble de données, cet article suit les règles suivantes :

Chaque image échantillonnée ne contient qu'un seul objet important au premier plan
Collectez un nombre similaire d'images 2D de scènes réelles et de rendus d'actifs 3D
Collectez des échantillons d'images sous différents angles de caméra, y compris des perspectives spéciales telles que la vue de dessus et la vue de dessous

Le caractère unique de l'ensemble de données MIO est qu'il construit non seulement des étiquettes au niveau des pixels pour chaque catégorie de matériau, mais les construit également séparément. une relation de mappage un à un entre chaque catégorie de matériau et la valeur du matériau PBR. Ces relations de cartographie ont été déterminées après des discussions entre neuf modélisateurs 3D professionnels. Cet article a collecté plus de 1 000 boules de matériaux PBR réels provenant de la bibliothèque de matériaux publique en tant que matériaux candidats, puis les a examinés et spécifiés sur la base des connaissances professionnelles du modélisateur. Enfin, 14 catégories de matériaux ont été déterminées et leur relation de cartographie avec le matériau PBR a été la même. L'espace d'étiquette de l'ensemble de données.

L'ensemble de données MIO contient un total de 23 062 images multi-vues d'objets complexes uniques, qui sont divisées en 5 grandes méta-catégories : meubles, voitures, bâtiments, instruments de musique et plantes. en 20 catégories spécifiques, il convient particulièrement de mentionner que l'ensemble de données MIO contient environ 4 000 images vues de dessus, offrant une perspective unique rarement vue dans les ensembles de données 2D existants.

MaterialSeg3D

Avec l'ensemble de données MIO comme source fiable de connaissances préalables sur les informations sur les matériaux, cet article propose ensuite un nouveau paradigme pour la prédiction des matériaux de surface des actifs 3D nommé MaterialSeg3D, pour une génération raisonnable donnée. Matériaux PBR sur la surface de l'actif, de manière à simuler véritablement les propriétés physiques de l'objet, y compris l'éclairage, les ombres et les reflets, afin que l'objet 3D puisse montrer un degré élevé d'authenticité et de cohérence dans divers environnements, offrant aux actifs 3D existants un haut degré d'authenticité et de cohérence. Proposer des solutions efficaces au problème du manque d'informations matérielles.

MaterialSeg3D L'ensemble du flux de traitement comprend trois parties : le rendu multi-vues des actifs 3D, la prédiction des matériaux sous multi-vues et la génération UV de matériaux 3D. Au cours de l'étape de rendu multi-vues, les poses de la caméra pour la vue de dessus, la vue latérale et 12 angles surround ont été déterminées, ainsi que des angles d'inclinaison aléatoires pour générer des images rendues en 2D. Au cours de l'étape de prédiction des matériaux, le modèle de segmentation des matériaux formé sur la base de l'ensemble de données MIO est utilisé pour prédire les étiquettes de matériaux au niveau des pixels pour les rendus multi-vues. Au cours de l'étape de génération d'UV de matériau, les résultats de prédiction de matériau sont mappés sur la carte UV temporaire, et l'étiquette de matériau finale UV est obtenue via un mécanisme de vote pondéré et convertie en une carte de matériau PBR.

Effets et expériences visualisés

Pour évaluer l'efficacité de MaterialSeg3D, cet article mène une analyse expérimentale quantitative et qualitative similaire aux travaux récents, en se concentrant sur trois aspects : une image unique vers la méthode de génération d'actifs 3D, la génération de textures et les actifs 3D publics. Pour les méthodes de génération d'images uniques et d'actifs 3D, des comparaisons ont été effectuées avec Wonder3D, TripoSR et OpenLRM, qui prennent une certaine vue de référence de l'actif en entrée et génèrent directement des objets 3D avec des caractéristiques de texture. On observe à travers les images visuelles que les actifs traités par MaterialSeg3D présentent une amélioration significative du réalisme du rendu par rapport aux travaux précédents. L'article compare également les méthodes de génération de texture existantes, telles que Fantasia3D, Text2Tex et la fonctionnalité en ligne fournie par le site Web Meshy, qui peuvent générer des résultats de texture basés sur des informations d'invite de texte.

Sur cette base, MaterialSeg3D peut générer des informations précises sur les matériaux PBR dans différentes conditions d'éclairage, rendant l'effet de rendu plus réaliste.

L'expérience quantitative utilise CLIP Similarity, PSNR et SSIM comme indicateurs d'évaluation, sélectionne les actifs de l'ensemble de données Objaverse-1.0 comme échantillons de test et sélectionne au hasard trois angles de caméra comme nouvelles vues.

Ces expériences prouvent l'efficacité de MaterialSeg3D. Il peut générer des informations sur les matériaux PBR manquantes dans les actifs 3D publics, fournissant ainsi des actifs de meilleure qualité aux modélisateurs et aux travaux de recherche ultérieurs.

Résumé et perspectives

Cet article explore le problème de la génération de matériaux de surface pour les actifs 3D et construit un ensemble de données de segmentation de matériaux 2D personnalisé MIO. Avec la prise en charge de cet ensemble de données fiables, un nouveau paradigme de génération de matériaux de surface d'actifs 3D, MaterialSeg3D, est proposé, qui peut générer des informations de matériaux PBR indépendantes découplées pour un seul actif 3D, améliorant ainsi considérablement les performances des actifs 3D existants dans différentes conditions d'éclairage. est réaliste et raisonnable.

L'auteur souligne que les recherches futures se concentreront sur l'augmentation du nombre de métaclasses d'objets dans l'ensemble de données, l'augmentation de la taille de l'ensemble de données en générant des pseudo-étiquettes et l'auto-entraînement du modèle de segmentation matérielle, afin que ce paradigme de génération puisse être directement appliqué à la plupart des types d’objets 3D.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!