Les résultats de la recherche sur la technologie de rendu inverse ont été sélectionnés pour la meilleure conférence de vision par ordinateur CVPR pendant deux années consécutives, et du traitement d'une seule image à la couverture de l'intégralité de la scène intérieure, la base technologique d'algorithme visuel de RuShi dans le domaine de la reconstruction tridimensionnelle a été clairement démontré.
La reconstruction tridimensionnelle est l'un des sujets brûlants en vision par ordinateur (CV) et en infographie (CG). Elle utilise la technologie CV pour traiter des images bidimensionnelles d'objets réels et de scènes capturées par des capteurs tels que des caméras pour obtenir leurs trois dimensions. -modèles dimensionnels. À mesure que les technologies connexes continuent de mûrir, la reconstruction 3D est de plus en plus utilisée dans de nombreux domaines tels que les maisons intelligentes, le tourisme AR, la conduite autonome et les cartes de haute précision, les robots, l'urbanisme, la reconstruction de reliques culturelles et le divertissement cinématographique.
Reconstruction de visage 3D typique basée sur des images 2D. Source de l'image : 10.1049/iet-cvi.2013.0220
La reconstruction tridimensionnelle traditionnelle peut être grossièrement divisée en méthodes photométriques et géométriques. La première analyse les changements de luminosité des pixels, et la seconde s'appuie sur la parallaxe pour terminer la reconstruction. Ces dernières années, l'apprentissage automatique, en particulier la technologie d'apprentissage profond, a commencé à être utilisé, obtenant de bons résultats en matière de détection de caractéristiques, d'estimation de profondeur, etc. Bien que certaines méthodes actuelles utilisent des modèles géométriques spatiaux et des cartes de texture, l’apparence de la scène est presque identique à celle du monde réel.
Cependant, il convient de noter que ces méthodes ont encore certaines limites. Elles ne peuvent que restaurer les caractéristiques d'apparence de la scène et ne peuvent pas numériser des attributs plus profonds tels que l'éclairage, la réflectivité et la rugosité de la scène, et encore moins interroger et modifier ces attributs profonds. informations. Je me suis levé. Cela entraîne également l'impossibilité de les convertir en ressources de rendu PBR pouvant être utilisées par le moteur de rendu et ne pouvant donc pas produire des effets de rendu réalistes. Comment résoudre ces problèmes ? La technologie de rendu inverse est progressivement entrée dans le champ de vision des gens.
La tâche de rendu inverse a été proposée pour la première fois par l'ancienne génération d'informaticiens Barrow et Tenenbaum en 1978. Basée sur la reconstruction tridimensionnelle, elle restaure en outre les attributs intrinsèques de la scène tels que l'éclairage, la réflectivité, la rugosité et la métallicité pour obtenir un rendu plus réaliste. Cependant, la décomposition de ces attributs à partir d’images est extrêmement instable, et différentes configurations d’attributs conduisent souvent à des apparences similaires. Avec les progrès du rendu différenciable et de la représentation neuronale implicite, certaines méthodes ont obtenu de bons résultats dans de petites scènes centrées sur les objets avec des priorités explicites ou implicites.
Cependant, le rendu inverse des scènes d'intérieur à grande échelle n'a pas été bien résolu. Non seulement il est difficile de restaurer des matériaux physiquement raisonnables dans des scènes réelles, mais il est également difficile d'assurer la cohérence de plusieurs perspectives au sein de la scène. Il existe une telle entreprise technologique nationale qui est profondément engagée dans la recherche et le développement indépendants d'algorithmes de base et se concentre sur les applications industrielles à grande échelle dans le domaine de la reconstruction 3D - Realsee. Elle a été pionnière sur le sujet difficile du rendu inverse à grande échelle. scènes d'intérieur. Un cadre de rendu inverse multi-vues efficace. L'article a été accepté pour la conférence CVPR 2023.
Plus précisément, Rushixin Basé sur des données spatiales précises données, ce procédé peut spéculer à l'envers pour obtenir les attributs intrinsèques de la scène tels que l'éclairage, la réflectivité, la rugosité, etc., et restaurer les performances d'éclairage et de matériau proches de la scène réelle sur la base de la reconstruction tridimensionnelle, ce qui améliore la reconstruction L'effet, la rentabilité et l'application ont été considérablement améliorés.
Cet article comprendre en détail la technologie de rendu inverse multi-vues de Rushi pour les scènes d'intérieur à grande échelle et fournira une analyse approfondie de ses avantages.
La figure 2 ci-dessous montre le processus global de la nouvelle méthode de rendu inverse de Rushi. Étant donné un ensemble calibré d’images HDR d’une scène intérieure à grande échelle, la méthode vise à récupérer avec précision un éclairage globalement cohérent et des SVBRDF (fonctions de distribution de réflectance bidirectionnelle), permettant une intégration facile dans les pipelines d’images et les applications en aval.
Afin d'atteindre ces objectifs, Rushi a d'abord proposé une représentation d'éclairage compacte appelée TBL (Texture-based Lighting), qui se compose de maillages 3D et de textures HDR, et modélise efficacement n'importe quelle position de l'ensemble de la grande scène intérieure. éclairage pour un éclairage indirect direct et à rebond infini. Sur la base de TBL, Rushi a en outre proposé une Représentation d'éclairage mixte avec irradiance pré-calculée, qui a considérablement amélioré l'efficacité et réduit le bruit de rendu dans l'optimisation des matériaux. Enfin, Rushi a introduit une stratégie d'optimisation des matériaux en trois étapes basée sur la segmentation, qui peut bien gérer l'ambiguïté physique des matériaux dans des scènes d'intérieur complexes à grande échelle.
Éclairage basé sur la texture (TBL)
Dans la représentation de l'éclairage de scènes intérieures à grande échelle, les avantages du TBL se manifestent dans la compacité de la représentation neuronale, l'interprétabilité et la cohérence spatiale de l'éclairage global IBL et de la lumière paramétrique. Le TBL est une représentation globale de la scène entière, définissant l'irradiance émise de tous les points de la surface. L'irradiance émise d'un point de surface est généralement égale à la valeur de la texture HDR, c'est-à-dire l'irradiance HDR observée du pixel correspondant dans l'image HDR d'entrée.
Rushi utilise une technologie de reconstruction 3D de haute qualité développée par lui-même pour reconstruire le modèle de maillage de l'ensemble de la grande scène. Enfin, la texture HDR est reconstruite sur la base de l'image HDR d'entrée, et l'éclairage global est interrogé depuis n'importe quelle position et n'importe quelle direction via la texture HDR. La figure 3 ci-dessous (à gauche) montre une visualisation de TBL.
Représentation d'éclairage mixte
En pratique, l'utilisation directe de TBL pour optimiser les matériaux présente des inconvénients. Le nombre élevé d'échantillons de Monte Carlo entraînera des coûts de calcul et de mémoire élevés. Étant donné que la plupart du bruit existe dans la composante diffuse, l'irradiance des points de surface pour la composante diffuse est précalculée. L'irradiance peut donc être interrogée efficacement, remplaçant ainsi les calculs en ligne coûteux, comme le montre la figure 3 (à droite). L'équation de rendu basée sur TBL est réécrite de l'équation (1) à l'équation (2).
Rushi propose deux représentations pour modéliser l'irradiance précalculée. L'un est le Neural Irradiance Field (NIrF), qui est un perceptron multicouche peu profond (MLP) qui prend des points de surface en entrée et produit l'irradiance p. L'autre est Irradiance Texture (IrT), qui est similaire à la carte de lumière couramment utilisée en infographie.
Comme vous pouvez le voir, cette représentation d'éclairage hybride comprend une irradiance précalculée pour la composante diffuse et une source TBL pour la composante spéculaire, ce qui réduit considérablement le bruit de rendu et permet une optimisation efficace des matériaux. La composante diffuse dans l'équation (2) est modélisée comme indiqué dans l'équation (3).
Estimation des matériaux en trois étapes basée sur la segmentation
Pour les matériaux neuronaux, il est difficile de modéliser des scènes à grande échelle avec des matériaux extrêmement complexes, et cela ne convient pas aux moteurs graphiques traditionnels. Au lieu d'opter pour une texture matérielle explicite qui optimise directement la géométrie, une version simplifiée du modèle Disney BRDF a été utilisée avec l'albédo SV et la rugosité SV comme paramètres. Cependant, en raison de la rareté des observations, l’optimisation directe des textures explicites des matériaux entraîne une rugosité incohérente et non convergente.
À cet égard, Rushi utilise des priorités sémantiques et de segmentation des pièces pour résoudre ce problème, où les images sémantiques sont prédites par un modèle basé sur l'apprentissage et la segmentation des pièces est calculée par une grille d'occupation. Dans le processus de mise en œuvre, Rushi adopte une stratégie en trois étapes.
La première étape optimise l'albédo clairsemé sur la base de l'hypothèse lambertienne, au lieu d'initialiser l'albédo à une constante comme dans les petites scènes centrées sur les objets. Bien que l'albédo diffus puisse être calculé directement par la formule (3), cela rendra l'albédo trop brillant dans la zone de surbrillance, ce qui entraînera une rugosité excessive à l'étape suivante. Par conséquent, comme le montre l’équation (4) ci-dessous, nous utilisons des contraintes de lissage sémantique pour induire un albédo similaire sur la même segmentation sémantique. L'albédo clairsemé est optimisé par l'équation (5).
Échantillonnage basé sur les surbrillance virtuelles (VHL) de deuxième étape et propagation basée sur la sémantique. Dans les images multi-vues, seuls des signaux spéculaires clairsemés peuvent être observés, conduisant à une rugosité globalement incohérente, en particulier dans les scènes à grande échelle. Cependant, grâce à une segmentation sémantique préalable, une rugosité raisonnable dans les zones en surbrillance peut être propagée aux zones ayant la même sémantique.
Rushi restitue d'abord l'image en fonction de la pose d'entrée avec une rugosité de 0,01 pour trouver les régions VHL pour chaque classe sémantique, puis optimise la rugosité de ces VHL en fonction de l'albédo clairsemé et de l'éclairage gelés. Une rugosité raisonnable peut être propagée dans la même segmentation sémantique via l'équation (6), et cette rugosité peut être optimisée via l'équation (7).
La troisième étape du réglage fin basé sur la segmentation. RuShi affine toutes les textures matérielles en fonction des priorités de segmentation sémantique et de segmentation de pièce. Plus précisément, Rushi utilise une contrainte de lissage similaire à l'équation (4) et une contrainte de lissage de pièce pour la rugosité afin de rendre la rugosité des différentes pièces plus douce et plus lisse. La contrainte de lissage de la pièce est définie par l'équation (8), même si n'utilisant aucune contrainte de lissage sur l'albédo, la perte totale est définie par l'équation (9).
Paramètres expérimentaux et comparaison des effets
Concernant le ensemble de données, Rushi a utilisé deux ensembles de données : ensemble de données synthétiques et ensemble de données réelles. Pour le premier, Rushi a utilisé un traceur de chemin pour créer une scène composite avec différents matériaux et lumières, rendant 24 vues pour l'optimisation et 14 nouvelles vues, rendant des images matérielles Ground Truth pour chaque vue. Pour ces derniers, en raison du manque d'images Full HDR dans les ensembles de données réelles de scènes à grande échelle couramment utilisées telles que Scannet, Matterport3D et Replica, Rushi a collecté 10 ensembles de données réelles Full HDR et en a capturé 10 à 20 en fusionnant 7 expositions bracketées. Une image panoramique full HDR.
À propos de la Méthode de base. Pour récupérer des SVBRDF à partir d'images multi-vues de scènes à grande échelle, les méthodes de rendu inverse actuelles incluent la méthode SOTA basée sur l'apprentissage d'une image unique PhyIR, la méthode de rendu neuronal SOTA centrée sur l'objet multi-vues InvRender, NVDIFFREC et NeILF. Concernant les métriques d'évaluation, nous utilisons PSNR, SSIM et MSE pour évaluer les prédictions matérielles et les images restituées à des fins de comparaison quantitative, et utilisons MAE et SSIM pour évaluer les images ré-éclairées rendues par différentes représentations d'éclairage.
Premièrement regardez l'évaluation sur l'ensemble de données synthétiques, comme le montrent le tableau 1 et la figure 4 ci-dessous, La méthode telle que vue surpasse considérablement la méthode SOTA dans l'estimation de la rugosité, et la rugosité peut produire une réflectance spéculaire physiquement raisonnable. De plus, par rapport à la représentation implicite originale, NeILF avec représentation visuelle d'éclairage hybride réduit l'ambiguïté entre les matériaux et l'éclairage.
Puis évalué sur un ensemble de données difficiles du monde réel contenant des matériaux et un éclairage complexes. Les résultats de comparaison quantitative dans le tableau 2 ci-dessous montrent que la méthode RuShi est supérieure aux méthodes précédentes. Bien que ces méthodes comportent des erreurs de rendu approximatives, seule la méthode visuelle découple les matériaux globalement cohérents et physiquement sains.
La figure 5 et la figure 6 ci-dessous montrent respectivement une comparaison qualitative de la vue 3D et de la vue image 2D. PhyIR a de mauvaises performances de généralisation en raison de grandes lacunes dans les domaines et ne peut pas atteindre une prédiction de cohérence globale. InvRender, NVDIFFREC et NeILF ont produit des prédictions floues avec des artefacts qui rendaient difficile le découplage du bon matériau. Bien que NVDIFFREC puisse atteindre des performances similaires à celles de la méthode RuSight, il ne peut pas dissocier l'ambiguïté entre l'albédo et la rugosité, de sorte que les reflets de la composante spéculaire sont incorrectement restaurés en albédo diffus.
Expériences d'ablation
Pour démontrer l'efficacité de ses stratégies de représentation de l'éclairage et d'optimisation des matériaux, telles que TBL, représentation d'éclairage mixte, initialisation de l'albédo dans la première étape et estimation de la rugosité dans la deuxième étape L'échantillonnage VHL et la propagation sémantique et la troisième étape de réglage fin basé sur la segmentation ont été réalisées pour les expériences d'ablation.
Premièrementa comparé le TBL avec les méthodes d'éclairage SH et SG qui sont largement utilisées dans les méthodes précédentes Les résultats sont présentés dans la figure 7 ci-dessous. Comme le montre la figure 7, le TBL montre une haute fidélité à la fois en basse fréquence et en haute fréquence. caractéristiques de fréquence.
Deuxièmement, vérifiez l'efficacité de la représentation d'éclairage mixte,comparez la représentation d'éclairage mixte avec le TBL original, et les résultats sont présentés dans la figure 8 ci-dessous. Sans représentation d'éclairage mixte, l'albédo peut provoquer du bruit et converger lentement. L'introduction de l'irradiance précalculée permet d'utiliser des entrées haute résolution pour récupérer des matériaux fins et accélère considérablement le processus d'optimisation. Dans le même temps, IrT produit un albédo plus fin et sans artefacts par rapport au NIrF.
Enfinl'efficacité de la stratégie en trois étapes a été vérifiée, et les résultats sont présentés dans le tableau 3 et la figure 9 ci-dessous. La rugosité de base ne parvient pas à converger et seules les zones en surbrillance sont mises à jour. Sans initialisation de l'albédo dans la première étape, les zones claires seront trop lumineuses et entraîneront une rugosité incorrecte. La deuxième étape de l'échantillonnage basé sur VHL et de la propagation sémantique est cruciale pour récupérer une rugosité raisonnable dans les zones où les reflets spéculaires ne sont pas observés. La troisième étape du réglage fin basé sur la segmentation produit un albédo fin, rendant la rugosité finale plus lisse et empêchant la propagation des erreurs de rugosité entre différents matériaux.
En fait, Rushi a obtenu des résultats SOTA sur la tâche de rendu inverse d'une seule image en proposant une méthode de formation de réseau neuronal dans son article CVPR 2022 « PhyIR : Rendu inverse basé sur la physique pour les images panoramiques en intérieur ». Désormais, le nouveau cadre de rendu inverse permet non seulement d'obtenir des perspectives multiples, la maison entière, l'espace et la scène, mais résout également de nombreux défauts clés des méthodes de rendu inverse précédentes.
Tout d'abordLes méthodes précédentes basées sur la formation de données synthétiques ne fonctionnaient pas bien dans des scénarios réels. Le nouveau cadre de rendu inverse en profondeur de Rushi introduit pour la première fois une « scène hiérarchique préalable » grâce à une optimisation des matériaux en plusieurs étapes et en combinaison avec la plus grande base de données spatiales tridimensionnelles au monde dans l'espace numérique de Rushi, l'éclairage, la réflectivité et la lumière dans l'espace de vie. l'espace sont analysés. Les propriétés physiques telles que la rugosité permettent des prédictions hiérarchiques et précises.
Les résultats de la prédictionLe résultat final est une carte de matériaux multi-types physiquement raisonnable et globalement cohérente, qui convertit de manière transparente les données de scène intérieure réellement capturées par l'équipement Rushi en ressources de rendu numérique, s'adaptant à tous les moteurs de rendu grand public actuels tels que Unity et Blender, cela permet la génération automatique d'actifs de scène et d'applications MR basées sur la physique, telles que l'édition de matériaux, la synthèse de nouvelles vues, le rééclairage, l'insertion d'objets virtuels, etc. Cet actif numérique très polyvalent est propice à la prise en charge d’un plus grand nombre d’applications et de produits différents à l’avenir.
Édition de matériaux
Relighting
DeuxièmementLes méthodes de rendu différenciables précédentes basées sur l'optimisation sont extrêmement coûteuses en calcul et extrêmement inefficaces. Ces dernières années, afin de mieux résoudre le problème du rendu inverse et de réduire la dépendance aux données d'entraînement, la méthode de rendu différentiable a été proposée, c'est-à-dire via la méthode de « dérivation différentielle » pour rendre le rendu différenciable vers l'avant, puis vers l'arrière. propager le dégradé aux paramètres de rendu, et enfin les paramètres à résoudre en fonction de la physique sont obtenus par optimisation. De telles méthodes incluent l'éclairage sphérique-harmonique (SH) [1] et l'éclairage sphérique gaussien tridimensionnel (VSG).
Cependant, les scènes d'intérieur à grande échelle présentent un grand nombre d'effets optiques complexes tels que l'occlusion et l'ombre. La modélisation de l'éclairage global dans un rendu différenciable entraînera des coûts de calcul élevés. Par exemple, le TBL proposé cette fois peut représenter efficacement et précisément l'éclairage global des scènes intérieures et ne nécessite qu'environ 20 Mo de mémoire, tandis que l'éclairage VSG basé sur une grille dense [2] nécessite environ 1 Go de mémoire, et l'éclairage VSG basé sur une grille clairsemée [2] nécessite environ 1 Go de mémoire. Méthode d'éclairage SH Plenoxels [3] Environ 750 Mo de mémoire sont nécessaires et la capacité de la mémoire des données a été réduite des dizaines de fois.
De plus, la nouvelle méthode de Rushi peut réaliser le rendu inverse de toute la scène intérieure en30 minutes, tandis que la méthode traditionnelle [4] peut prendre environ 12 heures, ce qui représente une amélioration totale de 24 fois. L'augmentation substantielle de la vitesse de calcul signifie une réduction des coûts et un avantage coût-performance plus significatif, ce qui nous rapproche des applications pratiques à grande échelle.
Enfin, les précédentes méthodes de rendu inverse neuronal de type NeRF (telles que PS-NeRF [5], NeRFactor [6], etc.) sont principalement orientées vers des scènes à petite échelle centrées sur des objets, et elles semblent incapables de modéliser des scènes à grande échelle. scènes intérieures à grande échelle. Basé sur le modèle spatial numérique précis de Rushi et sur une représentation d'éclairage mixte efficace et précise, le nouveau cadre de rendu inverse résout ce problème en introduisant des priorités de segmentation sémantique et de segmentation de pièce. Concernant ce nouveau cadre de rendu inverse en profondeur, Pan Cihui, scientifique en chef de Rushi, a déclaré : « Il permet véritablement une numérisation plus profonde du monde réel et résout le problème des méthodes de rendu inverse précédentes qui étaient difficiles à restaurer des matériaux et des textures physiquement raisonnables dans des scènes réelles. Les problèmes d'éclairage et de cohérence multi-vues ont apporté une plus grande imagination à l'application de la reconstruction 3D et de la MR "Saisissez les avantages de la technologie de rendu inverseInnovez dans l'intégration de l'industrie VR + dans l'espace numériqueToujours, comme Vision. a accumulé beaucoup de technologie dans le domaine de la reconstruction 3D et a investi beaucoup d'énergie dans le peaufinage et le travail sur la mise en œuvre d'algorithmes associés. Dans le même temps, il soutient grandement la recherche et le développement de technologies de pointe et attache une grande importance à la conquête des technologies de pointe du secteur. Ceux-ci sont devenus une base importante pour la reconstruction de modèles 3D réels et la recherche en IRM de RuShi, y compris cette nouvelle technologie de rendu inverse, pour gagner la reconnaissance de la communauté universitaire internationale, et ont aidé les capacités algorithmiques de RuShi à atteindre le premier niveau mondial en matière de recherche théorique et technique. candidatures.Ces algorithmes et avantages techniques permettront une numérisation plus profonde du monde réel et accéléreront encore la construction de l'espace numérique. À l'heure actuelle, Rushi Digital Space a accumulé plus de 27 millions d'ensembles de collections dans différents pays et différents scénarios d'application grâce à des équipements de collecte auto-développés, couvrant une superficie de 2,274 milliards de mètres carrés. Rushi Digital Space soutiendra également son orientation vers le développement de l'intégration de l'industrie VR +, apportant de nouvelles opportunités de développement pour la mise à niveau des applications numériques dans le commerce de détail, les installations industrielles, les expositions culturelles, les affaires publiques, la décoration intérieure, les transactions immobilières et d'autres secteurs, tels que la visualisation de maisons en réalité virtuelle. , musée VR et plus encore.
L'assistant marketing IA créé par Rushi
Pour l'intégration de l'industrie VR +, Le plus grand avantage de Rushi réside dans l'algorithme de reconstruction numérique en constante évolution et l'accumulation de données réelles massives, ce qui lui confère une haute technicité barrières et grandes barrières de données. Ces algorithmes et ces données peuvent également circuler entre eux dans une certaine mesure, élargissant ainsi constamment leurs avantages. Dans le même temps, les barrières des données et des algorithmes permettent à Rushi de résoudre plus facilement les problèmes de diverses industries, d'apporter des solutions techniques et d'innover de nouveaux modèles de développement industriel.
Les réalisations de la technologie de rendu inverse ont été sélectionnées dans CVPR pendant deux années consécutives, principalement parce que Rushi souhaite faire une différence dans la direction MR et réaliser une certaine mise en œuvre dans l'industrie. À l'avenir, Rushi espère combler le fossé entre la réalité virtuelle et la simulation virtuelle pure, parvenir véritablement à l'intégration du virtuel et du réel et créer davantage d'applications industrielles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!