Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux-IA-php.cn

Les champs de rayonnement neuronal (NeRF) sont devenus une nouvelle méthode de synthèse de vues populaire. Bien que NeRF se généralise rapidement à un plus large éventail d’applications et d’ensembles de données, l’édition directe des scénarios de modélisation NeRF reste un énorme défi. Une tâche importante consiste à supprimer les objets indésirables d'une scène 3D et à maintenir la cohérence avec la scène environnante. Cette tâche est appelée inpainting d'image 3D. En 3D, les solutions doivent être cohérentes sur plusieurs vues et être géométriquement valides.

Dans cet article, des chercheurs de Samsung, de l'Université de Toronto et d'autres institutions proposent une nouvelle méthode d'inpainting 3D pour résoudre ces défis, étant donné un petit ensemble d'images de pose et des annotations clairsemées dans une seule image d'entrée, le cadre de modèle proposé est le premier. Obtenez rapidement le masque de segmentation tridimensionnelle de l'objet cible et utilisez le masque, puis introduisez une méthode basée sur l'optimisation perceptuelle, qui utilise les images bidimensionnelles apprises pour réparer, extraire leurs informations dans l'espace tridimensionnel, tout en assurant la cohérence de la vue.

Cette étude apporte également une nouvelle référence pour évaluer les méthodes d'inpainting 3D sur scène en formant un ensemble de données de scène réelles difficiles. En particulier, cet ensemble de données contient des vues de la même scène avec et sans objets cibles, permettant une analyse comparative plus rigoureuse des tâches d'inpainting dans l'espace 3D.

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Adresse papier : https://arxiv.org/pdf/2211.12254.pdf
Page d'accueil papier : https://spinnerf3d.github.io/

Ce qui suit est une démonstration de l'effet. Après avoir supprimé certains objets, il peut toujours conserver une cohérence avec la scène environnante :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Comparaison entre cette méthode et d'autres méthodes ont des artefacts évidents, alors que cette méthode. Pas si évident :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Introduction à la méthode

L'auteur aborde divers défis liés aux tâches d'édition de scènes 3D grâce à une approche intégrée qui obtient des images multi-vues de la scène et extrait des images 3D avec un masque de saisie utilisateur, et s'adapte à l'image du masque en utilisant la formation NeRF, de sorte que l'objet cible soit remplacé par une apparence et une géométrie tridimensionnelles raisonnables. Les méthodes de segmentation 2D interactives existantes ne prennent pas en compte l'aspect 3D, et les méthodes actuelles basées sur NeRF ne peuvent pas obtenir de bons résultats en utilisant des annotations clairsemées et n'atteignent pas une précision suffisante. Bien que certains algorithmes actuels basés sur NeRF permettent la suppression d’objets, ils ne tentent pas de fournir des parties d’espace nouvellement générées. Selon les progrès actuels de la recherche, ce travail est le premier à gérer simultanément la segmentation interactive multi-vues et la restauration complète d'images 3D dans un seul cadre.

Les chercheurs utilisent des modèles prêts à l'emploi et sans 3D pour la segmentation et la restauration d'images, et transfèrent leur sortie dans l'espace 3D de manière cohérente. S'appuyant sur des travaux de segmentation interactive 2D, le modèle proposé part d'un petit nombre de points d'image calibrés par l'utilisateur avec la souris sur un objet cible. À partir de là, leur algorithme initialise le masque avec un modèle vidéo et l’entraîne à une segmentation 3D cohérente en ajustant le NeRF d’un masque sémantique. Ensuite, la restauration d'image 2D pré-entraînée est appliquée à l'ensemble d'images multi-vues. Le processus d'ajustement NeRF est utilisé pour reconstruire la scène d'image 3D, en utilisant la perte de perception pour limiter l'incohérence de l'image 2D et la géométrie de l'image normalisée. masque de la zone d’image de profondeur. Dans l'ensemble, nous proposons une approche complète, de la sélection d'objets à la synthèse de nouvelles vues de scènes intégrées, dans un cadre unifié avec une charge minimale pour l'utilisateur, comme le montre la figure ci-dessous.

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

En résumé, les apports de ce travail sont les suivants :

Un processus complet d'opération de scène 3D, commençant par la sélection des objets d'interaction utilisateur et se terminant par une scène NeRF réparée en 3D
Étendez le modèle de segmentation 2D aux situations multi-vues et soyez capable de récupérer des annotations clairsemées avec des masques 3D cohérents ;
garantissant la cohérence de la vue et la plausibilité de la perception, une nouvelle formulation d'inpainting 3D basée sur l'optimisation utilisant l'inpainting d'images 2D ;
une nouvelle évaluation pour les tâches d'édition 3D. L'ensemble de données comprend la vérité Groud post-opération correspondante ;

Plus précisément sur la méthode, cette étude décrit d'abord comment initialiser un masque 3D approximatif à partir d'annotations à vue unique. Désignons la vue du code source annoté par I_1. Transmettez des informations éparses sur les objets et les vues sources à un modèle de segmentation interactif pour estimer les masques d'objets sources initiaux Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux . La vue d'entraînement est ensuite donnée sous forme de séquence vidéo, avec étant donné un modèle de segmentation d'instance vidéo V pour calculer Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux , où est la supposition initiale du masque d'objet de I_i. Les masques initiaux sont souvent inexacts à proximité des limites, car les vues d'entraînement ne sont pas réellement des images vidéo adjacentes et les modèles de segmentation vidéo sont souvent inconnus en 3D.

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Le module de segmentation multi-vues prend l'image RVB d'entrée, les paramètres intrinsèques et extrinsèques de la caméra correspondants et le masque initial pour former un NeRF sémantique. Le diagramme ci-dessus représente le réseau utilisé dans le NeRF sémantique ; pour un point x et un répertoire de vue d, en plus de la densité σ et de la couleur c, il renvoie un logit d'objet pré-sigmoïde, s (x). Pour sa convergence rapide, les chercheurs ont utilisé le NGP instantané comme architecture NeRF. L'objectivité souhaitée associée à un rayon r est obtenue en présentant le logarithme des points sur r plutôt que leur couleur par rapport à la densité dans l'équation :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Utilisez ensuite une perte de classification pour la supervision :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

La perte globale utilisée pour superviser le modèle de segmentation multi-vues basé sur NeRF est :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Enfin, deux étapes sont utilisées pour l'optimisation afin d'améliorer encore le masque après l'obtention d'Après ; le masque 3D initial, le masque est rendu à partir des vues d'entraînement et utilisé pour superviser le modèle de segmentation multi-vues secondaire comme hypothèse initiale (au lieu de la sortie de segmentation vidéo).

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

L'image ci-dessus montre un aperçu de la méthode de correction de cohérence de vue. Comme le manque de données empêche la formation directe de modèles d'inpainting modifiés en 3D, cette étude exploite les modèles d'inpainting 2D existants pour obtenir des priors de profondeur et d'apparence, puis supervise le rendu NeRF adapté à la scène complète. Ce NeRF intégré est entraîné en utilisant la perte suivante :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Cette étude propose une méthode d'inpainting cohérente avec la vue où l'entrée est RVB. Tout d’abord, l’étude transfère les paires d’images et de masques vers un inpainter d’images pour obtenir une image RVB. Puisque chaque vue est réparée indépendamment, les vues réparées sont directement utilisées pour superviser la reconstruction de NeRF. Dans cet article, au lieu d’utiliser l’erreur quadratique moyenne (MSE) comme perte pour générer des masques, les chercheurs proposent d’utiliser la perte de perception LPIPS pour optimiser la partie masquée de l’image, tout en utilisant MSE pour optimiser la partie non masquée. Cette perte est calculée comme suit :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Même avec une perte de perception, la réparation des différences entre les vues peut guider incorrectement le modèle pour qu'il converge vers une géométrie de mauvaise qualité (par exemple, un "flou" peut se former près de la caméra mesure de la géométrie, pour interpréter différentes informations pour chaque vue). Par conséquent, les chercheurs ont utilisé la carte de profondeur générée comme guide supplémentaire pour le modèle NeRF et ont séparé les poids lors du calcul de la perte de perception, en utilisant la perte de perception pour s'adapter uniquement à la couleur de la scène. Pour ce faire, nous avons utilisé un NeRF optimisé pour les images contenant des objets indésirables et rendu des cartes de profondeur correspondant aux vues d'entraînement. La méthode de calcul consiste à utiliser la distance à la caméra au lieu de la couleur du point :

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Ensuite, la profondeur rendue est entrée dans le modèle du réparateur pour obtenir la carte de profondeur réparée. Des recherches ont montré que l'utilisation de LaMa pour le rendu en profondeur, tel que RVB, peut donner des résultats de suffisamment haute qualité. Ce NeRF peut être le même modèle que celui utilisé pour la segmentation multi-vues. Si d'autres sources sont utilisées pour obtenir les masques, comme des masques annotés humains, un nouveau NeRF sera installé dans la scène. Ces cartes de profondeur sont ensuite utilisées pour superviser la géométrie du NeRF peint, par lequel la profondeur rendue est ensuite introduite dans le modèle inpainter pour obtenir la carte de profondeur peinte. Des recherches ont montré que l'utilisation de LaMa pour le rendu en profondeur, tel que RVB, peut donner des résultats de suffisamment haute qualité. Ce NeRF peut être le même modèle que celui utilisé pour la segmentation multi-vues. Si d'autres sources sont utilisées pour obtenir les masques, comme des masques annotés humains, un nouveau NeRF sera installé dans la scène. Ces cartes de profondeur sont ensuite utilisées pour superviser la géométrie du NeRF peint par sa profondeur de rendu à la profondeur peinte Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux à la profondeur peinte distance :

Résultats expérimentaux

Segmentation multi-vues : évaluez d'abord le MVSeg modèle sans aucun correctif d’édition. Dans cette expérience, on suppose que les points d'image clairsemés ont reçu un modèle de segmentation interactif prêt à l'emploi et que des masques sources sont disponibles. La tâche consiste donc à transférer le masque source dans d’autres vues. Le tableau ci-dessous montre que le nouveau modèle surpasse les lignes de base 2D (3D incohérentes) et 3D. De plus, l’optimisation en deux étapes proposée par les chercheurs permet d’améliorer encore le masque obtenu.

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Qualitativement parlant, la figure ci-dessous compare les résultats du modèle de segmentation des chercheurs avec les résultats de NVOS et de certaines méthodes de segmentation vidéo. Comparé aux bords épais des modèles de segmentation vidéo 3D, leur modèle réduit le bruit et améliore la cohérence de la vue. Bien que NVOS utilise des gribouillis au lieu des points clairsemés utilisés dans le nouveau modèle des chercheurs, le MVSeg du nouveau modèle est visuellement supérieur à NVOS. La base de code NVOS n'étant pas disponible, les chercheurs ont répliqué les résultats qualitatifs publiés sur NVOS (voir le document supplémentaire pour plus d'exemples).

Le tableau ci-dessous montre la comparaison de la méthode MV avec la ligne de base. Dans l'ensemble, la méthode nouvellement proposée surpasse considérablement les autres méthodes de réparation 2D et 3D. Le tableau ci-dessous montre en outre que la suppression du guidage des structures géométriques dégrade la qualité de la scène réparée.

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux

Les résultats qualitatifs sont présentés dans la Figure 6 et la Figure 7. La figure 6 montre que notre méthode peut reconstruire des scènes cohérentes avec des textures détaillées, y compris des vues cohérentes de surfaces brillantes et mates. La figure 7 montre que notre méthode de perception réduit les contraintes sur la reconstruction précise des régions de masque, empêchant ainsi l'apparition de flou lors de l'utilisation de toutes les images, tout en évitant les artefacts provoqués par la supervision d'une seule vue.

Une nouvelle recherche de NeRF est arrivée : les scènes 3D sont supprimées sans trace, sans objets, avec une précision parfaite pour les cheveux