Rendu temps réel : modélisation dynamique de scènes urbaines basée sur les Street Gaussians-IA-php.cn

Rendu temps réel : modélisation dynamique de scènes urbaines basée sur les Street Gaussians

王林

Libérer： 2024-01-08 13:49:46

avant

1113 Les gens l'ont consulté

Pour être honnête, la vitesse de mise à jour technologique est en effet très rapide, ce qui a également entraîné le remplacement progressif de certaines anciennes méthodes universitaires par de nouvelles méthodes. Récemment, une équipe de recherche de l’Université du Zhejiang a proposé une nouvelle méthode appelée Gaussiennes, qui a suscité un large intérêt. Cette méthode présente des avantages uniques dans la résolution de problèmes et a été utilisée avec succès dans le travail. Bien que Nerf ait progressivement perdu une certaine influence dans le monde universitaire

Afin d'aider les joueurs qui n'ont pas encore réussi le niveau, jetons un coup d'œil aux méthodes spécifiques de résolution d'énigmes du jeu.

Pour aider les joueurs qui n'ont pas encore réussi le niveau, nous pouvons apprendre ensemble les méthodes spécifiques pour résoudre le puzzle. Pour cela, j'ai trouvé un article sur la résolution d'énigmes, le lien est ici : https://arxiv.org/pdf/2401.01339.pdf. Vous pouvez en apprendre davantage sur les techniques de résolution d’énigmes en lisant cet article. J'espère que cela aidera les joueurs !

Cet article vise à résoudre le problème de la modélisation de scènes de rue urbaines dynamiques à partir de vidéos monoculaires. Des méthodes récentes ont étendu le NeRF pour incorporer des poses de véhicules de suivi dans des véhicules animés, permettant ainsi une synthèse de vues photoréalistes de scènes de rue urbaines dynamiques. Cependant, leurs limites importantes sont la lenteur de l’entraînement et des vitesses de rendu, associées au besoin urgent d’une grande précision dans le suivi des poses des véhicules. Cet article présente les Street Gaussians, une nouvelle représentation de scène explicite qui répond à toutes ces limitations. Plus précisément, les rues dynamiques des villes sont représentées comme un ensemble de nuages de points équipés de logits sémantiques et de gaussiennes 3D, chacun associé à un véhicule ou à un arrière-plan de premier plan.

Pour modéliser la dynamique des véhicules objets au premier plan, chaque nuage de points d'objet peut être optimisé à l'aide de poses de suivi optimisables ainsi que de modèles harmoniques sphériques dynamiques d'apparence dynamique. Cette représentation explicite permet une synthèse simple des véhicules cibles et des arrière-plans, ainsi que des opérations d'édition de scène et de rendu à 133 FPS (résolution 1066×1600) dans la demi-heure suivant la formation. Les chercheurs ont évalué cette approche sur plusieurs critères difficiles, notamment les ensembles de données KITTI et Waymo Open.

Les résultats expérimentaux montrent que la méthode proposée surpasse systématiquement les techniques existantes sur tous les ensembles de données. Bien que nous nous appuyions uniquement sur les informations de pose provenant de trackers disponibles dans le commerce, notre représentation offre des performances comparables à celles obtenues en utilisant des informations de pose réelles.

Afin d'aider les joueurs n'ayant pas encore réussi le niveau, je vous mets à disposition un lien : https://zju3dv.github.io/streetgaussians/, où vous pourrez trouver la méthode spécifique de résolution d'énigmes. Vous pouvez cliquer sur le lien pour référence, j'espère que cela pourra vous aider.

Introduction à la méthode Street Gaussians

Étant donné une séquence d'images capturées à partir d'un véhicule en mouvement dans une scène de rue urbaine, l'objectif de cet article est de développer une méthode capable de générer des images photoréalistes pour n'importe quel pas de temps d'entrée donné et n’importe quel point de vue. Pour atteindre cet objectif, une nouvelle représentation de scène, appelée Street Gaussians, est proposée, spécifiquement conçue pour représenter des scènes de rue dynamiques. Comme le montre la figure 2, la scène de rue urbaine dynamique est représentée comme un ensemble de nuages de points, chaque nuage de points correspondant à un arrière-plan statique ou à un véhicule en mouvement. La représentation explicite basée sur des points permet une composition simple de modèles individuels, permettant un rendu en temps réel ainsi qu'une décomposition des objets de premier plan pour les applications d'édition. La représentation de la scène proposée peut être entraînée efficacement en utilisant uniquement des images RVB ainsi que des poses de véhicules suivis à partir de trackers disponibles dans le commerce, améliorées par notre stratégie d'optimisation de pose de véhicules suivis.

Aperçu des Gaussiens de rue Comme indiqué ci-dessous, les scènes de rue urbaines dynamiques sont représentées comme un ensemble de cibles d'arrière-plan et de premier plan basées sur des points avec des poses de véhicules suivis optimisées. Chaque point se voit attribuer une gaussienne 3D comprenant la position, l'opacité et la covariance comprenant la rotation et l'échelle pour représenter la géométrie. Pour représenter l'apparence, chaque point d'arrière-plan se voit attribuer un modèle harmonique sphérique, tandis que le point de premier plan est associé à un modèle harmonique sphérique dynamique. La représentation explicite basée sur des points permet une combinaison simple de modèles distincts, ce qui permet le rendu en temps réel d'images et de cartes sémantiques de haute qualité (facultatif si des informations sémantiques 2D sont fournies pendant la formation), ainsi que la décomposition des objets de premier plan pour l'édition de l'application

超逼真！实时高质量渲染，用于动态城市场景建模的Street Gaussians

Comparaison des résultats expérimentaux

Nous avons mené des expériences sur l'ensemble de données ouvertes Waymo et le benchmark KITTI. Sur l'ensemble de données ouvertes Waymo, 6 séquences d'enregistrement ont été sélectionnées, contenant un grand nombre d'objets en mouvement, des mouvements d'ego importants et des conditions d'éclairage complexes. La longueur de toutes les séquences est d'environ 100 images, et toutes les 10 images de la séquence sont sélectionnées comme images de test et les images restantes sont utilisées pour l'entraînement. Lorsqu'il a été constaté que notre méthode de base avait un coût de mémoire élevé lors de l'entraînement avec des images haute résolution, les images d'entrée ont été réduites à 1 066 × 1 600. Sur KITTI et Vitural KITTI 2, les paramètres de MARS ont été suivis et évalués en utilisant différents paramètres de répartition train/test. Utilisez les boîtes englobantes générées par le détecteur et le tracker sur l'ensemble de données Waymo et utilisez la trajectoire cible officiellement fournie par KITTI.

超逼真！实时高质量渲染，用于动态城市场景建模的Street Gaussians

Comparez notre méthode avec trois méthodes récentes.

(1) NSG représente l'arrière-plan sous la forme d'une image multiplan et modélise les objets en mouvement à l'aide de codes latents appris pour chaque objet et de décodeurs partagés.

(2) MARS crée des graphiques de scène basés sur Nerfstudio.

(3) La Gaussienne 3D modélise la scène à l'aide d'un ensemble de Gaussiennes anisotropes.

NSG et MARS sont tous deux formés et évalués à l'aide de boîtes GT, différentes versions de leurs implémentations sont essayées ici et les meilleurs résultats pour chaque séquence sont rapportés. Nous remplaçons également les nuages de points SfM dans les cartes gaussiennes 3D par la même entrée que notre méthode pour une comparaison équitable. Voir les informations supplémentaires pour plus de détails.

超逼真！实时高质量渲染，用于动态城市场景建模的Street Gaussians