Meta et CMU s'associent pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté-IA-php.cn

Récemment, le modèle de représentation vidéo 6-DoF-HyperReel proposé par Meta et l'Université Carnegie Mellon pourrait indiquer qu'une nouvelle application VR « tueuse » est sur le point de naître !

La soi-disant « vidéo à six degrés de liberté » (6-DoF) est simplement une lecture expérientielle 4D ultra haute définition.

Parmi eux, les utilisateurs peuvent complètement « s'immerger » dans des scènes dynamiques et se déplacer librement. Et lorsqu'ils changent arbitrairement la position de leur tête (3 DoF) et leur direction (3 DoF), les vues correspondantes seront également générées en conséquence.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Adresse papier : https://arxiv.org/abs/2301.02238

Par rapport aux travaux précédents, le plus grand avantage d'HyperReel réside dans la mémoire et l'efficacité informatique, et ces deux points sont très importants pour les casques VR portables sont cruciaux.

Et en utilisant Vanilla PyTorch, HyperReel peut atteindre un rendu en résolution mégapixel à 18 images par seconde sur un seul NVIDIA RTX 3090.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Version trop longue à regarder :

1 Proposer un réseau de prédiction d'échantillonnage de conditions d'éclairage capable d'obtenir un rendu haute fidélité, à haute fréquence d'images et en haute résolution, et un format compact. et une représentation de volume dynamique économe en mémoire ;

2. La méthode de représentation vidéo 6-DoF HyperReel combine les deux parties principales ci-dessus pour atteindre vitesse et qualité tout en restituant une résolution en mégapixels en temps réel. Un équilibre idéal entre les besoins en mémoire et la mémoire ;

3. HyperReel est supérieur aux autres méthodes dans de nombreux aspects tels que les besoins en mémoire et la vitesse de rendu.

Introduction à l'article

La représentation volumétrique de scènes peut fournir une synthèse de vue réaliste pour les scènes statiques et constitue la base de la technologie vidéo 6-DoF existante.

Cependant, les programmes de rendu de volume qui pilotent ces représentations nécessitent des compromis minutieux en termes de qualité, de vitesse de rendu et d'efficacité de la mémoire.

Les méthodes existantes présentent un inconvénient : elles ne peuvent pas simultanément atteindre des performances en temps réel, une faible empreinte mémoire et un rendu de haute qualité, qui sont extrêmement importants dans des scénarios réels difficiles.

Pour résoudre ces problèmes, les chercheurs ont proposé HyperReel - une méthode de caractérisation vidéo 6-DoF basée sur la technologie NeRF (Neural Radiation Field).

Parmi eux, les deux parties principales d'HyperReel sont :

1. Un réseau de prédiction d'échantillonnage dans des conditions de lumière, capable d'un rendu haute fidélité et à haute résolution ; représentation de volume dynamique compacte et économe en mémoire.

Comparé à d'autres méthodes, le pipeline vidéo 6-DoF d'HyperReel est non seulement extrêmement performant en termes de qualité visuelle, mais nécessite également de très faibles besoins en mémoire.

Dans le même temps, HyperReel peut atteindre une vitesse de rendu de 18 images/seconde à une résolution en mégapixels sans aucun code CUDA personnalisé.

Plus précisément, HypeReel atteint un équilibre entre une qualité de rendu élevée, une vitesse et une efficacité de la mémoire en combinant un réseau de prédiction d'échantillons et une méthode de représentation de volume basée sur des images clés. Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Le réseau de prédiction d'échantillons peut à la fois accélérer le rendu du volume et améliorer la qualité du rendu, en particulier pour les scènes présentant des dépendances de vue difficiles.

En termes de représentation de volume basée sur des images clés, les chercheurs utilisent une extension de TensoRF.

Cette méthode peut représenter avec précision une séquence vidéo complète tout en consommant à peu près la même mémoire qu'une seule image statique TensoRF.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Démonstration en temps réel

Ensuite, nous démontrerons en temps réel l'effet de rendu de scènes dynamiques et statiques par HypeReel à une résolution de 512x512 pixels.

Il convient de noter que les chercheurs ont utilisé des modèles plus petits dans les scènes Technicolor et Shiny, de sorte que la fréquence d'images du rendu était supérieure à 40 FPS. Pour les ensembles de données restants, le modèle complet est utilisé, mais HypeReel est toujours capable de fournir une inférence en temps réel.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté Technicolor

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté Brillant

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté Stanford

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté Immersif

DoNeRF

méthode de mise en œuvre

pour Pour implémenter HeperReel, la première question à considérer est d'optimiser la représentation volumique de la synthèse de vues statiques.

La représentation volumique comme NeRF consiste à modéliser la densité et l'apparence de chaque point d'une scène statique dans l'espace 3D.

Plus précisément, la position x et la direction Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté sont mappées le long d'un rayon ⼀ à la couleur et à la densité σ(x) via la fonction .

Le paramètre entraînable θ ici peut être un poids de réseau neuronal, une entrée de tableau à N dimensions ou une combinaison des deux.

Ensuite, vous pouvez restituer une nouvelle vue de la scène statique

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

où Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté représente la transmission de o à .

En pratique, l'équation 1 peut être calculée en prenant plusieurs points d'échantillonnage le long d'un rayon donné, puis en utilisant la quadrature numérique :

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

où le poids Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté précise la contribution de la couleur de chaque point d'échantillonnage à la sortie.

Exemple de maillage pour le rendu de volume

Dans HyperReel pour une scène statique, étant donné un ensemble d'images et de poses de caméra, l'objectif de la formation est de reconstruire la couleur mesurée associée à chaque rayon.

La plupart des scènes sont composées d'objets solides dont les surfaces se trouvent sur une variété 2D dans le volume de la scène 3D. Dans ce cas, seul un petit nombre de points d’échantillonnage affecte la couleur rendue de chaque rayon.

Ainsi, afin d'accélérer le rendu du volume, les chercheurs souhaitent interroger la couleur et l'opacité uniquement pour les Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté points non nuls.

Comme le montre la figure ci-dessous, les chercheurs utilisent un réseau feedforward pour prédire un ensemble d'emplacements d'échantillons Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté . Plus précisément, un exemple de réseau de prédiction est utilisé, pour cartographier les rayons pour échantillonner des points Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté afin d'obtenir le rendu dans l'équation de volume 2.

Ici, les chercheurs utilisent le paramétrage de Plucker pour caractériser la lumière.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Mais il y a un problème : donner trop de flexibilité au réseau peut avoir un impact négatif sur la qualité de la synthèse des vues. Par exemple, si (x1, . . . , xn) sont des points complètement arbitraires, le rendu peut ne pas sembler cohérent sur plusieurs vues.

Afin de résoudre ce problème, les chercheurs ont choisi d'utiliser un réseau de prédiction d'échantillons pour prédire les paramètres d'un ensemble de primitives géométriques G1, ..., Gn, où les paramètres des primitives peuvent changer en fonction de différentes entrées. des rayons. Pour obtenir des points d'échantillonnage, un rayon est coupé avec chaque primitive.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Comme le montre la figure a, étant donné la lumière d'entrée provenant de l'origine de la caméra o et se propageant dans la direction ω, les chercheurs ont d'abord utilisé les coordonnées de Plucker pour reparamétrer la lumière.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Comme le montre la figure b, un réseau prend ce rayon en entrée et génère un ensemble de primitives géométriques {} (telles que des plans et des sphères alignés sur des axes) et des vecteurs de déplacement { } paramètres.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Comme le montre la figure c, pour générer des points d'échantillonnage { Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté } pour le rendu du volume, les chercheurs ont calculé les points d'intersection entre les rayons et les primitives géométriques et ont ajouté des vecteurs de déplacement aux résultats. L’avantage de la prédiction des primitives géométriques est que le signal échantillonné est fluide et facile à interpoler.

Les vecteurs de déplacement offrent une flexibilité supplémentaire dans les points d'échantillonnage, permettant une meilleure capture des apparences complexes dépendant de la vue.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Comme le montre la figure d, enfin, les chercheurs ont effectué un rendu de volume via la Formule 2 pour générer une couleur de pixel et ont effectué un entraînement supervisé sur celle-ci en fonction des résultats d'observation correspondants.

Volume dynamique basé sur les images clés

Grâce à la méthode ci-dessus, le volume de la scène 3D peut être efficacement échantillonné.

Comment caractériser le volume ? Dans le cas statique, les chercheurs ont utilisé la méthode TensoRF (Memory-efficace Tensor Radiation Field) ; dans le cas dynamique, TensoRF a été étendu à la représentation dynamique des volumes basée sur des images clés.

La figure suivante explique le processus d'extraction de la représentation dynamique des points d'échantillonnage à partir d'une représentation basée sur des images clés.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Comme le montre la figure 1, les chercheurs ont d'abord utilisé la vitesse {} pour prédire la sortie du réseau à partir de l'échantillon, traduisant le point d'échantillonnage {} au moment à Dans l'image clé la plus récente .

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Ensuite, comme le montre la figure 2, les chercheurs ont interrogé le produit externe de la texture spatio-temporelle pour produire les caractéristiques d'apparence de chaque point d'échantillon, qui ont ensuite été converties en couleurs via l'équation 10.

Grâce à ce processus, les chercheurs ont extrait l'opacité de chaque échantillon.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Comparaison des résultats

Comparaison de scènes statiques

Ici, les chercheurs ont comparé HyperReel avec les méthodes de synthèse de vues statiques existantes (y compris NeRF, InstantNGP et trois méthodes basées sur un réseau d'échantillonnage).

Ensemble de données DoNeRF

L'ensemble de données DoNeRF contient six séquences synthétiques avec une résolution d'image de 800 × 800 pixels.

Comme le montre le tableau 1, la méthode HyperReel surpasse qualitativement toutes les lignes de base et améliore dans une large mesure les performances des autres schémas de réseau d'échantillonnage.

Pendant ce temps, HyperReel est implémenté avec vanilla PyTorch et peut restituer une image de 800 × 800 pixels à 6,5 FPS sur un seul GPU RTX 3090 (ou 29 FPS avec le modèle Tiny).

De plus, par rapport au MLP profond de 88 couches et 256 unités cachées de R2L, le réseau à 6 couches et 256 unités cachées plus le squelette volumétrique TensoRF proposé par les chercheurs a une vitesse d'inférence plus rapide

L'ensemble de données LLFF contient 8 séquences du monde réel avec des images de 1 008 × 756 pixels.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

Cet ensemble de données constitue un énorme défi pour la représentation volumétrique explicite en raison d'un calibrage incorrect de la caméra et de la rareté des vues d'entrée.

Comparaison de scènes dynamiques

Ensemble de données Technicolor

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté

L'ensemble de données Technicolor Light Field contient des images de divers environnements intérieurs capturées par une configuration de caméra 4×4 synchronisée dans le temps. Vidéo, où chaque image de chaque flux vidéo mesure 2048 × 1088 pixels.

Comme le montre le tableau 2, la qualité d'HyperReel dépasse celle de Neural 3D Video, tandis que le temps d'entraînement par séquence n'est que de 1,5 heure (au lieu des plus de 1 000 heures de Neural 3D) et que la vitesse de rendu est plus rapide.

Ensemble de données vidéo Neural 3D

L'ensemble de données vidéo Neural 3D contient 6 séquences vidéo multi-vues en intérieur, filmées par 20 caméras à une résolution de 2704 × 2028 pixels.

En particulier, HyperReel dépasse NeRFPlayer en quantité et la vitesse de rendu est environ 40 fois supérieure à StreamRF en qualité, bien qu'il adopte Plenoxels comme méthode de base (en utilisant des noyaux CUDA personnalisés pour accélérer l'inférence) pour un rendu plus rapide.

De plus, HyperReel consomme en moyenne beaucoup moins de mémoire par image que StreamRF et NeRFPlayer.

Ensemble de données immersives Google

L'ensemble de données immersives Google contient des vidéos de champs lumineux de divers environnements intérieurs et extérieurs.

Un peu malheureusement, HyperReel n'a pas encore atteint la vitesse de rendu requise pour la VR (idéalement 72FPS, stéréo).

Cependant, étant donné que cette méthode est implémentée dans Vanilla PyTorch, les performances peuvent être encore optimisées grâce à des travaux tels qu'un noyau CUDA personnalisé.

Meta et CMU sassocient pour lancer une mise à niveau VR épique ! Le dernier modèle HyperReel réalise un rendu vidéo haute fidélité à 6 degrés de liberté Présentation de l'auteur

Le premier auteur de l'article, Benjamin Attal, poursuit actuellement un doctorat au Carnegie Mellon Robotics Institute. Les intérêts de recherche comprennent la réalité virtuelle, l’imagerie et les affichages informatiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!