communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > Périphériques technologiques > IA > Avec juste une image et une commande d'action, Animate124 peut facilement générer une vidéo 3D

Avec juste une image et une commande d'action, Animate124 peut facilement générer une vidéo 3D

王林

Libérer： 2024-01-12 11:12:10

avant

951 Les gens l'ont consulté

Animate124, transformez facilement une seule image en vidéo 3D.

Au cours de la dernière année, DreamFusion a lancé une nouvelle tendance, à savoir la génération d'objets et de scènes statiques 3D, qui a attiré une large attention dans le domaine de la technologie de génération. En regardant l’année dernière, nous avons assisté à des progrès significatifs en matière de qualité et de contrôle de la technologie de génération statique 3D. Le développement technologique a commencé à partir de la génération basée sur du texte, progressivement intégré dans des images à vue unique, puis développé pour intégrer plusieurs signaux de contrôle.

Par rapport à cela, la génération de scènes dynamiques 3D en est encore à ses balbutiements. Début 2023, Meta a lancé MAV3D, marquant la première tentative de génération de vidéos 3D basées sur du texte. Cependant, limités par le manque de modèles de génération vidéo open source, les progrès dans ce domaine ont été relativement lents.

Cependant, désormais, une technologie de génération de vidéo 3D basée sur la combinaison de graphiques et de texte a été lancée !

Bien que la génération de vidéos 3D basée sur du texte soit capable de produire des contenus diversifiés, elle présente encore des limites dans le contrôle des détails et des poses des objets. Dans le domaine de la génération statique 3D, les objets 3D peuvent être reconstruits efficacement en utilisant une seule image comme entrée. Inspirée par cela, l'équipe de recherche de l'Université nationale de Singapour (NUS) et de Huawei a proposé le modèle Animate124. Ce modèle combine une seule image avec une description d'action correspondante pour permettre un contrôle précis de la génération vidéo 3D.

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

Page d'accueil du projet : https://animate124.github.io/
Adresse papier : https://arxiv.org/abs/2311.14603
Code : https://github. com/HeliosZhao/Animate124

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

Méthode de base

Résumé de la méthode

Selon l'optimisation statique et dynamique, grossière et fine, cet article divise Génération de vidéo 3D en 3 étapes : 1) Phase de génération statique : Utiliser le modèle de diffusion de graphes vincentiens et de graphes 3D pour générer des objets 3D à partir d'une seule image ; 2) Phase de génération brute dynamique : Utiliser le modèle vidéo vincentien pour optimiser les actions en fonction de la description du langage ; 3) Phase d'optimisation sémantique : De plus, le réglage personnalisé ControlNet est utilisé pour optimiser et améliorer l'écart provoqué par la description linguistique de deuxième étape sur l'apparence.

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

^{Figure 1. Cadre général}

Génération statique

Cet article poursuit la méthode Magic123, en utilisant la diffusion stable et la diffusion 3D ( Zéro-1 à 3 ) Générez des objets statiques basés sur des images :

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

Pour la perspective correspondant à l'image conditionnelle, utilisez en plus la fonction de perte pour l'optimisation :

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

Grâce aux deux objectifs d'optimisation ci-dessus, plusieurs perspectives sont obtenues en 3D statique cohérente objets (cette étape est omise dans le diagramme de cadre).

Génération brute dynamique

Cette étape utilise principalement le

Modèle de diffusion vidéo Vinson, qui traite la 3D statique comme image initiale et génère des actions basées sur des descriptions linguistiques. Plus précisément, le modèle 3D dynamique (NeRF dynamique) restitue une vidéo multi-images avec des horodatages continus et entre cette vidéo dans le modèle de diffusion vidéo Vincent, en utilisant la perte de distillation SDS pour optimiser le modèle 3D dynamique :

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

En utilisant uniquement Vincent vidéo La perte de distillation fera oublier au modèle 3D le contenu de l'image, et un échantillonnage aléatoire entraînera une formation insuffisante dans les étapes initiales et finales de la vidéo. Par conséquent, les chercheurs de cet article ont suréchantillonné les horodatages de début et de fin. Et, lors de l'échantillonnage de la trame initiale, des fonctions statiques supplémentaires sont utilisées pour l'optimisation (perte de distillation SDS des graphiques 3D) :

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

Par conséquent, la fonction de perte à ce stade est :

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

Optimisation sémantique

Même avec un suréchantillonnage de la trame initiale et une supervision supplémentaire sur celle-ci, pendant le processus d'optimisation utilisant le modèle de diffusion vidéo Vincent, l'objet l'apparence est toujours affectée par le texte, qui compense l'image de référence. Par conséquent, cet article propose une étape d’optimisation sémantique pour améliorer le décalage sémantique grâce à un modèle personnalisé.

Comme il n'y a qu'une seule image, le modèle vidéo Vincent ne peut pas être personnalisé. Cet article présente un modèle de diffusion basé sur des images et du texte, et effectue un réglage personnalisé sur ce modèle de diffusion. Ce modèle de diffusion ne doit pas modifier le contenu et les actions de la vidéo originale, mais seulement en ajuster l'apparence. Par conséquent, cet article adopte le modèle graphique ControlNet-Tile, utilise les images vidéo générées à l'étape précédente comme conditions et optimise en fonction du langage. ControlNet est basé sur le modèle Stable Diffusion. Il lui suffit d'effectuer un réglage personnalisé (Textual Inversion) sur Stable Diffusion pour extraire les informations sémantiques dans l'image de référence. Après un réglage personnalisé, traitez la vidéo comme une image multi-images et utilisez ControlNet pour superviser une seule image :

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

De plus, comme ControlNet utilise des images brutes comme conditions, le guidage sans classificateur (CFG) peut utiliser le plage normale (10 à gauche et à droite) au lieu d'utiliser une valeur très grande (généralement 100) comme le graphique vincentien et les modèles vidéo vincentiens. Un CFG excessivement grand entraînera une sursaturation de l'image. Par conséquent, l'utilisation du modèle de diffusion ControlNet peut atténuer le phénomène de sursaturation et obtenir de meilleurs résultats de génération. La supervision de cette étape est combinée par la perte de scène dynamique et la supervision ControlNet :

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

Résultats expérimentaux

En tant que premier modèle de génération vidéo 3D basé sur image-texte, cet article est comparé à deux références Les modèles et MAV3D ont été comparés. Animate124 a de meilleurs résultats par rapport aux autres méthodes.

Comparaison des résultats visuels

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

^{Figure 2. Animate124 comparé à deux lignes de base}

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

^{Figure 3.1 Comparer avec MAV. Vidéo 3D Vincent 3D}

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

^{Figure 3.1. Comparaison des graphiques 3D Animate124 et MAV3D}

Comparaison des résultats quantitatifs

Cet article utilise CLIP et l'évaluation manuelle pour générer de la qualité. précision, similarité avec les images et cohérence temporelle. Les indicateurs d'évaluation manuelle incluent la similarité avec le texte, la similarité avec les images, la qualité de la vidéo, le réalisme des mouvements et l'amplitude des mouvements. L'évaluation manuelle est représentée par le rapport d'un seul modèle à la sélection d'Animate124 sur la métrique correspondante.

Par rapport aux deux modèles de base, Animate124 obtient de meilleurs résultats en CLIP et en évaluation manuelle.

Avec juste une image et une commande daction, Animate124 peut facilement générer une vidéo 3D

^{Tableau 1. Comparaison quantitative entre Animate124 et deux lignes de base}

Résumé

Animate124 est le premier à transformer n'importe quelle image en 3 D basé sur la description textuelle Méthode vidéo. Il utilise plusieurs modèles de diffusion pour la supervision et le guidage, optimisant le réseau de représentation dynamique 4D pour générer des vidéos 3D de haute qualité.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

产业 Génération de vidéo 3D

source：jiqizhixin.com

Article précédent：Bilan annuel 2023 : le réseau de centres de données de Huawei s'agrandit en réponse à "l'opération" et donne un nouvel élan à l'ère de l'IA Article suivant：Les services numériques et l'autonomisation de l'IA contribuent à la revitalisation rurale de Lingshan

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Créer l'avenir : programmation Java pour les débutants absolus

2024-10-13 13:32:21
Vous n'êtes pas seul : maîtrisez Python avec une communauté de soutien à vos côtés

2024-10-12 11:58:51
Du novice au codeur : exploitez la puissance de la programmation Python

2024-10-11 20:06:51
Pensez comme un programmeur : apprendre les principes fondamentaux de Java

2024-10-11 18:59:31
Java Made Simple : un guide du débutant sur la puissance de programmation

2024-10-11 18:30:51
Créer un blog avec PHP : un projet adapté aux débutants

2024-10-11 15:51:51
Parlez le langage des systèmes : apprenez le C, une ligne à la fois

2024-10-11 15:42:10
Structures de données et algorithmes en C : une approche adaptée aux débutants

2024-10-11 14:41:20
Coder sans larmes : apprendre le C en toute simplicité

2024-10-11 14:08:31
Analyse de données avec Java : guide du débutant sur le traitement des informations

2024-10-11 13:42:21

Derniers numéros

Sélectionnez les produits liés au woocommerce à l'aide d'une taxonomie personnalisée avec une hiérarchie à 3 niveaux J'ai une boutique woocommerce avec une classification personnalisée « Sports ». La classif...

Depuis 2024-04-06 20:05:30

0

1

544

Styles CSS non appliqués au site Je crée un site Web en utilisant Bootstrap5 mais les propriétés index.css ne sont pas appl...

Depuis 2024-04-06 17:12:23

0

1

336

Résoudre les problèmes de build de production des composants Web Vue3 J'essaie de migrer mes composants vue2web vers vue3, bien que le problème survienne lorsqu...

Depuis 2024-04-06 12:43:37

0

1

473

Symfony Redis ne peut pas se connecter à l'hôte défini dans le fichier env, qui est par défaut localhost Nous avons une nouvelle configuration Symfony avec Redis comme mécanisme de mise en cache....

Depuis 2024-04-06 10:53:02

0

1

375

Erreurs liées à Axios rencontrées lors de la création d'applications React à l'aide de vite Axios fonctionne parfaitement en production mais lors de la création de l'application, j'o...

Depuis 2024-04-05 13:20:02

0

1

326

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal