Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes-IA-php.cn

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

王林

Libérer： 2024-03-20 16:41:48

avant

557 Les gens l'ont consulté

Google a publié un nouveau cadre vidéo :

Vous n'avez besoin que d'une photo de vous et d'un enregistrement de votre discours, et vous pouvez obtenir une vidéo réaliste de votre discours.

La durée de la vidéo est variable et l'exemple actuel vu va jusqu'à 10 secondes.

Vous pouvez voir que qu'il s'agisse de la forme de la bouche ou de l'expression du visage, c'est très naturel.

Si l'image d'entrée couvre tout le haut du corps, elle peut également être utilisée avec de riches gestes :

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Après l'avoir lue, les internautes ont dit :

Avec elle, nous n'aurons plus besoin de tenir les vidéoconférences en ligne à l'avenir Finissez de vous coiffer et habillez-vous avant de partir.

Eh bien, prenez simplement un portrait et enregistrez l'audio de la parole (tête de chien manuelle)

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Utilisez votre voix pour contrôler le portrait afin de générer une vidéo

Ce cadre s'appelle VLOGGER.

Il est principalement basé sur le modèle de diffusion et contient deux parties :

L'une est le modèle de diffusion aléatoire humain-à-3D-motion(humain à-3D-motion).

L'autre est une nouvelle architecture de diffusion pour améliorer les modèles texte-image.

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Parmi eux, le premier est chargé d'utiliser la forme d'onde audio comme entrée pour générer les actions de contrôle corporel du personnage, y compris les yeux, les expressions et les gestes, la posture globale du corps, etc.

Ce dernier est un modèle image à image de dimension temporelle qui est utilisé pour étendre le modèle de diffusion d'images à grande échelle et utiliser les actions qui viennent d'être prédites pour générer les images correspondantes.

Afin de rendre les résultats conformes à une image de personnage spécifique, VLOGGER prend également le diagramme de pose de l'image de paramètre en entrée.

La formation de VLOGGER est complétée sur un très grand ensemble de données (nommé MENTOR) .

Quelle est sa taille ? Il dure 2 200 heures et contient 800 000 vidéos de personnages.

Parmi eux, la durée vidéo de l'ensemble de test est également de 120 heures, avec un total de 4 000 caractères.

Google a présenté que la performance la plus remarquable de VLOGGER est sa diversité :

Comme le montre l'image ci-dessous, plus la partie (rouge) de l'image finale en pixels est sombre, plus les actions sont riches.

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Par rapport aux méthodes similaires précédentes dans l'industrie, le plus grand avantage de VLOGGER est qu'il n'a pas besoin de former tout le monde, ne repose pas sur la détection et le recadrage des visages, et la vidéo générée est très complète (y compris les visages et lèvres, y compris les mouvements du corps) et ainsi de suite.

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Plus précisément, comme le montre le tableau suivant :

La méthode de reconstitution du visage ne peut pas contrôler une telle génération de vidéo avec de l'audio et du texte.

Audio-to-motion peut générer de l'audio en codant l'audio en mouvements du visage 3D, mais l'effet qu'il génère n'est pas assez réaliste.

La synchronisation labiale peut gérer des vidéos de différents thèmes, mais elle ne peut que simuler les mouvements de la bouche.

En comparaison, les deux dernières méthodes, SadTaker et Styletalk, fonctionnent le plus proche de Google VLOGGER, mais elles sont également vaincues par l'incapacité de contrôler le corps et de modifier davantage la vidéo.

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

En parlant de montage vidéo, comme le montre l'image ci-dessous, l'une des applications du modèle VLOGGER est la suivante : il peut faire taire le personnage, fermer les yeux, fermer uniquement l'œil gauche ou ouvrir l'œil entier. en un clic :

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Une autre application est la traduction vidéo :

Par exemple, changer le discours anglais de la vidéo originale en espagnol avec la même forme de bouche.

Les internautes se sont plaints

Enfin, selon "l'ancienne règle", Google n'a pas publié le modèle. Maintenant, tout ce que nous pouvons voir, ce sont plus d'effets et de papiers.

Eh bien, il y a beaucoup de plaintes :

La qualité d'image du modèle, la synchronisation labiale ne correspond pas, ça a toujours l'air très robotique, etc.

Certaines personnes n'ont donc pas hésité à laisser un avis négatif :

Est-ce le niveau de Google ?

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Je suis un peu désolé pour le nom « VLOGGER ».

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

——Par rapport à Sora d'OpenAI, la déclaration de l'internaute n'est en effet pas déraisonnable. .

Qu'en pensez-vous ?

Plus d'effets :https://enriccorona.github.io/vlogger/

Article complet : https://enriccorona.github.io/vlogger/paper.pdf

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!