Lassé de la génération d'images, Google s'est tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.-IA-php.cn

Après avoir converti du texte en image pendant plus de six mois, les géants de la technologie tels que Meta et Google ont jeté leur dévolu sur un nouveau champ de bataille : le texte en vidéo.

La semaine dernière, Meta a annoncé un outil capable de générer de courtes vidéos de haute qualité - Make-A-Video. Les vidéos générées à l'aide de cet outil sont très imaginatives.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Bien sûr, Google n'est pas en reste. Tout à l'heure, le PDG de l'entreprise, Sundar Pichai, a personnellement annoncé ses dernières réalisations dans ce domaine : deux outils de conversion texte-vidéo – Imagen Video et Phenaki. Le premier se concentre sur la qualité vidéo, tandis que le second remet principalement en question la longueur de la vidéo. On peut dire que chacun a ses propres mérites.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

L'ours en peluche qui fait la vaisselle ci-dessous a été généré à l'aide d'Imagen Video. Comme vous pouvez le constater, la résolution et la cohérence de l'image sont garanties dans une certaine mesure.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Imagen Video : à partir d'invites de texte, générez une vidéo HD

La modélisation générative a fait des progrès significatifs dans les récents systèmes d'IA texte-image, tels que DALL-E 2, Imagen, Parti, CogView et Latent Diffusion . En particulier, les modèles de diffusion ont obtenu un grand succès dans diverses tâches de modélisation générative telles que l'estimation de la densité, la synthèse texte-parole, image-image, texte-image et 3D.

Ce que Google veut faire, c'est générer une vidéo à partir de texte. Les travaux antérieurs sur la génération vidéo se sont concentrés sur des ensembles de données restreints avec des modèles autorégressifs, des modèles à variables latentes avec des a priori autorégressifs et, plus récemment, des méthodes à variables latentes non autorégressives. Les modèles de diffusion ont également démontré d’excellentes capacités de génération vidéo à moyenne résolution.

Sur cette base, Google a lancé Imagen Video, un système de génération vidéo conditionnelle de texte basé sur le modèle de diffusion vidéo en cascade. À partir d'une invite de texte, Imagen Video peut générer une vidéo haute définition grâce à un système composé d'un encodeur de texte T5 figé, d'un modèle de génération vidéo de base et d'un modèle de super-résolution vidéo spatio-temporelle en cascade.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Adresse papier : https://imagen.research.google/video/paper.pdf

Dans le document, Google décrit en détail comment étendre le système en un texte haute définition Modèle vers vidéo, y compris des décisions de conception telles que la sélection d'un modèle de super-résolution spatio-temporelle entièrement convolutionnel à certaines résolutions et la sélection du paramétrage en V du modèle de diffusion. Google a également migré avec succès les résultats de recherches précédentes sur la génération d'images basées sur la diffusion vers un paramètre de génération vidéo.

Google a découvert qu'Imagen Video peut convertir la vidéo 24 ips 64 images 128×128 générée par des travaux précédents en 128 images 1280×768 vidéo HD. De plus, Imagen Video possède un haut degré de contrôlabilité et de connaissance du monde, peut générer des animations vidéo et textuelles dans divers styles artistiques et possède des capacités de compréhension d'objets 3D.

Profitons d'autres vidéos générées par Imagen Video, comme un panda conduisant une voiture :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Un bateau en bois voyageant dans l'espace :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Pour plus de vidéos générées, veuillez voir : https://imagen.research.google/video/

Méthodes et expériences

Dans l'ensemble, le cadre de génération vidéo de Google est une cascade de sept modèles de diffusion sous-vidéo, qui effectuent respectivement la génération vidéo conditionnelle au texte, la super-résolution spatiale et la super-résolution temporelle. En utilisant toute la cascade, Imagen Video est capable de produire 128 images de vidéo HD 1280×768 (environ 126 millions de pixels) à 24 images par seconde.

Pendant ce temps, grâce à la distillation progressive, Imagen Video génère des vidéos de haute qualité en utilisant seulement huit étapes de diffusion dans chaque sous-modèle. Cela accélère le temps de génération vidéo d’environ 18 fois.

La figure 6 ci-dessous montre l'ensemble du pipeline en cascade d'Imagen Video, y compris 1 encodeur de texte figé, 1 modèle de diffusion vidéo de base, 3 modèles de super-résolution spatiale (SSR) et 3 super-résolution temporelle (TSR). Les sept modèles de diffusion vidéo comptent au total 11,6 milliards de paramètres.

Pendant le processus de génération, le modèle SSR améliore la résolution spatiale de toutes les images d'entrée, tandis que le modèle TSR améliore la résolution temporelle en remplissant les images intermédiaires entre les images d'entrée. Tous les modèles génèrent simultanément un bloc complet de trames afin que le modèle SSR ne souffre pas d'artefacts notables.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Imagen Video est construit sur l'architecture vidéo U-Net, comme le montre la figure 7 ci-dessous.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Dans le cadre d'expériences, Imagen Video est formé sur l'ensemble de données image-texte LAION-400M accessible au public, 14 millions de paires vidéo-texte et 60 millions de paires image-texte. En conséquence, comme mentionné ci-dessus, Imagen Video est non seulement capable de générer des vidéos haute définition, mais possède également des fonctionnalités uniques que les modèles génératifs non structurés qui apprennent uniquement à partir de données n'ont pas.

La figure 8 ci-dessous montre la capacité d'Imagen Video à générer des vidéos avec des styles artistiques tirés des informations sur l'image, tels que le style de peinture de Van Gogh ou des vidéos de style aquarelle.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

La figure 9 ci-dessous montre la capacité d'Imagen Video à comprendre les structures 3D. Elle peut générer des vidéos d'objets en rotation tout en conservant la structure générale de l'objet.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

La figure 10 ci-dessous montre comment Imagen Video peut générer de manière fiable du texte dans une variété de styles animés, dont certains sont difficiles à créer à l'aide d'outils traditionnels.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Veuillez vous référer à l'article original pour plus de détails expérimentaux.

Phenaki : Vous racontez l'histoire et je la dessinerai

Nous savons que même si une vidéo est essentiellement une série d'images, générer une longue vidéo cohérente n'est pas si simple car dans cette tâche, la haute qualité disponible les données sont rares et les tâches elles-mêmes sont exigeantes en termes de calcul.

Ce qui est plus gênant, c'est que les invites de texte courtes utilisées pour la génération d'images comme auparavant ne suffisent généralement pas pour fournir une description complète de la vidéo. La vidéo a besoin d'une série d'invites ou d'histoires. Idéalement, un modèle de génération vidéo doit être capable de générer des vidéos de n'importe quelle longueur et d'ajuster les images vidéo générées en fonction des changements d'invite à un certain instant t. Ce n'est qu'avec cette capacité que les œuvres générées par le modèle peuvent être appelées « vidéo » plutôt que « images animées » et ouvrir la voie à des applications créatives réelles dans les domaines de l'art, du design et de la création de contenu.

Des chercheurs de Google et d'autres institutions ont déclaré : "À notre connaissance, la génération de vidéos conditionnelles basées sur des histoires n'a jamais été explorée auparavant, et il s'agit du premier article précoce allant dans ce sens

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Lien papier : https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
Lien du projet : https://phenaki.github.io/#interactive

En l’absence d’ensembles de données basés sur des histoires sur lesquelles apprendre, les chercheurs n’ont aucun moyen de s’appuyer simplement sur les méthodes traditionnelles d’apprentissage en profondeur (simplement apprendre à partir des données) pour accomplir ces tâches. Ils ont donc conçu un modèle spécialement pour cette tâche.

Ce nouveau modèle texte-vidéo s'appelle Phenaki, qui utilise les données « texte-vidéo » et « texte-image » pour s'entraîner conjointement. Le modèle a les capacités suivantes :

1. Générer des vidéos diverses et cohérentes dans le temps sous la condition d'une invite de domaine ouvert, même si l'invite est une nouvelle combinaison de concepts (voir la figure 3 ci-dessous). La vidéo générée peut durer plusieurs minutes, même si la vidéo utilisée pour entraîner le modèle ne dure que 1,4 seconde (8 images/seconde)

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

2. Générez une vidéo basée sur une histoire (c'est-à-dire une série d'invites). ), comme le montrent la figure 1 et ci-dessous. Montré dans la figure 5 :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

À partir de l'animation suivante, nous pouvons voir la cohérence et la diversité des vidéos générées par Phenaki :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Pour mettre en œuvre ces fonctions, recherchez Vous ne pouvez pas compter sur les encodeurs vidéo existants car ces encodeurs ne peuvent décoder que des vidéos de taille fixe ou encoder des images de manière indépendante. Pour résoudre ce problème, ils ont introduit une nouvelle architecture codeur-décodeur - C-ViViT.

C-ViViT peut :

Utiliser la redondance temporelle dans la vidéo pour améliorer la qualité de reconstruction du modèle dans chaque image, tout en compressant le nombre de jetons vidéo de 40 % ou plus
; Permet l'encodage et le décodage de vidéos de longueur variable étant donné une structure causale donnée.

PHENAKI Model Architecture

Inspirée par des recherches antérieures sur la conversion texte-image et texte-vidéo autorégressive, la conception de Phenaki comprend principalement deux parties (voir Figure 2 ci-dessous) : L'une compresse la vidéo en discret Un modèle d'encodeur-décodeur pour l'intégration (c'est-à-dire un jeton) et un modèle de transformateur qui convertit l'intégration de texte en un jeton vidéo.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Obtenir une représentation compressée d'une vidéo est l'un des principaux défis de la génération de vidéos à partir de texte. Les travaux antérieurs utilisaient soit des encodeurs d'image par image, tels que VQ-GAN, soit des encodeurs vidéo de longueur fixe, tels que VideoVQVAE. Le premier permet la génération de vidéos de longueur arbitraire, mais dans la pratique, les vidéos doivent être courtes car l'encodeur ne peut pas compresser la vidéo dans le temps et les jetons sont hautement redondants dans les images consécutives. Ce dernier est plus performant en termes de nombre de tokens, mais il ne permet pas de générer des vidéos de longueur arbitraire.

À Phenaki, l'objectif du chercheur est de générer des vidéos de longueur variable tout en compressant autant que possible le nombre de jetons vidéo, afin que le modèle Transformer puisse être utilisé dans les limites actuelles des ressources informatiques. À cette fin, ils introduisent C-ViViT, une variante causale de ViViT avec des modifications architecturales supplémentaires pour la génération vidéo, qui peut compresser les vidéos dans les dimensions temporelles et spatiales tout en conservant l'autorégression temporelle. Cette fonctionnalité permet la génération de vidéos autorégressives de longueur arbitraire.

Afin d'obtenir des intégrations de texte, Phenaki utilise également un modèle de langage pré-entraîné-T5X.

Veuillez vous référer au document original pour des détails spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!