Le modèle de génération vidéo de nouvelle génération de Byte rend l'effet de Hulk portant des lunettes VR meilleur que Gen-2 !-IA-php.cn

Le modèle de génération vidéo de nouvelle génération de Byte rend l'effet de Hulk portant des lunettes VR meilleur que Gen-2 !

WBOY

Libérer： 2024-01-15 21:12:11

avant

637 Les gens l'ont consulté

En une seule phrase, Hulk peut mettre des lunettes VR.

Qualité 4K.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

Panda's Life of Fantasy~

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

Il s'agit du dernier modèle de génération de vidéo IA de Byte MagicVideo-V2, toutes sortes d'idées fantastiques peuvent être réalisées. Il prend non seulement en charge les résolutions ultra-hautes 4K et 8K, mais peut facilement contenir différents styles de dessin.

△De gauche à droite : style de peinture à l'huile, style cyber, style de conception

L'effet d'évaluation dépasse Gen-2, Pika et les outils de génération vidéo AI existants.

En conséquence, dans les 24 heures suivant sa mise en ligne, il a attiré beaucoup d'attention. Par exemple, un tweet a été vu près de 200 000.

De nombreux internautes ont été surpris par son effet, et ont même dit sans détour : C'est mieux que la piste et le pika.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

"Mieux que la piste et le pika"

Les chercheurs ont procédé à une véritable comparaison des effets. Les concurrents sont : MagicVideo-V2, SVD-XT de StabilityAI, le nouveau joueur potentiel Pika1.0 et Gen-2 de Runway.

Tour 1 : Effets de lumière et d'ombre.

Au coucher du soleil, le voyageur se promène seul dans la forêt brumeuse.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

(de gauche à droite : MagicVideo-V2, SVD-XT, Pika en haut à droite, Gen-2 en bas à droite, le même ci-dessous)

Vous pouvez voir que MagicVideo-V2, Gen-2 et Pika a une lumière et une ombre évidentes. Cependant, Pika ne peut pas être considéré comme destiné aux voyageurs, car MagicVideo-V2 a des tons plus riches.

Round 2 : Expression de l'intrigue situationnelle.

Une sitcom dans les années 1910, racontant la vie quotidienne et des sujets insignifiants de la société

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

Ce tour, MagicVideo-V2 et Gen-2 sont évidemment meilleurs. Bien que la composition milieu de gamme présentée par SVD-XT reflète l'âge, elle n'est pas assez expressive.

Tour 3 : Réaliste.

Le petit garçon faisait du vélo sur le chemin du parc, et les roues faisaient un bruit de craquement sur le gravier.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

Cette fois, le contraste est encore plus évident. MagicVideo-V2 et SVD-XT reflètent pleinement le sens de la phrase, mais MagicVideo-V2 peut voir les détails des pieds clairement en mouvement de l'enfant.

De plus, les chercheurs ont également mené des évaluations individuelles de MagicVideo-V2 par rapport aux méthodes de pointe.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

Les résultats montrent que les gens pensent que MagicVideo-V2 fonctionne mieux que d'autres méthodes.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !
(Les barres vertes, grises et roses représentent les résultats expérimentaux où MagicVideo-V2 est noté respectivement meilleur, équivalent ou pire.)

Comment y parvenir ?

En termes simples, MagicVideo-V2 est un pipeline de génération vidéo qui intègre un modèle texte-image, un générateur de mouvement vidéo, un module d'intégration d'images de référence et un module d'interpolation.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

Tout d'abord, le module T2I génère d'abord une image 1024×1024 basée sur le texte, puis le module I2V anime l'image statique pour générer une séquence d'images 600×600×32, puis utilise le module V2V pour améliorer et améliorer le contenu vidéo, et enfin utiliser le module d'interpolation pour étendre la séquence à 94 images.

De cette manière, la haute fidélité et la continuité dans le temps sont assurées.

Mais dès novembre 2022, Byte a lancé la version MagicVideo V1.

Le modèle de génération vidéo de nouvelle génération de Byte rend leffet de Hulk portant des lunettes VR meilleur que Gen-2 !

Cependant, à cette époque, l'accent était davantage mis sur l'efficacité, qui pouvait générer une vidéo de résolution 256x256 sur une seule carte GPU.

Lien de référence :
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
Lien du projet :
https://magicvideov2.github.io/
Lien papier :
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!