Cet article est réimprimé avec l'autorisation d'AI New Media Qubit (ID de compte public : QbitAI). Veuillez contacter la source pour la réimpression.
Google a lancé un nouveau "Directeur IA", qui peut même changer le protagoniste de la vidéo en une phrase.
Regardez, un petit ours danse sur l'herbe verte. Tous les ours sont-ils aujourd'hui si artistiques ? ? Non, non, non ! Ce qui se trouvait à l’origine sur l’herbe était en réalité un singe. Pour passer d'un singe à un ours, il suffit de dire à cette IA : Un petit ours danse au rythme de la musique et se tord tout le corps.(Un ours dansant et sautant sur une musique entraînante, bougeant tout son corps)
En plus de « modifier comme par magie » les vidéos, cette IA nomméeDreamix peut également transformer des images statiques en animations - Cela peut également être fait en un phrase Terminé .
Par exemple, montrez à cette IA une "photo de tortue nageant" et dites-lui : Une tortue a été photographiée nageant sous l'eau, et un requin s'approchait par derrière.(Photo sous-marine d'une tortue de mer avec un requin apparaissant par derrière)
Hé les gars, une phrase a non seulement fait nager la tortue, mais a également ajouté un requin sorti de nulle part. Cet effet a fait aimer de nombreux internautes. Certains affirment même que l'AIGC va continuer à susciter un engouement dans les deux prochaines années, encore plus fou que le développement du millénaire. Réalisez la vidéo avec une seule phraseElle sera très appréciée dès sa sortie. Comment est cette IA ? Autant regarder davantage de ses œuvres de « réalisateur » pour avoir une idée. Tout d'abord, en termes dechangement de personnages vidéo, voici le champ d'origine :
C'est le champ incendié par l'IA : C'est l'humain écriture manuscrite :Il s'agit d'une écriture manuscrite de robot générée par l'IA : Elle est également basée sur une vidéo d'une écriture humaine si la phrase d'invite est remplacée par "une main humaine dessine un cercle". , il y aura différents effets de génération : Quant à l'
animation de changement d'image statique, l'image originale est une jungle brumeuse :
et l'IA a ajouté une licorne en cours d'exécution à cette forêt, et l'objectif Il a également été réduit en fonction des invites de la phrase. Il y a aussi cette photo de paysage de vallée fluviale : L'IA non seulement fait couler le ruisseau, mais ajoute également des buffles qui se baignent sur le rivage et des oiseaux qui volent vers le ciel.En voyant cela, certaines personnes peuvent penser que ce n'est pas suffisant : l'animation a été réalisée, mais la qualité de l'image a également été beaucoup sacrifiée.
Alors autant montrer à l'IA quelques photos supplémentaires.
Par exemple, montrez à l'IA 7 des photos d'alarmes incendie jouets en un seul souffle :
Laissez-la ensuite générer une vidéo basée sur une phrase, et la qualité de l'image sera beaucoup plus claire.
Quant à la manière dont ce « directeur de l'IA » procède, Google a déclaré que la clé réside dans le « vieil ami » Modèle de diffusion (Modèle de diffusion) .
Le modèle de diffusion est également au cœur du populaire outil de peinture AIGC DALL·E 2.
Les chercheurs de Google ont souligné qu'en fait, il y avait déjà eu une IA similaire de « vidéo générée par texte », mais si le modèle de diffusion vidéo n'est affiné que sur la vidéo d'entrée, cela limitera l'étendue des changements de mouvement.
Ce qui rend cette IA différente est la suivante :
L'équipe utilise une "Cible hybride" qui, en plus d'affiner la cible d'origine, affine également l'ensemble de cadres non ordonnés.
Ils adoptent un mécanisme d'attention spécialisé dans l'apprentissage profond : l'attention temporelle masquée, qui aide le modèle à se concentrer sur des parties spécifiques des informations d'entrée et à ignorer d'autres parties non pertinentes.
——Cela améliore la capacité du modèle à traiter les données de séquence, génère une dynamique plus diversifiée dans la vidéo et l'effet est plus naturel.
Avec la prise en charge du modèle de diffusion et de l'attention temporelle masquée, pour changer le protagoniste de la vidéo, l'entrée a en fait été omise - seul un réglage fin est nécessaire, et la fidélité des résultats est également assez bonne.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!