Le modèle de langage bat le modèle de diffusion et réalise le double SOTA en génération de vidéo et d'image !
Il s'agit du dernier résultat de recherche de Google CMU.
Selon les rapports, c'est la première foisqu'un modèle de langage bat un modèle de diffusion sur le benchmark emblématique ImageNet.
Le composant clé derrière cela est levisual tokenizer(video tokenizer), qui peut mapper l'entrée de l'espace de pixels en jetons adaptés à l'apprentissage LLM.
L'équipe de recherche Google CMU a proposé MAGVIT-v2, qui a surpassé le précédent meilleur segmenteur de mots visuel dans deux autres tâches. Le grand modèle de langage bat le modèle de diffusion Il a été convenu que les grands modèles de langage ont d'excellentes performances dans divers domaines génératifs. Tels que le texte, l'audio, la génération de code, etc. Mais les modèles linguistiques ont toujours été à la traîne des modèles de diffusion en termes de génération visuelle. L'équipe estime que la raison principale est le manque d'une bonne représentation visuelle, similaire à un système linguistique auto-développé, capable de modéliser efficacement le monde visuel. Contrairement au langage naturel, les humains n’ont pas développé un vocabulaire optimal pour le monde visuel. Cela limite également les capacités de génération visuelle des grands modèles de langage. Sur la base de ce jugement, cette recherche a principalement réalisé trois tâches :MAGVIT(Masked Generative Video Transformer), cette méthode réalise principalement deux conceptions : la quantification sans recherche (LFQ) et le tokenizer conjoint image-vidéo.
Enfin, en génération vidéo/image, ImageNet 512×512 et Kinetics-600 sont tous deux meilleurs que le modèle de diffusion. En termes de compression vidéo et de reconnaissance d'action, c'est également meilleur que les résultats précédents. One est un ancien élève de l'Université de Pékin Yu Lijun est actuellement doctorant à l'Institut de technologie du langage, École d'informatique, CMU, étudiant sous la direction du professeur Alexander G. Hauptmann, et est également étudiant chercheur chez Google. . Les intérêts de recherche résident dans les modèles de base multimodaux, notamment la génération de vidéos multitâches. Avant de rejoindre la CMU, il a obtenu un double baccalauréat en informatique et en économie de l'Université de Pékin. J'ai également vu de nombreux autres visages chinois dans l'équipe de recherche. L'auteur correspondant Jiang Lu est actuellement scientifique chez Google Research et professeur adjoint à la CMU. Ses recherches portent principalement sur le domaine du big data multimodal, notamment le deep learning robuste, l'intelligence artificielle générative et les modèles de base multimodaux.Lien papier :
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!