Le grand modèle de langage bat le modèle de diffusion ! Génération d'images vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de l'Université de Pékin-IA-php.cn

Le modèle de langage bat le modèle de diffusion et réalise le double SOTA en génération de vidéo et d'image !

Il s'agit du dernier résultat de recherche de Google CMU.

Selon les rapports, c'est la première foisqu'un modèle de langage bat un modèle de diffusion sur le benchmark emblématique ImageNet.

Le composant clé derrière cela est le

visual tokenizer(video tokenizer), qui peut mapper l'entrée de l'espace de pixels en jetons adaptés à l'apprentissage LLM.

L'équipe de recherche Google CMU a proposé MAGVIT-v2, qui a surpassé le précédent meilleur segmenteur de mots visuel dans deux autres tâches.

Le grand modèle de langage bat le modèle de diffusion

Il a été convenu que les grands modèles de langage ont d'excellentes performances dans divers domaines génératifs. Tels que le texte, l'audio, la génération de code, etc.

Mais les modèles linguistiques ont toujours été à la traîne des modèles de diffusion en termes de génération visuelle.

L'équipe estime que la raison principale est le manque d'une bonne représentation visuelle, similaire à un système linguistique auto-développé, capable de modéliser efficacement le monde visuel. Contrairement au langage naturel, les humains n’ont pas développé un vocabulaire optimal pour le monde visuel. Cela limite également les capacités de génération visuelle des grands modèles de langage.

Sur la base de ce jugement, cette recherche a principalement réalisé trois tâches :

Une nouvelle méthode de quantification sans recherche qui améliore la qualité de génération visuelle des modèles de langage en apprenant de grands vocabulaires
Pour la première fois, des preuves montrent que sous les mêmes données de formation, des tailles de modèles équivalentes et des budgets de formation similaires Dans les conditions, le modèle de langage bat le modèle de diffusion sur ImageNet.

Selon l'auteur, c'est aussi la première fois qu'un tokenizer visuel parvient à obtenir des résultats comparables aux codecs standards.

Basée sur le tokenizer visuel SOTA original

MAGVIT(Masked Generative Video Transformer), cette méthode réalise principalement deux conceptions : la quantification sans recherche (LFQ) et le tokenizer conjoint image-vidéo.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

Enfin, en génération vidéo/image, ImageNet 512×512 et Kinetics-600 sont tous deux meilleurs que le modèle de diffusion.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

En termes de compression vidéo et de reconnaissance d'action, c'est également meilleur que les résultats précédents.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

One est un ancien élève de l'Université de Pékin

Yu Lijun est actuellement doctorant à l'Institut de technologie du langage, École d'informatique, CMU, étudiant sous la direction du professeur Alexander G. Hauptmann, et est également étudiant chercheur chez Google. . Les intérêts de recherche résident dans les modèles de base multimodaux, notamment la génération de vidéos multitâches.

Avant de rejoindre la CMU, il a obtenu un double baccalauréat en informatique et en économie de l'Université de Pékin.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

J'ai également vu de nombreux autres visages chinois dans l'équipe de recherche.

L'auteur correspondant Jiang Lu est actuellement scientifique chez Google Research et professeur adjoint à la CMU.

Ses recherches portent principalement sur le domaine du big data multimodal, notamment le deep learning robuste, l'intelligence artificielle générative et les modèles de base multimodaux.

Lien papier :
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Le grand modèle de langage bat le modèle de diffusion ! Génération d'images vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de l'Université de Pékin