Le grand modèle de langage bat le modèle de diffusion ! Génération d'images vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de l'Université de Pékin

PHPz
Libérer: 2023-10-16 14:29:01
avant
708 Les gens l'ont consulté

Le modèle de langage bat le modèle de diffusion et réalise le double SOTA en génération de vidéo et d'image !

Il s'agit du dernier résultat de recherche de Google CMU.

Selon les rapports, c'est la première foisqu'un modèle de langage bat un modèle de diffusion sur le benchmark emblématique ImageNet.

Le composant clé derrière cela est le

visual tokenizer(video tokenizer), qui peut mapper l'entrée de l'espace de pixels en jetons adaptés à l'apprentissage LLM.

L'équipe de recherche Google CMU a proposé MAGVIT-v2, qui a surpassé le précédent meilleur segmenteur de mots visuel dans deux autres tâches.

Le grand modèle de langage bat le modèle de diffusion

Il a été convenu que les grands modèles de langage ont d'excellentes performances dans divers domaines génératifs. Tels que le texte, l'audio, la génération de code, etc.

Mais les modèles linguistiques ont toujours été à la traîne des modèles de diffusion en termes de génération visuelle.

L'équipe estime que la raison principale est le manque d'une bonne représentation visuelle, similaire à un système linguistique auto-développé, capable de modéliser efficacement le monde visuel. Contrairement au langage naturel, les humains n’ont pas développé un vocabulaire optimal pour le monde visuel. Cela limite également les capacités de génération visuelle des grands modèles de langage.

Sur la base de ce jugement, cette recherche a principalement réalisé trois tâches :

    Proposé un nouveau tokenizer visuel, qui est meilleur que les meilleures performances précédentes en matière de génération visuelle, de compression vidéo et de reconnaissance d'action.
  • Une nouvelle méthode de quantification sans recherche qui améliore la qualité de génération visuelle des modèles de langage en apprenant de grands vocabulaires
  • Pour la première fois, des preuves montrent que sous les mêmes données de formation, des tailles de modèles équivalentes et des budgets de formation similaires Dans les conditions, le modèle de langage bat le modèle de diffusion sur ImageNet.
Selon l'auteur, c'est aussi la première fois qu'un tokenizer visuel parvient à obtenir des résultats comparables aux codecs standards.

Basée sur le tokenizer visuel SOTA original

MAGVIT(Masked Generative Video Transformer), cette méthode réalise principalement deux conceptions : la quantification sans recherche (LFQ) et le tokenizer conjoint image-vidéo.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

Enfin, en génération vidéo/image, ImageNet 512×512 et Kinetics-600 sont tous deux meilleurs que le modèle de diffusion.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

En termes de compression vidéo et de reconnaissance d'action, c'est également meilleur que les résultats précédents.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

One est un ancien élève de l'Université de Pékin

Yu Lijun est actuellement doctorant à l'Institut de technologie du langage, École d'informatique, CMU, étudiant sous la direction du professeur Alexander G. Hauptmann, et est également étudiant chercheur chez Google. . Les intérêts de recherche résident dans les modèles de base multimodaux, notamment la génération de vidéos multitâches.

Avant de rejoindre la CMU, il a obtenu un double baccalauréat en informatique et en économie de l'Université de Pékin.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

J'ai également vu de nombreux autres visages chinois dans l'équipe de recherche.

L'auteur correspondant Jiang Lu est actuellement scientifique chez Google Research et professeur adjoint à la CMU.

Ses recherches portent principalement sur le domaine du big data multimodal, notamment le deep learning robuste, l'intelligence artificielle générative et les modèles de base multimodaux.

Lien papier :
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!