Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3-IA-php.cn

Les modèles linguistiques actuels à grande échelle tels que GPT, LLaMA, etc. ont fait des progrès significatifs dans le domaine du traitement du langage naturel et peuvent comprendre et générer du contenu textuel complexe. Cependant, pouvons-nous étendre ces puissantes capacités de compréhension et de génération aux données multimodales ? Cette idée devient progressivement une réalité. Le dernier grand modèle multimodal LaVIT a été développé par Kuaishou et l'Université de Pékin. En combinant des données d'image et de vidéo, il permet au modèle de comprendre facilement un contenu multimédia massif et aide à la création de contenu illustré. L'émergence de LaVIT revêt une grande importance pour la compréhension et la création de contenu multimédia. Il identifie non seulement les objets, les scènes et les émotions dans les images et les vidéos, mais génère également des descriptions en langage naturel qui leur sont liées. De cette manière, nous pouvons mieux utiliser les données multimodales et créer un contenu graphique plus vivant et plus intéressant. Le développement de LaVIT est une tentative importante de modèles linguistiques à grande échelle dans le domaine multimodal. Il devrait apporter davantage de possibilités au traitement et à la création de contenu multimédia et promouvoir le développement ultérieur dans les domaines du traitement du langage naturel et de la vision par ordinateur.

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Titre de l'article : Préformation unifiée de vision et de langage en LLM avec tokenisation visuelle discrète dynamique
Adresse de l'article : https://arxiv.org/abs/2309.04669
Modèle de code Adresse : https://github.com/jy0205/LaVIT

Model Overview

LaVIT est un nouveau modèle de base multimodal à usage général qui peut comprendre et générer du contenu visuel comme un modèle de langage. Il utilise une approche de formation similaire aux grands modèles de langage, en utilisant une approche autorégressive pour prédire la prochaine image ou le prochain jeton de texte. Une fois formé, LaVIT peut servir d’interface multimodale générale capable d’effectuer des tâches de compréhension et de génération multimodales sans ajustement supplémentaire. Par exemple, LaVIT peut réaliser les fonctions suivantes :

LaVIT est un puissant modèle de génération de texte en image qui est capable de générer des formats d'image multiples de haute qualité et des images très esthétiques basées sur des invites de texte données. Comparé aux modèles de génération d'images de pointe tels que Parti, SDXL et DALLE-3, LaVIT possède des capacités de génération d'images comparables. Ce qui le rend unique est sa capacité à générer des images diverses tout en conservant une qualité et une esthétique élevées. Que ce soit en orientation portrait ou paysage, LaVIT est capable de produire des compositions d'images satisfaisantes. En combinant une technologie avancée et des données de formation de haute qualité, LaVIT offre aux utilisateurs un texte-graphique exceptionnel

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Dans LaVIT, les images et le texte sont représentés sous forme de jetons discrétisés. Par conséquent, il peut exploiter des indices multimodaux pour la génération d’images, notamment des combinaisons de texte, image+texte et image+image. Cette génération multimodale ne nécessite aucun réglage fin et le système peut générer des images correspondantes en fonction d'invites.

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

LaVIT est un modèle de compréhension d'images capable de lire des images et de comprendre leur sémantique. Il peut générer des descriptions pertinentes pour les images d'entrée et répondre aux questions pertinentes.

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Présentation de la méthode

La structure du modèle de LaVIT est présentée dans la figure ci-dessous. L'ensemble de son processus d'optimisation comprend deux étapes :

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Figure : L'architecture globale du modèle LaVIT.

Étape 1 : Dynamic Visual Tokenizer

Pour pouvoir comprendre et générer du contenu visuel comme le langage naturel, LaVIT introduit un tokenizer visuel bien conçu pour convertir le contenu visuel (signaux continus) en texte La même séquence de jetons, tout comme une langue étrangère que LLM peut comprendre. L'auteur estime que pour parvenir à une modélisation visuelle et linguistique unifiée, le tokenizer visuel (Tokenizer) doit avoir les deux caractéristiques suivantes :

Discrétisation : les jetons visuels doivent être représentés sous des formes discrétisées comme le texte. Cela utilise une forme de représentation unifiée pour les deux modalités, ce qui permet à LaVIT d'utiliser la même perte de classification pour l'optimisation de la modélisation multimodale dans un cadre de formation générative autorégressive unifié.
Dynamicification : Contrairement aux jetons de texte, les correctifs d'image ont des interdépendances importantes entre eux, ce qui rend relativement simple la déduction d'un correctif à partir d'un autre. Par conséquent, cette dépendance réduit l’efficacité de l’objectif d’optimisation de la prédiction du prochain jeton du LLM d’origine. LaVIT propose de réduire la redondance entre les correctifs visuels en utilisant la fusion de jetons, qui code un nombre dynamique de jetons visuels en fonction de la complexité sémantique différente des différentes images. De cette manière, pour des images de complexité différente, l'utilisation du codage dynamique des jetons améliore encore l'efficacité du pré-entraînement et évite les calculs de jetons redondants.

La figure suivante est la structure du tokenizer visuel proposé par LaVIT :

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Image : (a) Générateur de jetons visuels dynamiques (b) fusion de jetons

Le tokenizer visuel dynamique comprend un jeton sélecteur et combinateur de jetons. Comme le montre la figure, le sélecteur de jetons est utilisé pour sélectionner les blocs d'images les plus informatifs, tandis que la fusion de jetons compresse les informations de ces blocs visuels non informatifs dans les jetons conservés pour réaliser la fusion des jetons redondants. L'ensemble du segmenteur de mots visuel dynamique est entraîné en maximisant la reconstruction sémantique de l'image d'entrée.

Sélecteur de jetons

Le sélecteur de jetons reçoit N fonctionnalités au niveau du bloc d'image en entrée, et son objectif est d'évaluer l'importance de chaque bloc d'image et de sélectionner le bloc avec la plus grande quantité d'informations, pour représenter pleinement la sémantique de l’image entière. Pour atteindre cet objectif, un module léger composé de plusieurs couches MLP est utilisé pour prédire la distribution π. En échantillonnant à partir de la distribution π, un masque de décision binaire est généré qui indique s'il faut conserver le patch d'image correspondant.

Combinateur de jetons

Le combinateur de jetons divise N blocs d'images en deux groupes : conservez X_r et supprimez X_d en fonction du masque de décision généré. Contrairement à la suppression directe de X_d, le combinateur de jetons peut préserver au maximum la sémantique détaillée de l'image d'entrée. Le combinateur de jetons se compose de L blocs empilés, dont chacun comprend une couche d'auto-attention causale, une couche d'attention croisée et une couche de rétroaction. Dans la couche d'auto-attention causale, chaque jeton de X_r ne prête attention qu'à son jeton précédent pour garantir la cohérence avec la forme du jeton de texte dans LLM. Cette stratégie est plus performante que l’auto-attention bidirectionnelle. La couche d'attention croisée prend le jeton conservé X_r comme requête et fusionne les jetons dans X_d en fonction de leur similarité sémantique.

Étape 2 : Pré-formation générative unifiée

Les jetons visuels traités par le tokenizer visuel sont connectés aux jetons de texte pour former une séquence multimodale comme entrée pendant la formation. Afin de distinguer les deux modalités, l'auteur insère des jetons spéciaux au début et à la fin de la séquence de jetons d'image : [IMG] et [/IMG], qui servent à indiquer le début et la fin du contenu visuel. Afin de pouvoir générer du texte et des images, LaVIT utilise deux formes de connexion image-texte : [image, texte] et [texte ;

Pour ces séquences d'entrée multimodales, LaVIT utilise une approche unifiée et autorégressive pour maximiser directement la probabilité de chaque séquence multimodale pour la pré-entraînement. Cette unification complète de l'espace de représentation et des méthodes de formation aide LLM à mieux apprendre l'interaction et l'alignement multimodaux. Une fois la pré-formation terminée, LaVIT a la capacité de percevoir des images et peut comprendre et générer des images comme du texte. "Expériences" , VizWiz) A atteint des performances de pointe dans les tâches.

Tableau 1 Évaluation des tâches de compréhension multimodale Zero-shot

Génération multimodale Zero-shot

Dans cette expérience, puisque le tokeniseur visuel proposé est capable de représenter des images sous forme de jetons discrétisés, LaVIT a la capacité de synthétiser des images en générant des jetons visuels de type texte par autorégression. L'auteur a effectué une évaluation quantitative des performances de synthèse d'images du modèle dans des conditions de texte à échantillon nul, et les résultats de la comparaison sont présentés dans le tableau 2.

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Tableau 2 Performances de génération de texte en image zéro-shot de différents modèles

Comme le montre le tableau, LaVIT surpasse tous les autres modèles de langage multimodal. Par rapport à Emu, LaVIT apporte des améliorations supplémentaires sur les modèles LLM plus petits, démontrant d'excellentes capacités d'alignement visuel-verbal. De plus, LaVIT atteint des performances comparables à celles de l'expert texte-image de pointe Parti tout en utilisant moins de données de formation.

Génération d'images d'invite multimodales

LaVIT est capable d'accepter de manière transparente plusieurs combinaisons modales comme invites et de générer des images correspondantes sans aucun réglage fin. LaVIT génère des images qui reflètent avec précision le style et la sémantique d'un signal multimodal donné. Et il peut modifier l'image d'entrée d'origine avec des indices multimodaux de l'entrée. Les modèles traditionnels de génération d’images tels que Stable Diffusion ne peuvent pas atteindre cette capacité sans données supplémentaires affinées en aval.

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Exemple de résultats de génération d'images multimodales

Analyse qualitative

Comme le montre la figure ci-dessous, le tokenizer dynamique de LaVIT peut sélectionner dynamiquement les plus informatifs en fonction de l'image contenu Patch d'image, les codes appris peuvent produire des codes visuels avec une sémantique de haut niveau.

Langage graphique : les grands modèles multimodaux Kuaishou et Beida sont comparables à DALLE-3

Visualisation du tokenizer visuel dynamique (à gauche) et du livre de codes appris (à droite)

Résumé

L'émergence de LaVIT fournit un paradigme innovant pour le traitement des tâches multimodales, hérite du succès paradigme d'apprentissage génératif autorégressif de LLM en utilisant un tokenizer visuel dynamique pour représenter la vision et le langage dans une représentation de token discrète unifiée. En optimisant selon un objectif de génération unifié, LaVIT peut traiter les images comme une langue étrangère, les comprendre et les générer comme du texte. Le succès de cette méthode fournit une nouvelle inspiration pour l’orientation du développement de la future recherche multimodale, en utilisant les puissantes capacités de raisonnement du LLM pour ouvrir de nouvelles possibilités pour une compréhension et une génération multimodales plus intelligentes et plus complètes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!