Tout comme les animaux ont des yeux, Cambrian-1 de l’équipe de Yann LeCun permet à l’IA d’acquérir de puissantes capacités d’apprentissage des représentations visuelles.
À travers les âges, de nombreux philosophes ont exploré cette question : la compréhension du sens du langage doit-elle s'appuyer sur les sens ? Même si les philosophes ne sont pas d’accord, une chose est claire : une base sensorielle solide et efficace peut au moins aider.
Par exemple, les scientifiques pensent généralement que l'émergence de la vision lors de l'explosion cambrienne a été une étape clé dans l'évolution des premiers animaux ; cela a non seulement aidé les animaux à mieux trouver de la nourriture et à éviter les prédateurs, mais a également contribué à l'évolution des animaux eux-mêmes. En fait, la plupart des connaissances chez les humains (et chez presque tous les animaux) sont acquises grâce à des expériences sensorielles qui interagissent avec le physique, comme la vue, l’ouïe, le toucher, le goût et l’odorat. Ces expériences sensorielles sont à la base de notre compréhension du monde qui nous entoure et sont essentielles pour nous aider à agir et à prendre des décisions.
Ces idées peuvent non seulement être utilisées pour explorer des concepts philosophiques, mais ont également une valeur pratique. En particulier, le développement récent de grands modèles de langage multimodaux (MLLM) a placé l'apprentissage de la représentation visuelle et la compréhension du langage au cœur de l'application pratique. Les modèles linguistiques présentent un comportement de mise à l'échelle très fort, et les progrès récents dans l'apprentissage multimodal ont largement bénéficié de LLM plus grands et de meilleure qualité.
D’un autre côté, les choix de conception des composants visuels ne sont pas encore entièrement explorés, et l’exploration dans ce domaine est quelque peu déconnectée de la recherche sur l’apprentissage des représentations visuelles. Cela est principalement dû au fait que la recherche dans ce domaine est très difficile : le MLLM implique des processus de formation et d’évaluation complexes, et de nombreux choix de conception doivent être pris en compte.
Récemment, l'équipe de Xie Saining et Yann LeCun de l'Université de New York a exploré MLLM avec la vision comme centre pour combler cette lacune ; ils ont également construit la série de modèles Cambrian-1 (Cambrian 1) basée sur ces résultats d'exploration. (Cet article a trois co-auteurs : Shengbang Tong, Ellis Brown et Penghao Wu.)
Titre de l'article : Cambrian-1 : Une exploration entièrement ouverte et centrée sur la vision des LLM multimodaux
Adresse de l'article : https://arxiv.org/pdf/2406.16860
Site Web : https://cambrian-mllm.github.io
Code : https://github.com/cambrian-mllm/ cambrian
Modèle : https://huggingface.co/nyu-visionx/
Données : https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-Bench : https:// /huggingface.co/datasets/nyu-visionx/CV-Bench
Evaluation : https://github.com/cambrian-mllm/cambrian
Plus précisément, ils affinent l'instruction MLLM Une variété de visuels des protocoles d'évaluation de la représentation ont été élaborés, comme le montre la figure 1.
L'équipe a déclaré : « La motivation de notre étude découle de deux problèmes potentiels dans la recherche actuelle sur l'apprentissage multimodal : 1) Le recours excessif et prématuré au langage, qui est un raccourci qui peut compenser les lacunes d'un apprentissage visuel efficace. représentation ; 2) Les références existantes peuvent ne pas fournir des indications suffisantes pour les scénarios du monde réel - la base visuelle est essentielle pour une compréhension multimodale solide. "
Ces problèmes ne sont pas sans fondement, comme les chercheurs l'ont déjà fait. J'ai commencé à remarquer ce visuel. la mise à la terre devient un goulot d'étranglement dans l'application du MLLM à certaines applications difficiles du monde réel.
En regardant les choses sous un autre angle, les protocoles traditionnels d'évaluation de l'apprentissage par représentation visuelle sont devenus saturés et ne parviennent pas à refléter les divers défis de perception rencontrés dans les distributions du monde réel. D’autre part, l’utilisation d’un langage sous forme de réponse visuelle aux questions (VQA) fournit un protocole d’évaluation flexible et robuste.
L'objectif de cette étude menée par l'équipe de Xie Saining et Yann LeCun est d'explorer cette nouvelle conception de protocole et d'acquérir de nouvelles informations pour guider le développement futur de la représentation visuelle. De plus, pour mieux évaluer les représentations visuelles dans ce cadre complet, ils ont également développé un CV-Bench de référence MLLM centré sur la vision en convertissant les références de vision traditionnelles au format VQA.
Cambrian-1 repose sur cinq piliers clés, dont chacun fournit des informations importantes sur la conception du MLLM :
Représentation visuelle : l'équipe a exploré un certain nombre d'encodeurs visuels différents et leurs combinaisons
Conception des connecteurs ; : Ils ont conçu un nouveau type de connecteur dynamique et sensible à l'espace, qui peut intégrer des fonctionnalités visuelles avec LLM tout en réduisant le nombre de jetons.
Données de réglage fin de l'instruction : ils ont compilé des données de réglage fin de l'instruction visuelle de haute qualité basées sur des sources de données publiques, qui ont particulièrement souligné l'importance de l'équilibre de la distribution.
Recettes de mise au point de l'instruction : elles discutent de stratégies et de mesures pratiques pour la mise au point de l'instruction.
Évaluation du benchmark : ils ont analysé les benchmarks MLLM existants et les ont divisés intuitivement en 4 groupes, puis ont proposé un nouveau CV-Bench de référence centré sur la vision.
En s'appuyant sur ces piliers, l'équipe a construit la série de modèles Cambrian-1, qui mènent sur de multiples références et sont particulièrement efficaces pour les tâches centrées sur la vision. L’équipe a également publié les poids du modèle de l’étude, le code source ouvert, les ensembles de données et les plans détaillés pour la formation et l’évaluation du modèle.
Bases du LLM multimodal
Les composants clés de la recherche MLLM comprennent les grands modèles de langage, les encodeurs visuels, les connecteurs multimodaux, les processus d'assemblage de données, les stratégies de réglage fin des instructions, l'évaluation et l'analyse comparative. Veuillez vous référer à l'article original pour des instructions spécifiques et des recherches connexes.
Évaluation des représentations visuelles via MLLM
L'encodeur visuel actuellement utilisé dans MLLM est principalement CLIP, car il est déjà pré-aligné avec le langage et est facile à adapter à l'espace des jetons LLM. Cependant, des connaissances linguistiques solides peuvent être une arme à double tranchant : elles peuvent à la fois compenser les lacunes dans l’apprentissage de représentations visuelles efficaces et restreindre les connaissances acquises lors de recherches approfondies sur l’apprentissage des représentations visuelles.
L'équipe a systématiquement évalué l'impact de divers choix d'encodeurs visuels (voir Figure 2) sur les capacités multimodales de MLLM.
Ils préconisent également l'utilisation de l'évaluation MLLM comme cadre robuste pour évaluer les méthodes de représentation visuelle afin de refléter plus fidèlement les divers défis de perception dans des scénarios du monde réel, guidant ainsi mieux les gens pour développer de meilleures représentations visuelles. Ci-dessous, nous présenterons brièvement le processus de recherche et les résultats. Pour plus de détails, veuillez vous référer à l'article original.
Analysis Benchmark
Sur la base de 23 réseaux fédérateurs visuels différents, l'équipe a formé MLLM à l'aide d'un processus de réglage fin des instructions en deux étapes : d'abord former le connecteur sur la base de 1,2 M de données d'adaptateur de ShareGPT-4V, puis affiner- réglage sur les instructions 737K Ajustez simultanément le connecteur et le LLM sur les données.
En comparant les performances du modèle avec ou sans entrée visuelle (voir Figure 3), l'équipe a tiré les conclusions suivantes :
Constatation 1 : La plupart des benchmarks ne parviennent pas à mesurer avec précision les capacités centrées sur la vision, et quelques-uns y Il n’existe qu’un très petit nombre de critères permettant de mesurer ces capacités.
Cambrian Vision-Centric Benchmark (CV-Bench)
Pour répondre aux limites des benchmarks existants centrés sur la vision, l'équipe a proposé CV-Bench. Il contient 2 638 échantillons inspectés par des humains, ce qui est bien plus que les autres benchmarks MLLM centrés sur la vision : 3,5 fois plus que RealWorldQA et 8,8 fois plus que MMVP.
Comme le montrent la figure 4 et le tableau 1, CV-Bench peut évaluer la capacité de compréhension 2D grâce aux relations spatiales et au nombre de cibles, et peut évaluer la capacité de compréhension 3D grâce à l'ordre de profondeur et à la distance relative.
Constatation 2 : Les références de vision existantes peuvent être adaptées efficacement aux tâches VQA, permettant ainsi l'évaluation des capacités MLLM centrées sur la vision.
Schéma de réglage fin de l'instruction
MLLM commence par la pré-formation LLM et le réseau de base visuel, puis connecte ces modules via des connecteurs tels que des projecteurs (MLP). L’équipe a exploré différents schémas de réglage fin de l’enseignement à travers des expériences approfondies et a abouti aux conclusions suivantes.
Concernant le choix entre l'entraînement en une seule étape et l'entraînement en deux étapes, l'équipe a constaté :
Constatation 3 : l'entraînement en deux étapes est bénéfique, l'utilisation de davantage de données d'adaptateur peut améliorer encore les résultats ;
En ce qui concerne la question de savoir s'il faut geler l'encodeur visuel, l'équipe a trouvé :
Constatation 4 : Il y a de nombreux avantages à ne pas geler l'encodeur visuel. Les modèles supervisés par le langage sont toujours bénéfiques ; les modèles SSL sont particulièrement bénéfiques sur les benchmarks centrés sur la vision.
Utilisation de MLLM comme évaluateur de représentations visuelles
L'équipe a étudié l'utilisation de MLLM pour évaluer les représentations visuelles. Les résultats sont présentés dans la figure 6. Les résultats sont les suivants :
Résultat 5 : Haute résolution. Les encodeurs peuvent améliorer considérablement les performances sur les benchmarks centrés sur les graphiques ou la vision, et les architectures basées sur un réseau convolutionnel sont parfaitement adaptées à de telles tâches.
Ils ont également étudié si le réglage fin continu du MLLM basé sur le modèle auto-supervisé pouvait obtenir des performances similaires à celles du modèle supervisé par le langage. Les résultats sont présentés dans la figure 7.
Constatation 6 : La supervision linguistique présente de grands avantages, mais tant qu'il y a suffisamment de données et des ajustements appropriés, l'écart de performances peut être réduit grâce aux méthodes SSL.
Combiner plusieurs encodeurs visuels
L'équipe a également exploré la possibilité de combiner plusieurs encodeurs visuels pour créer un MLLM plus puissant, et les résultats sont présentés dans le tableau 3.
Constatation 7 : La combinaison de plusieurs encodeurs visuels (y compris des modèles SSL visuels) améliore les performances MLLM sur une variété de benchmarks différents, en particulier pour les tâches centrées sur la vision.
Spatial Vision Aggregator (SVA) : une nouvelle conception de connecteurs
Pour regrouper efficacement les fonctionnalités de plusieurs encodeurs visuels et éviter la perte d'informations introduite par interpolation, ils ont utilisé un ensemble de requêtes implicites apprenables, qui peuvent interagir avec plusieurs fonctionnalités visuelles à travers des couches d’attention croisée.
Plus précisément, la nouvelle approche intègre deux nouveaux principes de conception centrés sur la vision :
Introduit un biais d'induction spatiale en définissant explicitement l'espace d'agrégation pour chaque jeton dans la requête.
L'agrégation de caractéristiques visuelles plusieurs fois sur les couches LLM permet au modèle d'accéder et d'intégrer à plusieurs reprises les informations visuelles nécessaires.
Cette nouvelle méthode de construction peut s'adapter de manière flexible à plusieurs encodeurs visuels avec différentes résolutions de fonctionnalités, tout en préservant la structure spatiale des données visuelles lors de l'agrégation et de l'intégration avec LLM.
En utilisant une combinaison des meilleurs modèles de vision de la section précédente et un LLM de base Vicuna-1.5-7B, l'équipe a démontré l'utilité du module SVA.
Le tableau 4 montre : SVA surpasse les deux techniques contrastées sur toutes les catégories de référence, avec d'énormes améliorations sur l'OCR et les catégories tabulaires (nécessitant une compréhension des fonctionnalités haute résolution).
Pour aller plus loin, ils ont mené des expériences d'ablation basées sur la combinaison d'OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024. Les résultats sont présentés dans le tableau 5.
Résultat 8 : Le biais d'induction spatiale et l'interaction profonde entre le LLM et les caractéristiques visuelles aident à mieux agréger et condenser les caractéristiques visuelles.
Données de réglage fin des instructions pour la formation MLLM
Collecte de données
Collecter des données de réglage fin des instructions à partir de sources de données existantes :
L'équipe a utilisé à la fois des références multimodales et des ensembles de données impliquant des données d'interaction visuelle (par exemple , réponses visuelles aux questions (VQA) et données OCR), une petite quantité de données de haute qualité sur la conformité des instructions en langage pur a également été collectée. Ils ont également séparé les données en différentes catégories : conversation générale, OCR, comptage, codage, mathématiques, sciences et données linguistiques pures. La figure 9 montre la source de données.
Moteur de collecte de données Internet ciblé : comme le montre la figure 9, la répartition des données est déséquilibrée.
Pour créer des données de réglage fin des instructions à grande échelle, fiables et de haute qualité, basées sur les connaissances, l'équipe a proposé un moteur de données. Le moteur peut choisir un domaine et un sous-domaine cibles (tels que la physique), puis utiliser un LLM tel que GPT-4 pour identifier des sujets (tels que les lois de Newton). Il recherche ensuite des sources d'informations fiables telles que Wikipédia pour chaque sujet. L’équipe a constaté que les paires image-texte extraites de Wikipédia étaient de haute qualité.
Après cela, l'équipe a utilisé un analyseur pour extraire les tuples de description d'image, puis a transmis le texte de description à un LLM, tel que GPT-3.5, pour générer des paires de questions et réponses de type commande sur l'image via des invites soigneusement conçues. . Ces paires de questions-réponses et ces images constituent leur ensemble de données VQA.
Cambrian-10M : Ils ont créé un vaste pool de données de réglage fin des instructions et l'ont nommé Cambrian-10M, qui contient environ 9 784 000 points de données. La figure 9 montre sa composition.
Réorganisation des données
Afin d'améliorer l'équilibre des données et d'ajuster la proportion des données (voir les figures 10 et 11), l'équipe a réorganisé Cambrian-10M.
J'ai enfin obtenu un ensemble de données plus petit mais de meilleure qualité Cambrian-7M. Les tableaux 6 et 7 illustrent l'avantage de la réorganisation des données d'instruction : bien qu'il y ait moins d'échantillons dans Cambrian-7M, les performances qui en résultent sont meilleures.
Facilitez le « phénomène du répondeur » grâce aux invites du système
Ils ont également étudié le soi-disant phénomène des répondeurs. Ils ont observé qu'un MLLM bien formé pourrait être efficace dans la gestion du benchmark VQA, mais manquerait de capacités conversationnelles de base et produirait par défaut des réponses courtes et guinchées. La raison en est que les réponses requises pour les questions de référence sont souvent limitées à une seule option ou à un seul mot, contrairement aux cas d'utilisation plus généraux et réalistes. Des phénomènes similaires ont été observés dans d’autres études LLM.
Ils spéculent que la cause de ce problème est que les données de réglage fin des instructions contiennent trop de tâches VQA à réponse courte, ce qui peut conduire à un oubli catastrophique dans LLM.
Pour résoudre ce problème, l'équipe a intégré des invites système supplémentaires pendant la formation. Par exemple, pour les questions qui génèrent un seul mot ou une seule phrase dans la réponse, ajoutez quelque chose comme « Utilisez un seul mot ou une seule phrase pour répondre à cette question » dans l'invite. Il a été constaté qu'une telle invite système peut améliorer considérablement les capacités conversationnelles du modèle tout en conservant ses performances de base. La figure 12 donne un exemple.
De plus, l'invite du système peut également améliorer la capacité de raisonnement en encourageant le modèle à utiliser des chaînes de réflexion.
Meilleure performance à ce jour
Enfin, en utilisant les informations acquises au cours de l'étude exploratoire, l'équipe a formé une nouvelle famille de modèles MLLM : Cambrian-1. Ils ont formé les modèles à l’aide de réseaux fédérateurs LLM de différentes tailles : LLaMA-3-Instruct-8B, Vicuna-1.5-13B, Hermes-2-Yi-34B.
Leur composant vision combine 4 modèles via le Spatial Vision Aggregator (SVA) : OpenAI CLIP ViT-L/14@336, SigLIP ViT-SO400M/14@384, OpenCLIP ConvNeXt-XXL@1024, DINOv2 ViT-L /14@ 518. Ils ont pré-entraîné le connecteur à l'aide de données d'adaptateur 2,5 M, puis l'ont affiné à l'aide du mélange de données Cambrian-7M.
Le Tableau 8 et la Figure 13 donnent les résultats de l'évaluation du modèle.
Comme vous pouvez le constater, Cambrian-1 surpasse les modèles open source tels que LLaVA-NeXT et Mini-Gemini. Grâce à SVA, Cambrian-1 peut également très bien gérer les tâches nécessitant un traitement d'image haute résolution, même en utilisant seulement 576 jetons d'image, ce qui ne représente qu'environ 1/du nombre de jetons utilisés par LLaVA-NeXT et Mini-Gemini 5.
Cambrian-1 atteint également des performances comparables à celles des meilleurs modèles propriétaires tels que GPT-4V, Gemini-Pro et MM-1 sur plusieurs benchmarks.
La figure 14 donne quelques exemples, et vous pouvez voir que même si Cambrian-1 n'utilise que 576 jetons, il peut effectivement prêter attention aux détails de l'image.
De plus, le nom de Cambrian-1 montre qu'il s'agit d'une équipe ambitieuse. Attendons avec impatience la mise à niveau de nouvelle génération de cette série de modèles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!