Sous la direction de Yan Shuicheng, l'Institut mondial de recherche Kunlun Wanwei 2050 a publié conjointement Vitron avec NUS et NTU, établissant la forme ultime de grands modèles visuels multimodaux généraux.-IA-php.cn

Récemment, sous la direction du professeur Yan Shuicheng, le Kunlun Wanwei 2050 Global Research Institute, l'Université nationale de Singapour et l'équipe de l'Université technologique Nanyang de Singapour ont publié conjointement et open source le visuel universel au niveau des pixels Vitron grand modèle de langage multimodal .

Il s'agit d'un grand modèle multimodal visuel général robuste qui prend en charge une série de tâches visuelles allant de la compréhension visuelle à la génération visuelle, du niveau bas au niveau élevé, et résout le problème d'image qui a tourmenté le grand modèle de langage. industrie depuis longtemps. /Problème de fractionnement du modèle vidéo, fournit un grand modèle visuel multimodal général au niveau des pixels qui unifie complètement la compréhension, la génération, la segmentation, l'édition et d'autres tâches des images statiques et du contenu vidéo dynamique, jeter les bases de la prochaine génération de grands modèles visuels généraux. La forme ultime pose les bases et marque un autre grand pas vers l'intelligence artificielle (AGI) générale pour les grands modèles.

Vitron, en tant que grand modèle de langage visuel multimodal unifié au niveau des pixels, offre une prise en charge complète des tâches visuelles de bas niveau à haut niveau

, est capable de gérer des tâches visuelles complexes, et Comprenez et générez du contenu image et vidéo, offrant de puissantes capacités de compréhension visuelle et d'exécution de tâches. Dans le même temps, Vitron prend en charge les opérations continues avec les utilisateurs, permettant une interaction homme-machine flexible, démontrant le grand potentiel vers un modèle universel multimodal visuel plus unifié.

Les articles, codes et démos liés à Vitron

ont tous été rendus publics Il a démontré des avantages et un potentiel uniques en termes d'exhaustivité, d'innovation technologique, d'interaction homme-machine et de potentiel d'application non. ne fait que promouvoir Il favorise non seulement le développement de grands modèles multimodaux, mais fournit également une nouvelle orientation pour la future recherche sur les grands modèles visuels.

Kunlun Wanwei

2050Le Global Research Institute s'est engagé à construire une institution de recherche scientifique exceptionnelle pour le monde futur et à travailler avec la communauté scientifique pour traverser "la singularité ", explorez le monde inconnu, créez un avenir meilleur. Auparavant, Kunlun Wanwei 2050Global Research Institute a publié et open source la boîte à outils de recherche et développement d'agents numériquesAgentStudio À l'avenir, l'institut de recherche continuera à promouvoir l'intelligence artificielletechnique. percées, contribuant à la construction écologique de l’intelligence artificielle de la Chine. Le développement actuel des grands modèles de langage visuels (LLM) a fait des progrès gratifiants. La communauté croit de plus en plus que la construction de grands modèles multimodaux (MLLM) plus généraux et plus puissants sera le seul moyen de parvenir à une intelligence artificielle générale (AGI). Cependant, il reste encore quelques défis majeurs dans le processus d'évolution vers un modèle général multimodal (Généraliste). Par exemple, une grande partie du travail ne parvient pas à une compréhension visuelle fine au niveau des pixels, ou manque de prise en charge unifiée pour les images et les vidéos. Ou bien la prise en charge de diverses tâches visuelles est insuffisante, et c'est loin d'être un grand modèle universel. Afin de combler cette lacune, récemment, le Kunlun Worldwide 2050 Global Research Institute, l'Université nationale de Singapour et l'équipe de l'Université technologique de Nanyang de Singapour ont publié conjointement le modèle de grand langage visuel multimodal universel open source Vitron au niveau des pixels. . Vitron prend en charge une série de tâches visuelles allant de la compréhension visuelle à la génération visuelle, du niveau bas au niveau élevé, y compris la compréhension, la génération, la segmentation et l'édition complètes d'images statiques et de contenu vidéo dynamique.

Vitron a décrit de manière exhaustive le support fonctionnel de quatre tâches majeures liées à la vision. et ses principaux avantages. Vitron prend également en charge un fonctionnement continu avec les utilisateurs pour obtenir une interaction homme-machine flexible. Ce projet démontre le grand potentiel d’un modèle général multimodal de vision plus unifiée, jetant les bases de la forme ultime de la prochaine génération de grands modèles de vision générale.

Les articles, codes et démos liés à Vitron sont désormais tous publics.

Sous la direction de Yan Shuicheng, lInstitut mondial de recherche Kunlun Wanwei 2050 a publié conjointement Vitron avec NUS et NTU, établissant la forme ultime de grands modèles visuels multimodaux généraux.

Titre de l'article : Vitron : Un LLM de vision unifiée au niveau des pixels pour comprendre, générer, segmenter, éditer

Page d'accueil et démo du projet : https://vitron-llm.github.io/

Lien de l'article : https :/ / is.gd/aGu0VV

Code source ouvert : https://github.com/SkyworkAI/Vitron
0

1 Sous la direction de Yan Shuicheng, lInstitut mondial de recherche Kunlun Wanwei 2050 a publié conjointement Vitron avec NUS et NTU, établissant la forme ultime de grands modèles visuels multimodaux généraux.

Le modèle de grand langage multimodal unifié ultime.

Ces dernières années, les grands modèles de langage (LLM) ont démontré une puissance sans précédent et se sont progressivement révélés être la voie technique vers l'AGI. Les grands modèles multimodaux de langage (MLLM) se développent rapidement dans de nombreuses communautés et émergent rapidement. En introduisant des modules capables d'effectuer une perception visuelle, les LLM purement basés sur le langage sont étendus aux MLLM. De nombreux MLLM puissants et excellents dans la compréhension des images ont été développés. , tels que BLIP-2, LLaVA, MiniGPT-4, etc. Parallèlement, des MLLM axés sur la compréhension de la vidéo ont également été lancés, tels que VideoChat, Video-LLaMA, Video-LLaVA, etc.

Par la suite, les chercheurs ont principalement tenté d'étendre davantage les capacités des MLLM à partir de deux dimensions. D'une part, les chercheurs tentent d'approfondir la compréhension de la vision par les MLLM, en passant d'une compréhension approximative au niveau de l'instance à une compréhension fine des images au niveau des pixels, obtenant ainsi des capacités de positionnement de région visuelle (Regional Grounding), telles que GLaMM, PixelLM. , NExT-Chat et MiniGPT-v2 etc. D’un autre côté, les chercheurs tentent d’étendre les fonctions visuelles que les MLLM peuvent prendre en charge. Certaines recherches ont commencé à étudier comment les MLLM non seulement comprennent les signaux visuels d'entrée, mais prennent également en charge la génération de contenu visuel de sortie. Par exemple, les MLLM tels que GILL et Emu peuvent générer du contenu d'image de manière flexible, et GPT4Video et NExT-GPT réalisent la génération de vidéo.

À l'heure actuelle, la communauté de l'intelligence artificielle est progressivement parvenue à un consensus selon lequel la tendance future des MLLM visuels évoluera inévitablement dans le sens de capacités hautement unifiées et plus fortes. Cependant, malgré les nombreux MLLM développés par la communauté, une lacune évidente existe encore.

Tout d'abord, Presque tous les LLM visuels existants traitent les images et les vidéos comme des entités différentes et ne prennent en charge que les images ou uniquement les vidéos. Les chercheurs soutiennent que la vision devrait englober à la fois des images statiques et des vidéos dynamiques, deux composantes essentielles du monde visuel et même interchangeables dans la plupart des scénarios. Par conséquent, il est nécessaire de créer un cadre MLLM unifié pouvant prendre en charge à la fois les modalités image et vidéo.

Deuxièmement, Actuellement, la prise en charge des fonctions visuelles par les MLLM est encore insuffisante. La plupart des modèles sont uniquement capables de comprendre, ou tout au plus de générer des images ou des vidéos. Les chercheurs estiment que les futurs MLLM devraient être un grand modèle de langage général capable de couvrir un plus large éventail de tâches et d'opérations visuelles, d'obtenir une prise en charge unifiée de toutes les tâches liées à la vision et d'atteindre des capacités « un pour tous ». Ceci est crucial pour les applications pratiques, notamment dans la création visuelle qui implique souvent une série d’opérations itératives et interactives. Par exemple, les utilisateurs commencent généralement par du texte et convertissent une idée en contenu visuel via des diagrammes de Vincent ; puis affinent l'idée initiale et ajoutent plus de détails grâce à une édition d'images plus fine, puis créent du contenu dynamique en générant des vidéos à partir d'images ; des séries d'interactions itératives, comme le montage vidéo, pour parfaire la création.

Le tableau ci-dessus résume simplement les capacités du MLLM visuel existant (seuls certains modèles sont inclus de manière représentative et la couverture est incomplète). Pour combler ces lacunes, l'équipe propose Vitron, un MLLM visuel général au niveau des pixels.

02. Architecture du système Vitron : trois modules clés

Le cadre global de Vitron est présenté dans la figure ci-dessous. Vitron adopte une architecture similaire aux MLLM associés existants, comprenant trois parties clés : 1) module d'encodage visuel et linguistique frontal, 2) module central de compréhension et de génération de texte du LLM, et 3) réponse de l'utilisateur back-end et appels de module pour le contrôle visuel. module.

Module Front-end : Codage visuo-linguistique. Afin de percevoir les signaux modaux d'image et de vidéo et de prendre en charge la saisie visuelle fine de l'utilisateur, Vitron intègre des encodeurs d'image, des encodeurs vidéo et des encodeurs de zones/croquis de région.

Module central : Core LLM. Vitron utilise Vicuna (7B, 1.5) pour la compréhension, le raisonnement, la prise de décision et plusieurs cycles d'interaction utilisateur.

Module Backend : Réponse de l'utilisateur et appel du module. Vitron adopte une stratégie d'appel centrée sur le texte et intègre plusieurs modules de traitement d'image et vidéo puissants et avancés (SoTA) disponibles dans le commerce pour décoder et exécuter une série de tâches de terminal visuel du bas niveau au haut niveau. En adoptant une méthode d'appel d'intégration de module centrée sur le texte, Vitron réalise non seulement l'unification du système, mais garantit également l'efficacité de l'alignement et l'évolutivité du système.

03.VitronTrois étapes majeures de la formation du modèle

Basé sur l'architecture ci-dessus, Vitron est formé et affiné pour lui donner de puissantes capacités de compréhension visuelle et d'exécution de tâches. La formation du modèle comprend principalement trois étapes différentes.

Étape 1 : Apprentissage de l'alignement global du langage visuel. Les caractéristiques du langage visuel d'entrée sont mappées dans un espace de caractéristiques unifié, lui permettant ainsi de comprendre efficacement les signaux multimodaux d'entrée. Il s’agit d’un apprentissage d’alignement visuo-linguistique à gros grain qui permet au système de traiter efficacement les signaux visuels entrants dans leur ensemble. Les chercheurs ont utilisé des ensembles de données existants de paire image-légende (CC3M), de paire vidéo-légende (Webvid) et de paire région-légende (RefCOCO) pour la formation.

Étape 2 : Affinage fin des instructions de positionnement visuel spatio-temporel. Le système utilise des modules externes pour effectuer diverses tâches visuelles au niveau des pixels, mais LLM lui-même n'a subi aucune formation visuelle fine, ce qui empêchera le système d'atteindre une véritable compréhension visuelle au niveau des pixels. À cette fin, les chercheurs ont proposé une formation de réglage précis des instructions de positionnement visuel spatio-temporel. L’idée principale est de permettre à LLM de localiser la spatialité fine de l’image et les caractéristiques temporelles spécifiques de la vidéo. Étape 3 : L'extrémité de sortie est affinée pour l'appel de commande. La deuxième étape de la formation décrite ci-dessus donne au LLM et à l'encodeur frontal la capacité de comprendre la vision au niveau des pixels. Cette dernière étape, le réglage fin des instructions pour l'invocation de commandes, vise à doter le système de la capacité d'exécuter des commandes avec précision, permettant à LLM de générer un texte d'invocation approprié et correct. Étant donné que différentes tâches de vision du terminal peuvent nécessiter différentes commandes d'appel, afin d'unifier cela, les chercheurs ont proposé de standardiser la sortie de réponse de LLM dans un format de texte structuré, qui comprend :

1) Sortie de réponse de l'utilisateur, répondant directement à la réponse de l'utilisateur. saisir .

2) Nom du module, indiquant la fonction ou la tâche à effectuer.

3) Appelez la commande pour déclencher la méta-instruction du module de tâches.

4) Région (sortie facultative) qui spécifie les fonctionnalités visuelles fines requises pour certaines tâches, comme le suivi vidéo ou l'édition visuelle, où les modules backend nécessitent ces informations. Pour les régions, sur la base de la compréhension au niveau des pixels de LLM, des cadres de délimitation décrits par des coordonnées seront générés.

04 Expériences d'évaluation

Les chercheurs ont mené des évaluations expérimentales approfondies sur 22 ensembles de données de référence communs et 12 tâches de vision image/vidéo basées sur Vitron. Vitron démontre de solides capacités dans quatre grands groupes de tâches visuelles (segmentation, compréhension, génération et édition de contenu), tout en disposant de capacités flexibles d’interaction homme-machine. Ce qui suit montre de manière représentative quelques résultats de comparaison qualitative :

Segmentation de la vision

Résultats de la segmentation de l'image référençant l'image

Compréhension fine de la vision

Résultats de l'image compréhension d’expressions référentes .

Résultats sur les résultats de l'édition vidéo

Contenu expérimental et détails plus détaillés Veuillez passer au document.
0

5

Future Direction Outlook
Dans l'ensemble, ce travail démontre le grand potentiel du développement d'un grand modèle général visuel multimodal unifié, jetant les bases de la recherche de la prochaine génération de visuels. grands modèles. Elle prend une forme nouvelle et constitue le premier pas dans cette direction. Bien que le système Vitron proposé par l’équipe présente de fortes capacités générales, il présente néanmoins ses propres limites. Les chercheurs suivants énumèrent quelques directions qui pourraient être explorées davantage à l’avenir.

Architecture système

Le système Vitron utilise toujours une approche semi-jointe et semi-agent pour appeler des outils externes. Bien que cette méthode basée sur les appels facilite l'expansion et le remplacement de modules potentiels, cela signifie également que les modules back-end de cette structure de pipeline ne participent pas à l'apprentissage conjoint des modules front-end et de base LLM. Cette limitation n'est pas propice à l'apprentissage global du système, ce qui signifie que la limite supérieure de performance des différentes tâches de vision sera limitée par les modules back-end. Les travaux futurs devraient intégrer divers modules de tâches de vision dans une unité unifiée. Parvenir à une compréhension et une production unifiées d’images et de vidéos tout en prenant en charge les capacités de génération et d’édition via un paradigme génératif unique reste un défi. Actuellement, une approche prometteuse consiste à combiner la tokenisation persistante en termes de modularité pour améliorer l'unification du système sur différentes entrées et sorties et diverses tâches.

Interactivité utilisateur

Contrairement aux modèles précédents qui se concentraient sur une tâche de vision unique (par exemple, Stable Diffusion et SEEM), Vitron vise à faciliter une interaction profonde entre LLM et les utilisateurs, similaire à OpenAI dans la série DALL-E de l'industrie. , Mi-parcours, etc. Atteindre une interactivité utilisateur optimale est l’un des objectifs principaux de ce travail. Vitron exploite les LLM basés sur le langage existants, combinés à des ajustements pédagogiques appropriés, pour atteindre un certain niveau d'interactivité. Par exemple, le système peut répondre de manière flexible à tout message attendu saisi par l'utilisateur et produire des résultats d'opération visuels correspondants sans exiger que l'entrée de l'utilisateur corresponde exactement aux conditions du module principal. Cependant, ce travail présente encore de nombreuses marges d'amélioration en termes de renforcement de l'interactivité. Par exemple, en s'inspirant du système Midjourney à source fermée, quelle que soit la décision prise par LLM à chaque étape, le système doit fournir activement des commentaires aux utilisateurs pour garantir que ses actions et décisions sont cohérentes avec les intentions des utilisateurs.

Capacités modales

Actuellement, Vitron intègre un modèle 7B Vicuna, qui peut avoir certaines limitations sur sa capacité à comprendre le langage, les images et les vidéos. Les orientations futures de l'exploration pourraient consister à développer un système complet de bout en bout, par exemple en élargissant l'échelle du modèle pour parvenir à une compréhension plus approfondie et plus complète de la vision. En outre, des efforts devraient être faits pour permettre au LLM d’unifier pleinement la compréhension des modalités de l’image et de la vidéo.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!