Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture d''images riches en texte'-IA-php.cn

Une tendance claire est actuellement à la construction de modèles plus grands et plus complexes avec des dizaines/centaines de milliards de paramètres capables de générer un résultat linguistique impressionnant

Cependant, les grands modèles linguistiques existants sont principalement axés sur les informations textuelles et incapables de comprendre les informations visuelles.

Ainsi, les progrès dans le domaine des grands modèles linguistiques multimodaux (MLLM) visent à remédier à cette limitation, les MLLM fusionnent les informations visuelles et textuelles en un seul modèle basé sur Transformer, permettant au modèle de s'adapter aux deux modalités d'apprentissage et de génération de contenu.

Les MLLM montrent du potentiel dans diverses applications pratiques, notamment la compréhension d'images naturelles et la compréhension d'images textuelles. Ces modèles exploitent la modélisation du langage comme interface commune pour gérer les problèmes multimodaux, leur permettant de traiter et de générer des réponses basées sur des entrées textuelles et visuelles.

Cependant, actuellement, l'accent est mis principalement sur les MLLM d'images naturelles de faible résolution, qui sont dense pour le texte Il y a eu relativement peu de recherches sur les images. Par conséquent, utiliser pleinement la pré-formation multimodale à grande échelle pour traiter les images de texte est devenu une direction importante de la recherche MLLM

En incorporant des images de texte dans le processus de formation et en développant des modèles basés sur du texte et des informations visuelles, nous peut ouvrir de nouvelles voies impliquant de nouvelles possibilités haute résolution pour les applications multimodales d'images à forte densité de texte.

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Pictures

Adresse papier : https://arxiv.org/abs/2309.11419

KOSMOS-2.5 est un modèle de langage multimodal à grande échelle basé sur des images denses en texte, qui est développé dans KOSMOS- Développé sur la base de 2, il met en évidence les capacités de lecture et de compréhension multimodales des images à forte teneur en texte (Multimodal Literate Model).

La proposition de ce modèle met en évidence ses excellentes performances dans la compréhension des images à forte teneur en texte, comblant ainsi le fossé entre la vision et le texte

En même temps, elle marque également l'évolution du paradigme de tâche par rapport au codage précédent. Architecture de décodeur-décodeur à architecture de décodeur pure

L'objectif de KOSMOS-2.5 est de permettre un traitement transparent des données visuelles et textuelles dans des images riches en texte afin de comprendre le contenu de l'image et de générer des descriptions textuelles structurées.

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Figure 1 : Présentation de KOSMOS-2.5

KOSMOS-2.5 est un modèle multimodal, comme le montre la figure 1, qui vise à utiliser un cadre unifié pour gérer deux tâches étroitement liées

La première tâche consiste à générer un bloc de texte spatialement conscient, c'est-à-dire à générer simultanément le contenu et le cadre de coordonnées du bloc de texte. Ce qui doit être réécrit est : La première tâche consiste à générer un bloc de texte spatialement conscient, c'est-à-dire à générer simultanément le contenu du bloc de texte et la boîte de coordonnées

La deuxième tâche consiste à générer une sortie de texte structurée à l'aide du format Markdown, et capturez divers styles et structures

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Figure 2 : diagramme d'architecture KOSMOS-2.5

Comme le montre la figure 2, les deux tâches utilisent une architecture Transformer partagée et des astuces spécifiques aux tâches

KOSMOS-2.5 combine un encodeur visuel basé sur ViT (Vision Transformer) avec un décodeur basé sur l'architecture Transformer, connecté via un module de rééchantillonnage.

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Figure 3 : Ensemble de données de pré-entraînement

Afin d'entraîner ce modèle, l'auteur a préparé un énorme ensemble de données d'une taille de 324,4 M, comme le montre la figure 3

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Figure 4 : Exemple d'exemple d'entraînement pour des lignes de texte avec des cadres de délimitation

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Figure 5 : Exemple d'exemple d'entraînement au format Markdown

Cet ensemble de données contient différents types d'images denses en texte, y compris des lignes de texte avec des cadres de délimitation et du texte brut au format Markdown. Les figures 4 et 5 sont des exemples de visualisations de formation.

Cette méthode de formation multitâche améliore les capacités multimodales globales de KOSMOS-2.5

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte [Figure 6] Expérience de reconnaissance de texte de bout en bout au niveau du document

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Figure 7 : Expérience sur la génération de texte au format Markdown à partir d'images

Comme le montrent les figures 6 et 7, KOSMOS- 2.5 Il est évalué sur deux tâches : la reconnaissance de texte de bout en bout au niveau du document et la génération de texte au format Markdown à partir d'images.

KOSMOS-2.5 fonctionne bien dans le traitement des tâches d'image à forte teneur en texte, et les résultats expérimentaux le démontrent

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture dimages riches en texte Figure 8 : Exemple d'affichage d'entrée et de sortie de KOSMOS-2.5

KOSMOS- 2.5 le démontre des capacités prometteuses dans les scénarios d'apprentissage en quelques plans et en zéro plan, ce qui en fait un outil polyvalent pour des applications pratiques dans le traitement d'images riches en texte. Il peut être considéré comme un outil polyvalent capable de gérer efficacement des images riches en texte et de montrer des capacités prometteuses dans le cas de l'apprentissage en quelques coups et de l'apprentissage en zéro coup. L'auteur souligne que le réglage fin des instructions est une solution très prometteuse. La méthode prospect peut atteindre une capacité d’application plus large du modèle.

Dans le domaine de la recherche plus large, une direction importante réside dans le développement ultérieur de la capacité à étendre les paramètres du modèle.

Alors que les tâches continuent de croître en portée et en complexité, la mise à l'échelle des modèles pour gérer de plus grandes quantités de données est essentielle pour le développement de modèles multimodaux à forte intensité de texte.

L'objectif ultime est de développer un modèle capable d'interpréter efficacement les données visuelles et textuelles et de généraliser avec succès à des tâches multimodales plus gourmandes en texte.

Lors de la réécriture du contenu, il doit être réécrit en chinois et la phrase originale n'a pas besoin d'apparaître

https://arxiv.org/abs/2309.11419

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Plus il y a de mots dans le document, plus le modèle sera excité ! KOSMOS-2.5 : grand modèle de langage multimodal pour la lecture d''images riches en texte'