L'équipe Bengio propose un nouveau benchmark multimodal, ciblant les faiblesses de Claude 3.5 et GPT-4o-IA-php.cn

La rubrique AIxiv est une rubrique où des contenus académiques et techniques sont publiés sur ce site. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'auteur de cet article, Zhang Tianyu, a étudié à l'Institut d'intelligence artificielle Mila au Canada et a étudié auprès du professeur Yoshua Bengio, lauréat du prix Turing. . Les principaux travaux de la période doctorale se sont concentrés sur l'apprentissage par renforcement multimodal, GFlowNet, multi-agents et l'application de l'IA au changement climatique. Actuellement, il a publié des articles lors de grandes conférences sur l'apprentissage automatique telles que ICML, ICLR et ICASSP. Représenté comme un pré-entraînement linguistique-audio contrasté à grande échelle avec fusion de fonctionnalités et augmentation de mot-clé à légende (CLAP).

Pour atteindre l'objectif ultime de l'intelligence artificielle générale AGI, la première chose à réaliser est que le modèle doit être capable d'accomplir des tâches que les humains peuvent facilement effectuer. Pour ce faire, l’une des lignes directrices clés du développement de grands modèles est comment faire penser et raisonner les machines comme les humains. Des technologies telles que les mécanismes d’attention et la chaîne de pensée s’en sont inspirées.

Cependant, beaucoup de gens ne réalisent peut-être pas que de nombreuses tâches cognitives très simplespour les humains sont souvent accompagnées de processus de raisonnement très complexes. À titre d'exemple, essayez de remplir les espaces de texte bloqués en vous basant sur l'image ci-dessous :

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

(Réponse correcte : les chercheurs en apprentissage automatique du monde entier sont enthousiasmés par le nouveau GPU. Ses fonctionnalités de pointe peuvent également permettre de grandes -les expériences à grande échelle sont plus efficaces et moins chères, même si elles sont aussi grandes qu'un poêle )

Pour la plupart des locuteurs natifs chinois, cette tâche ne devrait pas être difficile, et je pense que vous pouvez obtenir la réponse en quelques secondes seulement . Mais déduire le texte complet à partir de la partie exposée du texte nécessite encore un processus de raisonnement très complexe : les recherches contemporaines en neurosciences montrent que la récupération d'objets partiellement obstrués nécessite un haut degré d'implication du cortex préfrontal, capable de prendre des décisions de haut niveau. -fabrication.

Nous savons que les modèles de langage visuel actuels (Vision-Language Models, VLM) peuvent effectuer une reconnaissance d'objets et une reconnaissance de texte avec une grande précision. Cependant, lorsque la partie masquée est du texte ; lorsque la reconnaissance optique de caractères (OCR) du modèle échoue ; lorsque la seule information clé n'est que quelques pixels du texte masqué, le modèle peut-il simuler le processus de raisonnement humain pour accomplir cette tâche ?

À cette fin, l'équipe du lauréat du Turing Award Yoshua Bengio a proposé une nouvelle tâche visuelle de questions et réponses : Visual Caption Restoration (VCR). Utilisons cette tâche pour explorer les capacités de raisonnement des modèles de langage visuel : Quelle est la distance entre les modèles de langage visuel actuels et les niveaux cognitifs humains ?

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Titre de l'article : VCR : Restauration des légendes visuelles
Lien de l'article : arxiv.org/abs/2406.06462
Référentiel de codes : github.com/tianyu-z/VCR (Cliquez pour lire le texte original pour accéder directement accès, y compris Examiner le code de génération de données pour l'évaluation du modèle et la pré-formation) Pour le développement Pour la tâche VCR, les chercheurs ont construit un
processus permettant de générer des images composites VCR à partir d'une image-texte
contrôlant la taille du rectangle blanc qui recouvre le texte
,
contrôlant ainsi la difficulté de la tâche

Avec ce processus de génération de données, les chercheurs ont généré l'ensemble de données VCR-wiki via la paire image principale - introduction de

Wikipedia

. Il existe deux niveaux de difficulté pour les deux langues : « Facile
» et « Difficile

». Parmi eux :

Tâche magnétoscope "facile" difficile

peut rendre le modèle OCR invalide

Tâche magnétoscope "difficile" ne conserve que 1-2 haut et bas pour chaque texte masqué. pixels, mais permet toujours aux utilisateurs de la langue correspondante de terminer la tâche.

Dans chaque langue et difficulté, il y a 5000 échantillons dans l'ensemble de test et l'ensemble de validation, et les échantillons restants sont dans l'ensemble d'entraînement. Figure : De gauche à droite, respectivement, difficulté simple en anglais, difficulté en anglais, simplicité en chinois et difficulté en chinois.

(Réponse correcte : Le Grand Traité, un traité de mathématiques et d'astronomie compilé par Ptolémée dans la Grèce antique vers 140 après JC, qui proposait les trajectoires de mouvement complexes des étoiles et des planètes. Jusqu'au Moyen Âge et au début de la Renaissance, le modèle géocentrique proposé dans le livre a été adopté par l'Islam et l'Europe...)
Comment les humains complètent-ils un texte partiellement obscurci ?

Il existe un concept en éducation et en sciences cognitives appelé

méta-cognition

. Lors de la conception de l'IA, nous, les humains, en tant qu'enseignants, pouvons utiliser la Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点 surveillance de nos propres processus de réflexion

comme référence pour aider les élèves qui servent de modèles à améliorer leur efficacité d'apprentissage. Par conséquent, réfléchir à « la façon dont les humains accomplissent les tâches du magnétoscope » peut être instructif pour la conception de modèles.

L'image ci-dessous montre l'une des idées de résolution de problèmes de l'auteur pour la tâche magnétoscope à titre de référence :

Il semble qu'il y ait de nombreuses étapes, mais en fait, il s'agit simplement d'obtenir constamment des informations à travers différentes domaines puis en le vérifiant à plusieurs reprises pour augmenter le niveau de confiance des réponses.

Quand j'ai vu la photo pour la première fois, je n'avais qu'une vague supposition en tête. En lisant constamment les images pour obtenir de nouvelles informations, j'ai progressivement vérifié cette supposition. Après la lecture, lorsque vous commencez à remplir les blancs, vous n’arrêtez toujours pas de comparer différents aspects de l’information pour confirmer vos réponses. Lorsque « l’hypothèse » n’est pas cohérente avec d’autres informations, « l’hypothèse » est annulée et une nouvelle hypothèse est réessayée.

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Résultats de l'évaluation humaine

Quelle est la qualité des humains dans les tâches de magnétoscope ?

Le tableau ci-dessous montre l'exactitude des locuteurs natifs ou des utilisateurs parlant couramment chaque langue en anglais/chinois sur les paramètres faciles/difficiles :

Si les erreurs telles que l'heure, les noms de lieux et les noms des personnes sont prises en compte, La précision moyenne du chinois en difficulté facile est d'environ 98,58 %, et la précision moyenne du chinois en difficulté difficile est d'environ 91,84 %. En excluant ces erreurs dues à l'heure, aux noms de lieux et aux noms de personnes, les humains sont presque proches de la note maximale dans le niveau de difficulté chinois facile, et le taux de précision dans le niveau de difficulté chinois difficile a également atteint 96,63 %. Comme on peut le constater, la tâche du VCR est très simple pour les humains.

Résultats des modèles existants

L'auteur a testé la "gamme all-star" : Claude 3 Opus, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o, GPT-4 Turbo, Qwen-VL - Max, Reka Core et certains des modèles open source les plus performants disponibles aujourd'hui.

La figure suivante montre les performances de chaque modèle sur la difficulté simple du VCR-Wiki chinois :

Les indicateurs de mesure de la boîte rouge incluent des représentants dont image (VI) et texte dans l'image ( TEI) Les deux parties sont utilisées comme informations contextuelles et le modèle peut restaurer l'exactitude du texte obscurci. La case bleue indique la précision du modèle capable de restituer le texte couvert qui contient uniquement le texte de l'image (TEI) comme information contextuelle et n'inclut pas l'image (VI).

Les résultats montrent que :

La grande majorité des modèles sont actuellement incapables d'effectuer cette tâche ;

La grande majorité des modèles ne fait pas bon usage des informations sur les images ; , pas à cause des informations d'image (VI) Et améliorer la précision.

Sur la difficulté Chinois Difficile , le modèle a rencontré de plus grands problèmes. Le plus performant est le GPT-4o, mais sa précision n'est que de 2,2%. À l'exception de CogVLM2-Chinese et Qwen-VL-Max, la précision de la plupart des modèles est proche de 0%.

On peut observer qu'en mode difficile, le modèle original a du mal à répondre correctement à cette question à un rythme important, sans parler de se rapprocher des humains.

Résultats de l'évaluation du magnétoscope anglais

L'auteur a également testé les meilleurs modèles de langage visuel open source et fermés actuels sur le VCR-Wiki anglais. Avant d'afficher les résultats du test, veuillez jeter un œil à deux exemples de la tâche VCR-Wiki en anglais :

Exemple simple en anglais :

(Réponse correcte : Depuis que la poste des États-Unis a émis son premier timbre en 1847, plus de 4 000 timbres ont été émis et plus de 800 personnes en vedette...)

Exemple de difficulté en anglais :

(Réponse correcte : Lincoln est la division des véhicules de luxe du constructeur automobile américain. Ford. Commercialisé parmi les plus grandes marques de véhicules de luxe aux États-Unis, pour...)

Les résultats des tests du VCR-Wiki anglais présentés dans l'article sont les suivants :

En regardant les résultats globaux, le modèle fonctionne mieux que le chinois respectivement dans le mode anglais simple et dans le mode difficile. Ce résultat est incompatible avec notre intuition générale selon laquelle "en raison de la configuration modulaire spéciale, le chinois incomplet a plus de chances d'être complété". Cela est peut-être dû au fait que lors du processus de pré-formation, l'anglais présente de plus grands avantages que le chinois en termes de volume et de qualité des données.

Parmi les nombreux modèles testés, GPT-4o est le meilleur parmi les modèles fermés, et CogVLM2 est le meilleur parmi les modèles open source.

Un phénomène très intéressant est que l'ajout d'images a considérablement aidé CogVLM2 (en hausse de 20,3% en mode difficile), tandis que pour GPT-4o les résultats ont diminué. Dans le test chinois, on observe un phénomène similaire. L’auteur estime que cela est dû à la structure du modèle. Pour des détails spécifiques, les lecteurs sont invités à se référer aux articles et codes de la série CogVLM.

De plus, les modèles fermés obtiennent généralement de meilleurs résultats que les modèles open source, ce qui peut être attribué à de meilleures stratégies de formation ou à davantage de paramètres de modèle. Mais malgré cela, le modèle a encore rencontré de grands défis dans un contexte « difficile ». Bien que les modèles open source puissent partiellement compléter le réglage « facile », dans le contexte difficile, la plupart des modèles open source sont incapables d'accomplir cette tâche qui est très simple pour les humains.

Introduction aux tâches connexes

VQA

La tâche de réponse visuelle aux questions (VQA) nécessite que le modèle génère des réponses de forme libre basées sur des images d'entrée et des questions en langage naturel. Évaluer le VQA est très difficile car il n’existe pas de réponse standard unique. Les méthodes VQA traditionnelles se concentrent principalement sur l'interrogation directe des éléments visibles dans l'image, sans impliquer la relation complexe entre le contenu textuel intégré dans l'image et le contexte global de l'image.

Dans certaines évaluations VQA où le texte représente une grande proportion des informations contenues dans l'image, le module visuel du modèle peut même être capable de faire le travail sans s'aligner du tout sur le module linguistique. Ce type de processus est le suivant : l'image est entrée dans le module visuel OCR, et le module visuel OCR génère les informations de caractère dans l'image et les utilise comme contexte pour entrer dans le module de langue. Cela provoque la dégénérescence de la tâche VQA en une tâche QA qui ne nécessite pas d'informations sur l'image. Les capacités d'alignement du module visuel requises par les différents VLM initialement comparés ont été ignorées tandis que les capacités OCR ont été valorisées. Les tâches de reconnaissance optique de caractères (OCR) saisissent généralement les caractères complets de l'image et génèrent un texte de chaîne représentant les caractères de l'image, quel que soit le contexte de l'image.

Les modèles OCR pré-entraînés sont capables d'extraire le texte intégré des images d'entrée, même si le texte est incomplet ou flou. Cependant, à mesure que le degré de flou ou d'occlusion des composants du texte augmente, il devient difficile de récupérer le texte original en utilisant uniquement la partie visible, et
les méthodes OCR ont une efficacité limitée dans ce cas
.
On peut voir qu'il n'y a pas de réponse standard à la tâche VQA, et l'évaluation de la qualité des réponses modèles est toujours une question ouverte. La tâche OCR ne nécessite pas de contexte pour être exécutée et il est impossible de tester si le modèle a réellement appris à utiliser les informations dans le contexte.
Irremplaçable de la tâche VCR

La tâche Visual Caption Restoration (VCR) vise à restaurer le texte occulté dans les images
, cette tâche
est prise en charge par

VQA et Construire un pont entre l'OCR .

Le défi unique de la tâche VCR est qu'elle nécessite que le modèle obtienne un alignement précis entre les informations visuelles et textuelles, ce qui contraste fortement avec la simple tâche d'extraction de texte de l'OCR. En OCR, la principale préoccupation est de reconnaître les personnages visibles sans comprendre leur pertinence contextuelle dans le récit de l’image. En revanche, VCR nécessite que les modèles exploitent de manière collaborative les indices textuels partiels disponibles au niveau des pixels et le contexte visuel pour reconstruire avec précision le contenu occulté. Cela teste non seulement la capacité du modèle à traiter le texte et les éléments visuels intégrés, mais également sa capacité à maintenir une cohérence interne, similaire au processus cognitif par lequel les humains comprennent et réagissent à travers le contexte et les indices visuels.

Contrairement à VQA, les questions de la
tâche VCR ont une réponse unique
, ce qui permet d'effectuer l'évaluation par
précision
, rendant les métriques d'évaluation plus claires. En ajustant le taux de couverture du texte, vous pouvez contrôler la difficulté de la tâche, offrant ainsi un environnement de test riche.

Comme la tâche OCR, la tâche VCR peut également servir de tâche de formation pour VLM. Les auteurs open source transforment le code qui peut générer un graphique de tâches VCR pour n’importe quelle paire image-texte donnée.

Résumé

La tâche de récupération de sous-titres visuels (VCR) proposée dans cet article révèle intelligemment les limites de l'alignement image-texte du modèle existant grâce à une tâche de récupération de sous-titres apparemment simple, et les différences de raisonnement capacités entre les modèles et les humains sur des tâches cognitives de haut niveau. On pense que cette tâche peut inspirer des méthodes de formation, d’évaluation et d’inférence VLM plus efficaces à l’avenir, réduisant ainsi davantage l’écart entre les modèles multimodaux et les capacités cognitives humaines.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!