Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain-IA-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'auteur de cet article est originaire de l'Université nationale de Singapour, de l'Université technologique de Nanyang et de l'Institut de technologie de Harbin. Parmi eux, les domaines de recherche de Fei Hao sont l’apprentissage multimodal et les grands modèles de langage multimodaux. Wu Shengqiong est doctorante à l'Université nationale de Singapour. Son principal domaine de recherche concerne les grands modèles de langage multimodaux. Les principales orientations de recherche de Ji Wei sont l'apprentissage multimodal et la génération de contenu multimodal. Les intérêts de recherche du professeur Zhang Hanwang incluent la vision par ordinateur et l’inférence causale. Les intérêts de recherche du professeur Zhang Meishan comprennent l’intelligence des codes, le traitement du langage naturel ainsi que la génération et la compréhension multimodales. Les axes de recherche des professeurs Mong-Li Lee et Wynne Hsu incluent l'analyse des médias sociaux, l'apprentissage automatique collaboratif, etc.

Récemment, des chercheurs de l'Université nationale de Singapour, de l'Université technologique de Nanyang et de l'Institut de technologie de Harbin ont proposé conjointement un nouveau cadre de raisonnement vidéo. C'est également la première fois que la grande communauté de raisonnement par modèles propose une vidéo. cadre de chaîne de pensée orientée (Vidéo-de-Pensée, VoT). Video Thinking Chain VoT permet aux grands modèles de langage vidéo multimodaux d'améliorer considérablement les performances de compréhension et de raisonnement de vidéos complexes. Ce travail a été accepté comme article oral par ICML 2024.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

Lien papier : https://openreview.net/pdf?id=fO31YAyNbI
Lien du projet : http://haofei.vip/VoT/

Un saut de la perception à la cognition

Par rapport à la compréhension et au raisonnement sur des images statiques, dans la communauté du traitement visuel, le raisonnement sur les vidéos est beaucoup plus compliqué et difficile car les vidéos ont naturellement des caractéristiques de synchronisation dynamique et la présence de. contenu visuel plus redondant. Les recherches antérieures sur la compréhension vidéo se sont principalement concentrées sur la perception superficielle des vidéos, telles que la reconnaissance d'actions vidéo, la reconnaissance dynamique et la génération de descriptions vidéo. Cependant, ces méthodes présentent encore des lacunes importantes en termes de compréhension et de raisonnement approfondis de vidéos complexes. Comparé à une perception vidéo superficielle, le raisonnement vidéo complexe nécessite non seulement une compréhension complexe des caractéristiques spatio-temporelles de la vidéo, mais également une compréhension approfondie du bon sens inhérent aux pixels. Afin de résoudre complètement ce problème, VoT a vu le jour.

Pour les humains, comprendre des vidéos est aussi simple que manger et boire. Alors, comment nous, les humains, pouvons-nous effectuer un raisonnement de compréhension vidéo ? Considérons le cas suivant. La vidéo ci-dessous montre une scène dans laquelle une voiture à grande vitesse entre en collision avec un camion-citerne rouge sur l'autoroute. La question correspondante est : « Qu'arrivera-t-il à ce camion-citerne à huile rouge ? »

Lorsque les humains recevront la vidéo de cette question, nous déterminerons d'abord la cible d'intérêt en fonction de la question, qui est l'huile rouge. camion citerne. Ensuite, nous regardons attentivement la vidéo et suivons la sémantique des actions de l'objet cible dans la vidéo. Ensuite, nous procéderons à un raisonnement approfondi et de haut niveau, peut-être combiné à des connaissances de bon sens. Enfin, nous donnons la réponse raisonnée : "Il peut prendre feu ou même exploser." , l'équipe de recherche a souligné que pour réaliser un raisonnement vidéo complexe, deux capacités clés sont nécessaires : la capacité perceptuelle de compréhension des pixels et la capacité cognitive de compréhension sémantique. Et plus important encore, le raisonnement vidéo n’est peut-être pas un processus instantané en une seule étape, mais un processus à plusieurs sauts allant de la perception de bas niveau à la cognition de haut niveau.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

Perception : Pour obtenir une perception précise du contenu, une compréhension détaillée du mouvement vidéo au niveau des pixels est nécessaire. Ce processus peut nécessiter une intégration approfondie d'un contenu vidéo donné et un ciblage granulaire du contenu.

Cependant, la plupart des méthodes de compréhension vidéo existantes se limitent à l'analyse d'instances et manquent de contrôle précis et de reconnaissance ou de suivi précis au niveau de l'objet, sans parler d'une compréhension vidéo approfondie.

Capacités cognitives : Un raisonnement approfondi nécessite des capacités cognitives, permettant aux modèles de fournir des explications raisonnables et même une imagination causale. Ce niveau nécessite une certaine connaissance du monde selon le bon sens. Par exemple, comprenez que « sauter d'un endroit élevé peut provoquer des fractures » ou « entrer en collision avec un pétrolier peut provoquer une explosion ».

Nouveau cadre de raisonnement : La naissance de la chaîne de pensée vidéo

Afin d'atteindre cet objectif, l'équipe de recherche a proposé un nouveau cadre de raisonnement - "Chaîne de pensée vidéo". Cette chaîne de pensée décompose les problèmes complexes de raisonnement vidéo en une série de sous-problèmes allant de la perception visuelle de bas niveau à la cognition de niveau supérieur fondée sur le bon sens.

Dans le même temps, afin d'aider à atteindre les capacités de perception vidéo à grain fin mentionnées ci-dessus, l'auteur a également proposé d'utiliser la représentation Spatial-Temporal Scene Graph (STSG) pour faciliter le processus de raisonnement et aider générer des résultats intermédiaires de perception à grain fin, ce qui permet une compréhension fine des caractéristiques spatiales et temporelles.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

Et combiné à la vidéo multi-modale grand modèle, une nouvelle vidéo MLLM, MotionEmpic, a finalement été proposée.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

Les résultats expérimentaux montrent que le nouveau cadre d'inférence proposé par l'auteur peut améliorer considérablement les performances du modèle sur différents types d'assurance qualité vidéo, surpassant les performances de toutes les méthodes vidéo traditionnelles MLLM et CoT actuelles.

A. Cadre de raisonnement VoT de la chaîne de réflexion vidéo

Le cadre de raisonnement VoT contient un total de 5 étapes :

Étape 1 : Définition des tâches et identification des objectifs

Tout d'abord, à partir d'une vidéo d'entrée et d'une question, VoT identifie toutes les cibles possibles impliquées dans la question. Ce processus garantit que le système a une compréhension claire des objets qui doivent être analysés et des tâches associées.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

Étape 2 : Suivi de la cible

Ensuite, VoT analyse le contenu vidéo, suit la trajectoire de comportement cible impliquée dans le problème et génère un graphique de scène spatio-temporel (STSG) au niveau de la perception niveau. Le STSG généré sur la trajectoire cible sera la preuve perceptuelle pour la prochaine étape de l'analyse comportementale.

Étape 3 : Analyse du comportement

Dans cette étape, VoT invite en outre le modèle à prendre en compte des connaissances de bon sens potentiellement plus pertinentes en intégrant les résultats de suivi de cible dans STSG, de sorte que le modèle peut connecter les observations de pixels vidéo au monde réel pour parvenir à une compréhension plus approfondie de la vidéo.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

Étape 4 : Mécanisme de classement pour répondre à la question

Après avoir profondément compris le comportement cible dans la vidéo, commencez maintenant à répondre à la question d'origine. Premièrement, ce système unifie toutes les questions d'assurance qualité en plusieurs questions, c'est-à-dire qu'il sélectionne la réponse finale parmi plusieurs réponses candidates fournies. De plus, inspiré de la façon dont les humains répondent aux questions à choix multiples, ce système utilise également un mécanisme de classement pour déterminer la réponse finale. Plus précisément, pour chaque réponse candidate, VoT invitera le modèle à évaluer sa probabilité (de 1 à 10) sur la base de connaissances de bon sens et à fournir les raisons correspondantes. Sur la base de la décision finale, le candidat ayant obtenu le classement le plus élevé sera la réponse finale.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

Étape 5 : Vérification des réponses

Étant donné que les tâches vidéo complexes impliquent généralement des questions et des réponses complexes et que l'ensemble du processus de raisonnement contient plusieurs liens, il est crucial de vérifier les réponses fournies à l'étape précédente. L'idée de base de vérification de ce système est qu'en supposant que la réponse A est correcte, nous évaluerons rétrospectivement si la réponse est en conflit avec la question d'entrée et le contenu vidéo sous deux aspects :

Vérification perceptuelle : Vérifiez si le pixel les informations de positionnement sont cohérentes avec les faits présentés dans la vidéo d'un point de vue perceptuel.
Validation cognitive : inciter le modèle d'un point de vue cognitif à déterminer si les connaissances de bon sens inhérentes à la réponse contredisent les principales observations déduites dans la troisième étape du raisonnement.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

En fin de compte, assurez-vous que VoT peut produire les résultats les plus corrects.

Les cinq étapes du cadre de raisonnement VoT, de la définition des tâches et de l'identification de la cible à la vérification de la réponse finale, améliorent considérablement l'exactitude et la fiabilité de la compréhension et du raisonnement vidéo, fournissant une solution puissante aux tâches vidéo complexes. Schéma

B. Vérification expérimentale

1. Comparaison de l'expérience principale

L'auteur a d'abord testé sur plusieurs ensembles de données VideoQA complexes. Les résultats expérimentaux prouvent que la VoT atteint des performances systématiquement meilleures que le modèle de base SoTA sur tous les ensembles de tests, et dépasse même les performances du CoT traditionnel.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

2. Résultats du tir zéro

Ensuite, l'auteur a comparé les performances de différents modèles sous le tir zéro. Il convient de noter que par rapport au CoT traditionnel, l’amélioration des performances du VoT est plus importante et plus évidente. De plus, l’effet d’amélioration sur deux tâches complexes de réponse à des questions vidéo est plus évident que celui sur des tâches relativement simples (par exemple MSR-VTT et ActivityNet). Cela est principalement dû au fait que ce dernier ensemble de données est davantage orienté vers le raisonnement perceptuel (par exemple, décrire ce qui se trouve dans la vidéo) plutôt que vers le raisonnement cognitif (par exemple, expliquer, anticiper).

3. Analyse détaillée de la capacité de raisonnement

Tout d'abord, l'auteur a procédé à une évaluation humaine. Comme le montre le tableau supérieur de la figure 7, MotionEpic utilisant le cadre d'inférence VoT a obtenu des résultats tout à fait remarquables, même comparables aux performances humaines. En outre, l'auteur résume six cas d'erreurs courants et analyse les différences entre les six catégories d'erreurs les plus courantes. Comme le montre la partie inférieure de la figure, MotionEpic (en utilisant VoT) réduit considérablement le taux d'erreur de VideoLLaVA (en utilisant CoT), notamment en termes de sémantique d'action et de compréhension de bon sens.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain

4. Analyse visuelle du processus de raisonnement

Enfin, l'auteur démontre intuitivement la supériorité de la VoT à travers une analyse de cas. Comme le montre la figure 8, le contenu vidéo montre une scène complexe d'un « dresseur conduisant un chiot à franchir divers obstacles ». Le problème posé est abstrait et complexe et requiert du bon sens plutôt que d'être simplement perçu à travers la vidéo elle-même. directement. Les résultats expérimentaux ont montré que seul ce système donnait la bonne réponse. Plus précisément, au niveau du contenu, VoT garantit une compréhension précise et robuste grâce à la localisation vidéo basée sur STSG, empêchant l'illusion d'interpréter correctement que l'animal est un chien et de déduire ensuite du bon sens que la scène implique un dresseur dressant un chien. Puis, au niveau cognitif, il analyse chaque option pour déterminer la meilleure réponse. Grâce à une vérification plus approfondie, les résultats étaient cohérents avec le contenu de la vidéo et avec une compréhension sensée des faits. Dans l'ensemble, grâce à la décomposition du problème, le raisonnement global améliore considérablement la précision à chaque étape tout en garantissant une justification explicable pour les décisions de processus.

Le premier cadre de raisonnement vidéo de pensée est ici : Raisonnement vidéo complet de la perception à la cognition comme un être humain