La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Les principaux auteurs de cet article sont issus de l'équipe LMMs-Lab et de l'Université technologique de Nanyang, Singapour. Dans le cadre du travail conjoint, Zhang Peiyuan est assistant de recherche à l'Université technologique de Nanyang, Zhang Kaichen est un étudiant de quatrième année à l'Université technologique de Nanyang et Li Bo est un doctorant de troisième année à l'Université technologique de Nanyang. Le superviseur est le professeur Liu. Ziwei de MMLab@NTU. LMMs-Lab est une équipe composée d'étudiants, de chercheurs et d'enseignants, dédiée à la recherche de modèles multimodaux. Les principales orientations de recherche incluent la formation et l'évaluation complète de modèles multimodaux. Les travaux antérieurs incluent le cadre d'évaluation multimodal lmms. - évaluation, etc.
Pourquoi dit-on que comprendre de longues vidéos est aussi difficile que « trouver une aiguille dans une botte de foin » ?
Un défi majeur rencontré par les LMM existants lors du traitement de longues vidéos est le nombre excessif de jetons visuels. Par exemple, LLaVA-1.6 peut générer de 576 à 2 880 jetons visuels pour une seule image. Plus la vidéo contient d’images, plus le nombre de jetons est élevé. Bien que BLIP2, LLaMA-VID, Chat-UniVI et d'autres travaux réduisent le nombre de jetons visuels en modifiant la couche de connexion entre ViT et le modèle de langage, ils ne peuvent toujours pas gérer un nombre particulièrement important de trames.
De plus, le manque d'ensembles de données vidéo longues de haute qualité constitue également un goulot d'étranglement majeur. Les ensembles de données de formation existants sont pour la plupart de courtes vidéos d'une minute, et même s'il existe de longues vidéos, les paires de textes annotés sont limitées à quelques images de la vidéo, manquant de signaux de supervision denses.
Récemment, des équipes de recherche du LMMs-Lab, de l'Université technologique de Nanyang et d'autres institutions ont lancé le modèle vidéo long LongVA, qui peut comprendre plus d'un millier d'images de données vidéo, surpassant les performances des modèles vidéo multimodaux open source actuels !
Lien papier : https://arxiv.org/abs/2406.16852
Adresse démo : https://longva-demo.lmms-lab.com/
Adresse code : https ://github.com/EvolvingLMMs-Lab/LongVA
L'équipe d'auteurs a proposé le transfert de contexte long (Long Context Transfer) pour la première fois dans le domaine multimodal. Cette technologie permet de grands modèles multimodaux (LMM). à traiter sans Dans le cas de formations vidéo longues, traiter et comprendre des vidéos extrêmement longues. Leur nouveau modèle LongVA peut traiter 2 000 images ou plus de 200 000 jetons visuels, atteignant ainsi un SoTA à l'échelle 7B sur la liste de compréhension vidéo Video-MME. Dans la dernière longue liste vidéo MLVU, LongVA est le modèle le plus puissant après GPT4-o !
L'auteur de LongVA a résumé l'image ci-dessous. On peut voir que le grand modèle multimodal actuel n'est pas satisfaisant pour comprendre les longues vidéos. Le nombre d'images pouvant être traitées limite le traitement et la compréhension des longues vidéos. Afin de traiter plus de trames, des travaux tels que LLaMA-VID doivent compresser considérablement le nombre de jetons correspondant à une seule trame.
Migration de contexte long
En réponse aux défis rencontrés lors du traitement de vidéos longues, l'équipe de recherche a proposé une nouvelle idée de « migration de contexte long ». Ils pensent que le goulot d'étranglement multi-images actuel des grands modèles vidéo longs ne réside pas dans la manière d'extraire les fonctionnalités compressées de Vision Encoder (Figure (a) ci-dessous), mais dans les capacités de contexte long du modèle étendu.
Ils ont découvert qu'en étendant simplement la longueur du contexte du modèle de langage sur le texte, ils pouvaient réussir à transférer cette capacité à la modalité visuelle sans aucune longue formation vidéo. L'approche spécifique consiste à entraîner d'abord le modèle de langage à l'aide de données de texte longues, puis à utiliser des données d'image courtes pour l'alignement modal. Ils ont constaté que le modèle formé de cette manière peut comprendre directement les vidéos multi-images pendant les tests, éliminant ainsi le besoin d'une longue formation vidéo.
Pendant le long processus de formation du modèle de langage, l'équipe d'auteurs a utilisé Qwen2-7B-Instruct comme base et a étendu la longueur de son contexte de texte à 224 Ko grâce à une longue formation de contexte. Au cours du processus de formation, diverses stratégies d'optimisation telles que FlashAttention-2, Ring Attention, le point de contrôle d'activation et le déchargement des paramètres sont utilisées pour améliorer l'efficacité de la formation et l'utilisation de la mémoire.
In the modal alignment stage, the author designed a unified encoding scheme called "UniRes" for processing images and videos simultaneously. The UniRes scheme is similar to the AnyRes encoding scheme in LLaVA-1.6, but the base image part is removed, each grid is one-dimensionally unidimensional, and 2x2 feature pooling is performed within each grid. This approach ensures that a consistent representation is maintained when extending image data to video.
LongVA adopts the strategy of "short context training, long context testing", which means that the model only uses image-text data for training in the modal alignment stage, and directly uses long videos for processing and testing during testing. This strategy effectively demonstrates the phenomenon of long context transfer, allowing the model to gain the ability to understand and process long videos without long video training.
Super performance of LongVA
There are currently no benchmarks to evaluate the visual context length of LMMs for long videos. To solve this problem, the LongVA team extended the needle-in-a-haystack test from text to visual and proposed the Visual Needle-In-A-Haystack (V-NIAH) benchmark.
In the V-NIAH test, the team designed 5 image question and answer questions, inserted each question as a single frame into several hours of movies, and sampled the video at a frequency of 1 frame/second as visual input. The images of these “needles” are derived from existing visual question answering datasets or AI-generated images to ensure that the model cannot answer the question through language knowledge alone. Each question contains a "localization hint" that enables the correct system or human to locate the "pin" frame from the video and answer the question.
V-NIAH test results show that LongVA’s visual needle-in-a-haystack test is almost correct within 2000 frames (144 tokens per frame), and it also maintains a good accuracy rate at the scale of 3000 frames. Interestingly, similar to the language model, they found that LongVA also has a certain degree of Lost-In-The-Middle phenomenon on V-NIAH.
In the recent Video-MME list proposed by Tencent, University of Science and Technology of China and other institutions, LongVA ranked seventh and reached the SoTA of the 7B model. /Https://video-mme.github.io/home_page.html#leaderboard
In the MLVU benchmark test launched by Northern Post, Peking University and Zhejiang University, LONGVA is even more It is the strongest open source model after GPT-4o.
The author team also attached some effect demonstrations in the paper. For more details, interested readers can view the original paper.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!