Le modèle vidéo long le plus puissant de 7B ! La compréhension des vidéos LongVA dépasse 1 000 images, dominant de nombreuses listes-IA-php.cn

Le modèle vidéo long le plus puissant de 7B ! La compréhension des vidéos LongVA dépasse 1 000 images, dominant de nombreuses listes

WBOY

Libérer： 2024-07-19 21:21:22

original

1000 Les gens l'ont consulté

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les principaux auteurs de cet article sont issus de l'équipe LMMs-Lab et de l'Université technologique de Nanyang, Singapour. Dans le cadre du travail conjoint, Zhang Peiyuan est assistant de recherche à l'Université technologique de Nanyang, Zhang Kaichen est un étudiant de quatrième année à l'Université technologique de Nanyang et Li Bo est un doctorant de troisième année à l'Université technologique de Nanyang. Le superviseur est le professeur Liu. Ziwei de MMLab@NTU. LMMs-Lab est une équipe composée d'étudiants, de chercheurs et d'enseignants, dédiée à la recherche de modèles multimodaux. Les principales orientations de recherche incluent la formation et l'évaluation complète de modèles multimodaux. Les travaux antérieurs incluent le cadre d'évaluation multimodal lmms. - évaluation, etc.

Pourquoi dit-on que comprendre de longues vidéos est aussi difficile que « trouver une aiguille dans une botte de foin » ?

Un défi majeur rencontré par les LMM existants lors du traitement de longues vidéos est le nombre excessif de jetons visuels. Par exemple, LLaVA-1.6 peut générer de 576 à 2 880 jetons visuels pour une seule image. Plus la vidéo contient d’images, plus le nombre de jetons est élevé. Bien que BLIP2, LLaMA-VID, Chat-UniVI et d'autres travaux réduisent le nombre de jetons visuels en modifiant la couche de connexion entre ViT et le modèle de langage, ils ne peuvent toujours pas gérer un nombre particulièrement important de trames.

De plus, le manque d'ensembles de données vidéo longues de haute qualité constitue également un goulot d'étranglement majeur. Les ensembles de données de formation existants sont pour la plupart de courtes vidéos d'une minute, et même s'il existe de longues vidéos, les paires de textes annotés sont limitées à quelques images de la vidéo, manquant de signaux de supervision denses.

Récemment, des équipes de recherche du LMMs-Lab, de l'Université technologique de Nanyang et d'autres institutions ont lancé le modèle vidéo long LongVA, qui peut comprendre plus d'un millier d'images de données vidéo, surpassant les performances des modèles vidéo multimodaux open source actuels !