7Bの最強ロングビデオモデル！ LongVA ビデオの理解が 1,000 フレームを超え、複数のリストを独占-AI-php.cn

7Bの最強ロングビデオモデル！ LongVA ビデオの理解が 1,000 フレームを超え、複数のリストを独占

WBOY

リリース： 2024-07-19 21:21:22

オリジナル

999 人が閲覧しました

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の主な執筆者は、LMMs-Lab チームとシンガポールの南洋理工大学です。共同研究では、張培源氏は南洋理工大学研究助手、張凱成氏は南洋理工大学学部4年生、李波氏は南洋理工大学博士課程3年生であり、指導教員は劉教授です。 MMLab@NTUのZiweiです。 LMMs-Lab は、マルチモーダルモデルの研究に特化した学生、研究者、教師で構成されるチームです。主な研究方向には、マルチモーダルモデルのトレーニングと包括的な評価が含まれます。これまでの研究には、マルチモーダル評価フレームワーク lmms が含まれています。 - 評価など

長いビデオを理解するのは「干し草の山から針を見つけるのと同じくらい難しい」と言われるのはなぜですか?

長いビデオを処理するときに既存の LMM が直面する大きな課題は、過剰な数のビジュアルトークンです。たとえば、LLaVA-1.6 は、1 つの画像に対して 576 ～ 2880 のビジュアルトークンを生成できます。ビデオのフレーム数が多いほど、トークンの数も多くなります。 BLIP2、LLaMA-VID、Chat-UniVI などは、ViT と言語モデルの間の接続層を変更することでビジュアルトークンの数を減らしていますが、それでも特に大量のフレームを処理することはできません。

さらに、高品質の長時間ビデオデータセットが不足していることも大きなボトルネックとなっています。既存のトレーニングデータセットは 1 分以内の短いビデオがほとんどで、たとえ長いビデオがあったとしても、注釈付きのテキストペアはビデオの数フレームに限定されており、高密度の監視信号が不足しています。

最近、LMMs-Lab、南洋理工大学、その他の機関の研究チームは、千フレームを超えるビデオデータを理解できる LongVA ロングビデオモデルを発表し、現在のオープンソースビデオマルチモーダルモデルのパフォーマンスを上回りました。