首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频-人工智能-PHP中文网

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자는 싱가포르 국립 대학교, 난양 기술 대학교 및 하얼빈 공과 대학 출신입니다. 그중 Fei Hao의 연구 방향은 다중 모드 학습과 다중 모드 대형 언어 모델입니다. Wu Shengqiong은 싱가포르 국립대학교의 박사과정 학생입니다. 그녀의 주요 연구 방향은 다중 모드 대형 언어 모델입니다. Ji Wei의 주요 연구 방향은 다중 모드 학습과 다중 모드 콘텐츠 생성입니다. 장한왕 교수의 연구 관심 분야는 컴퓨터 비전과 인과 추론입니다. Zhang Meishan 교수의 연구 관심분야는 코드 지능, 자연어 처리, 다중 모드 생성 및 이해입니다. 이몽리 교수와 Wynne Hsu 교수의 연구 방향은 소셜 미디어 분석, 협업 머신러닝 등이다.

최근 싱가포르 국립대학교, 난양 기술대학교, 하얼빈 공과대학의 연구원들이 공동으로 새로운 비디오 추론 프레임워크를 제안했습니다. 이는 대규모 모델 추론 커뮤니티가 비디오를 제안한 최초이기도 합니다. 지향적 사고 체인 프레임워크(VoT). Video Thinking Chain VoT를 사용하면 비디오 다중 모드 대형 언어 모델을 통해 복잡한 비디오의 이해 및 추론 성능을 크게 향상시킬 수 있습니다. 이 연구는 ICML 2024에 구두 논문으로 승인되었습니다.

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

논문 링크: https://openreview.net/pdf?id=fO31YAyNbI
프로젝트 링크: http://haofei.vip/VoT/

인식에서 인지로의 도약

영상 처리 커뮤니티에서 영상에 대한 추론은 정적인 그림에 대한 이해와 추론에 비해 훨씬 더 복잡하고 어렵습니다. 더 중복된 시각적 콘텐츠. 기존의 영상이해 연구는 주로 영상행동인식, 동적인식, 영상설명 생성 등 영상에 대한 얕은 인식에 집중됐다. 그러나 이러한 방법은 복잡한 영상에 대한 깊은 이해와 추론에 있어서 여전히 큰 단점을 가지고 있습니다. 얕은 영상 인식에 비해 복잡한 영상 추론은 영상의 시공간적 특성에 대한 복잡한 이해뿐만 아니라 픽셀 뒤에 내재된 고차 상식에 대한 깊은 이해도 필요합니다. 이 문제를 완전히 해결하기 위해 VoT가 탄생했습니다.

인간에게 영상을 이해하는 것은 먹고 마시는 것만큼 쉽습니다. 그렇다면 우리 인간은 비디오 이해 추론을 어떻게 수행합니까? 다음 경우를 고려해 보겠습니다. 아래 영상은 고속도로에서 고속자동차가 빨간색 유조선 트럭과 충돌하는 장면을 담고 있습니다. 해당 질문은 "이 빨간 오일 탱크 트럭은 어떻게 될까요?"입니다.

인간은 이 질문의 영상을 받으면 먼저 질문에 기초하여 관심 대상을 결정합니다. 바로 레드 오일입니다. 탱크 트럭. 그런 다음 비디오를 주의 깊게 보고 비디오에서 대상 객체의 동작의 의미를 추적합니다. 다음으로, 상식적인 지식과 결합하여 깊고 높은 수준의 추론을 해보겠습니다. 마지막으로 "불이 붙거나 폭발할 수도 있다"는 추론 답변을 제시합니다.

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

이중 능력: 지각과 인지의 완벽한 조합

위의 인간 인지 패턴과 패턴에서 영감을 얻습니다. , 연구팀은 복잡한 영상 추론을 달성하기 위해서는 두 가지 핵심 역량, 즉 픽셀 이해의 지각 능력과 의미론적 이해의 인지 능력이 필요하다고 지적했습니다. 그리고 가장 중요한 것은 비디오 추론이 즉각적인 한 단계 프로세스가 아니라 낮은 수준의 인식에서 높은 수준의 인식까지의 다중 홉 프로세스일 수 있다는 것입니다.

인식: 정확한 콘텐츠 인식을 위해서는 비디오 모션에 대한 픽셀 수준의 상세한 이해가 필요합니다. 이 프로세스에는 특정 비디오 콘텐츠와 세분화된 콘텐츠 타겟팅의 긴밀한 통합이 필요할 수 있습니다.

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

しかし、既存のビデオ理解方法のほとんどはインスタンス分析に限定されており、詳細なビデオ理解はおろか、細かい制御や正確なオブジェクトレベルの認識や追跡が不足しています。

認知能力: 深い推論には認知能力が必要であり、モデルが合理的な説明や因果関係の想像力を提供できるようになります。このレベルには、ある程度の世界の常識的な知識が必要です。たとえば、「高所から飛び降りると骨折する可能性がある」、「石油タンカーと衝突すると爆発する可能性がある」などを理解してください。

新しい推論フレームワーク: ビデオ思考チェーンの誕生

この目標を達成するために、研究チームは新しい推論フレームワーク「ビデオ思考チェーン」を提案しました。この思考チェーンは、複雑なビデオ推論の問題を、下位レベルの視覚認識から上位レベルの常識認識までの一連のサブ問題に分解します。

同時に、上記のきめ細かいビデオ認識機能の実現を支援するために、著者は、推論プロセスを支援し、支援するために時空間シーングラフ (STSG) 表現を使用することも提案しました。きめの細かい知覚中間結果を生成します。これにより、空間的および時間的特徴の詳細な理解が可能になります。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

そしてビデオマルチモーダルラージモデルと組み合わせて、新しいビデオMLLM、MotionEmpicが最終的に提案されました。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

実験結果は、著者が提案した新しい推論フレームワークが、さまざまなタイプのビデオ QA におけるモデルのパフォーマンスを大幅に向上させ、現在のすべての従来のビデオ MLLM および CoT 手法のパフォーマンスを上回ることを示しています。

A. ビデオ思考チェーン VoT 推論フレームワーク

VoT 推論フレームワークには、合計 5 つのステップが含まれています:

ステップ 1: タスクの定義と目標の特定

まず、入力ビデオと質問が与えられると、VoT は質問に含まれる可能性のあるすべてのターゲットを特定します。このプロセスにより、システムは分析が必要なオブジェクトと関連タスクを明確に理解できるようになります。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

ステップ-2: ターゲット追跡

次に、VoT はビデオコンテンツを分析し、問題に関係するターゲットの行動軌跡を追跡し、知覚レベルで時空間シーングラフ (STSG) を出力します。レベル。ターゲット軌道に関して生成された STSG は、行動分析の次のステップの知覚的証拠となります。

ステップ-3: 行動分析

このステップでは、VoT はさらに、ターゲット追跡結果を STSG に統合することで、より潜在的に関連性のある常識知識をモデルに考慮するように促します。ビデオのピクセル観察を現実世界に結び付けて、ビデオをより深く理解できるようになります。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

ステップ 4: 質問に答えるためのランキングメカニズム

ビデオ内のターゲット行動を深く理解した後、元の質問に答え始めます。まず、このシステムはすべての QA 質問を複数の質問に統合します。つまり、提供された複数の回答候補から最終的な回答を選択します。さらに、このシステムは、人間が多肢選択式の質問に答える方法にヒントを得て、ランキングメカニズムを使用して最終的な答えを決定します。具体的には、VoT はモデルに対し、常識的な知識に基づいてその可能性 (1 から 10) を評価し、対応する理由を提供するよう促します。最終的な決定に基づいて、最高順位の候補者が最終回答となります。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

Step-5：答案验证

鉴于复杂视频任务通常涉及复杂的问题和答案，并且整个推理过程包含了多个环节，因此核实上一步提供的答案至关重要。本系统的基本核验思路是，假设答案A是正确的，我们将从两个方面回顾性评估答案是否与输入问题和视频内容相矛盾：

感知验证：检查像素定位信息是否与视频中从感知角度呈现的事实一致。
认知验证：从认知角度提示模型，确定答案中固有的常识性知识是否与第三步推理中推断出的主要观察结果相矛盾。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

最终，确保VoT能够输出最正确的结果。

VoT推理框架的五个步骤，从任务定义与目标识别，到最终的答案验证，全面提升了视频理解和推理的精确性和可靠性，为复杂视频任务提供了强有力的解决方案

B.实验验证

1. 主实验比较

作者首先在多个复杂VideoQA的数据集上进行了测试。实验结果证明VoT在所有的测试集上获得了持续的强于SoTA基线模型的表现，甚至超越传统CoT的性能。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

2. Zero-shot结果

接下来，作者比较了不同模型在zero-shot下的性能。值得注意的是，相比较与传统的CoT，VoT性能提升更大、更明显。并且，在两个复杂的视频问答任务上的增强效果比在相对简单的任务（例如，MSR-VTT和ActivityNet）上的增强更为明显。这主要是因为后者的数据集更倾向于感知推理（例如，描述视频中的内容），而不是认知推理（例如，解释、预见）。

3. 推理能力详细分析

首先，作者进行了人类评估。如图7上表所示，使用VoT推理框架的MotionEpic取得了相当出色的结果，甚至可以与人类表现相媲美。进一步，作者总结了六种常见的错误案例，并分析六种最常见错误类别的差异。如图下部分所示，MotionEpic（使用VoT）显著降低了VideoLLaVA（使用CoT）的错误率，特别是在动作语义和常识理解方面。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

4. 推理过程可视化分析

最后，作者通过一个案例分析直观地展示了VoT的优越性。如图8所示，视频内容显示了“训导员带着小狗跨越各类障碍比赛”的复杂场景，而给定的问题是抽象且复杂，需要结合常识，而不能简单地通过视频本身的感知直接回答。实验结果发现，只有本系统给出了正确的答案。具体地，在内容感知层面，VoT通过基于STSG的视频定位确保了准确且稳健的理解，防止了幻觉，即正确地解释了动物是一只狗，然后从常识推断场景涉及训练者正在训练狗。然后，在认知层面，它分析每个选项以确定最佳答案。通过进一步验证，结果与视频内容和事实常识理解一致。总体而言，通过问题分解，整个推理在每个步骤上大大提高了准确性，同时确保了一个可解释的过程决策理由。

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频