최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자는 싱가포르 국립 대학교, 난양 기술 대학교 및 하얼빈 공과 대학 출신입니다. 그중 Fei Hao의 연구 방향은 다중 모드 학습과 다중 모드 대형 언어 모델입니다. Wu Shengqiong은 싱가포르 국립대학교의 박사과정 학생입니다. 그녀의 주요 연구 방향은 다중 모드 대형 언어 모델입니다. Ji Wei의 주요 연구 방향은 다중 모드 학습과 다중 모드 콘텐츠 생성입니다. 장한왕 교수의 연구 관심 분야는 컴퓨터 비전과 인과 추론입니다. Zhang Meishan 교수의 연구 관심분야는 코드 지능, 자연어 처리, 다중 모드 생성 및 이해입니다. 이몽리 교수와 Wynne Hsu 교수의 연구 방향은 소셜 미디어 분석, 협업 머신러닝 등이다.

최근 싱가포르 국립대학교, 난양 기술대학교, 하얼빈 공과대학의 연구원들이 공동으로 새로운 비디오 추론 프레임워크를 제안했습니다. 이는 대규모 모델 추론 커뮤니티가 비디오를 제안한 최초이기도 합니다. 지향적 사고 체인 프레임워크(VoT). Video Thinking Chain VoT를 사용하면 비디오 다중 모드 대형 언어 모델을 통해 복잡한 비디오의 이해 및 추론 성능을 크게 향상시킬 수 있습니다. 이 연구는 ICML 2024에 구두 논문으로 승인되었습니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

논문 링크: https://openreview.net/pdf?id=fO31YAyNbI
프로젝트 링크: http://haofei.vip/VoT/

인식에서 인지로의 도약

영상 처리 커뮤니티에서 영상에 대한 추론은 정적인 그림에 대한 이해와 추론에 비해 훨씬 더 복잡하고 어렵습니다. 더 중복된 시각적 콘텐츠. 기존의 영상이해 연구는 주로 영상행동인식, 동적인식, 영상설명 생성 등 영상에 대한 얕은 인식에 집중됐다. 그러나 이러한 방법은 복잡한 영상에 대한 깊은 이해와 추론에 있어서 여전히 큰 단점을 가지고 있습니다. 얕은 영상 인식에 비해 복잡한 영상 추론은 영상의 시공간적 특성에 대한 복잡한 이해뿐만 아니라 픽셀 뒤에 내재된 고차 상식에 대한 깊은 이해도 필요합니다. 이 문제를 완전히 해결하기 위해 VoT가 탄생했습니다.

인간에게 영상을 이해하는 것은 먹고 마시는 것만큼 쉽습니다. 그렇다면 우리 인간은 비디오 이해 추론을 어떻게 수행합니까? 다음 경우를 고려해 보겠습니다. 아래 영상은 고속도로에서 고속자동차가 빨간색 유조선 트럭과 충돌하는 장면을 담고 있습니다. 해당 질문은 "이 빨간 오일 탱크 트럭은 어떻게 될까요?"입니다.

인간은 이 질문의 영상을 받으면 먼저 질문에 기초하여 관심 대상을 결정합니다. 바로 레드 오일입니다. 탱크 트럭. 그런 다음 비디오를 주의 깊게 보고 비디오에서 대상 객체의 동작의 의미를 추적합니다. 다음으로, 상식적인 지식과 결합하여 깊고 높은 수준의 추론을 해보겠습니다. 마지막으로 "불이 붙거나 폭발할 수도 있다"는 추론 답변을 제시합니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

이중 능력: 지각과 인지의 완벽한 조합

위의 인간 인지 패턴과 패턴에서 영감을 얻습니다. , 연구팀은 복잡한 영상 추론을 달성하기 위해서는 두 가지 핵심 역량, 즉 픽셀 이해의 지각 능력과 의미론적 이해의 인지 능력이 필요하다고 지적했습니다. 그리고 가장 중요한 것은 비디오 추론이 즉각적인 한 단계 프로세스가 아니라 낮은 수준의 인식에서 높은 수준의 인식까지의 다중 홉 프로세스일 수 있다는 것입니다.

인식: 정확한 콘텐츠 인식을 위해서는 비디오 모션에 대한 픽셀 수준의 상세한 이해가 필요합니다. 이 프로세스에는 특정 비디오 콘텐츠와 세분화된 콘텐츠 타겟팅의 긴밀한 통합이 필요할 수 있습니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

그러나 대부분의 기존 영상 이해 방법은 심층적인 영상 이해는커녕 인스턴스 분석에 국한되어 있으며 미세한 제어와 정확한 객체 수준 인식 또는 추적이 부족합니다.

인지 능력: 심층적인 추론에는 인지 능력이 필요하므로 모델은 합리적인 설명과 인과적 상상력까지 제공할 수 있습니다. 이 수준에는 세계에 대한 어느 정도의 상식적인 지식이 필요합니다. 예를 들어, "높은 곳에서 뛰어내리면 골절될 수 있다", "유조선과 충돌하면 폭발할 수 있다" 등을 이해한다.

새로운 추론 프레임워크: 비디오 사고 체인의 탄생

이 목표를 달성하기 위해 연구팀은 새로운 추론 프레임워크인 "비디오 사고 체인"을 제안했습니다. 이 사고 체인은 복잡한 비디오 추론 문제를 하위 수준의 시각적 인식부터 상위 수준의 상식 인지까지 일련의 하위 문제로 분해합니다.

동시에 위에서 언급한 세밀한 비디오 인식 기능을 달성하기 위해 저자는 STSG(공간-시간적 장면 그래프) 표현을 사용하여 추론 과정을 지원하고 도움을 줄 것을 제안했습니다. 세밀한 인식 중간 결과를 생성하여 미세한 공간적, 시간적 특징 이해가 가능합니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

그리고 비디오 멀티모달 대형 모델과 결합하여 새로운 비디오 MLLM인 MotionEmpic이 마침내 제안되었습니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

실험 결과에 따르면 저자가 제안한 새로운 추론 프레임워크는 다양한 유형의 비디오 QA에서 모델 성능을 크게 향상시켜 현재의 모든 기존 비디오 MLLM 및 CoT 방법의 성능을 능가할 수 있습니다.

A. 비디오 사고 체인 VoT 추론 프레임워크

VoT 추론 프레임워크에는 총 5단계가 포함됩니다.

1단계: 작업 정의 및 목표 식별

먼저 입력 비디오와 질문이 주어지면 VoT는 질문과 관련된 모든 가능한 대상을 식별합니다. 이 프로세스를 통해 시스템은 분석해야 하는 개체와 관련 작업을 명확하게 이해할 수 있습니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

2단계: 타겟 추적

다음으로 VoT는 영상 콘텐츠를 분석하고, 문제와 관련된 타겟 행동 궤적을 추적하고, 지각 지점에서 시공간 장면 그래프(STSG)를 출력합니다. 수준. 타겟 궤적에 대해 생성된 STSG는 행동 분석의 다음 단계를 위한 지각적 증거가 될 것입니다.

3단계: 행동 분석

이 단계에서 VoT는 대상 추적 결과를 STSG에 통합하여 모델이 잠재적으로 관련성이 더 높은 상식 지식을 고려하도록 유도합니다. 비디오 픽셀 관찰을 실제 세계에 연결하여 비디오에 대한 더 깊은 이해를 얻을 수 있습니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

4단계: 질문에 답하기 위한 순위 매기기

영상의 대상 행동을 깊이 이해한 후 이제 원래 질문에 답하기 시작합니다. 첫째, 이 시스템은 모든 QA 질문을 여러 질문으로 통합합니다. 즉, 제공된 여러 후보 답변 중에서 최종 답변을 선택합니다. 또한 인간이 객관식 질문에 답하는 방식에서 영감을 받은 이 시스템은 순위 메커니즘을 사용하여 최종 답을 결정합니다. 구체적으로, 각 후보 답변에 대해 VoT는 모델이 상식 지식을 기반으로 가능성(1~10)을 평가하고 해당 이유를 제공하도록 유도합니다. 최종 결정에 따라 가장 높은 순위를 기록한 후보자가 최종 답변이 됩니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

5단계: 답변 확인

복잡한 비디오 작업에는 일반적으로 복잡한 질문과 답변이 포함되고 전체 추론 프로세스에는 여러 링크가 포함되어 있으므로 이전 단계에서 제공된 답변을 확인하는 것이 중요합니다. 이 시스템의 기본 검증 아이디어는 답변 A가 맞다고 가정하고 답변이 입력 질문 및 비디오 콘텐츠와 충돌하는지 여부를 두 가지 측면에서 소급하여 평가하는 것입니다.

지각 검증: 픽셀이 위치 정보는 지각적인 관점에서 비디오에 제시된 사실과 일치합니다.
인지 검증: 답변에 내재된 상식 지식이 추론의 세 번째 단계에서 추론된 주요 관찰과 모순되는지 여부를 확인하기 위해 인지적 관점에서 모델을 프롬프트합니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

궁극적으로 VoT가 가장 정확한 결과를 출력할 수 있는지 확인하세요.

작업 정의 및 대상 식별부터 최종 답변 확인까지 VoT 추론 프레임워크의 5단계는 영상 이해 및 추론의 정확성과 신뢰성을 종합적으로 향상시켜 복잡한 영상 작업에 대한 강력한 솔루션을 제공합니다. 계획

B. 실험적 검증

1. 주요 실험 비교

저자는 먼저 여러 개의 복잡한 VideoQA 데이터 세트를 테스트했습니다. 실험 결과는 VoT가 모든 테스트 세트에서 SoTA 기준 모델보다 지속적으로 더 나은 성능을 달성하고 심지어 기존 CoT의 성능을 능가한다는 것을 입증합니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

2. 제로샷 결과

다음으로 저자는 제로샷에서 다양한 모델의 성능을 비교했습니다. 기존 CoT와 비교하여 VoT 성능 향상이 더 크고 더 분명하다는 점은 주목할 가치가 있습니다. 더욱이 두 개의 복잡한 비디오 질문 응답 작업에 대한 향상 효과는 상대적으로 간단한 작업(예: MSR-VTT 및 ActivityNet)에 대한 향상 효과보다 더 분명합니다. 이는 주로 후자의 데이터 세트가 인지적 추론(예: 설명, 예상)보다는 지각적 추론(예: 비디오 내용 설명)에 더 적합하기 때문입니다.

3. 추론 능력에 대한 상세한 분석

먼저, 저자는 인간 평가를 실시했습니다. 그림 7의 상단 표에서 볼 수 있듯이 VoT 추론 프레임워크를 사용하는 MotionEpic은 인간의 성능과 비교할 만큼 매우 뛰어난 결과를 얻었습니다. 또한 저자는 6가지 일반적인 오류 사례를 요약하고 가장 일반적인 6가지 오류 범주 간의 차이점을 분석합니다. 그림 하단에서 볼 수 있듯이 MotionEpic(VoT 사용)은 특히 동작 의미 및 상식 이해 측면에서 VideoLLaVA(CoT 사용)의 오류율을 크게 줄입니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론

4. 추론 과정의 시각적 분석

마지막으로 저자는 사례 분석을 통해 VoT의 우수성을 직관적으로 보여줍니다. 그림 8에서 볼 수 있듯이, 영상 콘텐츠는 "강아지를 이끌고 다양한 장애물을 넘어 경쟁하는" 복잡한 장면을 보여주고 있으며, 주어진 문제는 단순히 영상 자체를 통해 인지되기보다는 추상적이고 복잡하며 상식이 필요합니다. 곧장. 실험 결과, 이 시스템만이 정답을 제시하는 것으로 나타났습니다. 구체적으로, 콘텐츠 인식 수준에서 VoT는 STSG 기반 비디오 현지화를 통해 정확하고 탄탄한 이해를 보장함으로써 동물이 개라고 정확하게 해석한 후 개를 훈련시키는 트레이너가 관련된 장면이라는 상식을 추론하는 착각을 방지합니다. 그런 다음 인지 수준에서 각 옵션을 분석하여 최선의 답을 결정합니다. 추가 검증을 통해 결과는 영상 내용 및 사실에 대한 상식적인 이해와 일치했습니다. 전반적으로 문제 분해를 통해 전체적인 추론은 각 단계의 정확성을 크게 향상시키는 동시에 프로세스 결정에 대한 설명 가능한 근거를 보장합니다.

최초의 생각 비디오 추론 프레임워크는 다음과 같습니다. 인간처럼 인식부터 인지까지 종합적인 비디오 추론