AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者來自於新加坡國立哈工深。其中,費豪的研究方向為多模態學習、多模態大語言模型。吳勝瓊,新加坡國立大學博士生,主要研究方向為多模態大語言模型。吉煒的主要研究方向為多模態學習,多模態內容產生。張含望教授的研究興趣包含電腦視覺、因果推論。張梅山教授的研究方向包括程式碼智能,自然語言處理,多模態生成與理解。 Mong-Li Lee和Wynne Hsu教授的研究方向為社群媒體分析,協同機器學習等等。
最近,新加坡國立大學聯合南洋理工大學和哈工深的研究人員共同提出了一個全新的視頻推理框架,這也是首次大模型推理社區提出的面向視頻的思維鏈框架(Video -of-Thought, VoT)。視訊思維鏈VoT讓視訊多模態大語言模型在複雜視訊的理解和推理效能上大幅提升。該工作已被ICML 2024錄取為Oral paper。
- 論文連結: https://openreview.net/pdf?id=fO31YAyNbI
從感知到認知的飛躍
相比於理解和推理靜態的圖片,在視覺處理社區,推理視頻的難度要復雜困難很多,因為視頻天然地存在更具挑戰的動態時序特性,以及存在更多冗餘的視覺內容。過去的影片理解研究多集中於影片的淺層感知,如影片動作辨識、動態辨識和影片描述生成。然而,這些方法對複雜影片的深入理解和推理仍有顯著不足。相較於淺層的影片感知,複雜影片的推理不僅需要對影片的時空特性有複雜的理解,還需深刻掌握像素背後的內在高階常識。為了徹底解決這個問題,VoT應運而生。 對於人類而言,理解影片就像吃飯喝水一樣簡單。那麼我們人類是如何進行視訊理解推理的呢?我們不妨考慮以下一個案例。以下的這段影片展示了一個場景:一輛高速行駛的汽車與一輛紅色油罐卡車在公路上相撞。對應的問題是:「這輛紅色油罐卡車會發生什麼?」
當人類拿到這個題目的視頻,首先,我們會根據問題確定感興趣的目標,即紅色油罐卡車。然後,我們會仔細觀看視頻,追蹤目標對像在視頻中的動作語義。接著,我們會進行一些深入和高層次的推理,可能會結合一些常識知識。最後,我們給出推理答案:「可能會著火甚至爆炸。」
從以上的人類的認知模式和靈感模式中汲取靈感,研究團隊指出,要實現複雜視訊推理,需要具備兩個關鍵能力:像素理解的感知能力和語意理解的認知能力。而最重要的是,視訊推理可能不是一個瞬時一步到位的過程,而是由低階感知到高階認知的多跳過程。 為了實現精確的內容感知,必須對視訊運動進行細緻的像素級理解。這個過程可能需要深入結合給定的視訊內容,並且具備精細的內容定位。
然而,大多數現有視頻理解方法局限於實例分析,缺乏精細的控制和準確的對象級識別或跟踪,更不用說深入的視頻理解了。 認知能力:深入的推理需要認知能力,允許模型提供合理的解釋甚至因果想像。這個層次需要結合一定的世界常識知識。例如理解「從高處跳下可能導致骨折」,或「與油罐車相撞可能引發爆炸」。 為了實現這一目標,研究團隊提出了一個全新的推理框架—「視訊思維鏈」。此思維鏈將複雜的視訊推理問題分解為從底層視覺感知到上層常識認知的一系列子問題。 同時,為了協助實現上述的細粒度視頻感知能力,作者還提出利用時空場景圖(Spatial-Temporal Scene Graph, STSG)表徵協助推理過程,幫助生成的細粒度感知中間結果,從而實現精細的時空特徵理解。
並與視頻多模態大模型結合,最終提出了一個全新的視頻MLLM, MotionEmpic。
實驗結果表明,作者提出的全新推理框架可顯著提升模型在各類視頻QA上的性能,超越了當前所有傳統視頻MLLM以及CoT方法的表現。 首先,給定輸入影片和問題,VoT會識別問題中涉及的所有可能目標。這個過程確保系統明確了解需要分析的對象和相關任務。 Step-2:目標追蹤
接下來,VoT分析視頻內容,追蹤問題所涉及的目標行為,輸出層面的時空場景 (SGSG)。產生的關於目標軌跡STSG將為下一步行為分析的感知證據。 Step-3:行為分析在這一步驟中,VoT透過整合STSG中的目標點追蹤結果,進一步提示模型將視訊像素觀察與現實世界聯繫起來,實現對視訊的更深入理解。 Step-4:排名機制回答問題
在深入理解了影片中目標行為之後,現在開始回答原始問題。首先,本系統將所有QA問題統一為多項題,即從提供的多個候選答案中選出最終答案。進一步,受人類解答多選題的模式啟發,本系統也採用了排名機制來確定最終答案。具體來說,對於每個候選答案,VoT將提示模型根據常識知識評估其可能性(從1到10),並提供相應的理由。最終根據,排名高的候選則為最終回答。
鑑於複雜視頻任務通常涉及復雜的問題和答案,並且整個推理過程包含了多個環節,因此核實上一步提供的答案至關重要。本系統的基本核驗思路是,假設答案A是正確的,我們將從兩個方面回顧性評估答案是否與輸入問題和視頻內容相矛盾:
- 感知驗證:檢查像素定位資訊是否與影片中從感知角度呈現的事實一致。
- 認知驗證:從認知角度提示模型,確定答案中固有的常識性知識是否與第三步推理中推斷出的主要觀察結果相矛盾。
VoT推理框架的五個步驟,從任務定義與目標識別,到最終的答案驗證,全面提升了視頻理解和推理的精確性和可靠性,為複雜視頻任務提供了強有力的解決方案作者首先在多個複雜VideoQA的數據集上進行了測試。實驗結果證明VoT在所有的測試集上都獲得了持續的強於SoTA基準模型的表現,甚至超越傳統CoT的效能。
接下來,作者比較了不同模型下的表現。值得注意的是,相比較與傳統的CoT,VoT效能提升更大、更明顯。並且,在兩個複雜的視訊問答任務上的增強效果比在相對簡單的任務(例如,MSR-VTT和ActivityNet)上的增強更為明顯。這主要是因為後者的資料集更傾向於感知推理(例如,描述影片中的內容),而不是認知推理(例如,解釋、預見)。 首先,作者進行了人類評估。如圖7上表所示,使用VoT推理框架的MotionEpic取得了相當出色的結果,甚至可以與人類表現相媲美。進一步,作者總結了六種常見的錯誤案例,並分析六種最常見錯誤類別的差異。如圖下部分所示,MotionEpic(使用VoT)顯著降低了VideoLLaVA(使用CoT)的錯誤率,特別是在動作語意和常識理解方面。
最後,作者透過一個案例分析直觀地展示了VoT的優越性。如圖8所示,影片內容顯示了「訓導員帶著小狗跨越各類障礙比賽」的複雜場景,而給定的問題是抽象且複雜,需要結合常識,而不能簡單地透過影片本身的感知直接回答。實驗結果發現,只有本系統給了正確的答案。具體地,在內容感知層面,VoT透過基於STSG的視訊定位確保了準確且穩健的理解,防止了幻覺,即正確地解釋了動物是一隻狗,然後從常識推斷場景涉及訓練者正在訓練狗。然後,在認知層面,它分析每個選項以確定最佳答案。透過進一步驗證,結果與影片內容和事實常識理解一致。總體而言,透過問題分解,整個推理在每個步驟上大大提高了準確性,同時確保了一個可解釋的過程決策理由。
以上是首支視頻思維鏈推理框架Video-of-Thought來了:像人一樣從感知到認知全面推理視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!