Bengio團隊提出多模態新基準，直指Claude 3.5和GPT-4o弱點-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者張天宇，就讀於加拿大Mila人工智慧研究所，師從圖靈獎得主Yoshua Bengio教授。博士期間的主要工作聚焦於多模態、GFlowNet、多智能體強化學習、AI於氣候變遷的應用。目前已在ICML、ICLR、ICASSP等機器學習頂會發表論文。代表作為Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation (CLAP)。

想要達成通用人工智慧 AGI 的終極目標，首先要達成的是模型要能完成人類所能輕鬆做到的任務。為了做到這一點，大模型開發的關鍵指導之一就是如何讓機器像人類一樣思考和推理。諸如注意力機制和思維鏈（Chain-of-Thought）等技術正是由此產生的靈感。

然而，可能很多人並沒有意識到，很多對人類來說很簡單的認知任務也往往伴隨著非常複雜的推理過程。舉個栗子，請大家試試根據下方的圖片填補被遮擋的文字空白：

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

（正確答案：來自全球各地的機器學習研究人員都對新型GPU 感到興奮。它的尖端功能也能讓大規模實驗更有效率、更便宜，即使它有爐灶那麼大。但想從露出的部分文字推斷完整文字仍然需要十分複雜的推理過程：當代神經科學研究表明，復原

被部分遮擋物體

需要能進行高級決策的前額葉皮質的高度參與。

我們知道，目前的視覺語言模型（Vision-Language Models, VLM）可以非常精確地進行物體辨識和文字辨識。但是，當被遮蔽的部分是文字；當模型的光學字元辨識（OCR）失效；當僅有的關鍵資訊只有被遮蔽文字的幾個像素，模型能夠模擬人類的推理過程完成這項任務嗎？

為此，來自圖靈獎得主

Yoshua Bengio

的團隊

提出了全新的視覺問答任務：

視覺字幕恢復（Visual Caption Restoration，VCR）。讓我們藉由這個任務對視覺語言模型的推理能力一探究竟：目前的視覺語言模型距離人類的認知層次還有多長的路要走？
論文標題：VCR: Visual Caption Restoration

論文連結：arxiv.org/abs/2406.06462

程式碼倉庫：github.com/tyu（評估用於模型評估和預訓練的資料產生程式碼）

Hugging Face 連結：huggingface.co/vcr-org

簡介VCR 任務，研究人員建構了一個由影像- 文字產生VCR 合成影像的流程。在這個流程中可以透過
控制遮住文字的白色矩形大小
來改變影像中文字的可見性，從而控制任務難度
。
藉由該資料產生流程，研究人員透過維基百科的主圖 - 介紹對產生了 VCR-wiki 資料集。兩種語言設定「
簡單
」和「
困難
」兩個難度等級。其中：
「簡單」難度VCR 任務能使得OCR 模型失效；

「困難」模型失效
；
「困難」則是不同因素R 任務

「困難」則是不同因素對任務像素的高度，但仍能讓對應語言的使用者完成任務。

每種語言和難度中，測試集和驗證集各有 5000 個樣本，剩下的樣本都在訓練集中。

圖例：由中文左至右分別時為，英文簡單難度、英文困難度、英文難度、困難度和困難度難度進一步提升後，人類vs 模型

文章開頭的例子對人類而言只是一個小挑戰，不能很好地展示人類做這個任務的極限水平以及人類在解題的時候運用的思維和技巧。下面展示了一個 “困難” 難度的 VCR 任務範例。讀者可以更專注地嘗試自己填補下方被遮蔽的文字空白。

（正確答案：至大論，古希臘托勒密在約公元140 年編纂的一部數學、天文學專著，提出了恆星和行星的複雜運動路徑。直到中世紀和文藝復興早期，該書提出的地心說模型被伊斯蘭和歐…）
人類是如何補全被部分遮擋的文字的？

教育學和認知科學中有一個概念叫做元認知（meta-cognition）。在設計 AI 的時候，我們人類身為教師，可以透過
監控自己的思考過程
當作參考來幫助作為模型的學生提高學習效率。因此，思考「人類是如何完成 VCR 任務的」可以對模型設計有指導意義。
下圖展示了一種筆者對VCR 任務的解題思路作為參考：

看似步驟很多，其實就是在不斷通過不同的區域
獲取信息反復驗證
看似驗證的置信度。

最開始看到圖片時，心裡只有一個模糊的猜測，在不斷閱讀圖片獲取新資訊的過程中，逐步驗證猜測。閱讀完畢後，開始填空時，仍然沒有停止透過資訊的不同面向來相互對照，印證答案。當 “假設” 無法與其他資訊一致時，就會推翻 “假設”，重新嘗試新的假設。

人類評估結果

人類在 VCR 任務下的水平如何呢？ 下圖中展示了母語者或各語言的流利使用者在英 / 中兩種語言的簡單 / 困難設定下的準確度：

如果考慮包含時間、地名、人名的錯誤，人類在簡單難度下的中文平均正確率約為 98.58%，在困難難度下的中文平均正確率約為 91.84%。而去掉這些因為時間、地名、人名的錯誤，人類在簡單難度的中文下幾乎接近滿分，而中文困難難度下正確率也達到了 96.63%。可以看出，VCR 任務對於人類而言是非常簡單的。

現有模型結果

作者測試了「全明星陣容」：Claude 3 Opus, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4 Gweno Max, Reka Core 以及目前表現最佳的一些開源模型。

下圖中展示了在VCR-Wiki 中文的簡單難度上各個模型的表現：

紅框測量指標包括代表包含了圖像（VI）圖像TEI）兩部分作為上下文訊息，模型能還原出被遮住的文字的準確率。藍色框內表示僅包含圖像中的文字（TEI）的作為上下文訊息，並不包含圖像（VI），模型能還原出的遮住文字的準確率。
結果顯示：

絕大多數模型目前都無法勝任這個任務；
VI，絕大多數而提高準確率。

在中文的困難難度上
，模型遇到了更大的麻煩。表現最好的是 GPT-4o，但只有
2.2%
的準確率。除了 CogVLM2-Chinese 和 Qwen-VL-Max，絕大多數車型的準確率都接近 0%。
可以觀察到，在困難模式下，
原始模型很難在本問題上以顯著的比例答對
，更不用說接近人類了。
英文 VCR 評測結果
作者同樣對目前最優的開源和閉源視覺 - 語言模型在英文 VCR-Wiki 上進行測試。在展示測試結果之前，請先看兩個英文VCR-Wiki 任務的範例：

英文簡單範例：

（正確答案：Since the United States Post issued its first stamped its first 1847, over 4,000 stamps have been issued and over 800 people featured. Many of these people...）

史密斯manufacturer Ford. Marketed among the top luxury vehicle brands in the United States, for...）

文中所展示的英文VCR-Wiki 的測試結果如下：

從結果整體來看，模型在英文的簡單模式和困難模式下都分別比中文表現得要好。這個結果與我們一般認為的 "因為特殊的模組化構形，殘缺的中文更加容易被補全" 的直覺不一致。或許這是由於在預訓練過程中，英文在資料量和資料品質上相比中文有更大的優勢。

在測試的眾多模型中，GPT-4o 是閉源模型中的效果最佳的，CogVLM2 是開源模型中表現最佳的。

一個很有趣的現像是加入了圖片對 CogVLM2 來說有了明顯的幫助（在困難模式下提升了 20.3%），而對於 GPT-4o 而言反而結果有下降。在中文測驗中，也有相似的現象。筆者認為這是模型的結構所導致的。具體的細節，歡迎讀者參閱 CogVLM 系列的論文以及程式碼。

另外，閉源模型普遍取得了比開源模型更優的結果，這可能歸功於更優的訓練策略或更多的模型參數。但即使如此，模型依然在 “困難” 設定下遇到了很大的挑戰。開源模型雖然可以部分完成 “簡單” 設定，但在困難設定下，大多數開源模型都無法完成這個對人類而言十分簡單的任務。

相關任務簡介

VQA

VQA

的圖像
由於沒有唯一的標準答案，評估 VQA 具有很大的挑戰性
。傳統的 VQA 方法主要集中在圖像中可見元素的直接查詢，而不涉及圖像中嵌入的文字內容與整體圖像上下文之間的複雜關係。
在一些文字在圖片中資訊佔比比較大的 VQA 評測中，模型的視覺模組甚至可能完全不需要與語言模組對齊就可以勝任。此類流程為：影像輸入至 OCR 視覺模組，OCR 視覺模組輸出影像中的字元資訊並以此為上下文輸入給語言模組。這樣就導致了 VQA 任務退化了不需要影像資訊的 QA 任務。原本比較不同的 VLM 所需的視覺模組對齊能力被忽略而 OCR 能力被重視。

OCR

光學字元辨識（Optical Character Recognition, OCR）任務通常輸入影像中的完整字元，並輸出表示影像中字元的字串文字，而無需考慮影像中的完整字元。

預訓練過 OCR 的模型能夠從輸入圖像中提取嵌入的文本，即使這些文本是不完整或模糊的。然而，
隨著文字組件模糊或被遮蔽的程度增加
，只利用可見部分恢復原始文字變得困難，
OCR 方法在這種情況下效果有限
。
可以看出，VQA 任務沒有標準答案，評估模型回答的品質仍然是一個開放性問題。而 OCR 任務不需要透過上下文來完成，無法檢驗模型是否真的學會利用了上下文中的資訊。

VCR 任務的不可替代性
視覺字幕恢復（Visual Caption Restoration, VCR
視覺字幕恢復（Visual Caption Restoration, VCR） OCR 之間架起了橋樑
。
VCR 任務的獨特挑戰在於要求
模型在視覺和文字訊息之間進行精確的對齊
，這與 OCR 的簡單文字擷取任務形成鮮明對比。在 OCR 中，主要關注的是識別可見字符，而無需理解它們在圖像敘事中的上下文相關性。相較之下，VCR 要求模型協同
利用可用的部分像素級文字提示和視覺上下文來準確地重建被遮蔽的內容
。這不僅測試了模型處理嵌入文字和視覺元素的能力，還考驗了其保持內部一致性的能力，類似於人類透過情境和視覺線索進行理解和回應的認知過程。

與 VQA 不同，
VCR 任務的問題有唯一的答案
，這使得評估可以透過準確度進行，使評測指標更加明確。

🎜透過調整文本的遮蓋比例，可以控制任務的難度🎜，從而提供一個豐富的測試環境。 🎜🎜🎜🎜與 OCR 任務一樣，VCR 任務也可以充當 VLM 的訓練任務。作者開放了 transform 程式碼，可以產生任意給定圖像 - 文字對的 VCR 任務圖。

小结

本文提出的视觉字幕恢复（VCR）任务通过看似简单的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性，以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法，进一步拉近多模态模型和人类认知能力的差距。

以上是Bengio團隊提出多模態新基準，直指Claude 3.5和GPT-4o弱點的詳細內容。更多資訊請關注PHP中文網其他相關文章！