奧林匹克競賽裡選最聰明的AI：Claude-3.5-Sonnet vs. GPT-4o？-人工智慧-PHP中文網

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

上海交通大學生成式模型實驗室(GAIR Lab) 的研究團隊，主要研究方向與大模型實驗室(GAIR Lab) 的研究團隊，主要研究方向為大模型評估。

團隊首頁：https://plms.ai/

AI技術日新月異，近來Anthropic公司最新發布的Claude-3.5-Sonnet因在知識型等任務上設立新產業基準而引發廣泛討論：Claude-3.5-Sonnet 已經取代OpenAI的GPT4o成為世界上」最聰明的AI「（Most Intelligent AI）了嗎？ 回答這個問題的挑戰在於我們首先需要一個足夠挑戰的智力測驗基準，使得我們可以區分目前最高水準的AI。

上海交通大學生成式人工智慧實驗室（GAIR Lab）推出的OlympicArena[1] （奧林匹克競技場）滿足了這個需求。

奧林匹克學科競賽不僅是對人類（碳基智能）思維敏捷性、知識掌握和邏輯推理的極限挑戰，更是AI（「矽基智能」）鍛鍊的絕佳練兵場，是佳練兵場，是衡量AI與「超級智慧」距離的重要標尺。 OlympicArena－一個真正意義上的AI奧運競技場。在這裡，AI不僅要展現其在傳統學科知識上的深度（數學、物理、生物、化學、地理等頂級競賽），還要在模型間的認知推理能力上展開較量。

近日，同樣是研究團隊，首次提出使用"奧林匹克競賽獎牌榜"的方法，根據各AI模型在奧林匹克競技場（各學科）的綜合表現進行排名，選出迄今為止智力最高的AI。在此次競技場中，研究團隊重點分析並比較了最近發布的兩個先進模型－Claude-3.5-Sonnet和Gemini-1.5-Pro，以及OpenAI的GPT-4系列（e.g., GPT4o )。透過這種方式，研究團隊希望能夠更有效地評估和推動AI技術的發展。

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

^{注意：研究團隊首先依據金牌數量對模型進行排序，如果金牌數量相同，則依照整體表現分數來排序。}

實驗結果顯示：

Claude-3.5-Sonnet在整體表現上與GPTo-4oo

Claude-3.5-Sonnet在整體表現上與GPTo-4o（TPT-3.5-Sonnet相比在一些整體表現上表現了。（例如在物理、化學和生物學上）。

Gemini-1.5-Pro和GPT-4V排名緊隨GPT-4o和Claude-3.5-Sonnet之後，但它們之間存在明顯的表現差距。
來自開源社群的AI模型表現明顯落後於這些專有模型。
這些模型在此基準測試上的表現不盡人意，顯示我們在實現超級智慧之路上還有很長的路要走。

專案首頁：https://gair-nlp.github.io/OlympicArena/

實驗設定的實驗設定。該測試集的答案並未公開，有助於防止資料洩露，從而反映模型的真實表現。研究團隊測試了多模態大模型（LMMs）和純文字大模型（LLMs）。對於LLMs的測試，輸入時不提供任何與圖像相關的資訊給模型，僅提供文字。所有評估均採用零樣本（zero-shot）思維鏈（Chain of Thought）提示詞。

評估對象

研究團隊評估了一系列開源和閉源的多模態大模型（LMMs）和純文本大模型（LLMs）。對於LMMs，選擇了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等封閉源模型，此外還評估了LLaVA-NeXT-34B、InternVL-Chat-V1.5 、Yi-VL-34B和Qwen-VL-Chat等開源模型。對於LLMs，主要評估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等開源模型。

評估方法

衡量標準鑑於所有問題都可以透過基於規則的配對進行評估，研究團隊對非程式設計任務使用準確率，並對程式設計任務使用公正的pass@k ，定義如下：

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

奧林匹克競技場獎牌榜：

與奧運會使用的獎牌系統類似，是一個專門設計用來評估AI模型在各個學術表現領域的先驅性排名機制。該表為在任一給定學科中取得前三名成績的模型頒發獎牌，從而為比較不同模型提供了一個明確且具有競爭性的框架。研究團隊首先依據金牌數量對模型進行排序，如果金牌數量相同，則依照整體表現分數來排序。它提供了一種直觀簡潔的方式來識別不同學術領域中的領先模型，使研究人員和開發者更容易理解不同模型的優點和缺點。

細粒度評估：

研究團隊也基於不同學科、不同模態、不同語言以及不同類型的邏輯和視覺推理能力進行基於準確性的細粒度評估。

結果與分析

分析內容主要關注Claude-3.5-Sonnet和GPT-4o，同時也對Gemini-1.5-Pro的性能表現進行了部分討論。

整體情況

^{表:模型在不同學科上的表現}

新發布的Claude-3.5-Sonnet性能強大，達到了幾乎與GPT-4o相當的水平。兩者的整體準確率差異僅約1%。

新發布的Gemini-1.5-Pro也展現出了相當的實力，在大多數學科中的表現超過了GPT-4V（OpenAI當前第二強大的模型）。
值得注意的是，在撰寫本報告時，這三個模型中最早的發佈時間僅為一個月前，反映了這一領域的快速發展。

針對學科的細粒度分析

GPT-4o vs. 5-Sonnet在整體上表現相似，但兩個模型都展現了不同的學科優勢。 GPT-4o在傳統的演繹和歸納推理任務上展現出更優秀的能力，特別是在數學和電腦科學方面。 Claude-3.5-Sonnet在物理、化學和生物學等學科表現出色，特別是在生物學上，它超過GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro：

在Gemini-1.5-Pro與GPT-4V的比較中，可以觀察到類似的現象。 Gemini-1.5-Pro在物理、化學和生物學的表現顯著優於GPT-4V。然而，在數學和電腦科學方面，Gemini-1.5-Pro優勢不明顯甚至不如GPT-4V。

從這兩組比較中，可以看出：

OpenAI的GPT系列在傳統的數學推理和程式設計能力上表現突出。這表明GPT系列模型已經經過了嚴格訓練以處理需要大量演繹推理和演算法思維的任務。

相反，當涉及到需要將知識與推理結合的學科，如物理、化學和生物學時，其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展現出了具有競爭性的表現。這體現了不同模型的專業領域以及潛在的訓練重點，顯示在推理密集型任務以及知識整合型任務可能存在的權衡。

針對推理類型的細微分析

Caption: 各模型在邏輯推理能力上的表現。邏輯推理能力包括：演繹推理（DED）、歸納推理（IND）、溯因推理（ABD）、類比推理（ANA）、因果推理（CAE）、批判性思考（CT）、分解推理（DEC）和定量推理（QUA）。

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

GPT-4o 與Claude-3.5-Sonnet 在邏輯推理能力上的比較：

從表格上優於Claude-3.5-Sonnet，例如演繹推理、歸納推理、溯因推理、類比推理和批判性思考方面。然而，Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表現超過了GPT-4o。整體而言，兩個模型的表現相當，雖然GPT-4o在大多數類別上略有優勢。

^{表: 各模型在視覺推理能力上的表現。視覺推理能力包括：模式辨識（PR）、空間推理（SPA）、圖表推理（DIA）、符號解釋（SYB）和視覺比較（COM）。}

GPT-4o vs. Claude-3.5-Sonnet 在視覺推理能力上的表現：

從表格和35圖表推理方面能力領先，展現了其在模式識別和解讀圖表方面的競爭力。兩個模型在符號解釋方面表現相當，表明它們在理解和處理符號資訊方面具有相當的能力。然而，GPT-4o在空間推理和視覺比較方面優於Claude-3.5-Sonnet，展示了其在需要理解空間關係和比較視覺數據的任務上的優越性。

綜合學科與推理類型的分析，研究團隊發現：

數學和電腦程式設計強調複雜演繹推理技巧和基於規則導出普適性結論，傾向於預先依賴
數學和電腦程式設計強調複雜演繹推理技巧和基於規則導出普適性結論，傾向於預先依賴的知識。相較之下，像化學和生物學這樣的學科往往需要大量的知識庫來基於已知的因果關係和現象資訊進行推理。這表明，儘管數學和程式設計能力仍然是衡量模型推理能力的有效指標，其他學科更好地測試了模型在基於其內部知識進行推理和問題分析方面的能力。
不同學科的特徵顯示了客製化訓練資料集的重要性。例如，要提高模型在知識密集學科（如化學和生物學）中的表現，訓練期間模型需要廣泛接觸特定領域的資料。相反，對於需要強大邏輯和演繹推理的學科，如數學和計算機科學，模型則能從專注於純邏輯推理的訓練中受益。
此外，推理能力和知識應用之間的區別表明了模型跨學科應用的潛力。例如，具有強大演繹推理能力的模型可以協助需要係統化思考解決問題的領域，如科學研究。而擁有豐富知識的模型在重度依賴現有資訊的學科中非常寶貴，如醫學和環境科學。理解這些細微差別有助於開發更專業和多功能的模型。

針對語言類型的細粒度分析

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？ 表現。

以上表格展示了模型在不同語言上的表現表現。研究團隊發現大多數模型在英語上的準確度比中文高，這種差距在排名靠前的模型中尤其顯著。推測可能有以下幾個原因：

儘管這些模型包含了大量中文訓練資料並且具有跨語言泛化能力，但它們的訓練資料主要以英語為主。
中文問題的難度比英文問題更具挑戰性，尤其是在物理和化學等科目中，中國奧林匹克競賽的問題更難。
這些模型在辨識多模態影像中的字元方面能力不足，中文環境下這問題更為嚴重。

然而，研究團隊也發現一些中國廠商開發或基於支持中文的基模型進行微調的模型，在中文場景下的表現優於英文場景，例如Qwen1.5-32B-Chat、Qwen -VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B，雖然仍然在英語上表現更好，但與排名靠前的閉源模型相比，它們在英語和中文場景間的準確度差異要小得多。這表明，為中文數據乃至全球更多語言優化模型，仍需要顯著的關注。

針對模態的細粒分析

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

🎜

^{Caption: 各模型在不同模态问题的能力表现。}

以上表格展示了模型在不同模态上的性能表现。GPT-4o在纯文本和多模态任务中均优于Claude-3.5-Sonnet，并在纯文本上表现更突出。另一方面，Gemini-1.5-Pro在纯文本和多模态任务上表现均优于GPT-4V。这些观察表明，即使是目前可用的最强模型，在纯文本任务上也比多模态任务有更高的准确率。这说明模型在利用多模态信息解决复杂推理问题方面仍有相当大的改进空间。

结语

研究团队在本次评测中主要关注最新的模型：Claude-3.5-Sonnet 和 Gemini-1.5-Pro，并将它们与 OpenAI 的 GPT-4o 和 GPT-4V 进行比较。此外，研究团队还设计了一种用于大模型的新颖排名系统——OlympicArena Medal Table，用来清晰的比较不同的模型的能力。研究团队发现，GPT-4o 在数学和计算机科学等科目上表现突出，具有较强的复杂演绎推理能力和基于规则得出普遍结论的能力。另一方面，Claude-3.5-Sonnet 更擅长根据已有的因果关系和现象进行推理。另外，研究团队还观察到这些模型在英语语言问题上表现更好，并且在多模态能力方面有显著的改进空间。理解模型这些细微差别有助于开发更专业化的模型，以更好地满足不同学术和专业领域的多样化需求。

随着四年一度的奥运盛事日益临近，我们不禁想象，如果人工智能也能参与其中，那将是一场怎样的智慧与技术的巅峰对决？不再仅仅是肢体的较量，AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。

^{参考链接：}

^{[1] Huang et al., OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI https://arxiv.org/abs/2406.12753v1}

以上是奧林匹克競賽裡選最聰明的AI：Claude-3.5-Sonnet vs. GPT-4o？的詳細內容。更多資訊請關注PHP中文網其他相關文章！