擊敗Gemini-1.5-Pro、GPT-4V，從容大模型多模態能力躋身全球前三名-人工智慧-PHP中文網

擊敗Gemini-1.5-Pro、GPT-4V，從容大模型多模態能力躋身全球前三名

PHPz

發布： 2024-06-29 00:25:01

原創

981 人瀏覽過

近日，雲端從科技從容大模式在綜合評測權威平台 OpenCompass 的多模態評測領域中取得重大進展。最新評測結果顯示，雲從科技的從容大模型在該體系中的平均得分為65.5，這一成績使得從容大模型躋身全球前三，超越了谷歌的Gemini-1.5-Pro 和GPT-4v，僅次於於GPT-4o（69.9）和Claude3.5-Sonnet（67.9）。而在國內市場，從容大模型的成績也超過了 InternVL-Chat（61.7）和 GLM-4V（60.8），排名第一。

擊敗Gemini-1.5-Pro、GPT-4V，從容大模型多模態能力躋身全球前三名

1. OpenCompass 多模態榜單

OpenCompass 大模型開放評測體係是上海人工智慧實驗室推出的完整開源可複現的評測框架。
OpenCompass 多模態評測方面採用了8 個具有代表性的數據集，從多種視角客觀量化多模態大模型的能力，評估維度覆蓋：
- 目標檢測
- 文字識別動作
- 辨識
- 影像理解與關係推理
- 藝術設計
- 商業
- 科學
- 健康與醫學
- 人文與社會科學
- 在本次測評中，從容大模型在其中的6 個資料集表現優異，排名國內第一（MMbench、MMStar、MathVista、HallusionBench、AI2D、OCRBench），尤其是在OCRBench 測試集上以827 分（總分為1000 分）取得全球最高分，且高於第二名GLM-4v 13 分，進一步提升從容大模型在文本識別、以文本為中心的視覺問答、面向文檔的視覺問答、關鍵資訊擷取等業務場景下的適用性。
圖3：OpenCompass 中國大模型能力展示

從容大模型在此體系中的優秀表現，依賴雲端從科技自研的高效多模態處理架構和先進的計算技術，實現了高效的多模態資料處理能力，能夠在視覺和語言任務之間實現高效的融合和切換，並最大化利用運算資源，保證在處理大規模多模態資料時仍能保持較高的效能和反應速度，使得模型的訓練過程更有效率，收斂速度更快，表現更穩定。

同時也得益於雲端從科技長期在視覺、語言領域的深厚累積和不斷創新。擊敗Gemini-1.5-Pro、GPT-4V，從容大模型多模態能力躋身全球前三名