元象XVERSE-65B：國內最大開源模型來了，高效能無條件免費商用-人工智慧-PHP中文網

元象XVERSE-65B：國內最大開源模型來了，高效能無條件免費商用

PHPz

發布： 2023-11-06 15:33:20

轉載

1097 人瀏覽過

國內先前開源了多個 70 到 130 億參數大模型，落地成果湧現，開源生態系統初步建立。隨著智能體等任務複雜度與資料量的提升，業界與社群對更「大」模型的需求越來越迫切。

研究表明，參數量越高，高品質訓練資料越多，大模型效能才能不斷提升。而業界普遍共識是達到 500 到 600 億參數門檻，大模型才能「智慧湧現」，在多任務中展現強大效能。但訓練此量級模型成本高昂，技術要求較高，目前主要為閉源付費提供。

在國外開源生態中，Llama2-70B 和Falcon-180B 等標竿模型為有條件開源，設定了每月活躍用戶數或收入等商用上限，並因缺乏訓練資料在中文能力上有明顯短板。此外，美國新頒布的 AI 晶片禁令，或將進一步限制中國大模型產業發展的速度。業界迫切呼籲一個高性能國產大模型，填補生態空白，為中文應用提供更強大的理解、推理和長文生成能力。

在此背景下，元象XVERSE 公司宣布開源650 億參數高效能通用大模型XVERSE-65B，且無條件免費商用，業界尚屬首次。此外，13B 模型全面升級，提高小型模型能力上限。這將讓海量中小企業、研究者和AI 開發者更早一步實現大模型自由，根據其算力、資源限制和具體任務需求，自由使用、修改或蒸餾元像大模型，推動研究與應用的突破創新。

模型位址：https://huggingface.co/xverse/XVERSE-65B

元象XVERSE 創辦人姚星表示：「面對研發時間緊、算力持續短缺等挑戰，團隊依靠豐富經驗，三個月內研發出多款高性能7B、13B 模型，並最早為社區獻上一個大有可為的65B 模型，為研究、商業及生態創造三重價值.」

具體而言，65B 模型能夠有以下正面影響：

#研發上，65B 將為新技術、新工具、效能最佳化到模型安全提供「大槓桿」，讓社區快速累積經驗，也有助於推動國家科技自主可控的長遠目標。
商業上，海量中小企業能以零成本用上「大工具」，可突破局限，推動應用顯著創新。元像也能深入了解用例、安全模型部署和潛在機會。
在開發者生態上，社區能充分發揮組織協同優勢，推動研發應用的「寒武紀大爆發」。

^{》鏈條自研，多項技術創新}

XVERSE-65B 底座模型在2.6 兆Tokens 的高品質資料上從頭訓練，上下文視窗擴展至16K，支援中、英、俄、法等40 多種語言。

元象堅持高性能定位，顯著提升了65B 三方面能力：

#理解、生成、推理和記憶等基礎能力，到模型的多樣性、創造性和精度表現，從優異到強大；

擴展了工具呼叫、程式碼解釋、反思修正等能力，為建構智能體奠定技術基礎，提高模型實用性；
顯著緩解7B、13B 中常見且可能嚴重的幻覺問題，減少大模型幻覺，提高準確性和專業度。
元像大模型系列皆為全鏈條自研，涵蓋多項關鍵技術與研發創新：
#1. 複雜分散式系統設計：借鏡團隊研發騰訊圍棋AI「絕藝」、王者榮耀AI「絕悟」等大系統上的豐富經驗，自研高效算子、顯存優化、平行調度策略、數據-計算-通信重疊、平台與框架協同關鍵技術，打造高效率穩定的訓練系統，千卡集群峰值算力利用率達58.5%，位居業界前列。

2. 全面提升效能：65B 訓練中採用FlashAttention2 加速運算， 3D 並行基礎上採用虛擬管線（virtual pipeline）技術，降低較長管線產生過高氣泡率，提升運算推理效率；情境視窗長度從8K 逐步提升到16K，使其不僅能出色完成複雜任務，包括長文理解、長文生成和超長對話，還拓展了工具調用、代碼解釋及反思修正能力，能更好構建智能體（ AI Agent）。

3. 極致提升訓練穩定性：因運算量龐大，通訊擁塞、晶片過熱或運算節點故障成為 65B 訓練常態，初期出現一週最高八次故障的情況。透過叢集基礎設施營運、資源調度、訓練框架和調度平台協同持續優化，元像打造出高穩定、低中斷、強容錯的訓練系統，將每週有效訓練率提升至 98.6%。

此外，在接近 1.6 兆 Tokens 的模型訓練中期，損失函數產生了 NaN 值，可能導致訓練中斷。通常情況下，業界一般會在分析後刪除與之相關的資料區間。而團隊根據經驗判定這是模型自然演化，選擇不刪除數據，直接跳過相關參數更新，最終 NaN 值問題解決。後期對參數值、激活值、梯度值等中間狀態的進一步分析表明，該問題可能與模型最後一層 transformer block 激活值的最大值變化有關，並會隨最大值的逐漸降低而自行解決。

^{之後符號中使用最佳設定問題研發產生問題#5#15#11221215#2115#1115#9100115#91001100 效能問題。}

為確保業界能對元像大模型表現有全面、客觀、長期認知，研究人員參考了一系列權威學術測評，制定了涵蓋問答、理解、知識、推理、數學、代碼等六個構面的11 項主流權威評量標準，將持續使用並迭代。

XVERSE-65B 在國內尚無同量級模型可對比，在與國外標竿對比測評中，部分指標超越、綜合性能媲美GPT3.5；全面超越開源標竿Llama2-70B 和Falcon-180B ；與GPT4 仍有差距。

XVERSE-65B 評測元象XVERSE-65B：國內最大開源模型來了，高效能無條件免費商用

全面升級的XVERSE-13B-2，比同尺寸模型增加大量高品質數據，訓練數據高達3.2 萬億，極大提升了小模型的能力上限。它文理兼修，保持了文科優勢，問答提升 18%，理科長足進步，代碼提升 149%、數學提升 198%，在測評中全面超越了 Llama2、Baichuan2 等國內外開源標竿。

之後#XVERSE-13 元象XVERSE-65B：國內最大開源模型來了，高效能無條件免費商用

XVERSE-13

#)開啟新時代》中試題

##元大模型可在Github、Hugging Face、魔搭ModelScope 等多平台搜尋「XVERSE」下載

，

簡單登記後即可無條件免費商用，能滿足中小企業、科研機構及個人開發者絕大部分的應用與迭代需求。元象同時提供模型訓練、推理、部署、精調等全方位技術服務，賦能文娛、金融、醫療等各行各業，幫助在智能客服、創意寫作、精準推薦等多場景打造業界領先的使用者體驗。 2023 年10 月，騰訊音樂率先宣布與元像大模型建立戰略合作，共同推出lyraXVERSE 加速大模型、全面升級其音樂助手“AI 小琴”，未來還將持續探索AI 與3D 前沿技術，引領音樂娛樂創新方向。

姚星表示：「真實世界的感知智能（3D），與真實世界的認知智能（AI），是探索通用人工智慧（AGI）的必由之路，也是元象持續探索前沿科技的動力。XVERSE 開源系列致力於推動大模型國產可替代與持續技術創新，為實體經濟、數位經濟發展注入強勁動力。我們期待與企業和開發者攜手，共同開啟大模型應用新時代！」

關於元象

元象XVERSE 於2021 年初在深圳成立，是國內領先的AI 與3D 技術服務公司，致力於打造AI 驅動的3D 內容生產與消費一站式平台，願景為「定義你的世界」。