國內先前開源了多個 70 到 130 億參 數大模型,落地成果湧現,開源生態系統初步建立。隨著智能體等任務複雜度與資料量的提升,業界與社群對更「大」模型的需求越來越迫切。
研究表明,參數量越高,高品質訓練資料越多,大模型效能才能不斷提升。而業界普遍共識是達到 500 到 600 億參數門檻,大模型才能「智慧湧現」,在多任務中展現強大效能。但訓練此量級模型成本高昂,技術要求較高,目前主要為閉源付費提供。
在國外開源生態中,Llama2-70B 和Falcon-180B 等標竿模型為有條件開源,設定了每月活躍用戶數或收入等商用上限,並因缺乏訓練資料在中文能力上有明顯短板。此外,美國新頒布的 AI 晶片禁令,或將進一步限制中國大模型產業發展的速度。業界迫切呼籲一個高性能國產大模型,填補生態空白, 為中文應用提供更強大的理解、推理和長文生成能力。
在此背景下,元象XVERSE 公司宣布開源650 億參數高效能通用大模型XVERSE-65B,且無條件免費商用,業界尚屬首次。此外,13B 模型全面升級,提高小型模型能力上限。這將讓海量中小企業、研究者和AI 開發者更早一步實現大模型自由,根據其算力、資源限制和具體任務需求,自由使用、修改或蒸餾元像大模型,推動研究與應用的突破創新。
模型位址:https://huggingface.co/xverse/XVERSE-65B
元象XVERSE 創辦人姚星表示:「面對研發時間緊、算力持續短缺等挑戰,團隊依靠豐富經驗,三個月內研發出多款高性能7B、13B 模型,並最早為社區獻上一個大有可為的65B 模型,為研究、商業及生態創造三重價值.」
具體而言,65B 模型能夠有以下正面影響:
#研發上,65B 將為新技術、新工具、效能最佳化到模型安全提供「大槓桿」,讓社區快速累積經驗,也有助於推動國家科技自主可控的長遠目標。
商業上,海量中小企業能以零成本用上「大工具」,可突破局限,推動應用顯著創新。元像也能深入了解用例、安全模型部署和潛在機會。
在開發者生態上,社區能充分發揮組織協同優勢,推動研發應用的「寒武紀大爆發」。
》鏈條自研,多項技術創新
XVERSE-65B 底座模型在2.6 兆Tokens 的高品質資料上從頭訓練,上下文視窗擴展至16K,支援中、英、俄、法等40 多種語言。元象堅持高性能定位,顯著提升了65B 三方面能力:
#理解、生成、推理和記憶等基礎能力,到模型的多樣性、創造性和精度表現,從優異到強大;3. 極致提升訓練穩定性:因運算量龐大,通訊擁塞、晶片過熱或運算節點故障成為 65B 訓練常態,初期出現一週最高八次故障的情況。透過叢集基礎設施營運、資源調度、訓練框架和調度平台協同持續優化,元像打造出高穩定、低中斷、強容錯的訓練系統,將每週有效訓練率提升至 98.6%。
此外,在接近 1.6 兆 Tokens 的模型訓練中期,損失函數產生了 NaN 值,可能導致訓練中斷。通常情況下,業界一般會在分析後刪除與之相關的資料區間。而團隊根據經驗判定這是模型自然演化,選擇不刪除數據,直接跳過相關參數更新,最終 NaN 值問題解決。後期對參數值、激活值、梯度值等中間狀態的進一步分析表明,該問題可能 與模型最後一層 transformer block 激活值的最大值變化有關,並會隨最大值的逐漸降低而自行解決。
之後符號中使用最佳設定問題研發產生問題#5#15#11221215#2115#1115#9100115#91001100 效能問題。
為確保業界能對元像大模型表現有全面、客觀、長期認知,研究人員參考了一系列權威學術測評,制定了涵蓋問答、理解、知識、推理、數學、代碼等六個構面的11 項主流權威評量標準,將持續使用並迭代。XVERSE-65B 在國內尚無同量級模型可對比,在與國外標竿對比測評中,部分指標超越、綜合性能媲美GPT3.5;全面超越開源標竿Llama2-70B 和Falcon-180B ;與GPT4 仍有差距。
全面升級的XVERSE-13B-2,比同尺寸模型增加大量高品質數據,訓練數據高達3.2 萬億, 極大提升了小模型的能力上限。它文理兼修,保持了文科優勢,問答提升 18%,理科長足進步, 代碼提升 149%、數學提升 198%,在測評中全面超越了 Llama2、Baichuan2 等國內外開源標竿。
##元大模型可在Github、Hugging Face、魔搭ModelScope 等多平台搜尋「XVERSE」下載
,簡單登記後即可無條件免費商用,能滿足中小企業、科研機構及個人開發者絕大部分的應用與迭代需求。 元象同時提供模型訓練、推理、部署、精調等全方位技術服務,賦能文娛、金融、醫療等各行各業,幫助在智能客服、創意寫作、精準推薦等多場景打造業界領先的使用者體驗。 2023 年10 月,騰訊音樂率先宣布與元像大模型建立戰略合作,共同推出lyraXVERSE 加速大模型、全面升級其音樂助手“AI 小琴”,未來還將持續探索AI 與3D 前沿技術,引領音樂娛樂創新方向。
姚星表示:「真實世界的感知智能(3D),與真實世界的認知智能(AI),是探索通用人工智慧(AGI)的必由之路,也是元象持續探索前沿科技的動力。XVERSE 開源系列致力於推動大模型國產可替代與持續技術創新,為實體經濟、數位經濟發展注入強勁動力。我們期待與企業和開發者攜手,共同開啟大模型應用新時代!」
關於元象元象XVERSE 於2021 年初在深圳成立,是國內領先的AI 與3D 技術服務公司,致力於打造AI 驅動的3D 內容生產與消費一站式平台,願景為「定義你的世界」。
以上是元象XVERSE-65B:國內最大開源模型來了,高效能無條件免費商用的詳細內容。更多資訊請關注PHP中文網其他相關文章!