4M令牌？ Minimax-Text-01優於DeepSeek V3-人工智慧-PHP中文網

4M令牌？ Minimax-Text-01優於DeepSeek V3

Lisa Kudrow

發布： 2025-03-10 10:00:17

原創

920 人瀏覽過

中國人工智能正在取得很大的進步，具有挑戰性的領先模型，例如GPT-4，Claude和Grok，具有具有成本效益的開源替代方案，例如DeepSeek-V3和Qwen 2.5。這些模型由於其效率，可及性和強大的性能而出色。許多人在允許的商業許可下運營，擴大對開發商和企業的吸引力。該組的最新成員Minimax-Text-01以其前所未有的400萬令牌上下文長度設置了一個新標準，該標準的長度超過了典型的128K-256K令牌限制。這種擴展的上下文能力，結合了效率的混合注意體系結構和開源，商業允許的許可，促進了創新而無需高昂的成本。

>讓我們深入研究minimax-text-01的功能：> 目錄的

>混合體系結構

Experts（MOE）策略的混合物

訓練和縮放策略

>訓練後優化
關鍵創新
核心學術基準
一般任務基準
推理任務基準
數學和編碼任務基準
- >開始使用minimax-text-01
- 重要鏈接
結論
>

7/8線性注意力（Lightning Coative-2）：>這種線性注意機制大大降低了從O（N²D）到O（D²N）的計算複雜性，非常適合長篇文化處理。它使用SILU激活進行輸入轉換，注意計算的矩陣操作以及rmsnorm和Sigmoid用於歸一化和縮放。

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3 1/8 softmax的注意：傳統的注意機制，將繩索（旋轉位置嵌入）納入一半的注意力頭尺寸，從而無需犧牲表現就可以推斷長度。

Experts（MOE）策略的混合物

> minimax-text-01的獨特MOE架構將其與諸如DeepSeek-V3：之類的模型區分開
- >全局路由器：優化令牌分配，以在專家組之間進行工作負載分配。
- top-k路由：>選擇每個令牌的top-2專家（與DeepSeek的Top-8 1共享專家相比）。
- 使用32位專家（與DeepSeek的256 1共享），專家隱藏的維度為9216（vs. DeepSeek的2048）。每層的總激活參數與DeepSeek（18,432）相同。訓練和縮放策略
培訓基礎設施：
迭代微調：
使用脫機DPO和在線grpo進行對齊的監督微調（SFT）和強化學習（RL）的周期。
- 長篇小說微調：
- 關鍵創新
deepnorm：
>
- 批次尺寸熱身：
- 有效的並行性：
- 核心學術基準
（此處包括用於一般任務，推理任務和數學和編碼任務的基準結果的表，此處包括原始輸入表。）

（其他評估參數鏈接保留）

>開始使用minimax-text-01

（用於使用擁抱臉部變壓器的minimax-text-01的代碼示例保持不變。） 重要鏈接

聊天機器人
- 在線API
- 文檔
> minimax-Text-01表現出令人印象深刻的功能，在長期和通用任務中實現了最先進的表現。儘管存在改進領域，但其開源性質，成本效益和創新的建築使其成為AI領域的重要參與者。它特別適用於記憶密集型和復雜的推理應用，儘管編碼任務的進一步完善可能是有益的。