コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > テクノロジー周辺機器 > AI > 4Mトークン？ Minimax-Text-01はDeepSeek V3を上回ります

4Mトークン？ Minimax-Text-01はDeepSeek V3を上回ります

Lisa Kudrow

リリース： 2025-03-10 10:00:17

オリジナル

920 人が閲覧しました

中国のAIは、GPT-4、Claude、Grokのような挑戦的な主要なモデルで、DeepSeek-V3やQWEN 2.5などの費用対効果の高いオープンソースの代替品を備えた大幅な進歩を遂げています。これらのモデルは、効率、アクセシビリティ、および強力なパフォーマンスのために優れています。多くの人が寛容な商業ライセンスの下で運営されており、開発者や企業への訴えを拡大しています。このグループへの最新の追加である

Minimax-Text-01は、前例のない400万のトークンコンテキストの長さを備えた新しい標準を設定します。この拡張されたコンテキスト機能は、効率性とオープンソースの商業的に寛容なライセンスのためのハイブリッド注意アーキテクチャと組み合わせて、高コストなしでイノベーションを促進します。

Minimax-Text-01の機能を掘り下げましょう

目次

ハイブリッドアーキテクチャ

トレーニング後の最適化
を開始します
ハイブリッドアーキテクチャ

Minimax-Text-01は、稲妻の注意、ソフトマックスの注意、およびエクスパーの混合物（MOE）を統合することにより、効率とパフォーマンスのバランスを巧みにバランスさせます。

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3 7/8線形注意（Lightning Atterness-2）：

この線形注意メカニズムは、長いコンテキスト処理に理想的なO（n²d）からO（d²n）に計算の複雑さを大幅に減らします。入力変換にはSiluの活性化、注意スコアの計算にはマトリックス操作、RMSNORMとSIGMOIDを正規化とスケーリングに使用します。

1/8ソフトマックスの注意：伝統的な注意メカニズム、注意ヘッド寸法の半分にロープ（回転位置の埋め込み）を組み込み、パフォーマンスを犠牲にすることなく長さの外挿を可能にします。
Minimax-Text-01のユニークなMOEアーキテクチャは、DeepSeek-V3：のようなモデルと区別しています。

トークンドロップ戦略：deepseekのドロップレスアプローチとは異なり、専門家間のバランストークン分布を維持するために補助損失を採用しています。

グローバルルーター：専門家グループ間のワークロード分布のトークン割り当てを最適化します。
トップKルーティング：
トークンごとにトップ2の専門家を選択します（DeepSeekのTop-8 1共有エキスパートと比較して）エキスパート構成：
32人の専門家（vs. deepseekの256 1共有）を利用して、9216（vs. deepseekの2048）の隠された次元を持つ。レイヤーあたりの総アクティブ化されたパラメーターは、DeepSeek（18,432）と同じままです。
トレーニングとスケーリング戦略

トレーニングインフラストラクチャ：

約2000 H100 GPUをレバレッジし、エキスパートテンソル並列性（ETP）や線形注意シーケンスパラレズム（LASP）などの高度な並列性技術を採用しています。 8x80GB H100ノードでの効率的な推論のために8ビット量子化用に最適化。

トレーニングデータ：WSD様学習率スケジュールを使用して、約12兆トークンでトレーニングされています。データは、高品質のソースと低品質のソースのブレンドで構成され、高品質のデータのためのグローバルな重複排除と4倍の繰り返しがありました。
3段階的アプローチ：フェーズ1（128Kコンテキスト）、フェーズ2（512Kコンテキスト）、およびフェーズ3（1Mコンテキスト）、線形補間を使用して、コンテキストの長さのスケーリング中に分布シフトを管理します。 トレーニング後の最適化
反復的な微調整：

ロングコンテキストの微調整：

段階的アプローチ：ショートテキストSFT→ロングコンテキストSFT→ショートコンテキストRL→長いコンテキストRL、優れた長いコンテキストパフォーマンスには重要です。

キーイノベーション
deepnorm：残留接続のスケーリングとトレーニングの安定性を強化するポストノームアーキテクチャ。

最適なトレーニングダイナミクスのために、バッチサイズが16mから128mのトークンに徐々に増加します。

効率的な並列性：

コアアカデミックベンチマーク

（追加の評価パラメーターリンクの残り）

Minimax-Text-01

を開始します

（hugging hugging face transformersを使用してminimax-text-01を使用するためのコード例は同じままです。） 重要なリンク

チャットボット

オンラインapi
ドキュメント

Minimax-Text-01は、長いコンテキストおよび汎用タスクで最先端のパフォーマンスを達成する印象的な機能を実証しています。改善の領域は存在しますが、そのオープンソースの性質、費用対効果、革新的なアーキテクチャにより、AI分野の重要なプレーヤーになります。これは、メモリ集約型で複雑な推論アプリケーションに特に適していますが、コーディングタスクのさらなる改良が有益である可能性があります。

以上が4Mトークン？ Minimax-Text-01はDeepSeek V3を上回りますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

前の記事：PythonのRay Frameworkを使用した分散処理次の記事：binyuan huiはQwenチャットを立ち上げました！

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

最新の問題

function_exists() はカスタム関数を決定できません Function test () {return true;} if (function_exists ('test')) {echo "テストは関数です";

から 2024-04-29 11:01:01

0

3

2930

Google Chromeのモバイル版を表示する方法こんにちは、先生、Google Chrome をモバイル版に変更するにはどうすればよいですか?

から 2024-04-23 00:22:19

0

11

3123

子ウィンドウは親ウィンドウを操作しますが、出力は応答しません。最初の 2 つの文は実行可能ですが、最後の文は実装できません。

から 2024-04-19 15:37:47

0

1

2553

親ウィンドウには出力がありません document.onclick = function(){ window.opener.document.write('私は子ウィンドウの出力です');

から 2024-04-18 23:52:34

0

1

2497

CSS マインドマッピングに関するコースウェアはどこにありますか? コースウェア

から 2024-04-16 10:10:18

0

0

2529

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート