大型モデル時代の輸送力への答え、Galaxy AI Network-AI-php.cn

大規模な AI 事前トレーニングモデルの価値が高まり続けるにつれて、モデルの規模はますます大きくなっています。産業界と学界は、AI 時代にはコンピューティング能力が生産性を左右するというコンセンサスに達しました。

この理解は正しいですが、包括的なものではありません。デジタルシステムにはストレージ、コンピューティング、ネットワークという3つの柱がありますが、AI技術も同様です。ストレージとネットワークのコンピューティング能力を脇に置くと、大規模モデルは単独でしか機能しません。特に、大規模モデルに適応したネットワークインフラストラクチャは有効な注目を集めていません。

「トレーニング用に数万枚のカード」、「数万マイルの展開」、「数兆のパラメータ」を頻繁に必要とする大規模な AI モデルに直面すると、ネットワークトランスポートキャパシティは無視できない関係になります。インテリジェントシステム全体。直面している課題は非常に顕著であり、状況を打破できる答えを待っています。

大型モデル時代の輸送力への答え、Galaxy AI Network

王磊、ファーウェイデータ通信製品ライン社長

9月20日、Huawei Connect Conference 2023内で「Galaxy AI Network、加速する業界インテリジェンス」をテーマにしたデータ通信サミットが開催されました。あらゆる分野の代表者が、AI ネットワーク技術の変革と発展の傾向について議論しました。この会議で、ファーウェイのデータ通信製品ライン社長の王磊氏は、Galaxy AIネットワークソリューションを正式に発表した。同氏は、大規模モデルはAIをより賢くするが、大規模モデルのトレーニングコストは非常に高く、AI人材のコストも考慮する必要があると述べた。したがって、業界のインテリジェント化段階では、大規模なコンピューティングパワークラスターの構築とインテリジェントコンピューティングクラウドサービスの社会への提供に集中することによってのみ、人工知能を何千もの業界に真に浸透させることができます。ファーウェイは、新世代の Galaxy AI ネットワークソリューションをリリースしました。インテリジェント時代に直面して、超高スループット、長期安定性、信頼性、弾力性、高い同時実行性を備えた新しいネットワークインフラストラクチャを構築して、AI がすべての人に利益をもたらし、人々のインテリジェンスを加速できるようにします。業界。

この機会に、大規模モデルの台頭によってインテリジェントコンピューティングデータセンターにもたらされるネットワークの課題と、Huawei Galaxy AI Network がこれらの問題に対する最適なソリューションである理由について学びましょう。

AI 時代になると、モデル、データ、コンピューティングユニットはスターライトと見なすことができます。しかし、それらを効率的かつ安定的に接続することによってのみ、輝かしい知的世界が形成されます。

大規模モデルの爆発により、隠れたネットワークトレントが引き起こされました

AI モデルはトレーニングと推論デプロイの 2 つの段階に分かれていることがわかっています。事前トレーニングされた大規模モデルの台頭により、これら 2 つの段階で AI ネットワークの大きな課題も発生しています。

最初は、大規模モデルのトレーニング段階です。モデルの規模とデータパラメーターがますます大きくなるにつれて、大規模なモデルのトレーニングには、完了するまでにキロカロリー、さらには 10,000 キロワットのクラスターの計算が必要になり始めます。これは、大規模なモデルのトレーニングを AI コンピューティング能力を備えたデータセンターで実行する必要があることも意味します。

現段階では、インテリジェントコンピューティングデータセンターのコストは非常に高額です。業界データによると、100P のコンピューティング能力を持つクラスターを構築するコストは 4 億元に達します。有名な国際的な大規模モデルを例にとると、トレーニングプロセス中の 1 日の計算能力消費量は 700,000 米ドルに達します

データセンターネットワークの接続能力がスムーズでなく、ネットワーク伝送中に大量のコンピューティングリソースが失われると、データセンターと AI モデルへの損失は計り知れません。逆に、同じ計算能力スケールの下でクラスターのトレーニングがより効率的であれば、データセンターは大きなビジネスチャンスを得るでしょう。負荷率とその他のネットワーク要因は、AI モデルのトレーニング効率を直接決定します。一方で、AIコンピューティングパワークラスターの規模が拡大し続けるにつれ、それに伴い複雑さも増し、失敗する確率も増加しています。長期的に安定した信頼性の高いクラスターネットワークを構築することは、データセンターの入出力比を向上させるための重要な要点です

大型モデル時代の輸送力への答え、Galaxy AI Network

データセンターの外では、AI ネットワークの価値は、AI モデルの推論と展開シナリオにも見ることができます。大規模モデルの推論展開は主にクラウドサービスに依存しており、クラウドサービスプロバイダーは、大規模モデルの商業的価値を最大化するために、限られたコンピューティングリソースで大規模な顧客にサービスを提供するよう努める必要があります。その結果、ユーザーが増えれば増えるほど、クラウドネットワーク構造全体が複雑になります。クラウドコンピューティングサービスプロバイダーにとって、長期的かつ安定したネットワークサービスをどのように提供するかが新たな課題となっています。

さらに、AI 推論導入の最後のマイルでは、政府および企業ユーザーはネットワーク品質を向上させる必要性に直面しています。実際のシナリオでは、1% のリンクパケット損失により TCP パフォーマンスが 50 倍低下します。これは、100Mbps ブロードバンドの実際の容量が 2Mbps 未満であることを意味します。したがって、アプリケーションシナリオ自体のネットワーク機能を向上させることによってのみ、AI コンピューティングパワーのスムーズな流れを確保し、真に包括的な AI を実現することができます。

このことから、大規模な AI モデルの誕生、送信、適用の全プロセスにおいて、すべてのリンクがネットワークアップグレードの課題とニーズに直面していることがわかります。大型モデル時代の輸送力問題の解決が急務である。

インテリジェント時代におけるネットワークの画期的なアイデアは、星の光から銀河まで広がる可能性があります

大型モデルの台頭により、マルチリンク、フルプロセスのネットワークの問題が発生しました。したがって、この課題に対処するには体系的なアプローチを取る必要があります

ファーウェイは、インテリジェントコンピューティングクラウドサービスのための新しいネットワークインフラストラクチャを提案しました。この施設は、「高効率トレーニング」、「ノンストップコンピューティングパワー」、「包括的な AI サービス」の 3 つの機能をサポートする必要があります。これら 3 つの機能は、トレーニングから推論のデプロイまで、AI 大規模モデルのシナリオ全体をカバーします。ファーウェイは、単一のニーズを満たし、単一のテクノロジーをアップグレードすることに重点を置くだけでなく、AI ネットワークの反復を包括的に推進し、独自の画期的なアイデアを業界にもたらします

具体的には、AI 時代のネットワークインフラストラクチャには次の機能が必要です。

まず第一に、ネットワークはトレーニングシナリオで AI コンピューティングクラスターの価値を最大化する必要があります。

超大規模な接続能力を備えたネットワークを構築することで、大規模な AI モデルの学習を高効率で行うことができます。

第二に、AI タスクの安定性と持続可能性を確保するには、毎月のトレーニングが中断されないように、長期的で信頼性の高いネットワーク機能を構築する必要があります。安定した境界設定、位置決め、第 2 レベルでの回復が必要となるため、トレーニングの中断は可能な限り最小限に抑えます。これは、コンピューティング能力のノンストップの能力構築です。

第三に、AI 推論の展開プロセス中、ネットワークは、大規模なユーザーフローをインテリジェントに調整し、最高の AI 着陸エクスペリエンスを提供できる、弾力性と高い同時実行性の特性を備えている必要があります。同時に、ネットワーク劣化の影響に耐え、異なる AI コンピューティング能力が地域間でスムーズに流れるようにすることができ、これにより「包括的な AI サービス」の能力構築も実現します。

ファーウェイは、この革新的なアイデアを貫き、ついに Galaxy AI ネットワークソリューションを発売しました。このソリューションは、分散型 AI テクノロジーを統合し、強力なコンピューティング機能を通じて銀河のようなネットワークを形成します。 Galaxy AI Network は、ビッグモデル時代に対する容量の答えを提供します

Huawei Full Connection Conference 2023の開催中、ファーウェイは、大規模なコンピューティング能力、大規模なストレージ容量、大規模な輸送能力を備えた大規模なAIモデルの作成を加速するという開発ビジョンを共有しました。ファーウェイの新世代Galaxy AIネットワークソリューションは、インテリジェンス時代の大規模輸送容量に対するファーウェイのソリューションと言える。

インテリジェントなデータセンターにとって、Huawei Galaxy AI Networkはネットワーク能力に基づく最適なソリューションです。

その超高スループットのネットワーク特性は、インテリジェントコンピューティングセンターの AI クラスターに重要な価値を提供し、ネットワーク負荷率を改善し、トレーニング効率を向上させることができます。具体的には、Galaxy AI ネットワークインテリジェントコンピューティングスイッチは、業界最高密度の 400GE および 800GE ポート機能を備えており、レイヤー 2 スイッチングネットワークだけが 18,000 枚のカードからなるコンバージェンスフリーのクラスターネットワークを実現できるため、1 兆を超えるパラメーターを持つ大規模モデルのトレーニングをサポートできます。ネットワークレベルが低下すると、データセンターは光モジュールのコストを大幅に節約できると同時に、ネットワークリスクの予測可能性が向上し、より安定した大規模モデルのトレーニング機能が得られることになります。

Galaxy AI ネットワークはネットワークレベルの負荷分散 NSLB をサポートでき、負荷率が 50% から 98% に増加します。これは AI クラスターのオーバークロック動作を実現するのと同等であり、それによってトレーニング効率が 20% 向上します。効率的なトレーニングの期待に応えます大型モデル時代の輸送力への答え、Galaxy AI Network

クラウドサービスメーカーにとって、Galaxy AI Network は安定した信頼性の高いコンピューティング能力の保証を提供できます。

大型モデル時代の輸送力への答え、Galaxy AI Network

DCI コンピューティングルームの相互接続シナリオでは、このテクノロジはマルチパスインテリジェントスケジューリングなどの機能を提供し、ピークビジネストラフィックの影響を自動的に識別して積極的に適応できます。数百万のデータフローから大小のフローを識別し、それらを 100,000 のパスに合理的に割り当てることで、ネットワークの輻輳ゼロを実現し、同時実行性の高いインテリジェントコンピューティングクラウドサービスに柔軟な保証を提供できます。

政府および企業ユーザーの場合、Galaxy AI Network はネットワーク低下の問題に対処し、普遍的な AI コンピューティング能力を確保できます。

DCA 計算シナリオで柔軟な劣化防止機能をサポートでき、Fillp テクノロジーを使用して TCP プロトコルを最適化し、パケット損失率 1% の条件下で帯域幅負荷率を 10% から 60% に向上させることができます。大都市圏からのデータの確保遠隔地へのコンピューティング能力のスムーズな流れにより、AI サービスの包括的な適用が加速されます。

このようにして、トレーニングからデプロイメントまで、大規模モデルのあらゆる側面のネットワーク要件が解決されます。インテリジェントコンピューティングセンターから何千もの産業に至るまで、それらはすべてネットワークベースのコンピューティングの開発の中心となっています。知性の時代、大型模型が切り拓く新たな科学技術の時代が始まったばかりです。 Galaxy AI Network はインテリジェント時代の輸送能力に対する答えを提供します

以上が大型モデル時代の輸送力への答え、Galaxy AI Networkの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。