大規模な AI 事前トレーニング モデルの価値が高まり続けるにつれて、モデルの規模はますます大きくなっています。産業界と学界は、AI 時代にはコンピューティング能力が生産性を左右するというコンセンサスに達しました。
この理解は正しいですが、包括的なものではありません。デジタルシステムにはストレージ、コンピューティング、ネットワークという3つの柱がありますが、AI技術も同様です。ストレージとネットワークのコンピューティング能力を脇に置くと、大規模モデルは単独でしか機能しません。特に、大規模モデルに適応したネットワーク インフラストラクチャは有効な注目を集めていません。
「トレーニング用に数万枚のカード」、「数万マイルの展開」、「数兆のパラメータ」を頻繁に必要とする大規模な AI モデルに直面すると、ネットワーク トランスポート キャパシティは無視できない関係になります。インテリジェント システム全体。直面している課題は非常に顕著であり、状況を打破できる答えを待っています。
王磊、ファーウェイデータ通信製品ライン社長
9月20日、Huawei Connect Conference 2023内で「Galaxy AI Network、加速する業界インテリジェンス」をテーマにしたデータ通信サミットが開催されました。あらゆる分野の代表者が、AI ネットワーク技術の変革と発展の傾向について議論しました。この会議で、ファーウェイのデータ通信製品ライン社長の王磊氏は、Galaxy AIネットワークソリューションを正式に発表した。同氏は、大規模モデルはAIをより賢くするが、大規模モデルのトレーニングコストは非常に高く、AI人材のコストも考慮する必要があると述べた。したがって、業界のインテリジェント化段階では、大規模なコンピューティングパワークラスターの構築とインテリジェントコンピューティングクラウドサービスの社会への提供に集中することによってのみ、人工知能を何千もの業界に真に浸透させることができます。ファーウェイは、新世代の Galaxy AI ネットワーク ソリューションをリリースしました。インテリジェント時代に直面して、超高スループット、長期安定性、信頼性、弾力性、高い同時実行性を備えた新しいネットワーク インフラストラクチャを構築して、AI がすべての人に利益をもたらし、人々のインテリジェンスを加速できるようにします。業界。
この機会に、大規模モデルの台頭によってインテリジェント コンピューティング データセンターにもたらされるネットワークの課題と、Huawei Galaxy AI Network がこれらの問題に対する最適なソリューションである理由について学びましょう。
AI 時代になると、モデル、データ、コンピューティング ユニットはスターライトと見なすことができます。しかし、それらを効率的かつ安定的に接続することによってのみ、輝かしい知的世界が形成されます。
大規模モデルの爆発により、隠れたネットワーク トレントが引き起こされました
AI モデルはトレーニングと推論デプロイの 2 つの段階に分かれていることがわかっています。事前トレーニングされた大規模モデルの台頭により、これら 2 つの段階で AI ネットワークの大きな課題も発生しています。最初は、大規模モデルのトレーニング段階です。モデルの規模とデータ パラメーターがますます大きくなるにつれて、大規模なモデルのトレーニングには、完了するまでにキロカロリー、さらには 10,000 キロワットのクラスターの計算が必要になり始めます。これは、大規模なモデルのトレーニングを AI コンピューティング能力を備えたデータセンターで実行する必要があることも意味します。
現段階では、インテリジェント コンピューティング データセンターのコストは非常に高額です。業界データによると、100P のコンピューティング能力を持つクラスターを構築するコストは 4 億元に達します。有名な国際的な大規模モデルを例にとると、トレーニング プロセス中の 1 日の計算能力消費量は 700,000 米ドルに達します
データセンター ネットワークの接続能力がスムーズでなく、ネットワーク伝送中に大量のコンピューティング リソースが失われると、データセンターと AI モデルへの損失は計り知れません。逆に、同じ計算能力スケールの下でクラスターのトレーニングがより効率的であれば、データセンターは大きなビジネスチャンスを得るでしょう。負荷率とその他のネットワーク要因は、AI モデルのトレーニング効率を直接決定します。一方で、AIコンピューティングパワークラスターの規模が拡大し続けるにつれ、それに伴い複雑さも増し、失敗する確率も増加しています。長期的に安定した信頼性の高いクラスター ネットワークを構築することは、データセンターの入出力比を向上させるための重要な要点です
さらに、AI 推論導入の最後のマイルでは、政府および企業ユーザーはネットワーク品質を向上させる必要性に直面しています。実際のシナリオでは、1% のリンク パケット損失により TCP パフォーマンスが 50 倍低下します。これは、100Mbps ブロードバンドの実際の容量が 2Mbps 未満であることを意味します。したがって、アプリケーション シナリオ自体のネットワーク機能を向上させることによってのみ、AI コンピューティング パワーのスムーズな流れを確保し、真に包括的な AI を実現することができます。
このことから、大規模な AI モデルの誕生、送信、適用の全プロセスにおいて、すべてのリンクがネットワーク アップグレードの課題とニーズに直面していることがわかります。大型モデル時代の輸送力問題の解決が急務である。
インテリジェント時代におけるネットワークの画期的なアイデアは、星の光から銀河まで広がる可能性があります
大型モデルの台頭により、マルチリンク、フルプロセスのネットワークの問題が発生しました。したがって、この課題に対処するには体系的なアプローチを取る必要があります
ファーウェイは、インテリジェント コンピューティング クラウド サービスのための新しいネットワーク インフラストラクチャを提案しました。この施設は、「高効率トレーニング」、「ノンストップ コンピューティング パワー」、「包括的な AI サービス」の 3 つの機能をサポートする必要があります。これら 3 つの機能は、トレーニングから推論のデプロイまで、AI 大規模モデルのシナリオ全体をカバーします。ファーウェイは、単一のニーズを満たし、単一のテクノロジーをアップグレードすることに重点を置くだけでなく、AI ネットワークの反復を包括的に推進し、独自の画期的なアイデアを業界にもたらします
具体的には、AI 時代のネットワーク インフラストラクチャには次の機能が必要です。
まず第一に、ネットワークはトレーニング シナリオで AI コンピューティング クラスターの価値を最大化する必要があります。超大規模な接続能力を備えたネットワークを構築することで、大規模な AI モデルの学習を高効率で行うことができます。
第二に、AI タスクの安定性と持続可能性を確保するには、毎月のトレーニングが中断されないように、長期的で信頼性の高いネットワーク機能を構築する必要があります。安定した境界設定、位置決め、第 2 レベルでの回復が必要となるため、トレーニングの中断は可能な限り最小限に抑えます。これは、コンピューティング能力のノンストップの能力構築です。第三に、AI 推論の展開プロセス中、ネットワークは、大規模なユーザー フローをインテリジェントに調整し、最高の AI 着陸エクスペリエンスを提供できる、弾力性と高い同時実行性の特性を備えている必要があります。同時に、ネットワーク劣化の影響に耐え、異なる AI コンピューティング能力が地域間でスムーズに流れるようにすることができ、これにより「包括的な AI サービス」の能力構築も実現します。
ファーウェイは、この革新的なアイデアを貫き、ついに Galaxy AI ネットワーク ソリューションを発売しました。このソリューションは、分散型 AI テクノロジーを統合し、強力なコンピューティング機能を通じて銀河のようなネットワークを形成します。 Galaxy AI Network は、ビッグモデル時代に対する容量の答えを提供します
Huawei Full Connection Conference 2023の開催中、ファーウェイは、大規模なコンピューティング能力、大規模なストレージ容量、大規模な輸送能力を備えた大規模なAIモデルの作成を加速するという開発ビジョンを共有しました。ファーウェイの新世代Galaxy AIネットワークソリューションは、インテリジェンス時代の大規模輸送容量に対するファーウェイのソリューションと言える。
インテリジェントなデータセンターにとって、Huawei Galaxy AI Networkはネットワーク能力に基づく最適なソリューションです。
その超高スループットのネットワーク特性は、インテリジェント コンピューティング センターの AI クラスターに重要な価値を提供し、ネットワーク負荷率を改善し、トレーニング効率を向上させることができます。具体的には、Galaxy AI ネットワーク インテリジェント コンピューティング スイッチは、業界最高密度の 400GE および 800GE ポート機能を備えており、レイヤー 2 スイッチング ネットワークだけが 18,000 枚のカードからなるコンバージェンスフリーのクラスター ネットワークを実現できるため、1 兆を超えるパラメーターを持つ大規模モデルのトレーニングをサポートできます。ネットワーク レベルが低下すると、データ センターは光モジュールのコストを大幅に節約できると同時に、ネットワーク リスクの予測可能性が向上し、より安定した大規模モデルのトレーニング機能が得られることになります。
Galaxy AI ネットワークはネットワーク レベルの負荷分散 NSLB をサポートでき、負荷率が 50% から 98% に増加します。これは AI クラスターのオーバークロック動作を実現するのと同等であり、それによってトレーニング効率が 20% 向上します。効率的なトレーニングの期待に応えます
クラウド サービス メーカーにとって、Galaxy AI Network は安定した信頼性の高いコンピューティング能力の保証を提供できます。
政府および企業ユーザーの場合、Galaxy AI Network はネットワーク低下の問題に対処し、普遍的な AI コンピューティング能力を確保できます。
DCA 計算シナリオで柔軟な劣化防止機能をサポートでき、Fillp テクノロジーを使用して TCP プロトコルを最適化し、パケット損失率 1% の条件下で帯域幅負荷率を 10% から 60% に向上させることができます。大都市圏からのデータの確保 遠隔地へのコンピューティング能力のスムーズな流れにより、AI サービスの包括的な適用が加速されます。
このようにして、トレーニングからデプロイメントまで、大規模モデルのあらゆる側面のネットワーク要件が解決されます。インテリジェント コンピューティング センターから何千もの産業に至るまで、それらはすべてネットワーク ベースのコンピューティングの開発の中心となっています。 知性の時代、大型模型が切り拓く新たな科学技術の時代が始まったばかりです。 Galaxy AI Network はインテリジェント時代の輸送能力に対する答えを提供します
以上が大型モデル時代の輸送力への答え、Galaxy AI Networkの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。