大規模な AI モデルの台頭により、国内 GPU の計算能力が試される-AI-php.cn

ChatGPTが普及して以来、大型AIモデルの研究開発が次々と登場し、さまざまな種類の大型AIモデルも次々と発売されており、中国では数百のモデルによる熱狂的な戦争が起こっています。

革命的なデータモデルとして、ChatGPT はコンテンツ制作方法に驚きをもたらすだけでなく、業界が一般的な人工知能の希望を認識できるようになり、大規模な AI モデルと新しいアプリケーションの継続的な出現を促進します。専門家によると、将来の人工知能研究の焦点は主に大型モデルに移り、大型モデルの時代が到来しつつあります。

AI大模型兴起考验国产GPU算力成色

従来の人工知能の幅広い応用は、コンピューティング能力、データ、アルゴリズムの 3 つの要素で構成されています。しかし、汎用人工知能 (AGI) の時代の到来により、より高い予測精度と一般化機能を実現するために大量のデータに対して多くのトレーニングと最適化が必要になり、コンピューティング能力に対する需要はもはや同じではなくなりました。

大規模モデルが本格化する一方で、コンピューティング電力の供給と需要の間の大きな「ギャップ」は依然として拡大しており、コンピューティング電力の「不安」をどのように解決するかが業界の新たな目標となっています。

コンピューティング能力には大きな差があります

Transformer 構造に基づく大規模なモデルの継続的な最適化には、ますます多くのパラメータを「供給」する必要があり、トレーニングパラメータの規模が増加するにつれて、計算能力の需要も増加し、計算能力クラスタはますます複雑になっています。髪の毛が大きいです。

ChatGPT を例に挙げると、ChatGPT をトレーニングするために、OpenAI は約 30,000 枚の NVIDIA V100 グラフィックスカードで構成される巨大なコンピューティング能力クラスターを構築しました。半精度 FP16 で計算すると、これは 4000P 近くの計算能力クラスターになります。

報告によると、GPT-4のパラメータスケールは1000億レベルに達し、それに対応する計算能力要件も大幅に増加しています。データは、大規模なモデルパラメーターの数が計算能力の 2 乗に比例して増加することを示しています。

大規模な AI モデルに専念する企業が急増し、大規模なモデルを取り巻く人工知能エコシステムと、その結果として生じる推論のためのコンピューティング能力の需要と相まって、将来のコンピューティング能力のギャップはさらに憂慮すべきものとなるでしょう。

当然のことですが、コンピューティングパワーが十分であるかどうかが、各社の大型モデル製品の成否を左右します。 Tianshu Zhixin Product Line 社長の Zou Yi 氏は、大手企業の場合、初期の GPT の大規模モデルには約 10,000 個の NVIDIA GPU が必要ですが、反復的な大規模モデルの完成には少なくとも数千の最先端の GPU が必要になる可能性があると考えています。この分野に多くの追随者が出現しているため、後続の企業はコンピューティング能力の点で大手企業に負けてはならず、追いつくためにはコンピューティング能力インフラストラクチャにさらに投資する必要さえあります。

Biren Technology のシステムアーキテクチャ担当副社長である Ding Yunfan 氏は、人工知能業界の盛大な集まりである北京 Zhiyuan Conference で「高性能汎用 GPU に基づく国内大規模モデルトレーニングシステムの構築」について講演しました。彼は、ChatGPT の成功要因はエンジニアリングとアルゴリズムの共同革新にあると指摘しました。データは燃料と基盤の両方であり、特に高品質のデータは、大規模なだけでなく、エンジンの役割も果たします。 GPU クラスターだけでなく、ストレージクラスターやネットワーククラスターも含まれます。

禁止により、国内市場での主な需要はNVIDIAが中国市場向けに発売したA800とH800です。需要が拡大し続けるにつれて、NVIDIA A800の価格は驚くほど上昇し、納期も長期化しています。一部の新規注文は 12 月まで納品されない可能性があります。」

幸いなことに、多くの国内企業が汎用 GPU の分野で先導しており、画期的な AIGC 産業の台頭により、チップの量産、エコロジー構築、アプリケーション拡張の分野でも進歩しています。マーケットスペースも登場しました。

コンピューティング能力とハードウェアとソフトウェアが必要です

私たちは前例のない新たなビジネスチャンスに直面していますが、大規模な AI モデルの台頭という機会を捉え、大規模なモデルを真にボトムアップでサポートするコンピューティング能力の要件を理解する必要があります。

これに関して、Zou Yi 氏は、モデル、コンピューティングフレームワーク層、オペレーターの高速化から始まり、コンピューティング能力は 3 つの主要な要素を満たす必要があると述べました。まず、それは普遍的であり、モデルの急速な変形、新しいオペレーターの迅速なサポートをサポートできます。 2 つ目は、既存のアルゴリズムモジュールを使用して実装でき、チューニングの経験を参考にできるため、使いやすさです。3 つ目は、並列コンピューティングを再構築し、メモリアクセスを完全に交換できるため、使いやすさです。、コンピューティングを完全に相互接続します。

これら 3 つの主要な要素を実現するには、実際には、その背後にさらに本質的なロジックがあります。 Kunlun Core R&D ディレクターの Luo Hang 氏が率直に述べたように、国内のコンピューティングパワーの産業化は 3 つの狭き門を通過する必要があります。1 つは、初期のテープアウトへの巨額投資を大幅に薄めることができる大量生産であり、大量生産を通じてコストを薄めることが唯一の方法です。収益性を達成することは、チップの成熟度を測る指標の 1 つです。2 つ目は、顧客がより適切にアプリケーションを開発できるようにするために、合理的で適切なソフトウェアエコシステムの構築に努める必要があります。ソフトウェアとハードウェアを製品に統合し、製品価値の提供を達成するには、垂直産業と組み合わせる必要があります。

さらに、トレーニングパラメーターの大規模な拡張をさらにサポートするために、GPU メーカーは数千から数万の GPU カードトレーニングクラスターを構築する能力を備えている必要があるだけでなく、それらがトレーニング中に障害なく継続的に動作できることを保証する必要があります。トレーニングプロセスは、製品の安定性と信頼性に悪影響を及ぼし、非常に厳しい要件を生み出します。同時に、コンピューティング能力の弾力的なスケーラビリティを実現するために、スケーラブルで弾力的な機能もサポートする必要があります。

Ding Yunfan 氏の要約によると、数千億のパラメータを含む大規模なモデルをトレーニングする場合、顧客は保存性とスケーラビリティを最も懸念します。これに加えて、顧客は使いやすく、高速でコスト効率の高いモデルも求めています。

大型モデルの開発を完全にサポートするために、Cambrian、Kunlun Core、Suiyuan、Biren、Tianshu Zhixin、Muxi、Moore Thread などの国内メーカーも、基礎的な技術サポートに関して多くの取り組みを行っていることは言及する価値があります。宿題として、データの再利用、スケーラブルな大規模行列計算、非同期ストレージと計算、および混合精度の Transformer アクセラレーションを最大限に活用することで、チップのパフォーマンスを向上させます。同時に、当社は基本ソフトウェアの機能の向上を続けています。

「GPU のコンピューティング能力、コストなどに焦点を当てることに加えて、Biren は多次元の側面でも強力なサポートを提供します。まず、クラスターの規模をオンデマンドで拡張でき、複数のデータプレーンが並行して通信して競合を減らすことができます。第 2 に、複数のマシンにアクセスできます。学習フレームワークは、データ並列次元で柔軟なスケジューリングを実行し、自動フォールトトレランスと拡張と縮小をサポートし、トレーニングを大幅に高速化して効率を向上させ、スイッチ間のタスク移行をサポートして、単一スイッチでのリソースの断片化を削減します。、リソースの使用率を向上させ、タスクの安定性を確保します」と Ding Yunfan 氏は述べています。

エコロジーは未来への鍵です

より深いレベルで見ると、国内の大規模モデルのトレーニングは大規模なコンピューティング能力の GPU のサポートと切り離すことができず、フルスタックをカバーするソフトウェアとハードウェアを統合する成熟した産業エコシステムの構築も必要です。

大規模な AI モデルのトレーニングは、包括的なアップグレードをテストする体系的なプロジェクトとみなすことができます。 Ding Yunfan 氏は、このプロジェクトには、高性能コンピューティングクラスター、機械学習プラットフォーム、アクセラレーションライブラリ、トレーニングフレームワーク、推論エンジンが含まれており、効率的な相互接続をサポートし、トレーニングフレームワークと統合するために、CPU、ストレージ、通信を含む分散型ハードウェアが必要であると述べています。このプロセスは、並行拡張、安定性、信頼性を達成しながら、包括的なコラボレーションを実現します。

この需要があるからこそ、国内の GPU は、コンピューティング能力の基盤に限定されない観点から大規模モデルのトレーニングシステムに適応する必要があり、業界パートナーにワンストップで大規模モデルのコンピューティング能力と有効なサービスを提供する方法が重要です。したがって、エコロジカルな構造も重要です。

この需要に関して、一部の国内 GPU メーカーはすでに主導権を握っており、大規模なコンピューティングパワーチップ、インテリジェントなスケジューリングと数千のプロセッサーの管理に基づく高性能インフラストラクチャを含む、ソフトウェアとハードウェアを統合するフルスタックの大型モデルソリューションの作成に取り組んでいます。 GPU カード当社は、機械学習プラットフォーム、高性能オペレーターライブラリ、通信ライブラリ、および主流の大規模モデルと互換性があり適応可能なトレーニングフレームワークに引き続き取り組んでいます。

コンピューティングパワーと大型モデルアプリケーションの共同イノベーションを共同で推進するために、GPUメーカーと国内大型モデルの産業エコシステムも協力のペースを加速させている。

Biren Technologyは、Zhiyuan Research InstituteのFlagOpen (Feizhi)大型モデル技術オープンソースシステムとZhiyuan Research Instituteの「AI Open Ecological Laboratory」プロジェクトに相次いで参加し、AI大型モデルソフトウェアとAIの分野でプロジェクトを実行したと報告されています。ハードウェアエコロジー構造のコラボレーション。双方が参加した科学技術省の科学技術イノベーション2030「新世代人工知能」主要プロジェクト「人工知能基礎モデル支援プラットフォームと評価技術」が重要な進展を遂げた。

さらに、Biren Technologyは「Fei Paddle AI Studio Hardware Ecological Zone」の構築と共同リリースにも参加し、Baidu Fei Paddleを含む多くの環境パートナーと緊密に連携し、中国のAIフレームワークとAIコンピューティング能力の利点を組み合わせたいと考えています。、中国のAI産業の発展に強力な原動力を提供します。

レポートによると、Tianshu Zhixin の汎用 GPU 製品は、DeepSpeed、Colossal、BM Train などのさまざまな大規模モデルフレームワークを幅広くサポートしており、それらに基づくコンピューティングパワークラスターソリューションは、LLaMa、GPT-2 などの主流の AIGC 大規模モデルも効果的にサポートしています。 Pretrain と Finetune は、清華大学、知源大学、復丹大学など、多くの国内研究機関のオープンソースプロジェクトにも適応しています。

将来に目を向けると、大規模な AI モデルの需要は増加し続けるでしょう。国内の GPU メーカーがどのように製品を反復し、コンピューティングパワーソリューションをアップグレードし、より効率的で複雑なアルゴリズムをサポートする大規模なモデルに適応し続けるかは、今後も継続的な試練となるでしょう。

【出典：Jiwei.com】

以上が大規模な AI モデルの台頭により、国内 GPU の計算能力が試されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。