長年の開発を経て、OpenAI によって発売された DALL-E および GPT-3 生成 AI システムは世界中で人気を博し、現在、その驚くべき応用可能性が強調されています。ただし、生成 AI の爆発的な増加には問題があります。DALL-E が画像を作成するたび、または GPT-3 が次の単語を予測するたびに、複数の推論計算が必要となるため、多くのリソースが消費され、より多くの電力が消費されます。現在の GPU および CPU アーキテクチャは、差し迫ったコンピューティング需要を満たすために効率的に動作することができず、ハイパースケール データセンター オペレーターにとって大きな課題となっています。
研究機関は、データセンターが世界最大のエネルギー消費者となり、2017 年の総電力消費量の 3% を占め、2025 年には 4.5% に上昇すると予測しています。中国を例に挙げると、全国で稼働するデータセンターの電力消費量は2030年に4,000億kWhを超えると予想されており、同国の総電力消費量の4%を占める。
クラウド コンピューティング プロバイダーも、自社のデータ センターが大量の電力を使用していることを認識しており、再生可能エネルギーと自然冷却条件を利用するために北極にデータ センターを構築および運営するなど、効率を向上させるための措置を講じています。しかし、これでは AI アプリケーションの爆発的な成長に対応するには十分ではありません。
米国のローレンス バークレー国立研究所は、過去 20 年間、データセンターの効率向上によりエネルギー消費量の増加が抑制されてきたことを研究で発見しましたが、現在のエネルギー効率対策ではエネルギー消費量の増加を抑制するのに十分ではない可能性があることを研究で示しています。将来のデータセンターのニーズを満たすには、より良いアプローチが必要です。
データ送信は致命的なボトルネックです
効率性の根源は、特に AI 推論モデルやトレーニング モデルを実行する場合の GPU と CPU の動作方法にあります。多くの人は、「ムーアの法則の超越」と、より大きなチップ サイズにより多くのトランジスタを搭載することの物理的制限を理解しています。より高度なチップはこれらの課題の解決に役立ちますが、現在のソリューションには AI 推論に重大な弱点があります。それは、ランダム アクセス メモリ内でのデータ転送速度が大幅に低下することです。
従来、プロセッサとメモリ チップを分離する方がコストが安く、長年にわたってプロセッサのクロック速度がコンピュータのパフォーマンスの重要な制限要因となってきました。現在、進歩を妨げているのはチップ間の相互接続です。
米国標準技術研究所 (NIST) の研究者、ジェフ シェインライン氏は次のように説明しました。「メモリとプロセッサが分離されている場合、2 つのドメインを接続する通信リンクがシステムの主なボトルネックになります。」米国のオークリッジ国立研究所の研究者であるジャック・ドンガラ氏は、「今日のコンピューターのパフォーマンスを観察すると、データ送信が致命的なボトルネックであることがわかります。」と簡潔に述べています。推論と AI トレーニング
AI システムは、AI モデルを使用して予測を行う場合と比較して、AI モデルをトレーニングする場合に異なる種類の計算を使用します。 AI トレーニングでは、数万の画像またはテキスト サンプルを参照として Transformer ベースのモデルにロードし、処理を開始します。 GPU 内の数千のコアは、画像やビデオなどの大規模で豊富なデータ セットを非常に効率的に処理します。より迅速に結果が必要な場合は、より多くのクラウドベースの GPU をレンタルできます。
AI 推論では計算に必要なエネルギーは少なくなりますが、数億人のユーザーによる自動補完では、次の単語を決定するために多くの計算と予測が必要になります。なんと、これは長時間のトレーニングよりもエネルギーを消費します。
たとえば、Facebook の AI システムは、データセンターで毎日数兆件の推論を観察していますが、その数は過去 3 年間で 2 倍以上に増加しています。研究によると、大規模言語モデル (LLM) で言語翻訳推論を実行すると、最初のトレーニングよりも 2 ~ 3 倍のエネルギーを消費することがわかりました。需要の急増によるコンピューティング効率のテスト
ChatGPT は昨年末に世界中で普及しましたが、GPT-4 はさらに優れています。よりエネルギー効率の高い方法を採用できれば、AI 推論をより広範囲のデバイスに拡張でき、新しいコンピューティング方法を生み出すことができます。
たとえば、Microsoft のハイブリッド ループは、クラウド コンピューティングとエッジ デバイスを動的に活用する AI エクスペリエンスを構築するように設計されています。これにより、開発者は、Azure クラウド プラットフォーム、ローカル クライアント コンピューター、効率を最大化するために決定をバインドします。 Facebook は、ユーザーが実行時に推論を計算する場所を効率的に決定できるように AutoScale を導入しました。 効率を向上させるためには、AIの開発を妨げる障害を克服し、効果的な方法を見つける必要があります。 サンプリングとパイプライン処理により、処理されるデータ量が削減され、ディープ ラーニングを高速化できます。 SALIENT (サンプリング、スライス、およびデータ移動) は、重大なボトルネックに対処するために MIT と IBM の研究者によって開発された新しいアプローチです。このアプローチにより、1 億のノードと 10 億のエッジを含む大規模なデータセットでニューラル ネットワークを実行する必要性が大幅に軽減されます。しかし、これは精度と精度にも影響します。これは、次に表示するソーシャル投稿を選択する場合には許容されますが、作業現場の危険な状態をほぼリアルタイムで特定しようとする場合には許容できません。Apple、Nvidia、Intel、AMD などのテクノロジー企業は、専用 AI エンジンをプロセッサに統合することを発表しており、AWS は新しい Inferentia 2 プロセッサを開発しています。しかし、これらのソリューションでは依然として従来のノイマン型プロセッサ アーキテクチャ、統合 SRAM および外部 DRAM メモリが使用されており、これらはすべてメモリの内外にデータを移動するためにより多くの電力を必要とします。
インメモリ コンピューティングが解決策の可能性
さらに、研究者らは、コンピューティングをメモリに近づけるという、「メモリの壁」を打ち破る別の方法を発見しました。
メモリ ウォールとは、メモリに出入りするデータの速度を制限する物理的な障壁を指します。これは、従来のアーキテクチャの基本的な制限です。インメモリ コンピューティング (IMC) は、AI 行列計算をメモリ モジュール内で直接実行することでこの課題を解決し、メモリ バス経由でデータを送信するオーバーヘッドを回避します。
IMC は、繰り返しアクセスできる比較的静的ではあるが重み付けされた大規模なデータ セットを必要とするため、AI 推論に適しています。常に何らかのデータの入出力が発生しますが、AI はデータを同じ物理単位に保持することで、エネルギー転送コストとデータ移動の遅延の多くを排除し、複数の計算で効率的に使用および再利用できるようにします。
このアプローチはチップ設計とうまく連携するため、スケーラビリティが向上します。新しいチップを使用すると、AI推論テクノロジーを開発者のコンピューターでテストし、データセンターを通じて本番環境に導入できるようになります。データセンターは、多くのチッププロセッサを搭載した大規模な機器群を使用して、エンタープライズレベルの AI モデルを効率的に実行できます。
時間が経つにつれて、IMC は AI 推論のユースケースの主要なアーキテクチャになると予想されます。ユーザーが大規模なデータセットや何兆もの計算を扱う場合、これは完全に理にかなっています。なぜなら、メモリ ウォール間のデータ転送にリソースが無駄になることがなくなり、このアプローチは長期的なニーズに合わせて簡単に拡張できるからです。
要約:
AI 業界は現在、刺激的な転換点にあります。生成 AI、画像認識、データ分析における技術の進歩により、機械学習の独自の接続と用途が明らかになりつつありますが、まずこのニーズを満たすテクノロジー ソリューションを構築する必要があります。なぜなら、ガートナーの予測によれば、より持続可能な選択肢が今利用できない限り、2025 年までに AI は人間の活動よりも多くのエネルギーを消費することになるからです。そうなる前に、より良い方法を考え出す必要があります。
以上がChatGPT ブームにおける冷めた考え: 2025 年の AI のエネルギー消費量は人間のエネルギー消費量を超える可能性があり、AI コンピューティングは品質と効率を向上させる必要があるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。