NetEase のトランスベース モデル用のオープンソース推論アクセラレーション フレームワークは、ミッドエンドからローエンドの Ampere アーキテクチャ上で数百億のモデルのシングル カードの高性能推論をサポートします。
変圧器ベースの大規模モデルは、多くの分野のさまざまなタスクで効果的であることが証明されています。ただし、これを工業生産に適用するには、推論コストを削減するために多大な努力が必要です。このギャップを埋めるために、スケーラブルな推論ソリューションである Easy and Efficient Transformer (EET) を提案します。 EET は、アルゴリズムおよび実装レベルでの一連の Transformer 推論の最適化を含むシステムです。 Transformer の計算とデータ プロセスを最適化することで、EET は推論のコストを大幅に削減し、モデルの効率とパフォーマンスを向上させることができます。私たちの実験結果は、EET がモデルの精度を損なうことなく推論速度とリソース使用率を大幅に向上させ、工業生産における大規模モデルのアプリケーションにシンプルで効果的なソリューションを提供できることを示しています。
まず、長い入力と大きな隠れサイズに対応する高度に最適化されたカーネルを設計します。
さらに、大規模なモデルをデプロイするときにメモリ フットプリントを削減するために、柔軟な CUDA メモリ マネージャーも提案します。最先端の Transformer 推論ライブラリ (Faster Transformer v4.0) と比較して、EET は A100 GPU 上で平均 1.40 ~ 4.20 倍のデコード レイヤー アクセラレーションを達成できます。
https://arxiv.org/abs/2104.12470
https://github.com/NetEase-FuXi /EET###
以上がEasy and Efficient Transformer (NetEase の超大型モデル オンライン推論エンジン)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。