Easy and Efficient Transformer (NetEase の超大型モデルオンライン推論エンジン)-AI-php.cn

Easy and Efficient Transformer (NetEase の超大型モデルオンライン推論エンジン)

王林

リリース： 2024-01-24 10:45:05

転載

438 人が閲覧しました

Easy and Efficient Transformer（网易超大模型线上推理引擎）

NetEase のトランスベースモデル用のオープンソース推論アクセラレーションフレームワークは、ミッドエンドからローエンドの Ampere アーキテクチャ上で数百億のモデルのシングルカードの高性能推論をサポートします。

プロジェクトの背景

変圧器ベースの大規模モデルは、多くの分野のさまざまなタスクで効果的であることが証明されています。ただし、これを工業生産に適用するには、推論コストを削減するために多大な努力が必要です。このギャップを埋めるために、スケーラブルな推論ソリューションである Easy and Efficient Transformer (EET) を提案します。 EET は、アルゴリズムおよび実装レベルでの一連の Transformer 推論の最適化を含むシステムです。 Transformer の計算とデータプロセスを最適化することで、EET は推論のコストを大幅に削減し、モデルの効率とパフォーマンスを向上させることができます。私たちの実験結果は、EET がモデルの精度を損なうことなく推論速度とリソース使用率を大幅に向上させ、工業生産における大規模モデルのアプリケーションにシンプルで効果的なソリューションを提供できることを示しています。

まず、長い入力と大きな隠れサイズに対応する高度に最適化されたカーネルを設計します。

さらに、大規模なモデルをデプロイするときにメモリフットプリントを削減するために、柔軟な CUDA メモリマネージャーも提案します。最先端の Transformer 推論ライブラリ (Faster Transformer v4.0) と比較して、EET は A100 GPU 上で平均 1.40 ～ 4.20 倍のデコードレイヤーアクセラレーションを達成できます。