アテンションフリーの大型モデル Eagle7B: RWKV に基づいて、推論コストが 10 ~ 100 分の 1 に削減

WBOY
リリース: 2024-02-01 14:39:46
転載
1053 人が閲覧しました

アテンションフリーな大型モデル Eagle7B: RWKV をベースに推論コストを 10 ~ 100 分の 1 に削減

AI トラックでは、最近小型モデルが大きな注目を集めています。数千億のパラメータを持つモデルと比較すると、Model.たとえば、フランスの AI スタートアップ企業がリリースした Mistral-7B モデルは、すべてのベンチマークで Llama 2 を 13B 上回り、コード、数学、推論では Llama 1 を 34B 上回りました。

大規模モデルと比較して、小規模モデルには、低いコンピューティング能力要件やデバイス側で実行できる機能など、多くの利点があります。

#最近、オープン ソースの非営利団体 RWKV から、7.52B パラメーター Eagle 7B という新しい言語モデルが登場しました。これには次の特徴があります。

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍


  • 推論コストが低い RWKV-v5 アーキテクチャに基づいて構築されています (RWKV は線形変換器であり、推論が削減されます)コストは 10 ~ 100 倍);
  • は 100 を超える言語と 1 兆 1,000 億のトークンでトレーニングされています;
  • は複数の言語でトレーニングされています-言語ベンチマーク テストでは、すべての 7B クラス モデルより優れています;
  • 英語評価では、Eagle 7B のパフォーマンスは Falcon (1.5T)、LLaMA2 (2T) に近い)、ミストラル;
  • 英語レビューでMPT-7B (1T)と比較;
  • 注意なしのトランス。

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

Eagle 7B は、RWKV-v5 アーキテクチャに基づいて構築されています。 RWKV (Receptance Weighted Key Value) は、RNN と Transformer の利点を組み合わせ、それらの欠点を回避する新しいアーキテクチャです。これは非常にうまく設計されており、Transformer のメモリと拡張のボトルネックを軽減し、より効果的な線形拡張を実現できます。同時に、RWKV は、Transformer をこの分野で優位に立たせた特性のいくつかも保持しています。

現在、RWKV は第 6 世代 RWKV-6 まで反復されており、Transformer と同様のパフォーマンスとサイズを備えています。将来の研究者は、このアーキテクチャを使用して、より効率的なモデルを作成できます。

RWKV の詳細については、「Transformer 時代の RNN の再構築、RWKV は非 Transformer アーキテクチャを数百億のパラメータに拡張する」を参照してください。

RWKV-v5 Eagle 7B は、制限なく個人用または商用目的で使用できることは言及する価値があります。

23 言語でのテスト結果

複数言語でのさまざまなモデルのパフォーマンスは次のとおりです。ベンチマークには、xLAMBDA、xStoryCloze、xWinograd、xCopa が含まれます。

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍


无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍合計 23 言語

これらのベンチマークには、ほとんど常識的な推論が組み込まれており、v4 から v5 への RWKV アーキテクチャの多言語パフォーマンスの大幅な飛躍が示されています。ただし、多言語ベンチマークがないため、この研究では一般的に使用される 23 言語での能力しかテストできず、残りの 75 以上の言語での能力はまだ不明です。

英語でのパフォーマンス

英語でのさまざまなモデルのパフォーマンスは、常識的な推論を含む 12 のベンチマークを通じて判断されます。そして世界の知識。

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍結果から、RWKV の v4 アーキテクチャから v5 アーキテクチャへの大きな飛躍が再びわかります。 v4 は以前は 1T トークン MPT-7b に負けていましたが、v5 はベンチマーク テストで追いつき始めており、場合によっては (LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq の一部のベンチマーク テストでも) Falcon や llama2 を超えることもあります。

さらに、v5 のパフォーマンスは、おおよそのトークン トレーニング統計を考慮すると、予想される Transformer のパフォーマンス レベルと一致し始めます。

以前、ミストラル 7B は 7B スケール モデルでのリードを維持するために 2 ~ 7 兆トークンのトレーニング方法を使用していました。この研究では、このギャップを埋めて、RWKV-v5 Eagle 7B が llama2 のパフォーマンスを上回り、ミストラルのレベルに達することを期待しています。

次の図は、3,000 億トークン ポイント付近の RWKV-v5 Eagle 7B のチェックポイントが pythia-6.9b と同様のパフォーマンスを示していることを示しています。

##これは、RWKV-v4 アーキテクチャに関する以前の実験 (パイルベース) と一致しており、RWKV のような線形トランスフォーマーはパフォーマンス レベルがトランスフォーマーと同様であり、同じ数のトークンを持っています。

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

# 予想どおり、このモデルの登場は、(評価ベンチマークの観点から)これまでで最も強力なリニアトランスの登場を示しています。

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

以上がアテンションフリーの大型モデル Eagle7B: RWKV に基づいて、推論コストが 10 ~ 100 分の 1 に削減の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!