アテンションフリーの大型モデル Eagle7B: RWKV に基づいて、推論コストが 10 ～ 100 分の 1 に削減-AI-php.cn

アテンションフリーな大型モデル Eagle7B: RWKV をベースに推論コストを 10 ～ 100 分の 1 に削減

AI トラックでは、最近小型モデルが大きな注目を集めています。数千億のパラメータを持つモデルと比較すると、Model.たとえば、フランスの AI スタートアップ企業がリリースした Mistral-7B モデルは、すべてのベンチマークで Llama 2 を 13B 上回り、コード、数学、推論では Llama 1 を 34B 上回りました。

大規模モデルと比較して、小規模モデルには、低いコンピューティング能力要件やデバイス側で実行できる機能など、多くの利点があります。

#最近、オープンソースの非営利団体 RWKV から、7.52B パラメーター Eagle 7B という新しい言語モデルが登場しました。これには次の特徴があります。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

推論コストが低い RWKV-v5 アーキテクチャに基づいて構築されています (RWKV は線形変換器であり、推論が削減されます)コストは 10 ～ 100 倍）;
は 100 を超える言語と 1 兆 1,000 億のトークンでトレーニングされています;
は複数の言語でトレーニングされています-言語ベンチマークテストでは、すべての 7B クラスモデルより優れています;
英語評価では、Eagle 7B のパフォーマンスは Falcon (1.5T)、LLaMA2 (2T) に近い)、ミストラル;
英語レビューでMPT-7B (1T)と比較;
注意なしのトランス。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

Eagle 7B は、RWKV-v5 アーキテクチャに基づいて構築されています。 RWKV (Receptance Weighted Key Value) は、RNN と Transformer の利点を組み合わせ、それらの欠点を回避する新しいアーキテクチャです。これは非常にうまく設計されており、Transformer のメモリと拡張のボトルネックを軽減し、より効果的な線形拡張を実現できます。同時に、RWKV は、Transformer をこの分野で優位に立たせた特性のいくつかも保持しています。

現在、RWKV は第 6 世代 RWKV-6 まで反復されており、Transformer と同様のパフォーマンスとサイズを備えています。将来の研究者は、このアーキテクチャを使用して、より効率的なモデルを作成できます。

RWKV の詳細については、「Transformer 時代の RNN の再構築、RWKV は非 Transformer アーキテクチャを数百億のパラメータに拡張する」を参照してください。

RWKV-v5 Eagle 7B は、制限なく個人用または商用目的で使用できることは言及する価値があります。

23 言語でのテスト結果

複数言語でのさまざまなモデルのパフォーマンスは次のとおりです。ベンチマークには、xLAMBDA、xStoryCloze、xWinograd、xCopa が含まれます。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍合計 23 言語

これらのベンチマークには、ほとんど常識的な推論が組み込まれており、v4 から v5 への RWKV アーキテクチャの多言語パフォーマンスの大幅な飛躍が示されています。ただし、多言語ベンチマークがないため、この研究では一般的に使用される 23 言語での能力しかテストできず、残りの 75 以上の言語での能力はまだ不明です。

英語でのパフォーマンス

英語でのさまざまなモデルのパフォーマンスは、常識的な推論を含む 12 のベンチマークを通じて判断されます。そして世界の知識。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍結果から、RWKV の v4 アーキテクチャから v5 アーキテクチャへの大きな飛躍が再びわかります。 v4 は以前は 1T トークン MPT-7b に負けていましたが、v5 はベンチマークテストで追いつき始めており、場合によっては (LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq の一部のベンチマークテストでも) Falcon や llama2 を超えることもあります。