魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表-AI-php.cn

Transformer の通常の道をたどる代わりに、RNN の新しい国内アーキテクチャが修正され、RWKVとなり、新たな進歩があります。

は 2 つの新しい RWKV アーキテクチャを提案します。イーグル(RWKV-5)およびフィンチ(RWKV-6)。

これら 2 つのシーケンスモデルは RWKV-4 アーキテクチャに基づいており、その後改良されました。

新しいアーキテクチャにおける設計の進歩には、多頭行列値状態(多頭行列値状態)および動的再帰メカニズム##が含まれます。# (動的再帰メカニズム)、これらの改善により、RNN の推論効率特性を維持しながら、RWKV モデルの表現能力が向上します。

同時に、新しいアーキテクチャでは、1 兆 1,200 億のトークンを含む新しい多言語コーパスが導入されています。

チームは、RWKV の多言語性を強化するために、貪欲マッチング

(貪欲マッチング)に基づく高速単語セグメンターも開発しました。

現在、4 つの Eagle モデルと 2 つの Finch モデルが Huohuofian でリリースされています~

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

新しいモデル Eagle と Finch

この更新された RWKV合計 6 つのモデルが含まれています。すなわち、

4 Eagle(RWKV-5)Model: 0.4B、1.5B、3B、それぞれ 7B パラメータサイズ;
2 Finch(RWKV-6)Model: それぞれ 1.6B、3B パラメータサイズ。

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

Eagle は、

複数の行列値の状態(ベクトル値の状態の代わりに)、再構築された受け入れ状態を使用することでこれを実現します。 RWKV-4 から学んだ追加のゲートメカニズム、改善されたアーキテクチャ、および学習減衰の進行状況。

Finch は、パラメトリック線形補間を含むタイムミキシングおよびトークンシフトモジュールのための

新しいデータ関連関数を導入することにより、アーキテクチャのパフォーマンス機能と柔軟性をさらに向上させます。

さらに、Finch は、学習可能な重み行列を有効にして、状況に応じて学習されたデータ減衰ベクトルを効果的に強化できる、低ランク適応関数の新しい使用法を提案しています。

最後に、RWKV の新しいアーキテクチャでは、

新しいトークナイザーRWKV World Tokenizer、および新しいデータセット#RWKV World を導入します。 v2 は両方とも、多言語およびコードデータに対する RWKV モデルのパフォーマンスを向上させるために使用されます。新しいトークナイザー RWKV World Tokenizer には、一般的ではない言語の単語が含まれており、トライベースの貪欲マッチング

(貪欲マッチング)

を通じて迅速な単語の分割を実行します。新しいデータセット RWKV World v2 は、厳選された公開されているさまざまなデータソースから取得された、新しい多言語 1.12T トークンデータセットです。

データ構成は、英語データが約70％、多言語データが約15％、コードデータが約15％となっています。

ベンチマーク結果は何ですか?

アーキテクチャの革新だけでは十分ではありません。鍵はモデルの実際のパフォーマンスにあります。

主要な権威ある評価リストに載っている新しいモデルの結果を見てみましょう——

MQAR テスト結果

MQAR（複数クエリ連想記憶）このタスクは、言語モデルを評価するために使用されるタスクであり、複数のクエリの下でモデルの連想記憶能力をテストするように設計されています。このタイプのタスクでは、モデルは複数のクエリを指定して関連情報を取得する必要があります。

MQAR タスクの目標は、複数のクエリで情報を取得するモデルの能力と、さまざまなクエリに対するモデルの適応性と精度を測定することです。

次の図は、RWKV-4、Eagle、Finch、およびその他の非 Transformer アーキテクチャの MQAR タスクテストの結果を示しています。

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表 MQAR タスクの精度テストでは、さまざまなシーケンス長テストにおける Finch の精度パフォーマンスが RWKV-4 および RWKV -5 と比較して非常に安定していることがわかります。およびその他の非 Transformer アーキテクチャモデルには、パフォーマンスに大きな利点があります。

長いコンテキストの実験

2048 トークンから始まる RWKV-4、Eagle、および Finch の損失と配列位置が PG19 テストセットでテストされました。

(すべてのモデルはコンテキスト長 4096 に基づいて事前トレーニングされています)

。

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表テスト結果は、Eagle は長いシーケンスタスクにおいて RWKV-4 よりも大幅に改善されており、コンテキスト長 4096 でトレーニングされた Finch は Eagle よりも優れたパフォーマンスを発揮し、自動的に適切に適応できることを示しています。コンテキストの長さが 20,000 を超える。

速度とメモリのベンチマークテスト

速度とメモリのベンチマークテストでは、チームは Finch、Mamba、Flash Attend の Attend に似たコアの速度とメモリ使用率を比較しました。

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

メモリ使用量の点では、Finch は常に Mamba および Flash Attend よりも優れており、メモリ使用量は Mamba および Flash Attend より 40%、17% 少ないことがわかります。それぞれフラッシュアテンションとマンバ。

多言語タスクのパフォーマンス

日本語

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

スペイン語

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

アラビア語言語

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

日本語-英語

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

次のステップの作業

上記の研究内容は RWKV からのものです。 Foundation 最新の論文「イーグルとフィンチ: 行列値状態と動的再帰を使用した RWKV」がリリースされました。

この論文は、RWKV 創設者 Bo PENG(ブルームバーグ)と RWKV オープンソースコミュニティのメンバーによって共同で完成されました。

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

ブルームバーグとの共著者、香港大学物理学科卒業、20年のプログラミング経験があり、1999年にOrtus Capitalで働いていました。世界最大の外国為替ヘッジファンドの一員であり、高頻度の定量取引を担当しています。

は、深層畳み込みネットワークに関する書籍『Deep Convolutional Networks · Principles and Practice』も出版しました。

彼の主な焦点と関心はソフトウェアとハードウェアの開発であり、これまでの公開インタビューで、AIGC、特に新しい世代に興味があることを明らかにしました。

現在、Bloomberg には Github 上に 210 万人のフォロワーがいます。

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

しかし、彼の最も重要な公のアイデンティティは、主に太陽光ランプ、天井ランプ、ポータブルデスクランプなどを製造する照明会社、リンリンテクノロジーの共同創設者です。

そして、彼は上級の猫愛好家であるはずです。Github、Zhihu、WeChat のアバターだけでなく、照明会社の公式 Web サイトのホームページや Weibo にもオレンジ色の猫がいます。

魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表

Qubit は、RWKV の現在のマルチモーダルな作業に RWKV Music(音楽ディレクション)と VisualRWKV(画像ディレクション)が含まれていることを知りました。

次に、RWKV は次の方向に焦点を当てます:

#トレーニングコーパスを拡張する、それを実現するより多様な(これはモデルのパフォーマンスを向上させるための重要な点です);
Finch のより大きなバージョンをトレーニングしてリリースする(7B や 14B パラメータなど) を実装し、MoE を通じて推論とトレーニングのコストを削減し、そのパフォーマンスをさらに拡張します。
Finch の CUDA 実装をさらに最適化します(アルゴリズムの改善を含む)、速度の向上をもたらしますそして並列性が向上します。

#論文リンク:

https://arxiv.org/pdf/2404.05892.pdf

以上が魔法のように修正された RNN が Transformer に挑戦、RWKV は新しい: 2 つの新しいアーキテクチャモデルを発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。