Chen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみ-AI-php.cn

Chen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみ

PHPz

リリース： 2024-03-01 12:20:04

転載

737 人が閲覧しました

Chen Danqi チームは、新しい LLMコンテキストウィンドウ拡張機能をリリースしました。メソッド:

これは、トレーニングに 8,000 トークンドキュメントのみを使用し、Llama-2 ウィンドウを次のように拡張できます。 128k。

最も重要なことは、このプロセスでは、モデルは元のメモリの 1/6 のみを必要とし、モデルは 10 倍のスループットを得ることができるということです。

Chen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみ

さらに、大幅に

トレーニングコストを削減することもできます :

この方法を使用して 7B アルパカ 2 をトレーニングします。 A100

の一部だけで完成します。チームは次のように述べています:

この方法が便利で使いやすく、将来の LLM に

安価で効果的な
ロングコンテキスト機能を提供することを願っています。
現在、モデルとコードはHuggingFaceとGitHubで公開されています。

Chen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみ 2 つのコンポーネントを追加するだけです

このメソッドは

CEPE

と呼ばれ、正式名は「Parallel Encoding Context Extension#」です。 ##（並列エンコーディングによるコンテキスト拡張）」。軽量フレームワークとして、事前トレーニングされたディレクティブ微調整モデルのコンテキストウィンドウを拡張するために使用できます。

事前トレーニングされたデコーダー専用言語モデルの場合、CEPE は 2 つの小さなコンポーネントを追加することでそれを拡張します。

1 つは長いエンコーダーです。

コンテキストはブロックエンコードされます。

1 つはクロスアテンションモジュール で、エンコーダの表現に焦点を当てるためにデコーダの各層に挿入されます。

完全なアーキテクチャは次のとおりです。

この図では、エンコーダーモデルは、コンテキストの 3 つの追加ブロックを並行してエンコードし、最終的な隠れた表現と連結します。その後、デコーダのクロスアテンション層への入力として使用されます。

Chen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみここで、クロスアテンション層は主に、デコーダモデルにおけるセルフアテンション層とフィードフォワード層の間のエンコーダ表現に焦点を当てています。

CEPE は、ラベルを付ける必要のないトレーニングデータを慎重に選択することで、モデルが長いコンテキスト機能を備え、ドキュメントの検索にも優れています。

著者は、このような CEPE には主に 3 つの大きな利点があると紹介しています。

(1) 長さは一般化できる

制約を受けないため位置エンコーディング代わりに、制約はセグメント内にエンコードされたコンテキストを持ち、各セグメントは独自の位置エンコーディングを持ちます。

(2) 高効率

小型エンコーダと並列エンコードを使用してコンテキストを処理すると、計算コストを削減できます。

同時に、クロスアテンションはエンコーダーの最後の層の表現のみに焦点を当てているため、デコーダーのみを使用する言語モデルは、各トークンのキーと値のペアをそれぞれのトークンにキャッシュする必要があります。層なので、比較すると、CEPE に必要なメモリが大幅に削減されます。
(3) トレーニングコストの削減

完全な微調整方法とは異なり、CEPE は大規模なデコーダーモデルをフリーズしたまま、エンコーダーとクロスアテンションのみを調整します。著者は、7B デコーダを 400M エンコーダとクロスアテンションレイヤー (合計 14 億パラメータ) を備えたモデル

に拡張することで、80GB A100 で完成できると紹介しています。 GPU。

混乱は減少し続けています

チームは CEPE を Llama-2 に適用し、200 億トークンを使用してフィルタリングされたバージョンの RedPajama でトレーニングします (Llama-2 の事前トレーニング予算のみ 1) %)

。

まず、完全に微調整された 2 つのモデル、LLAMA2-32K と YARN-64K と比較して、CEPE はすべてのデータセットでより低い、または同等の

perplexity## を達成します。メモリ使用量が減り、スループットが向上します。

コンテキストが 128k (トレーニング長の 8k をはるかに超える) に増加すると、低メモリ状態のままで CEPE の複雑さは減少し続けます。

対照的に、Llama-2-32K と YARN-64K は、トレーニング期間を超えて一般化できないだけでなく、メモリコストの大幅な増加も伴います。 Chen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみ

第 2 に、

検索機能

が強化されます。 Chen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみ

次の表に示すように:

取得したコンテキストを使用することで、CEPE はモデルの複雑さを効果的に改善でき、そのパフォーマンスは RePlug よりも優れています。

段落 k=50 (トレーニングは 60) であっても、CEPE は複雑さを改善し続けることに注目する価値があります。

これは、CEPE が検索拡張設定にうまく移行するのに対し、フルコンテキストデコーダーモデルではこの機能が低下することを示しています。

3 つ目は、オープンドメインの質問と回答機能 # が大幅に優れていることです。

下の図に示すように、CEPE はすべてのデータセットと段落 k パラメーターにおいて他のモデルよりも大幅に優れていますが、他のモデルとは異なり、k 値が大きくなるにつれてパフォーマンスが大幅に低下します。

これは、CEPE が多数の冗長または無関係な段落に敏感ではないことも示しています。

要約すると、CEPE は、他のほとんどのソリューションと比較して、メモリと計算コストがはるかに低く、上記のすべてのタスクで優れたパフォーマンスを発揮します。

最後に、これらに基づいて、著者は命令チューニングモデルに特化した CEPE-Distilled (CEPED) を提案しました。

ラベルのないデータのみを使用してモデルのコンテキストウィンドウを拡張し、支援された KL 発散損失を通じて元の命令調整モデルの動作を新しいアーキテクチャに抽出し、それによって高価な長いコンテキスト命令を管理する必要性を排除します。追跡データ。

最終的に、CEPED は、命令を理解する能力を維持しながら、Llama-2 のコンテキストウィンドウを拡張し、モデルの長いテキストのパフォーマンスを向上させることができます。

チーム紹介

CEPEには合計3人の著者がいます。

Yan Heguang（ハワードイェン）は、プリンストン大学のコンピューターサイエンスの修士課程の学生です。

二人目は、同校の博士課程学生で清華大学学士号を取得した高天宇さんです。

彼らは全員、責任著者の陳丹祁氏の生徒です。

原論文：https://arxiv.org/abs/2402.16617
参考リンク：https://twitter. com/HowardYen1/status/1762474556101661158

以上がChen Danqi チームによる新作: Llama-2 コンテキストが 128k に拡張され、10 倍のスループットに必要なメモリは 1/6 のみの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。