Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Li Yuhui: Sarjana Sekolah Perisikan, Universiti Peking, di bawah bimbingan guru Zhang Hongyang dan Zhang Chao, hala tuju penyelidikannya ialah pecutan dan penjajaran model yang besar, dan kini sedang Mencari peluang pekerjaan dalam kelas ke-25Wei Fangyun: Penyelidik di Institut Penyelidikan Microsoft Asia, hala tuju penyelidikan merangkumi kecerdasan, penjanaan imej dan ejen AIZhang Chao: Penyelidik di Sekolah Perisikan Universiti Peking, hala tuju penyelidikan ialah penglihatan komputer dan mesin Learn
Zhang Hongyang: Penolong Profesor Pusat Pengajian Sains Komputer dan Institut Penyelidikan Vektor, Universiti Waterloo, hala tuju penyelidikan ialah pecutan LLM dan keselamatan AI
Penyahkodan autoregresif telah menjadi standard de facto untuk model bahasa besar (LLM), model bahasa besar Setiap pengiraan hadapan memerlukan akses kepada semua parameternya, tetapi hanya satu token boleh diperoleh, menjadikan penjanaannya mahal dan perlahan. Hari ini, kertas kerja bertajuk "EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees" mencadangkan pensampelan spekulatif pokok draf dinamik, yang melaraskan struktur pokok draf secara dinamik berdasarkan keyakinan model draf, dengan tertinggi Ia boleh meningkatkan kelajuan inferens model bahasa besar sebanyak 5 kali ganda tanpa mengubah taburan output model bahasa besar, memastikan losslessness.
- Pautan kertas: https://arxiv.org/pdf/2406.16858
-
Pautan projek: https://github.com/SafeLEAILab/ //huggingface.co/spaces/yuhuili/EAGLE-2
Kesan pecutan EAGLE-2 pada set data dialog berbilang pusingan MT-bench (gambar atas adalah generasi tamak, gambar bawah adalah penjanaan pensampelan):
EAGLE-2 を使用すると、2 RTX 3060 ($300) の推論速度が A100 ($10000) を超える可能性があります。 投機的サンプリングでは、小規模なモデルを使用してドラフトを迅速に生成し、1 回の前方計算を通じてドラフトの正確性を検証し、正しいドラフトを出力として取得できます。これにより、複数のトークンが一度に生成され、損失がなくなります。 EAGLE は、投機的サンプリングを改良したものです。トークン レベルではなく、より規則的な特徴レベルで自己回帰を実行し、同時にサンプリング結果 (1 タイム ステップ先のトークン) を入力して不確実性を排除し、ドラフト モデルの精度を大幅に向上させます。 これまでのところ、EAGLE はサードパーティ テスト Spec-Bench (https://github.com/hemingkx/Spec-Bench/blob/main/Leaderboard.md) で 1 位にランクされています。 EAGLEやMedusaなどのメソッドは、ドラフトトークンの受け入れ率がコンテキストに依存しないことを暗黙的に前提として、静的なドラフトツリーを使用します。上記が「10+2」の場合、EAGLEはこの位置に候補トークンを2つ追加し、「10+2=」と「10+2+」のどちらか1つだけを追加します。正しい。上記が「10+2=」の場合、次のトークンは当然「1」ですが、EAGLEは静的なドラフト構造を使用しているため、「1」と「3」の2つの候補を追加しても「10+2=3」にはなりません。大規模な言語モデルの検査を通じて無駄になる可能性があります。 EAGLE-2 は、この問題を解決することを目的としています。下図に示すように、上記が「10+2=」の場合、EAGLE-2 は候補トークン「1」を 1 つ追加するだけで、保存されたトークンを使用してドラフト ツリーを深くします。 , そのため、「10+2=12」は大規模言語モデルの検査に合格し、EAGLE-2 は一度により多くのトークンを生成できます。 EAGLE-2 の作成者は、Alpaca データセットに対して簡単なテストを実施しました。以下の図は、左図の P1 ~ P6 のさまざまなポジションでのドラフト トークンの受け入れ率を示しており、水平線はそのポジションを表しています。右図では軸座標が対応しています。実験結果は、同じ位置でのドラフト トークンの受け入れ率も大きく異なることを示しており、動的ドラフト ツリーを使用した方が静的ドラフト ツリーよりも良い結果が得られる可能性があることを示しています。 上記の例では、EAGLE-2がドラフトトークンの予測難易度(受け入れ率)を正確に計算するには、元の大規模言語モデルの計算結果が必要です。これは、元の大規模言語モデルへのアクセスに対する本来の意図に反する、投機的サンプリングの削減に違反します。幸いなことに、EAGLE のドラフト モデルの信頼性は、受け入れ率 (難易度) と高い正の相関関係があります。以下の図は、ドラフト モデルのさまざまな信頼区間でのドラフト トークンの平均受け入れ率を示しており、赤い点線が (0,0) と (1,1) を結んでいます。したがって、ドラフト モデルの信頼度は、合格率の有効な近似値として使用できるということになります。
EAGLE-2には、拡張と再配置の2つのステージが含まれます。拡張ステージではドラフトツリーを深くして拡大し、再配置ステージではドラフトツリーを枝刈りし、いくつかのノード(トークン)を破棄します。 無損失性を確保するために、ドラフト トークンが受け入れられる前提は、そのすべての祖先ノードが受け入れられることであるため、EAGLE-2 はノードの値をそのノードとその祖先の受け入れ率の積として定義します。信頼水準の積を使用して近似します。 拡張フェーズでは、EAGLE-2 は拡張用のドラフト ツリーの最後の層で最も高い値を持つ m 個のノード (トークン) を選択します。これらのトークンはドラフト モデルに入力され、ドラフト モデルの出力が子ノードとして入力ノードに接続され、ドラフト ツリーが深くなり、拡大されます。並べ替えフェーズでは、EAGLE-2 は値に応じてドラフト ツリー全体を並べ替え、最初の n 個のノード (トークン) を保持します。ドラフト トークンの信頼度は 0 ~ 1 です。2 つのノードが同じ値を持つ場合、浅いノードが最初に保持されるため、再配置後に保持されるドラフト ツリーは意味的な一貫性を確保するために接続される必要があります。再配置後、ドラフト ツリーは小さくなり、元の大規模言語モデル検証の計算負荷が軽減されます。計算結果の精度を確保するには、各トークンがその祖先ノードのみを認識し、他のブランチの影響を受けないようにするために、アテンション マスクを調整する必要があります。以下に簡単な例を示します。 Expand ステージの黄色のボックスは、拡張用に選択されたノードを表し、緑色のボックスは、これらのノードが入力として使用されたときのドラフト モデルの予測です。 Rerank ステージの青いボックスは保持されたノードを表し、その後、元の大規模言語モデルへの入力として 1 次元に平坦化されます。 EAGLE-2 は、ツリーの構造に従ってアテンション マスクを調整します。たとえば、「a」はその祖先である「It」と「is」のみを見ることができますが、別のブランチの「has」を見ることはできません。 EAGLE-2 は、標準の自己回帰デコーディングとの一貫性を確保するために位置エンコーディングも調整します。 EAGLE-2はMTベンチ、Humaneval、GSM8K、Alpaca、CNNを使用/実験はDM、NaturalQuestionデータセットで実施され、6つの高度な推測的サンプリング方法(SpS、 PLD、メデューサ、ルックアヘッド、ヒドラ、イーグル)。表内の
Speedup は高速化率、τ は平均受け入れ長で、元の大規模言語モデルが前方計算ごとに生成できるトークンの数です。 EAGLE-2 は前方計算ごとに約 4 ~ 5 個のトークンを生成できますが、自己回帰デコードでは毎回 1 つのトークンが生成され、そのため、EAGLE-2 は 2.5 ~ 5 倍の加速率で大規模な言語モデルの生成を大幅に高速化します。コード生成タスク (Humaneval データセット) では、高速化と受け入れ可能期間が最も高くなります。これは、コード内に多数の決定論的なテンプレートがあり、ドラフトがヒットしやすいためです。すべてのタスクと大規模な言語モデルにわたって、EAGLE-2 は最高の加速率と平均受け入れ長を示し、他の方法よりも大幅に優れています。 EAGLE-2 は業界でも使用されており、Intel/intel-extension-for-transformers などに統合されています。 以上が最大 5 倍のロスレス アクセラレーションにより、EAGLE-2 により RTX 3060 は A100 よりも高速に生成できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。