無損加速最高5x，EAGLE-2讓RTX 3060的生成速度超過A100-人工智慧-PHP中文網

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Li Yuhui: Sarjana Sekolah Perisikan, Universiti Peking, di bawah bimbingan guru Zhang Hongyang dan Zhang Chao, hala tuju penyelidikannya ialah pecutan dan penjajaran model yang besar, dan kini sedang Mencari peluang pekerjaan dalam kelas ke-25

Wei Fangyun: Penyelidik di Institut Penyelidikan Microsoft Asia, hala tuju penyelidikan merangkumi kecerdasan, penjanaan imej dan ejen AI

Zhang Chao: Penyelidik di Sekolah Perisikan Universiti Peking, hala tuju penyelidikan ialah penglihatan komputer dan mesin Learn

Zhang Hongyang: Penolong Profesor Pusat Pengajian Sains Komputer dan Institut Penyelidikan Vektor, Universiti Waterloo, hala tuju penyelidikan ialah pecutan LLM dan keselamatan AI

Penyahkodan autoregresif telah menjadi standard de facto untuk model bahasa besar (LLM), model bahasa besar Setiap pengiraan hadapan memerlukan akses kepada semua parameternya, tetapi hanya satu token boleh diperoleh, menjadikan penjanaannya mahal dan perlahan.

Hari ini, kertas kerja bertajuk "EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees" mencadangkan pensampelan spekulatif pokok draf dinamik, yang melaraskan struktur pokok draf secara dinamik berdasarkan keyakinan model draf, dengan tertinggi Ia boleh meningkatkan kelajuan inferens model bahasa besar sebanyak 5 kali ganda tanpa mengubah taburan output model bahasa besar, memastikan losslessness.

无损加速最高5x，EAGLE-2让RTX 3060的生成速度超过A100

Pautan kertas: https://arxiv.org/pdf/2406.16858
Pautan projek: https://github.com/SafeLEAILab/
//huggingface.co/spaces/yuhuili/EAGLE-2

Kesan pecutan EAGLE-2 pada set data dialog berbilang pusingan MT-bench (gambar atas adalah generasi tamak, gambar bawah adalah penjanaan pensampelan):

EAGLE-2 を使用すると、2 RTX 3060 ($300) の推論速度が A100 ($10000) を超える可能性があります。

背景

投機的サンプリングでは、小規模なモデルを使用してドラフトを迅速に生成し、1 回の前方計算を通じてドラフトの正確性を検証し、正しいドラフトを出力として取得できます。これにより、複数のトークンが一度に生成され、損失がなくなります。 EAGLE は、投機的サンプリングを改良したものです。トークンレベルではなく、より規則的な特徴レベルで自己回帰を実行し、同時にサンプリング結果 (1 タイムステップ先のトークン) を入力して不確実性を排除し、ドラフトモデルの精度を大幅に向上させます。

これまでのところ、EAGLE はサードパーティテスト Spec-Bench (https://github.com/hemingkx/Spec-Bench/blob/main/Leaderboard.md) で 1 位にランクされています。

Ideas

EAGLEやMedusaなどのメソッドは、ドラフトトークンの受け入れ率がコンテキストに依存しないことを暗黙的に前提として、静的なドラフトツリーを使用します

。上記が「10+2」の場合、EAGLEはこの位置に候補トークンを2つ追加し、「10+2=」と「10+2+」のどちらか1つだけを追加します。正しい。上記が「10+2=」の場合、次のトークンは当然「1」ですが、EAGLEは静的なドラフト構造を使用しているため、「1」と「3」の2つの候補を追加しても「10+2=3」にはなりません。大規模な言語モデルの検査を通じて無駄になる可能性があります。 EAGLE-2 は、この問題を解決することを目的としています。下図に示すように、上記が「10+2=」の場合、EAGLE-2 は候補トークン「1」を 1 つ追加するだけで、保存されたトークンを使用してドラフトツリーを深くします。 , そのため、「10+2=12」は大規模言語モデルの検査に合格し、EAGLE-2 は一度により多くのトークンを生成できます。

EAGLE-2 の作成者は、Alpaca データセットに対して簡単なテストを実施しました。以下の図は、左図の P1 ～ P6 のさまざまなポジションでのドラフトトークンの受け入れ率を示しており、水平線はそのポジションを表しています。右図では軸座標が対応しています。実験結果は、同じ位置でのドラフトトークンの受け入れ率も大きく異なることを示しており、動的ドラフトツリーを使用した方が静的ドラフトツリーよりも良い結果が得られる可能性があることを示しています。

上記の例では、EAGLE-2がドラフトトークンの予測難易度（受け入れ率）を正確に計算するには、元の大規模言語モデルの計算結果が必要です。これは、元の大規模言語モデルへのアクセスに対する本来の意図に反する、投機的サンプリングの削減に違反します。幸いなことに、EAGLE のドラフトモデルの信頼性は、受け入れ率 (難易度) と高い正の相関関係があります。以下の図は、ドラフトモデルのさまざまな信頼区間でのドラフトトークンの平均受け入れ率を示しており、赤い点線が (0,0) と (1,1) を結んでいます。したがって、ドラフトモデルの信頼度は、合格率の有効な近似値として使用できるということになります。

无损加速最高5x，EAGLE-2让RTX 3060的生成速度超过A100

方法

EAGLE-2包括兩個階段，擴展和重排，擴展階段加深加大草稿樹，重排階段修剪草稿樹，丟棄部分節點（token）。

為了保證無損，一個草稿token被接受的前提是它的祖先節點都被接受，所以EAGLE-2將一個節點的價值定義為它和它祖先的接受率的乘積，用置信度的乘積來近似。

在擴充階段，EAGLE-2選擇草稿樹最後一層價值最高的m個節點（token）進行擴充。這些token被送入草稿模型，然後將草稿模型的輸出作為子節點連接到輸入節點，加深加大草稿樹。在重排階段，EAGLE-2依照價值對整棵草稿樹進行重排序，保留前n個節點（token）。草稿token的置信度在0-1之間，兩個節點價值相同時優先保留淺層節點，因此重排後保留的草稿樹一定是連通的，保證了語意上的連貫性。重排後草稿樹變小，降低了原始大語言模型驗證的計算量。為了確保計算結果的正確性，還需要調整attention mask，確保每一個token只能看到它的祖先節點，不受其他分支的影響。下面是一個簡單的例子。

擴展（Expand）階段的黃色框表示被選中擴展的節點，綠色框為以這些節點為輸入時草稿模型的預測。重排（Rerank）階段的藍色框表示被保留的節點，之後它們被展平成一維作為原始大語言模型的輸入。 EAGLE-2根據樹的結構調整attention mask，例如，”a”只能看到它的祖先“It”和“is”，看不到另一個分支的“has”。 EAGLE-2也同時調整位置編碼，確保和標準自回歸解碼的一致性。

實驗

EAGLE-2在多輪對話、程式碼、數學推理、指令遵循、問答、總結六項任務上分別使用MT-bench、Humaneval、M8K、ACNN DM、Natural Questions資料集進行了實驗，與6種先進的投機採樣方法（SpS、PLD、Medusa、Lookahead、Hydra、EAGLE）進行了比較。

无损加速最高5x，EAGLE-2让RTX 3060的生成速度超过A100

表格中的Speedup為加速比，τ 為平均接受長度，也就是原始大語言模型每次前向計算能產生的token數。 EAGLE-2每次前向計算能產生大約4-5個token，而自回歸解碼每次生成1個token，因此EAGLE-2明顯加速了大語言模型的生成，加速比為2.5x-5x。加速比和接受長度在程式碼產生任務（Humaneval資料集）上最高，這是因為程式碼中存在大量確定性的模板，草稿更容易命中。在所有任務和大語言模型上，EAGLE-2的加速比和平均接受長度都是最高的，明顯優於其他方法。

應用

EAGLE-2也在工業界應用，整合至Intel/intel-extension-for-transformers等。

以上是無損加速最高5x，EAGLE-2讓RTX 3060的生成速度超過A100的詳細內容。更多資訊請關注PHP中文網其他相關文章！