Verlustfreie Beschleunigung bis zu 5x, EAGLE-2 ermöglicht RTX 3060 eine schnellere Generierung als A100-KI-php.cn

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse der Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com große Modellbeschleunigung und -ausrichtung und sucht derzeit nach Stellenangeboten in der 25. Klasse

Wei Fangyun: Forscher am Microsoft Asia Research Institute, Forschungsrichtung ist verkörperte Intelligenz, Bilderzeugung und KI-Agenten

Zhang Chao: Forscher an der Peking University School of Intelligence, Forschungsrichtung ist Computer Vision und maschinelles Lernen

Zhang Hongyang: Assistenzprofessorin an der School of Computer Science und am Vector Research Institute der University of Waterloo, Forschungsrichtung ist LLM-Beschleunigung und KI-Sicherheit

Autoregressive Dekodierung ist zum De-facto-Standard für große Sprachmodelle (LLMs) geworden. Jede Vorwärtsberechnung erfordert Zugriff auf alle ihre Parameter, es kann jedoch nur ein Token abgerufen werden, was ihre Generierung teuer und langsam macht.

Heute wurde in einem Artikel mit dem Titel „EAGLE-2: Schnellere Inferenz von Sprachmodellen mit dynamischen Entwurfsbäumen“ ein dynamisches spekulatives Sampling des Entwurfsbaums vorgeschlagen, das die Struktur des Entwurfsbaums basierend auf der Zuverlässigkeit des Entwurfsmodells dynamisch anpasst. mit dem höchsten Es kann die Inferenzgeschwindigkeit großer Sprachmodelle um das Fünffache erhöhen, ohne die Ausgabeverteilung großer Sprachmodelle zu ändern, wodurch Verlustfreiheit gewährleistet wird.

Papierlink: https://arxiv.org/pdf/2406.16858

无损加速最高5x，EAGLE-2让RTX 3060的生成速度超过A100

Projektlink: https://github.com/SafeAILab/EAGLE

Demo-Link: https: //huggingface.co/spaces/yuhuili/EAGLE-2
Der Beschleunigungseffekt von EAGLE-2 auf den Multiturn-Dialogdatensatz MT-Bench (das obere Bild ist die gierige Generation, das untere Bild ist Sampling-Generierung):

Mit EAGLE-2 kann die Inferenzgeschwindigkeit von 2 RTX 3060 (300 $) A100 (10.000 $) überschreiten.

Hintergrund

Beim spekulativen Sampling wird ein kleines Modell verwendet, um schnell Entwürfe zu generieren. Das ursprüngliche große Sprachmodell kann die Richtigkeit des Entwurfs durch eine Vorwärtsberechnung überprüfen und den richtigen Entwurf als Ausgabe verwenden . Dadurch werden mehrere Token gleichzeitig generiert und es entsteht kein Verlust. EAGLE ist eine Verbesserung des spekulativen Samplings. Es führt eine Autoregression auf einer reguläreren Feature-Ebene statt auf der Token-Ebene durch und gibt gleichzeitig die Stichprobenergebnisse ein (Tokens einen Zeitschritt voraus), um Unsicherheiten zu beseitigen und die Genauigkeit des Entwurfsmodells erheblich zu verbessern.

Bisher belegt EAGLE den ersten Platz im Drittanbietertest Spec-Bench (https://github.com/hemingkx/Spec-Bench/blob/main/Leaderboard.md).

Ideen

Methoden wie EAGLE und Medusa verwenden statische Draft-Bäume und gehen implizit davon aus, dass die Akzeptanzrate von Draft-Tokens kontextunabhängig ist

Wenn das obige „10+2“ ist, ist es schwierig, den nächsten Token an dieser Position vorherzusagen, um die Draft-Trefferquote zu erhöhen. Nur einer von „10+2=" und „10+2+". richtig. Wenn das Obige „10+2=“ ist, ist das nächste Token offensichtlich „1“, aber EAGLE verwendet eine statische Entwurfsstruktur und fügt trotzdem zwei Kandidaten „1“ und „3“ hinzu kann durch die Inspektion großer Sprachmodelle Verschwendung sein. EAGLE-2 zielt darauf ab, dieses Problem zu lösen. Wenn oben „10+2=“ steht, fügt EAGLE-2 nur ein Kandidaten-Token „1“ hinzu und verwendet das gespeicherte Token, um den Entwurfsbaum zu vertiefen. , sodass „10+2=12“ die Prüfung des großen Sprachmodells besteht und EAGLE-2 mehr Token gleichzeitig generieren kann.

Die Autoren von EAGLE-2 führten einen einfachen Test mit dem Alpaca-Datensatz durch. Die Abbildung unten zeigt die Akzeptanzrate der Draft-Tokens an verschiedenen Positionen, und die horizontale Linie zeigt in der rechten Abbildung entsprechen die Achsenkoordinaten. Die experimentellen Ergebnisse zeigen, dass auch die Akzeptanzraten von Draft-Tokens an derselben Position deutlich unterschiedlich sind, was zeigt, dass die Verwendung dynamischer Draft-Bäume bessere Ergebnisse erzielen kann als statische Draft-Bäume.

Im obigen Beispiel bestimmt EAGLE-2 die Struktur des Entwurfsbaums basierend auf der Schwierigkeit, den Entwurfs-Token vorherzusagen. Eine genaue Berechnung der Schwierigkeit (Akzeptanzrate) erfordert die Berechnungsergebnisse des ursprünglichen großen Sprachmodells. Dies verstößt gegen die ursprüngliche Absicht des Zugriffs auf ursprüngliche große Sprachmodelle. Glücklicherweise korreliert die Zuverlässigkeit des Entwurfsmodells von EAGLE stark positiv mit der Akzeptanzrate (Schwierigkeit). Die folgende Abbildung zeigt die durchschnittliche Akzeptanzrate von Draft-Tokens bei verschiedenen Konfidenzintervallen des Draft-Modells, wobei die rot gepunktete Linie (0,0) und (1,1) verbindet. Daraus folgt, dass die Konfidenz des Entwurfsmodells als gültige Näherung für die Akzeptanzrate verwendet werden kann.

无损加速最高5x，EAGLE-2让RTX 3060的生成速度超过A100

Methode

EAGLE-2 umfasst zwei Phasen: Erweiterung und Neuanordnung. Die Erweiterungsphase vertieft und vergrößert den Entwurfsbaum, und die Neuanordnungsphase beschneidet den Entwurfsbaum und verwirft einige Knoten (Token).

Um Verlustfreiheit zu gewährleisten, ist die Voraussetzung für die Akzeptanz eines Draft-Tokens, dass alle seine Vorfahrenknoten akzeptiert werden. Daher definiert EAGLE-2 den Wert eines Knotens als das Produkt aus ihm und der Akzeptanzrate seines Vorfahren. Verwenden des Konfidenzniveaus zur Annäherung.

In der Erweiterungsphase wählt EAGLE-2 die m Knoten (Tokens) mit dem höchsten Wert in der letzten Ebene des Entwurfsbaums zur Erweiterung aus. Diese Token werden in das Entwurfsmodell eingespeist, und dann wird die Ausgabe des Entwurfsmodells als untergeordneter Knoten mit dem Eingabeknoten verbunden, wodurch der Entwurfsbaum vertieft und vergrößert wird. In der Neuordnungsphase ordnet EAGLE-2 den gesamten Entwurfsbaum nach Wert neu und behält dabei die ersten n Knoten (Tokens) bei. Die Konfidenz des Entwurfs-Tokens liegt zwischen 0 und 1. Wenn die beiden Knoten den gleichen Wert haben, werden die flachen Knoten zuerst beibehalten. Daher muss der nach der Neuanordnung beibehaltene Entwurfsbaum verbunden werden, um semantische Kohärenz sicherzustellen. Nach der Neuanordnung wird der Entwurfsbaum kleiner, wodurch die Rechenlast der ursprünglichen Überprüfung des großen Sprachmodells verringert wird. Um die Genauigkeit der Berechnungsergebnisse sicherzustellen, muss die Aufmerksamkeitsmaske angepasst werden, um sicherzustellen, dass jeder Token nur seine Vorfahrenknoten sehen kann und nicht von anderen Zweigen beeinflusst wird. Unten finden Sie ein einfaches Beispiel.

Die gelben Kästchen in der Erweiterungsphase stellen die zur Erweiterung ausgewählten Knoten dar, und die grünen Kästchen sind die Vorhersagen des Entwurfsmodells, wenn diese Knoten als Eingabe verwendet werden. Die blauen Kästchen in der Rerank-Phase stellen die beibehaltenen Knoten dar, die dann als Eingabe für das ursprüngliche große Sprachmodell auf eine Dimension reduziert werden. EAGLE-2 passt die Aufmerksamkeitsmaske entsprechend der Struktur des Baums an. Beispielsweise kann „a“ nur seine Vorfahren „It“ und „is“ sehen, aber nicht „has“ eines anderen Zweigs. EAGLE-2 passt außerdem die Positionskodierung an, um Konsistenz mit der standardmäßigen autoregressiven Dekodierung sicherzustellen.

Experiment

EAGLE-2 verwendet MT-Bench, Humaneval, GSM8K, Alpaca, CNN/ Experimente wurden mit dem DM-, Natural Questions-Datensatz durchgeführt und mit 6 fortgeschrittenen spekulativen Stichprobenmethoden (SpS, PLD, Medusa, Lookahead, Hydra, EAGLE).

无损加速最高5x，EAGLE-2让RTX 3060的生成速度超过A100

Speedup in der Tabelle ist das Beschleunigungsverhältnis und τ ist die durchschnittliche Akzeptanzlänge, also die Anzahl der Token, die das ursprüngliche große Sprachmodell für jede Vorwärtsberechnung generieren kann. EAGLE-2 kann für jede Vorwärtsberechnung etwa 4–5 Token generieren, während die autoregressive Dekodierung jedes Mal 1 Token generiert. Daher beschleunigt EAGLE-2 die Generierung großer Sprachmodelle mit einem Beschleunigungsverhältnis von 2,5x–5x erheblich. Die Beschleunigung und Akzeptanzlänge sind bei der Codegenerierungsaufgabe (Humaneval-Datensatz) am höchsten, da der Code eine große Anzahl deterministischer Vorlagen enthält und Entwürfe leichter zu treffen sind. Über alle Aufgaben und großen Sprachmodelle hinweg weist EAGLE-2 das höchste Beschleunigungsverhältnis und die durchschnittliche Akzeptanzlänge auf, deutlich besser als andere Methoden.

Anwendungen

EAGLE-2 wird auch in der Industrie verwendet und in Intel/Intel-Extension-for-Transformers usw. integriert.

Das obige ist der detaillierte Inhalt vonVerlustfreie Beschleunigung bis zu 5x, EAGLE-2 ermöglicht RTX 3060 eine schnellere Generierung als A100. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!