ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.-KI-php.cn

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

王林

Freigeben： 2024-06-24 14:03:31

Original

1275 Leute haben es durchsucht

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Übermittlungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Bei der schnellen Entwicklung generativer Modelle spielt die Bild-Tokenisierung eine sehr wichtige Rolle, wie zum Beispiel VAE, auf das sich Diffusion verlässt, oder VQGAN, auf das sich Transformer verlässt. . Diese Tokenizer kodieren das Bild in einen kompakteren latenten Raum und machen es so effizienter, hochauflösende Bilder zu erzeugen.

Allerdings bilden bestehende Tokenizer das Eingabebild normalerweise in eine heruntergesampelte 2D-Matrix im latenten Raum ab. Dieses Design schränkt implizit die Zuordnungsbeziehung zwischen Token und Bildern ein, was es schwierig macht, redundante Informationen im Bild effektiv zu nutzen (z. B (benachbarte Bereiche weisen häufig ähnliche Merkmale auf), um eine effektivere Bildkodierung zu erhalten.

Um dieses Problem zu lösen, haben das ByteDance Beanbao Big Model Team und die Technische Universität München einen neuen 1D-Bild-Tokenizer vorgeschlagen: TiTok. Dieser Tokenizer durchbricht die Designbeschränkungen des 2D-Tokenizers und kann das gesamte Bild auf ein kompaktere Token-Sequenz.

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

Papier-Link: https://arxiv.org/abs/2406.07550
Projekt-Link: https://yucornetto.github.io/projects/titok.html
Code-Link: https://github.com/bytedance/1d-tokenizer

Für ein Bild mit einer Auflösung von 256 x 256 benötigt TiTok nur mindestens 32 Token, um es auszudrücken, das sind 256 oder 1024 Token als das übliche 2D Tokenizer deutlich reduziert. Für ein Bild mit einer Auflösung von 512 x 512 benötigt TiTok mindestens 64 Token, was 64-mal kleiner ist als der VAE-Tokenizer von Stable Diffusion. Darüber hinaus hat die Verwendung von TiTok als Tokenizer-Generator bei der ImageNet-Bildgenerierung die Generierungsqualität und -geschwindigkeit erheblich verbessert.

Bei einer Auflösung von 256 erreichte TiTok einen FID von 1,97 und übertraf damit den 4,21 von MaskGIT bei Verwendung desselben Generators deutlich. Bei einer Auflösung von 512 kann TiTok einen FID von 2,74 erreichen, was nicht nur DiT (3,04) übertrifft, sondern auch die Bilderzeugung im Vergleich zu DiT um das erstaunliche 410-fache beschleunigt! Die beste Variante von TiTok erreichte einen FID von 2,13 und übertraf damit DiT deutlich, erreichte aber dennoch eine 74-fache Beschleunigung.

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

^{mit für Bilder erforderlichen Token, was zu deutlich schnelleren Generierungsgeschwindigkeiten führt, aber gleichzeitig eine qualitativ hochwertige Bildgenerierung beibehält.}

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

Modellstruktur

Die Encoder- und Decoderteile sind jeweils ein ViT. Während des Codierungsprozesses wird ein Satz latenter Token zusammengefügt Nach dem Durchlaufen des Encoders bleiben nur die latenten Token erhalten und der Quantisierungsprozess wird durchgeführt. Die erhaltenen quantisierten latenten Token werden mit einem Satz Masken-Tokens zusammengefügt und an den Decoder gesendet, um das Bild aus der Masken-Token-Sequenz zu rekonstruieren.

Studie zu den Eigenschaften der 1D-Tokenisierung

Die Forscher führten eine Reihe experimenteller Studien zu unterschiedlichen Anzahlen von Tokens durch, die zur Darstellung von Bildern verwendet werden, zu unterschiedlichen Tokenizer-Größen, zur Rekonstruktionsleistung, zur Generierungsleistung, zur linearen Sondierungsgenauigkeit und zum Training Vergleich der Denkgeschwindigkeit. Während dieses Prozesses stellten die Forscher fest, dass (1) nur 32 Token gute Rekonstruktions- und Generierungseffekte erzielen können (2) Durch Erhöhen der Modellgröße von Tokenizer können Forscher weniger Token zur Darstellung von Bildern verwenden (3) Wenn weniger Token zur Darstellung verwendet werden Bilder lernt der Tokenizer stärkere semantische Informationen (4). Wenn weniger Token zur Darstellung von Bildern verwendet werden, werden die Trainings- und Inferenzgeschwindigkeiten erheblich verbessert.

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

Darüber hinaus zeigt das Video die rekonstruierten Bilder mit unterschiedlichen Tokenizer-Größen und der Anzahl der Token. Es ist ersichtlich, dass ein größerer Tokenizer mit begrenzten Token qualitativ bessere Bilder rekonstruieren kann. Wenn nur eine begrenzte Anzahl von Token vorhanden ist, tendiert das Modell außerdem eher dazu, hervorstechende Bereiche beizubehalten und bessere Rekonstruktionsergebnisse zu erzielen.

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

Experimentelle Verifizierung

Die Forscher verglichen hauptsächlich mit anderen Methoden bei der Auflösung 256 x 256 und der Auflösung 512 x 512 von ImageNet-1k. Es ist ersichtlich, dass TiTok zwar eine begrenzte Anzahl von Tokens verwendet, aber mit anderen Methoden, die mehr Tokens verwenden, vergleichbare Rekonstruktionsergebnisse (rFID) erzielen kann. Durch die Verwendung einer geringeren Anzahl von Tokens kann TiTok eine höhere generierte Bildqualität (gFID) aufrechterhalten Gleichzeitig ist die Generierungsgeschwindigkeit deutlich höher als bei anderen Methoden.

Zum Beispiel erreichte TiTok-L-32 einen gFID-Score von 2,77 und kann Bilder mit einer Geschwindigkeit von 101,6 Bildern pro Sekunde erzeugen, was deutlich schneller ist als andere Diffusionsmodelle (169-mal schneller als DiT) oder Transformer-Modelle (339 Mal schneller als ViT-VQGAN) Qualität der Bilder mit einer Auflösung von 512. Die Qualität der generierten Bilder ist nicht nur höher als bei DiT (2,74 gegenüber 3,04), sondern auch die Generierungsgeschwindigkeit ist um fast das 410-fache erhöht.

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

Fazit

ByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.

In diesem Artikel konzentriert sich der Forscher auf einen neuen 1D-Bild-Tokenizer und schlägt einen neuen Tokenizer vor, um die Einschränkungen des vorhandenen 2D-Tokenizers zu überwinden und ihn besser zu nutzen redundante Informationen in Bildern. TiTok benötigt nur eine kleine Anzahl von Token (z. B. 32), um Bilder darzustellen, ist aber dennoch in der Lage, eine qualitativ hochwertige Bildrekonstruktion und -generierung durchzuführen. In ImageNets Generierungsexperimenten mit 256 Auflösungen und 512 Auflösungen erreichte TiTok nicht nur eine Generierungsqualität, die die Diffusionsmodelle übertraf, sondern auch eine hundertmal schnellere Generierungsgeschwindigkeit. Über das Doubao Large Model Team . Zur technologischen und gesellschaftlichen Entwicklung beitragen.

Das Doubao Big Model-Team verfügt über eine langfristige Vision und Entschlossenheit im Bereich KI. Seine Forschungsrichtungen umfassen NLP, Lebenslauf, Sprache usw. und es verfügt über Labore und Forschungsstellen in China, Singapur und den Vereinigten Staaten Staaten und andere Orte. Das Team verlässt sich auf die ausreichenden Daten-, Rechen- und anderen Ressourcen der Plattform und investiert weiterhin in verwandte Bereiche. Es hat ein selbst entwickeltes allgemeines Großmodell eingeführt, um multimodale Funktionen bereitzustellen. Es unterstützt mehr als 50 Unternehmen wie Doubao, Buttons und Jimeng flussabwärts und ist über die Volcano Engine für die Öffentlichkeit zugänglich. Derzeit ist Doubao APP die AIGC-Anwendung mit der größten Benutzerzahl auf dem chinesischen Markt.

Willkommen im Bytedance Beanbao Big Model Team. Klicken Sie auf den Link unten, um am Bytedance Top Seed-Plan teilzunehmen:

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

Das obige ist der detaillierte Inhalt vonByteDouBaos neuer Image-Tokenizer: Zur Generierung eines Bildes werden nur 32 Token benötigt und die Geschwindigkeit wird um das bis zu 410-fache erhöht.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!