La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Dans le développement rapide des modèles génératifs, la tokenisation d'images joue un rôle très important, comme le VAE sur lequel s'appuie Diffusion ou le VQGAN sur lequel s'appuie Transformer. . Ces Tokenizers encodent l’image dans un espace latent plus compact, ce qui rend plus efficace la génération d’images haute résolution. Cependant, les tokenizers existants mappent généralement l'image d'entrée dans une matrice 2D sous-échantillonnée dans l'espace latent. Cette conception limite implicitement la relation de mappage entre les jetons et les images, ce qui rend difficile l'utilisation efficace des informations redondantes dans l'image (par exemple). , les zones adjacentes ont souvent des caractéristiques similaires) pour obtenir un codage d'image plus efficace. Afin de résoudre ce problème, ByteDance Beanbao Big Model Team et l'Université technique de Munich ont proposé un nouveau tokenizer d'image 1D : TiTok. Ce tokenizer brise les limites de conception du tokenizer 2D et peut compresser l'image entière en un. Séquence de jetons plus compacte.
- Lien papier : https://arxiv.org/abs/2406.07550
- Lien du projet : https://yucornetto.github.io/projects/titok.html
- Lien code : https://github.com/bytedance/1d-tokenizer
Pour une image de résolution 256 x 256, TiTok n'a besoin que d'un minimum de 32 jetons pour l'exprimer, soit 256 ou 1024 jetons que la 2D habituelle Tokenizer considérablement réduit. Pour une image de résolution 512 x 512, TiTok nécessite au moins 64 jetons, ce qui est 64 fois plus petit que le VAE Tokenizer de Stable Diffusion. De plus, pour la tâche de génération d'images ImageNet, l'utilisation de TiTok comme générateur de Tokenizer a considérablement amélioré la qualité et la vitesse de génération. À une résolution de 256, TiTok a atteint un FID de 1,97, dépassant largement le 4,21 de MaskGIT en utilisant le même générateur. À une résolution de 512, TiTok peut atteindre un FID de 2,74, ce qui non seulement dépasse DiT (3,04), mais accélère également la génération d'images de 410 fois par rapport à DiT ! La meilleure variante de TiTok a atteint un FID de 2,13, dépassant largement le DiT tout en atteignant une accélération de 74x. avec les jetons requis pour les images afin d'obtenir des vitesses de génération nettement plus rapides, mais tout en conservant une génération d'images de haute qualité.
La structure de TiTok est très simple. Les parties codeur et décodeur sont chacune un ViT. Pendant le processus d'encodage, un ensemble de jetons latents sera épissé après. les patchs d'image. Après passage dans l'encodeur, seuls les jetons latents sont conservés et le processus de quantification est effectué. Les jetons latents quantifiés obtenus seront assemblés avec un ensemble de jetons de masque et envoyés au décodeur pour reconstruire l'image à partir de la séquence de jetons de masque. Étude sur les propriétés de la tokenisation 1DLes chercheurs ont mené une série d'études expérimentales sur différents nombres de jetons utilisés pour représenter des images, différentes tailles de tokeniseur, les performances de reconstruction, les performances de génération, la précision du sondage linéaire et la formation et Comparaison de la vitesse de raisonnement. Au cours de ce processus, les chercheurs ont découvert que (1) seuls 32 jetons peuvent obtenir de bons effets de reconstruction et de génération (2) En augmentant la taille du modèle de Tokenizer, les chercheurs peuvent utiliser moins de jetons pour représenter les images (3) Lorsque les images sont représentées par moins de jetons , Tokenizer apprendra des informations sémantiques plus fortes. (4) Lorsque moins de jetons sont utilisés pour représenter des images, les vitesses de formation et d'inférence sont considérablement améliorées.
De plus, la vidéo montre les images reconstruites en utilisant différentes tailles de Tokenizer et le nombre de Tokens. On peut voir qu'un Tokenizer plus grand peut reconstruire des images de meilleure qualité avec des Tokens limités. De plus, lorsqu’il n’y a qu’un nombre limité de jetons, le modèle est plus enclin à conserver les zones saillantes et à obtenir de meilleurs résultats de reconstruction.
Vérification expérimentaleLes chercheurs ont principalement comparé avec d'autres méthodes à la résolution de 256 x 256 et à la résolution de 512 x 512 d'ImageNet-1k. On peut voir que bien que TiTok utilise un nombre limité de jetons, il peut obtenir des résultats de reconstruction comparables (rFID) avec d'autres méthodes qui utilisent plus de jetons. L'utilisation d'un plus petit nombre de jetons permet à TiTok de maintenir une qualité d'image générée (gFID) plus élevée. en même temps, sa vitesse de génération est nettement plus rapide que les autres méthodes. Par exemple, TiTok-L-32 a atteint un score gFID de 2,77 et peut générer des images à une vitesse de 101,6 images par seconde, ce qui est nettement plus rapide que les autres modèles de diffusion (169 fois plus rapides que DiT) ou les modèles de transformateur. (339 fois plus rapide que ViT-VQGAN).
L'avantage de TiTok d'utiliser moins de jetons est plus évident dans la génération d'images à plus haute résolution, où TiTok-L-64 peut la compléter en utilisant seulement 64 jetons. qualité d'images de résolution 512. La qualité des images générées est non seulement supérieure à DiT (2,74 contre 3,04), mais la vitesse de génération est augmentée de près de 410 fois.
Dans cet article, le chercheur se concentre sur un nouveau Tokenizer d'image 1D et propose un nouveau Tokenizer pour briser les limites du Tokenizer 2D existant et le rendre plus avancé. Bon usage de informations redondantes dans les images. TiTok n'a besoin que d'un petit nombre de jetons (par exemple 32) pour représenter les images, tout en étant capable d'effectuer une reconstruction et une génération d'images de haute qualité. Dans les expériences de génération d'ImageNet à 256 et 512 résolutions, TiTok a non seulement atteint une qualité de génération supérieure aux modèles de diffusion, mais a également atteint une vitesse de génération cent fois plus rapide. À propos de l'équipe Doubao Large Model Team . Contribuer au développement technologique et social. L'équipe Doubao Big Model a une vision et une détermination à long terme dans le domaine de l'IA. Ses axes de recherche couvrent la PNL, le CV, la parole, etc., et elle dispose de laboratoires et de postes de recherche en Chine, à Singapour, aux États-Unis. États et autres lieux. S'appuyant sur les données, les ressources informatiques et autres de la plate-forme, l'équipe continue d'investir dans des domaines connexes. Elle a lancé un grand modèle général auto-développé pour fournir des capacités multimodales. Elle prend en charge plus de 50 entreprises telles que Doubao, Buttons et. Jimeng en aval, et est ouvert au public via les clients Volcano Engine. À l'heure actuelle, Doubao APP est devenue l'application AIGC avec le plus grand nombre d'utilisateurs sur le marché chinois. Bienvenue dans l'équipe Bytedance Beanbao Big Model, cliquez sur le lien ci-dessous pour accéder au plan Bytedance Top Seed :
https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!