communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > Périphériques technologiques > IA > Le nouveau tokenizer d'image de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusqu'à 410 fois.

Le nouveau tokenizer d'image de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusqu'à 410 fois.

王林

Libérer： 2024-06-24 14:03:31

original

1079 Les gens l'ont consulté

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Dans le développement rapide des modèles génératifs, la tokenisation d'images joue un rôle très important, comme le VAE sur lequel s'appuie Diffusion ou le VQGAN sur lequel s'appuie Transformer. . Ces Tokenizers encodent l’image dans un espace latent plus compact, ce qui rend plus efficace la génération d’images haute résolution.

Cependant, les tokenizers existants mappent généralement l'image d'entrée dans une matrice 2D sous-échantillonnée dans l'espace latent. Cette conception limite implicitement la relation de mappage entre les jetons et les images, ce qui rend difficile l'utilisation efficace des informations redondantes dans l'image (par exemple). , les zones adjacentes ont souvent des caractéristiques similaires) pour obtenir un codage d'image plus efficace.

Afin de résoudre ce problème, ByteDance Beanbao Big Model Team et l'Université technique de Munich ont proposé un nouveau tokenizer d'image 1D : TiTok. Ce tokenizer brise les limites de conception du tokenizer 2D et peut compresser l'image entière en un. Séquence de jetons plus compacte.

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

Lien papier : https://arxiv.org/abs/2406.07550
Lien du projet : https://yucornetto.github.io/projects/titok.html
Lien code : https://github.com/bytedance/1d-tokenizer

Pour une image de résolution 256 x 256, TiTok n'a besoin que d'un minimum de 32 jetons pour l'exprimer, soit 256 ou 1024 jetons que la 2D habituelle Tokenizer considérablement réduit. Pour une image de résolution 512 x 512, TiTok nécessite au moins 64 jetons, ce qui est 64 fois plus petit que le VAE Tokenizer de Stable Diffusion. De plus, pour la tâche de génération d'images ImageNet, l'utilisation de TiTok comme générateur de Tokenizer a considérablement amélioré la qualité et la vitesse de génération.

À une résolution de 256, TiTok a atteint un FID de 1,97, dépassant largement le 4,21 de MaskGIT en utilisant le même générateur. À une résolution de 512, TiTok peut atteindre un FID de 2,74, ce qui non seulement dépasse DiT (3,04), mais accélère également la génération d'images de 410 fois par rapport à DiT ! La meilleure variante de TiTok a atteint un FID de 2,13, dépassant largement le DiT tout en atteignant une accélération de 74x.

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

^{avec les jetons requis pour les images afin d'obtenir des vitesses de génération nettement plus rapides, mais tout en conservant une génération d'images de haute qualité.}

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

Structure du modèle

La structure de TiTok est très simple. Les parties codeur et décodeur sont chacune un ViT. Pendant le processus d'encodage, un ensemble de jetons latents sera épissé après. les patchs d'image. Après passage dans l'encodeur, seuls les jetons latents sont conservés et le processus de quantification est effectué. Les jetons latents quantifiés obtenus seront assemblés avec un ensemble de jetons de masque et envoyés au décodeur pour reconstruire l'image à partir de la séquence de jetons de masque.

Étude sur les propriétés de la tokenisation 1D

Les chercheurs ont mené une série d'études expérimentales sur différents nombres de jetons utilisés pour représenter des images, différentes tailles de tokeniseur, les performances de reconstruction, les performances de génération, la précision du sondage linéaire et la formation et Comparaison de la vitesse de raisonnement. Au cours de ce processus, les chercheurs ont découvert que (1) seuls 32 jetons peuvent obtenir de bons effets de reconstruction et de génération (2) En augmentant la taille du modèle de Tokenizer, les chercheurs peuvent utiliser moins de jetons pour représenter les images (3) Lorsque les images sont représentées par moins de jetons , Tokenizer apprendra des informations sémantiques plus fortes. (4) Lorsque moins de jetons sont utilisés pour représenter des images, les vitesses de formation et d'inférence sont considérablement améliorées.

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

De plus, la vidéo montre les images reconstruites en utilisant différentes tailles de Tokenizer et le nombre de Tokens. On peut voir qu'un Tokenizer plus grand peut reconstruire des images de meilleure qualité avec des Tokens limités. De plus, lorsqu’il n’y a qu’un nombre limité de jetons, le modèle est plus enclin à conserver les zones saillantes et à obtenir de meilleurs résultats de reconstruction.

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

Vérification expérimentale

Les chercheurs ont principalement comparé avec d'autres méthodes à la résolution de 256 x 256 et à la résolution de 512 x 512 d'ImageNet-1k. On peut voir que bien que TiTok utilise un nombre limité de jetons, il peut obtenir des résultats de reconstruction comparables (rFID) avec d'autres méthodes qui utilisent plus de jetons. L'utilisation d'un plus petit nombre de jetons permet à TiTok de maintenir une qualité d'image générée (gFID) plus élevée. en même temps, sa vitesse de génération est nettement plus rapide que les autres méthodes.

Par exemple, TiTok-L-32 a atteint un score gFID de 2,77 et peut générer des images à une vitesse de 101,6 images par seconde, ce qui est nettement plus rapide que les autres modèles de diffusion (169 fois plus rapides que DiT) ou les modèles de transformateur. (339 fois plus rapide que ViT-VQGAN).

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

L'avantage de TiTok d'utiliser moins de jetons est plus évident dans la génération d'images à plus haute résolution, où TiTok-L-64 peut la compléter en utilisant seulement 64 jetons. qualité d'images de résolution 512. La qualité des images générées est non seulement supérieure à DiT (2,74 contre 3,04), mais la vitesse de génération est augmentée de près de 410 fois.

Le nouveau tokenizer dimage de ByteDouBao : seuls 32 jetons sont nécessaires pour générer une image et la vitesse est augmentée jusquà 410 fois.

Conclusion

Dans cet article, le chercheur se concentre sur un nouveau Tokenizer d'image 1D et propose un nouveau Tokenizer pour briser les limites du Tokenizer 2D existant et le rendre plus avancé. Bon usage de informations redondantes dans les images. TiTok n'a besoin que d'un petit nombre de jetons (par exemple 32) pour représenter les images, tout en étant capable d'effectuer une reconstruction et une génération d'images de haute qualité. Dans les expériences de génération d'ImageNet à 256 et 512 résolutions, TiTok a non seulement atteint une qualité de génération supérieure aux modèles de diffusion, mais a également atteint une vitesse de génération cent fois plus rapide. À propos de l'équipe Doubao Large Model Team . Contribuer au développement technologique et social.

L'équipe Doubao Big Model a une vision et une détermination à long terme dans le domaine de l'IA. Ses axes de recherche couvrent la PNL, le CV, la parole, etc., et elle dispose de laboratoires et de postes de recherche en Chine, à Singapour, aux États-Unis. États et autres lieux. S'appuyant sur les données, les ressources informatiques et autres de la plate-forme, l'équipe continue d'investir dans des domaines connexes. Elle a lancé un grand modèle général auto-développé pour fournir des capacités multimodales. Elle prend en charge plus de 50 entreprises telles que Doubao, Buttons et. Jimeng en aval, et est ouvert au public via les clients Volcano Engine. À l'heure actuelle, Doubao APP est devenue l'application AIGC avec le plus grand nombre d'utilisateurs sur le marché chinois.

Bienvenue dans l'équipe Bytedance Beanbao Big Model, cliquez sur le lien ci-dessous pour accéder au plan Bytedance Top Seed :

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

工程字节跳动 TiTok

source：jiqizhixin.com

Article précédent：Huawei Cloud utilise le grand modèle Pangu pour remodeler les services et ModelArts Studio est entièrement mis à niveau Article suivant：CVPR 24｜ETH Zurich et autres équipes : Redéfinissant la tâche de segmentation 3D de petits échantillons, le nouveau benchmark ouvre un large potentiel d'amélioration !

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Créer l'avenir : programmation Java pour les débutants absolus

2024-10-13 13:32:21
Vous n'êtes pas seul : maîtrisez Python avec une communauté de soutien à vos côtés

2024-10-12 11:58:51
Du novice au codeur : exploitez la puissance de la programmation Python

2024-10-11 20:06:51
Pensez comme un programmeur : apprendre les principes fondamentaux de Java

2024-10-11 18:59:31
Java Made Simple : un guide du débutant sur la puissance de programmation

2024-10-11 18:30:51
Créer un blog avec PHP : un projet adapté aux débutants

2024-10-11 15:51:51
Parlez le langage des systèmes : apprenez le C, une ligne à la fois

2024-10-11 15:42:10
Structures de données et algorithmes en C : une approche adaptée aux débutants

2024-10-11 14:41:20
Coder sans larmes : apprendre le C en toute simplicité

2024-10-11 14:08:31
Analyse de données avec Java : guide du débutant sur le traitement des informations

2024-10-11 13:42:21

Derniers numéros

Déplacez le contenu vers la gauche en ajoutant la propriété Largeur J'ai prévu des marges au corps. main {gauche marge : 200px ; marge droite : 200px ; aligne...

Depuis 2024-04-06 22:01:35

0

3

816

Quelles sont les meilleures pratiques pour afficher les informations de version dans les applications Web ? Je développe une application Web. Quelles sont les meilleures pratiques pour afficher les ...

Depuis 2024-04-06 19:13:16

0

2

476

Problème d'initialisation de la propriété CommandText J'essaie de matérialiser les données dans 2 (plus tard 3) tables simultanément à l'aide d'...

Depuis 2024-04-04 22:43:24

0

1

385

Délégué d'événement Javascript avec sélecteur inconnu et enfants J'ai un sélecteur dynamique (linkTrigger) qui est censé capturer les clics sur un élément....

Depuis 2024-04-03 23:39:19

0

1

420

JQuery - Calculs/conversions à la volée dans des tables dynamiques J'ai un tableau HTML dynamique (des lignes peuvent être ajoutées) et je veux "juste&q...

Depuis 2024-04-03 12:38:26

0

1

393

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal