ByteDouBao の新しい画像トークナイザー: 画像の生成に必要なトークンはわずか 32 個で、速度は最大 410 倍向上します。-AI-php.cn

ByteDouBao の新しい画像トークナイザー: 画像の生成に必要なトークンはわずか 32 個で、速度は最大 410 倍向上します。

王林

リリース： 2024-06-24 14:03:31

オリジナル

1080 人が閲覧しました

ByteDouBao の新しい画像トークナイザー: 画像の生成に必要なトークンはわずか 32 個で、速度は最大 410 倍向上します。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

生成モデルの急速な開発において、画像トークン化は、Diffusion が依存する VAE や Transformer が依存する VQGAN など、非常に重要な役割を果たします。。これらのトークナイザーは、画像をよりコンパクトな潜在空間にエンコードし、高解像度画像の生成をより効率的にします。

しかし、既存のトークナイザーは通常、入力画像を潜在空間内のダウンサンプリングされた 2D 行列にマッピングするため、トークンと画像間のマッピング関係が暗黙的に制限され、画像内の冗長情報を効果的に利用することが困難になります。、隣接する領域には同様の特徴があることがよくあります）を使用して、より効果的な画像エンコードを実現します。

この問題を解決するために、ByteDance Beanbao Big Model チームとミュンヘン工科大学 は、新しい 1D 画像トークナイザーである TiTok を提案しました。このトークナイザーは、2D トークナイザーの設計制限を打ち破り、画像全体を 1 つに圧縮できます。よりコンパクトなトークンシーケンス。

ByteDouBao の新しい画像トークナイザー: 画像の生成に必要なトークンはわずか 32 個で、速度は最大 410 倍向上します。

論文リンク: https://arxiv.org/abs/2406.07550
プロジェクトリンク: https://yucornetto.github.io/projects/titok.html
コードリンク: https://github.com/bytedance/1d-tokenizer

解像度 256 x 256 の画像の場合、TiTok はそれを表現するために少なくとも 32 トークンのみ必要で、これは通常の 2D よりも 256 または 1024 トークンです。トークナイザーが大幅に減少しました。解像度 512 x 512 の画像の場合、TiTok に必要なトークンは最低 64 個だけです。これは、Stable Diffusion の VAE Tokenizer の 64 分の 1 です。さらに、ImageNet 画像生成のタスクでは、Tokenizer ジェネレーターとして TiTok を使用することで、生成品質と生成速度が大幅に向上しました。

解像度 256 で、TiTok は FID 1.97 を達成し、同じジェネレーターを使用した MaskGIT の 4.21 を大幅に上回りました。 512 の解像度で、TiTok は FID 2.74 を達成できます。これは DiT (3.04) を上回るだけでなく、画像生成を DiT と比較して 410 倍も高速化します。 TiTok の最良のバージョンは 2.13 の FID を達成し、74 倍の加速を達成しながら DiT を大幅に上回りました。 emages画像を大幅に削減するために必要なトークンを使用すると、生成速度が大幅に速くなりますが、高品質の画像生成を維持します。

ByteDouBao の新しい画像トークナイザー: 画像の生成に必要なトークンはわずか 32 個で、速度は最大 410 倍向上します。

モデルの構造

TiTokの構造は非常にシンプルで、エンコーダー部分とデコーダー部分はそれぞれViTであり、エンコード処理中に潜在トークンのセットが結合されます。画像パッチはエンコーダーを通過した後、潜在トークンのみが保持され、量子化プロセスが実行されます。取得された量子化された潜在トークンは、マスクトークンのセットと結合され、マスクトークンシーケンスから画像を再構築するためにデコーダーに送信されます。 ByteDouBao の新しい画像トークナイザー: 画像の生成に必要なトークンはわずか 32 個で、速度は最大 410 倍向上します。

1Dトークン化の特性に関する研究

研究者らは、画像を表現するために使用されるさまざまな数のトークン、さまざまなトークナイザーのサイズ、再構築パフォーマンス、生成パフォーマンス、線形プローブ精度、トレーニングとトレーニングに関する一連の実験的研究を実施しました。推理速度の比較。このプロセス中に、研究者らは、(1) わずか 32 個のトークンだけで良好な再構成および生成効果を達成できる (2) Tokenizer のモデルサイズを増やすことで、研究者は画像を表現するために使用するトークンの数を減らすことができる (3) 画像をより少ないトークンで表現できることを発見しました。 , トークナイザーは、より強力な意味情報を学習します (4) 画像を表現するために使用されるトークンが少なくなると、トレーニングと推論の速度が大幅に向上します。

さらに、ビデオでは、さまざまなトークナイザーのサイズとトークンの数を使用して再構築された画像が示されています。より大きなトークナイザーは、限られたトークンでより高品質の画像を再構築できることがわかります。さらに、トークンが限られている場合、モデルは顕著な領域を保持し、より良い再構成結果を達成する傾向があります。

実験検証

研究者らは主に、ImageNet-1k の 256 x 256 解像度と 512 x 512 解像度で他の方法と比較しました。 TiTok が使用するトークンの数は限られていますが、より少ない数のトークンを使用することで、TiTok がより高い生成画像品質 (gFID) を維持できる他の方法と同等の再構成結果 (rFID) を達成できることがわかります。同時に、他の方法よりも生成速度が大幅に速くなります。

たとえば、TiTok-L-32 は gFID スコア 2.77 を達成し、1 秒あたり 101.6 画像の速度で画像を生成できます。これは、他の拡散モデル (DiT の 169 倍) やトランスフォーマーモデルよりも大幅に高速です(ViT-VQGAN より 339 倍高速)。

より少ないトークンを使用する TiTok の利点は、高解像度の画像生成においてより明らかであり、TiTok-L-64 はわずか 64 個のトークンを使用して画像生成を完了できます。生成される画像の品質は DiT (2.74 対 3.04) よりも高いだけでなく、生成速度もほぼ 410 倍向上します。

結論

この記事では、研究者は新しい 1D 画像トークナイザーに焦点を当て、既存の 2D トークナイザーの制限を打ち破り、より高度なものにする新しいトークナイザーを提案します。画像内の冗長な情報。 TiTok は、画像を表現するために少数のトークン (32 個など) のみを必要とするだけで、高品質の画像の再構成と生成を実行できます。 ImageNet の 256 解像度と 512 解像度の生成実験において、TiTok は拡散モデルを超える生成品質を達成しただけでなく、100 倍速い生成速度も達成しました。

Doubaoラージモデルチームについて

ByteDance Doubaoラージモデルチームは2023年に設立され、業界最先端のAIラージモデルテクノロジーの開発と世界クラスの研究チームになることに尽力しています。 . 技術と社会の発展に貢献します。

Doubao Big Model チームは、AI 分野における長期的なビジョンと決意を持っており、その研究方向性は NLP、CV、音声などをカバーしており、中国、シンガポール、米国に研究所と研究職を持っています。州やその他の場所。チームは、プラットフォームの十分なデータ、コンピューティング、その他のリソースに依存して、マルチモーダル機能を提供するための自社開発の一般的な大規模モデルを立ち上げ、Doubao、Button などの 50 以上のビジネスをサポートしています。 Jimeng のダウンストリームは、Volcano エンジンを通じて一般に公開されています。現在、Doubao APP は中国市場で最も多くのユーザーを抱える AIGC アプリケーションとなっています。

Bytedance Beanbao Big Model チームへの参加へようこそ。下のリンクをクリックして Bytedance トップシードプランに参加してください:
https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ