ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다.-일체 포함-php.cn

ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다.

王林

풀어 주다： 2024-06-24 14:03:31

원래의

1080명이 탐색했습니다.

ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

생성 모델의 급속한 개발에서 이미지 토큰화는 Diffusion이 의존하는 VAE 또는 Transformer가 의존하는 VQGAN과 같이 매우 중요한 역할을 합니다. . 이러한 토크나이저는 이미지를 보다 컴팩트한 잠재 공간으로 인코딩하여 고해상도 이미지를 생성하는 데 더 효율적입니다.

기존 토크나이저는 일반적으로 입력 이미지를 잠재 공간의 다운샘플링된 2D 매트릭스에 매핑합니다. 이 설계는 토큰과 이미지 간의 매핑 관계를 암시적으로 제한하여 이미지의 중복 정보를 효과적으로 활용하기 어렵습니다(예: , 인접한 영역은 유사한 특징을 갖는 경우가 많음) 보다 효과적인 이미지 인코딩을 얻습니다.

이 문제를 해결하기 위해 ByteDance Beanbao Big Model Team과 뮌헨 기술 대학은 새로운 1D 이미지 Tokenizer인 TiTok을 제안했습니다. 이 Tokenizer는 2D Tokenizer의 설계 한계를 깨고 전체 이미지를 하나의 이미지로 압축할 수 있습니다. 더 컴팩트한 토큰 시퀀스.

ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다.

페이퍼 링크: https://arxiv.org/abs/2406.07550
프로젝트 링크: https://yucornetto.github.io/projects/titok.html
코드 링크: https://github.com/bytedance/1d-tokenizer

256 x 256 해상도 이미지의 경우 TiTok은 이를 표현하는 데 최소 32개의 토큰만 필요합니다. 이는 일반적인 2D보다 256 또는 1024개의 토큰입니다. 토크나이저가 크게 감소했습니다. 512 x 512 해상도 이미지의 경우 TiTok에는 Stable Diffusion의 VAE Tokenizer보다 64배 작은 최소 64개의 토큰만 필요합니다. 또한 ImageNet 이미지 생성 작업에서 TiTok을 Tokenizer 생성기로 사용하면 생성 품질과 생성 속도가 크게 향상되었습니다.

256 해상도에서 TiTok은 동일한 생성기를 사용하여 MaskGIT의 4.21을 크게 능가하는 1.97의 FID를 달성했습니다. 512 해상도에서 TiTok은 2.74의 FID를 달성할 수 있습니다. 이는 DiT(3.04)를 초과할 뿐만 아니라 DiT에 비해 이미지 생성 속도를 무려 410배나 가속화합니다! TiTok의 가장 좋은 변형은 2.13의 FID를 달성하여 DiT를 크게 초과하는 동시에 74배 가속도를 달성했습니다. ㅋㅋㅋ > > 이미지를 크게 줄이는 데 필요한 토큰을 사용하면 생성 속도가 훨씬 빨라지지만 고품질 이미지 생성은 유지됩니다.

ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다.

모델 구조

ByteDouBao의 새로운 이미지 토큰화기: 이미지를 생성하는 데 단 32개의 토큰만 필요하며 속도는 최대 410배 향상됩니다. 인코더와 디코더 부분은 각각 ViT입니다. 이후에 잠재 토큰 세트가 이어집니다. 이미지 패치를 통과한 후 잠재 토큰만 유지되고 양자화 프로세스가 수행됩니다. 획득된 양자화된 잠재 토큰은 마스크 토큰 세트와 함께 연결되어 마스크 토큰 시퀀스에서 이미지를 재구성하기 위해 디코더로 전송됩니다.

^{1D 토큰화 속성에 대한 연구

연구원들은 이미지를 표현하는 데 사용되는 다양한 수의 토큰, 다양한 토크나이저 크기, 재구성 성능, 생성 성능, 선형 프로빙 정확도 및 훈련 및 추론 속도 비교. 이 과정에서 연구자들은 (1) 32개의 토큰만이 좋은 재구성 및 생성 효과를 얻을 수 있다는 것을 발견했습니다. (2) Tokenizer의 모델 크기를 늘림으로써 연구자는 이미지를 표현하는 데 더 적은 수의 토큰을 사용할 수 있습니다. (3) 더 적은 수의 토큰으로 사진을 표현할 때 , Tokenizer는 더 강력한 의미 정보를 학습합니다. (4) 그림을 표현하는 데 더 적은 수의 토큰을 사용하면 훈련 및 추론 속도가 크게 향상됩니다.

또한 영상에서는 다양한 토크나이저 크기와 토큰 수를 사용하여 재구성된 이미지를 보여줍니다. 더 큰 토크나이저는 제한된 토큰으로 더 나은 품질의 이미지를 재구성할 수 있음을 알 수 있습니다. 또한 제한된 토큰만 있는 경우 모델은 두드러진 영역을 유지하고 더 나은 재구성 결과를 얻는 경향이 더 큽니다.

실험적 검증

연구진은 주로 ImageNet-1k의 256 x 256 해상도와 512 x 512 해상도에서 다른 방법과 비교했습니다. TiTok은 제한된 수의 토큰을 사용하지만 더 많은 토큰을 사용하는 다른 방법과 비교할 수 있는 재구성 결과(rFID)를 얻을 수 있음을 알 수 있습니다. 동시에 다른 방법보다 생성 속도가 훨씬 빠릅니다.

예를 들어 TiTok-L-32는 gFID 점수 2.77을 달성했으며 초당 101.6개의 이미지 속도로 이미지를 생성할 수 있습니다. 이는 다른 확산 모델(DiT보다 169배 빠름) 또는 변압기 모델보다 훨씬 빠릅니다. (ViT-VQGAN보다 339배 빠릅니다).

TiTok의 더 적은 토큰을 사용하는 이점은 TiTok-L-64가 64개의 토큰만 사용하여 완료할 수 있는 고해상도 이미지 생성에서 더욱 분명해집니다. 생성된 이미지의 품질은 DiT(2.74 대 3.04)보다 높을 뿐만 아니라 생성 속도도 거의 410배 향상되었습니다.

결론

본 글에서 연구자는 새로운 1D Image Tokenizer에 주목하여 기존 2D Tokenizer의 한계를 깨고 더욱 발전된 새로운 Tokenizer를 제안한다. 이미지에 중복된 정보가 있습니다. TiTok은 이미지를 표현하는 데 소수의 토큰(예: 32개)만 필요하며 동시에 고품질 이미지 재구성 및 생성을 수행할 수 있습니다. ImageNet의 256 해상도 및 512 해상도 생성 실험에서 TiTok은 확산 모델을 능가하는 생성 품질을 달성했을 뿐만 아니라 100배 빠른 생성 속도도 달성했습니다.

Doubao 대형 모델 팀 정보

ByteDance Doubao 대형 모델 팀은 2023년에 설립되었으며 업계에서 가장 앞선 AI 대형 모델 기술을 개발하고 세계적 수준의 연구 팀이 되기 위해 최선을 다하고 있습니다. . 기술 및 사회 발전에 기여합니다.

Doubao Big Model 팀은 AI 분야에 대한 장기적인 비전과 의지를 가지고 있으며 연구 방향은 NLP, CV, 연설 등을 포함하며 중국, 싱가포르, 미국에 연구소와 연구직을 두고 있습니다. 주 및 기타 장소. 플랫폼의 충분한 데이터, 컴퓨팅 및 기타 리소스를 기반으로 팀은 자체 개발한 일반 대형 모델을 출시하여 Doubao, Button 및 기타 비즈니스를 지원합니다. Jimeng 하류는 Volcano 엔진을 통해 대중에게 공개됩니다. 현재 Doubao APP는 중국 시장에서 가장 많은 사용자를 보유한 AIGC 애플리케이션이 되었습니다.

Bytedance Beanbao 빅 모델 팀에 오신 것을 환영합니다. 아래 링크를 클릭하여 Bytedance Top Seed 플랜에 들어가세요:
https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ}