SDXL Turbo 및 LCM은 AI 도면의 실시간 생성 시대를 가져옵니다. 입력하는 것만 큼 빠르게 이미지가 즉시 표시됩니다.-일체 포함-php.cn

SDXL Turbo 및 LCM은 AI 도면의 실시간 생성 시대를 가져옵니다. 입력하는 것만 큼 빠르게 이미지가 즉시 표시됩니다.

PHPz

풀어 주다： 2023-11-30 14:14:50

앞으로

1396명이 탐색했습니다.

Stability AI는 화요일에 차세대 이미지 합성 모델인 Stable Diffusion XL Turbo를 출시하여 사람들의 열광적인 반응을 불러일으켰습니다. 많은 사람들이 이미지-텍스트 생성을 위해 이 모델을 사용하는 것이 결코 쉬운 일이 아니라고 말했습니다.

입력 상자에 아이디어를 입력하면 SDXL Turbo가 신속하게 응답하고 다른 작업 없이 해당 콘텐츠를 생성합니다. 내용을 더 많이 또는 더 적게 입력해도 속도에는 영향을 미치지 않습니다.

SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

기존 이미지를 활용하여 더욱 자세하게 창작을 완성할 수 있습니다. 흰 종이 한 장을 가져다가 SDXL Turbo에게 흰 고양이를 원한다고 말하세요. 입력을 마치기도 전에 작은 흰 고양이가 이미 여러분의 손에 나타났습니다

SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

SDXL Turbo 모델의 속도는 다음과 같습니다. 거의 "실시간"이며 사람들은 궁금해하지 않을 수 없습니다. 이미지 생성 모델을 다른 목적으로 사용할 수 있습니까? 누군가 게임에 직접 연결하여 2fps 스타일 전송 화면을 얻었습니다:

공식 블로그에 따르면 A100에서 SDXL Turbo는 207밀리초(즉시 인코딩 + 단일 노이즈 제거 단계 + 디코딩, fp16) 만에 512x512 이미지를 생성할 수 있으며, 이 중 단일 UNet 순방향 평가에는 67밀리초가 소요됩니다. . SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

이렇게 보면 빈센트픽처가 '실시간' 시대에 진입했다고 판단할 수 있습니다.

이러한 '순간세대' 효율성은 얼마 전 인기를 끌었던 칭화 LCM 모델과 다소 유사해 보이지만, 그 이면에 숨어 있는 기술적 내용은 다릅니다. 안정성은 동시에 발표된 연구 논문에서 모델의 내부 작동을 자세히 설명했습니다. 이 연구는 ADD(Adversarial Diffusion Distillation)라는 기술에 중점을 두고 있습니다. SDXL Turbo의 주장된 장점 중 하나는 특히 단일 단계 이미지 출력 생성에서 생성적 적대 네트워크(GAN)와의 유사성입니다.

논문 주소: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation. pdf SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

논문 세부사항

간단히 말하면, 적대 확산 증류는 높은 샘플링 충실도를 유지하고 잠재적으로 모델의 전체 성능을 더욱 향상시키면서 사전 훈련된 확산 모델의 추론 단계 수를 1~4 샘플링 단계로 줄일 수 있는 일반적인 방법입니다.

이를 위해 연구원들은 (i) 적대적 손실과 (ii) SDS에 해당하는 증류 손실이라는 두 가지 훈련 목표의 조합을 도입했습니다. 적대적 손실로 인해 모델은 각 순방향 패스에서 실제 이미지 매니폴드에 있는 샘플을 직접 생성하여 다른 증류 방법에서 흔히 발생하는 흐릿함과 기타 아티팩트를 방지합니다. 증류 손실은 또 다른 사전 훈련된(고정된) 확산 모델을 교사로 사용하여 광범위한 지식을 효과적으로 활용하고 대규모 확산 모델에서 관찰되는 강력한 구성성을 유지합니다. 추론 과정에서 연구원들은 분류자가 없는 지침을 사용하지 않아 메모리 요구 사항을 더욱 줄였습니다. 이는 이전 GAN 기반 단일 단계 접근 방식에 비해 장점인 반복적 개선을 통해 결과를 개선하는 모델의 기능을 유지합니다.

훈련 단계는 그림 2에 나와 있습니다.

표 1은 절제 실험의 결과를 보여줍니다. 주요 결론은 다음과 같습니다. SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

다음은 다른 SOTA 모델과의 비교입니다. 여기서 연구자들은 자동화된 지표를 사용하지 않고 보다 신뢰할 수 있는 사용자 선호도 평가 방법을 선택했습니다. 신속한 준수와 전반적인 이미지를 평가하는 것이 목표였습니다.

다양한 모델 변형(StyleGAN-T++, OpenMUSE, IF-XL, SDXL 및 LCM-XL)을 비교하기 위해 실험에서는 동일한 프롬프트를 사용하여 출력을 생성합니다. 블라인드 테스트에서 SDXL Turbo는 LCM-XL의 4단계 구성을 한 단계로 이겼고, SDXL의 50단계 구성을 단 4단계로 이겼습니다. 이러한 결과에서 SDXL Turbo는 최첨단 다단계 모델의 성능을 능가하는 동시에 이미지 품질을 저하시키지 않으면서 계산 요구 사항을 크게 줄인다는 것을 알 수 있습니다

SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

여기 제시된 추론 속도 Visual에 대한 ELO는 점수 플롯

SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

표 2에서는 동일한 기본 모델을 사용하는 다양한 몇 단계 샘플링 및 증류 방법을 비교합니다. 결과는 ADD 방법이 8단계 표준 DPM 솔버

SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现

를 포함한 다른 모든 방법보다 성능이 우수하다는 것을 보여줍니다. 정량적 실험 결과에 대한 보충으로 이 논문에서는 ADD- 초기 샘플을 개선하는 XL의 능력. 그림 3은 ADD-XL(1단계)을 몇 단계 체계의 현재 최고 기준과 비교합니다. 그림 4는 ADD-XL의 반복 샘플링 프로세스를 설명합니다. 그림 8은 ADD-XL과 해당 교사 모델인 SDXL-Base를 직접 비교한 것입니다. 사용자 연구에 따르면 ADD-XL은 품질과 신속한 정렬 측면에서 교사 모델보다 성능이 뛰어납니다.

SDXL Turbo和LCM带来AI画图的实时生成时代：速度跟打字一样快，图像瞬间呈现