모델|//m.sbmmt.com/link/36ef259d4d9967f3a81aa326160128c7
종이|//m.sbmmt.com/link/ca0525bfe5cab4c577 d169d 3343a5452
Generative AI는 텍스트 프롬프트를 기반으로 놀라운 이미지와 비디오까지 생성하는 능력으로 전 세계의 주목을 받고 있습니다. 현재의 최첨단 생성 모델은 노이즈를 이미지 샘플로 점진적으로 변환하는 반복 프로세스인 확산에 의존합니다. 이 프로세스에는 엄청난 컴퓨팅 리소스가 필요하고 속도가 느립니다. 고품질 이미지 샘플을 생성하는 과정에서 단일 이미지의 처리 시간은 약 5초이며, 이는 일반적으로 거대한 신경망에 대한 여러(20~40) 호출이 필요합니다. . 이 속도는 빠른 실시간 생성이 필요한 애플리케이션 시나리오를 제한합니다. 속도를 높이면서 발전 품질을 향상시키는 방법 은 현재 연구의 핵심 분야이자 우리 작업의 핵심 목표입니다.
SDXL-Lightning은 혁신적인 기술인Progressive Adversarial Distillation을 통해 이 장벽을 돌파하여 전례 없는 생성 속도를 달성합니다. 이 모델은 단 2~4단계만으로 매우 높은 품질과 해상도의 이미지를 생성할 수 있어 계산 비용과 시간을 10분의 1로 줄여줍니다. 우리의 방법은 품질이 약간 저하되기는 하지만 시간 초과에 민감한 애플리케이션의 경우 1단계로 이미지를 생성할 수도 있습니다.
SDXL-라이트닝은 속도 우위뿐 아니라 화질에서도 뛰어나 평가에서 기존 가속 기술을 뛰어넘는다. 우수한 다양성과 이미지-텍스트 일치를 유지하면서 더 높은 해상도와 풍부한 세부 정보를 제공합니다.속도 비교
원래 모델(20단계), SDXL-Lightning 모델(2단계)
SDXL-Lightning 모델을 사용할 수 있습니다. 통과 1단계, 2단계, 4단계, 8단계로 이미지를 생성합니다. 추론 단계가 많을수록 이미지 품질이 좋아집니다.
다음은 4단계의 결과입니다 -
물고기 자전거, 다채로운 예술
선글라스를 낀 아시아 여성의 클로즈업
아름다운 컵 모나리자, 스케치팬더 수영
산을 오르는 픽업트럭 지그재그
사막에있는 집, 초현실적 인 풍경
다음은 2 단계의 결과입니다 - 거실을위한 감독 디자인은 아기 너구리의 영화 촬영 샷을 착용합니다. 복잡한 이탈리아 신부 가운
아늑한 거실에서 장난감을 쫓는 부드러운 털과 밝은 눈을 가진 강아지구름이 담긴 찻잔
가족, 미디엄 샷
🎙 이전 방법(Turbo 및 LCM)에 비해 우리의 방법으로 생성된 이미지는 세부적으로 크게 개선되었으며 원래 생성 모델의 스타일과 레이아웃에 더욱 충실합니다. 3. 커뮤니티에 환원, 개방형 모델오픈 소스와 오픈 소스의 물결은 인공 지능의 급속한 발전을 촉진하는 핵심 원동력이 되었으며, Bytedance는 이러한 커뮤니티의 일부가 된 것을 자랑스럽게 생각합니다. 이 파도. 우리 모델은 현재 가장 인기 있는 텍스트 생성 이미지 개방형 모델인 SDXL을 기반으로 하며 이미 생태계가 번성하고 있습니다. 이제 우리는 SDXL-Lightning을 전 세계의 개발자, 연구원, 크리에이티브 실무자에게 공개하여 그들이 이 모델에 액세스하고 적용하여 업계 전반에 걸쳐 혁신과 협업을 더욱 촉진할 수 있도록 하기로 결정했습니다.SDXL-Lightning을 설계할 때
오픈 모델 커뮤니티와의 호환성을 고려했습니다. 커뮤니티의 많은 아티스트와 개발자는 만화 및 애니메이션 스타일과 같은 다양한 스타일화된 이미지 생성 모델을 만들었습니다. 이러한 모델을 지원하기 위해 SDXL-Lightning을 속도 향상 플러그인으로 제공합니다. 이 플러그인은 다양한 스타일의 SDXL 모델에 원활하게 통합되어 다양한 모델의 이미지 생성 속도를 높일 수 있습니다.
SDXL-Lightning이 모델은 현재 매우 인기 있는 제어 플러그인 ControlNet과 결합하여 매우 빠르고 제어 가능한 이미지 생성을 달성할 수도 있습니다.
SDXL-Lightning
이 모델은 오픈 소스 커뮤니티에서 가장 인기 있는 세대 소프트웨어인 ComfyUI도 지원합니다. 모델을 직접 로드하여 사용할 수 있습니다.이론적으로 이미지 생성은 노이즈에서 선명한 이미지로 점진적으로 변환하는 과정입니다. 이 과정에서 신경망은 변환 흐름의 다양한 위치에서 기울기를 학습합니다.
이미지를 생성하는 구체적인 단계는 다음과 같습니다.
먼저 스트림 시작점에서 노이즈 샘플을 무작위로 샘플링한 다음 신경망을 사용하여 기울기를 계산합니다. 현재 위치의 그래디언트를 기반으로 샘플을 약간 조정한 다음 프로세스를 반복합니다. 반복할 때마다 샘플은 선명한 이미지를 얻을 때까지 최종 이미지 분포에 가까워집니다.
사진: 세대 흐름 프로세스(사진 출처: //m.sbmmt.com/link/5c9b5c47258cf1499c2dc64b7072e735
생성 흐름의 복잡성과 비선형성 직선, 생성 과정은 한 번만 해야 그라디언트 오류의 누적을 줄이기 위해 작은 단계만 수행하므로 신경망의 빈번한 계산이 필요하므로 계산량이 많은 이유입니다
사진: 곡선 과정 (사진출처: //m.sbmmt.com/link/d7bbb6396ce5daf19ec6cf4bb4453137
이미지 생성에 필요한 단계 수를 줄이기 위해 많은 연구가 해결책을 찾기 위해 노력해 왔습니다. 일부 연구 오류를 줄일 수 있는 샘플링 방법을 제안한 반면, 다른 사람들은 생성 흐름을 보다 선형적으로 만들기 위해 노력했습니다. 이러한 방법이 발전했지만 이미지를 생성하려면 여전히 10개 이상의 추론 단계가 필요합니다.
또 다른 방법은 모델 증류입니다. 10개 미만의 추론 단계에서 고품질 이미지를 생성할 수 있습니다. 현재 흐름 위치에서 기울기를 계산하는 것과 달리 모델 추출은 다음 더 먼 흐름 위치를 직접 예측하도록 모델 예측의 목표를 변경합니다. 학생 네트워크는 다단계 추론 결과를 완성한 후 교사 네트워크를 직접 예측합니다. 이러한 전략은 이 프로세스를 반복적으로 적용함으로써 추론 단계 수를 더욱 줄일 수 있습니다.
그림: 점진적 증류, 학생 네트워크는 여러 단계를 거친 후 교사 네트워크의 결과를 예측합니다. 8단계 미만의 추론으로 인해 모델에서 생성된 이미지가 흐려지기 시작합니다.이 문제를 해결하기 위해 우리의 전략은 학생 네트워크가 예측과 정확하게 일치하도록 강요하지 않는 것입니다. 그러나 학생 네트워크가 교사 네트워크의 예측과 확률적으로 일치하도록 합니다. 즉, 학생 네트워크는 이 위치가 완전하지 않더라도 확률적으로 가능한 위치를 예측하도록 훈련됩니다. 이 목표는 적대적 훈련을 통해 달성됩니다. 학생과 교사 네트워크 출력의 분포 일치를 달성하는 데 도움이 되는 추가적인 차별적 네트워크가 도입됩니다.
이것은 우리의 연구 방법에 대한 간략한 개요입니다(https:/ /m.sbmmt.com/link/ca0525bfe5cab4c577d169d3343a5452).
모델에 대한 보다 심층적인 이론적 분석, 훈련 전략 및 구체적인 공식화 세부 정보를 제공합니다.
위 내용은 1024 해상도의 가장 빠른 모델, ByteDance Vincent 그래프 오픈 모델 SDXL-Lightning 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!