LCM: 고품질 이미지를 훨씬 더 빠르게 생성하는 새로운 방법-일체 포함-php.cn

저자丨Mike Young

번역: 원 뜻을 바꾸지 않고 내용을 다시 만드는 언어는 중국어이며, 원문이 나올 필요는 없습니다

내용을 검토하고 원 뜻을 바꾸지 않고 언어를 바꿔야 합니다. 중국어로 다시 작성하면 원본 문장이 나타날 필요가 없습니다

권장 | 51CTO 기술 스택(WeChat ID: blog51cto)

LCM: 고품질 이미지를 훨씬 더 빠르게 생성하는 새로운 방법 Pictures

Lantent Consistency라는 새로운 기술의 출현으로 인해 모델(LCM), AI는 텍스트를 그래픽으로의 획기적인 전환을 가져올 것입니다. LDM(Latent Diffusion Model)과 같은 전통적인 방법은 텍스트 단서를 사용하여 상세하고 창의적인 이미지를 생성하는 데 효과적이지만 속도가 느리다는 치명적인 단점이 있습니다. LDM을 사용하여 단일 이미지를 생성하려면 수백 단계가 필요할 수 있으며 이는 많은 실제 응용 프로그램에 비해 너무 느립니다.

중국어로 다시 작성: LCM은 이미지 생성에 필요한 단계 수를 줄여 게임의 판도를 변화시킵니다. 수백 단계를 거쳐 힘들게 이미지를 생성해야 하는 LDM에 비해 LCM은 단 1~4단계만으로 비슷한 품질의 결과를 얻을 수 있습니다. 이러한 효율성을 달성하기 위해 LCM은 사전 훈련된 LDM을 보다 간결한 형태로 개선하여 필요한 컴퓨팅 리소스와 시간을 크게 줄입니다. LDM 모델의 작동 방식에 대한 최근 논문을 분석하겠습니다

이 논문에서는 범용 안정 확산 가속 모듈인 LCM-LoRA라는 혁신 기술도 소개합니다. 이 모듈은 추가 교육 없이 다양한 안정-확산 미세 조정 모델에 연결할 수 있습니다. 다양한 이미지 생성 작업의 속도를 높일 수 있는 보편적으로 적용 가능한 도구이므로 AI를 활용하여 이미지를 생성할 수 있는 잠재적인 도구가 됩니다. 우리는 또한 논문의 이 부분을 분석할 것입니다.

1. 효율적인 LCM 훈련

신경망 분야에서는 특히 복잡한 방정식으로 신경망을 훈련할 때 엄청난 컴퓨팅 성능이 필요한 엄청난 과제가 있습니다. 그러나 이 논문의 팀은 정교화라는 독창적인 방법을 사용하여 이 문제를 성공적으로 해결했습니다.

다시 작성된 내용: 연구팀의 접근 방식은 다음과 같습니다. LDM). LDM이 실행되면 이를 멘토로 사용하여 새로운 교육 데이터를 생성합니다. 그런 다음 이 새로운 데이터를 사용하여 잠재 일관성 모델(LCM)을 교육했습니다. 가장 매력적인 점은 LCM이 방대한 데이터 세트를 가지고 처음부터 훈련할 필요 없이 LDM의 기능을 통해 학습할 수 있다는 것입니다.

정말 중요한 것은 이 프로세스의 효율성입니다. 연구원들은 단일 GPU만을 사용하여 약 32시간 만에 고품질 LCM 훈련을 완료했습니다. 이는 이전 방법보다 훨씬 빠르고 실용적이기 때문에 중요합니다. 이는 이제 슈퍼컴퓨팅 리소스에 액세스할 수 있는 사람뿐만 아니라 더 많은 사람과 프로젝트가 이러한 고급 모델을 만들 수 있음을 의미합니다.

LCM: 고품질 이미지를 훨씬 더 빠르게 생성하는 새로운 방법 그림 1, LCM-LoRA 개요

LoRA를 LCM 추출 프로세스에 도입함으로써 추출에 따른 메모리 오버헤드를 크게 줄여 다음과 같은 제한된 리소스로 더 큰 데이터 세트를 훈련할 수 있습니다. SDXL 및 SSD-1B. 더 중요한 것은 LCM-LoRA 훈련을 통해 얻은 LoRA 매개변수("가속 벡터")를 특정 스타일에 대한 데이터세트를 미세 조정하여 얻은 다른 LoRA 매개변수("스타일 벡터")와 직접 결합할 수 있다는 것입니다. 아무런 훈련 없이도 가속 벡터와 스타일 벡터의 선형 결합으로 얻은 모델은 최소한의 샘플링 단계로 특정 페인팅 스타일의 이미지를 생성할 수 있는 능력을 얻습니다.

2. 결과

이 연구는 AI를 사용하여 LCM(잠재 일관성 모델)을 기반으로 이미지를 생성하는 데 있어 상당한 진전을 보여줍니다. LCM은 단 4단계만으로 고품질 512x512 이미지를 생성하는 데 탁월합니다. 이는 LDM(잠재 확산 모델)과 같은 기존 모델에 필요한 수백 단계에 비해 크게 개선된 것입니다. 이미지는 선명한 디테일과 사실적인 질감을 자랑하며, 이는 특히 아래 예에서 확연히 드러납니다.

LCM: 고품질 이미지를 훨씬 더 빠르게 생성하는 새로운 방법 Pictures

그림 2. 논문 주장: "다양한 사전 훈련된 확산 모델에서 추출된 잠재 일관성 모델을 사용하여 생성된 이미지. 우리는 LCM-LoRA-SD-V1.5를 사용하여 512×512 해상도를 생성합니다. 이미지를 사용하려면 LCM-LoRA-SDXL 및 LCM-LoRA-SSD-1B를 사용하여 1024×1024 해상도 이미지를 생성하세요.”

이 모델은 작은 이미지를 쉽게 처리할 뿐만 아니라 더 큰 1024x1024 이미지를 생성하는 데도 좋습니다. 이는 이전에 가능했던 것보다 훨씬 더 큰 신경망 모델로 확장할 수 있는 능력을 보여주며 적응성을 보여줍니다. 논문의 예(예: LCM-LoRA-SD-V1.5 및 LCM-LoRA-SSD-1B 버전의 예)에서는 다양한 데이터 세트 및 실제 시나리오에서 모델의 광범위한 적용 가능성이 명확해졌습니다

3 , 한계

현재 LCM 버전에는 몇 가지 제한 사항이 있습니다. 가장 중요한 것은 2단계 교육 프로세스입니다. 먼저 LDM을 교육한 다음 이를 사용하여 LCM을 교육합니다. 향후 연구에서는 LDM이 필요하지 않은 보다 직접적인 LDM 교육 방법을 모색할 수 있습니다. 이 논문에서는 무조건적인 이미지 생성을 주로 논의하며, 조건부 생성 작업(예: 텍스트-이미지 합성)에는 더 많은 작업이 필요할 수 있습니다.

4. 주요 의미

잠재 일관성 모델(LCM)은 고품질 이미지를 빠르게 생성하는 데 중요한 단계를 밟았습니다. 이러한 모델은 단 1~4단계만으로 느린 LDM에 필적하는 결과를 생성할 수 있으며 잠재적으로 텍스트-이미지 모델의 실제 적용에 혁명을 일으킬 수 있습니다. 현재는 특히 훈련 프로세스와 생성 작업 범위 측면에서 몇 가지 제한 사항이 있지만 LCM은 신경망을 기반으로 한 실제 이미지 생성에서 상당한 발전을 이루었습니다. 제공된 예는 이러한 모델의 잠재력을 강조합니다

5. 일반 가속 모듈로서의 LCM-LoRA

서문에서 언급했듯이 이 논문은 두 부분으로 나뉩니다. 두 번째 부분에서는 더 적은 메모리를 사용하여 사전 학습된 모델을 미세 조정하여 효율성을 향상시킬 수 있는 LCM-LoRA 기술에 대해 설명합니다.

여기서 핵심 혁신은 LoRA 매개변수를 LCM에 통합하여 다음을 결합하는 세대를 생성하는 것입니다. 두 하이브리드 모델의 장점. 이 통합은 특정 스타일의 이미지를 생성하거나 특정 작업에 응답하는 데 특히 유용합니다. 서로 다른 LoRA 매개변수 세트를 선택하고 결합하고 각각 고유한 스타일에 맞게 미세 조정하면 연구원은 최소한의 단계와 추가 교육 없이 이미지를 생성할 수 있는 다용도 모델을 만듭니다.

특정 그림 스타일에 맞게 미세 조정된 LoRA 매개변수와 LCM-LoRA 매개변수를 결합하는 예를 통해 연구에서 이를 입증했습니다. 이 조합을 통해 다양한 샘플링 단계(예: 2단계, 4단계, 8단계, 16단계 및 32단계)에서 다양한 스타일의 1024 × 1024 해상도 이미지를 생성할 수 있습니다. 결과는 이러한 결합된 매개변수가 추가 교육 없이 고품질 이미지를 생성할 수 있음을 보여주며 모델의 효율성과 다양성을 강조합니다.

여기서 주목할 만한 한 가지는 소위 "속도 향상 벡터"(τLCM)를 사용한다는 것입니다. 및 "스타일 벡터"(τ), 이 둘은 특정 수학 공식을 사용하여 결합됩니다(λ1 및 λ2는 이 공식에서 조정 가능한 요소입니다). 이러한 조합을 통해 사용자 정의 스타일의 이미지를 빠르게 생성할 수 있는 모델이 탄생합니다.

논문의 그림 3(아래 표시)은 LCM-LoRA 매개변수와 결합된 특정 스타일의 LoRA 매개변수 결과를 보여줌으로써 이 접근 방식의 효율성을 보여줍니다. 이는 다양한 스타일의 이미지를 빠르고 효율적으로 생성하는 모델의 능력을 보여줍니다.

LCM: 고품질 이미지를 훨씬 더 빠르게 생성하는 새로운 방법 그림 3

전반적으로 기사의 이 부분은 특정 스타일의 고품질 이미지를 빠르게 생성하는 데 사용할 수 있는 LCM-LoRA 모델의 다양성과 효율성을 강조합니다. 적은 컴퓨팅 리소스만 사용하면서. 이 기술은 다양한 응용 분야를 가지고 있으며 디지털 아트에서 자동화된 콘텐츠 제작에 이르기까지 다양한 분야에서 이미지가 생성되는 방식에 혁명을 일으킬 것으로 예상됩니다.

6. 결론

새로운 접근 방식인 LCM(Latent Consistency Model)을 조사했습니다. ), 텍스트에서 이미지를 생성하는 프로세스 속도를 높이는 데 사용됩니다. 기존의 잠재 확산 모델(LDM)과 달리 LCM은 수백 단계가 아닌 단 1~4단계만으로 유사한 품질의 이미지를 생성할 수 있습니다. 이러한 상당한 효율성 향상은 사전 학습된 LDM을 사용하여 LCM을 학습함으로써 많은 양의 계산을 피하는 개선 방법을 통해 달성됩니다. 사전 훈련된 모델을 미세 조정하여 메모리 요구 사항을 줄이는 LoRA(순위 적응형) 보강 기술입니다. 이 앙상블 접근 방식은 추가 교육 없이 최소한의 계산 단계로 특정 스타일의 이미지를 생성할 수 있습니다.

주요 결과에는 단 몇 단계만으로 고품질 512x512 및 1024x1024 이미지를 생성하는 LCM의 능력이 포함되는 반면, LDM에는 수백 단계가 필요합니다. 그러나 현재 제한 사항은 LDM이 2단계 교육 프로세스에 의존하므로 시작하려면 여전히 LDM이 필요하다는 것입니다! 향후 연구에서는 이 과정을 단순화할 수 있습니다.

LCM은 특히 제안된 LCM-LoRA 모델에서 LoRA와 결합될 때 매우 영리한 혁신입니다. 고품질의 이미지를 보다 빠르고 효율적으로 생성할 수 있다는 이점을 제공하며, 디지털 콘텐츠 제작 분야에서 폭넓은 활용 가능성을 갖고 있다고 생각합니다.

참조 링크: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-geneating-high-quality-images-much-faster/

위 내용은 LCM: 고품질 이미지를 훨씬 더 빠르게 생성하는 새로운 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!