소라폭발의 기술, 확산모델의 최신 발전방향을 정리한 기사-일체 포함-php.cn

기계에 인간의 상상력을 부여하기 위해 심층 생성 모델이 상당한 발전을 이루었습니다. 이러한 모델은 사실적인 샘플, 특히 여러 영역에서 잘 작동하는 확산 모델을 생성합니다. 확산 모델은 VAE의 사후 분포 정렬 문제, GAN의 불안정성, EBM의 계산 복잡성 및 NF의 네트워크 제약 문제와 같은 다른 모델의 한계를 해결합니다. 따라서 확산 모델은 컴퓨터 비전, 자연어 처리 등의 측면에서 많은 주목을 받고 있습니다.

확산 모델은 순방향 프로세스와 역방향 프로세스의 두 가지 프로세스로 구성됩니다. 순방향 프로세스는 데이터를 단순한 사전 분포로 변환하는 반면, 역방향 프로세스는 이러한 변화를 역전시키고 훈련된 신경망을 사용하여 미분 방정식을 시뮬레이션하여 데이터를 생성합니다. 다른 모델과 비교하여 확산 모델은 보다 안정적인 훈련 목표와 더 나은 생성 결과를 제공합니다.

소라폭발의 기술, 확산모델의 최신 발전방향을 정리한 기사

그러나 확산 모델의 샘플링 과정에는 반복적인 추론과 평가가 수반됩니다. 이 프로세스는 불안정성, 고차원 계산 요구 사항, 복잡한 우도 최적화와 같은 문제에 직면해 있습니다. 연구원들은 ODE/SDE 솔버 개선, 샘플링 가속화를 위한 모델 증류 전략 채택, 안정성을 향상하고 차원성을 줄이기 위한 새로운 전진 프로세스 등 이러한 목적을 위해 다양한 솔루션을 제안했습니다.

최근 홍콩 중어문학과, 서호대학교, MIT, Zhijiang 연구소에서는 IEEE TKDE에 "A Survey on Generative Diffusion Models"라는 제목의 리뷰 논문을 발표했습니다. 측면 : 샘플링 가속화, 프로세스 설계, 우도 최적화 및 분포 브리징. 또한 이 리뷰에서는 이미지 합성, 비디오 생성, 3D 모델링, 의료 분석 및 텍스트 생성과 같은 다양한 응용 분야에서 확산 모델의 성공에 대한 심층적인 정보를 제공합니다. 이러한 적용 사례를 통해 현실 세계에서 확산 모델의 실용성과 잠재력을 입증합니다.

소라폭발의 기술, 확산모델의 최신 발전방향을 정리한 기사

논문 주소: https://arxiv.org/pdf/2209.02646.pdf
프로젝트 주소: https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model?tab= readme-ov-file

알고리즘 개선

샘플링 가속

지식 증류

확산모델 분야에서는 샘플링 속도 핵심 기술 중 하나는 지식 증류입니다. 이 프로세스에는 크고 복잡한 모델에서 지식을 추출하여 더 작고 효율적인 모델로 전송하는 과정이 포함됩니다. 예를 들어, 지식 증류를 사용하면 모델의 샘플링 궤적을 단순화하여 각 단계에서 목표 분포에 더 큰 효율성을 더할 수 있습니다. Salimans 등은 이러한 궤적을 최적화하기 위해 상미분 방정식(ODE) 기반 접근 방식을 채택했으며, 다른 연구자들은 시끄러운 샘플에서 직접 깨끗한 데이터를 추정하여 시점 T에서 프로세스를 가속화하는 기술을 개발했습니다.

훈련 방법

훈련 방법을 개선하는 것도 샘플링 효율성을 높이는 방법입니다. 일부 연구는 데이터가 더 이상 단순히 가우시안 노이즈로 스파이크되는 것이 아니라 더 복잡한 방법을 통해 잠재 공간에 매핑되는 새로운 확산 방식을 학습하는 데 중점을 둡니다. 이러한 방법 중 일부는 인코딩 깊이 조정과 같은 역디코딩 프로세스를 최적화하는 데 중점을 두는 반면, 다른 방법은 노이즈 추가가 더 이상 정적이지 않고 훈련 프로세스 중에 수정될 수 있는 변수가 되도록 새로운 노이즈 스케일 설계를 탐색합니다. . 학습된 매개변수.

훈련이 필요 없는 샘플링

효율성을 높이기 위해 새 모델을 훈련하는 것 외에도 이미 사전 훈련된 확산 모델의 샘플링 프로세스를 가속화하는 데 사용되는 몇 가지 기술도 있습니다. ODE 가속은 ODE를 사용하여 확산 과정을 설명하는 기술 중 하나로 샘플링을 더 빠르게 진행할 수 있습니다. 예를 들어, DDIM은 샘플링에 ODE를 활용하는 방법이며, 후속 연구에서는 샘플링 속도를 더욱 향상시키기 위해 PNDM, EDM과 같은 보다 효율적인 ODE 솔버를 도입했습니다.

다른 생성 모델과 결합

또한 일부 연구자들은 샘플링 속도를 높이기 위한 분석 방법을 제안했으며 이러한 방법은 반복 없이 시끄러운 데이터에서 깨끗한 데이터를 직접 복구하는 방법을 찾으려고 합니다. .분석 솔루션. 이러한 방법에는 빠르고 정확한 샘플링 전략을 제공하는 Analytic-DPM 및 개선된 버전인 Analytic-DPM++가 포함됩니다. ㅋㅋㅋ ing 분수 일치 손실은 다음과 같습니다. 코덱 및 확산 모델을 최적화하는 데 사용되므로 ELBO 또는 로그 우도의 최적화는 학습하고 샘플을 생성하기 쉬운 잠재 공간을 구축하는 것을 목표로 합니다. 예를 들어 Stable Diffusion은 먼저 VAE를 사용하여 잠재 공간을 학습한 다음 텍스트 입력을 허용하도록 확산 모델을 교육합니다. DVDP는 이미지 교란 중에 픽셀 공간의 직교 구성 요소를 동적으로 조정합니다.

혁신적인 순방향 프로세스

생성 모델의 효율성과 강도를 향상시키기 위해 연구원들은 새로운 순방향 프로세스 설계를 탐색했습니다. 포아송 필드 생성 모델은 데이터를 전하로 처리하여 전기장 선을 따라 데이터 분포에 대한 간단한 분포를 지시하며, 이는 기존 확산 모델보다 더 강력한 백샘플링을 제공합니다. PFGM++는 이 개념을 고차원 변수에 더 적용합니다. Dockhorn 등의 임계 감쇠 Langevin 확산 모델은 해밀턴 역학의 속도 변수를 사용하여 조건부 속도 분포의 분수 함수 학습을 단순화합니다.

비유클리드 공간

이산 공간 데이터(예: 텍스트, 범주형 데이터)의 확산 모델에서 D3PM은 이산 공간의 전진 과정을 정의합니다. 이 방법을 기반으로 언어 텍스트 생성, 그래프 분할 및 무손실 압축에 대한 연구가 확장되었습니다. 다중 모드 챌린지에서는 벡터 양자화된 데이터가 코드로 변환되어 우수한 결과를 보여줍니다. 로봇 공학 및 단백질 모델링과 같은 리만 다양체의 다양체 데이터는 확산 샘플링을 리만 다양체에 통합해야 합니다. EDP-GNN 및 GraphGDP와 같은 그래프 신경망과 확산 이론의 조합은 그래프 데이터를 처리하여 순열 불변성을 포착합니다.

우도 최적화

분포 조인

확산 모델은 가우스 분포를 복잡한 분포로 변환하는 데 효과적이지만 임의의 분포를 조인할 때는 문제가 있습니다. 알파-하이브리드 방법은 반복적으로 혼합하고 혼합하여 결정적 브리지를 생성합니다. 수정 흐름에는 브리지 경로를 수정하기 위한 추가 단계가 추가됩니다. 또 다른 방법은 ODE를 통해 두 분포 사이의 연결을 구현하는 것인데, 중간 연결점으로 슈뢰딩거 브릿지나 가우시안 분포를 이용하는 방법도 연구 중이다.

소라폭발의 기술, 확산모델의 최신 발전방향을 정리한 기사

응용 분야

이미지 생성

확산 모델은 일반적인 이미지를 생성할 수 있을 뿐만 아니라 텍스트를 이미지로 변환하는 등 복잡한 작업도 완료할 수 있습니다. Imagen, Stable Diffusion 및 DALL-E 2와 같은 모델은 이와 관련하여 뛰어난 기술을 보여줍니다. 이들은 Cross-Attention 레이어 기술과 결합된 확산 모델 구조를 사용하여 텍스트 정보를 생성된 이미지에 통합합니다. 새로운 이미지를 생성하는 것 외에도 이러한 모델은 재교육 없이도 이미지를 편집할 수 있습니다. 편집은 Attention 레이어(키, 값, Attention 매트릭스)를 조정하여 수행됩니다. 예를 들어 기능 맵을 조정하여 이미지 요소를 변경하거나 새로운 텍스트 임베딩을 도입하여 새로운 개념을 추가합니다. 이미지가 설명을 정확하게 반영하도록 모델이 텍스트를 생성할 때 텍스트의 모든 키워드에 주의를 기울이도록 하는 연구가 있습니다. 확산 모델은 또한 이미지 생성을 안내하기 위해 이러한 기능을 인코딩하고 통합함으로써 소스 이미지, 깊이 맵 또는 인간 골격과 같은 이미지 기반 조건부 입력을 처리할 수 있습니다. 일부 연구에서는 이미지 간 편집을 달성하기 위해 모델의 시작 레이어에 소스 이미지 인코딩 기능을 추가합니다. 이는 깊이 맵, 가장자리 감지 또는 뼈대가 조건으로 사용되는 장면에도 적용 가능합니다.

3D 생성

3D 생성의 경우 확산 모델을 통한 방법은 크게 두 가지가 있습니다. 첫 번째는 NeRF, 포인트 클라우드 또는 복셀과 같은 다양한 3D 표현에 효과적으로 적용된 3D 데이터에서 직접 모델을 훈련하는 것입니다. 예를 들어, 연구자들은 3D 객체의 포인트 클라우드를 직접 생성하는 방법을 보여주었습니다. 샘플링의 효율성을 높이기 위해 일부 연구에서는 포인트 클라우드 생성을 위한 추가 조건으로 하이브리드 포인트-복셀 표현 또는 이미지 합성을 도입했습니다. 반면, 확산 모델을 사용하여 3D 객체의 NeRF 표현을 처리하고, 관점-조건 확산 모델을 학습하여 새로운 뷰를 합성하고 NeRF 표현을 최적화하는 연구가 있습니다. 두 번째 접근 방식은 2D 확산 모델에 대한 사전 지식을 사용하여 3D 콘텐츠를 생성하는 것을 강조합니다. 예를 들어 Dreamfusion 프로젝트는 점수 증류 샘플링 대상을 사용하여 사전 훈련된 텍스트-이미지 모델에서 NeRF를 추출하고 경사하강법 최적화 프로세스를 통해 저손실 렌더링 이미지를 달성합니다. 이 프로세스는 생성 속도를 높이기 위해 더욱 확장되었습니다.

비디오 생성

비디오 확산 모델은 2D 이미지 확산 모델의 확장으로, 시간 차원을 추가하여 비디오 시퀀스를 생성합니다. 이 접근 방식의 기본 아이디어는 기존 2D 구조에 시간 레이어를 추가하여 비디오 프레임 간의 연속성과 종속성을 모델링하는 것입니다. 관련 작업에서는 비디오 확산 모델을 사용하여 Make-A-Video, AnimatedDiff 및 기타 모델과 같은 동적 콘텐츠를 생성하는 방법을 보여줍니다. 보다 구체적으로 RaMViD 모델은 3D 합성곱 신경망을 사용하여 이미지 확산 모델을 비디오로 확장하고 일련의 비디오 관련 조건부 기술을 개발합니다.

의료 분석

확산 모델은 의료 분석, 특히 의료 영상 분야에서 고품질 데이터 세트를 얻는 문제를 해결하는 데 도움이 됩니다. 이러한 모델은 강력한 이미지 캡처 기능으로 인해 이미지 해상도, 분류 및 노이즈 처리를 성공적으로 향상시켰습니다. 예를 들어 Score-MRI 및 Diff-MIC는 고급 기술을 사용하여 MRI 이미지 재구성 속도를 높이고 보다 정확한 분류를 가능하게 합니다. MCG는 CT 이미지 초해상도에서 매니폴드 보정을 사용하여 재구성 속도와 정확성을 향상시킵니다. 희귀 이미지 생성 측면에서 모델은 특정 기술을 통해 다양한 유형의 이미지 간에 변환할 수 있습니다. 예를 들어, FNDM과 DiffuseMorph는 각각 뇌 이상 탐지와 MR 영상 등록에 사용됩니다. 일부 새로운 방법은 100,000개 인스턴스의 데이터세트를 합성하고 매우 낮은 FID 점수를 달성한 31,740개 샘플을 사용하는 모델과 같이 소수의 고품질 샘플에서 훈련 데이터세트를 합성합니다.

텍스트 생성

텍스트 생성 기술은 인간과 AI 사이의 중요한 가교 역할을 하며 부드럽고 자연스러운 언어를 만들 수 있습니다. 자동회귀 언어 모델은 일관성이 강한 텍스트를 생성하지만 속도가 느린 반면, 확산 모델은 신속하지만 일관성이 상대적으로 약한 텍스트를 생성할 수 있습니다. 두 가지 주류 방법은 이산 세대와 잠재 세대입니다. 이산 생성은 고급 기술과 사전 훈련된 모델에 의존합니다. 예를 들어 D3PM 및 Argmax는 단어를 범주형 벡터로 처리하는 반면 DiffusionBERT는 확산 모델과 언어 모델을 결합하여 텍스트 생성을 개선합니다. 잠재 생성은 토큰의 잠재 공간에서 텍스트를 생성합니다. 예를 들어 LM-Diffusion 및 GENIE와 같은 모델은 다양한 작업에서 잘 수행되어 텍스트 생성에서 확산 모델의 잠재력을 보여줍니다. 확산 모델은 자연어 처리 성능을 향상시키고, 대규모 언어 모델과 통합하며, 크로스 모달 생성을 가능하게 할 것으로 기대됩니다.

시계열 생성

시계열 데이터 모델링은 금융, 기후 과학, 의료 및 기타 분야의 예측 및 분석을 위한 핵심 기술입니다. 확산 모델은 고품질 데이터 샘플을 생성할 수 있는 능력으로 인해 시계열 데이터 생성에 사용되었습니다.이 분야에서 확산 모델은 시계열 데이터의 시간적 의존성과 주기성을 고려하여 설계되는 경우가 많습니다. 예를 들어 CSDI(Conditional Sequence Diffusion Interpolation)는 양방향 컨벌루션 신경망 구조를 활용하여 시계열 데이터 포인트를 생성하거나 보간하는 모델입니다. 의료 데이터 생성, 환경 데이터 생성에 탁월합니다. DiffSTG 및 TimeGrad와 같은 다른 모델은 시공간 컨볼루션 네트워크를 결합하여 시계열의 동적 특성을 더 잘 포착하고 보다 현실적인 시계열 샘플을 생성할 수 있습니다. 이러한 모델은 자체 조정 안내를 통해 가우스 잡음으로부터 의미 있는 시계열 데이터를 점진적으로 복구합니다.

오디오 생성

오디오 생성에는 음성 합성부터 음악 생성까지 다양한 응용 시나리오가 포함됩니다. 오디오 데이터에는 일반적으로 복잡한 시간 구조와 풍부한 스펙트럼 정보가 포함되어 있으므로 확산 모델도 이 분야에서 잠재력을 보여줍니다. 예를 들어 WaveGrad와 DiffSinger는 조건부 생성 프로세스를 활용하여 고품질 오디오 파형을 생성하는 두 가지 확산 모델입니다. WaveGrad는 Mel 스펙트럼을 조건부 입력으로 사용하는 반면 DiffSinger는 여기에 피치 및 템포와 같은 추가 음악 정보를 추가하여 보다 미세한 스타일 제어를 제공합니다. TTS(텍스트 음성 변환) 애플리케이션에서 Guided-TTS 및 Diff-TTS는 텍스트 인코더와 음향 분류기의 개념을 결합하여 텍스트 내용을 준수하고 특정 사운드 스타일을 따르는 음성을 생성합니다. Guide-TTS2는 모델 자체에서 학습한 기능을 통해 사운드 생성을 안내하면서 명시적인 분류자 없이 음성을 생성하는 방법을 추가로 보여줍니다.

분자 설계

약물 설계, 재료 과학, 화학 생물학과 같은 분야에서 분자 설계는 새로운 화합물의 발견과 합성에 있어 중요한 단계입니다. 여기서 확산 모델은 화학적 공간을 효율적으로 탐색하고 특정 특성을 가진 분자를 생성하는 강력한 도구 역할을 합니다. 무조건적인 분자 생성에서 확산 모델은 사전 지식에 의존하지 않고 자발적으로 분자 구조를 생성합니다. 교차 모드 생성에서 모델은 약물 효능이나 표적 단백질의 결합 성향과 같은 특정 기능 조건을 통합하여 원하는 특성을 가진 분자를 생성할 수 있습니다. 서열 기반 방법은 분자 생성을 안내하기 위해 단백질 서열을 고려할 수 있는 반면, 구조 기반 방법은 단백질의 3차원 구조 정보를 사용할 수 있습니다. 이러한 구조 정보는 분자 도킹이나 항체 설계에 대한 사전 지식으로 활용되어 생성된 분자의 품질을 향상시킬 수 있습니다.

그래프 생성

확산 모델을 사용하여 그래프를 생성하고 실제 네트워크 구조와 전파 프로세스를 더 잘 이해하고 시뮬레이션합니다. 이 접근 방식은 연구자들이 복잡한 시스템의 패턴과 상호 작용을 조사하고 가능한 결과를 예측하는 데 도움이 됩니다. 응용 프로그램에는 소셜 네트워크, 생물학적 네트워크 분석 및 그래프 데이터 세트 생성이 포함됩니다. 전통적인 방법은 인접 행렬이나 노드 특징을 생성하는 데 의존하지만 이러한 방법은 확장성이 낮고 실용성이 제한됩니다. 따라서 최신 그래프 생성 기술은 특정 조건을 기반으로 그래프를 생성하는 것을 선호합니다. 예를 들어 PCFI 모델은 그래프 기능의 일부와 최단 경로 예측을 사용하여 생성 프로세스를 안내합니다. EDGE와 DiffFormer는 노드 차수와 에너지 제약 조건을 각각 사용하여 생성을 최적화합니다. D4Explainer는 분포와 반사실적 손실을 결합하여 그래프의 다양한 가능성을 탐색합니다. 이러한 방법은 그래프 생성의 정확성과 실용성을 향상시킵니다.

소라폭발의 기술, 확산모델의 최신 발전방향을 정리한 기사

결론 및 전망

데이터 제약 조건에서의 과제

확산 모델은 낮은 추론 속도 외에도 낮은 품질의 데이터에서 패턴과 규칙성을 식별하는 데 어려움을 겪는 경우가 많습니다. 새로운 시나리오나 데이터 세트로 일반화합니다. 또한 대규모 데이터 세트를 처리할 때 훈련 시간 연장, 과도한 메모리 사용, 원하는 상태로 수렴할 수 없음 등의 계산 문제가 발생하여 모델 크기와 복잡성이 제한됩니다. 더욱이, 편향되거나 고르지 않은 데이터 샘플링은 다양한 영역이나 모집단에 적응할 수 있는 출력을 생성하는 모델의 능력을 제한할 수 있습니다.

제어된 분포 기반 생성

특정 분포 내에서 표본을 이해하고 생성하는 모델의 능력을 향상시키는 것은 제한된 데이터로 더 나은 일반화를 달성하는 데 중요합니다. 모델은 데이터의 패턴과 상관 관계를 식별하는 데 중점을 두어 훈련 데이터와 밀접하게 일치하고 특정 요구 사항을 충족하는 샘플을 생성할 수 있습니다. 이를 위해서는 효율적인 데이터 샘플링, 활용 기술, 모델 매개변수 및 구조 최적화가 필요합니다. 궁극적으로 이러한 향상된 이해를 통해 보다 제어되고 정확한 생성이 가능해지며 일반화 성능이 향상됩니다.

대규모 언어 모델을 활용한 고급 다중 모드 생성

확산 모델의 미래 방향에는 대규모 언어 모델(LLM)을 통합하여 다중 모드 생성을 발전시키는 것이 포함됩니다. 이러한 통합을 통해 모델은 텍스트, 이미지 및 기타 형식의 조합이 포함된 출력을 생성할 수 있습니다. LLM을 통합함으로써 다양한 양식 간의 상호 작용에 대한 모델의 이해가 향상되고 생성된 출력이 더욱 다양하고 현실적이 됩니다. 또한 LLM은 텍스트와 다른 형식 간의 연결을 효과적으로 활용하여 프롬프트 기반 생성 효율성을 크게 향상시킵니다. 또한 LLM은 촉매로서 확산 모델의 생성 능력을 향상시키고 모드를 생성할 수 있는 분야의 범위를 확장합니다.

머신러닝 분야와의 통합

확산 모델과 전통적인 머신러닝 이론을 결합하면 다양한 작업의 성능을 향상시킬 수 있는 새로운 기회를 제공합니다. 준지도 학습은 일반화 문제와 같은 확산 모델의 고유한 문제를 해결하고 데이터가 제한될 때 효율적인 조건부 생성을 활성화하는 데 특히 유용합니다. 레이블이 지정되지 않은 데이터를 활용하여 확산 모델의 일반화 기능을 향상시키고 특정 조건에서 샘플을 생성할 때 이상적인 성능을 달성합니다.

또한 강화 학습은 미세 조정 알고리즘을 사용하여 모델의 샘플링 프로세스 중에 타겟 지침을 제공함으로써 중요한 역할을 합니다. 이 지침은 집중적인 탐사를 보장하고 제어된 생성을 촉진합니다. 또한 추가 피드백을 통합하여 강화 학습을 강화함으로써 제어 가능한 조건을 생성하는 모델의 능력을 향상시킵니다.

알고리즘 개선 방법(부록)

소라폭발의 기술, 확산모델의 최신 발전방향을 정리한 기사