현실적인 이미지 생성은 가상 현실, 증강 현실, 비디오 게임, 영화 제작 등의 분야에서 폭넓게 응용됩니다.
지난 2년 동안 확산 모델의 급속한 발전으로 이미지 생성 분야에서 큰 발전이 이루어졌습니다. 텍스트 설명을 기반으로 이미지를 생성하기 위한 Stable Diffusion에서 파생된 일련의 오픈 소스 또는 상용 모델은 디자인, 게임 및 기타 분야에 큰 영향을 미쳤습니다
그러나 주어진 텍스트 또는 기타를 기반으로 고품질 이미지를 생성하는 방법은 조건이 어떻습니까? 다중 뷰 이미지는 여전히 어려운 문제입니다. 기존 방법은 다중 뷰 일관성에 명백한 결함이 있습니다
현재 일반적인 방법은 크게 두 가지 범주로 나눌 수 있습니다
방법의 첫 번째 범주는 장면의 그림 및 깊이 맵을 생성하고 해당 메쉬를 얻는 데 전념합니다. Text2Room, SceneScape와 같은 - 먼저 Stable Diffusion을 사용하여 첫 번째 이미지를 생성한 다음 자동 회귀 방식의 이미지 워핑 및 이미지 인페인팅을 사용하여 후속 이미지와 깊이 맵을 생성합니다.
그러나 이러한 해결 방법은 여러 장의 사진을 생성하는 동안 오류가 점차 누적되는 원인이 되기 쉬우며 일반적으로 폐쇄 루프 문제가 있습니다(예: 카메라가 회전하여 시작 위치 근처로 돌아올 때 생성되는 오류). 내용이 첫 번째 사진과 다름) 사진이 완전히 일치하지 않음) 장면이 크거나 사진 간에 시야각이 크게 변경되면 성능이 저하됩니다.
두 번째 유형의 방법은 확산 모델의 생성 알고리즘을 확장하여 여러 장의 사진을 동시에 생성하여 단일 사진보다 더 풍부한 콘텐츠를 생성합니다(예: 360도 파노라마를 생성하거나 한 사진의 콘텐츠를 이동함) MultiDiffusion 및 DiffCollage와 같은 양측 무한 외삽). 그러나 카메라 모델을 고려하지 않기 때문에 이러한 유형의 방법으로 생성된 결과는 실제 파노라마가 아닙니다. MVDiffusion의 목표는 주어진 카메라 모델을 준수하는 다시점 이미지를 생성하는 것이며 이러한 이미지는 내용에서 엄격하게 일치합니다. 글로벌 의미를 갖습니다. 이 방법의 핵심 아이디어는 일관성을 유지하기 위해 이미지 간의 대응성을 동시에 제거하고 학습하는 것입니다
논문을 보려면 다음 링크를 클릭하세요: https://arxiv.org/abs/2307.01097
프로젝트 웹사이트를 방문해 주세요: https://mvdiffusion.github.io/
Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion
코드: https://github. com/Tangshitao/ MVDiffusion
컨퍼런스 게시: NeurIPS (Key Points)
MVDiffusion의 목표는 대응을 기반으로 한 동시 노이즈 제거 및 글로벌 인식을 통해 매우 일관된 콘텐츠와 통일된 글로벌 의미를 갖춘 다시점 이미지를 생성하는 것입니다. between Images
구체적으로 연구원들은 기존의 텍스트-이미지 확산 모델(예: Stable Diffusion)을 확장하여 먼저 여러 이미지를 병렬로 처리할 수 있도록 하고 원본에 "Correspondence-aware Attention" 메커니즘을 추가했습니다. UNet 다양한 관점과 글로벌 통합 간의 일관성을 학습합니다.
소량의 다시점 이미지 훈련 데이터를 미세 조정함으로써 결과 모델은 매우 일관된 콘텐츠로 다중 관점 이미지를 동시에 생성할 수 있습니다.
MVDiffusion은 세 가지 다른 응용 시나리오에서 좋은 결과를 얻었습니다.
텍스트를 기반으로 여러 뷰를 생성한 다음 함께 연결하여 파노라마를 얻습니다.
2 원근 이미지 추정(아웃페인팅) ) 가져오기 완전한 360도 파노라마
3. 장면에 대한 텍스처를 생성합니다.
응용 시나리오 디스플레이응용 프로그램 1: 파노라마 생성 프로세스는 여러 사진이나 비디오를 함께 연결하여 파노라마 원근감 이미지나 비디오를 만드는 것입니다. 이 프로세스에는 일반적으로 특수 소프트웨어나 도구를 사용하여 이러한 이미지나 비디오를 자동 또는 수동으로 정렬, 혼합 및 복구하는 작업이 포함됩니다. 파노라마 생성을 통해 사람들은 풍경, 건물, 실내 공간 등의 장면을 더 넓은 시각으로 감상하고 경험할 수 있습니다. 이 기술은 관광, 부동산, 가상 현실 및 기타 분야(텍스트에 따라)에 광범위하게 적용됩니다.
파노라마 생성을 예로 들어 장면을 설명하는 텍스트를 입력하면 MVDIffusion이 다중 관점 사진을 생성할 수 있습니다.8개의 멀티뷰 이미지를 얻으려면 다음을 입력하세요. "이 주방은 소박한 느낌과 현대적인 느낌이 매력적으로 조화를 이루고 있으며 대리석 조리대와 캐비닛으로 둘러싸인 싱크대가 있는 대형 재생 목재 아일랜드가 특징입니다. 왼쪽에 아일랜드는 키가 큰 스테인리스 냉장고에요. 싱크대 오른쪽에는 파스텔톤으로 칠해진 나무 수납장이 있어요."
이 8장의 사진을 파노라마로 연결할 수 있습니다.
MVDiffusion은 각 사진에 대해 서로 다른 텍스트 설명 제공도 지원하지만 이러한 설명 간에 의미적 일관성이 유지되어야 합니다.
MVDiffusion은 원근 이미지를 완전한 360도 파노라마로 추정(아웃페인팅)할 수 있습니다.
예를 들어 다음 관점을 입력한다고 가정해 보겠습니다.
MVDiffusion은 다음 파노라마를 추가로 생성할 수 있습니다.
보시다시피 생성된 파노라마는 의미상입니다. 입력 이미지는 다음과 같습니다. 확장되며 가장 왼쪽과 가장 오른쪽의 내용이 연결됩니다(폐쇄 루프 문제는 없습니다).
MVDiffusion을 사용하여 주어진 재료가 없는 장면 메쉬에 대한 재료(텍스처)를 생성합니다
구체적으로 먼저 카메라를 통해 메쉬를 렌더링하여 다중 뷰 깊이 맵을 얻습니다. 포즈와 깊이 맵을 통해 다중 시점 이미지의 픽셀 간의 대응 관계를 얻을 수 있습니다.
다음으로 MVDiffusion은 다중 시점 깊이 맵을 조건으로 사용하여 일관된 다중 시점 RGB 이미지를 동시에 생성합니다.
생성된 멀티뷰 이미지는 콘텐츠의 일관성을 높게 유지한 후 다시 메쉬에 넣을 수 있기 때문에 고품질의 질감 있는 메쉬(textured mesh)를 얻을 수 있습니다.
효과의 추가 예는 다음과 같습니다.
파노라마 생성 과정은 여러 사진이나 비디오를 연결하여 이미지나 비디오의 파노라마 보기를 만드는 것입니다. 이 프로세스에는 일반적으로 특수 소프트웨어나 도구를 사용하여 이러한 이미지나 비디오를 자동 또는 수동으로 정렬, 혼합 및 복구하는 작업이 포함됩니다. 파노라마 생성을 통해 사람들은 풍경, 건물, 실내 공간 등의 장면을 더 넓은 시각으로 감상하고 경험할 수 있습니다. 이 기술은 관광, 부동산, 가상 현실 및 기타 분야에 폭넓게 적용됩니다. 이 응용 프로그램 시나리오에서는 , 스페셜 MVDiffusion 훈련에 사용되는 다시점 이미지 데이터는 모두 실내 장면의 파노라마에서 가져오고 스타일은 모두 단일
이지만 MVDiffusion은 원래의 안정적인 확산 매개변수를 변경하지 않고 단지 새로 추가된 통신 인식 주의력이 훈련되었습니다
마지막으로 모델은 주어진 텍스트를 기반으로 다양한 스타일의 다시점 사진(야외, 만화 등)을 생성할 수 있습니다.
다시 작성해야 하는 콘텐츠는 다음과 같습니다. 단일 보기 외삽
장면 자료
우리는 첫 번째 이 기사에서는 세 가지 작업으로 MVDiffusion의 구체적인 이미지 생성 프로세스를 소개하고 마지막으로 이 방법의 핵심 부분인 "Correspondence-aware Attention" 모듈을 소개합니다. 그림 1은 MVDiffusion
MVDiffusion은 동시에 8개의 겹치는 그림(원근 이미지)을 생성한 다음 이 8개의 그림(스티치)을 하나의 파노라마. 이 8개의 원근 이미지에서 3x3 호모그래픽 행렬은 각 두 이미지 간의 픽셀 대응을 결정합니다.
특정 생성 프로세스에서 MVDiffusion은 먼저 가우스 무작위 초기화를 사용하여 8개의 그림 뷰를 생성합니다
그런 다음 이 8개의 그림은 여러 분기가 있는 Stable Diffusion 사전 훈련된 Unet 네트워크에 입력됩니다. 생성된 결과를 얻습니다.
크로스 뷰 간의 기하학적 일관성을 학습하는 데 사용되는 새로운 "Correspondence-aware Attention" 모듈(위 그림의 하늘색 부분)이 UNet 네트워크에 추가되었습니다. 하나로 이어진 일관된 파노라마.
MVDiffusion은 단일 투시 이미지를 파노라마로 완성할 수도 있습니다. 파노라마 생성 과정은 여러 장의 사진이나 비디오를 연결하여 이미지나 비디오의 파노라마 보기를 만드는 것입니다. 이 프로세스에는 일반적으로 특수 소프트웨어나 도구를 사용하여 이러한 이미지나 비디오를 자동 또는 수동으로 정렬, 혼합 및 복구하는 작업이 포함됩니다. 파노라마 생성을 통해 사람들은 풍경, 건물, 실내 공간 등의 장면을 더 넓은 시각으로 감상하고 경험할 수 있습니다. 이 기술은 관광, 부동산, 가상 현실 및 기타 분야에서 광범위하게 적용됩니다. MVDiffusion은 무작위로 초기화된 8개의 투시도(투시도에 해당하는 투시도 포함)를 다중 분기 Stable Diffusion Inpainting 사전 훈련된 UNet 네트워크에 입력합니다.
Stable Diffusion Inpainting 모델에서 차이점은 UNet이 추가 입력 마스크를 사용하여 조건에 따른 그림과 생성할 그림을 구분한다는 점입니다.
원근감에 해당하는 원근감, 마스크 코드가 1로 설정하면 이 분기의 UNet이 관점을 직접 복원합니다. 다른 관점의 경우 마스크는 0으로 설정되고 해당 분기의 UNet은 새로운 관점 뷰를 생성합니다
마찬가지로 MVDiffusion은 "Correspondence-aware Attention" 모듈을 사용하여 생성된 이미지와 이미지 사이의 기하학적 일관성을 학습합니다. 조건부 이미지.
MVDiffusion은 먼저 깊이 맵과 카메라 포즈를 기반으로 궤적에 RGB 이미지를 생성한 다음 TSDF 융합을 사용하여 생성된 RGB 이미지를 주어진 깊이 맵과 합성합니다. 메쉬.
RGB 이미지의 픽셀 대응은 깊이 맵과 카메라 포즈를 통해 얻을 수 있습니다.
파노라마 생성 과정은 여러 장의 사진이나 비디오를 연결하여 이미지나 비디오의 파노라마 보기를 만드는 것입니다. 이 프로세스에는 일반적으로 특수 소프트웨어나 도구를 사용하여 이러한 이미지나 비디오를 자동 또는 수동으로 정렬, 혼합 및 복구하는 작업이 포함됩니다. 파노라마 생성을 통해 사람들은 풍경, 건물, 실내 공간 등의 장면을 더 넓은 시각으로 감상하고 경험할 수 있습니다. 이 기술은 관광, 부동산, 가상 현실 및 기타 분야에 폭넓게 적용됩니다. 우리는 다중 분기 UNet을 사용하고 "Correspondence-aware Attention"을 삽입하여 관점에 따른 기하학적 일관성을 학습합니다.
"Correspondence-aware Attention"(CAA)은 MVDiffusion의 핵심이며 여러 뷰 간의 기하학적 일관성과 의미적 통일성을 학습하는 데 사용됩니다.
MVDiffusion은 Stable Diffusion UNet의 각 UNet 블록 뒤에 "Correspondence-aware Attention" 블록을 삽입합니다. CAA는 소스 기능 맵과 N 대상 기능 맵을 고려하여 작동합니다.
소스 특징 맵의 위치에 대해 대상 특징 맵의 해당 픽셀과 그 이웃을 기반으로 주의 출력을 계산합니다.
특히, 각 대상 픽셀 t^l에 대해 MVDiffusion은 정수 변위(dx/dy)를 (x/y) 좌표에 추가하여 K x K 이웃을 고려합니다. 여기서 |dx| 는 x 방향의 변위를 나타내고, |dy|는 y 방향의 변위
실제 응용 분야에서 MVDiffusion 알고리즘은 K=3을 사용하고 9점 이웃을 선택하여 파노라마 품질을 향상시킵니다. 그러나 기하학적 조건이 적용되는 다시점 이미지를 생성할 때 작업 효율성을 높이기 위해 K=1
CAA 모듈의 계산은 그림과 같이 표준 주의 메커니즘을 따릅니다. 위 공식에서 W_Q, W_K 및 W_V는 쿼리, 키 및 값 행렬의 학습 가능한 가중치입니다. 대상 특징은 정수 위치에 위치하지 않지만 이중선형 보간법을 통해 얻습니다.
주요 차이점은 소스 이미지의 해당 위치 s^l과 s 사이의 2D 변위(파노라마) 또는 1D 깊이 오류(기하학)를 기반으로 대상 피처에 위치 인코딩이 추가된다는 것입니다.
파노라마 생성(애플리케이션 1 및 애플리케이션 2)에서 이 변위는 지역 동네의 상대적 위치를 제공합니다.
그리고 깊이-이미지 생성(응용 프로그램 3)에서 시차는 깊이 불연속성 또는 폐색에 대한 단서를 제공하며 이는 충실도가 높은 이미지 생성에 매우 중요합니다.
변위는 2D(변위) 또는 1D(깊이 오차) 벡터를 포함하는 개념이라는 점에 유의하세요. MVDiffusion은 변위의 x 및 y 좌표에 표준 주파수 인코딩을 적용합니다
위 내용은 MVDiffusion: 고품질 다시점 이미지 생성 및 장면 자료의 정확한 재현 달성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!