Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다-일체 포함-php.cn

정말 놀랍습니다!

이제 단어 몇 마디만으로 아름답고 고품질의 3D 모델을 쉽게 만들 수 있다고요?

아니요, 외국 블로그가 인터넷을 터뜨려 MVDream이라는 걸 우리 앞에 내놓았어요.

사용자는 단 몇 단어만으로 실물과 같은 3D 모델을 만들 수 있습니다.

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다

그리고 이전과 다른 점은 MVDream이 물리학을 실제로 "이해"하는 것 같다는 것입니다.

이 MVDream이 얼마나 놀라운지 한번 볼까요~

MVDream

동생은 대형 모델 시대에 텍스트 생성 모델과 이미지 생성 모델을 너무 많이 봤다고 말했습니다. 그리고 이러한 모델의 성능은 점점 더 강력해지고 있습니다.

우리는 나중에 빈센트의 비디오 모델이 탄생하는 것을 목격했고, 물론 오늘 우리가 언급할 3D 모델도요

단지 문장을 입력하는 것만으로도 마치 세상에 존재하는 것처럼 보이는 객체를 생성할 수 있다고 상상해 보세요. 현실 세계 모델에는 필요한 모든 세부 사항도 포함되어 있는데, 이런 장면이 얼마나 멋진가요

그리고 이것은 확실히 쉬운 작업이 아닙니다. 특히 사용자가 충분히 사실적인 세부 사항을 갖춘 모델을 생성해야 하는 경우에는 더욱 그렇습니다.

우선 효과부터 보시죠~

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다

같은 프롬프트 아래 맨 오른쪽에 보이는 것이 MVDream의 완성품

5 사이의 간격 모델은 육안으로 볼 수 있습니다. 처음 몇 개의 모델은 객관적인 사실을 완전히 위반하며 특정 각도에서 볼 때만 정확합니다.

예를 들어 처음 4개의 사진에서 생성된 모델에는 실제로 두 개 이상의 귀가 있습니다. 네 번째 사진이 좀 더 자세해 보이지만 특정 각도로 돌리면 캐릭터의 얼굴이 오목하고 귀가 붙어 있는 것을 볼 수 있습니다.

편집자는 예전에 큰 인기를 끌었던 페파피그의 앞모습을 바로 떠올렸습니다.

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다

이것은 어떤 각도에서 보여지는 상황이지만 다른 각도에서 보면 안되는 상황입니다. 생명에 위협이 됩니다

맨 오른쪽에 생성된 MVDream 모델은 분명히 똑같지는 않습니다. 3D 모델을 어떻게 회전시켜도 전혀 색다른 느낌은 없습니다.

앞서 말한 내용이지만 MVDream은 물리학 지식을 잘 알고 있으며 각 뷰에 두 개의 귀가 있음을 보장하기 위해 이상한 것을 만들지 않을 것입니다

동생은 3D 모델을 판단하는 것이 성공의 열쇠라고 지적했습니다. 다양한 관점이 현실적이고 고품질

인지 관찰하고, 위에 귀가 여러 개 있는 모델과는 달리 모델이 공간적으로 일관성이 있는지 확인하는 것입니다.

3D 모델을 생성하는 주요 방법 중 하나는 카메라의 시점을 시뮬레이션한 후 특정 시점에서 볼 수 있는 것을 생성하는 것입니다.

다른 말로 2D리프팅이라고 합니다. 이는 서로 다른 관점을 결합하여 최종 3D 모델을 형성하는 것을 의미합니다.

위의 다중 귀 상황은 생성 모델이 3차원 공간에서 전체 개체의 모양 정보를 완전히 파악하지 못하기 때문에 발생합니다. 그리고 MVDream은 이 점에서 큰 진전을 이루었습니다.

이 새로운 모델은 3D 관점에서 이전 일관성 문제를 해결합니다.

분별 증류 샘플링

이 방법을 점수 증류 샘플링이라고 하며 DreamFusion에서 개발했습니다.

분별 증류를 배우기 전에 샘플링 기법을 사용하려면 먼저 이 방법이 채택한 아키텍처를 이해해야 합니다

즉, 이것은 실제로 DALLE, MidJourney 및 Stable Diffusion 모델과 유사한 또 다른 2차원 이미지 확산 모델입니다

더 구체적으로 모든 것은 사전 훈련된 DreamBooth 모델에서 시작됩니다. DreamBooth는 Stable Diffusion 원시 그래프를 기반으로 하는 오픈 소스 모델입니다.

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다

변화가 오고 있다는 것은 상황이 바뀌었다는 것을 의미합니다

다음으로 연구팀이 한 일은 하나의 이미지만 렌더링하는 것이 아니라 멀티뷰 이미지 세트를 직접 렌더링하는 것이었습니다. 다양한 객체의 차원 데이터 세트를 완성할 수 있습니다.

여기서 연구원들은 데이터 세트에서 3D 개체에 대한 여러 뷰를 가져와 이를 사용하여 모델을 교육한 다음 이를 사용하여 이러한 뷰를 거꾸로 생성했습니다.

구체적인 방법은 아래 그림의 파란색 self-attention 블록을 3차원 self-attention 블록으로 변경하는 것입니다. 즉, 연구자는 하나가 아닌 여러 이미지를 재구성하기 위해 한 차원만 추가하면 됩니다. 영상.

아래 그림에서는 어떤 이미지가 어디에 사용될지, 어떤 종류의 뷰가 생성되어야 하는지 모델이 이해하는 데 도움이 되도록 각 뷰에 대해 카메라와 시간 단계가 모델에 입력되는 것을 볼 수 있습니다

이제 모든 이미지가 하나로 연결되고 생성도 함께 이루어집니다. 따라서 그들은 정보를 공유하고 큰 그림을 더 잘 이해할 수 있습니다.

먼저 텍스트가 모델에 입력된 후 데이터 세트에서 객체를 정확하게 재구성하도록 훈련됩니다.

여기서 연구팀은 다중 뷰 분별 증류 샘플링 프로세스를 적용했습니다.

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다

이제 다중 뷰 확산 모델을 사용하여 팀은 객체에 대한 여러 뷰를 생성할 수 있습니다.

다음으로, 이러한 뷰를 사용하여 뷰뿐만 아니라 실제 세계와 일치하는 3차원 모델을 재구성해야 합니다.

여기서는 NeRF(신경 복사장, 신경 복사장)를 사용하여 앞에서 언급한 DreamFusion과 동일합니다.

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다

이 단계에서 우리의 목표는 이전에 훈련된 다중 시점 확산 모델을 동결하는 것입니다. 즉, 이 단계에서는 위의 각 관점의 이미지만 사용하고 더 이상 학습하지 않습니다.

초기 렌더링에 따라 연구원들은 다중 뷰 확산 모델을 사용하여 노이즈가 있는 초기 이미지 버전을 생성하기 시작했습니다.

모델이 다양한 버전의 이미지를 생성해야 한다는 것을 이해하기 위해 연구원들은 배경 정보를 수신할 수 있는 동시에 노이즈를 추가했습니다

다음으로 이 모델을 사용하여 더 높은 품질의 이미지를 생성할 수 있습니다

이 이미지를 생성하는 데 사용된 이미지를 추가하고 수동으로 추가한 노이즈를 제거하여 결과를 다음 단계에서 NeRF 모델을 안내하고 개선하는 데 사용할 수 있습니다.

다음 단계에서 더 나은 결과를 생성하기 위해 이 단계의 목적은 NeRF 모델이 이미지의 어느 부분에 초점을 맞춰야 하는지 더 잘 이해하는 것입니다.

만족스러운 3D 모델이 생성될 때까지 이 과정을 계속 반복하세요

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다

다시점 확산 모델의 이미지 생성 품질 평가와 다양한 디자인이 성능에 어떤 영향을 미칠지에 대한 판단은 이렇게 진행됩니다.

먼저 교차 뷰 일관성 모델을 구축하기 위한 주의 모듈 선택을 비교했습니다.

이러한 옵션은 다음과 같습니다.

(1) 비디오 확산 모델에 널리 사용되는 1차원 시간적 self-attention

(2) 기존 모델에 새로운 3차원 self-attention 모듈 추가;

(3) 3D 주의를 위해 기존 2D self-attention 모듈을 재사용합니다.

이러한 모듈 간의 차이점을 정확하게 보여주기 위해 이번 실험에서 연구진은 90도 관점 변경의 8개 프레임을 사용하여 모델이 비디오 설정에 더 가깝게 일치하도록 훈련했습니다.

실험에서 연구팀은 동시에 더 높은 이미지 해상도, 즉 원래 SD 모델과 같은 512×512가 유지됩니다. 아래 그림에서 볼 수 있듯이 연구원들은 정적 장면에서 이러한 제한된 관점 변화에도 불구하고 시간적 자기 관심은 여전히 콘텐츠 이동에 영향을 받고 관점 일관성을 유지할 수 없다는 것을 발견했습니다.

팀은 이것이 시간적 관심이 서로 다른 프레임의 동일한 픽셀 간에만 정보를 교환하며 시점이 변경되면 해당 픽셀이 멀리 떨어져 있을 수 있습니다.

반면, 일관성을 학습하지 않고 새로운 3D Attention을 추가하면 심각한 품질 저하가 발생할 수 있습니다.

연구원들은 이는 새로운 매개변수를 처음부터 학습하면 더 많은 훈련 데이터와 시간을 소모하기 때문이라고 생각하는데, 이는 3차원 모델이 제한된 이 상황에는 적용되지 않습니다. 그들은 생성 품질을 저하시키지 않으면서 최적의 일관성을 달성하기 위해 2D self-attention 메커니즘을 재사용하는 전략을 제안했습니다

팀은 또한 이미지 크기를 256으로 줄이면 조회수가 4로 줄어들고, 그 차이점도 발견했습니다. 이 모듈 사이의 크기는 훨씬 작습니다. 그러나 최상의 일관성을 달성하기 위해 연구자들은 다음 실험의 예비 관찰을 기반으로 선택했습니다.

Vincent의 3D 모델 혁신! 한 문장으로 초현실적인 3D 모델을 생성하는 MVDream이 옵니다