NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.-일체 포함-php.cn

NeRF(Neural Radiation Fields)는 인기 있는 새로운 뷰 합성 방법이 되었습니다. NeRF가 더 넓은 범위의 애플리케이션과 데이터 세트로 빠르게 일반화되고 있지만 NeRF 모델링 시나리오를 직접 편집하는 것은 여전히 큰 과제로 남아 있습니다. 중요한 작업은 3D 장면에서 원하지 않는 개체를 제거하고 주변 장면과의 일관성을 유지하는 것입니다. 이 작업을 3D 이미지 인페인팅이라고 합니다. 3D에서 솔루션은 여러 뷰에서 일관되고 기하학적으로 유효해야 합니다.

이 논문에서 삼성, 토론토 대학교 및 기타 기관의 연구원들은 이러한 문제를 해결하기 위해 새로운 3D 인페인팅 방법을 제안합니다. 단일 입력 이미지에 작은 세트의 포즈 이미지와 희박한 주석이 있는 경우 제안된 모델 프레임워크가 먼저입니다. 신속하게 대상 객체의 3차원 분할 마스크를 획득하고 마스크를 사용한 후 학습된 2차원 이미지를 사용하여 이를 복구하고 해당 정보를 3차원 공간으로 추출하는 지각 최적화 기반 방법을 도입합니다. 뷰 일관성을 보장합니다.

이 연구는 또한 까다로운 실제 장면 데이터 세트를 훈련하여 3D 장면 내 인페인팅 방법을 평가하기 위한 새로운 벤치마크를 제공합니다. 특히 이 데이터 세트에는 대상 개체가 있거나 없는 동일한 장면의 뷰가 포함되어 있어 3D 공간에서 인페인팅 작업에 대한 보다 원칙적인 벤치마킹이 가능합니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

논문 주소: https://arxiv.org/pdf/2211.12254.pdf
논문 홈페이지: https://spinnerf3d.github.io/

다음은 일부 개체를 제거한 후에도 주변 장면과의 일관성을 유지할 수 있는 데모입니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

이 방법과 다른 방법의 비교에는 명백한 아티팩트가 있습니다. 그다지 명확하지 않음:

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

방법 소개

저자는 장면의 다중 뷰 이미지를 얻고 사용자 입력 마스크로 3D 이미지를 추출하는 통합 접근 방식을 통해 3D 장면 편집 작업의 다양한 과제를 해결합니다. NeRF 훈련을 사용하여 마스크 이미지를 생성하여 대상 객체가 합리적인 3차원 모양과 기하학으로 대체됩니다. 기존의 대화형 2D 분할 방법은 3D 측면을 고려하지 않으며 현재 NeRF 기반 방법은 희소 주석을 사용하여 좋은 결과를 얻을 수 없으며 충분한 정확도를 얻지 못합니다. 현재 일부 NeRF 기반 알고리즘은 객체 제거를 허용하지만 새로 생성된 공간 부분을 제공하려고 시도하지는 않습니다. 현재 연구 진행 상황에 따르면, 이 작업은 단일 프레임워크에서 대화형 다시점 분할과 완전한 3D 이미지 복원을 동시에 처리하는 최초의 작업입니다.

연구원들은 분할 및 이미지 복원을 위해 기성 3D 프리 모델을 활용하고 뷰가 일관된 방식으로 출력을 3D 공간으로 전송합니다. 2D 대화형 분할 작업을 기반으로 제안된 모델은 대상 개체에 마우스를 놓고 사용자가 보정한 소수의 이미지 지점에서 시작됩니다. 이를 통해 그들의 알고리즘은 비디오 기반 모델로 마스크를 초기화하고 의미론적 마스크의 NeRF를 피팅하여 일관된 3D 분할로 훈련합니다. 그런 다음 사전 훈련된 2D 이미지 복원이 다중 뷰 이미지 세트에 적용됩니다. NeRF 피팅 프로세스는 2D 이미지의 불일치를 제한하기 위한 지각 손실과 정규화된 형상을 사용하여 3D 이미지 장면을 재구성하는 데 사용됩니다. 깊이 이미지의 마스크입니다. 전반적으로 우리는 아래 그림과 같이 사용자에게 최소한의 부담을 주는 통합 프레임워크에서 객체 선택부터 내장된 장면의 새로운 뷰 합성까지 완전한 접근 방식을 제공합니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

요약하면 이 작업의 기여는 다음과 같습니다.

사용자 상호 작용 객체 선택에서 시작하여 3D 복구 NeRF 장면으로 끝나는 완전한 3D 장면 작업 프로세스
2D 분할 모델을 다중 뷰 상황으로 확장하고 3D 일관성 마스크를 사용하여 희소 주석에서 복구 가능
2D 이미지 인페인팅을 활용한 새로운 최적화 기반 3D 인페인팅 공식인 뷰 일관성과 지각적 타당성을 보장합니다.
3D 편집 작업에 대한 새로운 평가 데이터 세트에는 해당 작업 후 Groud Truth가 포함됩니다.

방법에 대해 구체적으로 이 연구에서는 먼저 단일 뷰 주석에서 대략적인 3D 마스크를 초기화하는 방법을 설명합니다. 주석이 달린 소스 코드 보기를 I_1로 표시합니다. 객체 및 소스 뷰에 대한 희소 정보를 대화형 분할 모델에 공급하여 초기 소스 객체 마스크 NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다. 를 추정합니다. 그런 다음 트레이닝 뷰는 를 계산하기 위해 비디오 인스턴스 분할 모델 V가 제공된 와 함께 비디오 시퀀스로 제공됩니다. 여기서 NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다. 는 I_i의 객체 마스크에 대한 초기 추측입니다. 초기 마스크는 훈련 보기가 실제로 인접한 비디오 프레임이 아니고 비디오 분할 모델이 3D로 알려지지 않은 경우가 많기 때문에 경계 근처에서 부정확한 경우가 많습니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

다중 뷰 분할 모듈은 입력 RGB 이미지, 해당 카메라 고유 및 외부 매개변수, 초기 마스크를 사용하여 의미론적 NeRF를 훈련합니다. 위 다이어그램은 점 x와 뷰 디렉토리 d에 대해 의미론적 NeRF에 사용되는 네트워크를 묘사하며, 밀도 σ와 색상 c 외에도 사전 시그모이드 객체 로짓 s(x)를 반환합니다. 빠른 수렴을 위해 연구원들은 instant-NGP를 NeRF 아키텍처로 사용했습니다. 광선 r과 관련된 원하는 객관성은 방정식의 밀도를 기준으로 색상 대신 r에 있는 점의 로그를 표시하여 얻습니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

그런 다음 감독을 위해 분류 손실을 사용합니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

NeRF 기반 다중 뷰 분할 모델을 감독하는 데 사용되는 전체 손실은 다음과 같습니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

마지막으로, After를 얻은 후 마스크를 더욱 개선하기 위해 최적화에 두 단계가 사용됩니다. 초기 3D 마스크인 경우 마스크는 트레이닝 뷰에서 렌더링되고 (비디오 분할 출력 대신) 초기 가설로서 2차 다중 뷰 분할 모델을 감독하는 데 사용됩니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

위 이미지는 뷰 일관성 수정 방법의 개요를 보여줍니다. 데이터 부족으로 인해 3D 수정된 인페인팅 모델을 직접 훈련할 수 없기 때문에 이 연구에서는 기존 2D 인페인팅 모델을 활용하여 깊이와 모양 사전 정보를 얻은 다음 NeRF 렌더링을 전체 장면에 맞게 감독합니다. 이 내장된 NeRF는 다음 손실을 사용하여 훈련됩니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

본 연구에서는 입력이 RGB인 뷰 일관성 있는 인페인팅 방법을 제안합니다. 먼저, 연구에서는 이미지와 마스크 쌍을 이미지 인페인터로 전송하여 RGB 이미지를 얻습니다. 각 뷰는 독립적으로 복구되므로 복구된 뷰는 NeRF 재구성을 감독하는 데 직접 사용됩니다. 본 논문에서 연구자들은 마스크를 생성하기 위한 손실로 평균 제곱 오차(MSE)를 사용하지 않고 지각 손실 LPIPS를 사용하여 이미지의 마스크된 부분을 최적화하는 동시에 MSE를 사용하여 마스크되지 않은 부분을 최적화할 것을 제안합니다. . 이 손실은 다음과 같이 계산됩니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

지각 손실이 있더라도 뷰 간의 차이를 수정하면 모델이 낮은 품질의 형상으로 수렴하도록 잘못 안내할 수 있습니다(예: "흐릿한" 형상 측정이 뷰 근처에서 형성될 수 있음). 카메라), 각 뷰에 대해 서로 다른 정보를 해석합니다). 따라서 연구진은 생성된 깊이 맵을 NeRF 모델에 대한 추가 지침으로 사용하고 지각 손실을 계산할 때 가중치를 분리하여 장면의 색상에만 맞는 지각 손실을 사용했습니다. 이를 위해 원치 않는 물체가 포함된 이미지에 최적화된 NeRF와 훈련 뷰에 해당하는 렌더링된 깊이 맵을 사용했습니다. 계산 방법은 점의 색상 대신 카메라까지의 거리를 사용하는 것입니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

렌더링된 깊이는 수리자 모델에 입력되어 수리된 깊이 맵을 얻습니다. 연구에 따르면 RGB와 같은 깊이 렌더링에 LaMa를 사용하면 충분히 높은 품질의 결과를 얻을 수 있는 것으로 나타났습니다. 이 NeRF는 다중 뷰 분할에 사용되는 것과 동일한 모델일 수 있습니다. 인간 주석이 달린 마스크와 같은 마스크를 얻기 위해 다른 소스를 사용하는 경우 새로운 NeRF가 장면에 설치됩니다. 그런 다음 이러한 깊이 맵은 인페인팅된 깊이 맵을 얻기 위해 렌더링된 깊이가 인페인터 모델에 공급되는 인페인팅된 NeRF의 형상을 감독하는 데 사용됩니다. 연구에 따르면 RGB와 같은 깊이 렌더링에 LaMa를 사용하면 충분히 높은 품질의 결과를 얻을 수 있는 것으로 나타났습니다. 이 NeRF는 다중 뷰 분할에 사용되는 것과 동일한 모델일 수 있습니다. 인간 주석이 달린 마스크와 같은 마스크를 얻기 위해 다른 소스를 사용하는 경우 새로운 NeRF가 장면에 설치됩니다. 그런 다음 이러한 깊이 맵은 렌더링 깊이를 인페인팅 깊이 NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다. 에서 인페인팅 깊이 거리로 인페인팅 NeRF의 형상을 감독하는 데 사용됩니다.

실험 결과

멀티 뷰 분할: 먼저 MVSeg를 평가합니다. 편집 수정 없이 모델을 수정합니다. 이 실험에서는 희소 이미지 포인트에 기성 대화형 분할 모델이 제공되고 소스 마스크를 사용할 수 있다고 가정합니다. 따라서 작업은 소스 마스크를 다른 뷰로 전송하는 것입니다. 아래 표는 새 모델이 2D(3D 불일치) 및 3D 기준보다 성능이 우수하다는 것을 보여줍니다. 또한 연구진이 제안한 2단계 최적화는 결과 마스크를 더욱 개선하는 데 도움이 됩니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

질적으로 말하면 아래 그림은 연구자의 분할 모델 결과를 NVOS의 출력 및 일부 비디오 분할 방법과 비교합니다. 3D 비디오 분할 모델의 두꺼운 가장자리에 비해 이 모델은 노이즈를 줄이고 뷰 일관성을 향상시킵니다. NVOS는 연구원의 새 모델에 사용된 희박한 점 대신 낙서를 사용하지만 새 모델의 MVSeg는 NVOS보다 시각적으로 우수합니다. NVOS 코드베이스를 사용할 수 없기 때문에 연구원들은 NVOS에 대해 게시된 정성적 결과를 복제했습니다(자세한 예는 보충 문서 참조).

아래 표는 MV 방법과 기준선의 비교를 보여줍니다. 전반적으로 새로 제안된 방법은 다른 2D 및 3D 복구 방법보다 훨씬 뛰어납니다. 아래 표는 기하학적 구조에서 지침을 제거하면 복구된 장면의 품질이 저하된다는 것을 추가로 보여줍니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.

정성적 결과는 그림 6과 그림 7에 나와 있습니다. 그림 6은 우리의 방법이 광택 표면과 무광택 표면의 일관된 뷰를 포함하여 상세한 질감으로 뷰 일관성 장면을 재구성할 수 있음을 보여줍니다. 그림 7은 우리의 지각 방법이 마스크 영역의 정확한 재구성에 대한 제약을 줄여 모든 이미지를 사용할 때 흐려지는 현상을 방지하는 동시에 단일 뷰 감독으로 인한 아티팩트를 방지한다는 것을 보여줍니다.

NeRF의 새로운 연구 결과: 3D 장면은 물체 없이 머리카락까지 정확하게 제거됩니다.