한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google '라이트 필드 신경망 렌더링'의 진화 역사-일체 포함-php.cn

뷰 합성은 컴퓨터 비전과 컴퓨터 그래픽의 교차점에서 중요한 문제입니다. 이는 여러 장면의 사진에서 장면의 새로운 뷰를 생성하는 것을 의미합니다.

장면의 새로운 뷰를 정확하게 합성하려면 모델은상세한 3D 구조, 재료 및 조명등과 같은 작은 참조 이미지 세트에서 여러 유형의 정보를 캡처해야 합니다.

2020년 연구원들이NeRF(Neural Radiation Field)모델을 제안한 이후 이 문제 역시 점점 더 주목을 받아 새로운 시점 합성 성능이 크게 향상되었습니다.

한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

NeRF 분야에서 많은 논문을 발표한Google도 있습니다. 이 기사에서는 Google이 CVPR 2022와 ECCV 2022에 대해 발표한 두 가지 논문을 소개합니다. Light Field Neural 렌더링 모델의 진화.

첫 번째 논문에서는 참조 픽셀 색상을 결합하는 방법을 학습하는Transformer 기반 2단계 모델을 제안합니다. 먼저 에피폴라 선(에피폴라 선)을 따라 특징을 얻은 다음 참조 뷰를 따라 특징을 얻어 목표 광선을 생성합니다. ,뷰 재현의 정확도가 크게 향상됩니다.

한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

문서 링크: https://arxiv.org/pdf/2112.09687.pdf

ClassicLight Field Rendering은 반사, 굴절, 반투명도가 있지만 장면의 조밀한 뷰 샘플링이 필요합니다. 기하학적 재구성에 기반한 방법은 희소 보기만 필요하지만 비램버트 효과, 즉비이상적 산란을 정확하게 모델링할 수는 없습니다.

한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

논문에서 제안된 새로운 모델은 이 두 방향의 장점을 결합하고광장의 한계를 완화하여 모델은 시야를 정확하게 표현하는 방법을 학습할 수 있습니다. 관련 효과 . 장면 기하학은 훈련 및 추론 중에 기하학적 제약 조건을 적용하여 희박한 뷰 세트에서 암시적으로 학습됩니다.

한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

이 모델은 여러 전방 및 360° 데이터 세트에서 최첨단 모델보다 성능이 뛰어나며 시선에 따른 변화가 심각한 장면에서 더 큰 여유를 갖습니다.

또 다른 논문은 정규화된 위치 인코딩과 함께변환기 시퀀스를 사용하여 보이지 않는 장면을 합성하는일반화 문제를 다루고 있습니다. 모델이 일련의 장면에 대해 학습된 후에는 새로운 장면의 뷰를 합성하는 데 사용할 수 있습니다.

한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

논문 링크:https://arxiv.org/pdf/2207.10662.pdf

논문은 딥 피처와 NeRF와 같은 볼륨 렌더링이 필요하지 않은 다른 패러다임을 제안합니다. 이 방법은 장면에서 패치 세트를 간단히 샘플링하여 새 장면의 대상 광선 색상을 직접 예측할 수 있습니다.

먼저에피팔 기하학을 활용하여 각 참조 뷰의에피폴라 선을 따라 패치를 추출하고 각 패치를 1차원 특징 벡터로 선형 투영한 다음 이 컬렉션을 처리하는 일련의 Transformer로 구성됩니다.

위치 인코딩의 경우 연구원들은 라이트 필드 표현 방법과 유사한 방식으로 광선을 매개변수화합니다. 차이점은 좌표가 대상 광선을 기준으로 정규화되어 방법이 참조 프레임과 독립적이게 하고 개선된다는 것입니다. 일반성.

모델의 혁신은 이미지 기반 렌더링을 수행하여 참조 이미지의 색상과 특성을 결합하여 새로운 뷰를 렌더링한다는 점이며, 순전히 Transformer 기반이며 이미지 패치 세트에서 작동합니다. . 또한 위치 인코딩을 위해 4D 라이트 필드 표현을 활용하여 뷰 관련 효과를 시뮬레이션하는 데 도움을 줍니다. 한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

최종 실험 결과는보다 훨씬 적은 데이터로 훈련

하는 경우에도 보이지 않는 장면의 새로운 뷰 합성에서 이 방법이 다른 방법보다 성능이 우수하다는 것을 보여줍니다.

라이트 필드 신경 렌더링

모델에 대한 입력은 참조 이미지 세트, 해당 카메라 매개변수(초점 거리, 위치 및 공간 방향), 사용자가 색상을 원하는 대상 광선의 좌표로 구성됩니다. 결정하다.

새 이미지를 생성하려면 입력 이미지의 카메라 매개변수부터 시작하여 먼저 대상 광선의 좌표(각각 픽셀에 해당)를 얻은 다음 각 좌표에 대한 모델 쿼리를 수행해야 합니다.

연구원의 솔루션은 각 참조 이미지를 완전히 처리하는 것이 아니라 대상 픽셀에 영향을 줄 수 있는 영역만 살펴보는 것입니다. 이러한 영역은 각 대상 픽셀을 각 참조 프레임의 선에 매핑하는 에피폴라 기하학에 의해 결정될 수 있습니다.

안전을 위해 에피폴라 선의 일부 지점 주변의 작은 영역을 선택하여 모델에서 실제로 처리할 패치 세트를 형성한 다음 이 패치 세트에 Transformer를 적용하여 대상 픽셀의 색상을 얻습니다.

Transformer는 Self-Attention 메커니즘이 자연스럽게 패치 컬렉션을 입력으로 사용할 수 있고 Attention 가중치 자체를 사용하여 참조 뷰 색상 및 기능과 함께 출력 픽셀을 예측할 수 있기 때문에 이 경우 특히 유용합니다. .s 색상. 한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

광장 신경 렌더링(LFNR)에서 연구원들은 두 개의 Transformer 시퀀스를 사용하여 패치 모음을 대상 픽셀 색상에 매핑합니다.

첫 번째 Transformer는 각 에피폴라 선을 따라 정보를 집계하고, 두 번째 Transformer는 각 참조 이미지를 따라 정보를 집계합니다.

이 접근 방식은 첫 번째 Transformer를 각 참조 프레임에서 대상 픽셀의 잠재적 일치성을 찾는 것으로 해석할 수 있는 반면, 두 번째 Transformer는 역시 이미지 기반인 폐색 및 시선 종속 효과에 대해 추론합니다. .

LFNR은 가장 인기 있는 뷰 합성 벤치마크(NeRF의 Blender 및 Real Forward-Facing 장면 및 NeX의 Shiny)에서 sota 모델에 비해 피크 신호 대 잡음비(PSNR)를 최대 5dB 향상합니다. 이는 상당히 픽셀 수준의 오류를 1.8배 줄여줍니다. 한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

LFNR은 NeX/Shiny 데이터세트에서 무지개와 CD의 반사, 반사, 굴절, 병의 반투명과 같은 좀 더 어려운 시선 의존 효과를 재현할 수 있습니다.

NeX 및 NeRF와 같은 이전 방법과 비교하여 NeX/Shiny 데이터 세트의 실험실 장면에서 시험관의 반투명도 및 굴절률과 같은 시선 관련 효과를 재현할 수 없습니다. . 한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

한 번 훈련하고 새로운 장면에 일반화하세요

한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사

하지만 LFNR에도 한계가 있습니다.

첫 번째 Transformer는 각 참조 이미지에 대해 독립적으로 각 에피폴라 선을 따라 정보를 접습니다. 이는 또한 모델이 각 참조 이미지의 출력 광선 좌표 및 패치를 기반으로 유지할 정보만 결정할 수 있음을 의미합니다. 훈련 장면(대부분의 신경 렌더링 방법과 마찬가지로)에서는 잘 작동하지만 다른 장면으로 일반화되지는 않습니다.

일반화 가능한 모델은 재교육 없이 새로운 시나리오에 직접 적용할 수 있기 때문에 중요합니다.

연구원들은 이러한 LFNR의 단점을 해결하기 위해 일반적인 패치 기반 신경 렌더링(GPNR) 모델을 제안했습니다.

한 번 훈련하면 새로운 3D 장면을 생성할 수 있습니다! Google 라이트 필드 신경망 렌더링의 진화 역사