Any Scene in Any Scene: 사실적인 객체 삽입(다양한 주행 데이터의 합성 지원)-일체 포함-php.cn

원제: 모든 장면의 모든 것: 사실적인 비디오 개체 삽입

논문 링크: https://arxiv.org/pdf/2401.17509.pdf

코드 링크: https://github.com/AnythingInAnyScene/anything_in_anyscene

저자 소속: Xpeng Motors

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

논문 아이디어

실감나는 영상 시뮬레이션은 가상 현실부터 영화 제작까지 다양한 응용 분야에서 큰 잠재력을 보여주었습니다. 특히 현실 세계에서 비디오를 캡처하는 것은 비실용적이거나 비용이 많이 듭니다. 비디오 시뮬레이션의 기존 방법은 조명 환경을 정확하게 모델링하거나 객체 형상을 표현하거나 높은 수준의 사실적 수준을 달성하지 못하는 경우가 많습니다. 본 논문에서는 기존의 역동적인 영상에 어떤 객체든 원활하게 삽입하고 물리적 사실성을 강조할 수 있는 새롭고 다재다능한 실제 영상 시뮬레이션 프레임워크인 Anything in Any Scene을 제안합니다. 본 논문에서 제안된 전체 프레임워크에는 세 가지 주요 프로세스가 포함되어 있습니다. 1) 실제 객체를 주어진 장면 비디오에 통합하고 기하학적 사실성을 보장하기 위해 적절한 위치에 배치합니다. 2) 하늘 및 주변 조명 분포를 추정하고 실제 그림자를 시뮬레이션하고 빛의 현실성을 향상합니다. 3) 스타일 전송 네트워크를 사용하여 최종 비디오 출력을 개선하여 사진 현실감을 극대화합니다. 이 기사에서는 Anything in Any Scene 프레임워크가 탁월한 기하학적 현실성, 조명 현실성 및 사진 현실성을 갖춘 시뮬레이션 비디오를 생성할 수 있음을 실험적으로 증명합니다. 비디오 데이터 생성과 관련된 문제를 크게 완화함으로써 당사의 프레임워크는 고품질 비디오를 얻기 위한 효율적이고 비용 효과적인 솔루션을 제공합니다. 또한 해당 응용 프로그램은 비디오 데이터 향상을 훨씬 뛰어 넘어 가상 현실, 비디오 편집 및 기타 다양한 비디오 중심 응용 프로그램에서 유망한 잠재력을 보여줍니다.

주요 기여

이 문서에서는 모든 개체를 동적 장면 비디오에 통합할 수 있는 새롭고 확장 가능한 Anything in Any Scene 비디오 시뮬레이션 프레임워크를 소개합니다.

이 기사는 고유하게 구성되어 있으며 출력 결과의 높은 품질과 신뢰성을 보장하기 위해 비디오 시뮬레이션에서 기하학, 조명 및 사실감을 유지하는 데 중점을 둡니다.

광범위한 검증 후 결과는 프레임워크가 매우 사실적인 비디오 시뮬레이션을 생성할 수 있는 능력을 가지고 있음을 보여줌으로써 이 분야의 응용 범위와 개발 잠재력을 크게 확장합니다.

논문 디자인

이미지 및 비디오 시뮬레이션은 가상 현실부터 영화 제작까지 다양한 응용 분야에서 성공적으로 사용됩니다. 사실적인 이미지 및 비디오 시뮬레이션을 통해 다양하고 고품질의 시각적 콘텐츠를 생성하는 능력은 이러한 분야를 발전시켜 새로운 가능성과 응용 프로그램을 도입할 수 있는 잠재력을 가지고 있습니다. 실제 세계에서 캡처한 이미지와 비디오의 신뢰성은 매우 중요하지만 롱테일 배포로 인해 제한되는 경우가 많습니다. 이로 인해 일반적인 시나리오는 과도하게 표현되고 드물지만 중요한 상황은 과소 표현되어 배포 부족 문제로 알려진 문제가 발생합니다. 비디오 캡처 및 편집을 통해 이러한 제한 사항을 해결하는 기존 방법은 가능한 모든 시나리오를 다루기가 어려웠기 때문에 비실용적이거나 비용이 많이 드는 것으로 나타났습니다. 특히 기존 비디오를 새로 삽입된 개체와 통합하는 비디오 시뮬레이션의 중요성은 이러한 과제를 극복하는 데 매우 중요합니다. 비디오 시뮬레이션은 대규모의 다양하고 사실적인 시각적 콘텐츠를 생성함으로써 가상 현실, 비디오 편집 및 비디오 데이터 증대 분야의 애플리케이션을 강화하는 데 도움이 됩니다.

그러나 물리적 사실성을 고려한 사실적인 시뮬레이션 영상을 생성하는 것은 여전히 어려운 과제입니다. 기존 방법은 특정 설정, 특히 실내 환경에 중점을 두어 한계를 나타내는 경우가 많습니다[9, 26, 45, 46, 57]. 이러한 방법은 다양한 조명 조건과 빠르게 움직이는 물체를 포함하여 야외 장면의 복잡성을 적절하게 해결하지 못할 수 있습니다. 3D 모델 등록에 의존하는 방법은 제한된 클래스의 객체를 통합하는 것으로 제한됩니다[12, 32, 40, 42]. 많은 방법에서는 조명 환경 모델링, 올바른 객체 배치 및 사실성 달성과 같은 중요한 요소를 무시합니다[12, 36]. 실패한 사례는 그림 1에 나와 있습니다. 따라서 이러한 제한으로 인해 자율 주행 및 로봇 공학과 같이 확장성이 뛰어나고 기하학적으로 일관되며 사실적인 장면 비디오 시뮬레이션이 필요한 영역에서의 적용이 크게 제한됩니다.

이 문서에서는 이러한 문제를 해결하는 사실적인 비디오 개체 삽입을 위한 포괄적인 프레임워크인 Anything in Any Scene을 제안합니다. 프레임워크는 실내 및 실외 장면에 적합하고 다용도로 설계되어 기하학적 사실성, 조명 사실성 및 포토리얼리즘 측면에서 물리적 정확성을 보장합니다. 이 기사의 목표는 기계 학습의 시각적 데이터 증대에 유용할 뿐만 아니라 가상 현실 및 비디오 편집과 같은 다양한 비디오 애플리케이션에도 적합한 비디오 시뮬레이션을 만드는 것입니다.

이 글의 Anything in Any Scene 프레임워크 개요는 그림 2에 나와 있습니다. 이 문서에서는 섹션 3의 장면 비디오 및 개체 메시의 다양한 자산 라이브러리를 구축하기 위한 새롭고 확장 가능한 파이프라인에 대해 자세히 설명합니다. 본 논문에서는 설명 키워드를 이용하여 시각적 질의로부터 관련 영상을 효율적으로 검색하도록 설계된 시각적 데이터 질의 엔진을 소개한다. 다음으로, 본 논문에서는 기존 3D 자산과 다시점 이미지 재구성을 활용하여 3D 메시를 생성하는 두 가지 방법을 제안합니다. 이를 통해 매우 불규칙하거나 의미가 약한 경우에도 원하는 개체를 제한 없이 삽입할 수 있습니다. 섹션 4에서는 물리적 사실성을 유지하는 데 중점을 두고 개체를 동적 장면 비디오에 통합하는 방법을 자세히 설명합니다. 본 논문에서는 삽입된 객체가 연속적인 비디오 프레임에 안정적으로 고정되도록 4.1절에 설명된 객체 배치 및 안정화 방법을 설계합니다. 사실적인 조명 및 그림자 효과를 생성하는 문제를 해결하기 위해 이 문서에서는 섹션 4.2에 설명된 대로 하늘과 환경 조명을 추정하고 렌더링 중에 사실적인 그림자를 생성합니다. 생성된 시뮬레이션된 비디오 프레임에는 노이즈 수준, 색상 충실도, 선명도의 이미징 품질 차이와 같이 실제 캡처된 비디오와 다른 비현실적인 아티팩트가 필연적으로 포함됩니다. 이 논문에서는 4.3절에서 사진 사실성을 향상시키기 위해 스타일 전달 네트워크를 사용합니다.

본 논문에서 제안한 프레임워크에서 생성된 시뮬레이션 비디오는 섹션 5.3에서 볼 수 있듯이 높은 수준의 조명 사실성, 기하학적 사실성 및 사진 사실성을 달성하여 품질과 양 모두에서 다른 비디오를 능가합니다. 이 기사에서는 실용적인 가치를 검증하기 위해 섹션 5.4의 인식 알고리즘 훈련에 이 기사의 시뮬레이션 비디오를 적용하는 방법을 추가로 보여줍니다. Anything in Any Scene 프레임워크를 사용하면 시간 효율성과 사실적인 시각적 품질로 데이터 확장을 위한 대규모 저비용 비디오 데이터 세트를 생성할 수 있으므로 비디오 데이터 생성 부담을 완화하고 잠재적으로 롱테일 및 아웃 오브 아웃을 개선할 수 있습니다. 유통 문제 . 일반 프레임워크 설계를 통해 Anything in Any Scene 프레임워크는 개선된 모델과 향상된 3D 메시 재구성 방법과 같은 새로운 모듈을 쉽게 통합하여 비디오 시뮬레이션 성능을 더욱 향상시킬 수 있습니다.

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成） 그림 1. 조명 환경 추정 오류, 객체 배치 오류, 비현실적인 텍스처 스타일이 있는 시뮬레이션된 비디오 프레임의 예 이러한 문제로 인해 이미지의 물리적 사실성이 부족합니다. Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成） 그림 2. 사실적인 비디오 개체 삽입을 위한 Anything in Any Scene 프레임워크 개요 그림 3. 개체 배치를 위한 운전 장면 비디오의 예. 각 이미지의 빨간색 점은 개체가 삽입된 위치입니다.

실험 결과

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

그림 4. 원본 하늘 이미지, 재구성된 HDR 이미지 및 관련 태양광 일조 분포 맵의 예

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

그림 5. 원본 및 재구성된 HDR 환경 파노라마 이미지의 예

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

그림 6. 삽입된 객체에 대한 그림자 생성의 예

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

그림 7. 다양한 스타일 전송 네트워크를 사용하여 PandaSet 데이터세트에서 시뮬레이션된 비디오 프레임의 질적 비교.

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

그림 8. 다양한 렌더링 조건에서 PandaSet 데이터세트의 시뮬레이션된 비디오 프레임을 정성적으로 비교합니다.

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

요약:

본 논문은 사실적인 비디오 시뮬레이션을 위해 설계된 혁신적이고 확장 가능한 프레임워크인 "Anything in Any Scene"을 제안합니다. 본 논문에서 제안된 프레임워크는 다양한 개체를 서로 다른 동적 비디오로 원활하게 통합하여 기하학적 사실성, 조명 사실성 및 사진 사실성을 보장합니다. 광범위한 시연을 통해 이 문서는 비디오 데이터 수집 및 생성과 관련된 문제를 완화하고 다양한 시나리오에 대한 비용 효율적이고 시간을 절약해 주는 솔루션을 제공하는 효율성을 입증합니다. 우리 프레임워크를 적용하면 다운스트림 인식 작업, 특히 객체 감지의 롱테일 분포 문제를 해결하는 데 상당한 개선이 나타납니다. 우리 프레임워크의 유연성을 통해 각 모듈에 대한 개선된 모델을 직접 통합할 수 있으며, 우리 프레임워크는 사실적인 비디오 시뮬레이션 분야에서 미래 탐구와 혁신을 위한 견고한 기반을 마련합니다.