NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용-일체 포함-php.cn

Zenseact, Chalmers University of Technology, Linkoping University 및 Lund University의 "NeuRAD: 자율 주행을 위한 신경 렌더링" 논문.

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용 신경방사선장(NeRF)은 자율주행(AD) 커뮤니티에서 점점 인기를 얻고 있습니다. 최근 방법은 폐쇄 루프 시뮬레이션, AD 시스템 테스트 및 교육 데이터 확대 기술에서 NeRF의 잠재력을 보여주었습니다. 그러나 기존 방법은 종종 긴 훈련 시간, 집중적인 의미론적 감독이 필요하고 일반화가 부족합니다. 이는 결국 AD에서 NeRF의 대규모 적용을 방해합니다. 본 논문에서는 동적 AD 데이터를 위한 강력한 새로운 뷰 합성 방법인 NeuRAD를 제안합니다. 이 접근 방식은 간단한 네트워크 설계, 카메라 및 LiDAR(롤링 셔터, 빔 발산 및 빛 낙하 포함)를 포함한 센서 모델링을 특징으로 하며 즉시 사용 가능한 여러 데이터 세트에서 작동합니다.

그림과 같이 NeuRAD는 역동적인 자동차 장면에 맞춤화된 신경 렌더링 방법입니다. 자차 및 다른 도로 이용자의 자세를 변경할 수 있으며, 참가자를 자유롭게 추가 및/또는 제거할 수 있습니다. 이러한 기능을 통해 NeuRAD는 센서에 현실적인 폐쇄 루프 시뮬레이터 또는 강력한 데이터 증강 엔진과 같은 구성 요소의 기반으로 적합합니다.

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용 이 문서의 목표는 차량 플랫폼, 배우의 자세 또는 둘 다를 변경할 수 있는 실제 센서 데이터를 생성할 수 있는 표현을 배우는 것입니다. 모바일 플랫폼에서 수집한 데이터(설정된 카메라 이미지, LiDAR 포인트 클라우드, 모바일 액터의 크기 및 포즈 추정치)에 액세스할 수 있다고 가정합니다. 실용성을 위해 이 방법은 훈련 및 추론 시간을 최소로 유지하면서 주요 자동차 데이터 세트의 재구성 오류 측면에서 잘 수행되어야 합니다.

그림은 이 기사에서 제안된 방법의 개요입니다. NeuRAD: 배우 인식 해시 코딩으로 구별되는 자동차 장면에 대한 정적 및 동적 관절 신경 기능 필드 학습. 액터의 경계 상자 내에 있는 포인트는 액터 로컬 좌표로 변환되고 액터 인덱스와 함께 사용되어 4D 해시 그리드를 쿼리합니다. 볼륨 렌더링된 조명 수준 기능은 업샘플링 CNN을 사용하여 RGB 값으로 디코딩되고 MLP를 사용하여 광선 낙하 확률 및 강도로 디코딩됩니다.

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용 새로운 뷰 합성[4, 47] 작업을 기반으로 저자는 신경 기능 필드(NFF), NeRF의 일반화[25] 및 유사한 방법[23]을 사용하여 세계를 모델링합니다.

이미지를 렌더링하려면 일련의 카메라 광선을 볼륨 렌더링하여 기능 맵 F를 생성해야 합니다. 논문[47]에 설명된 대로 CNN(Convolutional Neural Network)을 사용하여 최종 이미지를 렌더링합니다. 실제 응용 분야에서 기능 맵은 해상도가 낮으며 광선 쿼리 수를 대폭 줄이기 위해 CNN을 사용하여 업샘플링해야 합니다.

Lidar 센서를 사용하면 자율 차량이 개별 점 집합의 깊이와 반사도(강도)를 측정할 수 있습니다. 그들은 레이저 빔의 펄스를 발사하고 비행 시간을 측정하여 반사 전력의 거리와 반사율을 결정했습니다. 이러한 특성을 포착하기 위해 자세 라이더 센서에서 전송된 펄스는 광선 세트로 모델링되고 볼륨 유사 렌더링 기술이 사용됩니다.

어떤 점으로도 돌아오지 않는 레이저 광선을 생각해 보세요. 반사 전력이 너무 낮으면 광선 강하(ray drop)라는 현상이 발생하는데, 이는 시뮬레이션-실제 차이를 줄이는 모델링에 중요합니다[21]. 일반적으로 이러한 빛은 표면에 닿지 않을 만큼 멀리 이동하거나 거울, 유리 또는 젖은 포장 도로와 같은 열린 공간으로 광선이 반사되는 표면에 닿습니다. 이러한 효과를 모델링하는 것은 센서의 현실적인 시뮬레이션에 중요하지만 [14]에 명시된 것처럼 낮은 수준 센서 감지 논리의 (종종 공개되지 않은) 세부 사항에 의존하기 때문에 순수하게 물리학 기반으로 캡처하기가 어렵습니다. 따라서 우리는 데이터로부터 광선 낙하를 학습하기로 결정했습니다. 강도와 유사하게, 빛의 특징은 체적적으로 렌더링되고 작은 MLP를 통과하여 빛 낙하 확률 pd(r)을 예측할 수 있습니다. [14]와 달리 LiDAR 빔의 2차 에코는 이 정보가 실험의 5개 데이터 세트에 없기 때문에 모델링되지 않습니다.

신경 특징 필드(NFF)의 정의를 학습 함수(s, f) = NFF(x, t, d)로 확장합니다. 여기서 x는 공간 좌표이고, t는 시간을 나타내고, d는 보는 방향을 나타냅니다. 이 정의는 장면의 동적 측면을 모델링하는 데 중요한 입력으로 시간을 도입합니다

Neural Architecture

NFF 아키텍처는 NeRF [4, 27]에서 인정받은 최고의 접근 방식을 따릅니다. 위치 x와 시간 t가 주어지면 행위자 인식 해시 코드를 쿼리합니다. 그런 다음 이 인코딩은 부호 있는 거리 s와 중간 특징 g를 계산하는 작은 MLP에 입력됩니다. 구면 고조파[27]를 사용하여 뷰 방향 d를 인코딩하면 모델이 반사 및 기타 뷰 관련 효과를 캡처할 수 있습니다. 마지막으로 방향 인코딩과 중간 기능은 두 번째 MLP를 통해 공동으로 처리되고 g의 건너뛰기 연결로 향상되어 기능 f가 생성됩니다.

장면 구성

전작 [18, 29, 46, 47]과 유사하게 세계를 정적 배경과 경직된 동적 배우 세트의 두 부분으로 나누고 각 배우는 정의된 3D 경계 상자와 SO(3) 포즈 세트를 사용합니다. 우리는 학습 과정을 단순화하고 훈련 후 새로운 시나리오의 동적 액터 생성을 허용하는 편집 가능성을 허용하는 두 가지 목적을 수행합니다. 다양한 장면 요소에 대해 별도의 NFF를 사용하는 이전 접근 방식과 달리, 우리는 모든 네트워크가 공유되고 정적 구성 요소와 동적 구성 요소 간의 구별이 행위자 인식 해시 인코딩을 통해 투명하게 처리되는 단일 통합 NFF를 사용합니다. 인코딩 전략은 간단합니다. 액터 경계 상자 내에 있는지 여부에 따라 두 가지 기능 중 하나로 주어진 샘플(x,t)을 인코딩합니다.

제한되지 않은 정적 장면

다중 해상도 해시 넷 격자 표현 사용 정적 장면의 표현은 표현력이 뛰어나고 효율적인 표현 방법임이 입증되었습니다. 그러나 무한한 장면을 메쉬에 매핑하기 위해 MipNerf-360에서 제안한 축소 방법을 채택합니다. 이 접근 방식은 단일 해시 메시를 사용하여 인근 도로 요소와 멀리 있는 구름을 정확하게 나타낼 수 있습니다. 대조적으로, 기존 방법은 전용 NFF를 활용하여 하늘과 다른 먼 지역을 캡처합니다.

강성 동적 액터

샘플(x, t)가 액터의 경계 상자 내에 있으면 공간 좌표 x 및 보는 방향 d는 주어진 시간 t에서 배우의 좌표계로 변환됩니다. 나중에 시간적 측면을 무시하고 정적 장면처럼 시간 독립적인 다중 해상도 해시 그리드에서 특징을 샘플링합니다. 간단히 말해서, 여러 다른 해시 그리드를 각 행위자에 대해 하나씩 별도로 샘플링해야 합니다. 그러나 대신 단일 4D 해시 그리드가 사용되며, 여기서 네 번째 차원은 행위자 인덱스에 해당합니다. 이 접근 방식을 사용하면 모든 행위자 기능을 병렬로 샘플링하여 개별 해시 그리드의 성능을 일치시키면서 상당한 속도 향상을 달성할 수 있습니다.

다중 규모 장면 문제

자동차 데이터에 신경 렌더링을 적용할 때 가장 큰 과제 중 하나는 이 데이터에 존재하는 여러 수준의 세부 정보를 처리하는 것입니다. 자동차가 장거리를 이동할 때 멀리서나 가까이서나 많은 표면을 볼 수 있습니다. 이 다중 규모 사례에서는 단순히 iNGP[27] 또는 NeRF의 위치 임베딩을 적용하면 앨리어싱 아티팩트[2]가 발생할 수 있습니다. 이 문제를 해결하기 위해 광선을 절두체로 모델링하는 많은 방법이 있으며, 절두체의 길이 방향은 빈의 크기에 따라 결정되고 방사 방향은 픽셀 면적과 센서로부터의 거리에 따라 결정됩니다 [2, 3, 13]

Zip -NeRF[4]는 현재 iNGP 해시 그리드에 대한 유일한 앤티앨리어싱 방법으로, 두 가지 절두체 모델링 기술인 다중 샘플링과 가중치 감소를 결합합니다. 다중 샘플링에서는 절두체의 여러 위치에 있는 위치 임베딩이 평균화되어 세로 및 방사형 범위를 캡처합니다. 가중치를 낮추기 위해 각 샘플은 셀 크기와 가우스 분산 간의 비율에 비례하여 가중치가 부여된 그리드 기능을 사용하여 등방성 가우스로 모델링되어 미세한 해상도를 효과적으로 억제합니다. 기술을 결합하면 성능이 크게 향상되는 동시에 멀티샘플링을 사용하면 런타임도 크게 늘어납니다. 따라서 이 백서의 목표는 운영에 미치는 영향을 최소화하면서 규모 정보를 통합하는 것입니다. Zip-NeRF에서 영감을 받아 저자는 절두체에 상대적인 크기를 기준으로 해시 그리드 기능의 가중치를 줄이는 직관적인 가중치 감소 방식을 제안합니다.

효율적인 샘플링

대규모 장면을 렌더링할 때의 또 다른 어려움은 효율적인 샘플링 전략이 필요하다는 것입니다. 하나의 이미지에서 근처 교통 표지판에 자세한 텍스트를 렌더링하는 동시에 몇 킬로미터 떨어진 고층 건물 사이의 시차 효과를 캡처할 수 있습니다. 두 가지 목표를 모두 달성하려면 광선을 균일하게 샘플링하려면 광선당 수천 개의 샘플이 필요하며 이는 계산상 불가능합니다. 이전 작업에서는 샘플을 잘라내기 위해 LiDAR 데이터에 크게 의존했기 때문에[47] LiDAR 작업 외부에서 렌더링하기가 어려웠습니다.

대신 이 문서에서는 광선 원점으로부터의 거리에 따라 샘플 사이의 공간이 증가하는 전력 함수[4]에 따라 광선을 따라 샘플을 렌더링합니다. 그렇다고 하더라도 표본 크기의 급격한 증가로 모든 관련 조건을 만족하는 것은 불가능합니다. 따라서 광선을 따라 가중치 분포를 생성하기 위해 신경 기능 필드(NFF)의 경량 버전을 쿼리하는 두 라운드의 제안 샘플링[25]도 사용됩니다. 그런 다음 이러한 가중치를 기반으로 새로운 샘플 세트가 렌더링됩니다. 이 프로세스를 두 번 반복하면 광선의 관련 위치에 집중되어 전체 크기 NFF를 쿼리하는 데 사용할 수 있는 정제된 샘플 세트가 얻어집니다. 제안된 네트워크를 감독하기 위해 안티 앨리어싱 온라인 증류 방법[4]이 채택되었으며 감독에는 LiDAR가 추가로 사용되었습니다.

롤링 셔터 모델링

표준 NeRF 기반 공식에서는 각 이미지가 원점 o에서 캡처된 것으로 가정합니다. 그러나 많은 카메라 센서에는 픽셀 행이 순차적으로 캡처되는 롤링 셔터가 있습니다. 따라서 카메라 센서는 첫 번째 행 캡처와 마지막 행 캡처 사이를 이동할 수 있어 단일 원점이라는 가정을 깨뜨립니다. 이는 합성 데이터[24] 또는 느린 휴대용 카메라로 촬영한 데이터에서는 문제가 되지 않지만, 빠르게 움직이는 차량, 특히 측면 카메라의 촬영에서는 롤링 셔터가 눈에 띄게 됩니다. LiDAR에서도 동일한 효과가 나타납니다. 각 스캔은 일반적으로 0.1초 안에 수집됩니다. 이는 고속도로 속도로 이동할 때 수 미터의 움직임에 해당합니다. 자체 동작 보상 포인트 클라우드의 경우에도 이러한 차이로 인해 3D 포인트가 다른 형상을 통과하는 광선으로 변환되는 유해한 시선 오류가 발생할 수 있습니다. 이러한 효과를 완화하기 위해 롤링 셔터는 각 광선에 별도의 시간을 제공하고 추정된 동작을 기반으로 원점을 조정하여 모델링됩니다. 롤링 셔터는 장면의 모든 동적 요소에 영향을 미치므로 각 개별 조명 시간과 배우 포즈에 대해 선형 보간이 수행됩니다.

다양한 카메라 설정

자율 주행 시퀀스를 시뮬레이션할 때의 또 다른 문제는 이미지가 노출과 같은 캡처 매개변수가 다를 수 있는 서로 다른 카메라에서 나온다는 것입니다. 여기에서는 각 이미지에 대해 모양 임베딩을 학습하고 해당 기능과 함께 두 번째 MLP에 전달하는 "야생의 NeRF"[22]에 대한 연구에서 영감을 얻었습니다. 그러나 어떤 이미지가 어떤 센서에서 나오는지 알면 대신 각 센서에 대해 단일 임베딩을 학습하여 과적합 가능성을 최소화하고 새로운 뷰를 생성할 때 이러한 센서 임베딩을 사용할 수 있습니다. 이러한 임베딩은 볼륨 렌더링 후에 적용되므로 색상 대신 기능을 렌더링할 때 계산 오버헤드가 크게 줄어듭니다.

시끄러운 배우 포즈

모델은 주석 형식이든 추적 출력이든 동적 배우 포즈를 추정하는 데 의존합니다. 단점을 해결하기 위해 배우 포즈는 학습 가능한 매개변수로 모델에 통합되고 공동으로 최적화됩니다. 자세는 6D 표현을 사용하여 이동 t 및 회전 R로 매개변수화됩니다[50].

NeuRAD는 Nerfstudio[33] 오픈 소스 프로젝트에서 구현됩니다. 훈련은 Adam [17] 최적화 프로그램을 사용하여 20,000회 반복 수행됩니다. NVIDIA A100에서는 훈련에 약 1시간이 걸립니다.

UniSim 재현: UniSim [47]은 신경 폐쇄 루프 센서 시뮬레이터입니다. 이는 사실적인 렌더링을 특징으로 하며 사용 가능한 감독에 대해 거의 가정하지 않습니다. 즉, 카메라 이미지, LiDAR 포인트 클라우드, 센서 포즈 및 동적 배우 궤적이 있는 3D 경계 상자만 필요합니다. 이러한 특성으로 인해 UniSim은 새로운 자율 주행 데이터 세트에 쉽게 적용할 수 있으므로 적합한 기준이 됩니다. 그러나 코드는 비공개 소스이며 비공식 구현은 없습니다. 따라서 이 기사에서는 UniSim을 자체 모델로 다시 구현하고 Nerfstudio[33]에서 구현하기로 선택했습니다. UniSim의 주요 기사에서는 많은 모델 세부 사항을 자세히 설명하지 않으므로 IEEE Xplore에서 제공하는 보충 자료에 의존해야 합니다. 그럼에도 불구하고 일부 세부 사항은 아직 알려지지 않았으며 저자는 선택된 10개의 PandaSet [45] 시퀀스에 대해 보고된 성능과 일치하도록 이러한 하이퍼 매개변수를 조정했습니다.

위 내용은 NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!