LidaRF: 스트리트 뷰 신경 방사선장에 대한 LiDAR 데이터 연구(CVPR\'24)-일체 포함-php.cn

가벼운 사실적인 시뮬레이션은 신경망 방사선장(NeRF)의 발전으로 디지털 3D 자산을 자동으로 생성하여 확장성을 높일 수 있는 자율 주행과 같은 응용 분야에서 핵심 역할을 합니다. 그러나 거리 장면의 재구성 품질은 거리에서 카메라 모션의 높은 공선성과 고속에서 희박한 샘플링으로 인해 저하됩니다. 반면, 애플리케이션에서는 차선 변경과 같은 동작을 정확하게 시뮬레이션하기 위해 입력 관점에서 벗어나 카메라 관점에서 렌더링해야 하는 경우가 많습니다. LidaRF는 LiDAR 데이터를 더 잘 활용하여 거리 뷰에서 NeRF의 품질을 향상시킬 수 있는 몇 가지 통찰력을 제시합니다. 첫째, 프레임워크는 LiDAR 데이터로부터 기하학적 장면 표현을 학습하며, 이는 암시적 메시 기반 디코더와 결합되어 표시된 포인트 클라우드에서 제공하는 더 강력한 기하학적 정보를 제공합니다. 둘째, 밀도가 높은 LiDAR 포인트 클라우드를 사용하여 강력한 정보를 축적함으로써 거리 장면에서 NeRF 재구성 품질을 향상시킬 수 있는 강력한 폐색 인식 심도 감독 훈련 전략이 제안되었습니다. 셋째, 실제 운전 시나리오에서 새로운 관점 합성을 통해 얻은 상당한 개선 사항을 더욱 개선하기 위해 LiDAR 포인트의 강도를 기반으로 강화된 훈련 관점이 생성됩니다. 이러한 방식으로 프레임워크가 LiDAR 데이터에서 학습한 보다 정확한 기하학적 장면 표현을 통해 이 방법은 한 단계로 개선될 수 있으며 실제 운전 시나리오에서 더 큰 개선을 얻을 수 있습니다.

LidaRF의 기여는 주로 세 가지 측면에 반영됩니다.

(i) Lidar 인코딩과 그리드 기능을 혼합하여 장면 표현을 향상시킵니다. LiDAR는 자연스러운 깊이 모니터링 소스로 사용되었지만 NeRF 입력에 LiDAR를 통합하면 기하학적 유도에 대한 큰 잠재력을 제공하지만 구현하기가 쉽지 않습니다. 이를 위해 그리드 기반 표현을 차용하지만 포인트 클라우드에서 학습된 기능을 그리드에 융합하여 명시적 포인트 클라우드 표현의 장점을 상속합니다. 3D 감지 프레임워크의 성공적인 출시를 통해 3D 희소 컨벌루션 네트워크는 LiDAR 포인트 클라우드의 로컬 및 글로벌 컨텍스트에서 기하학적 특징을 추출하는 효과적이고 효율적인 구조로 활용됩니다.

(ii) 강력한 교합 인식 심도 감독. 기존 작업과 마찬가지로 LiDAR도 여기에서 심층 감독의 소스로 사용되지만 더 깊이 있습니다. 특히 텍스처가 낮은 영역에서는 LiDAR 지점의 희소성으로 인해 효율성이 제한되므로 인접한 프레임에 걸쳐 LiDAR 지점을 집계하여 밀도가 높은 깊이 맵이 생성됩니다. 그러나 이렇게 얻은 깊이 맵은 폐색을 고려하지 않아 잘못된 깊이 감독이 발생합니다. 따라서 클래스 학습 방법을 차용하여 근거리장에서 원거리장까지 깊이를 점진적으로 감독하고 NeRF 훈련 과정에서 잘못된 깊이를 점진적으로 걸러내는 강력한 깊이 감독 방식을 제안합니다. LiDAR에서 깊이를 알아보세요.

(iii) LiDAR 기반 뷰 향상. 또한, 운전 시나리오의 보기 희소성과 제한된 적용 범위를 고려하여 LiDAR는 훈련 보기의 밀도를 높이는 데 활용됩니다. 즉, 축적된 라이더 포인트는 새로운 훈련 뷰에 투영됩니다. 이러한 뷰는 주행 궤적에서 다소 벗어날 수 있습니다. LiDAR에서 투영된 이러한 뷰는 교육 데이터 세트에 추가되며 폐색 문제를 설명하지 않습니다. 그러나 우리는 폐색 문제를 해결하기 위해 앞서 언급한 감독 방식을 적용하여 성능을 향상시켰습니다. 우리의 방법은 일반적인 장면에도 적용 가능하지만, 이 작업에서는 거리 장면의 평가에 더 중점을 두고 기존 기술에 비해 정량적, 질적 측면에서 상당한 개선을 달성했습니다.

LidaRF는 입력 뷰에서 더 큰 편차가 필요한 흥미로운 애플리케이션에서도 이점을 보여 까다로운 거리 장면 애플리케이션에서 NeRF의 품질을 크게 향상시켰습니다.

LidaRF 전체 프레임워크 개요

LidaRF는 해당 밀도와 색상을 입력하고 출력하는 방법으로 UNet을 사용하여 Huff 코딩과 LiDAR 코딩을 결합합니다. 또한 제안된 강력한 심층 감독 방식을 사용하여 기하학적 예측을 훈련하기 위해 LiDAR 투영을 통해 향상된 훈련 데이터가 생성됩니다.

$LidaRF: 스트리트 뷰 신경 방사선장에 대한 LiDAR 데이터 연구(CVPR\24)$

1) Lidar 인코딩의 하이브리드 표현

Lidar 포인트 클라우드는 강력한 기하학적 안내 잠재력을 갖고 있으며 이는 NeRF(Neural Rendering Field)에 매우 유용합니다. 그러나 장면 표현을 위해 LiDAR 기능에만 의존하면 (시간적 축적에도 불구하고) LiDAR 지점의 희박한 특성으로 인해 저해상도 렌더링이 발생합니다. 또한 LiDAR는 시야가 제한되어 있으므로 특정 높이 이상의 건물 표면을 캡처할 수 없으므로 이러한 영역에서 빈 렌더링이 발생합니다. 대조적으로, 우리의 프레임워크는 LiDAR 기능과 고해상도 공간 그리드 기능을 융합하여 두 가지의 장점을 활용하고 함께 학습하여 고품질의 완전한 장면 렌더링을 달성합니다.

Lidar 특징 추출. 각 라이더 포인트에 대한 기하학적 특징 추출 프로세스는 여기에서 자세히 설명됩니다. 그림 2를 참조하면 전체 시퀀스의 모든 프레임의 라이더 포인트 클라우드를 먼저 집계하여 밀도가 높은 포인트 클라우드 컬렉션을 만듭니다. 그런 다음 포인트 클라우드는 복셀 그리드로 복셀화됩니다. 여기서 각 복셀 단위 내 포인트의 공간 위치의 평균을 구하여 각 복셀 단위에 대한 3D 특징을 생성합니다. 3D 인식 프레임워크의 광범위한 성공에 영감을 받아 장면 기하학 기능은 복셀 그리드의 3D 희소 UNet을 사용하여 인코딩되므로 장면 기하학의 전역 컨텍스트에서 학습할 수 있습니다. 3D 희소 UNet은 복셀 그리드와 해당 3차원 특징을 입력으로 사용하고 신경 체적 특징을 출력합니다. 각 점유 복셀은 n차원 특징으로 구성됩니다.

Lidar 기능 쿼리. 렌더링할 광선을 따라 있는 각 샘플 포인트 x에 대해 검색 반경 R 내에 최소 K개 이상의 LiDAR 지점이 있으면 해당 LiDAR 기능이 쿼리됩니다. 그렇지 않으면 해당 LiDAR 기능이 null(즉, 모두 0)로 설정됩니다. 구체적으로, FRNN(Fixed Radius Nearest Neighbor) 방법은 x와 관련된 K개의 가장 가까운 LiDAR 포인트 인덱스 세트를 검색하는 데 사용됩니다. 훈련 과정을 시작하기 전에 광선 샘플링 지점을 미리 결정하는 [9]의 방법과 달리, 우리의 방법은 FRNN 검색을 수행할 때 실시간입니다. 왜냐하면 NeRF 훈련이 수렴함에 따라 지역 네트워크의 샘플 지점 분포가 동적으로 경향을 갖기 때문입니다. 표면에 집중합니다. Point-NeRF 접근 방식에 따라 우리의 방법은 MLP(다층 퍼셉트론) F를 활용하여 각 지점의 LiDAR 기능을 신경 장면 설명에 매핑합니다. 역 거리 가중 방법의 i번째 이웃 지점의 경우 K개 이웃 지점의 신경 장면 설명을 집계합니다

$LidaRF: 스트리트 뷰 신경 방사선장에 대한 LiDAR 데이터 연구(CVPR\24)$

방사 디코딩을 위한 기능 융합. 라이더 코드 ψL은 해시 코드 ψh와 연결되고 다층 퍼셉트론 Fα는 각 샘플의 밀도 α 및 밀도 임베딩 h를 예측하기 위해 적용됩니다. 마지막으로, 또 다른 다층 퍼셉트론 Fc를 통해 구면 조화 인코딩 SH와 시선 방향 d의 밀도 임베딩 h를 기반으로 해당 색상 c를 예측합니다.

$LidaRF: 스트리트 뷰 신경 방사선장에 대한 LiDAR 데이터 연구(CVPR\24)$

2) 강력한 깊이 감독

특징 인코딩 외에도 LiDAR 지점을 이미지 평면에 투영하여 깊이 감독을 얻습니다. 그러나 LiDAR 지점이 희박하기 때문에 결과적인 이점은 제한적이며 포장 도로와 같이 질감이 낮은 영역을 재구성하기에는 충분하지 않습니다. 여기서는 밀도를 높이기 위해 인접한 LiDAR 프레임을 축적하는 것을 제안합니다. 3D 포인트는 장면 구조를 정확하게 캡처할 수 있지만 깊이 감독을 위해 이미지 평면에 투영할 때 포인트 간의 폐색을 고려해야 합니다. 그림 3에 표시된 것처럼 카메라와 LiDAR 및 인접 프레임 사이의 변위 증가로 인해 폐색이 발생하여 깊이 감독이 잘못되었습니다. 축적 후에도 LiDAR의 희박한 특성으로 인해 이 문제를 처리하는 것이 매우 어렵고 Z-버퍼링과 같은 기본적인 그래픽 기술을 적용할 수 없습니다. 이 연구에서는 NeRF를 훈련할 때 가짜 심층 감독을 자동으로 필터링하기 위한 강력한 감독 체계가 제안됩니다. $LidaRF: 스트리트 뷰 신경 방사선장에 대한 LiDAR 데이터 연구(CVPR\24)$

폐색 인식을 위한 강력한 감독 체계입니다. 본 논문에서는 모델이 초기에 폐색에 덜 민감하고 더 가깝고 신뢰할 수 있는 깊이 데이터를 사용하여 훈련되도록 클래스 훈련 전략을 설계합니다. 훈련이 진행됨에 따라 모델은 점차적으로 추가 깊이 데이터를 통합하기 시작합니다. 동시에 모델은 예측과 크게 동떨어진 심층 감독을 폐기하는 능력도 갖추고 있습니다.

온보드 카메라의 전진 동작으로 인해 생성되는 훈련 이미지가 드물고 시야 범위가 제한되어 있어 특히 새로운 뷰가 차량 궤적에서 벗어날 때 NeRF 재구성에 어려움을 겪게 됩니다. 여기서는 LiDAR를 활용하여 훈련 데이터를 보강할 것을 제안합니다. 먼저, 각 LiDAR 프레임의 포인트 클라우드를 동기화된 카메라에 투영하고 RGB 값을 보간하여 색상을 지정합니다. 컬러 포인트 클라우드는 누적되어 합성적으로 향상된 뷰 세트에 투영되어 그림 2에 표시된 합성 이미지와 깊이 맵을 생성합니다.

$LidaRF: 스트리트 뷰 신경 방사선장에 대한 LiDAR 데이터 연구(CVPR\24)$ 실험적 비교 분석