카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토-일체 포함-php.cn

0. 앞에 적음&& 개인적인 이해

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하는 첨단 인식, 의사결정 및 제어 기술에 의존합니다. .) 실시간 분석 및 의사결정을 위해 알고리즘과 모델을 활용합니다. 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 위치, 모양, 크기 및 카테고리를 포함하여 주변 환경에서 객체를 정확하게 인식하고 설명할 수 있는 자율 주행 시스템의 3D 객체 감지 알고리즘이 필요합니다. 이러한 포괄적인 환경 인식은 자율 주행 시스템이 운전 환경을 더 잘 이해하고 보다 정확한 결정을 내리는 데 도움이 됩니다.

자율주행 분야의 3D 객체 감지 알고리즘에 대해 견고성을 중심으로 종합적인 평가를 진행했습니다. 평가에서는 세 가지 핵심 요소, 즉 환경 가변성, 센서 소음, 정렬 불량이 확인되었습니다. 이러한 요소는 현실 세계의 변화하는 조건에서 탐지 알고리즘의 성능에 중요합니다.

환경 변동성: 이 기사에서는 감지 알고리즘이 조명, 날씨, 계절의 변화와 같은 다양한 환경 조건에 적응해야 한다고 강조합니다.
센서 노이즈: 알고리즘은 카메라 모션 블러와 같은 문제를 포함할 수 있는 센서 노이즈를 효과적으로 처리해야 합니다.
오정렬: 보정 오류 또는 기타 요인으로 인해 발생한 오정렬의 경우 알고리즘은 외부(예: 고르지 않은 노면) 또는 내부(예: 시스템 시계 오정렬) 여부에 관계없이 이러한 요인을 고려해야 합니다.

또한 성능 평가의 세 가지 주요 영역인 정확성, 대기 시간 및 견고성에 대해 알아봅니다.

정확도: 연구에서는 정확도를 핵심 성능 측정 기준으로 중점을 두는 경우가 많지만, 복잡하고 극한 조건에서의 성능은 실제 신뢰성을 보장하기 위해 더 깊은 이해가 필요합니다.
대기 시간: 자율 주행에서는 실시간 기능이 중요합니다. 감지 방법의 지연은 특히 긴급 상황에서 적시에 결정을 내리는 시스템의 능력에 영향을 미칩니다.
견고함: 현재 많은 평가가 실제 시나리오의 다양성을 완전히 설명하지 못할 수 있으므로 다양한 조건에서 시스템 안정성에 대한 보다 포괄적인 평가가 필요합니다.

이 논문은 안전 인식에서 다중 모드 3D 감지 방법의 중요한 이점을 지적합니다. 다양한 센서의 데이터를 융합하여 보다 풍부하고 다양한 인식 기능을 제공하여 자율 주행 시스템의 안전성을 향상시킵니다.

1. 데이터 세트

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

위에서는 자율주행 시스템에 사용되는 3D 객체 감지 데이터 세트를 간략하게 소개하고, 주로 다양한 센서 모드의 장점과 한계, 그리고 공개 데이터 세트의 특성을 평가했습니다. .

먼저 표에는 카메라, 포인트 클라우드, 멀티모달(카메라 및 LiDAR)의 세 가지 유형의 센서가 나와 있습니다. 각 유형에 대해 하드웨어 비용, 장점 및 제한 사항이 나열되어 있습니다. 카메라 데이터의 장점은 풍부한 색상과 질감 정보를 제공한다는 점이지만, 깊이 정보가 부족하고 빛과 날씨 영향에 민감하다는 한계가 있습니다. LiDAR는 정확한 깊이 정보를 제공할 수 있지만 가격이 비싸고 색상 정보가 없습니다.

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

다음으로 자율 주행에서 3D 객체 감지에 사용할 수 있는 다른 공개 데이터세트가 있습니다. 이러한 데이터 세트에는 KITTI, nuScenes, Waymo 등이 포함됩니다. 이러한 데이터세트의 세부정보는 다음과 같습니다. - KITTI 데이터 세트에는 다양한 유형의 센서를 사용하여 수년간 발표된 데이터가 포함되어 있습니다. 수많은 프레임과 주석은 물론 장면 번호와 카테고리를 포함한 다양한 장면과 낮, 맑음, 밤, 비오는 등 다양한 장면 유형을 제공합니다. - NuScenes 데이터세트도 중요한 데이터세트인데, 여기에는 수년에 걸쳐 발표되는 데이터도 포함되어 있습니다. 이 데이터세트는 다양한 센서를 사용하며 수많은 프레임과 주석을 제공합니다. 다양한 장면 번호와 범주는 물론 다양한 장면 유형을 포함한 다양한 시나리오를 다룹니다. - Waymo 데이터세트는 다년간의 데이터를 보유한 자율주행을 위한 또 다른 데이터세트입니다. 이 데이터 세트는 다양한 유형의 센서를 사용하며 풍부한 수의 프레임과 주석을 제공합니다. 다양한 분야를 다루고 있어요

또한 "깨끗한" 자율 주행 데이터 세트에 대한 연구가 언급되고 시끄러운 시나리오에서 모델 견고성을 평가하는 것의 중요성이 강조됩니다. 일부 연구는 열악한 조건에서 카메라 단일 양식 방법에 중점을 두는 반면, 다른 다중 모드 데이터 세트는 소음 문제에 중점을 둡니다. 예를 들어, GROUNDED 데이터 세트는 다양한 기상 조건에서 지상을 관통하는 레이더 위치 지정에 초점을 맞춘 반면, ApolloScape 공개 데이터 세트에는 다양한 날씨 및 조명 조건을 다루는 LiDAR, 카메라 및 GPS 데이터가 포함되어 있습니다.

실제 세계에서 대규모의 시끄러운 데이터를 수집하는 데는 엄청난 비용이 들기 때문에 많은 연구에서 합성 데이터 세트를 사용합니다. 예를 들어 ImageNet-C는 이미지 분류 모델의 일반적인 섭동을 해결하기 위한 벤치마크 연구입니다. 이 연구 방향은 이후 자율 주행의 3D 물체 감지에 맞춰진 강력한 데이터 세트로 확장되었습니다.

2. 비전 기반 3D 객체 감지

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

2.1 단안 3D 객체 감지

이 부분에서는 단안 3D 객체 감지의 개념과 세 가지 주요 방법을 논의합니다. 3D 객체 감지, 카메라 전용 단안 3D 객체 감지, 깊이 보조 단안 3D 객체 감지.

사전 유도 단안 3D 개체 감지

이 방법은 이미지에 숨겨진 개체 모양 및 장면 기하학에 대한 사전 지식을 활용하여 단안 3D 개체 감지 문제를 해결합니다. 사전 훈련된 하위 네트워크 또는 보조 작업을 도입함으로써 사전 지식은 3D 객체를 정확하게 찾는 데 도움이 되는 추가 정보나 제약 조건을 제공하고 감지의 정확성과 견고성을 향상시킬 수 있습니다. 일반적인 사전 지식에는 물체 모양, 기하학적 일관성, 시간적 제약 및 분할 정보가 포함됩니다. 예를 들어 Mono3D 알고리즘은 먼저 3D 개체가 고정된 지면에 있다고 가정한 다음 개체의 이전 3D 모양을 사용하여 3D 공간에서 경계 상자를 재구성합니다.

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

카메라 전용 단안 3D 객체 감지

이 방법은 단일 카메라로 캡처한 이미지만 사용하여 3D 객체를 감지하고 찾습니다. CNN(컨벌루션 신경망)을 사용하여 이미지에서 3D 경계 상자 매개변수를 직접 회귀하여 3차원 공간에서 객체의 크기와 자세를 추정합니다. 이 직접 회귀 방법은 엔드투엔드 방식으로 훈련될 수 있어 3D 객체의 전반적인 학습과 추론을 촉진합니다. 예를 들어 Smoke 알고리즘은 2D 경계 상자의 회귀를 포기하고 개별 키포인트 추정과 3D 변수의 회귀를 결합하여 감지된 각 객체의 3D 상자를 예측합니다.

깊이 보조 단안 3D 물체 감지

깊이 추정은 깊이 보조 단안 3D 물체 감지에서 중요한 역할을 합니다. 보다 정확한 단안 감지 결과를 얻기 위해 많은 연구에서 사전 훈련된 보조 깊이 추정 네트워크를 활용합니다. 이 프로세스는 MonoDepth와 같은 사전 학습된 깊이 추정기를 사용하여 단안 이미지를 깊이 이미지로 변환하는 것부터 시작됩니다. 그런 다음 깊이 이미지와 단안 이미지를 처리하기 위해 두 가지 주요 방법이 채택됩니다. 예를 들어, Pseudo-LiDAR 검출기는 사전 훈련된 깊이 추정 네트워크를 사용하여 Pseudo-LiDAR 표현을 생성하지만, Pseudo-LiDAR 기반 검출기와 이미지-LiDAR 생성 오류로 인해 성능 차이가 큽니다.

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

이러한 방법의 탐구와 적용을 통해 단안 3D 물체 감지는 컴퓨터 비전 및 지능형 시스템 분야에서 상당한 발전을 이루었으며 이러한 분야에 획기적인 발전과 기회를 가져왔습니다.

2.2 스테레오 기반 3D 객체 감지

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

이 부분에서는 스테레오 비전 기반의 3D 객체 감지 기술에 대해 논의합니다. 스테레오 비전 3D 개체 감지는 한 쌍의 입체 이미지를 활용하여 3D 개체를 식별하고 찾습니다. 스테레오 카메라로 캡처한 듀얼 뷰를 활용함으로써 이러한 방법은 단안 카메라 설정과 차별화되는 특징인 스테레오 매칭 및 보정을 통해 고정밀 깊이 정보를 얻는 데 탁월합니다. 이러한 장점에도 불구하고 스테레오 비전 방법은 LiDAR 기반 방법에 비해 여전히 상당한 성능 격차를 겪고 있습니다. 더욱이, 스테레오 이미지에서 3D 객체 감지 영역은 상대적으로 거의 연구되지 않았으며 이 영역에 대한 연구 노력도 제한적입니다.

2D 감지 기반 방법: 기존 2D 객체 감지 프레임워크를 수정하여 스테레오 감지 문제를 해결할 수 있습니다. 예를 들어, 스테레오 R-CNN은 이미지 기반 2D 검출기를 사용하여 2D 제안을 예측하고 해당 왼쪽 및 오른쪽 이미지에 대한 왼쪽 및 오른쪽 관심 영역(RoI)을 생성합니다. 이후 두 번째 단계에서는 이전에 생성된 RoI를 기반으로 3D 객체 매개변수를 직접 추정합니다. 이 패러다임은 후속 작업에서 널리 채택되었습니다.
Pseudo-LiDAR 기반 방법: 스테레오 이미지에서 예측된 시차 맵을 깊이 맵으로 변환하고 추가로 의사 LiDAR 포인트로 변환할 수 있습니다. 따라서 단안 검출 방법과 유사하게 의사-라이다 표현은 스테레오 비전 기반의 3차원 객체 검출 방법에도 사용될 수 있습니다. 이러한 방법은 보다 정확한 깊이 예측을 달성하기 위해 스테레오 매칭의 시차 추정을 향상시키는 것을 목표로 합니다. 예를 들어, Wang et al.은 pseudo-lidar 표현을 도입한 선구자였습니다. 이 표현은 깊이 맵이 포함된 이미지에서 생성되므로 모델이 감지를 지원하기 위해 깊이 추정 작업을 수행해야 합니다. 후속 작업에서는 이 패러다임을 따르고 의사 포인트 클라우드, 보조 작업(예: 인스턴스 분할, 전경 및 배경 분할, 도메인 적응) 및 좌표 변환 체계를 향상시키기 위해 추가 색상 정보를 도입하여 이를 개선했습니다. Ma et al.이 제안한 PatchNet은 단안 3D 물체 감지를 위해 의사 라이더 표현을 사용하는 전통적인 개념에 도전한다는 점은 주목할 가치가 있습니다. 각 픽셀에 대한 3D 좌표를 인코딩함으로써 PatchNet은 유사 라이더 표현 없이도 비슷한 단안 탐지 결과를 얻을 수 있습니다. 이 관찰은 의사-라이다 표현의 힘이 포인트 클라우드 표현 자체보다는 좌표 변환에서 나온다는 것을 암시합니다.

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

2.3 다중 뷰 3D 객체 감지

최근 다중 뷰 3D 객체 감지는 앞서 언급한 단안 및 스테레오 비전 3D 객체 감지 방법에 비해 정확성과 견고성에서 우월함을 보여주었습니다. LiDAR 기반 3D 객체 감지와 달리 최신 파노라마 조감도(BEV) 방식을 사용하면 고정밀 지도가 필요 없으며 감지가 2D에서 3D로 향상됩니다. 이러한 발전으로 인해 다중 뷰 3D 객체 감지 분야가 크게 발전했습니다. 다중 카메라 3D 객체 감지에서 핵심 과제는 다양한 이미지에서 동일한 객체를 식별하고 여러 시야각 입력에서 신체 특징을 집계하는 것입니다. 현재 방법에는 여러 뷰를 BEV(Bird's Eye View) 공간에 균일하게 매핑하는 작업이 포함되며 이는 일반적인 관행입니다.

깊이 기반 다중 뷰 방법:

2D에서 BEV 공간으로 직접 변환하는 것은 중요한 과제입니다. LSS는 3차원 공간을 매개체로 활용하는 깊이 기반 방식을 최초로 제안한 것이다. 이 방법은 먼저 2D 특징의 그리드 깊이 분포를 예측한 다음 이러한 특징을 복셀 공간으로 들어 올립니다. 이러한 접근 방식은 2D에서 BEV 공간으로 보다 효율적으로 전환할 수 있다는 희망을 제공합니다. LSS에 이어 CaDDN도 유사한 심층 표현 방법을 채택합니다. 복셀 공간 특징을 BEV 공간으로 압축하여 최종 3D 감지를 수행합니다. CaDDN이 다중 뷰 3D 객체 감지의 일부가 아니라 단일 뷰 3D 객체 감지에 포함된다는 점은 후속 심층 연구에 영향을 미쳤다는 점에 주목할 가치가 있습니다. LSS와 CaDDN의 주요 차이점은 CaDDN이 실제 실측 깊이 값을 사용하여 분류 깊이 분포 예측을 감독함으로써 2D 공간에서 3D 정보를 보다 정확하게 추출할 수 있는 우수한 심층 네트워크를 생성한다는 것입니다.

쿼리 기반 다중 뷰 방법

Transformer 기술의 영향을 받아 쿼리 기반 다중 뷰 방법은 3D 공간에서 2D 공간 특징을 검색합니다. DETR3D는 다중 뷰 기능의 집계 문제를 해결하기 위해 3D 객체 쿼리를 도입합니다. 다양한 시점에서 이미지 특징을 잘라내고 학습된 3D 참조점을 사용하여 2D 공간에 투영하여 BEV(조감도) 공간에서 이미지 특징을 얻습니다. 질의 기반 다시점 방식은 깊이 기반 다시점 방식과 달리 역질의 기술을 이용하여 희소한 BEV 특징을 획득하는데, 이는 후속 질의 기반 개발에 근본적으로 영향을 미친다. 그러나 명시적인 3D 참조점과 관련된 잠재적인 부정확성으로 인해 PETR은 BEV 공간을 구성하기 위해 암시적 위치 인코딩 방법을 채택했으며 이는 후속 작업에 영향을 미쳤습니다.

2.4 분석: 정확성, 지연성, 견고성

현재 BEV(조감도) 인식을 기반으로 하는 3D 객체 감지 솔루션이 빠르게 발전하고 있습니다. 많은 리뷰 논문이 있음에도 불구하고 이 분야에 대한 포괄적인 리뷰는 아직 부족합니다. Shanghai AI Lab과 SenseTime Research Institute는 BEV 솔루션의 기술 로드맵에 대한 심층적인 검토를 제공합니다. 하지만 기존 검토와 달리 자율주행 안전성 인식 등 핵심적인 측면을 고려한다. 카메라 기반 솔루션의 기술 로드맵과 개발현황을 분석한 후 '정확성, 지연성, 견고성'이라는 기본 원칙을 바탕으로 논의하고자 합니다. 자율주행에 있어서 안전의식의 실질적인 구현을 안내하기 위해 안전의식의 관점을 통합할 것입니다.

정확성: 대부분의 연구 기사와 리뷰에서는 정확성에 중점을 두고 있으며 이는 매우 중요합니다. 정확도는 AP(평균 정밀도)에 의해 반영될 수 있지만, 다른 방법론은 서로 다른 패러다임으로 인해 상당한 차이를 보일 수 있으므로 AP만으로는 포괄적인 관점을 제공하지 못할 수 있습니다. 그림에서 볼 수 있듯이 비교를 위해 대표적인 10가지 방법을 선택했으며 그 결과 단안 3D 객체 감지와 입체 3D 객체 감지 간에 상당한 메트릭 차이가 있음을 보여줍니다. 현재 상황에서는 단안 3D 물체 감지 정확도가 입체 3D 물체 감지 정확도보다 훨씬 낮은 것으로 나타났습니다. 스테레오 비전 3D 객체 감지는 동일한 장면에 대해 서로 다른 두 가지 관점에서 캡처한 이미지를 활용하여 깊이 정보를 얻습니다. 카메라 간의 기준선이 클수록 캡처되는 깊이 정보의 범위가 넓어집니다. 시간이 지남에 따라 멀티뷰(조감도 인식) 3D 객체 감지가 단안 방법을 점차 대체하여 mAP가 크게 향상되었습니다. 센서 수의 증가는 mAP에 큰 영향을 미칩니다.
지연 시간: 자율 주행 분야에서는 지연 시간이 매우 중요합니다. 센서 데이터 수집부터 시스템 의사결정, 조치 실행까지의 전 과정을 포함하여 시스템이 입력 신호에 반응하는 데 걸리는 시간을 의미합니다. 자율 주행에서는 지연 시간 요구 사항이 매우 엄격합니다. 어떤 형태의 지연이라도 심각한 결과를 초래할 수 있기 때문입니다. 자율주행에서 지연 시간의 중요성은 실시간 응답성, 안전, 사용자 경험, 상호작용성, 비상 대응 측면에 반영됩니다. 3D 객체 감지 분야에서는 지연 시간(초당 프레임 수, FPS)과 정확도가 알고리즘 성능을 평가하는 주요 지표입니다. 그림에서 볼 수 있듯이 단안 및 스테레오 비전 3D 객체 감지 그래프는 KITTI 데이터 세트의 동일한 난이도에 대한 평균 정밀도(AP) 대 FPS를 보여줍니다. 자율주행을 구현하려면 3D 객체 감지 알고리즘이 지연 시간과 정확성 사이의 균형을 맞춰야 합니다. 단안 감지는 빠르지만 정확도가 떨어지며, 반대로 스테레오 및 멀티뷰 방법은 정확하지만 속도가 느립니다. 향후 연구에서는 높은 정확도를 유지할 뿐만 아니라 자율주행의 실시간 응답성과 안전성이라는 두 가지 요구 사항을 충족하기 위해 FPS를 개선하고 지연 시간을 줄이는 데 더 많은 관심을 기울여야 합니다.
강건성: 견고성은 자율주행 안전 인식의 핵심 요소이며 이전에 종합적인 검토에서 간과되었던 중요한 주제를 나타냅니다. 이 측면은 KITTI, nuScenes 및 Waymo와 같은 현재 잘 설계된 깨끗한 데이터 세트 및 벤치마크에서는 종종 해결되지 않습니다. 현재 RoboBEV 및 Robo3D와 같은 연구 작업에는 센서 손실 및 기타 요인과 같은 3D 객체 감지의 견고성 고려 사항이 포함되어 있습니다. 그들은 견고성을 평가하기 위해 3D 객체 감지와 관련된 데이터 세트에 섭동을 도입하는 방법을 사용합니다. 여기에는 기상 조건 변화, 센서 고장, 모션 방해, 객체 관련 교란과 같은 다양한 유형의 노이즈 도입이 포함되며, 이는 다양한 노이즈 소스가 모델에 미치는 다양한 영향을 밝히는 것을 목표로 합니다. 일반적으로 견고성을 연구하는 대부분의 논문은 깨끗한 데이터 세트(예: KITTI, nuScenes 및 Waymo)의 검증 세트에 노이즈를 도입하여 평가됩니다. 또한 카메라 전용 3D 개체 감지 방법의 예로 KITTI-C 및 nuScenes-C를 강조하는 Ref.의 결과를 강조합니다. 이 표는 전반적인 카메라 전용 접근 방식이 LiDAR 전용 및 다중 모델 융합 접근 방식보다 덜 견고하다는 것을 보여주는 전반적인 비교를 제공합니다. 그들은 다양한 유형의 소음에 매우 취약합니다. KITTI-C의 세 가지 대표 작품인 SMOKE, PGD, ImVoxelNet은 지속적으로 전체 성능이 낮고 잡음에 대한 견고성이 감소한 것으로 나타났습니다. nuScenes-C에서는 DETR3D 및 BEVFormer와 같은 주목할만한 방법이 FCOS3D 및 PGD에 비해 더 큰 견고성을 보여 센서 수가 증가함에 따라 전반적인 견고성이 증가함을 나타냅니다. 요약하면, 미래의 카메라 전용 접근 방식은 비용 요소와 정확도 지표(mAP, NDS 등)뿐만 아니라 안전 인식 및 견고성과 관련된 요소도 고려해야 합니다. 우리의 분석은 미래 자율주행 시스템의 안전에 대한 귀중한 통찰력을 제공하는 것을 목표로 합니다.

3. Lidar 기반 3D 객체 감지

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

복셀 기반 3D 객체 감지 방법은 희소 포인트 클라우드를 규칙적인 복셀로 분할하고 분포하여 조밀한 데이터 표현을 형성하는 것을 제안합니다. 뷰 기반 방법과 비교하여 복셀 기반 방법은 공간 컨볼루션을 사용하여 3차원 공간 정보를 효과적으로 인식하고 더 높은 감지 정확도를 달성하며 이는 자율 주행의 안전 인식에 중요합니다. 그러나 이러한 방법은 여전히 다음과 같은 과제에 직면해 있습니다.

높은 계산 복잡도: 카메라 기반 방법에 비해 복셀 기반 방법은 3D 공간을 표현하는 데 사용되는 수많은 복셀로 인해 상당한 메모리와 계산 리소스가 필요합니다.
공간 정보 손실: 복셀의 이산화 특성으로 인해 복셀화 과정에서 세부 사항 및 모양 정보가 손실되거나 흐려질 수 있으며, 복셀의 제한된 해상도로 인해 작은 물체를 정확하게 감지하기가 어렵습니다.
스케일 및 밀도 불일치: 복셀 기반 방법은 일반적으로 다양한 스케일과 밀도의 복셀 그리드에서 감지해야 하지만 대상의 스케일과 밀도는 장면마다 크게 다르기 때문에 적절한 스케일과 밀도를 선택하는 것이 중요합니다. 다양한 목표를 수용하는 것이 어려워집니다.

이러한 과제를 극복하려면 데이터 표현의 한계를 해결하고, 네트워크 기능과 대상 위치 정확도를 향상하고, 복잡한 장면에 대한 알고리즘의 이해를 강화해야 합니다. 최적화 전략은 다양하지만 일반적으로 데이터 표현과 모델 구조를 모두 최적화하는 것을 목표로 합니다.

3.1 복셀 기반 3D 객체 감지

PC의 딥 러닝 발전 덕분에 포인트 기반 3D 객체 감지는 많은 프레임워크를 상속하고 3D 객체 감지 전처리 없이 원래 지점에서 직접 시작할 것을 제안합니다. 복셀 기반 방법과 비교하여 원본 포인트 클라우드는 원본 정보를 최대한 유지하므로 세밀한 특징 획득에 유리하고 정확도가 높습니다. 동시에 PointNet에 대한 일련의 작업은 자연스럽게 포인트 기반 방법에 대한 강력한 기반을 제공합니다. 포인트 기반 3D 개체 감지기에는 포인트 클라우드 샘플링과 기능 학습이라는 두 가지 기본 구성 요소가 있습니다. 현재 포인트 기반 방법의 성능은 기능 학습에 채택된 컨텍스트 포인트 수와 컨텍스트 반경이라는 두 가지 요소의 영향을 받습니다. . 예를 들어 컨텍스트 포인트 수를 늘리면 더 자세한 3D 정보를 얻을 수 있지만 모델의 추론 시간이 크게 늘어납니다. 마찬가지로 컨텍스트 반경을 줄이면 동일한 효과를 얻을 수 있습니다. 따라서 이 두 요소에 대해 적절한 값을 선택하면 모델이 정확도와 속도 사이의 균형을 이룰 수 있습니다. 또한, 포인트 클라우드의 각 포인트를 계산해야 하기 때문에 포인트 클라우드 샘플링 과정은 포인트 기반 방법의 실시간 운영을 제한하는 주요 요소입니다. 구체적으로 위의 문제를 해결하기 위해 대부분의 기존 방법은 포인트 기반 3D 객체 감지기의 두 가지 기본 구성 요소인 1) 포인트 샘플링 2) 특징 학습

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

3.2 포인트 기반 3D 객체 감지

을 중심으로 최적화되었습니다. 포인트 기반 3D 객체 감지 방법은 많은 딥러닝 프레임워크를 상속하고 전처리 없이 원시 포인트 클라우드에서 직접 3D 객체를 감지하는 것을 제안합니다. 복셀 기반 방법에 비해 원본 포인트 클라우드는 원본 정보를 최대한 유지하므로 세밀한 특징 획득에 도움이 되어 높은 정확도를 달성합니다. 동시에 PointNet 작업 시리즈는 포인트 기반 방법에 대한 강력한 기반을 제공합니다. 그러나 지금까지 포인트 기반 방법의 성능은 기능 학습에 사용되는 컨텍스트 포인트 수와 컨텍스트 반경이라는 두 가지 요소의 영향을 받습니다. 예를 들어 컨텍스트 포인트 수를 늘리면 보다 자세한 3D 정보를 얻을 수 있지만 모델의 추론 시간이 크게 늘어납니다. 마찬가지로 컨텍스트 반경을 줄이면 동일한 효과를 얻을 수 있습니다. 따라서 이 두 가지 요소에 대해 적절한 값을 선택하면 모델이 정확도와 속도 사이의 균형을 이룰 수 있습니다. 또한, 포인트 클라우드 샘플링 프로세스는 포인트 클라우드의 각 포인트에 대해 계산을 수행해야 하기 때문에 포인트 기반 방법의 실시간 작동을 제한하는 주요 요인입니다. 이러한 문제를 해결하기 위해 기존 방법은 주로 포인트 기반 3D 물체 감지기의 두 가지 기본 구성 요소인 1) 포인트 클라우드 샘플링, 2) 특징 학습을 중심으로 최적화됩니다.

Farth Point Sampling(FPS)은 PointNet++에서 파생되었으며 포인트 기반 방법에서 널리 사용되는 포인트 클라우드 샘플링 방법입니다. 그 목표는 원본 포인트 클라우드에서 대표 포인트 세트를 선택하여 전체 포인트 클라우드의 공간 분포를 가장 잘 포괄할 수 있도록 이들 사이의 거리를 최대화하는 것입니다. PointRCNN은 PointNet++를 백본 네트워크로 사용하는 포인트 기반 방법의 획기적인 2단계 탐지기입니다. 첫 번째 단계에서는 포인트 클라우드로부터 상향식 방식으로 3D 제안을 생성합니다. 두 번째 단계에서는 의미론적 특징과 지역적 공간적 특징을 결합하여 제안을 개선합니다. 그러나 기존 FPS 기반 방법은 여전히 몇 가지 문제에 직면해 있습니다. 1) 감지와 관련 없는 포인트도 샘플링 프로세스에 참여하여 추가적인 계산 부담을 가져옵니다. 2) 포인트가 객체의 여러 부분에 고르지 않게 분포되어 차선의 샘플링 전략이 발생합니다. 이러한 문제를 해결하기 위해 후속 작업에서는 FPS와 유사한 설계 패러다임을 채택하고 분할에 따른 배경 포인트 필터링, 무작위 샘플링, 특징 공간 샘플링, 복셀 기반 샘플링, 광선 그룹화 기반 샘플링과 같은 개선을 수행했습니다.

포인트 기반 3D 객체 감지 방법의 특징 학습 단계는 희박한 포인트 클라우드 데이터에서 차별적인 특징 표현을 추출하는 것을 목표로 합니다. 특징 학습 단계에서 사용되는 신경망은 다음과 같은 특성을 가져야 합니다. 1) 불변성, 포인트 클라우드 백본 네트워크는 입력 포인트 클라우드의 순서에 민감하지 않아야 합니다. 2) 로컬 인식 기능을 갖고 로컬 영역을 감지하고 모델링할 수 있습니다. 3) 컨텍스트 정보를 통합하고 글로벌 및 로컬 컨텍스트 정보에서 기능을 추출하는 기능. 위의 특성을 기반으로 원시 포인트 클라우드를 처리하기 위해 많은 수의 감지기가 설계되었습니다. 대부분의 방법은 사용되는 핵심 연산자에 따라 나눌 수 있습니다: 1) PointNet 기반 방법, 2) 그래프 신경망 기반 방법, 3) Transformer 기반 방법.

PointNet 기반 방법

PointNet 기반 방법은 원래 점의 대칭 불변성을 유지하면서 원래 점을 다운샘플링하고, 지역 정보를 집계하고, 상황에 맞는 정보를 통합하기 위해 주로 집합 추상화에 의존합니다. Point-RCNN은 포인트 기반 방법 중 최초의 2단계 작업으로 우수한 성능을 달성하지만 여전히 높은 계산 비용 문제에 직면해 있습니다. 후속 작업에서는 감지 프로세스에 추가 의미론적 분할 작업을 도입하여 감지에 최소한으로 기여하는 배경 지점을 필터링함으로써 이 문제를 해결했습니다.

그래프 신경망 기반 방법

GNN(그래프 신경망)은 적응형 구조, 동적 이웃, 로컬 및 전역 컨텍스트 관계 구축 기능, 불규칙 샘플링에 대한 견고성을 갖추고 있습니다. Point-GNN은 자동 등록 메커니즘, 병합 및 채점 작업을 통해 객체의 범주와 모양을 예측하기 위해 단일 단계 그래프 신경망을 설계하는 선구적인 작업으로 그래프 신경망을 3D 객체 감지를 위한 새로운 방법으로 사용하는 방법을 보여줍니다. 잠재적인.

Transformer 기반 방법

최근에는 Transformers(Transformers)가 포인트 클라우드 분석에서 탐색되었으며 많은 작업에서 좋은 성능을 보였습니다. 예를 들어 Pointformer는 3D 포인트 클라우드를 처리하기 위해 로컬 및 글로벌 주의 모듈을 도입하고, 로컬 Transformer 모듈은 로컬 영역의 포인트 간의 상호 작용을 모델링하는 데 사용되며, 글로벌 Transformer는 장면 수준의 상황 인식 표현을 학습하는 것을 목표로 합니다. Group-free는 포인트 클라우드의 모든 포인트를 직접 활용하여 각 객체 후보의 특징을 계산하며, 각 포인트의 기여도는 자동으로 학습된 Attention 모듈에 의해 결정됩니다. 이러한 방법은 구조화되지 않고 정렬되지 않은 원시 포인트 클라우드를 처리하는 Transformer 기반 방법의 잠재력을 보여줍니다.

3.3 Point-Voxel 기반 3D 객체 감지

포인트 클라우드 기반 3D 객체 감지 방법은 고해상도를 제공하고 원본 데이터의 공간 구조를 보존하지만, 희소 데이터를 처리할 때 계산 복잡도가 높고 효율성이 낮다는 문제에 직면합니다. 대조적으로, 복셀 기반 방법은 구조화된 데이터 표현을 제공하고, 계산 효율성을 향상시키며, 전통적인 컨볼루션 신경망 기술의 적용을 용이하게 합니다. 그러나 이산화 과정으로 인해 미세한 공간 세부 정보가 손실되는 경우가 많습니다. 이러한 문제를 해결하기 위해 PV(Point-Voxel) 기반 방법이 개발되었습니다. 포인트-복셀 방법은 포인트 기반 방법의 세밀한 정보 캡처 기능과 복셀 기반 방법의 계산 효율성을 활용하는 것을 목표로 합니다. 이러한 방법을 통합함으로써 포인트-복셀 기반 방법은 포인트 클라우드 데이터를 더 자세히 처리하고 전체 구조와 미세 기하학적 세부 사항을 캡처할 수 있습니다. 자율주행 시스템의 의사결정 정확도는 고정밀 감지 결과에 좌우되기 때문에 이는 자율주행의 안전 인식에 매우 중요합니다.

점-복셀 방법의 주요 목표는 점-복셀 또는 복셀-점 변환을 통해 복셀과 점 간의 특징 상호 작용을 달성하는 것입니다. 많은 연구에서 백본 네트워크에서 포인트-복셀 기능 융합을 활용하는 아이디어를 탐구했습니다. 이러한 방법은 1) 초기 융합 2) 후기 융합의 두 가지 범주로 나눌 수 있습니다.

a) 초기 융합: 일부 방법에서는 복셀과 점 특징을 융합하기 위해 새로운 컨볼루션 연산자를 사용하는 방법을 모색했으며 PVCNN은 이 방향의 첫 번째 작업일 수 있습니다. 이 접근 방식에서 복셀 기반 분기는 먼저 점을 저해상도 복셀 그리드로 변환하고 컨볼루션을 통해 인접한 복셀 특징을 집계합니다. 그런 다음 복셀화라는 프로세스를 통해 복셀 수준 기능이 다시 포인트 수준 기능으로 변환되고 포인트 기반 분기에서 얻은 기능과 융합됩니다. 포인트 기반 브랜치는 개별 포인트별로 특징을 추출합니다. 이웃 정보를 집계하지 않으므로 이 방법은 더 빠른 속도로 실행될 수 있습니다. 이후 SPVCNN은 PVCNN 기반의 객체 탐지 분야로 확장됐다. 다른 방법은 보조 작업이나 다중 규모 기능 융합과 같은 다양한 관점에서 개선을 시도합니다.

b) Post-fusion: 이 일련의 방법은 주로 2단계 감지 프레임워크를 사용합니다. 첫째, 복셀 기반 접근 방식을 사용하여 예비 객체 제안이 생성됩니다. 그런 다음 포인트 수준의 특징을 사용하여 감지 프레임을 정확하게 분할합니다. Shi et al.이 제안한 PV-RCNN은 포인트 복셀 기반 방법의 이정표입니다. SECOND를 1단계 검출기로 사용하고 핵심 특징의 융합을 위해 RoI 그리드 풀링을 갖춘 2단계 개선 단계를 제안합니다. 후속 작업은 주로 위의 패러다임을 따르며 두 번째 단계 감지의 진행에 중점을 둡니다. 주목할만한 개발에는 주의 메커니즘, 규모 인식 풀링, 포인트 밀도 인식 개선 모듈이 포함됩니다.

포인트 복셀 기반 방법은 복셀 기반 방법의 계산 효율성과 세밀한 정보를 캡처하는 포인트 기반 방법의 기능을 모두 갖추고 있습니다. 그러나 점-복셀 또는 복셀-점 관계를 구성하고 복셀과 점의 기능 융합을 수행하면 추가적인 계산 오버헤드가 발생합니다. 따라서 포인트 복셀 기반 방법은 복셀 기반 방법에 비해 더 나은 탐지 정확도를 얻을 수 있지만 추론 시간이 길어집니다.

4. 멀티모달 3D 객체 감지

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

4.1 투영 기반 3D 객체 감지

투영 기반 3D 객체 감지 방법은 특징 융합 단계에서 투영 행렬을 사용하여 포인트 클라우드를 구현합니다. 및 이미지 기능을 통합합니다. 여기서 핵심은 데이터 증강 등 융합 단계의 다른 투영 프로세스보다는 특징 융합 중 투영에 집중하는 것입니다. 융합 단계에서 사용되는 다양한 투영 유형에 따라 투영 기반 3D 객체 감지 방법은 다음 범주로 더 세분화될 수 있습니다.

: 이 유형의 방법은 이미지를 투영하여 작동합니다. 원본 포인트 클라우드의 기능은 원본 포인트 클라우드 데이터의 표현 능력을 향상시키는 데 사용됩니다. 이러한 방법의 첫 번째 단계는 교정 매트릭스를 사용하여 LiDAR 지점과 이미지 픽셀 간의 강력한 상관 관계를 설정하는 것입니다. 다음으로, 추가 데이터를 추가하여 포인트 클라우드 기능이 향상됩니다. 이러한 개선 사항은 두 가지 형태로 제공됩니다. 하나는 분할 점수를 병합하는 방식(예: PointPainting)이고 다른 하나는 관련 픽셀의 CNN 기능을 사용하는 방식(예: MVP)입니다. PointPainting은 분할 점수를 추가하여 라이더 포인트를 향상시키지만 이미지의 색상 및 질감 세부 정보를 효과적으로 캡처하는 데에는 한계가 있습니다. 이러한 문제를 해결하기 위해 FusionPainting과 같은 보다 정교한 방법이 개발되었습니다.
: 점 투영 기반 방법과 달리 이 유형의 방법은 주로 포인트 클라우드 특징 추출 단계에서 포인트 클라우드 특징과 이미지 특징을 융합하는 데 중점을 둡니다. 이 과정에서 복셀의 3차원 좌표계를 이미지의 픽셀 좌표계로 변환하는 교정 행렬을 적용하여 포인트 클라우드와 이미지 모달리티를 효과적으로 융합합니다. 예를 들어 ContFuse는 연속 컨볼루션을 통해 다중 규모 컨벌루션 기능 맵을 융합합니다.
: 많은 연구에서 직접 투영을 통해 융합을 수행하지만 투영 오류 문제를 해결하지 못합니다. 일부 작업(예: AutoAlignV2)은 오프셋 및 이웃 투영 등을 학습하여 이러한 오류를 완화합니다. 예를 들어 HMFI, GraphAlign 및 GraphAlign++는 이미지 투영 및 로컬 그래프 모델링을 위한 투영 보정 매트릭스에 대한 사전 지식을 활용합니다.
: 이 유형의 방법은 프로젝션 매트릭스를 사용하여 관심 영역(RoI) 또는 특정 결과의 특징을 정렬합니다. 예를 들어 Graph-RCNN은 그래프 노드를 카메라 이미지의 위치에 투영하고 쌍선형 보간을 통해 카메라 이미지의 해당 픽셀에 대한 특징 벡터를 수집합니다. F-PointNet은 2D 이미지 감지를 통해 객체의 카테고리와 위치를 결정하고, 3D 공간에서 보정된 센서 매개변수와 변환 행렬을 통해 해당 3D 공간의 포인트 클라우드를 얻습니다.

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

4.2 비투영 기반 3D 객체 감지

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！ 비투영 기반 3D 객체 감지 방법은 특징 정렬에 의존하지 않고 융합을 달성하여 강력한 특징 표현을 생성합니다. 이는 종종 카메라 기능의 의미 밀도를 감소시키고 Focals Conv 및 PointPainting과 같은 기술의 효율성에 영향을 미치는 카메라-라이다 투영의 한계를 우회합니다. 비투영 방법은 일반적으로 교차 주의 메커니즘을 채택하거나 통합 공간을 구성하여 직접 특징 투영에 내재된 정렬 문제를 해결합니다. 이러한 방법은 크게 (1) 쿼리 학습 기반 방법과 (2) 통합 기능 기반 방법의 두 가지 범주로 나뉩니다. 쿼리 학습 기반 방법은 융합 프로세스 중에 정렬이 필요하지 않습니다. 대조적으로, 통합된 특징 기반 방법은 통합된 특징 공간을 구성하지만 투영을 완전히 피하지는 않습니다. 이는 일반적으로 단일 양식 컨텍스트에서 발생합니다. 예를 들어, BEVFusion은 카메라-BEV 투영을 위해 LSS를 활용합니다. 이 프로세스는 융합 전에 발생하며 기능이 잘못 정렬된 시나리오에서 상당한 견고성을 보여줍니다.

쿼리 학습 기반 3차원 객체 감지: Transfusion, DeepFusion, DeepInteraction, autoalign, CAT-Det, MixedFusion 등과 같은 쿼리 학습 기반 3차원 객체 감지 방법을 사용하면 투영이 필요하지 않습니다. 기능 융합 프로세스. 대신 교차 주의 메커니즘을 통해 기능 융합을 수행하기 전에 기능 정렬을 달성합니다. 포인트 클라우드 기능은 일반적으로 쿼리로 사용되며 이미지 기능은 키와 값으로 사용됩니다. 전역 기능 쿼리를 통해 매우 강력한 다중 모달 기능을 얻습니다. 또한 DeepInteraction은 추가 기능 상호 작용을 달성하기 위해 포인트 클라우드와 이미지 기능을 서로 다른 쿼리로 사용하는 다중 모드 상호 작용을 도입합니다. 이미지 기능을 포괄적으로 통합하면 포인트 클라우드 기능만 쿼리로 사용하는 것에 비해 더 강력한 다중 모드 기능을 얻을 수 있습니다. 일반적으로 질의 학습 기반의 3차원 객체 검출 방법은 특징 정렬을 위해 특징 질의를 수행하는 Transformer 기반 구조를 사용한다. 결국 다중 모드 기능은 CenterPoint와 같은 LiDAR 기반 프로세스에 통합되었습니다.
통합 기능 기반 3차원 개체 감지: EA-BEV, BEVFusion, cai2023bevfusion4d, FocalFormer3D, FUTR3D, UniTR, Uni3D, virconv, MSMDFusion, sfd, cmt와 같은 통합 기능 기반 3차원 개체 감지 방법 , UVTR, sparsefusion 등, 일반적으로 이종 양식의 사전 융합 통합은 기능 융합 전 투영을 통해 달성됩니다. BEV 융합 시리즈에서는 심도 추정을 위해 LSS를 사용하고, 정면 특징을 BEV 특징으로 변환한 후 BEV 이미지와 BEV 포인트 클라우드 특징을 융합한다. 반면, CMT와 UniTR은 포인트 클라우드와 이미지의 토큰화를 위해 Transformer를 사용하고, Transformer 인코딩을 통해 암시적 통합 공간을 구축합니다. CMT는 위치 인코딩 프로세스에서 투영을 사용하지만 특징 학습 수준에서 투영 관계에 대한 의존을 완전히 피합니다. FocalFormer3D, FUTR3D 및 UVTR은 Transformer의 쿼리를 사용하여 DETR3D와 유사한 솔루션을 구현하고 쿼리를 통해 통합된 희소 BEV 기능 공간을 구축하여 직접 투영으로 인한 불안정성을 완화합니다.

VirConv, MSMDFusion 및 SFD는 의사 포인트 클라우드를 통해 통합된 공간을 구축하고 특징 학습 전에 투영이 발생합니다. 직접 투영으로 인해 발생하는 문제는 후속 특성 학습을 통해 해결됩니다. 요약하면, 통합 기능 기반 3D 개체 감지 방법은 현재 매우 정확하고 강력한 솔루션을 나타냅니다. 투영 행렬이 포함되어 있지만 이 투영은 다중 모드 융합 간에 발생하지 않으므로 비투영 3D 객체 감지 방법으로 간주됩니다. 자동 투영 3D 객체 감지 방법과 달리 투영 오류 문제를 직접 해결하지는 않지만 통합 공간을 구성하고 다중 모드 3D 객체 감지의 다차원을 고려하여 매우 강력한 다중 모드 기능을 얻습니다.

5. 결론

3D 객체 감지는 자율주행 인식에 중요한 역할을 합니다. 최근 몇 년 동안 이 분야는 빠르게 발전하여 수많은 연구 논문을 발표했습니다. 센서에서 생성되는 다양한 데이터 형태에 따라 이러한 방법은 크게 이미지 기반, 포인트 클라우드 기반, 멀티모달의 세 가지 유형으로 구분됩니다. 이러한 방법의 주요 평가 지표는 높은 정확도와 낮은 대기 시간입니다. 많은 리뷰에서는 주로 '높은 정확성과 낮은 대기 시간'이라는 핵심 원칙에 초점을 맞춰 이러한 접근 방식을 요약하고 기술적인 궤적을 설명합니다.

그러나 자율주행 기술이 혁신에서 실용화로 나아가는 과정에서 기존의 검토들은 안전 인식을 핵심 초점으로 삼지 않고 있으며 안전 인식과 관련된 현재의 기술 경로를 다루지 못하고 있습니다. 예를 들어, 최근의 다중 모드 융합 방법은 종종 실험 단계에서 견고성에 대해 테스트되는데, 이는 현재 검토에서 완전히 고려되지 않은 측면입니다.

따라서 '정확도, 지연 시간 및 견고성'을 핵심 측면으로 초점을 맞춰 3D 객체 감지 알고리즘을 다시 검토하세요. 안전 인식 관점에서 재분류에 특히 중점을 두고 이전 검토를 재분류합니다. 이 연구가 단순히 높은 정확도의 한계를 탐색하는 것을 넘어 3D 객체 감지에 대한 향후 연구에 새로운 통찰력을 제공할 수 있기를 바랍니다.

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！