AAAI2024: Far3D - 150m 시각적 3D 표적 탐지에 직접 도달하는 혁신적인 아이디어-일체 포함-php.cn

최근 Arxiv에서 순수 시각적 서라운드 인식에 관한 최신 연구를 읽었습니다. 이 연구는 PETR 시리즈 방법을 기반으로 하며 장거리 표적 감지의 순수 시각적 인식 문제를 해결하는 데 중점을 두고 인식 범위를 150미터로 확장합니다. 본 논문의 방법과 결과는 우리에게 큰 참고가치가 있어 해석해 보았습니다

원제: Far3D: Expanding the Horizon for Surround-view 3D ObjectDetection
논문 링크: https:/ /arxiv.org/abs /2308.09616
저자 소속 : 베이징 공과 대학 & 메그비 기술

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

과제 배경

3차원 물체 감지는 자율 주행의 3차원 장면을 이해하는 데 중요한 역할을 하며, 그 목적은 차량 주변의 물체를 찾아 분류합니다. 순수한 시각적 서라운드 인식 방법은 비용이 저렴하고 적용 범위가 넓다는 장점이 있으며 상당한 발전을 이루었습니다. 그러나 대부분은 단거리 감지(예: NuScene의 감지 거리가 약 50미터)에 중점을 두고 있으며 장거리 감지 분야는 덜 연구되어 있습니다. 실제 주행 중, 특히 고속 주행이나 복잡한 도로 상황에서 안전 거리를 유지하려면 멀리 있는 물체를 감지하는 것이 중요합니다.

최근 배포 비용이 저렴한 서라운드 뷰 이미지의 3D 객체 감지 분야에서 상당한 진전이 있었습니다. 그러나 대부분의 연구는 주로 근거리 감지 범위에 초점을 맞추고 있으며 장거리 감지에 대한 연구는 적습니다. 장거리를 커버하기 위해 기존 방법을 직접 확장하는 것은 높은 계산 비용과 불안정한 수렴과 같은 문제에 직면하게 됩니다. 이러한 한계를 해결하기 위해 본 논문에서는 Far3D라는 새로운 희소 쿼리 기반 프레임워크를 제안합니다.

논문 아이디어

중간 표현에 따르면 기존의 Look Around Sensing 방법은 크게 BEV 표현 기반 방법과 Sparse 쿼리 표현 기반 방법 두 가지로 나눌 수 있습니다. BEV 표현 기반 방법은 BEV 특성에 대한 집중적인 계산이 필요하기 때문에 매우 많은 양의 계산이 필요하므로 장거리 시나리오로 확장하기가 어렵습니다. 희소 쿼리 표현 기반 방법은 훈련 데이터로부터 전역 3D 쿼리를 학습하게 되며 계산량이 상대적으로 적고 확장성이 뛰어납니다. 그러나 몇 가지 약점도 있습니다. 쿼리 수의 제곱 증가를 피할 수는 있지만 전역 고정 쿼리는 동적 장면에 적응하기가 쉽지 않으며 장거리 탐지에서 대상을 놓치는 경우가 많습니다. 데이터 세트, 탐지와 2D 탐지 간의 3D 성능 비교.

장거리 탐지에서 희소 쿼리 표현을 기반으로 하는 방법에는 두 가지 주요 과제가 있습니다. AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

첫 번째는 부진한 리콜 성능입니다. 3D 공간에서 쿼리가 희박하게 분포되어 있기 때문에 장거리 범위에서는 소수의 일치하는 긍정적 쿼리만 생성될 수 있습니다. 위 그림에서 볼 수 있듯이 3D 감지의 재현율은 낮은 반면, 기존 2D 감지의 재현율은 훨씬 높기 때문에 둘 사이에는 분명한 성능 차이가 있습니다. 따라서 3D 쿼리를 개선하기 위해 사전에 고품질 2D 객체를 활용하는 것은 유망한 방법이며, 이는 객체의 정확한 위치 지정과 포괄적인 범위를 달성하는 데 도움이 됩니다.

둘째, 3D 감지를 돕기 위해 2D 감지 결과를 직접 도입하면 오류 전파 문제에 직면하게 됩니다. 아래 그림에 표시된 것처럼 두 가지 주요 원인은 1) 부정확한 깊이 예측으로 인한 객체 위치 지정 오류, 2) 절두체 변환의 3D 위치 오류가 거리에 따라 증가합니다. 이러한 시끄러운 쿼리는 훈련의 안정성에 영향을 미치며 최적화하려면 효과적인 잡음 제거 방법이 필요합니다. 또한 훈련 중에 모델은 밀도가 높고 가까운 개체에 과적합되는 경향이 있고, 드물게 분산된 먼 개체는 무시합니다.

위에서 언급한 문제를 해결하기 위해 이 기사에서는 다음과 같은 설계 계획을 채택합니다.

데이터 세트에서 학습한 3D 전역 쿼리 외에도 2D 감지 결과에서 생성된 3D 적응형 쿼리도 도입됩니다. 구체적으로, 2차원 검출기와 깊이 예측 네트워크를 먼저 사용하여 2차원 상자와 해당 깊이를 얻은 후 3차원 적응형 쿼리의 초기화로 공간 변환을 통해 3차원 공간에 투영합니다.
다양한 거리에 있는 다양한 크기의 물체에 적응하기 위해 관점 인식 집계가 설계되었습니다. 이를 통해 3D 쿼리가 다양한 규모의 특징과 상호 작용할 수 있으므로 다양한 거리에 있는 객체의 특징을 캡처하는 데 유용합니다. 예를 들어, 멀리 있는 물체에는 고해상도 기능이 필요하고 가까운 물체에는 다른 기능이 필요합니다. 이 설계를 통해 모델은 기능과 적응적으로 상호 작용할 수 있습니다.
쿼리 오류 전파 및 느린 수렴 문제를 완화하기 위해 범위 변조 3D 노이즈 제거라는 전략을 설계했습니다. 거리에 따라 쿼리 회귀 난이도가 다르다는 점을 고려하여 시끄러운 쿼리는 실제 상자의 거리와 크기에 따라 조정됩니다. GT 근처의 여러 세트의 잡음이 있는 쿼리를 디코더에 입력하여 3D 실제 상자(양성 샘플의 경우)를 재구성하고 음수 샘플을 각각 폐기합니다.

주요 기여

본 논문에서는 3차원 적응 질의를 생성하기 전에 고품질의 2차원 객체를 사용하여 3차원 검출의 인식 범위를 확장하는 새로운 희소 질의 기반 검출 프레임워크를 제안합니다.
이 기사에서는 쿼리 오류 전파 및 프레임워크 수렴 문제를 해결하기 위해 다양한 규모와 관점에서 시각적 특징을 집계하는 관점 인식 집계 모듈과 대상 거리를 기반으로 하는 3D 노이즈 제거 전략을 설계합니다.
장거리 Argoverse 2 데이터 세트에 대한 실험 결과에 따르면 Far3D는 이전의 둘러보기 방법을 능가하고 여러 LiDAR 기반 방법보다 성능이 뛰어납니다. 그리고 그 일반성은 nuScenes 데이터세트에서 검증되었습니다.

모델 디자인

Far3D 프로세스 개요:

서라운드 이미지를 백본 네트워크 및 FPN 레이어에 입력하고 2D 이미지 기능을 인코딩한 후 카메라 매개변수로 인코딩합니다.
2D 감지기와 깊이 예측 네트워크를 활용하여 신뢰할 수 있는 2D 개체 상자와 해당 깊이를 생성한 다음 카메라 변환을 통해 3D 공간에 투영합니다.
생성된 3D 적응형 쿼리는 초기 3D 전역 쿼리와 결합되고 디코더 레이어에 의해 반복적으로 회귀되어 3D 개체 상자를 예측합니다. 또한 모델은 장기적인 쿼리 전파를 통해 시계열 모델링을 구현할 수 있습니다.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

관점 인식 집계:

장거리 탐지 모델에 다중 규모 기능을 도입하기 위해 이 기사에서는 3D 공간 변형 주의를 적용합니다. 먼저 쿼리에 해당하는 3D 위치 근처에서 오프셋 샘플링을 수행한 다음 3D-2D 뷰 변환을 통해 이미지 특징을 집계합니다. PETR 시리즈의 세계적인 관심 대신 이 방법의 장점은 계산 복잡성을 크게 줄일 수 있다는 것입니다. 특히 3D 공간의 각 쿼리 참조점에 대해 모델은 주변의 M 샘플링 오프셋을 학습하고 이러한 오프셋 점을 다양한 2D 보기 기능에 투영합니다.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

이어서 3D 쿼리는 투영을 통해 얻은 샘플링된 특징과 상호 작용합니다. 이러한 방식으로 서로 다른 관점과 규모의 다양한 기능이 상대적 중요성을 고려하여 3차원 쿼리로 통합됩니다.

범위 변조 3D 노이즈 제거:

거리가 다른 3D 쿼리는 회귀 난이도가 다르며 이는 기존 2D 노이즈 제거 방법(예: 일반적으로 동일하게 처리되는 DN-DETR, 2D 쿼리)과 다릅니다. 난이도의 차이는 쿼리 일치 밀도와 오류 전파에서 비롯됩니다. 한편, 멀리 있는 객체에 해당하는 질의 일치 정도는 가까운 객체에 비해 낮습니다. 반면, 3D 적응형 쿼리에 2D 사전을 도입하면 2D 개체 상자의 작은 오류가 증폭되며, 개체 거리가 멀어짐에 따라 이 효과도 커집니다. 따라서 GT 박스 근처의 일부 질의는 긍정적인 질의로 간주될 수 있고, 명백한 편차가 있는 다른 질의는 부정적인 질의로 간주되어야 합니다. 본 논문에서는 이러한 Positive 샘플을 최적화하고 Negative 샘플을 직접 폐기하는 것을 목표로 하는 3D Denoising 방법을 제안합니다.

구체적으로 저자는 양성 샘플과 음성 샘플 그룹을 동시에 추가하여 GT 기반 시끄러운 쿼리를 구축합니다. 두 유형 모두 장거리 인식에서 잡음 제거 학습을 용이하게 하기 위해 객체의 위치와 크기에 따라 무작위 잡음이 적용됩니다. 구체적으로, 포지티브 샘플은 3D 상자 내의 임의 지점인 반면, 네거티브 샘플은 GT에 더 큰 오프셋을 부과하고 오프셋 범위는 객체의 거리에 따라 변경됩니다. 이 방법은 훈련 중에 시끄러운 후보 양성 및 위양성 샘플을 시뮬레이션할 수 있습니다.

실험 결과

Far3D는 감지 범위 150m로 Argoverse 2에서 가장 높은 성능을 달성했습니다. 그리고 모델이 확장된 후에는 여러 Lidar 기반 방법의 성능을 달성하여 순수한 시각적 방법의 잠재력을 입증할 수 있습니다.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

일반화 성능을 검증하기 위해 저자는 nuScenes 데이터 세트에 대한 실험도 수행했으며 검증 세트와 테스트 세트 모두에서 SoTA 성능을 달성했음을 보여주었습니다.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

절제 실험 후 우리는 다음과 같은 결론에 도달했습니다. 3D 적응형 쿼리, 관점 인식 집계 및 범위 조정 3D 노이즈 감소는 각각 일정한 이득을 얻습니다

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

논문에 대한 생각

Q : 이 기사의 참신함은 무엇입니까?
A: 주요 참신함은 장거리 장면에 대한 인식 문제를 해결하는 것입니다. 기존 방법을 장거리 시나리오로 확장하는 데에는 계산 비용과 수렴의 어려움을 포함하여 많은 문제가 있습니다. 본 논문의 저자는 이 작업을 위한 효율적인 프레임워크를 제안합니다. 개별 모듈은 친숙해 보일 수 있지만 모두 멀리 있는 표적을 탐지하는 역할을 하며 명확한 목표를 가지고 있습니다.

Q: BevFormer v2와 비교했을 때 MV2D의 차이점은 무엇인가요?
A: MV2D는 3D를 바인딩하기 위해 해당 기능을 얻기 위해 주로 2D 앵커에 의존하지만 명시적인 깊이 추정이 없으므로 먼 물체에 대한 불확실성이 상대적으로 크고 BevFormer v2는 주로 수렴하기 어려울 것입니다. 일반적으로 2D 인식 작업에 대해 사전 훈련된 백본은 3D 장면을 감지하는 능력이 부족하여 장거리 작업의 문제를 탐색하지 않습니다.

Q: 쿼리 전파와 기능 전파 등 타이밍을 개선할 수 있나요?
A: 이론상으로는 가능하지만 실제 적용에서는 성능과 효율성의 균형을 고려해야 합니다.

Q: 개선이 필요한 부분이 있나요?
A: 롱테일 이슈와 장거리 평가 지표 모두 개선할 가치가 있습니다. Argoverse 2와 같은 26개 클래스 대상에서는 모델이 롱테일 클래스에서 잘 수행되지 않으며 궁극적으로 아직 탐색되지 않은 평균 정확도가 감소합니다. 반면, 통합 측정항목을 사용하여 멀리 있거나 가까운 물체를 평가하는 것은 적절하지 않을 수 있으며, 이는 현실 세계의 다양한 시나리오에 적용할 수 있는 실용적인 동적 평가 기준의 필요성을 강조합니다.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路