DECO: 순수 컨볼루셔널 쿼리 기반 탐지기가 DETR을 능가합니다!-일체 포함-php.cn

DECO: 纯卷积Query-Based检测器超越DETR！

제목: DECO: ConvNets를 이용한 쿼리 기반 엔드투엔드 객체 탐지

Paper: https://arxiv.org/pdf/2312.13735.pdf

소스 코드: https://github.com / xinghaochen/DECO

원문: https://zhuanlan.zhihu.com/p/686011746@王云河

Introduction

DETR(Detection Transformer) 도입 이후 표적 탐지 분야에 붐이 일었다 , 그리고 많은 후속 연구는 정확성에 중점을 두었습니다. 속도와 속도 측면에서 원래 DETR에 비해 개선이 이루어졌습니다. 하지만 트랜스포머가 과연 시야를 완전히 장악할 수 있을지에 대한 논의는 계속되고 있다. ConvNeXt 및 RepLKNet과 같은 일부 연구에서는 CNN 구조가 비전 분야에서 여전히 큰 잠재력을 갖고 있음을 보여줍니다.

DECO: 纯卷积Query-Based检测器超越DETR！

이 작업에서 우리가 탐구하는 것은 순수 컨볼루션 아키텍처를 사용하여 고성능의 DETR과 유사한 프레임워크 탐지기를 얻는 방법입니다. DETR을 기념하여 우리의 접근 방식을 DECO(Detection ConvNets)이라고 부릅니다. DECO는 DETR과 유사한 구조 설정을 사용하고 다른 백본을 사용하여 COCO에서 38.6%와 40.8%의 AP를 달성했고 V100에서 35FPS와 28FPS를 달성하여 DETR보다 더 나은 성능을 달성했습니다. DECO는 RT-DETR과 유사한 멀티 스케일 기능과 같은 모듈과 결합하여 47.8% AP 및 34FPS의 속도를 달성했으며 전체 성능은 많은 DETR 개선 방법에 비해 좋은 장점이 있습니다.

Method

Network Architecture

DECO: 纯卷积Query-Based检测器超越DETR！

DETR의 주요 특징은 Transformer Encoder-Decoder의 구조를 사용하여 Query 세트를 사용하여 입력 이미지와 상호 작용하여 이미지 기능과 상호 작용하고 지정된 이미지를 직접 출력할 수 있다는 것입니다. 이는 NMS와 같은 후처리 작업에 대한 의존성을 제거합니다. 우리가 제안한 DECO의 전체 아키텍처는 이미지 특징 추출을 위한 Backbone, Query와 상호 작용하는 Encoder-Decoder 구조를 포함하고 최종적으로 특정 수의 탐지 결과를 출력하는 DETR과 유사합니다. 유일한 차이점은 DECO의 Encoder와 Decoder가 순수 컨볼루션 구조이므로 DECO는 순수 컨볼루션으로 구성된 Query-Based end-to-end detector입니다.

Encoder

DETR의 인코더 구조 교체는 비교적 간단합니다. 4개의 ConvNeXt 블록을 사용하여 인코더 구조를 형성합니다. 구체적으로 인코더의 각 레이어는 7x7 깊이 컨볼루션, LayerNorm 레이어, 1x1 컨볼루션, GELU 활성화 함수 및 또 다른 1x1 컨볼루션을 스택하여 구현됩니다. 또한 DETR에서는 Transformer 아키텍처가 입력에 대해 순열 불변성을 가지므로 인코더의 각 레이어 입력에 위치 인코딩을 추가해야 하지만 컨볼루션으로 구성된 인코더의 경우 위치 인코딩을 추가할 필요가 없습니다

Decoder

에 비해 디코더 교체는 훨씬 더 복잡합니다. Decoder의 주요 기능은 이미지 특징 및 Query와 완벽하게 상호 작용하여 Query가 이미지 특징 정보를 완전히 인식하고 이를 통해 이미지 내 대상의 좌표 및 범주를 예측할 수 있도록 하는 것입니다. 디코더에는 주로 인코더의 기능 출력과 학습 가능한 쿼리 벡터 세트(쿼리)라는 두 가지 입력이 포함됩니다. 디코더의 주요 구조는 SIM(Self-Interaction Module)과 CIM(Cross-Interaction Module)의 두 가지 모듈로 나뉩니다.

DECO: 纯卷积Query-Based检测器超越DETR！

여기서 SIM 모듈은 주로 Query의 출력과 상위 Decoder 레이어를 통합합니다. 이 부분의 구조는 공간 차원과 채널 차원에서 9x9 깊이 컨볼루션과 1x1 컨볼루션을 사용하여 여러 컨볼루션 레이어로 구성될 수 있습니다. 각각 정보 교환을 수행하여 필요한 대상 정보를 완전히 획득하고 추가 대상 탐지 특징 추출을 위해 이를 후속 CIM 모듈로 보냅니다. 쿼리는 무작위로 초기화된 벡터 집합입니다. 이 숫자는 감지기가 최종적으로 출력하는 감지 프레임 수를 결정하며 실제 필요에 따라 조정될 수 있습니다. DECO의 경우 모든 구조가 컨볼루션으로 구성되므로 쿼리를 2차원으로 변환합니다. 예를 들어 100개의 쿼리는 10x10 차원이 될 수 있습니다.

CIM 모듈의 주요 기능은 이미지 특징과 Query 사이의 완전한 상호 작용을 통해 Query가 이미지 특징 정보를 완전히 인식하고 이를 통해 이미지 내 대상의 좌표와 카테고리를 예측할 수 있도록 하는 것입니다. Transformer 구조의 경우 Cross Attention 메커니즘을 사용하면 이 목표를 쉽게 달성할 수 있지만 Convolution 구조의 경우 두 기능을 어떻게 완벽하게 상호 작용하는지가 가장 큰 어려움입니다.

SIM 출력과 인코더 출력의 전역 기능을 서로 다른 크기로 융합하려면 먼저 둘을 공간적으로 정렬한 다음 이를 융합해야 합니다. 먼저 SIM 출력에서 가장 가까운 이웃 업샘플링을 수행합니다.

DECO: 纯卷积Query-Based检测器超越DETR！

업샘플링 후 특징은 인코더가 출력하는 전역 특징과 동일한 크기를 가지며, 업샘플링된 특징은 인코더가 출력하는 전역 특징과 융합된 다음, 특징 상호 작용을 위해 심층 컨볼루션을 입력하고 잔차 입력을 추가합니다.

DECO: 纯卷积Query-Based检测器超越DETR！

마지막으로 상호작용된 특징은 FNN을 통해 채널 정보로 교환된 다음 대상 번호로 풀링되어 디코더의 출력 임베딩을 얻습니다.

DECO: 纯卷积Query-Based检测器超越DETR！

마지막으로 획득한 출력 임베딩을 후속 분류를 위해 탐지 헤드로 보냅니다. 회귀.

멀티 스케일 기능

원래 DETR과 마찬가지로 위 프레임워크로 얻은 DECO에는 공통적인 단점이 있습니다. 즉, 멀티 스케일 기능이 부족하여 고정밀 타겟 탐지에 큰 영향을 미칩니다. Deformable DETR은 다중 스케일 변형 Attention 모듈을 사용하여 다양한 스케일의 기능을 통합하지만 이 방법은 Attention 연산자와 강력하게 결합되므로 DECO에서 직접 사용할 수 없습니다. DECO가 다중 규모 기능을 처리할 수 있도록 디코더에서 기능을 출력한 후 RT-DETR에서 제안한 교차 규모 기능 융합 모듈을 사용합니다. 실제로 DETR 탄생 이후 일련의 개선 방안이 도출됐다. 우리는 DECO에도 많은 전략이 적용될 수 있다고 믿으며 관심 있는 사람들이 함께 논의할 수 있기를 바란다.

Experiment

Query 수를 일정하게 유지하고 Decoder 레이어 수를 변경하지 않고 유지하는 등 주요 아키텍처를 변경하지 않고 DETR에서는 Transformer만 변경하면서 COCO에 대한 실험을 진행하고 DECO와 DETR을 비교했습니다. 구조는 위에서 설명한 대로 컨벌루션 구조로 대체됩니다. DECO는 DETR보다 더 나은 정확성과 더 빠른 트레이드오프를 달성한다는 것을 알 수 있습니다.

DECO: 纯卷积Query-Based检测器超越DETR！

또한 DECO의 다양한 변형을 포함하여 더 많은 표적 탐지 방법을 갖춘 멀티 스케일 기능을 갖춘 DECO가 매우 좋은 결과를 얻었습니다. 이전의 많은 검출기보다 성능이 향상되었습니다.

DECO: 纯卷积Query-Based检测器超越DETR！

기사의 DECO 구조는 Decoder에서 선택한 특정 융합 전략(덧셈, 도트 곱셈, Concat)과 최적의 결과를 얻기 위해 쿼리 차원을 설정하는 방법을 포함하여 많은 절제 실험과 시각화를 거쳤습니다. 등, 몇 가지 흥미로운 결과도 있습니다. 자세한 결과와 논의는 원본 기사를 참조하세요.

요약

본 논문은 복잡한 Transformer 아키텍처를 사용하지 않고도 쿼리 기반 엔드투엔드 객체 감지 프레임워크를 구축하는 것이 가능한지 연구하는 것을 목표로 합니다. 백본 네트워크와 컨벌루션 인코더-디코더 구조를 포함하는 DECO(Detection ConvNet)라는 새로운 감지 프레임워크가 제안되었습니다. DECO 인코더를 신중하게 설계하고 새로운 메커니즘을 도입함으로써 DECO 디코더는 컨볼루셔널 레이어를 통해 대상 쿼리와 이미지 기능 간의 상호 작용을 달성할 수 있습니다. COCO 벤치마크에서 이전 감지기와 비교한 결과 단순성에도 불구하고 DECO는 감지 정확도와 실행 속도 측면에서 경쟁력 있는 성능을 달성했습니다. 특히, ResNet-50 및 ConvNeXt-Tiny 백본을 사용하여 DECO는 각각 35 및 28 FPS로 설정된 COCO 검증에서 38.6% 및 40.8% AP를 달성하여 DET 모델보다 성능이 뛰어났습니다. DECO가 객체 감지 프레임워크 설계에 대한 새로운 관점을 제공할 것으로 기대됩니다.

위 내용은 DECO: 순수 컨볼루셔널 쿼리 기반 탐지기가 DETR을 능가합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!