연구 저자들은 객체 감지를 위한 새로운 심층 아키텍처인 Matrix Net(xNet)을 제안합니다. xNets는 크기와 종횡비가 다른 객체를 네트워크 계층에 매핑합니다. 여기서 객체는 계층 내에서 크기와 종횡비가 거의 균일합니다. 따라서 xNet은 크기 및 종횡비를 인식하는 아키텍처를 제공합니다. 연구원들은 xNet을 사용하여 키포인트 기반 표적 탐지를 향상합니다. 새로운 아키텍처는 MS COCO 데이터세트에서 47.8mAP로 다른 단일 샷 감지기보다 더 높은 시간 효율성을 달성하는 동시에 매개변수를 절반으로 사용하고 다음 프레임워크보다 훈련 속도가 3배 빠릅니다.
위 그림에서 볼 수 있듯이 xNet의 매개변수와 효율성은 다른 모델보다 훨씬 높습니다. 그중 FSAF는 기존 RetinaNet을 능가하는 앵커 기반 감지기 중에서 가장 좋은 효과를 나타냅니다. 연구원이 제안한 모델은 유사한 수의 매개변수를 사용하여 다른 모든 싱글샷 아키텍처보다 성능이 뛰어납니다.
객체 감지는 컴퓨터 비전에서 가장 널리 연구된 작업 중 하나이며 객체 추적, 인스턴스 분할 및 이미지 캡션과 같은 다른 비전 작업에 많이 적용됩니다. 객체 감지 구조는단일 샷 감지기와2단계 감지기의 두 가지 범주로 나눌 수 있습니다. 2단계 검출기는 영역 제안 네트워크를 활용하여 고정된 수의 객체 후보를 찾은 다음 두 번째 네트워크를 사용하여 각 후보의 점수를 예측하고 경계 상자를 개선합니다.
싱글샷 감지기는 앵커 기반 감지기와 키포인트 기반 감지기라는 두 가지 범주로 나눌 수도 있습니다. 앵커 기반 감지기는 많은 앵커 경계 상자를 포함하고 각 템플릿의 오프셋과 클래스를 예측합니다. 가장 유명한 앵커 기반 아키텍처는 앵커 경계 상자의 클래스 불균형을 수정하는 데 도움이 되는 초점 손실 함수를 제안하는 RetinaNet입니다. 가장 성능이 좋은 앵커 기반 탐지기는 FSAF입니다. FSAF는 앵커 기반 출력을 앵커 없는 출력 헤드와 통합하여 성능을 더욱 향상시킵니다.
반면, 키포인트 기반 검출기는 왼쪽 상단과 오른쪽 하단에 대한 히트맵을 예측하고 특징 임베딩을 사용하여 일치시킵니다. 원래의 키포인트 기반 탐지기는 CornerNet으로, 특수 코너 풀링 레이어를 활용하여 다양한 크기의 개체를 정확하게 탐지합니다. 그 이후 Centerne은 객체 중심과 모서리를 예측하여 CornerNet 아키텍처를 크게 개선했습니다.
아래 그림은 계층적 행렬을 사용하여 다양한 크기와 군집 횡단 비율을 가진 대상을 모델링하는 행렬 그물(xNets)을 보여줍니다. 여기서 행렬의 각 항목 i, j는 레이어 li, j를 나타냅니다. 행렬의 왼쪽 위 모서리 레이어 l1,1은 너비가 2^(i-1), 높이가 2^(j-1)만큼 다운샘플링됩니다. 대각선 레이어는 FPN과 동일한 다양한 크기의 정사각형 레이어이고, 비대각선 레이어는 직사각형 레이어입니다(이것은 xNets에 고유함). 레이어 l1,1은 가장 큰 레이어입니다. 레이어의 너비는 오른쪽으로 갈수록 각 단계마다 절반으로 줄어들고, 높이는 오른쪽으로 갈수록 절반으로 줄어듭니다.
예를 들어 레이어 l3,4는 레이어 l3,3 너비의 절반입니다. 대각선 레이어는 가로 세로 비율이 정사각형에 가까운 객체를 모델로 하고, 비대각선 레이어는 가로 세로 비율이 정사각형에 가깝지 않은 객체를 모델링합니다. 종횡비가 매우 높거나 낮은 매트릭스 모델 개체의 오른쪽 위 또는 왼쪽 아래 모서리 근처에 있는 레이어입니다. 이러한 대상은 매우 드물기 때문에 효율성을 높이기 위해 정리할 수 있습니다.
Generation 행렬 레이어는 모델 매개변수 수에 영향을 미치기 때문에 중요한 단계입니다. 매개변수가 많을수록 모델 표현이 더 강해지고 최적화 문제가 더 어려워지므로 연구자들은 가능한 한 적은 수의 새로운 매개변수를 도입하기로 선택합니다. 대각선 레이어는 백본의 여러 단계에서 또는 기능 피라미드 프레임워크를 사용하여 얻을 수 있습니다. 상부 삼각형 레이어는 대각선 레이어에 1x2 보폭으로 일련의 공유 3x3 컨볼루션을 적용하여 얻습니다. 마찬가지로 왼쪽 하단 레이어는 스트라이드가 2x1인 공유 3x3 컨볼루션을 사용하여 얻습니다. 매개변수는 새 매개변수의 수를 최소화하기 위해 모든 다운샘플링 컨볼루션 간에 공유됩니다.
행렬의 각 레이어는 특정 너비와 높이를 가진 대상을 모델링하므로 행렬의 각 레이어에 대한 대상에 할당된 너비와 높이 범위를 정의해야 합니다. 범위는 매트릭스 레이어 특징 벡터의 수용 필드를 반영해야 합니다. 행렬의 오른쪽에 있는 각 단계는 수평 차원의 수용 필드를 효과적으로 두 배로 늘리고, 각 단계는 수직 차원의 수용 필드를 두 배로 늘립니다. 따라서 행렬에서 오른쪽이나 아래로 이동하면 너비나 높이의 범위가 두 배가 되어야 합니다. 첫 번째 레이어 l1,1의 범위가 정의되면 위의 규칙을 사용하여 나머지 매트릭스 레이어에 대한 범위를 생성할 수 있습니다.
Matrix Nets의 주요 장점은 정사각형 컨볼루션 커널이 다양한 종횡비에 대한 정보를 정확하게 수집할 수 있다는 것입니다. RetinaNet과 같은 기존 객체 감지 모델에서는 다양한 종횡비와 스케일을 출력하려면 정사각형 컨볼루션 커널이 필요합니다. 경계 상자의 다양한 측면에는 서로 다른 배경이 필요하기 때문에 이는 직관적이지 않습니다. Matrix Nets에서는 각 매트릭스 레이어의 컨텍스트가 변경되므로 동일한 정사각형 컨볼루션 커널을 다양한 스케일과 종횡비의 경계 상자에 사용할 수 있습니다.
대상 크기가 지정된 레이어 내에서 거의 균일하므로 너비와 높이의 동적 범위가 다른 아키텍처(예: FPN)에 비해 작습니다. 따라서 대상의 높이와 너비를 회귀하는 것이 더 쉬운 최적화 문제가 됩니다. 마지막으로 Matrix Nets는 앵커 기반 또는 키포인트 기반, 원샷 또는 투샷 감지기 등 모든 객체 감지 아키텍처로 사용할 수 있습니다.
CornerNet이 제안되었을 때 앵커 기반 감지를 대체하기 위해 한 쌍의 모서리(왼쪽 위 모서리와 오른쪽 아래 모서리)를 사용했습니다. 경계 상자를 예측합니다. CornerNet은 각 모서리에 대해 히트맵, 오프셋 및 임베딩을 예측합니다.
위 그림은 핵심 포인트인 KP-xNet을 기반으로 한 타겟 탐지 프레임워크로, 4단계로 구성되어 있습니다.
다음 표는 MS COCO 데이터 세트에 대한 결과를 보여줍니다.
연구원들은 또한 새로 제안한 모델을 매개 변수 수를 기반으로 다른 백본에서 다른 모델과 비교했습니다. 첫 번째 그림에서는 KP-xNet이 모든 매개변수 수준에서 다른 모든 구조보다 성능이 뛰어나다는 것을 알 수 있습니다. 연구원들은 KP-xNet이 규모 및 종횡비 인식 아키텍처를 사용하기 때문이라고 믿습니다.
문서 주소:https://arxiv.org/pdf/1908.04646.pdf
위 내용은 표적 탐지를 위한 최신 심층 아키텍처는 매개변수가 절반이고 속도가 3배 더 빠릅니다. +의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!