Transformer 기반의 효율적인 단일 스테이지 단기 RGB-T 단일 표적 추적 방법-일체 포함-php.cn

소개

그림 1에서 볼 수 있듯이 기존의 3단계 RGB-T 단일 대상 추적 네트워크는 일반적으로 두 가지 양식의 특징 추출을 각각 담당하는 두 개의 독립적인 특징 추출 분기를 사용합니다. 그러나 상호 독립적인 특징 추출 분기는 특징 추출 단계에서 두 양식 사이의 효과적인 정보 상호 작용이 부족하게 만듭니다. 따라서 네트워크가 오프라인 훈련을 완료하면 각 모달 이미지에서 고정된 특징만 추출할 수 있으며 더 많은 목표 동적 특징을 추출하기 위해 실제 모달 상태에 따라 동적으로 조정할 수 없습니다. 이러한 제한은 다양한 대상 바이모달 모양과 모달 모양 간의 동적 대응에 적응하는 네트워크의 능력을 제한합니다. 그림 2에서 볼 수 있듯이 이 특징 추출 방법은 추적된 대상의 임의성이 대상의 다양한 이중 모드 모양으로 이어질 수 있기 때문에 특히 복잡한 환경에서 RGB-T 단일 대상 추적의 실제 응용 시나리오에 적합하지 않습니다. 추적 환경이 변함에 따라 두 양식 간의 관계도 변경됩니다. 3단계 융합 추적은 이러한 상황에 잘 적응할 수 없어 속도 병목 현상이 명백하게 발생합니다.

Transformer 기반의 RGB-T 단일 표적 추적 네트워크를 제외하고 직접 추가 또는 캐스케이드를 사용하여 두 모달 검색 영역의 기능을 결합하고 예측 헤드를 입력하여 최종 예측 결과를 출력합니다. 그러나 현재 RGB-T 단일 표적 추적 데이터 세트에서 제공하는 비디오 이미지는 완전히 정렬되지 않았으며 모든 모달 검색 영역이 어두운 밤의 RGB 모달 검색 영역 및 뜨거운 교차 추적 시나리오와 같은 효과적인 정보를 제공할 수 있는 것은 아닙니다. 그리고 적외선 외부 탐색 영역은 효과적인 표적 출현 정보를 제공할 수 없으며 배경 소음이 많이 발생합니다. 따라서 요소별 추가 또는 계단식 배열을 통해 직접 기능을 병합하는 것은 서로 다른 검색 영역의 기능을 병합하는 문제를 고려하지 않습니다. 이러한 문제를 해결하기 위해 본 논문에서는 FFSM(Fusion Feature Selection Module)이라는 새로운 방법을 제안한다. FFSM 모듈은 주로 효과적인 정보를 가지고 표적 외관의 검색 영역 특징을 선택하는 데 사용됩니다. 구체적으로 FFSM 모듈은 먼저 어텐션 메커니즘을 통해 각 검색 영역 특징의 가중치를 학습합니다. 그런 다음 검색 영역의 특징에 가중치를 부여하고 이를 기준으로 합산하여 최종 융합 특징을 얻습니다. 이 메커니즘은 유효하지 않은 배경 소음을 효과적으로 필터링하고 중요도가 더 높은 표적 모양 정보를 추출하여 RGB-T 단일 표적 추적 성능을 향상시킬 수 있습니다. FFSM 모듈의 유효성을 검증하기 위해 배경 잡음이 많은 환경에서 실험을 진행하였다. 실험 결과는 FFSM 모듈을 사용하는 RGB-T 단일 표적 추적 네트워크가 직접 요소별 추가 또는 캐스케이드에 비해 표적 추적에서 더 나은 성능을 달성한다는 것을 보여줍니다. 어두운 밤과 뜨거운 교차 추적 시나리오에서 FFSM 모듈은 효과적인 표적 모양 정보를 정확하게 선택하여 표적 추적의 정확성과 견고성을 향상시킬 수 있습니다. 즉, FFSM 모듈의 도입은 직접적인 특징 융합 문제를 효과적으로 해결하고 RGB-T 단일 대상 추적 네트워크의 성능을 향상시킵니다. 이 방법은 배경 잡음이 많은 환경에서 널리 사용될 수 있습니다

Transformer 기반의 효율적인 단일 스테이지 단기 RGB-T 단일 표적 추적 방법 — 그림 1

이 기사에서는 효율적인 단일 단계 RGB-T 단일 대상 추적 네트워크 USTrack을 소개합니다. 변신 로봇. 핵심은 결합 특징 추출, 융합 및 상관 모델링 방법을 통해 동시 실행을 위해 3단계 융합 추적 방법의 세 가지 기능 부분을 ViT 백본 네트워크로 직접 통합하여 모달 상호 작용 하에서 대상 템플릿을 직접 추출하고 검색하는 것을 달성하는 것입니다. 영역의 융합 특징을 생성하고 두 융합 특징 간의 연관 모델링을 구성하여 추적 속도와 정확도를 크게 향상시킵니다. 또한 USTrack은 모달 신뢰성을 기반으로 한 특징 선택 메커니즘도 설계했습니다. 이는 잘못된 모드의 생성을 직접 억제하여 잘못된 모드의 간섭을 줄여 노이즈 정보가 최종 추적 결과에 미치는 영향을 줄일 수 있습니다. 결국 USTrack은 84.2FPS로 현재 RGB-T 단일 타겟 추적에서 가장 빠른 속도를 구현했으며, 두 개의 모달 이미지에서 타겟의 위치 편차를 최소화하고 유효하지 않은 모달 정보가 추적에 미치는 영향을 완화하여 노이즈 정보를 크게 줄였습니다. 결과는 최종 예측 결과에 영향을 미칩니다.

이 기사의 기여는 다음과 같습니다.

현재 3단계 융합 추적 네트워크는 모달 특징 추출 단계에서 모달 상호 작용이 부족하다는 문제가 있습니다. 본 장에서는 결합특징 추출과 융합 및 상관관계 모델링 방법을 제안한다. 이 방법은 양상의 상호작용 하에서 대상 템플릿과 검색 영역의 융합 특징을 직접 추출하고 동시에 두 융합 특징 간의 상관관계 모델링 작업을 수행할 수 있습니다. 처음으로 단기 RGB-T 단일 표적 추적 네트워크 설계를 위해 효율적이고 간결한 단일 단계 융합 추적 패러다임이 제공됩니다.

원문의 의미를 바꾸지 말고 문장 구조를 조정하세요. "%EF%BC%882%EF%BC%89는 먼저 다양한 모달 이미지의 신뢰성을 평가할 수 있는 모달 신뢰성을 기반으로 한 특징 선택 메커니즘을 제안했습니다. 실제 추적 환경 속성에 대해 신뢰도를 기반으로 유효하지 않은 양식으로 생성된 융합 특징을 폐기하여 노이즈 정보가 최종 예측 결과에 미치는 영향을 줄여 추적 성능을 더욱 향상시킵니다."

이 기사에서는 세 가지 주류 RGB-T 싱글을 소개합니다. 대상 추적 벤치마크 데이터에 따르면 이 방법은 새로운 SoTA 성능을 달성할 뿐만 아니라 최대 84.2FPS의 가장 빠른 추적 속도를 생성합니다. 특히 VTUAV 단기 추적 데이터 세트 및 장기 추적 데이터 세트에서 USTrack은 MPR/MSR 지표에서 기존 최고의 방법보다 11.1%/11.7% 및 11.3%/9.7% 성능이 뛰어납니다.

방법

그림 3에 표시된 것처럼 USTrack의 전체 아키텍처는 이중 임베딩 레이어, ViT 백본 네트워크 및 모달 신뢰성을 기반으로 한 기능 선택 메커니즘의 세 부분으로 구성됩니다. 이중 임베디드 레이어는 두 개의 독립적인 임베디드 레이어로 구성됩니다. 이는 Attention 메커니즘이 유사성을 기반으로 전역 정보를 획득하며, 서로 다른 모달 데이터의 고유한 성능으로 인해 모델이 Attention을 통해 직접 매핑되는 경우 두 양식이 서로 다른 특징 표현을 갖게 될 수 있다는 점을 고려한 것입니다. 모달 상태 공유 정보를 모델링하는 네트워크의 능력은 후속 기능 융합 프로세스에 영향을 미칩니다. 따라서 USTrack은 두 개의 학습 가능한 임베딩 레이어를 사용하여 서로 다른 양식에 해당하는 입력을 융합에 도움이 되는 공간에 매핑하고, 두 양식을 어느 정도 정렬하고, 모달 내장 함수가 기능 융합에 미치는 영향을 줄입니다. 그런 다음 이중 임베딩 레이어의 모든 출력은 ViT 백본 네트워크의 입력으로 공동으로 사용되며 Attention 레이어를 직접 통과합니다. Attention을 통해 모달 정보, 기능 융합 및 대상 템플릿 융합을 융합하고 RGB-T 추적의 세 가지 기능 단계를 통합하며 RGB-T 추적을 위한 효율적인 단일 단계 추적 패러다임을 제공합니다.

패턴 신뢰성을 기반으로 한 특징 선택 메커니즘은 예측 헤드와 두 개의 신뢰성 평가 모듈입니다. 이를 통해 두 개의 예측 헤드가 서로 다른 결과를 출력할 수 있으며, 패턴 신뢰도 점수를 기반으로 네트워크가 현재 추적 시나리오에 더 적합한 패턴에 해당하는 검색 영역을 선택하는 데 도움이 됩니다. 특징 선택 메커니즘은 최종 예측에 유효하지 않은 패턴으로 인해 생성된 노이즈 정보가 최종 예측 결과에 미치는 영향을 줄이기 위해 사용될 수 있습니다.

실험 결과

USTrack은 테스트 벤치마크로 GTOT, RGB234 및 VTUAV 데이터 세트를 선택했으며 테스트 결과는 그림 4에 나와 있습니다. 또한 VTUAV를 벤치마크로 사용하여 다양한 챌린지 시나리오에서 USTrack의 성능을 분석했습니다. 그림 5에 표시된 것처럼 이 기사에서는 가장 확실한 성능 개선이 가능한 6가지 까다로운 특성을 선별했습니다. 여기에는 변형(DEF), 스케일 변경(SV), 완전 폐색(FO), 부분 폐색(PO), 열 교차(TC) 및 극한 조명(EI)이 있습니다. 특히 변형(DEF) 및 스케일 변경(SV) 챌린지 속성은 추적 프로세스 중 대상의 모양 차이를 효과적으로 보여줄 수 있습니다. 완전 폐색(FO), 부분 폐색(PO), 열 교차(TC) 및 극한 조명(EI) 챌린지 속성은 해당 모달 상태의 모양을 변경하거나 사라지게 하여 다양한 챌린지 시나리오에서 대상의 역학을 효과적으로 보여줄 수 있습니다. 관계. USTrack은 이러한 도전적인 속성을 가진 추적 시나리오에서 가장 중요한 성능 향상을 달성했으며, 공동 특징 추출 및 융합 및 상관 모델링 접근 방식이 세 가지 단계의 추출 단계에서 모달 특징의 상호 작용 부족 문제를 효과적으로 완화할 수 있다고 평가할 수 있습니다. 스테이지 융합 추적 패러다임은 추적 중에 대상의 다양한 모양과 양식 간의 동적 관계에 더 잘 적응할 수 있습니다.

그림 6과 에서와 같이 모달 신뢰도 기반 특징 선택 메커니즘의 유효성을 검증하기 위해 이중 예측 간의 비교 실험으로 모델을 확장했습니다. 특징 선택 메커니즘의 헤드 구조와 몇 가지 일반적인 예측 헤드 구조가 수행되고, 모달 신뢰도와 실제 추적 장면 사이의 좋은 일치에 대한 시각적 결과가 제공됩니다.

Summary

이 장에서는 Transformer 기반의 효율적인 단일 스테이지 단기 RGB-T 단일 표적 추적 네트워크 USTrack을 제안합니다. USTrack의 핵심은 전통적인 3단계 융합 추적 네트워크의 특징 추출 단계에서 모달 상호 작용 부족 문제를 해결하기 위한 결합 특징 추출 및 융합 및 상관 모델링 방법을 제안하는 것입니다. 이를 통해 다양한 대상 바이모달 모양에 대한 추적 네트워크의 적응성과 모달 모양 간의 동적 대응이 향상됩니다. 이를 바탕으로 모달 신뢰도 기반의 특징 선택 메커니즘이 추가로 제안됩니다. 이 메커니즘은 유효하지 않은 모드로 인해 생성된 융합 특징을 직접 폐기함으로써 최종 예측 결과에 대한 노이즈 정보의 영향을 줄여 더 나은 추적 성능을 달성합니다. USTrack은 세 가지 주류 데이터세트에서 SoTA 성능을 달성하고 84.2FPS로 가장 빠른 RGB-T 추적 추론 속도에 대한 신기록을 세웠습니다. 현재 최대 규모의 RGB-T 단일 표적 추적 벤치마크 데이터 세트 VTUAV에서 이 방법은 기존 SoTA 방법에 비해 평가 지표 MPR/MSR을 각각 11.1%/11.7% 및 11.3%/9.7% 증가시킨다는 점에 주목할 필요가 있습니다. 이 벤치마크 데이터 세트에 새롭고 강력한 기준 방법을 추가하여 획기적인 성능 혁신을 달성했습니다.

저자 정보

1. Xia Jianqiang

군사과학원 국방과학기술혁신연구소 석사과정 학생입니다. 연구 관심 분야는 시각 이미지 처리, 표적 탐지, 단일 표적 추적 등입니다. 첫 번째 저자는 CCF Class A 컨퍼런스에서 논문을 발표했으며 2022년 '화웨이 컵' 제4회 중국 대학원 인공지능 혁신 대회에서 화웨이가 1위를 차지했습니다.

2. Zhao Jian

Zhao Jian, China Telecom 인공 지능 연구소의 멀티미디어 인지 학습 연구소(EVOL Lab) 소장, 젊은 과학자이자 Northwestern Polytechnical University의 광전자 공학 및 지능 연구소의 연구원 싱가포르 국립대학교에서 박사 학위를 취득했으며 연구 관심분야는 멀티미디어 분석, 로컬 보안 및 구체화된 지능입니다.

비제약적 시지각 이해에 관한 CCF-A 논문 총 32편이 게재되었으며, 저자 T-PAMI× 1명을 포함해 T-PAMI, CVPR 등 권위 있는 국제 저널 및 학회에 제1저자/교신저자로 게재된 논문이 31편입니다. 2 ( IF: 24.314), IJCV×3 (IF: 13.369)이며, 최초 발명자는 5개의 국가발명특허를 승인하였습니다. Baidu, Ant Financial, Qihoo 360 등 기술 업계의 6개 주요 기업이 관련 기술 성과를 적용하여 상당한 이점을 창출했습니다. 그는 중국 과학 기술 협회 및 베이징 과학 기술 협회의 "젊은 인재 육성 프로젝트"에 선정되었으며 국가 자연 청소년 과학 기금을 포함한 6개의 프로젝트를 주최했습니다. Wu Wenjun 인공지능 우수 청년상(2023), Wu Wenjun 인공지능 자연과학상 1위(2022.2/5), 싱가포르 패턴 인식 및 기계 지능 협회(PREMIA) Lee Hwee Kuan 상을 수상했으며, ACM 멀티미디어 논문상(첫 번째 작품, 1/208, CCF-A 컨퍼런스, 2018)의 유일한 우수 학생으로 중요한 국제 과학 및 기술 행사에서 7회 우승했습니다.

Beijing Image and Graphics Society의 이사, 국제적으로 유명한 저널 "Artificial Intelligence Advances" 및 "IET Computer Vision"의 편집위원, "Pattern Recognition Letters" 및 "Electronics" 특집호의 객원 편집자 역임 ", VALSE 수석 현장 회장 및 ACM 멀티미디어 2021 득점자. 포럼 회장, CICAI 2022/2023 지역 회장, CCBR 2024 포럼 회장, 중국 인공 지능 학회/중국 이미지 및 그래픽 학회 선임 회원, "챌린지 심사위원" 컵' 대학생 과학기술작품경진대회, 중국 인공지능경진대회 전문위원회 위원 등

홈페이지: https://zhaoj9014.github.io

종이 스크린샷