基於Transformer的高效單階段短時RGB-T單目標追蹤方法-人工智慧-PHP中文網

引言

如圖1所示，現有的三階段RGB-T單目標追蹤網路通常採用兩個獨立的特徵提取分支，分別負責提取兩個模態的特徵。然而，相互獨立的特徵提取分支會導致兩個模態在特徵提取階段存在缺乏有效的資訊交互作用。因此，一旦網路完成離線訓練，其只能從每個模態影像中提取固定的特徵，無法根據實際的模態狀態動態調整，以提取更具針對性的動態特徵。這個限制約束了網絡對多樣的目標雙模態外觀，以及模態外觀之間動態對應關係的適應能力。如圖2所示，這種特徵提取方式並不適合RGB-T單目標追蹤的實際應用場景，特別是在複雜環境下，因為被追蹤目標的任意性會導致的目標雙模態外觀多樣，並且兩個模態之間的動態關係也會隨著追蹤環境的變化而改變。三階段融合追蹤無法很好地適應這種情況，從而導致其有明顯的速度瓶頸。

除了基於Transformer的RGB-T單目標追蹤網路都是採用直接相加或級聯的方式，將兩個模態搜尋區域的特徵組合在一起，輸入預測頭，用於輸出最終的預測結果。然而，目前RGB-T單目標追蹤資料集提供的視訊影像並不是完全對齊的，而且也不是每個模態搜尋區域都可以提供有效信息，例如黑夜和熱交叉追蹤場景下，RGB模態搜尋區域和紅外線搜索區域將無法提供有效的目標外觀訊息，存在大量的背景噪音。因此，直接透過以元素相加或級聯的方式來融合特徵，沒有考慮到不同搜尋區域融合特徵的問題。為了解決這個問題，本文提出了一種新的方法，稱為融合特徵選擇模組（FFSM）。 FFSM模組主要用於選擇具有有效資訊的目標外觀的搜尋區域特徵。具體來說，FFSM模組首先透過注意力機制學習每個搜尋區域特徵的權重。然後，根據這些權重對搜尋區域特徵進行加權求和，得到最終的融合特徵。這種機制可以有效地過濾掉無效的背景噪音，並提取出具有較高重要性的目標外觀訊息，從而改善了RGB-T單目標追蹤效能。為了驗證FFSM模組的有效性，我們在大量的背景噪音存在的情況下進行了實驗。實驗結果表明，與直接按元素相加或級聯的方式相比，使用FFSM模組的RGB-T單目標追蹤網路在目標追蹤中取得了更好的效能。在黑夜和熱交叉追蹤場景下，FFSM模組能夠準確地選擇有效的目標外觀訊息，提高了目標追蹤的準確性和穩健性。總之，FFSM模組的引入有效地解決了直接融合特徵的問題，提高了RGB-T單目標追蹤網路的效能。此方法可以廣泛應用於大量背景雜訊存在

####################################本文介紹了一種基於Transformer的高效單階段RGB-T單目標追蹤網路USTrack。其核心是透過聯合特徵提取、融合和關聯建模方法，將三階段融合追蹤方法的三個功能部分直接統一到一個ViT主幹網路中同時執行，從而實現在模態交互下直接提取目標模板和搜索區域的融合特徵，並建構兩個融合特徵之間的關聯建模，從而大大提升了追蹤速度和精度。此外，USTrack還設計了一個基於模態可靠性的特徵選擇機制，該機制透過直接抑制無效模態的產生，可以減少無效模態的干擾，從而減少雜訊訊息對最終追蹤結果的影響。最終，USTrack創造了當前RGB-T單目標追蹤中最快的速度84.2FPS，並透過兩個模態影像中目標的微小位置偏差以及減輕無效模態訊息對追蹤結果的影響，大大減少了雜訊訊息對最終預測結果的影響。 ######本文的貢獻如下：######目前三階段融合追蹤網路在模態特徵提取階段存在缺乏模態交互作用的問題。本章提出聯合特徵提取 & 融合 & 關聯建模方法。此方法可以在模態的交互下直接提取目標模板和搜尋區域的融合特徵，並同時執行兩個融合特徵之間的關聯建模操作。首次為短時RGB-T單目標追蹤網路的設計提供了一個高效且簡潔的單階段融合追蹤範式。 ###

不改變原文意思，調整句子結構，「（2）首次提出基於模態可靠性的特徵選擇機制，該機制可以根據實際追蹤環境來評估不同模態影像的可靠性，並根據可靠性來丟棄無效模態產生的融合特徵，減少雜訊資訊對最終預測結果的影響，從而進一步提高追蹤效能。大量實驗，顯示本文的方法在實現了新的SoTA 效能的同時，也創造了高達84.2FPS 的最快追蹤速度。特別是在 VTUAV 短時追蹤器資料集和長時追蹤資料集上，USTrack 在 MPR/MSR 指標上比現有性能最好的方法提高了 11.1%/11.7% 和 11.3%/9.7%。

方法

如圖 3 所示，USTrack 的整體架構由三個部分組成：雙嵌入層、ViT 主幹網路和基於模態可靠性的特徵選擇機制。雙嵌入層由兩個獨立的嵌入層組成。這是考慮到注意力機制是基於相似度去獲取全局信息的，並不同模態數據的內在性能，可能會導致兩個模態對同一模式有不同的特徵表示形式，如果直接通過注意力對模態資訊進行融合，這種異質性可能會限製網路對模態狀態共享資訊的建模能力，進而影響後續的特徵融合過程。因此，USTrack 使用兩個可學習的嵌入層將不同模態對應的輸入映射到一個有利於融合的空間，在一定程度上對兩個模態進行模式對齊，降低模態內在性對特徵融合的影響。然後，將雙嵌入層的所有輸出聯合作為 ViT 主幹網路的輸入，透過注意力層直接通過度專注於對模態訊息進行融合，特徵融合以及目標模板融合，統一 RGB-T 追蹤的三個功能階段，為 RGB-T 追蹤提供一個高效的單階段追蹤範式。

基於模式可靠性的特徵選擇機制是一個預測頭和兩個可靠性評估模組。它允許兩個預測頭輸出不同的結果，並根據模式可靠性的得分，幫助網路選擇更適合當前追蹤場景的模式所對應的搜尋區域。特徵選擇機制可用於最終的預測，從而減少無效模式產生的噪音資訊對最終預測結果的影響。

USTrack選擇GTOT、RGB234以及VTUAV資料集作為測試基準，測試結果如圖4所示。我們也以VTUAV為基準，對USTrack在不同挑戰場景下的表現進行分析。如圖5所示，本文篩選了效能提升最為明顯的6個挑戰屬性。分別為：形變（DEF）、尺度變化（SV）、完全遮蔽（FO）、部分遮蔽（PO）、熱交叉（TC）以及極端光照（EI）。具體來說，形變（DEF）和尺度變化（SV）挑戰屬性可以有效地展示了目標在追蹤過程中不同外觀的差異。完全遮蔽（FO）、部分遮蔽（PO）、熱交叉（TC）和極端光照（EI）挑戰屬性可以導致相應模態狀態的外觀變化或消失，有效地展示了目標在不同挑戰場景中的動態關係。 USTrack 在具有這些挑戰屬性的追蹤場景下取得了最顯著的效能提升，可以評估聯合特徵提取& 融合& 關聯建模方法可有效緩解三階段融合追蹤範式中模態特徵在提取階段交互不足的問題，能夠更好地適應目標在追蹤過程中不同外觀和模態之間的動態關係。

#總結

本章提出了一個基於Transformer的高效單階段短時RGB-T 單目標追蹤網USTrack。 USTrack 的核心是提出聯合特徵提取 & 融合 & 關聯建模方法，以解決傳統三階段融合追蹤網路在特徵提取階段缺乏模態互動的問題。從而增強追蹤網絡了對多樣的目標雙模態外觀和模態外觀之間動態對應關係的適應能力。在此基礎上，進一步提出了基於模態可靠性的特徵選擇機制。該機制透過直接摒棄無效模態產生的融合特徵，來減少了噪音資訊對最終預測結果的影響，從而獲得更好的追蹤性能。 USTrack 在三個主流資料集上實現了 SoTA 效能，並以 84.2 FPS 的速度創造了最快 RGB-T 追蹤推理速度的新記錄。值得注意的是，在目前規模最大的RGB-T 單目標追蹤基準資料集VTUAV 上，該方法比現有SoTA 方法在評估指標MPR/MSR 上分別增加了11.1%/11.7% 和11.3%/9.7% ，取得了較大的效能突破，為該基準資料集增添了一個新的功能強大的基線方法。

作者資訊

1. 夏強

軍事科學院國防科技創新研究院碩士研究生。研究興趣包括視覺影像處理、目標偵測、單目標追蹤等。第一作者發表CCF A類會議一篇，獲2022年「華為盃」第四屆中國研究生人工智慧創新大賽華為專案一等獎。

2. 趙健

趙健，中國電信人工智慧研究院多媒體認知學習實驗室（EVOL Lab）負責人、青年科學家，西北工業大學光電與智慧研究院研究員，博士畢業於新加坡國立大學，研究興趣包括多媒體分析、臨地安防、具身智能。

圍繞無約束視覺感知理解共發表CCF-A類論文32篇，以第一/通訊作者在T-PAMI、CVPR等國際權威期刊和會議上發表論文31篇，含一作T- PAMI×2（IF: 24.314）、IJCV×3（IF: 13.369），第一發明人授權國家發明專利5項。相關技術成果在百度、螞蟻金服、奇虎360等6個科技業領導者中得到應用，產生了顯著效益。曾入選中科協及北京市科協“青年人才托舉工程”，並主持國自然青年科學基金等項目6項。曾獲吳文俊人工智慧優秀青年獎（2023）、吳文俊人工智慧自然科學獎一等獎（2/5，2022）、新加坡模式識別與機器智慧協會（PREMIA）Lee Hwee Kuan獎、ACM Multimedia唯一最佳學生論文獎（一作，1/208，CCF-A類會議，2018），7次在國際重要科技賽事中奪冠。

擔任北京圖象圖形學會理事，國際知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》編委，《Pattern Recognition Letters》、《Electronics》特刊客座編輯，VALSE資深領域主席， ACM Multimedia 2021分論壇主席，CICAI 2022/2023領域主席，CCBR 2024論壇主席，中國人工智慧學會/中國圖象圖形學會高級會員，「挑戰盃」大學生科技作品競賽評審，中國人工智慧大賽專家委委員等。

首頁：https://zhaoj9014.github.io

論文截圖