Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer-IA-php.cn

Introduction

Comme le montre la figure 1, le réseau de suivi de cible unique RGB-T à trois étages existant utilise généralement deux branches d'extraction de caractéristiques indépendantes, qui sont respectivement responsables de l'extraction des caractéristiques des deux modalités. Cependant, les branches d’extraction de caractéristiques mutuellement indépendantes entraîneront un manque d’interaction d’informations efficace entre les deux modalités lors de l’étape d’extraction de caractéristiques. Par conséquent, une fois que le réseau a terminé la formation hors ligne, il ne peut extraire que des fonctionnalités fixes de chaque image modale et ne peut pas s'ajuster dynamiquement en fonction de l'état modal réel pour extraire des fonctionnalités dynamiques plus ciblées. Cette limitation restreint la capacité du réseau à s'adapter à diverses apparences bimodales cibles et à la correspondance dynamique entre les apparences modales. Comme le montre la figure 2, cette méthode d'extraction de caractéristiques n'est pas adaptée aux scénarios d'application pratiques du suivi de cible unique RVB-T, en particulier dans des environnements complexes, car le caractère arbitraire de la cible suivie conduira à diverses apparences bimodales de la cible, et la dynamique. La relation entre les deux modalités change également à mesure que l'environnement de suivi change. Le suivi de fusion en trois étapes ne peut pas bien s'adapter à cette situation, ce qui entraîne un goulot d'étranglement évident en termes de vitesse.

À l'exception du réseau de suivi de cible unique RGB-T basé sur Transformer, il utilise l'addition directe ou la cascade pour combiner les fonctionnalités des deux zones de recherche modales et saisir la tête de prédiction pour produire le résultat de prédiction final. Cependant, les images vidéo fournies par l'ensemble de données de suivi de cible unique RVB-T actuel ne sont pas complètement alignées, et toutes les zones de recherche modale ne peuvent pas fournir des informations efficaces, comme la zone de recherche modale RVB dans la nuit noire et les scénarios de suivi croisé chaud. Et la zone de recherche extérieure infrarouge ne sera pas en mesure de fournir des informations efficaces sur l'apparence de la cible, et il y aura beaucoup de bruit de fond. Par conséquent, la fusion de fonctionnalités directement par ajout ou cascade élément par élément ne prend pas en compte le problème de la fusion de fonctionnalités dans différentes zones de recherche. Pour résoudre ce problème, cet article propose une nouvelle méthode appelée Fusion Feature Selection Module (FFSM). Le module FFSM est principalement utilisé pour sélectionner les caractéristiques de la zone de recherche de l'apparence de la cible avec des informations efficaces. Plus précisément, le module FFSM apprend d'abord le poids de chaque fonctionnalité de zone de recherche via le mécanisme d'attention. Ensuite, les caractéristiques de la zone de recherche sont pondérées et additionnées en fonction de ces poids pour obtenir les caractéristiques de fusion finales. Ce mécanisme peut filtrer efficacement le bruit de fond non valide et extraire les informations sur l'apparence de la cible avec une plus grande importance, améliorant ainsi les performances de suivi d'une cible unique RVB-T. Afin de vérifier l'efficacité du module FFSM, nous avons mené des expériences en présence d'une grande quantité de bruit de fond. Les résultats expérimentaux montrent que le réseau de suivi de cible unique RGB-T utilisant le module FFSM atteint de meilleures performances en matière de suivi de cible par rapport à l'ajout direct par élément ou à la cascade. Dans les scénarios de nuit noire et de suivi croisé chaud, le module FFSM peut sélectionner avec précision les informations efficaces sur l'apparence de la cible, améliorant ainsi la précision et la robustesse du suivi de la cible. En bref, l'introduction du module FFSM résout efficacement le problème de la fusion directe des fonctionnalités et améliore les performances du réseau de suivi de cible unique RGB-T. Cette méthode peut être largement utilisée en présence d'une grande quantité de bruit de fond. Transformateur. Son cœur est d'unifier directement les trois parties fonctionnelles de la méthode de suivi de fusion en trois étapes dans un réseau fédérateur ViT pour une exécution simultanée grâce à des méthodes conjointes d'extraction de caractéristiques, de fusion et de modélisation de corrélation, réalisant ainsi une extraction directe de modèles cibles et une recherche sous interaction modale. Les caractéristiques de fusion de la région et construisent la modélisation d'association entre les deux caractéristiques de fusion, améliorant ainsi considérablement la vitesse et la précision du suivi. En outre, USTrack a également conçu un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale, qui peut réduire l'interférence des modes non valides en supprimant directement la génération de modes non valides, réduisant ainsi l'impact des informations de bruit sur les résultats de suivi finaux. En fin de compte, USTrack a créé la vitesse la plus rapide du suivi de cible unique RGB-T actuel à 84,2 FPS, et a considérablement réduit les informations de bruit en minimisant l'écart de position de la cible dans les deux images modales et en atténuant l'impact des informations modales non valides sur les résultats de suivi. impact sur les résultats finaux prévisionnels.