Comment combiner un radar d'imagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse !-IA-php.cn

Bonjour à tous, merci beaucoup pour l'invitation du Cœur de la Conduite Autonome. J'ai l'honneur de partager notre travail avec vous ici

Technologie de suivi multi-objets (MOT) 3D en ligne dans les systèmes avancés d'aide à la conduite (ADAS) et autonomes. La conduite automobile (AD) a une valeur d'application importante. Ces dernières années, alors que la demande de l'industrie en matière de perception tridimensionnelle haute performance continue de croître, les algorithmes MOT 3D en ligne ont fait l'objet de recherches et d'une attention de plus en plus répandues. Pour les radars à ondes millimétriques 4D (également appelés radar d'imagerie 4D) ou les données de nuages de points lidar, la plupart des algorithmes MOT 3D en ligne actuellement utilisés dans les domaines ADAS et AD adoptent le cadre de suivi de cible ponctuelle (TBD-POT) basé sur le post- stratégie de suivi de détection. Cependant, le suivi étendu des objets basé sur une stratégie conjointe de détection et de suivi (JDT-EOT), en tant qu'autre cadre MOT important, n'a pas été entièrement étudié dans les domaines ADAS et AD. Cet article discute et analyse pour la première fois systématiquement les performances de TBD-POT, JDT-EOT et de notre cadre TBD-EOT proposé dans un véritable scénario d'application MOT 3D en ligne. En particulier, cet article évalue et compare les performances des implémentations SOTA des trois frameworks sur les données de nuages de points radar d'imagerie 4D des ensembles de données View-of-Delft (VoD) et TJ4DRadSet. Les résultats expérimentaux montrent que le cadre TBD-POT traditionnel présente les avantages d'une faible complexité de calcul et de performances de suivi élevées, et peut toujours être utilisé comme premier choix dans les tâches MOT 3D en même temps, le cadre TBD-EOT proposé dans cet article ; a la capacité de surpasser TBD-EOT dans des scénarios spécifiques. Le potentiel du framework POT. Il convient de noter que le cadre JDT-EOT, qui a récemment attiré l'attention des universitaires, a de mauvaises performances dans les scénarios ADAS et AD. Cet article analyse les résultats expérimentaux ci-dessus sur la base d'une variété d'indicateurs d'évaluation des performances et propose des solutions possibles pour améliorer les performances de suivi des algorithmes dans des scénarios d'application réels. Pour l'algorithme MOT 3D en ligne basé sur un radar d'imagerie 4D, la recherche ci-dessus fournit le premier test de référence de performance dans le domaine de l'ADAS et de l'AD, et fournit des perspectives et des suggestions importantes pour la conception et l'application de tels algorithmes

1 Introduction

. Le suivi multi-objets (MOT) 3D en ligne est un élément important des systèmes avancés d'aide à la conduite (ADAS) et de la conduite autonome (AD). Ces dernières années, avec le développement de la technologie des capteurs et du traitement du signal, la technologie MOT 3D en ligne basée sur divers types de capteurs tels que les caméras, le lidar et le radar a reçu une large attention. Parmi les différents capteurs, le radar, en tant que seul capteur peu coûteux capable de fonctionner dans des conditions d'éclairage extrêmes et de conditions météorologiques extrêmes, a été largement utilisé dans des tâches de détection telles que la segmentation d'instances, la détection de cibles et le MOT. Cependant, bien que les radars automobiles traditionnels puissent distinguer efficacement les cibles en termes de portée et de vitesse Doppler, la faible résolution angulaire des mesures radar limite toujours les performances des algorithmes de détection de cibles et de suivi multi-cibles. Différent des radars automobiles traditionnels, le radar d'imagerie 4D récemment apparu, basé sur la technologie MIMO, peut mesurer les informations sur la distance, la vitesse, l'azimut et l'angle de tangage de la cible, offrant ainsi de nouvelles possibilités de développement pour le MOT 3D basé sur le radar.

Le paradigme de conception de l'algorithme 3D MOT peut être divisé en deux catégories : basé sur un modèle et basé sur l'apprentissage profond. Le paradigme de conception basée sur des modèles utilise des modèles dynamiques multi-objectifs et des modèles de mesure soigneusement conçus, adaptés au développement de méthodes MOT 3D efficaces et fiables. Parmi les cadres MOT typiques basés sur un modèle, le cadre de suivi de cible ponctuelle utilisant une stratégie de détection-post-suivi a été largement accepté par le monde universitaire et l'industrie. Le cadre de suivi de cible ponctuelle suppose que chaque cible génère un seul point de mesure dans un seul balayage de capteur. Cependant, pour le radar d'imagerie lidar et 4D, une cible génère souvent plusieurs points de mesure dans un seul balayage. Par conséquent, avant d'effectuer un suivi de cible, plusieurs mesures provenant de la même cible doivent d'abord être traitées en un résultat de détection, tel qu'une trame de détection de cible, via un détecteur de cible. L'efficacité du cadre de suivi post-détection a été vérifiée dans de nombreuses tâches MOT 3D basées sur des données réelles de nuages de points lidar

Suivi de cible étendu (EOT) utilisant la stratégie conjointe de détection et de suivi (JDT) comme autre cadre MOT basé sur un modèle, a récemment reçu une large attention dans le monde universitaire. Contrairement à POT, EOT suppose qu'une cible peut produire plusieurs mesures en un seul balayage de capteur, donc aucun module de détection de cible supplémentaire n'est requis lors de la mise en œuvre de JDT. Des études pertinentes ont souligné que le JDT-EOT peut atteindre de bonnes performances lors du suivi d'une seule cible sur de vrais nuages de points lidar et des données de points de détection radar automobile. Cependant, pour les tâches MOT 3D en ligne dans des scénarios ADAS et AD complexes, il existe peu d'études qui utilisent des données réelles pour évaluer l'EOT, et ces études n'évaluent pas en détail les performances MOT du cadre EOT pour différents types de cibles sur ADAS/AD. ensembles de données, et il n’y a pas d’analyse systématique des résultats expérimentaux à l’aide d’indicateurs de performance largement acceptés. La recherche présentée dans cet article tente de répondre pour la première fois à cette question ouverte grâce à une évaluation et une analyse complètes : si le cadre EOT peut être appliqué dans des scénarios ADAS et AD complexes et obtenir de meilleures performances de suivi et une meilleure efficacité informatique que le cadre TBD-POT traditionnel. Les principales contributions de cet article incluent principalement :

En comparant les frameworks POT et EOT, cet article fournit le premier benchmark de performances pour les recherches futures sur les méthodes MOT 3D en ligne basées sur un radar d'imagerie 4D dans les domaines de l'ADAS et de l'AD. L'évaluation et l'analyse des performances présentées dans cet article démontrent les avantages et les inconvénients respectifs des frameworks POT et EOT, et fournissent des conseils et des suggestions pour la conception d'algorithmes MOT 3D en ligne.
Afin de combler le fossé entre la théorie et la pratique de la méthode MOT 3D en ligne basée sur l'EOT, cet article mène pour la première fois une étude systématique du cadre EOT dans des scénarios ADAS et AD réels. Bien que le cadre JDT-EOT, qui a été largement étudié dans le monde universitaire, fonctionne mal, le cadre TBD-EOT proposé dans cet article tire parti des avantages des détecteurs d'objets d'apprentissage profond, obtenant ainsi de meilleures performances de suivi et de calcul que le JDT-EOT. cadre.
Les résultats expérimentaux montrent que le cadre TBD-POT traditionnel reste le choix préféré dans les tâches MOT 3D en ligne basées sur un radar d'imagerie 4D en raison de ses performances de suivi élevées et de son efficacité informatique. Cependant, les performances du framework TBD-EOT sont meilleures que celles du framework TBD-POT dans certaines situations, démontrant le potentiel d'utilisation du framework EOT dans des applications ADAS et AD réelles.

2. Méthode

Cette section présente trois cadres d'algorithmes pour la MOT 3D en ligne sur des données de nuages de points radar d'imagerie 4D, notamment TBD-POT, JDT-EOT et TBD-EOT, comme le montre la figure suivante :

Comment combiner un radar dimagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse !

Contenu réécrit : A. Cadre 1 : Suivi de cible ponctuelle à l'aide d'une stratégie de suivi post-détection (à déterminer - suivi de cible ponctuelle)

Le cadre TBD-POT a été largement utilisé dans la recherche MOT sur la base de l'acceptation de divers capteurs. Dans ce cadre de suivi, le nuage de points radar d'imagerie 4D est d'abord traité par le détecteur de cible pour générer une image de détection 3D, fournissant des informations telles que l'emplacement de la cible, la taille de l'image de détection, l'orientation, la catégorie de cible, le score de détection et d'autres informations. Afin de simplifier le calcul, l'algorithme POT sélectionne généralement la position cible bidimensionnelle dans le système de coordonnées cartésiennes comme mesure et effectue le MOT sous la vue à vol d'oiseau (BEV). La position cible estimée est ensuite combinée avec d'autres informations du cadre de détection 3D pour obtenir le résultat final de suivi 3D. Le cadre TBD-POT présente deux avantages principaux : 1) l'algorithme POT peut utiliser des informations supplémentaires telles que le type de cible et le score de détection pour améliorer les performances de suivi ; 2) l'algorithme POT est généralement moins complexe en termes de calcul que l'algorithme EOT ;

Nous choisissons le filtre multi-Bernoulli de Poisson du voisin le plus proche (GNN-PMB) comme algorithme POT, qui atteint les performances SOTA dans les tâches MOT 3D en ligne basées sur le lidar. GNN-PMB estime les états multi-cibles en propageant les densités PMB, où les cibles non détectées sont modélisées par des processus de points de Poisson (PPP) et les cibles détectées sont modélisées par des densités Multi-Bernoulli (MB). L'association des données est réalisée en gérant des hypothèses locales et globales. A chaque instant, une mesure peut être associée à une cible déjà suivie, à une cible nouvellement détectée ou à une fausse alarme, formant différentes hypothèses locales. Les hypothèses locales compatibles sont intégrées dans une hypothèse globale qui décrit la relation entre toutes les cibles et mesures actuelles. Contrairement au filtre Poisson Multi-Bernoulli Mixture (PMBM), qui calcule et propage plusieurs hypothèses globales, GNN-PMB propage uniquement l'hypothèse globale optimale, réduisant ainsi la complexité des calculs. En résumé, le premier framework MOT 3D en ligne étudié dans cet article combine un détecteur de cible basé sur l'apprentissage profond avec l'algorithme GNN-PMB

B Framework 2 : suivi de cible étendu utilisant une stratégie conjointe de détection et de suivi (JDT-EOT).

Différent du premier framework TBD-POT, le framework JDT-EOT est capable de traiter directement les nuages de points radar d'imagerie 4D en détectant et en suivant plusieurs cibles simultanément. Tout d’abord, le nuage de points est regroupé pour former d’éventuelles divisions de mesure (groupes de points), puis l’algorithme EOT utilise ces groupes de points pour effectuer un MOT 3D. Théoriquement, étant donné que les nuages de points contiennent des informations plus riches que les images de détection 3D prétraitées, ce cadre peut estimer avec plus de précision les positions et les formes des cibles et réduire les erreurs de cible. Cependant, pour les nuages de points radar d’imagerie 4D qui contiennent une grande quantité de parasites, il est difficile de générer des divisions de mesure précises. Étant donné que la distribution spatiale des nuages de points de différentes cibles peut également être différente, le cadre JDT-EOT utilise généralement plusieurs algorithmes de clustering tels que DBSCAN et k-means combinés avec différents paramètres pour générer autant de divisions de mesure possibles que possible. Cela augmente encore la complexité de calcul de l'EOT et affecte les performances en temps réel de ce cadre.

Cet article choisit le filtre PMBM basé sur la distribution Gamma Gaussian Inverse Wishart (GGIW) pour implémenter le framework JDT-EOT. Le filtre GGIW-PMBM est l'un des algorithmes EOT avec une précision d'estimation SOTA et une complexité de calcul. Le filtre PMBM a été choisi car l'algorithme utilise la densité du mélange multi-Bernoulli (MBM) pour modéliser la cible et propage plusieurs hypothèses globales, qui peuvent mieux faire face à la grande incertitude des mesures radar. Le modèle GGIW suppose que le nombre de points de mesure générés par une cible obéit à la distribution de Poisson et qu'une seule mesure obéit à la distribution gaussienne. Dans cette hypothèse, la forme de chaque cible est une ellipse, décrite par la densité Wishart (IW) inverse, et les axes majeur et mineur de l'ellipse peuvent être utilisés pour former le cadre extérieur rectangulaire de la cible. Cette modélisation de forme est relativement simple, adaptée à de nombreux types de cibles et présente la complexité de calcul la plus faible parmi les implémentations d'algorithmes EOT existantes.

C. Framework 3 : Suivi étendu des objets (TBD-EOT) utilisant une stratégie de suivi post-détection

Afin de profiter du détecteur d'objets de deep learning sous le framework EOT, nous proposons un troisième framework MOT : TBD-EOT. Différent du framework JDT-EOT qui regroupe des nuages de points complets, le framework TBD-EOT sélectionne d'abord les points de mesure radar valides à l'intérieur du cadre de détection 3D cible avant le regroupement. Ces points de mesure sont plus susceptibles de provenir d'objets réels. Par rapport à JDT-EOT, le framework TBD-EOT présente deux avantages. Premièrement, en supprimant les points de mesure pouvant provenir du fouillis, la complexité informatique de l’étape d’association de données dans l’algorithme EOT sera considérablement réduite, et le nombre de fausses détections pourra également être réduit. Deuxièmement, l'algorithme EOT peut utiliser les informations dérivées du détecteur pour améliorer encore les performances de suivi. Par exemple, définir différents paramètres de suivi pour différentes catégories de cibles, supprimer les trames de détection de cibles avec de faibles scores de détection, etc. Le framework TBD-EOT utilise le même détecteur de cible que TBD-POT lorsqu'il est déployé et utilise GGIW-PMBM comme filtre EOT.

3. Expérimentations et analyses

A. Ensembles de données et indicateurs d'évaluation

Cet article se trouve dans les séquences n°0, 8, 12 et 18 du jeu de données VoD et les séquences n°0, 10, 23, 31 et 41 du TJ4DRadSet Trois cadres MOT ont été évalués dans les catégories Voiture, Piéton et Cycliste. Les résultats de détection de cible entrés dans les cadres TBD-POT et TBD-EOT sont fournis par SMURF, qui est l'un des détecteurs de cibles SOTA sur les nuages de points radar d'imagerie 4D. Étant donné que JDT-EOT ne peut pas obtenir d'informations sur le type de cible, nous avons ajouté une étape de classification heuristique des cibles pour déterminer la catégorie en fonction de la forme et de la taille de la cible dans le processus d'extraction d'état de l'algorithme GGIW-PMBM.

L'évaluation ultérieure de cet article a sélectionné un ensemble d'indicateurs de performance MOT couramment utilisés, notamment MOTA, MOTP, TP, FN, FP et IDS. De plus, nous avons également appliqué un nouvel indicateur de performance MOT : la précision de suivi d'ordre élevé (HOTA). HOTA peut être décomposé en sous-indicateurs de précision de détection (DetA), de précision d'association (AssA) et de précision de positionnement (LocA), ce qui permet d'analyser plus clairement les performances du MOT.

Le contenu de la comparaison des performances du framework de suivi doit être réécrit

Sur l'ensemble de données VoD, un réglage des paramètres a été effectué pour les implémentations d'algorithmes des trois frameworks MOT SMURF + GNN-PMB, GGIW-PMBM et SMURF + GGIW -PMBM. Leurs performances sont présentées dans le tableau suivant :

Comment combiner un radar dimagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse !

Les performances de chaque algorithme sur l'ensemble de données TJ4DRadSet sont présentées dans le tableau suivant :

Comment combiner un radar dimagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse !

1) Performances de GGIW-PMBM

Les résultats expérimentaux montrent que GGIW-PMBM Les performances sont inférieures aux attentes. Étant donné que les résultats du suivi contiennent un grand nombre de FP et de FN, la précision de détection de GGIW-PMBM sur les trois catégories est faible. Afin d'analyser la cause de ce phénomène, nous avons calculé TP et FN à l'aide de résultats de suivi non classifiés, comme indiqué dans le tableau ci-dessous. On peut observer que le nombre de TP dans les trois catégories a considérablement augmenté, ce qui indique que GGIW-PMBM peut produire des résultats de suivi proches de la position réelle de la cible. Cependant, comme le montre la figure ci-dessous, la plupart des cibles estimées par GGIW-PMBM ont des longueurs et des largeurs similaires, ce qui empêche l'étape de classification heuristique des cibles de distinguer efficacement les types de cibles en fonction de la taille de la cible, ce qui affecte négativement les performances de suivi.

Comment combiner un radar dimagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse !

a analysé plus en détail la différence de performances de GGIW-PMBM sur les deux ensembles de données. Sur le jeu de données TJ4DRadSet, les métriques MOTA des piétons et cyclistes sont bien inférieures à celles du jeu de données VoD, ce qui indique que GGIW-PMBM génère plus de fausses trajectoires sur TJ4DRadSet. La raison de ce phénomène peut être que l'ensemble de données TJ4DRadSet contient davantage de mesures de fouillis provenant d'obstacles des deux côtés de la route, comme le montre la figure ci-dessous. Étant donné que la plupart des obstacles en bordure de route sont fixes, ce problème peut être amélioré en supprimant les points de mesure radar à faible vitesse radiale avant le regroupement. Étant donné que TJ4DRadSet n'a pas encore publié de données sur les mouvements des véhicules autonomes, cet article ne fournit pas de preuves expérimentales supplémentaires. Néanmoins, nous pouvons spéculer que des étapes de traitement similaires affecteront également le nuage de points radar des cibles stationnaires, augmentant ainsi la possibilité que ces cibles ne soient pas suivies correctement. Dans l'ensemble, GGIW-PMBM n'a pas réussi à fonctionner correctement en 4D réel. Les bonnes performances en matière d'imagerie des nuages de points radar sont que, sans informations supplémentaires fournies par le détecteur de cible, il est difficile pour l'algorithme de juger de la catégorie des résultats de suivi au moyen de méthodes heuristiques, ou de distinguer le nuage de points de la cible et du fouillis d'arrière-plan.

Comment combiner un radar dimagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse ! 2) Performances de SMURF + GNN-PMB et SMURF + GGIW-PMBM

SMURF+GNN-PMB et SMURF+GGIW-PMBM utilisent tous deux les informations des détecteurs d'objets. Les résultats expérimentaux montrent que les performances du premier dans la catégorie Voiture sont nettement meilleures que celles de la seconde, principalement parce que la seconde a une précision de positionnement plus faible pour les cibles Voiture. La principale raison de ce phénomène est l’erreur dans la modélisation de la distribution des nuages de points. Comme le montre la figure ci-dessous, pour les cibles de véhicules, le nuage de points radar a tendance à se regrouper du côté le plus proche du capteur radar. Ceci est incompatible avec l'hypothèse du modèle GGIW selon laquelle les points de mesure sont uniformément répartis sur la surface cible, ce qui fait que la position et la forme de la cible estimées par SMURF + GGIW-PMBM s'écartent des valeurs réelles. Par conséquent, lors du suivi de grandes cibles telles que des véhicules, l'utilisation de modèles de mesure de cibles plus précis, tels que les processus gaussiens, peut aider le cadre TBD-EOT à obtenir de meilleures performances, mais cela peut également augmenter la complexité de calcul de l'algorithme

Comment combiner un radar dimagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse !

Nous notons également que l'écart de performance entre SMURF + GGIW-PMBM et SMURF + GNN-PMB dans la catégorie Cycliste s'est rétréci, et l'indice HOTA du premier est encore meilleur que celui du second dans la catégorie Piéton. De plus, SMURF+GGIW-PMBM possède également moins d'IDS sur les catégories Piétons et Cyclistes. Les causes de ces phénomènes peuvent inclure : premièrement, GGIW-PMBM calcule de manière adaptative la probabilité de détection de la cible sur la base de la densité GGIW estimée ; deuxièmement, GGIW-PMBM prend en compte non seulement l'emplacement de la cible mais également la mesure de la cible lors du calcul de la probabilité de l'apparition de la cible ; hypothèse de corrélation. Le nombre et la répartition spatiale des points. Pour les petites cibles telles que les piétons et les cyclistes, les points radar sont répartis plus uniformément sur la surface de la cible et sont plus cohérents avec les hypothèses du modèle GGIW. Par conséquent, SMURF + GGIW-PMBM peuvent utiliser les informations du nuage de points pour estimer plus précisément la détection ; probabilité et la vraisemblance de l'hypothèse associée, réussissant ainsi à réduire les interruptions de trajectoire et les fausses corrélations pour améliorer les performances de positionnement, de corrélation et de maintenance de l'identification.

4. Conclusion

Cet article compare les performances des frameworks POT et EOT dans les tâches MOT 3D en ligne basées sur des nuages de points radar d'imagerie 4D. Nous évaluons les performances de suivi de trois frameworks, TBD-POT, JDT-EOT et TBD-EOT, sur les catégories Voiture, Piéton et Cycliste de deux ensembles de données, VoD et TJ4DRadSet. Les résultats montrent que le cadre traditionnel TBD-POT est toujours efficace et que son algorithme de mise en œuvre SMURF+GNN-PMB est plus performant sur les catégories Voiture et Cycliste. Cependant, le cadre JDT-EOT ne peut pas supprimer efficacement les mesures de fouillis, ce qui entraîne trop d'hypothèses de division des mesures, ce qui rend les performances de GGIW-PMBM insatisfaisantes. Dans le cadre du cadre TBD-EOT proposé dans cet article, SMURF + GGIW-PMBM obtient la meilleure corrélation et précision de positionnement sur la catégorie des piétons, et obtient une estimation fiable de l'ID sur les catégories des piétons et des cyclistes, démontrant ainsi sa supériorité sur le potentiel du cadre TBD-POT. Cependant, SMURF + GGIW-PMBM ne peuvent pas modéliser efficacement les nuages de points radar distribués de manière non uniforme, ce qui entraîne de mauvaises performances de suivi des cibles des véhicules. Par conséquent, des recherches supplémentaires sont nécessaires à l'avenir sur un modèle cible étendu, plus réaliste et présentant une faible complexité de calcul

Comment combiner un radar dimagerie 4D avec un suivi multi-cibles 3D ? À déterminer-EOT pourrait être la réponse !