DetZero : Waymo se classe premier sur la liste de détection 3D, comparable à l'annotation manuelle !-IA-php.cn

DetZero : Waymo se classe premier sur la liste de détection 3D, comparable à lannotation manuelle !

Cet article propose un ensemble de cadres d'algorithmes de détection d'objets 3D hors ligne DetZero. Grâce à une recherche et une évaluation complètes de l'ensemble de données publiques de Waymo, DetZero peut générer des séquences de trajectoires d'objets continues et complètes et utiliser pleinement les nuages de points à long terme. Les fonctionnalités améliorent considérablement la qualité des résultats perçus. Dans le même temps, il s'est classé premier dans le classement de détection d'objets WOD 3D avec une performance de 85,15 mAPH (L2). De plus, DetZero peut fournir un étiquetage automatique de haute qualité pour la formation de modèles en ligne, et ses résultats ont atteint, voire dépassé, le niveau de l'étiquetage manuel.

Voici le lien papier : https://arxiv.org/abs/2306.06023

Le contenu qui doit être réécrit est : Lien de code : https://github.com/PJLab-ADG/DetZero

Veuillez visiter le lien de la page d'accueil : https://superkoma.github.io/detzero-page

1 Introduction

Afin d'améliorer l'efficacité de l'annotation des données, nous avons étudié une nouvelle méthode. Cette méthode est basée sur le deep learning et l’apprentissage non supervisé et peut générer automatiquement des données annotées. En utilisant de grandes quantités de données non étiquetées, nous pouvons entraîner un modèle de perception de conduite autonome pour reconnaître et détecter des objets sur la route. Cette méthode peut non seulement réduire le coût d’étiquetage des données, mais également améliorer l’efficacité du post-traitement. Nous avons utilisé la méthode de détection d'objets 3D hors ligne 3DAL[] de Waymo comme base de comparaison dans nos expériences, et les résultats montrent que la méthode proposée présente des améliorations significatives en termes de précision et d'efficacité. Nous pensons que cette méthode jouera un rôle important dans la future technologie de conduite autonome

Détection d'objet (Détection) : saisir une petite quantité de données de cadre de nuage de points continu et afficher le cadre de délimitation et les informations de catégorie de l'objet 3D dans chaque cadre.
Suivi de cibles multiples (Tracking) : associe les objets détectés dans chaque image pour former une séquence d'objets et attribue un ID d'objet unique
Classification de mouvement) : en fonction des caractéristiques de la trajectoire de l'objet, détermine l'état de mouvement de l'objet ; (stationnaire ou en mouvement);
: sur la base de l'état de mouvement prédit par le module précédent, extrayez les caractéristiques du nuage de points de la série chronologique des objets stationnaires et en mouvement respectivement pour prédire une boîte englobante précise. Enfin, le cadre de délimitation 3D optimisé est retransféré au système de coordonnées de chaque image où se trouve l'objet via la matrice de pose.

Le modèle d'optimisation basé sur la classification des états de mouvement n'utilise pas pleinement les caractéristiques temporelles de l'objet. Par exemple, la taille d'un objet rigide reste constante dans le temps, et une estimation plus précise de la taille peut être obtenue en capturant des données sous différents angles ; la trajectoire de mouvement de l'objet doit suivre certaines contraintes cinématiques, ce qui se reflète dans la fluidité de la trajectoire ; . Comme le montre la figure (a) ci-dessous, pour les objets dynamiques, le mécanisme d'optimisation basé sur des fenêtres glissantes ne prend pas en compte la cohérence de la géométrie de l'objet et met uniquement à jour le cadre de délimitation via les informations de nuages de points de séries chronologiques de plusieurs images adjacentes, ce qui entraîne dans la taille géométrique prévue. Dans l'exemple de (b), en agrégeant tous les nuages de points de l'objet, des caractéristiques de nuages de points de séries chronologiques denses peuvent être obtenues et la taille géométrique précise du cadre de délimitation peut être prédite pour chaque image.

DetZero : Waymo se classe premier sur la liste de détection 3D, comparable à lannotation manuelle !

2 Méthode

Cet article propose un nouveau cadre d'algorithme de détection d'objets 3D hors ligne appelé DetZero. Ce cadre présente les caractéristiques suivantes : (1) Utiliser des détecteurs 3D multi-images et des trackers hors ligne comme modules en amont pour fournir un suivi d'objet précis et complet, en se concentrant sur un rappel élevé des séquences d'objets (rappel au niveau de la piste) ; comprend un modèle d'optimisation basé sur le mécanisme d'attention, qui utilise des fonctionnalités de nuage de points à long terme pour apprendre et prédire différents attributs des objets, notamment des dimensions géométriques affinées, des positions de trajectoire de mouvement fluide et des scores de confiance mis à jour

2.1 Générer un Séquence d'objets complète

Nous utilisons le CenterPoint[] public comme détecteur de base Afin de fournir davantage de trames candidates à la détection, nous l'avons amélioré sous trois aspects : (1) Utiliser différentes combinaisons de nuages de points de trame comme entrée pour maximiser les performances sans. réduire les performances ; (2) utiliser les informations de densité du nuage de points pour fusionner les caractéristiques du nuage de points d'origine et les caractéristiques de voxel dans un module en deux étapes afin d'optimiser les résultats des limites de la première étape (3) utiliser l'augmentation des données de l'étape d'inférence (TTA), multi ; -La fusion des résultats du modèle (Ensemble) et d'autres technologies sont utilisées pour améliorer l'adaptabilité du modèle aux environnements complexes. Une stratégie de corrélation en deux étapes est introduite dans le module de suivi hors ligne pour réduire les fausses correspondances. Les cadres sont divisés en groupes élevés et groupes faibles en fonction. à la confiance, et le groupe élevé est les associations mettant à jour les trajectoires existantes, et les trajectoires non mises à jour sont associées aux groupements faibles. Dans le même temps, la longueur de la trajectoire de l'objet peut durer jusqu'à la fin de la séquence, évitant ainsi les problèmes de commutation d'identification. De plus, nous exécuterons l'algorithme de suivi à l'envers pour générer un autre ensemble de trajectoires, les associerons via une similarité de position, et enfin utiliserons la stratégie WBF pour fusionner les trajectoires correctement appariées afin d'améliorer encore l'intégrité du début et de la fin de la séquence. Enfin, pour la séquence d'objets différenciés, le nuage de points correspondant à chaque image est extrait et enregistré ; les cases redondantes non mises à jour et certaines séquences plus courtes seront directement fusionnées dans la sortie finale sans optimisation en aval.

2.2 Module d'optimisation d'objets basé sur la prédiction d'attributs
Le modèle d'optimisation centré sur l'objet précédent ignorait la corrélation entre les objets dans différents états de mouvement, comme la cohérence des formes géométriques et le mouvement des objets à des moments adjacents. Sur la base de ces observations, nous décomposons la tâche traditionnelle de régression de boîte englobante en trois modules : prédire respectivement la géométrie, l'emplacement et les attributs de confiance des objets

Interaction géométrique multi-vues : en épissant des nuages de points d'objets à partir de plusieurs vues, nous pouvons compléter le l'apparence et la forme de l'objet entier. Tout d'abord, une transformation de coordonnées locales est effectuée pour aligner le nuage de points de l'objet avec des boîtes locales à différentes positions, et la distance de projection de chaque point sur les six surfaces de la boîte englobante est calculée pour renforcer la représentation des informations de la boîte englobante, puis directement fusionner tous les nuages de points de différentes images En tant que clé et valeur des caractéristiques géométriques à vues multiples, t échantillons sont sélectionnés au hasard dans la séquence d'objets en tant que requêtes pour les caractéristiques géométriques à vue unique. La requête géométrique sera envoyée à la couche d'auto-attention pour voir les différences entre elles, puis envoyée à la couche d'attention croisée pour compléter les caractéristiques de la perspective requise et prédire la taille géométrique précise.
1. Interaction entre les positions locales et globales : sélectionnez aléatoirement n'importe quelle case de la séquence d'objets comme origine, transférez toutes les autres cases et les nuages de points d'objet correspondants vers ce système de coordonnées et calculez la somme de chaque point jusqu'au point central de la délimitation respective. box La distance entre les huit points d'angle sert de clé et de valeur de la fonction de position globale. Chaque échantillon de la séquence d'objets sera utilisé comme requête de position et envoyé à la couche d'auto-attention pour déterminer la distance relative entre la position actuelle et les autres positions. Il est ensuite entré dans la couche d'attention croisée pour simuler la relation contextuelle. les positions locales aux positions globales et prédire ce système de coordonnées. Le décalage entre chaque point central initial et le véritable point central, ainsi que la différence d'angle de cap.
2. Optimisation de la confiance : la branche de classification est utilisée pour classer si l'objet est TP ou FP. La branche de régression IoU prédit la taille IoU entre un objet et la boîte de vérité terrain après avoir été optimisée par le modèle géométrique et le modèle de position. Le score de confiance final est la moyenne géométrique de ces deux branches.
3 Expériences
3.1 Performance principale
DetZero obtient le meilleur résultat du classement de détection 3D Waymo avec 85,15 mAPH (L2), tous deux comparés aux méthodes qui traitent des nuages de points en séries longues. Par rapport au plus grand nombre. Détecteurs 3D de fusion multimodaux avancés, DetZero a démontré des avantages de performance significatifs

Résultats du classement de détection 3D Waymo, tous les résultats utilisent la technologie TTA ou d'ensemble, † fait référence au modèle hors ligne, ‡ fait référence au modèle de fusion d'images en nuage de points, * indique une soumission anonyme résultats
De même, grâce à la précision du cadre de détection et à l'intégrité de la séquence de suivi des objets, nous avons obtenu la première performance au classement de suivi Waymo 3D avec 75,05 MOTA (L2).

Classement de suivi Waymo 3D, * indique la soumission anonyme des résultats

3.2 Expérience d'ablation

Afin de mieux vérifier le rôle de chaque module que nous avons proposé, nous avons mené une expérience d'ablation sur l'ensemble de vérification Waymo et adopté un seuil IoU plus strict comme norme de mesure

Vérifié dans Waymo Nous Nous avons effectué cette opération sur les véhicules et les piétons et avons sélectionné la valeur standard (0,7 et 0,5) et la valeur stricte (0,8 et 0,6) pour le seuil IoU. Dans le même temps, pour le même ensemble de résultats de détection, nous avons sélectionné le tracker et l'optimisation. Le modèle en 3DAL et DetZero respectivement. Une vérification de combinaison croisée a été effectuée, et les résultats ont en outre prouvé que le tracker et l'optimiseur de DetZero fonctionnaient mieux et que la combinaison des deux présentait de plus grands avantages.

Expériences de validation croisée de différentes combinaisons de modules en amont et en aval, les indices 1 et 2 représentent respectivement 3DAL et DetZero, et l'indicateur est 3D APH
Notre tracker hors ligne accorde plus d'attention à l'intégrité de la séquence d'objets, bien que le Les performances MOTA des deux sont différentes. C'est petit, mais les performances de Recall@track sont l'une des raisons de la grande différence dans les performances d'optimisation finale

Comparaison des performances du tracker hors ligne (Trk2) et du tracker 3DAL (Trk1), performances de MOTA et Recall@track
De plus, cela est démontré par rapport à d'autres trackers de pointe

Recall@track est le rappel de séquence traité par l'algorithme de suivi, 3D APH est la performance finale traitée par le même modèle d'optimisation
3.3 Performances de généralisation
Pour vérifier si notre modèle d'optimisation peut être adapté de manière fixe à un ensemble de résultats en amont spécifique, nous avons sélectionné des résultats de suivi de détection en amont avec des performances différentes en entrée. Les résultats montrent que nous avons obtenu des améliorations significatives des performances, prouvant en outre que tant que le module en amont peut rappeler des séquences d'objets de plus en plus complètes, notre optimiseur peut utiliser efficacement les caractéristiques de son nuage de points de série chronologique pour l'optimisation

Ensemble de validation Waymo Vérification des performances de généralisation, l'indicateur est 3D APH
3.4 Comparaison avec la capacité d'étiquetage humaine
Nous rapporterons les performances AP de DetZero sur 5 séquences spécifiées basées sur les paramètres expérimentaux de 3DAL, en comparant sur la base d'images uniques. La performance humaine est mesurée par la cohérence des résultats ré-étiquetés avec les résultats originaux étiquetés selon la vérité terrain. Par rapport au 3DAL et aux humains, DetZero a montré des avantages dans différents indicateurs de performance

Comparaison des performances de 3D AP et BEV AP sous différents seuils IoU pour la catégorie Véhicule
Afin de vérifier si des résultats d'annotation automatique de haute qualité peuvent remplacer le manuel les résultats des annotations ont été utilisés pour la formation de modèles en ligne et nous avons effectué une vérification d'apprentissage semi-supervisée sur l'ensemble de vérification Waymo. Nous avons sélectionné au hasard 10 % des données de formation comme données de formation pour le modèle d'enseignant (DetZero) et effectué une inférence sur les 90 % de données restantes pour obtenir des résultats d'annotation automatique, qui seront utilisés comme étiquettes pour le modèle d'étudiant. Nous avons choisi CenterPoint à image unique comme modèle étudiant. Sur la catégorie véhicule, les résultats de l'entraînement utilisant 90% d'étiquettes automatiques et 10% d'étiquettes vraies sont proches des résultats de l'entraînement utilisant 100% d'étiquettes vraies, tandis que sur la catégorie piéton, les résultats du modèle entraîné avec des étiquettes automatiques sont déjà meilleurs. que ceux d'origine. Le résultat, qui montre que l'étiquetage automatique peut être utilisé pour la formation de modèles en ligne

Résultats expérimentaux semi-supervisés sur l'ensemble de validation Waymo
3.5 Résultats visualisés
La case rouge représente l'entrée en amont. résultats, et la boîte bleue représente le modèle optimisé. Les résultats de sortie
La première ligne représente les résultats d'entrée en amont, la deuxième ligne représente les résultats de sortie du modèle d'optimisation et les objets entre les lignes pointillées représentent les emplacements où la différence est évidente. avant et après optimisation

Lien original : https://mp.weixin.qq.com/s/HklBecJfMOUCC8gclo-t7Q