Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout-IA-php.cn

Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout

王林

Libérer： 2024-03-19 15:00:24

avant

1034 Les gens l'ont consulté

La construction de cartes vectorisées haute définition (HD) nécessite de prédire les catégories et les coordonnées des points des éléments de la carte (tels que les limites des routes, les séparateurs de voies, les passages pour piétons, etc.). Les méthodes de pointe sont principalement basées sur l’apprentissage de représentations au niveau des points pour régresser des coordonnées de points précises. Cependant, ce pipeline présente des limites dans l'obtention d'informations au niveau des éléments et dans la gestion des défaillances au niveau des éléments, telles que des formes d'éléments incorrectes ou des enchevêtrements entre les éléments. Afin de résoudre les problèmes ci-dessus, cet article propose un cadre HybrId simple et efficace, nommé HIMap, pour apprendre et interagir pleinement avec les informations au niveau des points et des éléments.

Plus précisément, une représentation hybride appelée HIQuery est introduite pour représenter tous les éléments de la carte, et un interacteur d'éléments ponctuels est proposé pour extraire de manière interactive les informations hybrides des éléments, telles que les positions des points et les formes des éléments, et il est codé dans HIQuery. De plus, des contraintes de cohérence point-élément sont également proposées pour améliorer la cohérence entre les informations au niveau point et au niveau élément. Enfin, les éléments de point de sortie de HIQuery intégré peuvent être directement convertis en classe, coordonnées de point et masque de l'élément de carte. Des expériences approfondies sont menées sur les ensembles de données nuScenes et Argoverse2, montrant des résultats systématiquement supérieurs aux méthodes précédentes. Il convient de noter que la méthode atteint 77,8 mAP sur l'ensemble de données nuScenes, ce qui est nettement meilleur que le SOTA précédent d'au moins 8,3 mAP !

Nom de l'article : HIMap : HybrId Representation Learning for End-to-end Vectorized HD Map Construction

Lien de l'article : https://arxiv.org/pdf/2403.08639.pdf

HIMap introduit d'abord un hybride appelé HIQuery Représente toutes les cartes éléments de la carte. Il s'agit d'un ensemble de paramètres apprenables qui peuvent être mis à jour et affinés de manière itérative en interagissant avec les fonctionnalités BEV. Ensuite, un décodeur hybride multicouche est conçu pour coder les informations hybrides des éléments de la carte (telles que la position du point, la forme de l'élément) dans HIQuery et effectuer une interaction entre les éléments ponctuels, voir Figure 2. Chaque couche du décodeur hybride comprend des interactions d'éléments ponctuels, l'auto-attention et le FFN. À l'intérieur de l'interacteur point-élément, un mécanisme d'interaction mutuelle est mis en œuvre pour réaliser l'échange d'informations au niveau point et au niveau élément et éviter le biais d'apprentissage des informations à un seul niveau. Enfin, les éléments de point de sortie intégrés de HIQuery peuvent être directement convertis en coordonnées de point, classe et masque de l'élément. De plus, des contraintes de cohérence point-élément sont également proposées pour améliorer la cohérence entre les informations au niveau point et au niveau élément.

Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout

Présentation du framework HIMap

Le processus global de HIMap est illustré à la figure 3(a). HIMap est compatible avec une variété de données de capteurs aéroportés, telles que les images RVB provenant de caméras multi-vues, les nuages de points provenant du lidar ou les données multimodales. Ici, nous prenons comme exemple des images RVB multi-vues pour expliquer le fonctionnement de HIMap.

Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout

BEV Feature Extractor est un outil permettant d'extraire des fonctionnalités BEV à partir d'images RVB multi-vues. Son cœur comprend l'extraction de la partie principale des fonctionnalités 2D multi-échelles à partir de chaque perspective, l'obtention de la partie FPN des fonctionnalités à échelle unique en fusionnant et en affinant les fonctionnalités multi-échelles, et l'utilisation du module de conversion de fonctionnalités 2D en BEV pour mapper les fonctionnalités 2D en BEV. caractéristiques. . Ce processus permet de convertir les informations d'image en fonctionnalités BEV plus adaptées au traitement et à l'analyse, améliorant ainsi la convivialité et la précision des fonctionnalités. Grâce à cette méthode, nous pouvons mieux comprendre et utiliser les informations contenues dans les images multi-vues, offrant ainsi une assistance plus solide pour le traitement ultérieur des données et la prise de décision.

HIQuery : Afin d'apprendre pleinement les informations au niveau des points et des éléments des éléments de la carte, HIQuery est introduit pour représenter tous les éléments de la carte !

Décodeur hybride : le décodeur hybride produit une HIQuery intégrée en interagissant de manière itérative avec HIQuery Qh avec les fonctionnalités BEV X.

L'objectif de l'interacteur d'éléments ponctuels est d'extraire de manière interactive les informations au niveau des points et des éléments des éléments de la carte et de les encoder dans HIQuery. La motivation de l’interaction des deux niveaux d’information vient de leur complémentarité. Les informations au niveau des points contiennent des connaissances de localisation locales, tandis que les informations au niveau des éléments fournissent une forme globale et des connaissances sémantiques. Cette interaction permet ainsi un affinement mutuel des informations locales et globales des éléments cartographiques.

Considérant la différence originale entre la représentation au niveau des points et la représentation au niveau des éléments, qui se concentrent respectivement sur les informations locales et les informations globales, l'apprentissage des représentations à deux niveaux peut également interférer l'une avec l'autre. Cela augmentera la difficulté de l'interaction des informations et réduira l'efficacité de l'interaction des informations. Par conséquent, des contraintes de cohérence des éléments ponctuels sont introduites pour améliorer la cohérence entre chaque niveau de point et les informations au niveau de l'élément, et la discriminabilité des éléments peut également être améliorée !

Comparaison des résultats expérimentaux

L'article a mené des expériences sur l'ensemble de données NuScenes et l'ensemble de données Argoverse2 !

Comparaison du modèle SOTA sur le val-set nuScenes :

Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout

Comparaison du modèle SOTA sur le val-set Argoverse2 :

Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout

Comparaison avec le modèle SOTA sous l'ensemble de validation nuScenes données multimodales :

Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout

Plus d'expériences d'ablation :

Mieux que toutes les méthodes ! HIMap : construction de cartes HD vectorisées de bout en bout

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!