La technologie de détection collaborative revêt une grande importance pour résoudre le problème de perception des véhicules autonomes. Cependant, les recherches existantes ignorent souvent l’éventuelle hétérogénéité entre les agents, c’est-à-dire la diversité des capteurs et des modèles de perception. Dans les applications pratiques, il peut y avoir des différences significatives dans les modalités et les modèles entre les agents, ce qui conduit à l'émergence de différences de domaine et rend la détection collaborative difficile. Par conséquent, les recherches futures doivent réfléchir à la manière de gérer efficacement l’hétérogénéité entre les agents pour obtenir une détection collaborative plus efficace. Cela nécessitera le développement de nouvelles méthodes et algorithmes pour tenir compte des différences entre les différents agents et garantir qu’ils puissent travailler ensemble pour parvenir à un système de conduite autonome plus efficace.
Afin de résoudre ce défi pratique, le dernier article de recherche de l'ICLR 2024 « An Extensible Framework for Open Heterogeneous Collaborative Perception » définit le problème de la perception collaborative hétérogène ouverte : Comment intégrer de nouveaux agents hétérogènes qui émergent constamment. système de détection tout en garantissant des performances de détection élevées et un faible coût d'assemblage ? Des chercheurs de l'Université Jiao Tong de Shanghai, de l'Université de Californie du Sud et du Laboratoire d'intelligence artificielle de Shanghai ont proposé HEAL (HEterogeneousALliance) dans cet article : un cadre de collaboration d'agents hétérogènes évolutif et efficace. Il résout les deux principaux problèmes de problèmes de détection collaborative hétérogènes ouverts.
Ils ont créé un cadre de code qui contient plusieurs ensembles de données de détection collaborative, plusieurs algorithmes de détection collaborative et prend en charge la multimodalité, qui est désormais entièrement open source. L'auteur estime qu'il s'agit actuellement du cadre de code de détection collaborative le plus complet et qu'il devrait aider davantage de personnes à entrer facilement dans le domaine de la recherche en détection collaborative multimodale et hétérogène.
Ces dernières années , La technologie de conduite autonome a attiré beaucoup d'attention du monde universitaire et de l'industrie. Cependant, les conditions routières réelles sont complexes et changeantes, et les capteurs d'un seul véhicule peuvent être bloqués par d'autres véhicules, ce qui pose des défis aux capacités de perception du système de conduite autonome. Afin de résoudre ces problèmes, la détection collaborative entre multi-agents devient une solution. Grâce aux progrès des technologies de communication, les agents peuvent partager des informations sensorielles et combiner les données de leurs propres capteurs avec les informations provenant d'autres agents pour améliorer leur perception de l'environnement. Grâce à la collaboration, chaque agent peut obtenir des informations au-delà de son propre champ de vision, ce qui contribue à améliorer la perception et les capacités de prise de décision.
Figure 1. Le problème de la « sonde fantôme » causé par l'occlusion de la ligne de vue et la perception limitée du vélo
Dans le domaine de recherche actuel, la plupart des travaux sont basés sur une hypothèse peut-être trop simpliste : tous les agents doivent avoir la même structure ; c'est-à-dire que leurs systèmes de perception utilisent tous les mêmes capteurs et partagent le même modèle de détection. Cependant, dans le monde réel, les schémas et modèles des différents agents peuvent être différents, et de nouveaux schémas et modèles peuvent continuer à émerger. En raison du développement rapide de la technologie des capteurs et des algorithmes, il est irréaliste d’identifier initialement tous les types d’agents collaboratifs (y compris les modes et les modèles). Lorsqu’un agent hétérogène qui n’est jamais apparu dans l’ensemble de formation souhaite rejoindre la collaboration, il rencontrera inévitablement des différences de domaine avec les agents existants. Cette différence limitera sa capacité à effectuer une fusion de fonctionnalités avec des agents existants, limitant ainsi considérablement l'évolutivité de la détection collaborative.
Par conséquent, le problème de la détection coopérative hétérogène ouverte se pose : comment ajouter les nouveaux types d'agents émergents au système de détection coopérative existant tout en garantissant des performances de détection élevées et un faible coût d'intégration ?
Figure 2. (a) Détection collaborative homogène (b) Détection collaborative hétérogène (c) Détection collaborative hétérogène ouverte en tenant compte de l'ajout de nouveaux agents hétérogènes (d) HEAL obtient en utilisant le moindre coût de formation La meilleure performance de perception collaborative
Pour résoudre ce problème, une solution réalisable est la post-fusion. En fusionnant les résultats perceptifs de chaque agent (comme une boîte englobante 3D), la post-fusion contourne l'hétérogénéité entre les agents nouveaux et existants, et la formation ne doit avoir lieu que sur une seule classe d'agents. Cependant, les performances de la post-fusion ne sont pas idéales et se sont révélées particulièrement sensibles aux facteurs d'interférence tels que le bruit de positionnement et les retards de communication. Une autre approche potentielle est la formation entièrement collective, qui regroupe tous les types d'agents dans une collaboration pour une formation collaborative visant à surmonter les différences de domaine. Cependant, cette approche nécessite de recycler tous les modèles chaque fois qu’un nouveau type d’agent est introduit. Avec l’émergence continue de nouveaux agents hétérogènes, le coût de la formation augmente fortement. HEAL propose un nouveau cadre de collaboration hétérogène ouvert qui présente simultanément les hautes performances d'une formation entièrement collective et le faible coût de formation de la post-fusion.
Problème ouvert de perception de la collaboration hétérogène Considérez le scénario suivant : ajouter des catégories d'agents hétérogènes avec des modalités ou des modèles auparavant indisponibles au système de collaboration existant. Sans perte de généralité, on considère que la scène est initialement constituée d'agents homogènes. Ils sont équipés du même type de capteurs, déploient le même modèle de détection, et ont tous la capacité de communiquer entre eux. Ces agents isomorphes forment un système collaboratif existant. Par la suite, des agents hétérogènes dotés de modalités ou de modèles perceptuels qui ne sont jamais apparus sur la scène rejoignent le système collaboratif. Cette nature dynamique est une caractéristique distinctive du déploiement de la détection collaborative dans le monde réel : les classes d'agents ne sont pas complètement déterminées au départ et le nombre de types peut augmenter avec le temps. C’est également très différent des précédents problèmes de détection collaborative hétérogènes dans lesquels les catégories hétérogènes étaient déterminées et fixées à l’avance.
Le cadre ouvert de sensibilisation à la collaboration hétérogène HEAL (HEterogeneous ALliance) proposé dans cet article conçoit une méthode en deux étapes pour ajouter de nouveaux agents hétérogènes à la collaboration afin de parvenir à une alliance hétérogène croissante : i) Classe de base collaborative. formation, permettant à l'agent initial de former un réseau de collaboration de fusion de fonctionnalités et de créer un espace de fonctionnalités unifié ii) Formation d'un nouvel agent, alignant les fonctionnalités du nouvel agent avec l'espace de fonctionnalités unifié précédemment établi, permettant ainsi à de nouveaux agents de collaborer avec des agents existants ; au niveau des fonctionnalités.
Pour chaque nouveau type d'agent rejoignant la collaboration, seule la deuxième phase de formation est requise. Il convient de noter que la deuxième phase de formation peut être menée de manière indépendante par le propriétaire de l'agent et n'implique pas de formation collective avec les agents existants. Cela permet l’ajout de nouveaux agents avec des coûts de formation inférieurs tout en protégeant les détails du modèle des nouveaux agents contre l’exposition.
Figure 3. Le cadre général de HEAL
Nous utilisons les agents isomorphes qui existent au début de la scène comme classes de base collaboratives et formons une fusion de fonctionnalités. Réseau de détection collaboratif basé. Nous proposons un nouveau réseau de fusion pyramidale pour extraire et fusionner les caractéristiques de plusieurs agents. Plus précisément, pour les caractéristiques BEV codées par l'encodeur de chaque agent isomorphe, nous les laissons traverser plusieurs couches de réseaux ResNeXt de différentes échelles pour extraire des éléments à gros grains. et des informations détaillées sur les fonctionnalités. Pour les cartes de caractéristiques de différentes échelles, nous leur appliquons un réseau de prédicteurs de premier plan pour estimer la probabilité qu'il y ait un premier plan tel qu'un véhicule à chaque position caractéristique du BEV. Entre les collaborateurs, la carte de probabilité du premier plan est normalisée sous la forme d'une distribution de poids à partir d'une fusion pondérée pixel par pixel des cartes de caractéristiques. Après avoir obtenu les cartes de fonctionnalités fusionnées à différentes échelles, nous utilisons une série de réseaux de suréchantillonnage pour les convertir à la même taille de carte de fonctionnalités et obtenir la carte de fonctionnalités fusionnée finale.
Figure 4. Pyramid Fusion Network
La carte des caractéristiques fusionnées passera par une tête de détection et sera convertie en résultat final de détection collaborative. Les résultats de détection collaborative et la carte de probabilité du premier plan sont supervisés par la vérité terrain. Après la formation, les paramètres du réseau de collaboration (réseau de fusion pyramidale) enregistrent les informations de fonctionnalités pertinentes de la classe de base de collaboration et construisent un espace de fonctionnalités partagé pour l'alignement ultérieur de nouveaux agents hétérogènes.
Nous envisageons d'ajouter un nouveau type d'agent hétérogène. Nous proposons une nouvelle méthode d’alignement vers l’arrière. L'idée principale est d'utiliser le réseau de fusion pyramidale et la tête de détection de l'étape précédente comme backend de détection du nouvel agent, et de mettre à jour uniquement les paramètres liés à l'encodeur frontal.
Il est à noter que nous effectuons des formations mono-agent sur des agents uniques de nouvelles catégories hétérogènes, et n'impliquons pas de collaboration entre agents. Par conséquent, l’entrée du réseau de fusion pyramidale est une carte de fonctionnalités unique au lieu de cartes de fonctionnalités multi-agents en une seule étape. Au fur et à mesure que le module de fusion pyramidale pré-entraîné et la tête de détection sont établis en tant que backend et fixes, le processus de formation évolue pour adapter l'encodeur frontal aux paramètres du backend afin que les fonctionnalités codées par le nouvel agent soient cohérentes avec l'espace de fonctionnalités unifié. Étant donné que les fonctionnalités sont alignées sur celles des agents existants, elles peuvent permettre une collaboration hautes performances au niveau des fonctionnalités.
L'alignement rétrospectif présente également un avantage unique : la formation n'est effectuée que sur un nouvel agent unique. Cela réduit considérablement le coût de formation et le coût de collecte de données de synchronisation spatio-temporelle à chaque fois qu'un nouvel agent est ajouté. De plus, cela empêche les détails du modèle du nouvel agent d’être exposés à d’autres et permet au propriétaire du nouvel agent d’entraîner le modèle à l’aide de ses propres données de capteur. Cela répondra de manière significative à de nombreuses préoccupations que les constructeurs automobiles peuvent avoir lors du déploiement d'une technologie de détection collaborative de véhicule à véhicule (V2V).
Basé sur l'ensemble de données OPV2V, cet article propose un ensemble de données OPV2V-H plus hétérogène, complétant les données lidar à 16 et 32 lignes de chaque véhicule, ainsi que les données de caméra à 4 profondeurs. Les résultats expérimentaux sur l'ensemble de données OPV2V-H et l'ensemble de données réel DAIR-V2X montrent que HEAL réduit considérablement une série de coûts de formation (paramètres de formation, FLOP, temps de formation, etc.) pour que des agents hétérogènes rejoignent la collaboration, et maintient également extrêmement hautes performances de détection collaborative.
Figure 5. HEAL a à la fois des performances élevées et un faible coût de formation
En présence de bruit de positionnement et de compression des fonctionnalités, HEAL conserve toujours les meilleures performances de détection, montrant que dans des paramètres plus proches de la réalité, HEAL est actuellement le plus algorithme de détection collaboratif efficace.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!