Récemment, le concept de modèle mondial a déclenché une vague d'enthousiasme, mais le domaine de la conduite autonome ne peut pas regarder le « feu » de loin. Une équipe de l'Institut d'automatisation de l'Académie chinoise des sciences a proposé pour la première fois un nouveau modèle mondial à vues multiples appelé Drive-WM, visant à améliorer la sécurité de la planification de bout en bout de la conduite autonome.
Site Web : https://drive-wm.github.io
URL du papier : https://arxiv.org/abs/2311.17918
Lors du séminaire de conduite autonome CVPR2023, les deux grands géants de la technologie Tesla et Wayve ont présenté leur technologie noire, et un nouveau concept appelé « Modèle mondial génératif » est devenu populaire dans le domaine de la conduite autonome. Wayve a même publié le modèle d'IA générative GAIA-1, démontrant ses étonnantes capacités de génération de scènes vidéo. Récemment, des chercheurs de l'Institut d'automatisation de l'Académie chinoise des sciences ont également proposé un nouveau modèle mondial de conduite autonome - Drive-WM, qui réalise pour la première fois un modèle mondial prédictif multi-vues et s'intègre parfaitement au courant dominant actuel. Planificateur de conduite autonome de bout en bout.
Drive-WM profite des puissantes capacités de génération du modèle Diffusion pour générer des scènes vidéo réalistes.
Imaginez que vous conduisez et que votre système embarqué prédit les développements futurs en fonction de vos habitudes de conduite et des conditions routières, et génère un retour visuel correspondant pour guider la sélection des itinéraires de trajectoire. Cette capacité à prévoir l’avenir combinée à un planificateur améliorera grandement la sécurité de la conduite autonome !
Prévision et planification basées sur des modèles mondiaux multi-vues. La combinaison du modèle mondial et de la conduite autonome de bout en bout améliore la sécurité de conduite
Le modèle Drive-WM amène le monde à La combinaison de modèles et de planification de bout en bout ouvre un nouveau chapitre pour le développement de -fin de la conduite autonome. À chaque pas de temps, le planificateur peut utiliser le modèle mondial pour prédire des scénarios futurs possibles, puis utiliser la fonction de récompense d'image pour les évaluer pleinement.
L'arbre de planification de trajectoire de bout en bout basé sur le modèle mondial peut être réécrit
En utilisant la meilleure méthode d'estimation et la technologie d'arbre de planification étendue, une planification plus efficace et plus sûre peut être réalisée
Drive-WM explore deux applications du modèle mondial dans la planification de bout en bout grâce à des recherches innovantes
1 Démontre la robustesse du modèle mondial face aux scénarios OOD. Grâce à des expériences comparatives, l'auteur a découvert que les performances du planificateur de bout en bout actuel ne sont pas idéales face à des situations OOD.
L'auteur donne l'image suivante. Lorsqu'un léger décalage latéral est perturbé par rapport à la position initiale, le planificateur de bout en bout actuel a du mal à produire un itinéraire planifié raisonnable.
Le planificateur de bout en bout a du mal à générer des itinéraires de planification raisonnables face à des situations OOD.
La puissante capacité de génération de Drive-WM fournit de nouvelles idées pour résoudre les problèmes OOD. L'auteur utilise les vidéos générées pour affiner le planificateur et apprendre des données OOD, afin que le planificateur puisse avoir de meilleures performances face à de tels scénarios
2 Cela montre que l'introduction de l'évaluation des scénarios futurs est très importante pour. de bout en bout L'effet d'amélioration de la planification
La cohérence spatio-temporelle de la génération de vidéo multi-vues a toujours été un problème difficile. Drive-WM étend les capacités de génération vidéo en introduisant un codage de couche séquentiel et réalise une génération vidéo multi-vues grâce à la modélisation de la décomposition des vues. Cette méthode de génération de décomposition des vues peut grandement améliorer la cohérence entre les vues
Conception globale du modèle Drive-WM
Drive -WM permet une haute qualité génération vidéo multi-vues avec une excellente contrôlabilité. Il offre une variété d'options de contrôle pour contrôler la génération de vidéos multi-vues via le texte, la disposition de la scène et les informations de mouvement. Il offre également de nouvelles possibilités pour les futurs simulateurs neuronaux
, telles que l'utilisation de texte pour modifier la météo et. éclairage :
Par exemple, génération de piétons et montage au premier plan :
Utilisez les méthodes de contrôle de vitesse et de direction :
Générez des événements rares, comme faire demi-tour à une intersection ou rouler dans l'herbe latérale
Drive-WM démontre non seulement ses puissantes capacités de génération de vidéos multi-vues, mais révèle également le grand potentiel de la combinaison du modèle mondial avec le modèle de conduite de bout en bout. Nous pensons qu’à l’avenir, les modèles mondiaux pourront contribuer à créer un système de conduite autonome de bout en bout plus sûr, plus stable et plus fiable.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!