Maison > Périphériques technologiques > IA > OmniDrive : un framework pour aligner de grands modèles avec des tâches de conduite 3D

OmniDrive : un framework pour aligner de grands modèles avec des tâches de conduite 3D

PHPz
Libérer: 2024-05-06 15:16:35
avant
1092 Les gens l'ont consulté

Commencez avec une nouvelle architecture MLLM 3D qui utilise des requêtes clairsemées pour soulever et compresser des représentations visuelles en 3D, qui sont ensuite introduites dans le LLM.

Titre : OmniDrive : Un cadre holistique d'agent LLM pour la conduite autonome avec raisonnement et planification de perception 3D

Affiliation de l'auteur : Institut de technologie de Pékin, NVIDIA, Université des sciences et technologies de Huazhong

Adresse open source : GitHub - NVlabs/OmniDrive

Multimodalité Le développement de grands modèles de langage (MLLM) a suscité un intérêt croissant pour la conduite autonome basée sur LLM, exploitant leurs puissantes capacités d'inférence. Tirer parti des puissantes capacités de raisonnement des MLLM pour améliorer le comportement de planification est un défi car ils nécessitent une connaissance complète de la situation en 3D au-delà du raisonnement en 2D. Pour relever ce défi, ce travail propose OmniDrive, un cadre complet pour un alignement robuste entre les modèles d'agent et les tâches de conduite 3D. Le cadre commence par une nouvelle architecture 3D+MLLM qui utilise des requêtes éparses pour extraire et compresser les représentations d'observation en 3D, qui sont ensuite introduites dans le LLM. Cette représentation basée sur des requêtes nous permet d'encoder conjointement des objets dynamiques et des éléments de carte statiques (par exemple, des routes de circulation), fournissant ainsi un modèle mondial concis pour l'alignement perception-action en 3D. Nous proposons en outre un nouveau benchmark qui comprend des tâches complètes de réponse visuelle aux questions (VQA), notamment la description de la scène, les règles de circulation, la mise à la terre 3D, le raisonnement contrefactuel, la prise de décision et la planification. Des recherches approfondies démontrent les capacités supérieures de raisonnement et de planification d'OmniDrive dans des scènes 3D complexes.

Structure du réseau

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

Résultats expérimentaux

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal