L3 sera lancé au plus tard au premier semestre de l'année prochaine : une conduite autonome idéale de bout en bout et des performances nettement améliorées-IA-php.cn

Récemment, avec l'essor de la technologie de l'IA générative, de nombreuses nouvelles forces de construction automobile explorent de nouvelles méthodes de modèles de langage visuel et de nouveaux modèles mondiaux de conduite intelligente de bout en bout semblent être devenues une direction de recherche commune. Le mois dernier, Li Auto a publié l'architecture technologique de conduite autonome de troisième génération de bout en bout + modèle de langage visuel VLM + modèle mondial. Cette architecture a été soumise à des milliers de personnes pour des tests internes. Elle personnifie un comportement de conduite intelligent, améliore l'efficacité du traitement des informations de l'IA et améliore la capacité à comprendre et à réagir à des conditions routières complexes. Li Xiang a déclaré un jour dans un partage public que face à des environnements de conduite rares qui sont difficiles à identifier et à traiter pour la plupart des algorithmes, le VLM (Visual Language Model) peut systématiquement améliorer les capacités de conduite autonome. Cette méthode peut théoriquement être une percée. .

L3 sera lancé au plus tard au premier semestre de lannée prochaine : une conduite autonome idéale de bout en bout et des performances nettement améliorées

La nouvelle génération de systèmes de conduite autonome a considérablement augmenté la limite supérieure des capacités - permettant à l'IA de faire face à de nombreuses situations difficiles à résoudre dans le passé, et a également abaissé le seuil - réduisant ainsi le besoin en matière de R&D technologique équipes, et devrait permettre à davantage de personnes de conduire dans un avenir proche. Bénéficiez d'une expérience considérablement améliorée à l'avenir.
Cet ensemble d'architecture technologique de conduite autonome s'inspire de la théorie des systèmes rapides et lents du lauréat du prix Nobel Daniel Kahneman. La simulation de la pensée humaine et des processus de prise de décision dans le domaine de la conduite autonome nécessite également une collaboration entre des « systèmes rapides » et des « systèmes lents ». . Parmi eux :
・ Le système rapide (Système 1) est efficace pour gérer des tâches simples et est une intuition humaine formée sur la base de l'expérience et des habitudes de conduite autonome, il est composé d'un grand modèle de bout en bout, incluant la perception et la planification ; , ce qui est suffisant pour gérer 95 % des problèmes lors de la conduite d'un véhicule.
・ Le système lent (Système 2) est le raisonnement logique, l'analyse complexe et les capacités informatiques formées par les humains grâce à une compréhension et un apprentissage plus approfondis ; dans le système de conduite autonome, c'est principalement le modèle VLM, qui est utilisé pour résoudre des problèmes complexes, voire inconnus ; problèmes lors de la conduite d'un véhicule Les scènes de circulation représentent environ 5 % des scènes de conduite quotidiennes.
La semaine dernière, lors d'un événement organisé au siège R&D de Li Auto à Pékin, Lang Xianpeng, vice-président de la conduite intelligente de Li Auto, a souligné que la conduite intelligente de Li Auto était désormais pleinement intégrée à la solution de bout en bout + grands modèles, qui permet aux véhicules de comprendre les conditions routières complexes et les règles de circulation.
« Les modèles de prise de décision de perception de bout en bout et traditionnels nécessitent une grande quantité de données pour la formation. Un problème potentiel est que le système ne fonctionnera pas bien s'il rencontre des scènes invisibles », a déclaré Lang Xianpeng. "Nous explorons la capacité des véhicules à penser et à prendre des décisions comme les humains."

L3 sera lancé au plus tard au premier semestre de lannée prochaine : une conduite autonome idéale de bout en bout et des performances nettement améliorées

Siège de Li Auto Beijing.

Depuis le second semestre de l'année dernière, Ideal a commencé à ajuster sa stratégie et à changer de trajectoire. En février de cette année, dans l'article DriveVLM soumis par l'Institut de recherche croisée de l'Université Tsinghua et Li Auto, les chercheurs ont appliqué le modèle de langage visuel (VLM) récemment apparu dans le domaine de l'IA générative et ont démontré des capacités extraordinaires en matière de compréhension et de raisonnement visuels. .

Dans l'industrie, il s'agit du premier travail à proposer un système de vitesse de conduite autonome. Sa méthode combine pleinement le pipeline de conduite autonome traditionnel et un pipeline de grands modèles avec une pensée logique, et est le premier à terminer le travail de test final sur un grand modèle. déploiement (basé sur la plateforme NVIDIA Orin).

L3 sera lancé au plus tard au premier semestre de lannée prochaine : une conduite autonome idéale de bout en bout et des performances nettement améliorées

Système DriveVLM

DriveVLM se compose d'un processus de chaîne de réflexion (CoT) avec trois modules clés :

Description du scénario : utilisez un langage pour décrire l'environnement de conduite et identifier les objets clés.
Analyse de scène : plongez dans les caractéristiques des objets clés et leur impact sur le véhicule de l'ego.
Planification hiérarchique : développement d'un plan étape par étape, depuis les descriptions de méta-actions et de décisions jusqu'aux points de cheminement.

Ces modules correspondent aux composants de perception, de prédiction et de planification du processus traditionnel du système de conduite autonome. La différence réside dans leur capacité à gérer la perception des objets, la prédiction au niveau de l'intention et la planification au niveau des tâches, qui ont été extrêmement difficiles dans le passé. passé.

Vérification technique

La technologie de vérification idéale est efficace dans les scénarios à longue traîne :

Démontez les données de l'environnement réel
Utilisez des modèles génératifs pour compléter de nouvelles perspectives
Personnalisez les changements de météo, d'heure, de flux de circulation et d'autres conditions

Application pratique

Le modèle de bout en bout et le modèle VLM de Li Auto fonctionnent en temps réel :

Modèle de bout en bout : fréquence d'images plus élevée
Modèle VLM : plus grand nombre de paramètres, fréquence d'images inférieure

Dans les villes complexes Dans le scénario, VLM joue un rôle dans les situations où la prise de décision est impossible et fournit des résultats de décision et des trajectoires au modèle de bout en bout.

Approche de bout en bout

L'approche de bout en bout est devenue un tournant technologique, marquant le début de l'utilisation réelle de l'IA.

Le modèle d'IA de nouvelle génération

Le modèle d'IA de nouvelle génération peut servir de générateur de questions :

Sélectionner les données des utilisateurs qui répondent aux normes des conducteurs de voitures particulières comme de "vraies questions"
Combinées avec le monde modèle pour générer des "questions de simulation"

Défi de puissance de calcul

VLM 等機型部署在車端面臨算力挑戰：