Diverses applications de grands modèles sont encore populaires récemment. Une série d'articles fantaisistes est apparue début octobre, essayant d'appliquer les grands modèles à la conduite autonome. J'ai récemment parlé de nombreux sujets connexes avec de nombreux amis. En écrivant cet article, d'une part, j'ai découvert que, y compris moi-même, dans le passé, nous avions en fait confondu des concepts très liés mais en réalité différents. D’un autre côté, il s’agit d’une extension de ces concepts. Il y a quelques réflexions intéressantes qui méritent d’être partagées et discutées avec tout le monde.
C'est sans aucun doute la direction la plus populaire à l'heure actuelle, et elle fait également l'objet des journaux les plus concentrés. Comment les grands modèles linguistiques peuvent-ils contribuer à la conduite autonome ? D'une part, comme GPT-4V, il offre des capacités de compréhension sémantique extrêmement puissantes grâce à l'alignement avec des images, qui ne seront pas évoquées ici pour l'instant, d'autre part, il utilise LLM comme agent pour implémenter directement le comportement de conduite ; Cette dernière est en fait la direction de recherche la plus sexy à l’heure actuelle et est inextricablement liée à la série de travaux sur l’IA embarquée.
La plupart des derniers types de travaux vus jusqu'à présent utilisent le LLM : 1) directement utilisé 2) affiné grâce à l'apprentissage supervisé 3) affiné grâce à l'apprentissage par renforcement pour les tâches de conduite. En substance, il n’y a pas d’échappatoire au cadre paradigmatique précédent de la conduite basée sur des méthodes d’apprentissage. En fait, une question très directe est la suivante : pourquoi serait-il préférable d’utiliser le LLM pour ce faire ? Intuitivement parlant, utiliser des mots pour conduire est une chose inefficace et verbeuse. Puis un jour, j'ai soudain compris LLM implémente en fait un pré-entraînement pour l'agent via le langage ! L'une des raisons importantes pour lesquelles il était difficile pour RL de généraliser était qu'il était difficile d'unifier diverses tâches et d'utiliser diverses données communes pour le pré-entraînement. Chaque tâche ne pouvait être entraînée qu'à partir de zéro, mais LLM l'a très bien résolu. question. Mais en fait, il y a plusieurs problèmes qui ne sont pas bien résolus : 1) Après avoir terminé le pré-entraînement, le langage doit-il être conservé comme interface de sortie ? Cela apporte en fait beaucoup de désagréments à de nombreuses tâches et entraîne également dans une certaine mesure des calculs redondants. 2) L'approche du LLM en tant qu'agent ne résout toujours pas les problèmes essentiels de la méthode sans modèle RL existante, et tous les problèmes des méthodes sans modèle existent toujours. Récemment, nous avons également vu quelques tentatives basées sur un modèle + LLM en tant qu'agent, ce qui peut être une direction intéressante.
La dernière chose dont je veux me plaindre dans chaque article est la suivante : Il ne s'agit pas simplement de se connecter à LLM et de laisser LLM produire une raison pour rendre votre modèle interprétable. Cette raison peut encore être absurde. . . Des choses qui n'étaient pas garanties auparavant ne le deviendront pas simplement parce qu'une phrase est émise.
Le modèle visuel purement grand n'a en fait toujours pas vu ce moment magique «d'émergence». Lorsqu'on parle de grands modèles visuels, il existe généralement deux références possibles : l'une est un extracteur de fonctionnalités d'informations visuelles super puissant basé sur un pré-entraînement de données Web massives tel que CLIP ou DINO ou SAM, qui améliore considérablement la capacité de compréhension sémantique du modèle. L'autre fait référence au modèle conjoint de couples (image, action, etc...) mis en œuvre par le modèle mondial représenté par GAIA.
En fait, je pense que le premier n’est que le résultat d’une expansion linéaire continue selon les lignes traditionnelles. À l’heure actuelle, il est difficile d’entrevoir la possibilité de changements quantitatifs dans la conduite autonome. En fait, ce dernier est entré continuellement dans le champ de vision des chercheurs grâce à la publicité continue de Wayve et Tesla cette année. Lorsque les gens parlent de modèles mondiaux, ils incluent souvent le fait que le modèle est de bout en bout (produit directement des actions) et est lié au LLM. En fait, cette hypothèse est unilatérale. Ma compréhension du modèle mondial est également très limitée. Je voudrais recommander l'interview de Lecun et l'enquête RL basée sur un modèle de @Yu Yang, dans laquelle je n'entrerai pas plus en détail :
Yu Yang : En savoir plus sur le modèle environnemental (modèle mondial)
//m.sbmmt.com/link/a2cdd86a458242d42a17c2bf4feff069
C'est en fait facile à comprendre et fait référence à un système de conduite autonome qui repose uniquement sur des capteurs visuels. C’est en fait le meilleur et ultime souhait de la conduite autonome : conduire avec une paire d’yeux comme un être humain. De tels concepts sont généralement associés aux deux grands modèles ci-dessus, car la sémantique complexe des images nécessite de fortes capacités d'abstraction pour extraire des informations utiles. Dans le cadre de la récente offensive publicitaire continue de Tesla, ce concept recoupe également le concept de bout en bout mentionné ci-dessous. Mais en fait, il existe de nombreuses façons d'obtenir une conduite purement visuelle, et de bout en bout en fait naturellement partie, mais ce n'est pas la seule. Le problème le plus difficile dans la réalisation d’une conduite autonome purement visuelle est que la vision est intrinsèquement insensible aux informations 3D, et les grands modèles n’ont pas fondamentalement changé cela. Cela se reflète spécifiquement dans : 1) La manière de recevoir passivement les ondes électromagnétiques rend la vision contrairement aux autres capteurs capables de mesurer des informations géométriques dans l'espace 3D. 2) La perspective rend les objets distants extrêmement sensibles aux erreurs ; Ceci est très peu convivial pour la planification et le contrôle en aval, qui sont implémentés par défaut dans un espace 3D à erreur égale. Cependant, conduire par la vision équivaut-il à être capable d’estimer avec précision la distance et la vitesse en 3D ? Je pense qu'il s'agit d'une question de représentation qui mérite une étude approfondie dans le cadre de la conduite autonome purement visuelle en plus de la compréhension sémantique.
Ce concept fait référence au signal de contrôle du capteur jusqu'à la sortie finale (en fait, je pense qu'il peut également inclure largement les informations de points de cheminement vers la planification des couches plus en amont) en utilisant une optimisation conjointe modèle. Il peut s'agir soit d'une méthode directe de bout en bout qui saisit les données de capteurs comme ALVINN dès les années 1980 et émet des signaux de contrôle directement via un réseau neuronal, soit d'une méthode de bout en bout par étapes comme le meilleur CVPR de cette année. papier UniAD. Cependant, un point commun de ces méthodes est que le signal de supervision aval peut être directement transmis à l'amont, au lieu que chaque module ait ses propres objectifs d'optimisation auto-définis. Dans l’ensemble, c’est une bonne idée. Après tout, le deep learning repose sur une telle optimisation conjointe pour faire fortune. Cependant, pour les systèmes tels que la conduite autonome ou les robots à usage général, qui sont souvent extrêmement complexes et traitent du monde physique, de nombreux problèmes doivent être surmontés en termes de mise en œuvre technique, d'organisation des données et d'efficacité d'utilisation.
Ce concept semble être rarement évoqué, mais en fait je trouve que l'existence de bout en bout en elle-même est précieuse, mais le problème réside dans l'observation de l'utilisation de cette méthode Feed-Forward. Moi y compris, en fait, j'ai toujours pensé par défaut que la conduite de bout en bout doit être sous la forme de Feed-Forward, car 99 % des méthodes actuelles basées sur l'apprentissage profond supposent une telle structure, ce qui signifie que le résultat final préoccupant (tels que les signaux de commande)u = f(x), x correspond aux différentes observations du capteur. Ici f peut être une fonction très complexe. Mais en fait, dans certains problèmes, nous espérons que le résultat final satisfasse ou soit proche de certaines propriétés, il est donc difficile pour le formulaire Feed-Forward de donner une telle garantie. Il existe donc une autre façon d'écrire u* = argmin g(u, x) s.t. h(u, x)
Avec le développement des grands modèles, cette solution de conduite autonome de bout en bout à Feed-Forward direct a marqué le début d'une vague de renouveau. Bien sûr, les grands modèles sont très puissants, mais je soulève une question et j'espère que tout le monde y réfléchira : si le grand modèle est tout-puissant de bout en bout, cela signifie-t-il qu'il devrait être capable de jouer au Go/Gobang de bout en bout ? -jusqu'à la fin ? Des paradigmes comme AlphaGo ne devraient-ils pas avoir de sens ? Je crois que tout le monde sait que la réponse est non. Bien entendu, cette méthode Feed-Forward peut être utilisée comme solveur approximatif rapide et obtenir de bons résultats dans la plupart des scénarios.
À en juger par les différentes solutions qui ont révélé leur utilisation de Neural Planner, la partie neuronale ne fournit qu'un certain nombre de propositions d'initialisation pour des solutions d'optimisation ultérieures afin d'atténuer le problème de l'optimisation hautement non convexe dans les optimisations ultérieures. C'est essentiellement la même chose qu'un déploiement rapide dans AlphaGo. Mais AlphaGo ne qualifiera pas la recherche MCTS ultérieure de solution de « dissimulation ». . . Enfin, j'espère que cela pourra aider tout le monde à clarifier les différences et les liens entre ces concepts, et que chacun pourra clairement comprendre de quoi il parle lorsqu'il discute de problèmes. . . Lien original : https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_ACe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!