Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données-IA-php.cn

Avec les grands modèles comme bénédiction intelligente, les robots humanoïdes sont devenus une nouvelle tendance.

Le robot du film de science-fiction "je peux dire que je ne suis pas un humain" semble se rapprocher.

Cependant, penser et agir comme des humains reste un problème d'ingénierie difficile pour les robots, en particulier les robots humanoïdes.

Prenons comme exemple un simple apprentissage de la marche. L'utilisation de l'apprentissage par renforcement pour s'entraîner peut évoluer vers ce qui suit :

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Il n'y a aucun problème en théorie (en suivant le mécanisme de récompense), et l'objectif d'y aller. monter les escaliers a été atteint, sauf que le processus est relativement abstrait, il peut ne pas être le même que la plupart des modèles de comportement humain.

La raison pour laquelle il est difficile pour les robots d'agir « naturellement » comme les humains est due à la nature de haute dimension de l'espace d'observation et d'action, et à l'instabilité inhérente à la forme bipède.

À cet égard, un travail auquel LeCun a participé a donné une nouvelle solution basée sur les données.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Adresse en papier: https://arxiv.org/pdf/2405.18418

project Introduction: https://nicklashanansen.com/rlpuppeteer

look à l'efficacité d'abord:

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

En comparant l'effet de droite, la nouvelle méthode a entraîné des comportements plus proches des humains. Bien qu'elle ait une signification un peu "zombie", le niveau d'abstraction a été considérablement réduit, du moins dans la limite des capacités de. la plupart des humains.

Bien sûr, certains internautes venus semer le trouble ont déclaré : "Celui d'avant avait l'air plus intéressant."

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Dans ce travail, les chercheurs explorent une approche de contrôle humanoïde visuel du corps entier, hautement basée sur les données, basée sur l'apprentissage par renforcement sans aucune hypothèse simplificatrice, conception de récompense ou primitive de compétence.

L'auteur a proposé un modèle mondial hiérarchique pour former deux agents, de haut niveau et de bas niveau. L'agent de haut niveau génère des commandes basées sur des observations visuelles que l'agent de bas niveau doit exécuter.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Code source ouvert : https://github.com/nicklashansen/puppeteer

Ce modèle, nommé Puppeteer, utilise un robot humanoïde simulé à 56 DoF pour générer des performances élevées dans 8 tâches Stratégies de contrôle des performances tout en synthétisant les mouvements naturels de type humain et la capacité de traverser des terrains difficiles.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Modèle du monde hiérarchique contrôlé de haute dimension

L'apprentissage et la formation d'agents polyvalents dans le monde physique ont toujours été l'un des objectifs de la recherche dans le domaine de l'IA.

Les robots humanoïdes peuvent effectuer diverses tâches en intégrant le contrôle et la perception de l'ensemble du corps, ils se distinguent donc comme des plates-formes multifonctionnelles.

Mais le coût de l'imitation d'animaux avancés comme nous reste très élevé.

Par exemple, dans l'image ci-dessous, afin d'éviter d'entrer dans les fosses, le robot humanoïde doit détecter avec précision la position et la longueur de l'espace au sol venant en sens inverse, et en même temps coordonner soigneusement les mouvements de tout son corps afin que il a suffisamment d’élan et de portée pour franchir chaque écart.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Puppeteer est une méthode RL basée sur les données et basée sur le modèle mondial hiérarchique JEPA proposé par LeCun en 2022.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Il se compose de deux agents différents : l'un est responsable de la perception et du suivi, en suivant le mouvement de référence via un contrôle au niveau des articulations ; l'autre "marionnette visuelle" (marionnettiste) apprend à effectuer des tâches en aval en synthétisant un mouvement de référence de faible dimension, qui est l'ancien support de suivi.

Puppeteer utilise l'algorithme RL basé sur un modèle-TD-MPC2 pour former indépendamment deux agents en deux étapes différentes.

(ps : Ce TD-MPC2 est l'image animée utilisée à titre de comparaison au début de l'article. Bien qu'elle semble un peu abstraite, il s'agit en fait du SOTA précédent, publié dans l'ICLR de cette année, et le premier travail est également le premier travail de cet article.)

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Dans la première étape, le modèle mondial de suivi est d'abord pré-entraîné, en utilisant des données de capture de mouvement humain préexistantes comme référence pour convertir le mouvement en actions physiquement exécutables. . Cet agent peut être enregistré et réutilisé dans toutes les tâches en aval.

Dans la deuxième étape, un modèle de monde de marionnettes est formé, qui prend des observations visuelles en entrée et intègre le mouvement de référence fourni par un autre agent en sortie selon la tâche en aval spécifiée.

Ce cadre semble très simple : les deux modèles mondiaux sont algorithmiquement identiques, seulement différents en entrée/sortie, et sont formés à l'aide de RL sans aucune autre cloche et sifflet.

Différent des paramètres RL hiérarchiques traditionnels, "Puppet" affiche les positions géométriques des articulations effectrices terminales plutôt que l'intégration de la cible.

Cela rend l'agent responsable du suivi facile à partager et à généraliser entre les tâches, économisant ainsi de l'espace informatique global.

Méthode de recherche

Les chercheurs ont modélisé le contrôle humanoïde visuel du corps entier comme un problème d'apprentissage par renforcement contrôlé par un processus de décision de Markov (MDP), basé sur le tuple (S, A, T, R, γ , Δ) sont des caractéristiques,

où S est l'état, A est l'action, T est la fonction de transition d'environnement, R est la fonction de récompense scalaire, γ est le facteur d'actualisation et Δ est la condition de terminaison.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Comme le montre la figure ci-dessus, les chercheurs ont utilisé RL pour pré-entraîner l'agent de suivi sur les données MoCap humaines, qui ont été utilisées pour obtenir des informations proprioceptives et une entrée de mouvement de référence abstraite, et synthétiser des actions de bas niveau pour suivre le mouvement de référence.

Ensuite, grâce à l'interaction en ligne, l'agent marionnette avancé responsable des tâches en aval est formé. La marionnette accepte l'entrée d'informations d'état et visuelles et émet des commandes que l'agent de suivi doit exécuter.

TD-MPC2

TD-MPC2 apprend un modèle mondial latent sans décodeur à partir des interactions environnementales et utilise le modèle appris pour la planification.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Tous les composants du modèle mondial sont appris de bout en bout en utilisant une combinaison de prédiction d'intégration conjointe, de prédiction de récompense et de perte de différence temporelle sans décoder les observations originales.

Pendant l'inférence, TD-MPC2 suit le cadre Model Predictive Control (MPC), en utilisant Model Predictive Path Integral (MPPI) comme optimiseur sans dérivé (basé sur l'échantillonnage) pour l'optimisation de trajectoire locale.

Afin d'accélérer la planification, TD-MPC2 apprend également à l'avance une stratégie sans modèle pour pré-démarrer le programme d'échantillonnage.

Les deux agents sont algorithmiquement identiques et tous deux sont constitués des 6 composants suivants :

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Expérience

Pour évaluer l'efficacité de la méthode, les chercheurs ont proposé une nouvelle La suite de tâches utilise un 56 simulé -Robot humanoïde à degré de liberté pour le contrôle visuel de tout le corps. Il contient un total de 8 tâches difficiles. Les méthodes utilisées pour la comparaison incluent SAC, DreamerV3 et TD-MPC2.

Les 8 tâches sont présentées dans la figure ci-dessous, dont 5 tâches de mouvement du corps entier liées à la condition visuelle et 3 autres tâches sans entrée visuelle.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Les quêtes sont conçues avec un haut degré d'aléatoire et incluent courir dans des couloirs, sauter par-dessus des obstacles et des interstices, monter des escaliers et contourner les murs.

Les cinq tâches de contrôle visuel utilisent toutes une fonction de récompense proportionnelle à la vitesse d'avancement linéaire, tandis que les tâches non visuelles récompensent le déplacement dans n'importe quelle direction.

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

L'image ci-dessus représente la courbe d'apprentissage. Les résultats montrent que SAC et DreamerV3 sont incapables d'atteindre des performances significatives sur ces tâches.

TD-MPC2 fonctionne à égalité avec notre méthode en termes de récompenses, mais produit un comportement non naturel (voir les actions abstraites dans l'image ci-dessous).

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

De plus, afin de prouver que les mouvements générés par Puppeteer sont effectivement plus "naturels", cet article a également mené une expérience de préférence humaine. Le test sur 46 participants a montré que les humains aiment généralement le. mouvements générés par cette méthode.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Le nouveau travail de LeCun : modèle du monde en couches, contrôle de robot humanoïde basé sur les données

Modèle du monde hiérarchique contrôlé de haute dimension

Méthode de recherche

Expérience