CMUÐ réalise une percée : le chien robot a une pleine valeur d'agilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !-IA-php.cn

Les équipes de la CMU et de l'ETH Zurich ont collaboré pour développer un nouveau framework appelé "Agile But Safe" (ABS), qui fournit une solution permettant aux robots quadrupèdes d'effectuer des mouvements à grande vitesse dans des environnements complexes. Le cadre fait non seulement preuve d'une grande efficacité pour éviter les collisions, mais atteint également une vitesse sans précédent de 3,1 millisecondes. Cette innovation apporte de nouveaux progrès dans le domaine des robots à pattes.

Dans le domaine du mouvement des robots à grande vitesse, maintenir à la fois vitesse et sécurité a toujours été un énorme défi. Cependant, une équipe de recherche de l’Université Carnegie Mellon (CMU) et de l’ETH Zurich (ETH) a récemment réalisé une percée. Le nouvel algorithme de robot quadrupède qu'ils ont développé peut non seulement se déplacer rapidement dans des environnements complexes, mais également éviter habilement les obstacles, atteignant ainsi véritablement l'objectif « d'agilité et de sécurité ». L’innovation de cet algorithme réside dans sa capacité à identifier et analyser rapidement l’environnement et à prendre des décisions intelligentes basées sur des données en temps réel. Grâce à des capteurs avancés et à une puissance de calcul puissante, le robot est capable de détecter avec précision les obstacles autour de lui et de les éviter en ajustant sa démarche et sa trajectoire. L'application réussie de cette technologie favorisera grandement le développement de robots à grande vitesse

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Adresse papier : https://arxiv.org/pdf/2401.17583.pdf

Avec le soutien de l'ABS, le chien robot peut effectuer dans divers scénarios Tous ont démontré d'étonnantes capacités d'évitement d'obstacles à grande vitesse :

Couloirs étroits remplis d'obstacles :

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Scènes intérieures désordonnées :

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Qu'il s'agisse d'herbe ou d'extérieur, d'obstacles statiques ou dynamiques, le robot le chien peut les gérer calmement :

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Lorsqu'il rencontre une poussette, le chien robot esquive adroitement :

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Les panneaux d'avertissement, les boîtes et les chaises ne sont pas non plus un problème :

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Il peut aussi facilement s'en occuper avec l'apparition soudaine de tapis et de pieds humains Bypass :

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Le chien robot peut même jouer à l'aigle et attraper des poulets :

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

ABS Technologie révolutionnaire :

RL+ Apprentissage sans modèle de la valeur Reach-Avoid

ABS utilise un paramètre de politique double (Dual Policy), comprenant une « Politique Agile » (Politique Agile) et une « Politique de récupération » (Politique de récupération). La stratégie Agile permet au robot de se déplacer rapidement à travers des environnements d'obstacles, tandis que la stratégie de récupération intervient pour assurer la sécurité du robot une fois que l'estimation de la valeur Atteindre-Éviter détecte un danger potentiel (comme l'apparition soudaine d'une poussette).

CMUÐ réalise une percée : le chien robot a une pleine valeur dagilité, peut franchir des obstacles à très grande vitesse et a à la fois vitesse et sécurité !

Point d'innovation 1 : Comment former une Politique Agile ?

L'innovation de la stratégie agile est qu'au lieu de simplement suivre les instructions de vitesse dans le passé, elle utilise le suivi de position pour maximiser l'agilité du robot. Cette stratégie entraîne le robot à développer des compétences sensorimotrices pour atteindre un objectif spécifié sans collision. En poursuivant la condition de récompense d’une vitesse de base élevée, le robot apprend naturellement à atteindre une agilité maximale tout en évitant les collisions. Cette méthode surmonte les éventuelles limitations conservatrices des stratégies traditionnelles de suivi de vitesse dans des environnements complexes et améliore efficacement la vitesse et la sécurité des robots dans des environnements d'obstacles. La politique agile a atteint une vitesse maximale de 3,1 m/s lors du test réel

Point d'innovation 2 : valeur d'atteinte-éviter conditionnée par la politique d'apprentissage

"Reach-Avoid, RA" ) Le L'innovation de l'apprentissage de la valeur réside dans le fait qu'il adopte une approche d'apprentissage sans modèle, qui est différente de la méthode traditionnelle d'analyse d'accessibilité basée sur un modèle et est plus adaptée aux stratégies d'apprentissage par renforcement sans modèle. Plutôt que d’apprendre une valeur globale de RA, cette approche la rend dépendante d’une stratégie spécifique, qui permet de mieux prédire l’échec d’une stratégie agile. Grâce à un ensemble simplifié d'observations, le réseau de valeurs RA peut généraliser et prédire efficacement les risques pour la sécurité. La valeur RA est utilisée pour guider les stratégies de récupération et aider le robot à optimiser son mouvement pour éviter les collisions, atteignant ainsi l'objectif d'améliorer l'agilité tout en assurant la sécurité.

La figure ci-dessous montre la valeur RA (reach defense) apprise pour un ensemble spécifique d'obstacles. À mesure que la vitesse du robot change, le paysage de distribution des valeurs RA change en conséquence. Le signe de la valeur RA est une indication raisonnable de la sécurité de la stratégie agile. En d’autres termes, ce graphique montre le risque de sécurité du robot face à des obstacles spécifiques à différentes vitesses à travers différentes valeurs RA. Les changements élevés et faibles de la valeur RA reflètent les risques de sécurité que le robot peut rencontrer lors de l'exécution de stratégies agiles dans différents états.

Point d'innovation 3 : Utiliser la valeur Reach-Avoid et la stratégie de récupération pour sauver le robot

L'innovation de la stratégie de récupération est qu'elle permet au robot quadrupède de suivre rapidement les instructions de vitesse linéaire et de vitesse angulaire en guise de sauvegarde stratégies de conservation. Contrairement à la stratégie agile, l’espace d’observation de la stratégie de récupération se concentre sur le suivi des commandes de vitesse linéaire et de vitesse angulaire et ne nécessite pas d’informations sensorielles externes. Les récompenses de mission de la stratégie de récupération se concentrent sur le suivi de la vitesse linéaire, le suivi de la vitesse angulaire, le maintien en vie et le maintien de la posture pour permettre un retour en douceur à la stratégie d'agilité. La formation à cette stratégie est également effectuée dans un environnement de simulation, mais avec une randomisation de domaine spécifique et des paramètres de programme pour mieux s'adapter aux conditions susceptibles de déclencher la stratégie de récupération. Cette approche permet aux robots quadrupèdes de réagir rapidement aux pannes potentielles lors de mouvements à grande vitesse.

La figure ci-dessous montre une représentation visuelle du paysage des valeurs RA lorsque la stratégie de redressement est déclenchée dans deux situations spécifiques (I et II). Ces visualisations sont effectuées dans les plans vx (vitesse le long de l'axe x) par rapport à ωz (vitesse angulaire autour de l'axe z) et vx par rapport à vy (vitesse le long de l'axe y). La figure montre l'état de rotation initial avant la recherche (c'est-à-dire l'état de rotation actuel de la base du robot) et les commandes obtenues grâce à la recherche. En termes simples, ces graphiques montrent les instructions de mouvement optimales obtenues grâce à la recherche de stratégie de récupération dans des conditions spécifiques, et comment ces instructions affectent la valeur RA, reflétant ainsi la sécurité du robot dans différents états de mouvement.

Test de robustesse

L'auteur a testé la robustesse du cadre ABS dans quatre scénarios de « charge de 12 kg/impact de basket-ball/coup de pied/neige », et le chien robot était calme Réponse :

Équipe de recherche

Cette recherche a été réalisée conjointement par les équipes de recherche de la CMU et de l'ETH. Les membres de l'équipe comprennent Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu et Guanya Shi. Leur coopération a non seulement permis des percées majeures dans le domaine de la robotique, mais a également ouvert de nouvelles possibilités d'application pour les robots quadrupèdes. Le succès de cette technologie démontre le grand potentiel des robots quadrupèdes dans les domaines du mouvement à grande vitesse et de l’évitement d’obstacles en toute sécurité. À l’avenir, ce robot quadrupède rapide et sûr devrait jouer un rôle important dans de nombreux domaines tels que la recherche et le sauvetage, l’exploration ou encore les services à domicile.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!