Les anciens élèves de l'Université Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés-IA-php.cn

Depuis sa première tenue en 2017, CoRL est devenue l'une des conférences universitaires les plus importantes au monde à l'intersection de la robotique et de l'apprentissage automatique. CoRL est une conférence unique pour la recherche sur l'apprentissage des robots, couvrant plusieurs sujets tels que la robotique, l'apprentissage automatique et le contrôle, y compris la théorie et les applications.

La conférence CoRL 2022 se tiendra à Auckland, en Nouvelle-Zélande, du 14 au 18 décembre.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Cette conférence a reçu un total de 504 soumissions et a finalement accepté 34 communications orales et 163 communications par affiches, avec un taux d'acceptation de 39 %.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Actuellement, CoRL 2022 a annoncé tous les prix, y compris le prix du meilleur article, le prix du meilleur article système et le prix spécial de l'innovation. Kun Huang, titulaire d'une maîtrise du laboratoire GRASP de l'Université de Pennsylvanie et ancien élève de l'Université Jiao Tong de Shanghai, a remporté le prix du meilleur article lors de la conférence.

Best Paper Award

Le lauréat du Best Paper Award lors de cette conférence est une étude de l'Université de Pennsylvanie.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Titre de l'article : Entraîner des robots à évaluer des robots : fonctions de récompense interactives basées sur des exemples pour l'apprentissage des politiques
Auteurs : Kun Huang, Edward Hu, Dinesh Jayaraman
Lien de l'article : https://openreview.net/pdf?id=sK2aWU7X9b8

Résumé : Souvent, les interactions physiques aident à révéler des informations moins évidentes, comme par exemple si nous tirons un pied de table pour évaluer s'il est stable ou s'il fait tourner une bouteille d'eau. à l'envers pour vérifier s'il y a une fuite, l'étude suggère que ce comportement interactif pourrait être acquis automatiquement en entraînant un robot à évaluer les résultats de ses tentatives pour exécuter la compétence. Ces évaluations, à leur tour, servent d'IRF (fonctions de récompense interactives) utilisées pour entraîner des politiques d'apprentissage par renforcement afin d'exécuter des compétences cibles, telles que le serrage des pieds de table. De plus, l'IRF peut servir de mécanisme de vérification pour améliorer l'exécution des tâches en ligne, même une fois la formation complète terminée. Pour une tâche donnée, la formation IRF est très pratique et ne nécessite aucune spécification supplémentaire.

Les résultats de l'évaluation montrent qu'IRF peut réaliser des améliorations significatives des performances et même dépasser les références avec un accès à des démos ou à des récompenses soigneusement conçues. Par exemple, dans l'image ci-dessous, le robot doit d'abord fermer la porte, puis faire pivoter la poignée symétrique de la porte pour verrouiller complètement la porte.

Démonstration d'un exemple d'évaluation du verrouillage de porte

Le but de l'expérience suivante est d'empiler 3 blocs visuellement identiques dans une tour stable, avec un petit bloc nettement plus grand que les deux autres blocs, donc le plus lourd. la meilleure stratégie est de le placer en bas.

Démonstration d'un exemple d'évaluation empilée

Pour vérifier la robustesse et la généralité de l'algorithme, cette étude l'a testé dans de véritables expériences de serrage de robots utilisant D'Claw à 9 articulations. Le but de cette tâche est de faire tourner la vanne à 4 broches d'environ 180° dans le sens des aiguilles d'une montre jusqu'à ce qu'elle soit serrée (ligne blanche sur la base de la vanne).

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Présentation de l'auteur

Trois auteurs ont remporté cette fois le CoRL 2022 Best Paper Award, à savoir Kun Huang, Edward Hu et Dinesh Jayaraman.

Dinesh Jayaraman est professeur adjoint au laboratoire GRASP de l'Université de Pennsylvanie. Il dirige le groupe de recherche Perception, Action et Apprentissage (PAL), dédié à la recherche sur les questions d'intersection de la vision par ordinateur, de l'apprentissage automatique, et la robotique.

Kun Huang est titulaire d'un master au laboratoire GRASP de l'Université de Pennsylvanie et étudie l'apprentissage par renforcement sous la direction du professeur Dinesh Jayaraman. Il a obtenu sa licence en informatique à l'Université du Michigan, où il a travaillé sur la perception des robots avec le professeur Dmitry Berenson. Kun Huang est diplômé de l'Université Jiao Tong de Shanghai avec une licence. Ses intérêts de recherche incluent la robotique et les applications du monde réel. Kun Huang a effectué un stage chez Waymo pendant sa maîtrise et rejoindra Cruise en tant qu'ingénieur en apprentissage automatique après l'obtention de son diplôme.

Page d'accueil Linkedin : https://www.linkedin.com/in/kun-huang-620034171/

Edward S. Hu est doctorant au laboratoire GRASP de l'Université de Pennsylvanie, sous la direction du professeur Dinesh Jayaraman. Ses principaux intérêts de recherche portent sur l’apprentissage par renforcement basé sur des modèles. Edward a obtenu sa maîtrise et sa licence en informatique de l'Université de Californie du Sud, où il a travaillé sur l'apprentissage par renforcement et par imitation chez les robots avec le professeur Joseph J. Lim.

Meilleur article présélectionné

Au total, 3 articles ont été présélectionnés pour le prix du meilleur article lors de cette conférence À l'exception de l'article final gagnant, les 2 autres articles sont :

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Paper. Titre : Apprentissage de compétences agiles via l'imitation contradictoire de démonstrations partielles approximatives
Auteurs : Chenhao Li, Marin Vlastelica, Sebastian Blaes, Jonas Frey, Felix Grimminger, Georg Martius
Lien papier : https://arxiv.org/ pdf/2206.11693.pdf

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Titre de l'article : Imitation de suralimentation avec transport optimal régularisé
Auteur : Siddhant Haldar, Vaibhav Mathur, Denis Yarats, Lerrel Pinto
Lien papier : https://arxiv.org/pdf/2206.15469.pdf

Best System Paper Award

Le lauréat du Best System Paper Award lors de cette conférence est une étude de la CMU et de l'UC Berkeley. ：题 Titre de la thèse : Locomotion sur pattes sur des terrains difficiles EN UTILISANT LA VISION ÉGOCENTRIQUE

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés Auteur : Ananye Agarwal, Ashish Kumar, Jitendra Malik, DEEPAK PATHAK

Résumé : Les animaux sont capables d'utiliser la vision pour effectuer des mouvements précis et agiles, et reproduire cette capacité est un objectif de longue date en robotique. L’approche traditionnelle consiste à décomposer le problème en une phase de cartographie des élévations et de planification des points d’ancrage. Cependant, la cartographie d'élévation est sensible aux problèmes et au bruit sur de grandes zones, nécessite un matériel spécialisé et est biologiquement irréalisable.
Dans cet article, les chercheurs proposent le premier système de locomotion de bout en bout capable de traverser des escaliers, des bordures, des tremplins et des interstices, et le démontrent sur un robot quadrupède de taille moyenne à l'aide d'une seule caméra de profondeur frontale. atteint ce résultat. En raison de la petite taille du robot, il est nécessaire de découvrir des modèles de démarche spécialisés que l’on ne trouve nulle part ailleurs. La caméra doit maîtriser la stratégie de mémorisation des informations passées pour estimer le terrain derrière et en dessous.

Les chercheurs ont entraîné la stratégie du robot dans un environnement simulé. La formation est divisée en deux étapes : d'abord utiliser l'apprentissage par renforcement pour former une politique sur des variantes d'images profondes avec un faible coût de calcul, puis l'affiner en une politique finale à l'aide de l'apprentissage supervisé en profondeur.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

La stratégie finale est transférable au monde réel et peut être exécutée en temps réel sur la puissance de calcul limitée du robot. Il peut traverser un large éventail de terrains tout en étant robuste aux perturbations telles que les surfaces glissantes et les terrains rocheux.

Tremplins et espaces

Le robot est capable d'enjamber les tabourets de bar dans diverses configurations et d'ajuster la longueur des marches pour couvrir de grands espaces. Puisqu’il n’y a pas de caméras à proximité des pieds arrière, le robot doit se souvenir de la position du tabouret de bar et placer ses pieds arrière en conséquence.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Escaliers et bordures

Le robot est capable de monter des escaliers jusqu'à 24 cm de haut et 30 cm de large. Les stratégies s'appliquent à différents escaliers et bordures dans diverses conditions d'éclairage. Sur des escaliers inégalement espacés, le robot restera bloqué dans un premier temps, mais pourra éventuellement utiliser un comportement de montée pour franchir ces obstacles.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Terrain non structuré

Le robot peut traverser un terrain non structuré qui n'entre pas dans l'une de ses catégories d'entraînement, démontrant les capacités de généralisation du système.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Mouvement dans l'obscurité

La caméra de profondeur utilise la lumière infrarouge pour projeter des motifs afin d'estimer avec précision la profondeur même dans pratiquement aucune lumière ambiante.

Robustesse

La stratégie est robuste aux forces élevées (lancer un poids de 5kg d'une hauteur) et aux surfaces glissantes (eau versée sur une feuille de plastique). Il y a quatre auteurs dans cette étude.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés Jitendra Malik est actuellement professeur Arthur J. Chick au Département de génie électrique et d'informatique de l'UC Berkeley. Ses domaines de recherche comprennent la vision par ordinateur, la modélisation informatique de la vision humaine, l'infographie et l'analyse d'images biologiques.

L'un des auteurs de cette étude primée, Ashish Kumar, est son doctorant. Deepak Pathak est actuellement professeur adjoint à l'Université Carnegie Mellon. Il a obtenu son doctorat à l'Université de Californie à Berkeley et ses sujets de recherche incluent l'apprentissage automatique, la robotique et la vision par ordinateur.

Ananye Agarwal, l'un des auteurs de cette étude primée, est son doctorant.

De plus, Deepak Pathak a une autre recherche sur la liste restreinte pour le Best System Paper Award lors de cette conférence.

Titre de l'article : Contrôle profond du corps entier : apprendre une politique unifiée pour la manipulation et la locomotion
Auteurs : Zipeng Fu, Xuxin Cheng, Deepak Pathak
Lien de l'article : https://arxiv.org/abs /2210.10044

Prix spécial de l'innovation

Cette conférence a également sélectionné un prix spécial de l'innovation. Cette recherche a été réalisée conjointement par de nombreux chercheurs de Google.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Titre de l'article : Faites ce que je peux, pas ce que je dis : Fonder le langage dans les opportunités robotiques
Auteurs : Brian Ichter, Anthony Brohan, Michael Ahn, etc.
Lien de l'article : https://arxiv.org/pdf/2204.01691.pdf

Résumé de l'article :Les grands modèles de langage peuvent coder une grande quantité de connaissances sémantiques sur le monde, et ces connaissances sont très utiles pour les robots. Cependant, les modèles linguistiques présentent l’inconvénient de manquer d’expérience avec le monde réel, ce qui rend difficile l’exploitation de la sémantique pour prendre des décisions sur une tâche donnée.

Des chercheurs de Google proposent de fournir une base réelle pour les grands modèles de langage grâce à des compétences de pré-formation qui sont utilisées pour contraindre le modèle à proposer des opérations en langage naturel à la fois réalisables et appropriées au contexte. Les robots peuvent servir de « mains et d’yeux » aux modèles de langage, qui fournissent des connaissances sémantiques de haut niveau sur la tâche. Cette étude montre comment les compétences de bas niveau peuvent être combinées avec de grands modèles de langage afin que le modèle de langage fournisse des connaissances de haut niveau sur les processus qui exécutent des instructions complexes et prolongées dans le temps, tandis que les fonctions de valeur associées à ces compétences fournissent les moyens de connecter ces connaissances aux environnements physiques spécifiques requis.

Les chercheurs ont utilisé ce principe en combinant un grand modèle de langage (LLM) avec les tâches physiques du robot : en plus de laisser le LLM simplement interpréter une instruction, il peut également être utilisé pour évaluer l'impact d'une seule action sur la réalisation du robot. Il y a de fortes chances que des instructions avancées vous aident. En termes simples, chaque action peut avoir une description de langage, et nous pouvons utiliser le modèle de langage d'invite pour lui permettre de noter ces actions. De plus, si chaque action a une fonction d’affordance correspondante, il est possible de quantifier sa probabilité de succès à partir de l’état actuel (par exemple, une fonction de valeur apprise). Le produit de deux valeurs de probabilité est la probabilité que le robot puisse mener à bien une action utile à l'instruction. Triez une série d'actions en fonction de cette probabilité et sélectionnez celle avec la probabilité la plus élevée.

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

L'exemple ci-dessous montre un robot aidant à ramasser une pomme :

Les anciens élèves de lUniversité Jiao Tong de Shanghai ont remporté le meilleur article et les prix de CoRL 2022, la plus grande conférence sur la robotique, ont été annoncés

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!