Entraînement avec 7 500 données de trajectoire, CMU et Meta permettent au robot d'atteindre le niveau de salon et de cuisine polyvalents-IA-php.cn

En s'entraînant simplement à l'aide de 7 500 données de trajectoire, ce robot peut démontrer 12 compétences opérationnelles différentes dans 38 tâches, non seulement limitées au prélèvement et à la poussée, mais incluant également la manipulation conjointe d'objets et le repositionnement d'objets. De plus, ces compétences peuvent être appliquées à des centaines de situations inconnues différentes, notamment des objets inconnus, des tâches inconnues et même des environnements de cuisine complètement inconnus. Ce genre de robot est vraiment cool !

Entraînement avec 7 500 données de trajectoire, CMU et Meta permettent au robot datteindre le niveau de salon et de cuisine polyvalents

Créer un robot capable de manipuler des objets arbitraires dans divers environnements est un objectif insaisissable depuis des décennies. L'une des raisons est le manque d'ensembles de données robotiques diversifiés pour former de tels agents, ainsi que le manque d'agents polyvalents capables de générer de tels ensembles de données

Pour surmonter ce problème, des chercheurs de l'Université Carnegie Mellon et Meta L'auteur de AI a passé deux ans à développer un RoboAgent universel. Leur objectif principal est de développer un paradigme efficace capable de former un agent général capable de compétences multiples avec des données limitées, et de généraliser ces compétences à diverses situations inconnues

Entraînement avec 7 500 données de trajectoire, CMU et Meta permettent au robot datteindre le niveau de salon et de cuisine polyvalents

RoboAgent Composé de manière modulaire de :

RoboPen - une infrastructure robotique distribuée construite avec du matériel à usage général capable de fonctionner sans interruption à long terme
RoboHive - un cadre unifié pour fonctionner dans des simulations et l'apprentissage de robots du monde réel dans
RoboSet - un haut- ensemble de données de qualité représentant plusieurs compétences utilisant des objets du quotidien dans divers scénarios ;
MT-ACT - une imitation hors ligne multitâche efficace conditionnée par le langage Le cadre d'apprentissage étend l'ensemble de données hors ligne en créant divers ensembles sémantiquement améliorés basés sur l'expérience robot existante, et adopte une nouvelle architecture politique et une méthode de représentation d'action efficace pour récupérer avec un budget de données limité. Une stratégie qui fonctionne bien.

RoboSet : ensemble de données multi-compétences, multi-tâches et multimodales

Pour construire un agent robot qui peut être généralisé dans de nombreuses situations différentes, vous avez d'abord besoin d'un ensemble de données avec une large couverture. Étant donné que les efforts de mise à l'échelle sont souvent utiles (par exemple, RT-1 a démontré des résultats sur environ 130 000 trajectoires de robots), il est nécessaire de comprendre les principes d'efficacité et de généralisation des systèmes d'apprentissage dans le contexte d'ensembles de données limités, souvent de faible niveau de données. situations. Conduira à un surapprentissage. Par conséquent, l’objectif principal des auteurs est de développer un paradigme puissant capable d’apprendre des stratégies générales généralisables dans des situations de faibles données tout en évitant les problèmes de surapprentissage.

Entraînement avec 7 500 données de trajectoire, CMU et Meta permettent au robot datteindre le niveau de salon et de cuisine polyvalents

Le panorama des compétences et des données dans l'apprentissage des robots est un domaine important. Dans l’apprentissage robotique, les compétences font référence aux capacités qu’un robot acquiert grâce à l’apprentissage et à la formation et qui peuvent être utilisées pour effectuer des tâches spécifiques. Le développement de ces compétences ne peut être dissocié du support de grandes quantités de données. Les données constituent la base de l’apprentissage des robots. En analysant et en traitant les données, les robots peuvent en tirer des leçons et améliorer leurs compétences. Les compétences et les données sont donc deux aspects indispensables de l’apprentissage des robots. Ce n'est qu'en apprenant et en acquérant continuellement de nouvelles données que les robots pourront continuer à améliorer leurs niveaux de compétences et faire preuve d'une intelligence et d'une efficacité supérieures dans diverses tâches

L'ensemble de données utilisé pour entraîner RoboAgent, RoboSet (MT-ACT), ne comprend que 7 500 trajectoires (18 fois moins que les données de RT-1). Cet ensemble de données est collecté au préalable et reste figé. L'ensemble de données se compose de trajectoires de haute qualité collectées lors de téléopérations humaines à l'aide de matériel robotique standard (robot Franka-Emika équipé de la pince Robotiq) pour plusieurs tâches et scénarios. RoboSet (MT-ACT) couvre peu 12 compétences uniques dans plusieurs contextes différents. Les données ont été collectées en divisant les activités quotidiennes de cuisine (par exemple préparer le thé, cuisiner) en différentes sous-tâches, chacune représentant une compétence unique. L'ensemble de données comprend des compétences communes de sélection et de placement, mais également des compétences riches en contacts telles que l'essuyage, l'operculage et des compétences impliquant des objets articulés. Contenu réécrit : L'ensemble de données utilisé pour entraîner RoboAgent, RoboSet (MT-ACT), ne comprend que 7 500 trajectoires (18 fois moins que les données de RT-1). Cet ensemble de données est collecté au préalable et reste figé. L'ensemble de données se compose de trajectoires de haute qualité collectées lors de téléopérations humaines à l'aide de matériel robotique standard (robot Franka-Emika équipé de la pince Robotiq) pour plusieurs tâches et scénarios. RoboSet (MT-ACT) couvre peu 12 compétences uniques dans plusieurs contextes différents. Les données ont été collectées en divisant les activités quotidiennes de cuisine (par exemple préparer le thé, cuisiner) en différentes sous-tâches, chacune représentant une compétence unique. L'ensemble de données comprend des compétences communes de sélection et de placement, mais également des compétences riches en contacts telles que l'essuyage, le bouchage et des compétences impliquant des objets articulés. apprend des stratégies générales dans des situations de faibles données sur la base de deux informations clés. Il utilise la connaissance préalable du modèle de base pour éviter l'effondrement des modes et adopte une représentation stratégique nouvelle et efficace pour pouvoir ingérer des données hautement multimodales

Entraînement avec 7 500 données de trajectoire, CMU et Meta permettent au robot datteindre le niveau de salon et de cuisine polyvalents Le contenu qui doit être réécrit est : 1. Amélioration sémantique : RoboAgent En améliorant sémantiquement RoboSet (MT-ACT), une connaissance préalable du monde à partir du modèle de base existant y est injectée. L'ensemble de données résultant combine l'expérience du robot avec une connaissance préalable du monde sans coûts humains/robot supplémentaires. Utilisez SAM pour segmenter les objets cibles et les améliorer sémantiquement en termes de changements de forme, de couleur et de texture. Contenu réécrit : 1. Amélioration sémantique : RoboAgent injecte les connaissances mondiales antérieures du modèle de base existant dans RoboSet (MT-ACT) en l'améliorant sémantiquement. De cette manière, l'expérience du robot et sa connaissance préalable du monde peuvent être combinées sans coûts humains/robot supplémentaires. Utilisez SAM pour segmenter les objets cibles et effectuer une amélioration sémantique en termes de changements de forme, de couleur et de texture

2. Représentation efficace des politiques : l'ensemble de données résultant est extrêmement multimodal et contient une grande variété de compétences, de tâches et de scénarios. . Nous appliquons la méthode de segmentation des actions à un environnement multitâche et développons une représentation politique nouvelle et efficace – MT-ACT – capable d'acquérir des ensembles de données hautement multimodaux avec de petites quantités de données tout en évitant le problème

. Résultats expérimentaux

L'efficacité des échantillons de RoboAgent est supérieure à celle des méthodes existantes

Entraînement avec 7 500 données de trajectoire, CMU et Meta permettent au robot datteindre le niveau de salon et de cuisine polyvalents

La figure ci-dessous compare la représentation politique MT-ACT proposée par l'auteur avec plusieurs architectures d'apprentissage par imitation . L'auteur utilise uniquement les changements d'environnement, y compris les changements de pose d'objet et les changements d'éclairage partiel. Semblable aux études précédentes, les auteurs attribuent cela à la généralisation L1. Il ressort clairement des résultats de RoboAgent que l'utilisation du découpage d'actions pour modéliser des sous-trajectoires surpasse considérablement toutes les méthodes de base, prouvant ainsi l'efficacité de la représentation politique proposée par l'auteur dans un apprentissage efficace par échantillon

RoboAgent excelle à plusieurs niveaux d'abstraction

La figure suivante montre les résultats des méthodes de test de l'auteur à différents niveaux de généralisation. Dans le même temps, le niveau de généralisation est également démontré par la visualisation, où L1 représente les changements de pose des objets, L2 représente divers arrière-plans de bureau et facteurs de distraction, et L3 représente de nouvelles combinaisons compétence-objet. Ensuite, les auteurs montrent comment chaque méthode fonctionne à ces niveaux de généralisation. Dans des études d'évaluation rigoureuses, MT-ACT a obtenu des résultats nettement meilleurs que les autres méthodes, en particulier au niveau de généralisation plus difficile (L3). d'amélioration sémantique dans une activité de 5 compétences. Comme le montre la figure ci-dessous, à mesure que les données augmentent (c'est-à-dire que le nombre d'améliorations par image augmente), les performances s'améliorent considérablement à tous les niveaux de généralisation. Il est particulièrement intéressant de noter que dans la tâche la plus difficile (généralisation L3), l'amélioration des performances est plus évidente

Entraînement avec 7 500 données de trajectoire, CMU et Meta permettent au robot datteindre le niveau de salon et de cuisine polyvalents