Pourquoi DeepMind est-il absent de la fête GPT ? Il s'est avéré que j'apprenais à un petit robot à jouer au football.-IA-php.cn

De l'avis de nombreux chercheurs, l'intelligence incarnée est une direction très prometteuse vers l'AGI, et le succès de ChatGPT est également indissociable de la technologie RLHF basée sur l'apprentissage par renforcement. DeepMind vs OpenAI, qui peut atteindre l'AGI en premier ? La réponse ne semble pas encore avoir été révélée.

Nous savons que créer une intelligence incarnée universelle (c'est-à-dire des agents qui agissent dans le monde physique de manière agile et adroite et comprennent comme les animaux ou les humains) C'est l'un des les objectifs à long terme des chercheurs en IA et des experts en robotique. En termes de temps, la création d’agents incarnés intelligents dotés de capacités de locomotion complexes remonte à de nombreuses années, tant dans les simulations que dans le monde réel.

Le rythme des progrès s'est considérablement accéléré ces dernières années, les méthodes basées sur l'apprentissage jouant un rôle majeur. Par exemple, il a été démontré que l'apprentissage par renforcement profond est capable de résoudre des problèmes complexes de contrôle de mouvement de personnages simulés, y compris un contrôle complexe du corps entier basé sur la perception ou un comportement multi-agents. Dans le même temps, l'apprentissage par renforcement profond est de plus en plus utilisé dans les robots physiques. En particulier, les robots quadrupèdes de haute qualité largement utilisés sont devenus des cibles de démonstration pour apprendre à générer une gamme de comportements locomoteurs robustes.

Cependant, le mouvement dans des environnements statiques n'est qu'une partie des nombreuses façons dont les animaux et les humains déploient leur corps pour interagir avec le monde, et cette forme de mouvement a été utilisé dans de nombreuses études sur le contrôle du corps entier et a été démontré dans des travaux sur la manipulation du mouvement, en particulier pour les robots quadrupèdes. Des exemples de mouvements associés incluent l’escalade, les compétences de football telles que dribbler ou attraper un ballon et des manœuvres simples utilisant les jambes.

Parmi elles, pour le football, elle présente de nombreuses caractéristiques de l'intelligence sensorimotrice humaine. La complexité du football nécessite une variété de mouvements très agiles et dynamiques, notamment courir, se retourner, éviter, donner des coups de pied, passer, tomber et se relever, etc. Ces actions doivent être combinées de diverses manières. Les joueurs doivent prédire le ballon, leurs coéquipiers et les joueurs adverses, et ajuster leurs actions en fonction de l'environnement de jeu. Cette diversité de défis a été reconnue dans les communautés de la robotique et de l'IA, et RoboCup est née.

Cependant, il convient de noter que l'agilité, la flexibilité et la réactivité nécessaires pour bien jouer au football, ainsi que la transition en douceur entre ces éléments, sont très difficiles pour conception manuelle des robots. Et prend du temps. Récemment, un nouvel article de DeepMind (maintenant fusionné avec l'équipe Google Brain pour former Google DeepMind) explore l'utilisation de l'apprentissage par renforcement profond pour acquérir des compétences de football agiles pour les robots bipèdes. # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # # # ：https://arxiv.org/pdf/2304.13653.pdf

Page d'accueil du projet : https://sites.google.com /view/op3-soccer Pourquoi DeepMind est-il absent de la fête GPT ? Il sest avéré que japprenais à un petit robot à jouer au football.

Dans cet article, les chercheurs étudient le contrôle complet du corps et le contrôle de petits robots humanoïdes dans des environnements multi-agents dynamiques. Interaction d'objet. Ils ont examiné un sous-ensemble du problème du football dans son ensemble, ont formé un robot humanoïde miniature à faible coût doté de 20 articulations contrôlables pour jouer à un match de football 1 contre 1 et ont observé les caractéristiques proprioceptives et l'état du jeu.

Grâce au contrôleur intégré, le robot se déplace lentement et maladroitement. Cependant, les chercheurs ont utilisé l'apprentissage par renforcement profond pour synthétiser des habiletés motrices dynamiques et agiles adaptées au contexte (telles que marcher, courir, tourner, taper dans un ballon et se relever après une chute) que l'agent combinait de manière naturelle et douce en des exercices longs complexes. -comportements à terme.

Dans l'expérience, l'agent a appris à prédire le mouvement de la balle, le positionnement, le blocage et l'utilisation des balles rebondies. Les agents parviennent à ces comportements dans un environnement multi-agents grâce à une combinaison de réutilisation des compétences, de formation de bout en bout et de récompenses simples. Les chercheurs ont formé des agents à la simulation et les ont transférés vers des robots physiques, démontrant que le transfert de la simulation au réel est possible même pour des robots peu coûteux.

Laissez les données parler d'elles-mêmes. La vitesse de marche du robot a augmenté de 156 %, le temps pour se lever a été réduit de 63 % et la vitesse de frappe du ballon. a également augmenté de 24 % par rapport à la valeur de référence. Avant d'entrer dans l'interprétation technique, jetons un coup d'œil à quelques points forts des robots dans les matchs de football 1v1. Par exemple, tournage :