Des chercheurs développent un robot capable de comprendre les commandes en anglais et d'effectuer des tâches ménagères-IA-php.cn

Des chercheurs développent un robot capable de comprendre les commandes en anglais et d'effectuer des tâches ménagères

王林

Libérer： 2023-05-16 13:13:14

avant

1297 Les gens l'ont consulté

Une équipe de chercheurs de l'Université de Princeton, de l'Université de Stanford et de Google a utilisé le modèle GPT-3 Davinci d'OpenAI pour développer un robot nommé TidyBot capable de comprendre les instructions en anglais et d'effectuer les tâches ménagères. Ce robot peut effectuer automatiquement des tâches telles que trier le linge, ramasser les déchets sur le sol et ramasser les jouets en fonction des préférences de l'utilisateur.

Des chercheurs développent un robot capable de comprendre les commandes en anglais et deffectuer des tâches ménagères

Le modèle GPT-3 Davinci est un modèle d'apprentissage en profondeur, faisant partie de la famille de modèles GPT, capable de comprendre et de générer du langage naturel. Le modèle dispose de puissantes capacités de synthèse et peut apprendre des attributs et des relations d'objets complexes à partir de grandes quantités de données textuelles. Les chercheurs ont utilisé cette capacité pour que le robot place des objets en fonction de plusieurs exemples d'objets fournis par l'utilisateur, tels que "une chemise jaune dans le tiroir, une chemise violet foncé dans le placard, des chaussettes blanches dans le tiroir", puis ont laissé le modèle conclure. Les règles de préférences générales de l'utilisateur et les appliquer aux interactions futures.

Les chercheurs ont écrit dans l'article : « Notre idée fondamentale est que les capacités de synthèse des LLM (Large Language Models) correspondent bien aux besoins de généralisation des robots personnalisés. propriétés des objets et relations apprises à partir d'ensembles de données textuels massifs »

Ils écrivent également : « Contrairement aux méthodes traditionnelles qui nécessitent une collecte de données coûteuse et une formation de modèles, nous montrons que le LLM peut être implémenté directement dans le domaine de la robotique, en tirant parti de la robotique. de puissantes capacités de synthèse qu'ils apprennent à partir d'énormes quantités de données textuelles. » Sur le site Web du journal, les chercheurs ont présenté un robot capable de classer le linge en couleurs claires et foncées, de recycler les canettes de boissons et de jeter les poubelles, d'emballer les sacs et la vaisselle, de les mettre en vrac. les objets à leur place et rangez les jouets dans les tiroirs.

Les chercheurs ont d'abord testé un ensemble de données de référence textuelles dans lequel les préférences de l'utilisateur étaient saisies et il a été demandé au modèle de créer des règles de personnalisation pour déterminer l'attribution des articles. Le modèle résume les exemples en règles générales et utilise le résumé pour déterminer où placer les nouveaux éléments. Les scènes de base sont définies dans quatre salles avec 24 scènes dans chaque salle. Chaque scène contient entre deux et cinq emplacements pour placer des éléments, et il y a un nombre égal d'éléments visibles et invisibles que le modèle doit classer. Le test a atteint une précision de 91,2 % sur des éléments invisibles, ont-ils écrit.

Lorsqu'ils ont appliqué cette approche à un robot du monde réel, TidyBot, ils ont constaté qu'il était capable de ramasser avec succès 85 % des objets. TidyBot a été testé dans huit scénarios réels, chacun avec un ensemble de dix objets, et le robot a été exécuté trois fois dans chaque scénario. Selon IT House, en plus de LLM, TidyBot utilise également un classificateur d'images appelé CLIP et un détecteur d'objets appelé OWL-ViT.

Danfei Xu, professeur adjoint à la School of Interactive Computing du Georgia Institute of Technology, a déclaré en parlant du modèle PaLM-E de Google que le LLM donne aux robots plus de capacités de résolution de problèmes. "La plupart des systèmes de planification de mission précédents reposaient sur une certaine forme d'algorithmes de recherche ou d'optimisation, qui étaient moins flexibles et difficiles à construire. Le LLM et le LLM multimodal permettent à ces systèmes de bénéficier de données à l'échelle Internet et de les utiliser facilement pour résoudre de nouveaux problèmes", a-t-il déclaré. .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!