DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

PHPz
发布: 2024-08-09 16:01:32
原创
993 人浏览过

Aber vielleicht kannst du den alten Mann im Park nicht schlagen?

Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt.

Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann.

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

Papieradresse: https://arxiv.org/pdf/2408.03906

Wie gut kann dieser DeepMind-Roboter Tischtennis spielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern:

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

Sowohl Vorhand als auch Rückhand:

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

Der Gegner nutzt verschiedene Spielstile, und auch der Roboter hält dem stand:

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

Aufschläge mit unterschiedlichem Spin erhalten :

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

Allerdings scheint der Wettbewerb nicht so intensiv zu sein wie der Kampf zwischen den alten Männern im Park.

Für Roboter erfordert Tischtennis die Beherrschung komplexer Fähigkeiten auf niedrigem Niveau und eines strategischen Gameplays sowie ein langfristiges Training. DeepMind glaubt, dass Strategien, die suboptimal sind, aber niedrige Fähigkeiten effizient umsetzen können, möglicherweise die bessere Wahl sind. Dies unterscheidet Tischtennis von rein strategischen Spielen wie Schach und Go.

Daher ist Tischtennis ein wertvoller Maßstab für die Verbesserung der Fähigkeiten von Robotern, einschließlich Hochgeschwindigkeitsbewegung, präziser und strategischer Entscheidungsfindung in Echtzeit, Systemdesign und direktem Wettbewerb mit menschlichen Gegnern.

Dafür lobte der Chefwissenschaftler von Google DeepMind: „Der Tischtennisroboter wird uns helfen, Hochgeschwindigkeitskontroll- und Wahrnehmungsprobleme zu lösen.“

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

In der Studie wurden 29 Tischtennisspiele zwischen Robotern und Menschen, darunter Bots, durchgeführt gewann in 45 % der Fälle (13/29). Alle menschlichen Spieler waren Spieler, die der Roboter noch nie zuvor gesehen hatte, und ihre Fähigkeiten reichten vom Anfänger bis zum Turnierspieler.

Während der Bot alle seine Spiele gegen Spieler auf höchstem Niveau verlor, gewann er 100 % seiner Spiele gegen Anfänger und 55 % seiner Spiele gegen fortgeschrittene Spieler, was die Leistung eines menschlichen Amateurs demonstriert.

Insgesamt umfassen die Beiträge dieser Forschung:

  1. Vorschlag einer hierarchischen und modularen Richtlinienarchitektur, die Folgendes umfasst:

  2. Controller auf niedriger Ebene und ihre detaillierten Fähigkeitsbeschreibungen, die für die Modellierung der Fähigkeiten des Agenten nützlich sind Helfen Sie dabei, die Lücke zwischen Simulation und Realität zu schließen.

  3. Wählen Sie hochrangige Controller mit niedrigen Fähigkeiten.

  4. Technologie, die eine Zero-Sample-Simulation in die Realität umsetzt, einschließlich der Definition iterativer Methoden basierend auf der Aufgabenverteilung in der realen Welt und der Definition eines automatischen Lehrplans.

  5. Passen Sie sich in Echtzeit an unsichtbare Gegner an.

Einführung in die Methode

Der Agent besteht aus einer Low-Level-Skill-Bibliothek und einem High-Level-Controller. Der Low-Level-Skill-Pool konzentriert sich auf einen bestimmten Aspekt des Tischtennis, wie z. B. Vorhand-Topspin, Rückhand-Zielen oder Vorhand-Aufschlag. Neben der Einbeziehung von Trainingsstrategien sammelt und speichert die Studie auch offline und online Informationen über die Stärken, Schwächen und Grenzen jeder Fertigkeit auf niedrigem Niveau. Der High-Level-Controller, der für die Koordinierung der Low-Level-Fertigkeiten verantwortlich ist, wählt die besten Fertigkeiten basierend auf aktuellen Spielstatistiken und Fertigkeitsbeschreibungen aus.

Darüber hinaus sammelte die Studie auch eine kleine Menge menschlicher und menschlicher Sparringsspieldaten als Grundlage für die anfänglichen Aufgabenbedingungen. Der Datensatz umfasst Positions-, Geschwindigkeits- und Rotationsinformationen. Anschließend wird Reinforcement Learning verwendet, um den Agenten in einer simulierten Umgebung zu trainieren, und einige vorhandene Techniken werden verwendet, um die Richtlinie nahtlos auf realer Hardware bereitzustellen.

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

Der Agent spielt mit Menschen, um mehr Trainingsdaten zu generieren. Während der Roboter weiter lernt, werden die Spielstandards immer komplexer, sodass der Agent immer komplexere Aktionen lernen kann. Diese hybride „Simulations-Realität“-Schleife erzeugt einen automatisierten Unterricht, der es ermöglicht, die Fähigkeiten des Roboters im Laufe der Zeit zu verbessern.

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

分层控制

分层控制主要包含以下部分:

  • 乒乓球打法:高级控制器(HLC,high-level controller)首先决定使用哪种打法(正手还是反手);

  • 调整:根据与对手比赛中的统计数据,在线维护每个 HLC 的偏好(H 值);

  • 选择最有效的技能:HLC 根据调整后的 H 值对入围的 LLC 进行抽样;

  • 更新:H 值和对手统计数据会持续更新,直至比赛结束。

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

结果

研究者将该智能体与 29 名不同水平的乒乓选手进行了对比,选手包括初学者、中级、高级和高级 + 技能。人类选手按照标准乒乓球规则与机器人进行了三场比赛,但由于机器人无法发球,因此规则稍作修改。

面对所有对手,机器人赢得了 45% 的比赛(match)和 46% 的单局胜利(game)。按照技能水平细分,机器人赢得了与初学者的所有比赛,输掉了与高级和高级 + 选手的所有比赛,赢得了 55% 与中级选手的比赛。这表明该智能体在乒乓球回合中达到了中级人类选手的水平。

机器人打不过高级玩家的原因在于物理和技术的限制,包括反应速度,相机感应能力,旋转处理等,这是很难在模拟环境中准确建模的。

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

与机器人对打,也很吸引人

研究参与者表示,他们非常享受与机器人一起对打,并在「有趣」和「吸引人」方面给予了机器人很高的评价。他们也一致表示「非常愿意」再次与机器人对打。在自由时间里,他们平均在 5 分钟的时间里与机器人玩了 4 分 06 秒。

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者
DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

机器人不擅长下旋球

技能最好的参与者提到,机器人不擅长处理下旋。为了测试这一观察结果,研究人员根据球的旋转绘制了机器人的着陆率,根据结果可以看到,机器人在面对更多的下旋球时,着陆率大幅下降。这一缺陷部分是由于机器人在处理低球时,为了避免与桌子碰撞导致的,其次是实时确定球的旋转确实很难。

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者

参考链接:

https://sites.google.com/view/competitive-robot-table-tennis/home?utm_source&utm_medium&utm_campaign&utm_content&pli=1

以上是DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:jiqizhixin.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!