DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者-人工智能-PHP中文网

Aber vielleicht kannst du den alten Mann im Park nicht schlagen?

Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt.

Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann.

Papieradresse: https://arxiv.org/pdf/2408.03906

Wie gut kann dieser DeepMind-Roboter Tischtennis spielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern:

Sowohl Vorhand als auch Rückhand:

Der Gegner nutzt verschiedene Spielstile, und auch der Roboter hält dem stand:

Aufschläge mit unterschiedlichem Spin erhalten :

Allerdings scheint der Wettbewerb nicht so intensiv zu sein wie der Kampf zwischen den alten Männern im Park.

Für Roboter erfordert Tischtennis die Beherrschung komplexer Fähigkeiten auf niedrigem Niveau und eines strategischen Gameplays sowie ein langfristiges Training. DeepMind glaubt, dass Strategien, die suboptimal sind, aber niedrige Fähigkeiten effizient umsetzen können, möglicherweise die bessere Wahl sind. Dies unterscheidet Tischtennis von rein strategischen Spielen wie Schach und Go.

Daher ist Tischtennis ein wertvoller Maßstab für die Verbesserung der Fähigkeiten von Robotern, einschließlich Hochgeschwindigkeitsbewegung, präziser und strategischer Entscheidungsfindung in Echtzeit, Systemdesign und direktem Wettbewerb mit menschlichen Gegnern.

Dafür lobte der Chefwissenschaftler von Google DeepMind: „Der Tischtennisroboter wird uns helfen, Hochgeschwindigkeitskontroll- und Wahrnehmungsprobleme zu lösen.“

In der Studie wurden 29 Tischtennisspiele zwischen Robotern und Menschen, darunter Bots, durchgeführt gewann in 45 % der Fälle (13/29). Alle menschlichen Spieler waren Spieler, die der Roboter noch nie zuvor gesehen hatte, und ihre Fähigkeiten reichten vom Anfänger bis zum Turnierspieler.

Während der Bot alle seine Spiele gegen Spieler auf höchstem Niveau verlor, gewann er 100 % seiner Spiele gegen Anfänger und 55 % seiner Spiele gegen fortgeschrittene Spieler, was die Leistung eines menschlichen Amateurs demonstriert.

Insgesamt umfassen die Beiträge dieser Forschung:

Vorschlag einer hierarchischen und modularen Richtlinienarchitektur, die Folgendes umfasst:
Controller auf niedriger Ebene und ihre detaillierten Fähigkeitsbeschreibungen, die für die Modellierung der Fähigkeiten des Agenten nützlich sind Helfen Sie dabei, die Lücke zwischen Simulation und Realität zu schließen.
Wählen Sie hochrangige Controller mit niedrigen Fähigkeiten.
Technologie, die eine Zero-Sample-Simulation in die Realität umsetzt, einschließlich der Definition iterativer Methoden basierend auf der Aufgabenverteilung in der realen Welt und der Definition eines automatischen Lehrplans.
Passen Sie sich in Echtzeit an unsichtbare Gegner an.

Einführung in die Methode

Der Agent besteht aus einer Low-Level-Skill-Bibliothek und einem High-Level-Controller. Der Low-Level-Skill-Pool konzentriert sich auf einen bestimmten Aspekt des Tischtennis, wie z. B. Vorhand-Topspin, Rückhand-Zielen oder Vorhand-Aufschlag. Neben der Einbeziehung von Trainingsstrategien sammelt und speichert die Studie auch offline und online Informationen über die Stärken, Schwächen und Grenzen jeder Fertigkeit auf niedrigem Niveau. Der High-Level-Controller, der für die Koordinierung der Low-Level-Fertigkeiten verantwortlich ist, wählt die besten Fertigkeiten basierend auf aktuellen Spielstatistiken und Fertigkeitsbeschreibungen aus.

Darüber hinaus sammelte die Studie auch eine kleine Menge menschlicher und menschlicher Sparringsspieldaten als Grundlage für die anfänglichen Aufgabenbedingungen. Der Datensatz umfasst Positions-, Geschwindigkeits- und Rotationsinformationen. Anschließend wird Reinforcement Learning verwendet, um den Agenten in einer simulierten Umgebung zu trainieren, und einige vorhandene Techniken werden verwendet, um die Richtlinie nahtlos auf realer Hardware bereitzustellen.

Der Agent spielt mit Menschen, um mehr Trainingsdaten zu generieren. Während der Roboter weiter lernt, werden die Spielstandards immer komplexer, sodass der Agent immer komplexere Aktionen lernen kann. Diese hybride „Simulations-Realität“-Schleife erzeugt einen automatisierten Unterricht, der es ermöglicht, die Fähigkeiten des Roboters im Laufe der Zeit zu verbessern.