陪跑又快又稳，机器人跑步搭子来了-人工智能-PHP中文网

这个机器人名叫Cassie，曾经创下百米跑世界纪录。最近，加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法，让它掌握了急转弯等技能，还能对抗各种干扰。

^{【关注本站视频号，第一时间看到有趣的 AI 内容】}

关于双足机器人运动的研究已经进行了几十年，但仍然没有一个能够对各种运动技能进行稳健控制的通用框架。挑战来自于双足机器人欠驱动动态的复杂性以及与每种运动技能相关的不同规划。

研究者们希望解决的关键问题在于：如何为高维人体大小的双足机器人开发一种解决方案？如何控制多样化、敏捷和稳健的腿部运动技能，比如行走、跑步和跳跃？

最近的一项研究或许提供了不错的方案。

在这项工作中，来自伯克利等机构的研究者利用强化学习（RL）为现实世界中的高维非线性双足机器人创建控制器，以应对上述挑战。这些控制器可以利用机器人的本体感觉信息来适应随时间变化的不确定动态，同时能够适应新的环境和设置，利用双足机器人的敏捷性，在突发情况下表现出稳健的行为。此外，本文框架还提供了再现各种双足运动技能的通用配方。

论文标题：Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control
论文链接：https://arxiv.org/pdf/2401.16889.pdf

论文细节

对于控制器来说，扭矩控制人体大小的双足机器人的高维性和非线性乍似乎是障碍，然而这些特性的优势在于可以通过机器人的高维动力学实现复杂的敏捷操作。

这一控制器赋予机器人的技能如图 1 所示，包括稳健的站立、行走、奔跑和跳跃。这些技能还可用于执行各种不同的任务，包括以不同速度和高度行走、以不同速度和方向奔跑以及跳向各种目标，同时在实际部署过程中保持稳健性。为此，研究者利用无模型 RL 让机器人通过对系统全阶动态的试错来学习。除了真实世界的实验，还深入分析了使用 RL 进行腿部运动控制的好处，并详细研究了如何有效地构建学习过程以利用这些优势，如适应性和稳健性。

用于通用双足运动控制的 RL 系统如图 2 所示：

第四节首先介绍了在运动控制中利用机器人 I/O 历史记录的重要性，这一节从控制和 RL 两个角度展示了机器人的长期 I/O 历史可以在实时控制过程中实现系统识别和状态估计。

第五节介绍了研究的核心：一种利用双足机器人长期和短期 I/O 双历史记录的新型控制架构。具体来说，这种控制架构不仅能利用机器人的长期历史记录，还能利用机器人的短期历史记录。

控制框架如下图：

在这种双历史记录结构中，长期历史记录带来了适应性（在第八节中得到验证），短期历史记录则通过实现更好的实时控制对长期历史记录的利用进行了补充（在第七节中得到验证）。

第六节介绍了如何将由深度神经网络表示的控制策略通过无模型 RL 进行优化。鉴于研究者旨在开发一种能够利用高动态运动技能完成各种任务的控制器，因此这一节中的训练以多阶段模拟训练为特征。这种训练策略提供了一个结构化的课程，首先是单一任务训练，即机器人专注于一个固定的任务，然后是任务随机化，使机器人接受的训练任务多样化，最后是动态随机化，改变机器人的动态参数。

策略如下图所示：

这种训练策略能够提供一种多功能控制策略，可以执行多种任务，并实现机器人硬件的零样本迁移。此外，任务随机化还能通过在不同的学习任务中进行泛化来增强所产生策略的稳健性。

研究表明，这种稳健性可以使机器人对干扰做出顺从的行为，这与动态随机化带来的干扰是「正交」的。这一点将在第九节中得到验证。

利用这一框架，研究者获得了针对双足机器人 Cassie 的行走、跑步和跳跃技能的多功能策略。第十章评估了这些控制策略在现实世界中的有效性。

实验

研究者对机器人进行了广泛的实验，包括在现实世界中行走、跑步和跳跃等多项能力的测试。所用策略在经过模拟训练后都能够有效地控制现实世界中的机器人，而无需进一步调整。

行走实验

如图 14a 所示，行走策略展示了对机器人遵循不同指令的有效控制，在整个测试过程中，跟踪误差相当低（跟踪误差由 MAE 的值来评估）。

此外，机器人策略在较长时间内始终表现良好，即使在 325 天和 492 天后仍具有保持跟踪可变命令的能力，分别如图 14c 和图 14b 所示。尽管在此期间机器人的动力学发生了显著的累积变化，但图 14a 中的同一控制器继续有效地管理不同的行走任务，并且跟踪误差的退化最小。

如图 15 所示，该研究所用的策略显示出对机器人可靠的控制，使机器人能够准确地跟踪顺时针或逆时针的不同转弯命令。

快速行走实验。除了中等行走速度之外，实验还展示了所用策略控制机器人向前和向后执行快速行走动作的能力，如图 16 所示。机器人可以从静止状态过渡到快速实现向前行走速度，平均速度达到 1.14 m/s（跟踪指令中要求 1.4 m/s），机器人还能按照指令快速返回站立姿态，如图 16a 所示，数据记录在图 16c 中。

在不平坦的地形上（未经训练），机器人也可以在楼梯或下坡上有效地向后行走，如下图所示。

抗扰动。在脉冲扰动的情况下，比如研究者在机器人步行时从各个方向向机器人引入了短时间内的外部扰动。就像图 18a 中记录的那样，在原地行走时向机器人施加相当大的横向扰动力，横向速度峰值为 0.5 m/s。尽管有扰动，机器人仍能迅速从横向偏差中恢复过来。如图 18a 所示，机器人熟练地沿相反的横向方向移动，有效地补偿扰动并恢复其稳定的原地行走步态。

在持续扰动测试期间，人类对机器人底座施加扰动力量，并沿随机方向拖动机器人，同时命令机器人原地行走。如图 19a 所展示的，当机器人正常行走时，持续的横向拖力施加到 Cassie 的底座上。结果显示机器人在不失去平衡的情况下，通过遵循这些外力的方向来表现出对这些外力的顺应性。这也表明了本文提出的基于强化学习的策略在控制双足机器人以实现安全人机交互等潜在应用方面的优势。

跑步实验

当机器人使用双足跑步策略，在 2 分 34 秒内实现了 400 米冲刺，在 27.06 秒内实现了 100 米冲刺，跑步倾斜度高达 10° 等等。

400 米短跑：该研究首先评估了在标准室外跑道上完成 400 米短跑的一般跑步策略，如图 20 所示。在整个测试过程中，机器人被命令以 3.5 m/s 的速速同时响应由操作员发出的不同转弯命令。机器人能够从站立姿态平滑地过渡到跑步步态（图 20a 1）。机器人设法加速到平均估计运行速度 2.15 m/s，达到峰值估计速度 3.54 m/s，如图 20b 所示。该策略使机器人成功地在整个 400 米跑步过程中始终保持所需的速度，同时准确地遵守不同的转弯命令。