DeepMind 训练机器人足球运动员得分，但效果不佳

由柏拉图重新发布

关注： 0

DeepMind 训练机器人足球运动员得分，柏拉图区块链数据智能很糟糕。垂直搜索。人工智能。

视频谷歌 DeepMind 的书呆子们开发了一个深度学习课程，可以教机器人如何踢糟糕的足球——这真是太棒了。

与之相反优美的杂技在波士顿动力公司的 Atlas 机器人中，一对 Robotis OP3 机器人在 DeepMind 的指导下笨手笨脚地在一个 5 米乘 4 米的足球场或足球场上跌跌撞撞，就像精疲力竭的幼儿一样。在下面的视频中自己判断。

他们这样做的目的很明显，尽管屡次跌倒，他们还是设法纠正自己并偶尔进球。在这些人形机器的孩子般的跌跌撞撞中，很容易看出类似于我们重视和鼓励彼此的决心的东西，即使这只是错位的拟人化。很难不支持他们，尽管如果他们扩大规模和武器化，他们会激发其他情绪。

参与该项目的 28 名研究人员描述了他们的工作一篇论文 [PDF] 标题为“通过深度强化学习为双足机器人学习敏捷足球技能”。

“我们使用深度 [强化学习] 来训练具有 20 个驱动关节的人形机器人来玩简化的一对一 (1v1) 足球比赛，”作者解释道。 “我们首先单独训练个人技能，然后在自我对弈环境中端到端地组合这些技能。

“由此产生的政策展示了强大而动态的运动技能，例如快速跌倒恢复、行走、转身、踢腿等；并以平稳、稳定和高效的方式在它们之间转换——远远超出了机器人的直觉预期。”

DeepMind 项目在范围上不如为 RoboCup 先进技术竞赛准备机器的努力那么雄心勃勃，该竞赛已经进行了多年。然而，RoboCup 的最新迭代是看起来肯定没那么有趣由于参与者的克制行为。 RoboCup 机器人具有的刚性大河之舞双臂固定在身体两侧的表演者，DeepMind 玩家像疯子一样挥舞着他们的手臂 – 诚然，在试图避免打手球时并不理想，但更好地征求同情。

深度强化学习是一种训练神经网络的方法，其中代理（基于软件或硬件的实体）通过反复试验学习如何做事（模拟或在现实世界中）。并且它已经成为教机器人如何在各种环境中四处移动的常用技术，从卡西的跑步敏锐度，一种你希望永远不会看到追逐你的机械鸵鸟躯干。

DeepMind 团队的目标是训练一个代理人踢足球，这需要多种技能，包括走路、踢球、站立、得分和防守，所有这些都需要协调才能进球并赢得比赛。

为了训练代理人——在这种情况下是控制机器人的软件——仅仅奖励系统进球是不够的，这不会产生所有必要的技能。取而代之的是，研究人员分别研究了这些技能组合，专注于制定他们所谓的教师政策。这些政策规定了一些事情，比如起身和对未经训练的对手进球 - 一个立即倒地的人，这种行为与真正的足球跳水没有什么不同。

研究人员必须小心地在智能体倒地时停止进球训练，以防止出现不良但明显的功能性行为：“如果没有这种终止，智能体会找到局部最小值并学会在地面上滚向球以将其击倒进入球门，而不是边走边踢，”他们在论文中解释道。

起床政策和进球政策最终结合在一起。通过深度强化学习和实现特定目标的奖励过程，该软件开发了可以通过的足球技能。

事实证明，将经过训练的软件代理转移到机器人身上并不难。这组作者说，这是一个零样本过程，这意味着他们不需要进行额外的培训。

“我们通过简单的系统识别减少了模拟与真实的差距，通过域随机化和训练期间的扰动提高了我们政策的稳健性，并包括塑造奖励条款以获得不太可能损坏机器人的行为，”他们解释道。

也就是说，他们确保模拟器参数映射到硬件执行器设置、地板摩擦和关节方向等随机特性、机器人部件的质量、控制回路延迟和随机扰动，所有这些都是为了确保软件能够处理各种作用在机器人身体上的力。在一项调整中，他们添加了奖励成分，鼓励机器人减少对膝关节的压力，否则膝关节容易受损。

培训起跑和足球老师分别花费了 14 小时和 158 小时（6.5 天），然后是 68 小时的提炼和自我发挥。棺材说，结果比刻意尝试编程这些技能要好。

“强化学习策略比专门的手动设计技能表现得更好：它走路快了 156%，起床时间减少了 63%，”该论文说。

“当在球附近初始化时，它踢球的速度降低了 5%；两者都达到了大约 2 m/s 的球速。然而，通过对球的额外助跑方法，学习策略的平均踢球速度为 2.6 m/s（比脚本技能快 24%），并且跨片段的最大踢球速度为 3.4 m/s。”

DeepMind 的研究人员证明，深度强化学习可以有效且低成本地应用于人形机器人的教学。无论是好是坏，这都是迈向双足机器人走在我们中间的未来的又一步。 ®