DeepMind 人工智能仅通过观察人类就能快速学习新技能

关注： 0

教授算法模仿人类通常需要数百或数千个示例。但谷歌 DeepMind 的新人工智能可以从人类演示者身上即时学习新技能。

人类最伟大的技巧之一就是我们能够快速有效地从彼此那里获取知识。这种社会学习通常被称为文化传播，它使我们能够向同事展示如何使用新工具或教我们的孩子童谣。

毫不奇怪，研究人员试图在机器中复制这个过程。模仿学习，即人工智能观察人类完成任务，然后尝试模仿他们的行为，长期以来一直是训练机器人的流行方法。但即使是当今最先进的深度学习算法通常也需要查看许多示例才能成功复制训练器。

当人类通过模仿学习时，他们通常只需几次演示就可以完成新任务。现在，谷歌 DeepMind 研究人员在人工智能的快速社交学习方面迈出了一步，他们的智能体可以实时学习如何在人类的虚拟世界中导航。

研究人员在一份报告中写道：“我们的智能体在新环境中成功地实时模仿人类，而无需使用任何预先收集的人类数据。” 进纸 自然通讯. “我们发现了一组令人惊讶的简单成分，足以产生文化传播。”

研究人员在一个专门设计的名为 GoalCycle3D 的模拟器中训练他们的智能体。模拟器使用一种算法，根据有关模拟应如何运行以及模拟的哪些方面应有所不同的规则，生成几乎无穷无尽的不同环境。

在每个环境中，小斑点状 AI代理商必须穿越不平坦的地形和各种障碍物，以特定的顺序穿过一系列彩色球体。地形的崎岖程度、障碍物的密度以及球体的配置因环境而异。

代理经过训练可以使用以下方式进行导航强化学习。他们因以正确的顺序通过球体而获得奖励，并利用该信号来提高他们在多次试验中的表现。但除此之外，环境还配备了一个专家代理（它要么是硬编码的，要么是由人类控制的），它已经知道整个课程的正确路线。

在多次训练中，人工智能代理不仅了解环境运行的基本原理，而且还了解解决每个问题的最快方法是模仿专家。为了确保代理学习模仿而不仅仅是记住课程，该团队在一组环境中对他们进行了培训，然后在另一组环境中对其进行了测试。至关重要的是，经过培训，团队表明他们的智能体可以模仿专家，即使没有专家也可以继续遵循路线。

这需要对标准强化学习方法进行一些调整。

研究人员通过让算法预测其他代理的位置，使算法专注于专家。他们还给它一个内存模块。在训练期间，专家会进出环境，迫使代理记住其不再存在时的操作。人工智能还在广泛的环境中进行了训练，这确保了它能够执行各种可能的任务。

不过，将该方法应用到更实际的领域可能很困难。一个关键的限制是，当研究人员测试人工智能是否可以从人类演示中学习时，专家代理在所有训练过程中都由一个人控制。这使得很难知道智能体是否可以向不同的人学习。

更紧迫的是，随机改变训练环境的能力很难在现实世界中重现。底层任务很简单，不需要精细的运动控制，并且发生在高度受控的虚拟环境中。

尽管如此，人工智能领域的社会学习进展还是值得欢迎的。如果我们要生活在一个拥有智能机器的世界，找到高效、直观的方式与它们分享我们的经验和专业知识将至关重要。

时间戳记： 2024 年 2 月 24 日

关于我们