具有“多重自我”的人工智能代理学会在不断变化的世界中快速适应

由柏拉图重新发布

关注： 0

具有“多重自我”的人工智能代理学会在不断变化的世界中快速适应柏拉图区块链数据智能。垂直搜索。人工智能。

每天我们都在满足不同的需求。我很饿，但很累；我应该瘫倒在沙发上还是做晚饭？我在危险的温度下过热，但也非常口渴；我应该喝下太阳下加热的温水，还是把头伸进冰箱直到我有能力制冰？

当面临困境时，我们常常不假思索地遵循我们的基本直觉。但在幕后，多个神经网络随时都在竞争做出“最佳”决策。边吃边睡觉。用温水冷冻。事后看来，这些决定可能是糟糕的决定，但下一次，我们会从过去的错误中吸取教训。

我们对不断变化的世界的适应能力是目前大多数人工智能代理都无法企及的超能力。即使是最复杂的人工智能代理也会在处理相互冲突的目标时崩溃，或者需要大量的计算时间。

对于普林斯顿神经科学研究所乔纳森·科恩博士领导的团队来说，原因很简单：机器学习系统通常充当单个实体，被迫一次评估、计算和执行一个目标。尽管人工智能能够从错误中吸取教训，但当同时面临多个相反目标的挑战时，它很难找到正确的平衡。

那么为什么不把人工智能分开呢？

In 一项新的研究发表于 PNAS，该团队借鉴了认知神经科学的经验，构建了一个模块化的人工智能代理。

这个想法看似简单。该团队构建了一个模块化代理，而不是单一的人工智能（包含整个“自我”的单个网络），每个部分都有自己的“动机”和目标，但指挥一个“身体”。就像民主社会一样，人工智能系统会在自身内部争论以决定最佳反应，其中最有可能产生最大获胜结果的行动指导其下一步。

在多次模拟中，模块化人工智能的表现优于其经典的单一同类产品。当研究人员人为地增加它必须同时维持的目标数量时，它的适应性尤其出色。乐高式的人工智能迅速适应，而其整体式的人工智能却在努力追赶。

“关于代理的最基本问题之一是个人如何管理相互冲突的需求，”该团队表示。通过解构人工智能代理，该研究不仅提供了对更智能的机器学习代理的见解。它还“为理解人类心理固有的心理冲突铺平了道路” 写普林斯顿大学的 Rober Boshra 博士没有参与这项工作。

生命的电子游戏

智慧生物如何学会在复杂多变的世界中平衡相互冲突的需求？

这个哲学问题困扰着研究人性的多个领域——神经科学、心理学、经济学。我们还没有明确的答案。但随着人工智能在进入现实世界时越来越面临类似的挑战，是时候正面解决这个古老的问题了。

这项新研究以简单的 RPG（角色扮演游戏）的形式接受了挑战。有两个角色在网格状的世界中航行，每个人都试图寻找生存资源。

第一个参赛者：整体代理（也称为“自我”），使用深度 Q 学习 (DQL) 进行训练。该算法由 DeepMind 推广，在根据当前状态计算出下一个最佳步骤方面尤其强大。例如，在电子游戏中，我应该向左还是向右？移动哪颗国际象棋或围棋棋子，移动到哪里？在这里，算法调查整个环境，同时遵循单个奖励信号——即它的最终目标。从某种意义上说，整体代理是一个统一的大脑，它试图在同时处理所有资源后最大化最佳结果。

对手：模块化人工智能。就像具有半自主肢体的章鱼一样，人工智能代理被分解为子代理，每个子代理都有自己的目标和反馈。为了公平竞争，每个模块也都经过 DQL 训练。独立的“大脑”观察周围环境并学习选择最佳选项，但仅针对自己的目标进行定制。然后对预测结果进行总结。然后选择具有潜在最佳结果的解决方案，引导人工智能代理进行下一个选择。

那么比赛场地呢？

该游戏是生存游戏的极其精简版本。每个人工智能代理都在一个二维网格中漫游，该网格在某些区域隐藏着不同类型的资源。目标是将特工的四项统计数据保持在设定水平，并随着时间的推移逐渐减少。当多项统计数据下降时，人工智能将决定优先考虑哪一项。

对于视频游戏玩家来说，将测试视为投入新的游戏地图并尝试寻找资源来提升，例如生命值、魔法、耐力和攻击力。对于我们的日常生活来说，它正在平衡饥饿、温度、睡眠和其他基本生理需求。

“例如，如果代理的‘饥饿’统计数据较低，它可以通过移动到该资源的位置来收集‘食物’资源，”该团队解释道。

为树造林

第一次测试从一个相对简单的环境开始。每个资源目标的位置都固定在游戏场地的角落。在 30,000 个训练步骤后，整体智能体很容易保持其四项统计数据，尽管它经历了一段超调和不足的时期，直到达到预定目标。相比之下，模块化代理的学习速度要快得多。通过 5,000 个学习步骤，智能体已经了解了“世界状况”。

作者表示，模块化人工智能的部分能力来自于内在的自由探索意识。与以前的模块化系统通过分而治之以实现最终目标的方法不同，这里的人工智能代表了一种更全面的社会关系——在这种关系中，一些模块通过持续的内部竞争状态而获益，而另一些则受损。

由于人工智能代理的“身体”仅受获胜模块的指导，因此失败者必须接受他们不同意的决定，并被迫进入新的现实。然后他们必须快速适应并重新计算下一步的最佳解决方案。换句话说，模块经常发现自己超出了自己的舒适区。这是一种艰难的爱，但意想不到的结果迫使他们思考新的解决方案——有时会产生更好的结果，如果单独解决问题，他们是不会考虑的。

研究作者扎克·杜尔伯格（Zack Dulberg）表示，总体而言，模块化系统形成了“探索的良性循环”，以进一步改进人工智能的行动。

当团队在不断变化的环境中挑战两个人工智能代理时，这种适应性进一步显现。在一项测试中，资源目标位置以零星的时间尺度移动到随机网格位置。模块化人工智能很快就发现了变化并适应了它们，而整体代理的表现则差得多。

在另一项测试中，团队调高了刻度盘，要求人工智能代理同时维护八个因素，而不是原来的四个。该测试解决了随着变量数量的增加，计算在时间和能源消耗方面变得越来越不可能的问题——被称为“维数诅咒”。

模块化代理迅速适应寻找资源以维持其目标。相比之下，整体代理再次陷入困境，需要更长的时间才能恢复到每项统计数据的所需水平。