谷歌 DeepMind 在国际象棋人工智能中训练“人工头脑风暴” 广达杂志

谷歌 DeepMind 在国际象棋人工智能中训练“人工头脑风暴” 广达杂志

谷歌 DeepMind 在国际象棋人工智能中训练“人工头脑风暴”广达杂志柏拉图区块链数据智能。垂直搜索。人工智能。

介绍

19 年初,当 Covid-2020 使人们回家时,计算机科学家 汤姆扎哈维 重新发现国际象棋。 他小时候就玩过游戏,最近读过加里·卡斯帕罗夫的书 深层思考,这是一位大师 1997 年与 IBM 的国际象棋计算机“深蓝”比赛的回忆录。 他在 YouTube 上观看了国际象棋视频, 女王的甘比特 在Netflix上。

尽管扎哈维重新燃起了兴趣,但他并没有寻找提高比赛水平的方法。 “我不是一个伟大的球员,”他说。 “我更擅长国际象棋拼图”——棋子的排列,通常是人为的,在真正的游戏中不太可能出现,挑战玩家找到创造性的方法来获得优势。

这些谜题可以帮助玩家提高技能,但最近它们帮助揭示了国际象棋程序的隐藏局限性。 最臭名昭著的谜题之一是由数学家罗杰·彭罗斯爵士于 2017 年设计的,它将更强的黑色棋子(例如皇后和白车)放在棋盘上,但位置很尴尬。 一个经验丰富的人类棋手,玩白棋,可以很容易地将游戏引导至平局,但强大的计算机国际象棋程序会认为黑棋具有明显的优势。 扎哈维说,这种差异表明,尽管计算机可以击败世界上最好的人类玩家,但它们还无法识别并解决各种难题。 从那时起,彭罗斯和其他人设计了一系列计算机难以解决的庞大谜题。

长期以来,国际象棋一直是检验新想法的试金石 人工智能,彭罗斯的谜题激起了扎哈维的兴趣。 他说:“我试图理解是什么让这些问题对计算机来说如此困难,因为至少其中一些问题我们可以作为人类来解决。” “我完全着迷了。” 它很快演变成一种职业兴趣:作为 Google DeepMind 的研究科学家,扎哈维探索创造性的解决问题的方法。 我们的目标是设计出具有一系列可能行为的人工智能系统,而不仅仅是执行单一任务。

经过训练以取胜的传统人工智能国际象棋程序可能无法理解彭罗斯难题,但扎哈维怀疑由许多不同系统组成的程序作为一个整体协同工作,可以取得进展。 因此,他和他的同事开发了一种将多个(最多 10 个)决策人工智能系统编织在一起的方法,每个系统都针对不同的策略进行优化和训练,从 DeepMind 强大的国际象棋程序 AlphaZero 开始。 新系统他们 8月报道,比单独使用 AlphaZero 表现得更好,并且在处理彭罗斯的谜题时表现出了更多的技巧和创造力。 从某种意义上说,这些能力来自自我协作:如果一种方法碰壁,程序就会转向另一种方法。

这种方法从根本上说是有道理的, 艾莉森·林赫查拉特是 DoorDash 的计算机科学家,一直致力于使用多代理方法来解决机器人技术中的问题。 “对于一群智能体,谜题出现在至少一个智能体接受过训练的领域的可能性更高。”

这项工作表明,不同的人工智能系统团队可以有效地解决游戏棋盘之外的难题。 “这是一个很好的例子,寻找多种方法来解决问题——比如赢得一场国际象棋比赛——可以带来很多好处,”说 安托万·居利伦敦帝国理工学院的人工智能研究员,未参与 DeepMind 项目。 他将其与人类头脑风暴会议的人工版本进行了比较。 “这种思维过程会带来创造性和有效的解决方案,如果不进行这项练习,人们就会错过这些解决方案。”

追逐失败

在加入 DeepMind 之前,Zahavy 对深度强化学习感兴趣,深度强化学习是人工智能的一个领域,其中系统使用神经网络通过反复试验来学习某些任务。 它是最强大的国际象棋程序的基础(并用于自动驾驶汽车等其他人工智能应用程序)。 系统从其环境开始。 例如,在国际象棋中,环境包括游戏棋盘和可能的动作。 如果任务是驾驶汽车,则环境包括车辆周围的一切。 然后系统做出决策、采取行动并评估其与目标的接近程度。 当它接近目标时,它会积累奖励,并且随着系统积累奖励,它会提高其性能。 这种方法的“深层”部分描述了用于分析和评估行为的神经网络。

AlphaZero 就是通过强化学习成为国际象棋大师的。 深度思维 报道 2017 年 44 月,在该程序的前 XNUMX 小时训练期间,它与自己进行了 XNUMX 万场比赛。 起初,它的走法是随机决定的,但随着时间的推移,它学会了选择更有可能导致将死的走法。 经过短短几个小时的训练,AlphaZero 就具备了击败任何人类国际象棋棋手的能力。

尽管强化学习非常成功,但它并不总是能产生反映对游戏总体理解的策略。 在过去五年左右的时间里,扎哈维和其他人注意到,在经过反复试验的系统上可能发生的特殊故障有所增加。 例如,玩视频游戏的系统可能会发现漏洞并找出如何作弊或跳过关卡的方法,或者它也可能很容易陷入重复的循环中。 彭罗斯式的谜题同样暗示了 AlphaZero 中的一种盲点或故障——它无法弄清楚如何解决以前从未见过的问题。

但也许并非所有故障都只是错误。 扎哈维怀疑 AlphaZero 的盲点实际上可能是其他伪装的东西——与系统内部奖励相关的决策和行为。 他说,深度强化学习系统不知道如何失败,甚至不知道如何识别失败。 失败的能力长期以来一直与创造性地解决问题联系在一起。 “创造力具有人类的品质,”卡斯帕罗夫在书中写道 深层思考。 “它接受失败的概念。”

人工智能系统通常不会。 如果一个系统没有意识到它未能完成其任务,那么它可能不会尝试其他事情。 相反,它只会继续尝试做已经做过的事情。 扎哈维说,这可能是导致电子游戏陷入死胡同的原因,或者是陷入彭罗斯挑战的原因。 他说,该系统正在追逐“奇怪的内在奖励”,这是在训练过程中形成的。 从外部看起来像是错误的事情很可能是制定具体但最终不成功的策略的结果。

系统将这些奇怪的奖励视为迈向更大目标的一步,但它实际上无法实现这个目标,并且不知道尝试新的东西。 “我试图理解它们,”扎哈维说。

更好的游戏

这些故障之所以如此重要、如此有用,部分原因在于研究人员认为存在泛化问题。 虽然强化学习系统可以开发出一种有效的策略,将给定情况与特定行动联系起来(研究人员称之为“策略”),但它们无法将其应用于不同的问题。 “强化学习通常会发生的情况是,几乎无论采用何种方法,你都会得到解决你一直在训练的问题的特定实例的策略,但它并不能概括,”说 朱利安·托盖柳斯,纽约大学计算机科学家、modl.ai 研究总监。

扎哈维认为彭罗斯谜题需要这种概括。 也许 AlphaZero 无法解决大多数谜题,因为它过于专注于从头到尾赢得整场游戏。 但这种方法引入了彭罗斯谜题中不太可能的棋子排列方式所暴露的盲点。 他推断,如果该程序有足够的创意空间来集思广益并获得不同的训练方法,也许它可以学会解决这个难题。

因此,他和他的同事首先收集了一套 53 个彭罗斯谜题和 15 个额外的挑战谜题。 仅靠 AlphaZero 解决的彭罗斯难题不到 4%,其余难题不到 12%。 扎哈维并不感到惊讶:许多谜题都是由国际象棋大师设计的,目的是故意迷惑计算机。

作为一项测试,研究人员尝试训练 AlphaZero 使用彭罗斯拼图排列作为起始位置,而不是典型游戏的完整棋盘来与自己对战。 它的性能显着提高:它解决了 96% 的彭罗斯谜题和 76% 的挑战集。 一般来说,当 AlphaZero 训练特定谜题时,它可以解决该谜题,就像它训练完整游戏时可以获胜一样。 扎哈维认为,也许,如果一个国际象棋程序能够以某种方式访问​​所有不同版本的 AlphaZero,并在不同的位置上进行训练,那么这种多样性就可以激发有效解决新问题的能力。 换句话说,也许它不仅可以解决彭罗斯难题,还可以解决任何更广泛的国际象棋问题。

他的团队决定找出答案。 他们构建了新的、多样化的 AlphaZero 版本,其中包括多个在各种情况下独立训练的人工智能系统。 扎哈维说,管理整个系统的算法充当一种虚拟匹配器:它旨在识别哪个代理在需要采取行动时最有可能成功。 他和他的同事还编写了“多样性奖金”——每当系统从大量选择中提取策略时就会获得奖励。

当新系统开始运行自己的游戏时,团队观察到了很多变化。 多元化的人工智能玩家尝试了新的、有效的开局和关于特定策略的新颖但合理的决策,例如何时何地攻城略地。 在大多数比赛中,它都击败了最初的AlphaZero。 研究小组还发现,多样化版本可以解决的挑战谜题数量是原始版本的两倍,并且可以解决彭罗斯谜题总数的一半以上。

“我们的想法是,这里(它使用)创意多样性的理念,而不是寻找一种解决方案或单一政策来击败任何参与者,”卡利说。

扎哈维表示,通过接触更多不同的游戏,多元化的 AlphaZero 在出现棘手情况时有更多选择。 “如果你能控制它看到的游戏类型,你基本上就能控制它的推广方式,”他说。 那些奇怪的内在奖励(及其相关的举动)可能会成为不同行为的优势。 然后,系统可以学习评估和评估不同的方法,并了解它们何时最成功。 “我们发现这群特工实际上可以就这些立场达成一致。”

更重要的是,其影响不仅仅限于国际象棋。

现实生活中的创造力

Cully 表示,多元化的方法可以帮助任何人工智能系统,而不仅仅是那些基于强化学习的系统。 他长期以来一直利用多样性来训练身体系统,包括 六足机器人 在他故意“伤害”它之前,它被允许探索各种运动,让它能够使用它之前开发的一些技术继续运动。 “我们只是试图找到与迄今为止找到的所有先前解决方案不同的解决方案。” 最近,他还与研究人员合作,利用多样性来识别有前途的新药候选物并制定有效的股票交易策略。

“我们的目标是生成可能有数千种不同解决方案的大量集合,其中每个解决方案都与下一个解决方案非常不同,”卡利说。 因此,正如多元化的国际象棋棋手学会的那样,对于每种类型的问题,整个系统都可以选择最佳的解决方案。 他说,扎哈维的人工智能系统清楚地展示了“寻找多样化策略如何有助于跳出框框思考并找到解决方案”。

扎哈维怀疑,为了让人工智能系统进行创造性思考,研究人员只需让它们考虑更多选择。 这一假设表明人类和机器之间存在着一种奇怪的联系:也许智能只是计算能力的问题。 对于人工智能系统来说,创造力也许可以归结为从足够多的选项中考虑和选择的能力。 随着系统因选择各种最优策略而获得奖励,这种创造性解决问题的能力就会得到加强。 最终,从理论上讲,它可以模仿任何一种被认为是人类创造性策略的解决问题的策略。 创造力将成为一个计算问题。

Liemhetcharat 指出,多样化的人工智能系统不太可能完全解决机器学习中更广泛的泛化问题。 但这是朝着正确方向迈出的一步。 “它正在减轻其中一个缺点,”她说。

更实际的是,扎哈维的结果与最近的努力产生了共鸣,这些努力表明合作如何能够使人类在艰巨的任务上取得更好的表现。 例如,Billboard 100 排行榜上的大多数热门歌曲都是由词曲作者团队创作的,而不是个人创作的。 而且仍有改进的空间。 目前,多样化的方法在计算上是昂贵的,因为它必须考虑比典型系统更多的可能性。 扎哈维也不相信即使是多元化的 AlphaZero 也能捕捉到所有的可能性。

“我仍然[认为]有寻找不同解决方案的空间,”他说。 “我不清楚,鉴于世界上所有的数据,每个问题都只有一个答案。”

广达 正在进行一系列调查,以更好地为我们的观众服务。 就拿我们的 计算机科学读者调查 您将有机会免费赢取 广达 商品。

时间戳记:

更多来自 量子杂志