DeepMind 表示新的多游戏人工智能是迈向更通用智能的一步

DeepMind 表示新的多游戏人工智能是迈向更通用智能的一步

DeepMind 表示,新的多游戏人工智能是迈向更通用智能的一步 PlatoBlockchain 数据智能。垂直搜索。人工智能。

人工智能已经掌握了人类已知的一些最复杂的游戏,但模型通常是为解决特定类型的挑战而定制的。 其创建者表示,一种新的 DeepMind 算法可以处理更广泛的游戏,这可能是迈向更通用人工智能的一步。

使用游戏作为人工智能的基准有着悠久的历史。 1997 年,IBM 的“深蓝”算法击败国际象棋世界冠军加里·卡斯帕罗夫,被誉为该领域的里程碑。 同样,当 DeepMind 的 AlphaGo 被击败 2016 年,世界顶级围棋选手之一李世石 (Lee Sedol) 的演讲引发了人们对人工智能潜力的一阵兴奋。

DeepMind 凭借 AlphaZero 取得了成功,一个掌握了多种游戏的模型,包括国际象棋和将棋。 但尽管如此令人印象深刻,AlphaZero 只适用于完美信息游戏,其中游戏的每个细节(除了对手的意图)对双方玩家都是可见的。 这包括围棋和国际象棋等游戏,双方玩家始终可以看到棋盘上的所有棋子。

相反,不完美信息游戏涉及对其他玩家隐藏的一些细节。 扑克就是一个典型的例子,因为玩家无法看到对手拿着什么牌。 现在也有一些模型可以在此类游戏中击败专业人士,但它们使用的方法与 AlphaZero 等算法完全不同。

现在,DeepMind 的研究人员结合了这两种方法的要素,创建了一个可以在国际象棋、围棋和扑克方面击败人类的模型。 该团队声称,这一突破可以加速创建更通用的人工智能算法的努力,这些算法可以学习解决各种任务。

构建人工智能来玩完美信息游戏的研究人员通常依赖于一种称为树搜索的方法。 这探索了游戏从当前状态发展的多种方式,不同的分支映射了潜在的移动序列。 AlphaGo 将树搜索与机器学习技术相结合,模型通过反复对弈并从错误中学习来完善其技能。

当谈到不完美信息博弈时,研究人员倾向于依赖博弈论,使用数学模型来制定战略问题的最合理的解决方案。 博弈论在经济学中广泛用于理解人们如何在不同情况下做出选择,其中许多选择涉及不完全信息。

2016 年,出现了一个名为 深栈 在无限注扑克中击败了人类专业人士,但该模型针对该特定游戏是高度专业化的。 然而,DeepStack 团队的大部分成员现在都在 DeepMind 工作,他们将用于构建 DeepStack 的技术与 AlphaZero 中使用的技术结合起来。

这种新算法被称为“游戏学生”,它结合了树搜索、自我对弈和博弈论来解决完美和不完美的信息游戏。 在一个 进纸 科学,研究人员报告说,该算法击败了最好的公开可用的人工智能扑克游戏 Slumbot,并且还可以达到人类专业水平的围棋和国际象棋,尽管它无法与 AlphaZero 等专门算法相匹配。

但在人工智能研究中,成为一名多面手而不是一名大师可以说是一个更大的奖项。 虽然深度学习通常可以在特定任务上实现超人的表现,但开发可应用于广泛问题的更通用形式的人工智能则更加棘手。 研究人员表示,能够解决完美和不完美信息博弈的模型是“迈向任意环境的真正通用算法的重要一步”。

重要的是不要从结果中推断太多,来自英国爱丁堡大学的 Michael Rovatsos, 告诉 “新科学家”. 人工智能仍然在简单且受控的游戏环境中运行,其中可能的动作数量有限,规则也明确定义。 这与现实世界的混乱现实相去甚远。

但即使这只是一小步,能够将两种截然不同的游戏的领先方法结合到一个模型中也是一项重大成就。 这肯定可以成为未来功能更强大、更通用的模型的蓝图。

图片来源: 哈桑帕夏 / Unsplash

时间戳记:

更多来自 奇异枢纽