Meta 的新人工智能在“外交”游戏中排名前 10%——人类玩家并不比柏拉图区块链数据智能更聪明。 垂直搜索。 人工智能。

Meta 的新 AI 在“外交”游戏中排名前 10%——而人类玩家并不聪明

人工智能已经掌握了一些最 复杂博弈 为人类所熟知,但虽然它常常擅长竞争,但合作并不自然。 现在,来自 Meta 的 AI 已经掌握了 Diplomacy 游戏,这需要您与其他玩家合作才能获胜。

谷歌掌握的 围棋游戏 被誉为 AI 的一个重要里程碑,但尽管其不可否认的复杂性,它在许多方面都非常适合机器的冷计算逻辑。 这是一款完美信息游戏,您可以全面了解对手的动作,而获胜仅仅意味着能够击败其他玩家。

另一方面,外交是一件复杂得多的事情。 棋盘游戏最多可容纳七名玩家 超过 欧洲军事强国并使用他们的军队控制战略城市。 但是允许玩家相互协商以形成和打破联盟以追求完全统治。

更重要的是,所有玩家的动作在每个回合都是同时进行的,所以你不能简单地对其他人的动作做出反应。 这意味着赢得比赛需要战略思维、与其他玩家合作的能力以及有说服力的谈判技巧的复杂组合。 虽然 AI 已经掌握了纯粹的策略,但事实证明这些其他技能难以复制。

不过,Meta 的研究人员设计的一种新人工智能可能已经朝着这个方向迈出了一大步。 在一个 论文发表 上星期 in 科学, 他们描述了一个名为 Cicero 的系统,该系统在在线外交联盟中排名前 10%,并且取得了人类玩家平均得分的两倍多。

西塞罗是有弹性的,它是无情的,它是有耐心的,”三届外交世界冠军安德鲁戈夫说idMeta制作的视频. “它的播放没有很多有时会让你做出错误决定的人类情感。 它只是评估情况并做出最佳决定,不仅是为了它,也是为了它与之共事的人。”

创建 Cicero 需要 Meta 研究人员结合来自两个不同子领域的最先进的 AI 方法:战略推理和自然语言处理。 该系统的核心是一个规划算法,可以预测其他玩家的动作,并以此来确定自己的策略。 该算法是通过让 AI 一遍又一遍地自己玩来训练的,同时还试图模仿人类玩游戏的方式。

研究人员已经表明,仅此计划模块就能够 打败人类职业选手 在游戏的简化版本中。 但在这项最新的研究中,该团队将其与一个大型语言模型相结合,该模型根据来自互联网的大量文本进行训练,然后使用来自 40,000 个在线外交游戏的对话进行微调。 这使升级后的西塞罗能够解读来自其他玩家的信息 也制作自己的 条未读消息 说服他们一起工作。

组合系统首先使用棋盘的当前状态和过去的对话来预测每个玩家可能会做什么。 然后,在生成旨在概述其意图并确保其他参与者合作的消息之前,它会为自己及其合作伙伴制定行动计划。

在40多场在线比赛中,西塞罗与其他82名选手进行了有效沟通,说明了自己的意图,协调行动,谈判联盟。 至关重要的是,研究人员表示,他们没有从游戏中的消息中看到人类玩家怀疑他们正在与 AI 合作的证据。

然而,该模型的沟通能力并非完美无缺。 它不仅能够吐出无意义的消息或与其目标不一致的消息,因此研究人员不得不在每次移动时生成多个候选消息,然后使用各种过滤机制来清除垃圾。 即便如此,研究人员也承认有时会漏掉不合逻辑的信息PED 通过。

这表明 Cicero 核心的语言模型仍然没有真正理解正在发生的事情,它只是在生成听起来似是而非的消息,然后需要对其进行审查以确保它们达到预期的结果。

写入 谈话, 澳大利亚新南威尔士大学的人工智能研究员 Toby Walsh 也指出,与大多数人类玩家不同,西塞罗非常诚实。 虽然这是一个非常有效的策略,但如果竞争对手发现他们的对手永远不会试图欺骗他们,这可能是一个主要弱点。

尽管如此,这一进步还是很重要的,Facebook 希望它的应用可以远远超出棋盘游戏。 在一篇博文中,研究人员表示,使用规划算法来控制语言生成的能力可以使与 AI 聊天机器人进行更长时间、更丰富的对话或创建能够适应玩家行为的视频游戏角色成为可能。

图片来源: MabelAmber / 4008 张照片

时间戳记:

更多来自 奇异枢纽