谷歌人工智能观看了 30,000 小时的视频游戏——现在它自己制作了

谷歌人工智能观看了 30,000 小时的视频游戏——现在它自己制作了

谷歌人工智能观看了 30,000 小时的视频游戏 - 现在它制作了自己的柏拉图区块链数据智能。垂直搜索。人工智能。

人工智能继续产生大量的光和热。文本和图像中最好的模型——现在已经获得了订阅量并被融入到消费产品中——正在争夺英寸。 OpenAI、Google 和 Anthropic 或多或少都是不相上下的。

因此,人工智能研究人员寻求将生成模型推向新领域也就不足为奇了。由于人工智能需要大量数据,预测下一步发展的一种方法是查看哪些数据在网上广泛可用,但在很大程度上尚未开发。

视频(其中有很多)显然是下一步。事实上,上个月,OpenAI 预览了 名为 Sora 的新型文本到视频人工智能 令围观者目瞪口呆。

但是视频……游戏呢?

询问并接收

事实证明,网上有不少玩家视频。谷歌 DeepMind 表示,它利用 30,000 小时精心策划的视频片段训练了新的人工智能 Genie,这些视频片段展示了游戏玩家玩简单的平台游戏(想想早期的任天堂游戏)以及 现在它可以创建自己的示例.

Genie 将简单的图像、照片或草图变成交互式视频游戏。

给出提示,例如绘制角色及其周围环境,人工智能就可以接受玩家的输入,在其世界中移动角色。在一篇博客文章中,DeepMind 展示了 Genie 的作品在 2D 景观中导航、在平台之间行走或跳跃。就像蛇吃尾巴一样,其中一些世界甚至来自人工智能生成的图像。

与传统视频游戏相比,Genie 逐帧生成这些交互式世界。给定提示和移动命令,它会预测最有可能的下一帧并即时创建它们。它甚至学会了加入视差感,这是平台游戏中前景比背景移动得更快的常见特征。

值得注意的是,人工智能的训练不包括标签。相反,Genie 仅通过观察训练中的示例,就学会了将输入命令(例如向左、向右或跳跃)与游戏中的动作关联起来。也就是说,当视频中的角色向左移动时,没有将命令链接到动作的标签。吉尼自己解决了这个问题。这意味着,未来的版本可能会接受与在线尽可能多的适用视频的培训。

人工智能是一个令人印象深刻的概念证明,但它仍处于开发早期,DeepMind 尚未计划公开该模型。

游戏本身就是像素化的世界,以每秒一帧的速度缓慢流动。相比之下,当代视频游戏可以达到每秒 60 或 120 帧。此外,与所有生成算法一样,Genie 会生成奇怪或不一致的视觉伪影。它还容易产生“不切实际的未来”的幻觉, 该团队在描述人工智能的论文中写道.

也就是说,有几个理由相信 Genie 会从这里开始进步。

搅动世界

由于人工智能可以从未标记的在线视频中学习,并且规模仍然不大(只有 11 亿个参数),因此有充足的机会进行扩展。经过更多信息训练的更大模型往往会显着改善。并带有一个 专注于推理的不断发展的行业——受过训练的人工智能执行任务的过程,比如生成图像或文本——可能会变得更快。

DeepMind 表示 Genie 可以帮助人们(例如专业开发人员)制作视频游戏。但与 OpenAI 一样(该公司认为 Sora 不仅仅是视频),该团队正在考虑更远大的目标。这种方法可以远远超出视频游戏的范围。

一个例子: 可以控制机器人的人工智能。该团队根据机器人手臂完成各种任务的视频训练了一个单独的模型。该模型学会了操纵机器人并处理各种物体。

DeepMind 还表示 Genie 生成的视频游戏环境可用于训练人工智能代理。这不是一个新策略。在 2021 年的一篇论文中,另一篇 DeepMind 团队概述了一款名为 XLand 的视频游戏 里面充满了人工智能代理和人工智能霸主,他们生成任务和游戏来挑战他们。人工智能的下一个重大进步将需要能够相互训练或生成合成训练数据的算法,这一想法是 获得牵引力.

这一切都是 OpenAI 和谷歌之间激烈竞争的最新一击,以展示人工智能的进步。而其他在该领域的人, 像人择、正在推进类似于 GPT-4 的多模态模型,Google 和 OpenAI 似乎也专注于模拟世界的算法。此类算法可能更擅长规划和交互。对于这两个组织似乎都有意生产的人工智能代理来说,这两项技能都将是至关重要的技能。

研究人员在《精灵》杂志中写道:“精灵可以用它以前从未见过的图像来提示,例如现实世界的照片或草图,使人们能够与他们想象的虚拟世界互动——本质上充当基础世界模型。” 精灵博客文章。 “我们专注于 2D 平台游戏和机器人视频 但我们的方法是通用的,应该适用于任何类型的域,并且可以扩展到更大的互联网数据集。”

同样,当 OpenAI 上个月预览 Sora 时,研究人员表示它可能预示着更基础的东西:世界模拟器。也就是说,两个团队似乎都将在线视频的巨大缓存视为训练人工智能生成自己的视频的一种方式,是的,而且还可以更有效地理解和运作在线或离线的世界。

这是否能带来红利,或者能否长期持续,仍然是一个悬而未决的问题。人类大脑的运作依赖于一个灯泡的能量;生成式人工智能会占用整个数据中心。但最好不要低估目前发挥作用的力量——人才、技术、人才和现金——旨在不仅改善人工智能,而且提高其效率。

我们在文本、图像、音频以及所有这三个方面都看到了令人印象深刻的进步。视频是下一个被扔进锅里的成分,它们可能会产生更有效的酿造。

图片来源: 谷歌深度思维

时间戳记:

更多来自 奇异枢纽