谷歌的 Genie AI 从单张图像制作游戏

谷歌的 Genie AI 从单张图像制作游戏

谷歌宣布推出 Genie,一款用于制作手机游戏的应用程序,作为其持续投资人工智能的一部分。 

由谷歌旗下人工智能初创公司 DeepMind 开发的生成式人工智能模型 Genie 进行了现场演示。 Genie 从数十万个游戏视频中学习游戏机制,并可以用最少的提示生成可玩的游戏。

另请参阅: Figure AI 将为解决劳动力问题的人形机器人筹集 675 亿美元

揭开精灵面纱

正如谷歌官方DeepMind中所述 博客文章,Genie 是使用在线视频训练的基础世界模型。该模型可以通过合成图像、照片甚至草图生成无穷无尽的可玩(动作可控)世界。

Genie 是生成交互环境的缩写,由 Google 和不列颠哥伦比亚大学合作开发。只需一张图像,它就可以根据用户提示生成横向卷轴 2D 平台游戏,例如《魂斗罗》和《超级马里奥兄弟》。

然而,谷歌 DeepMind 在公告中表示,它正在以 Genie 的形式引入生成人工智能(AI)的“新范式”。此外,该公司承认生成式人工智能模型的出现,能够通过语言、图像甚至视频生成新颖且富有创意的内容。

据谷歌称,Genie 接受训练的 200,000 小时无人监管的公共互联网游戏视频中,很大一部分是 2D 平台游戏,而不是完整的虚拟现实游戏。

精灵的规格

在维度方面,Genie 拥有 11 亿个参数。该模型还包含时空视频分词器、自回归动力学模型和简单且可扩展的潜在动作模型。这些规范使 Genie 能够在生成的环境中逐帧运行,即使在训练时没有标签或其他特定领域的要求。

此外,尽管 Genie 接受了纯视频数据的训练,但仍可以指示生成一组多样化的交互式和可控环境。 Genie 只需一张图像提示即可创建可玩的环境,这与众多可以用语言图像甚至视频生成创意内容的生成式 AI 模型不同。

然而,谷歌 DeepMind 开发者 Tim Rocktäschel 在 X(以前的 Twitter)上表示,他们专注于规模而不是添加归纳偏差。

他补充说,他们使用来自 200D 平台游戏的超过 2 万小时视频的数据集并训练 11B 世界模型。以无人监督的方式,精灵学习了持续控制角色的各种潜在动作。

谷歌的 Genie AI 从单张图像制作游戏
图片来源:Google

精灵的能力

根据 谷歌 研究人员表示,Genie 由三个模型驱动:预测下一帧中将发生什么的动态模型、将原始视频帧转换为离散标记的视频标记器以及可以推断视频帧之间动作的潜在动作模型。

Genie 的基础模型无需经过动作或文本注释训练即可识别游戏主要角色,这是其独特功能之一。得益于驱动它的模型,用户可以轻松地控制角色 AI生成 虚拟现实环境。

Rocktäschel还表示Genie可以将其他媒体变成游戏。可以要求 Genie 根据随附的 Google DeepMind 研究论文中的各种输入创建各种动作可控的虚拟世界。

此外,Rocktäschel 表示该模型可以将任何图像转换为可玩的 2D 世界。据他介绍,精灵可以将人类设计的创作(例如草图)变为现实,例如塞内卡(Seneca)和凯斯宾(Caspian)这两位有史以来最年轻的世界创造者的美丽艺术品。

时间戳记:

更多来自 元新闻