DeepMind 的类似 ChatGPT 的机器人大脑让它们能够从互联网上学习

DeepMind 的类似 ChatGPT 的机器人大脑让它们能够从互联网上学习

自从 ChatGPT 去年 XNUMX 月在科技界爆发以来,它一直在帮助人们编写各种材料、生成代码和查找信息。 它和其他大型语言模型 (LLM) 简化了从接听客户服务电话到接受快餐订单的任务。 鉴于法学硕士在人类出现的短时间内对人类有多么有用,机器人的 ChatGPT 会如何影响他们学习和做新事物的能力? 谷歌 DeepMind 的研究人员决定找出答案,并将他们的发现发表在 博客文章 以及上周发布的论文。

他们称他们的系统为 RT-2。 它是《机器人变形金刚 2》的缩写,是《机器人变形金刚 XNUMX》的继任者 机器人变压器 1,该公司于去年年底发布。 RT-1 基于小型语言和视觉程序,并经过专门训练来执行许多任务。 该软件曾用于 Alphabet X 的 日常机器人,使他们能够完成 700 多项不同的任务,成功率高达 97%。 但是,当被要求执行未经训练的新任务时,使用 RT-1 的机器人成功率只有 32%。

RT-2 几乎使这一速度翻了一番,在 62% 的要求时间内成功执行了新任务。 研究人员将 RT-2 称为视觉-语言-动作 (VLA) 模型。 它使用在网上看到的文本和图像来学习新技能。 这并不像听起来那么简单; 它要求软件首先“理解”一个概念,然后将这种理解应用于命令或指令集,然后执行满足这些指令的操作。

该论文的作者给出的一个例子是处理垃圾。 在以前的模型中,机器人的软件必须首先经过训练才能识别垃圾。 例如,如果桌子上有一个去皮的香蕉,旁边有果皮,机器人就会显示果皮是垃圾,而香蕉不是。 然后,它会被教导如何捡起果皮,将其移至垃圾桶,并将其存放在那里。

不过,RT-2 的工作原理略有不同。 由于该模型已经接受了来自互联网的大量信息和数据的训练,因此它对垃圾是什么有一个大致的了解,尽管它没有接受过扔垃圾的训练,但它可以拼凑出完成此任务的步骤。

研究人员用于训练 RT-2 的法学硕士是 帕利-X (具有 55 亿个参数的视觉和语言模型),以及 帕LM-E (谷歌称之为具体多模态语言模型,专为机器人开发,具有 12 亿个参数)。 “参数”是指机器学习模型根据其训练数据定义的属性。 就法学硕士而言,他们对句子中单词之间的关系进行建模,并权衡给定单词前面或后面有另一个单词的可能性。

通过在巨大的数据集中查找单词之间的关系和模式,模型可以从自己的推论中学习。 他们最终可以弄清楚不同概念如何相互关联并辨别上下文。 就 RT-2 而言,它将这些知识转化为机器人动作的通用指令。

这些动作对于机器人来说被表示为标记,通常用于以单词片段的形式表示自然语言文本。 在这种情况下,令牌是操作的一部分,并且软件将多个令牌串在一起以执行操作。 这种结构还使软件能够执行思维链推理,这意味着它可以响应需要某种程度推理的问题或提示。

该团队给出的例子包括在没有可用锤子时选择一个物体用作锤子(机器人选择一块石头)以及为疲倦的人选择最好的饮料(机器人选择能量饮料)。

DeepMind 的类似 ChatGPT 的机器人大脑让它们能够从互联网上学习柏拉图区块链数据智能。垂直搜索。人工智能。
图片来源:谷歌 DeepMind

研究人员在 Google 的一篇文章中写道:“RT-2 表现出了比它所接触的机器人数据更高的泛化能力以及语义和视觉理解能力。” 博客文章。 “这包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。”

的梦想 通用机器人 在机器人能够随时随地学习之前,无论是在家庭、商业环境还是工业环境中,无论发生什么,都可以帮助人类解决这一问题。 对我们来说,对于机器人来说,最基本的本能似乎是理解上下文、能够推理、并采取行动解决没有预料到的问题的复杂组合。 对它们进行编程以对各种计划外场景做出适当的反应是不可能的,因此它们需要能够像人类一样概括并从经验中学习。

RT-2 是朝这个方向迈出的一步。 不过,研究人员确实承认,虽然 RT-2 可以概括语义和视觉概念,但它尚无法自行学习新动作。 相反,它将已知的操作应用到新的场景中。 也许 RT-3 或 4 能够将这些技能提升到一个新的水平。 与此同时,正如团队总结的那样 博客文章”,“虽然要在以人为中心的环境中实现有用的机器人还有大量工作要做,但 RT-2 向我们展示了一个触手可及的机器人技术令人兴奋的未来。”

图片来源: 谷歌深度思维

时间戳记:

更多来自 奇异枢纽