新理论表明聊天机器人可以理解文本 |广达杂志

新理论表明聊天机器人可以理解文本 |广达杂志

新理论表明聊天机器人可以理解文本 |广达杂志柏拉图区块链数据智能。垂直搜索。人工智能。

介绍

人工智能似乎比以往任何时候都更强大,像 Bard 和 ChatGPT 这样的聊天机器人能够生成令人难以置信的类人文本。但尽管它们才华横溢,这些机器人仍然让研究人员想知道:是否可以建立这样的模型 其实明白 他们在说什么?这位人工智能先驱表示:“显然,有些人相信他们确实如此。” 杰夫·欣顿最近的对话 与安德鲁·吴(Andrew Ng)合作,“有些人认为它们只是随机鹦鹉。”

这句令人回味的短语来自 2021 年 共同创作者 艾米莉·班德(Emily Bender),华盛顿大学的计算语言学家。作者写道,它表明大型语言模型(LLM)——构成现代聊天机器人的基础——只能通过组合他们已经看到的信息来生成文本,“不涉及任何意义”,这使得 LLM 成为“随机鹦鹉”。

这些模型为当今许多最大、最好的聊天机器人提供了动力,因此 Hinton 认为是时候确定它们的理解程度了。对他来说,这个问题不仅仅是学术问题。他对吴恩达说,“只要我们存在这些分歧”,“我们就无法就危险达成共识。”

新的研究可能会给出答案。开发的理论 SANJEEV阿罗拉 普林斯顿大学和 阿尼鲁德·戈亚尔谷歌 DeepMind 的研究科学家表示,当今最大的法学硕士并不是随机鹦鹉学舌。作者认为,随着这些模型变得越来越大并接受更多数据的训练,它们会提高个人与语言相关的能力,并通过以暗示理解的方式组合技能来开发新的能力——训练数据中不太可能存在的组合。

这种理论方法为法学硕士如何以及为何能够发展如此多的能力提供了数学上可证明的论据,已经说服了 Hinton 等专家。当阿罗拉和他的团队测试其一些预测时,他们发现这些模型的表现几乎与预期完全一致。从所有方面来看,他们都强有力地证明,最大的法学硕士并不只是鹦鹉学舌地重复他们以前所见过的事情。

“[他们]不能只是模仿训练数据中看到的内容,”说 塞巴斯蒂安·布贝克(SébastienBubeck),一位微软研究院的数学家和计算机科学家,他没有参与这项工作。 “这是基本的见解。”

更多数据,更多力量

的出现 意想不到的多样化能力 公平地说,在法学硕士中,我感到惊讶。这些能力并不是系统构建和训练方式的明显结果。法学硕士是一个巨大的人工神经网络,它连接各个人工神经元。这些连接称为模型参数,它们的数量表示 LLM 的大小。培训包括给法学硕士一个句子,最后一个词被模糊,例如,“燃料成本一只手臂和___”。 LLM 预测其整个词汇表的概率分布,因此,如果它知道,比如说,一千个单词,它就会预测一千个概率。然后它会选择最有可能的单词来完成句子——大概是“腿”。

最初,法学硕士可能选词不当。然后,训练算法计算损失(在某些高维数学空间中,法学硕士的答案与原始句子中的实际单词之间的距离),并使用该损失来调整参数。现在,给出同样的句子,LLM 将计算出更好的概率分布,其损失也会略低。该算法对训练数据中的每个句子(可能是数十亿个句子)执行此操作,直到 LLM 的总体损失降至可接受的水平。类似的过程用于测试不属于训练数据的句子的法学硕士。

经过训练和测试的法学硕士,当出现新的文本提示时,将生成最有可能的下一个单词,将其附加到提示中,生成另一个下一个单词,并以这种方式继续,产生看似连贯的答复。训练过程中没有任何迹象表明,使用更多参数和训练数据构建的更大的法学硕士也应该在需要推理来回答的任务上有所改进。

但他们确实如此。足够大的法学硕士展示了从解决基本数学问题到回答有关他人想法的问题的能力,而较小的模型则不具备这些能力,尽管它们都以类似的方式进行训练。

“这个[能力]从哪里来的?”阿罗拉疑惑道。 “这可以从下一个单词预测中得出吗?”

将技能与文本联系起来

阿罗拉(Arora)与戈亚尔(Goyal)合作,分析性地回答了此类问题。 “我们试图提出一个理论框架来理解涌现是如何发生的,”阿罗拉说。

两人转向称为随机图的数学对象。图是由线(或边)连接的点(或节点)的集合,在随机图中,任意两个节点之间的边的存在是随机决定的——例如,通过抛硬币来决定。硬币可能会有偏差,因此它有一定的概率出现正面 p。如果硬币正面朝向给定的一对节点,则在这两个节点之间形成一条边;否则它们将保持未连接状态。作为价值 p 变化时,图表可以显示其属性的突然转变. 例如,什么时候 p 超过某个阈值,孤立的节点(那些未连接到任何其他节点的节点)会突然消失。

阿罗拉和戈亚尔意识到,随机图在达到特定阈值后会产生意想不到的行为,可能是对法学硕士行为进行建模的一种方法。神经网络几乎变得太复杂而无法分析,但数学家长期以来一直在研究随机图,并开发了各种工具来分析它们。也许随机图论可以为研究人员提供一种理解和预测大型法学硕士明显意想不到的行为的方法。

研究人员决定将重点放在“二部”图上,其中包含两种类型的节点。在他们的模型中,一种类型的节点代表文本片段——不是单个单词,而是可能是一个段落到几页长的块。这些节点排列成一条直线。在它们下面的另一行中,是另一组节点。这些代表了理解给定文本片段所需的技能。每项技能几乎可以是任何东西。也许一个节点代表了法学硕士理解“因为”这个词的能力,它包含了一些因果关系的概念;另一个可以代表能够除两个数;另一个可能代表发现讽刺的能力。 “如果你明白这段文字是讽刺性的,那么很多事情都会发生逆转,”阿罗拉说。 “这与预测单词有关。”

需要明确的是,法学硕士在接受培训或测试时并未考虑到技能;它们只是为了改进下一个单词的预测而构建的。但阿罗拉和戈亚尔希望从理解单个文本可能需要的技能的角度来理解法学硕士。技能节点和文本节点之间或多个技能节点和文本节点之间的连接意味着法学硕士需要这些技能来理解该节点中的文本。此外,多段文本可能来自相同的技能或一组技能;例如,一组代表理解反讽能力的技能节点将连接到出现反讽的众多文本节点。

现在的挑战是将这些二分图与实际的法学硕士联系起来,看看这些图是否能揭示出强大能力的出现。但研究人员不能依赖任何有关实际法学硕士培训或测试的信息——OpenAI 或 DeepMind 等公司不会公开他们的培训或测试数据。此外,Arora 和 Goyal 希望预测法学硕士在规模进一步扩大时将如何表现,但目前还没有可供即将推出的聊天机器人使用的此类信息。然而,研究人员可以获取一条至关重要的信息。

自 2021 年以来,研究法学硕士和其他神经网络表现的研究人员发现了一个普遍特征。他们注意到,随着模型变大,无论是大小还是训练数据量,其测试数据的损失(训练后新文本的预测答案和正确答案之间的差异)都会以非常特定的方式减少。这些观察结果已被编入称为神经标度定律的方程中。因此,Arora 和 Goyal 设计的理论不依赖于任何单独的法学硕士、聊天机器人或训练和测试数据集的数据,而是依赖于这些系统都应该遵守的普遍法则:通过缩放法则预测的损失。

他们推断,也许绩效的提高(通过神经尺度定律来衡量)与技能的提高有关。这些改进的技能可以通过技能节点与文本节点的连接在二分图中定义。建立神经尺度定律和二部图之间的这种联系是让他们继续进行的关键。

扩大技能

研究人员首先假设存在一个假设的二部图,与法学硕士在测试数据上的行为相对应。为了解释 LLM 在测试数据上的损失的变化,他们设想了一种使用图表来描述 LLM 如何获得技能的方法。

举例来说,这项技能“理解讽刺”。这个想法用技能节点来表示,因此研究人员希望了解该技能节点连接到哪些文本节点。如果几乎所有这些连接的文本节点都是成功的——这意味着法学硕士对这些节点表示的文本的预测是高度准确的——那么法学硕士在这项特定技能上是有能力的。但是,如果超过一定比例的技能节点连接进入失败的文本节点,则 LLM 在该技能上失败。

这些二部图和 LLM 之间的这种联系使 Arora 和 Goyal 能够使用随机图论工具通过代理来分析 LLM 行为。研究这些图揭示了节点之间的某些关系。这些关系反过来又转化为一种合乎逻辑且可测试的方式,以解释大型模型如何获得实现其意想不到的能力所需的技能。

阿罗拉和戈亚尔首先解释了一个关键行为:为什么规模较大的法学硕士在个人技能方面比规模较小的法学硕士更加熟练。他们从神经缩放定律预测的较低测试损失开始。在图表中,较低的测试损失通过失败测试节点比例的下降来表示。因此总体上失败的测试节点较少。如果失败的测试节点越少,那么失败的测试节点和技能节点之间的连接就越少。因此,更多数量的技能节点连接到成功的测试节点,表明模型的技能能力不断增强。戈亚尔说:“损失的轻微减少会使机器获得这些技能的能力。”

接下来,两人找到了一种方法来解释更大模型的意想不到的能力。随着法学硕士规模的增加和测试损失的减少,技能节点的随机组合会发展到单个文本节点的连接。这表明法学硕士也能更好地一次使用多种技能,并开始使用多种技能生成文本——例如,将使用讽刺的能力与对“因为”一词的理解相结合——即使这些技能的精确组合训练数据中的任何文本中都不存在技能。

例如,想象一下,一名法学硕士已经可以使用一项技能来生成文本。如果将 LLM 的参数或训练数据数量扩大一个数量级,它将变得同样能够生成需要两种技能的文本。再提高一个数量级,法学硕士现在可以同时执行需要四种技能的任务,并且具有相同的能力水平。规模较大的法学硕士有更多的方式将技能组合在一起,从而导致能力的组合爆炸。

随着法学硕士规模的扩大,它在训练数据中遇到所有这些技能组合的可能性变得越来越不可能。根据随机图论的规则,每种组合都来自对可能技能的随机抽样。因此,如果图中大约有 1,000 个底层个人技能节点,并且您想要组合四种技能,那么大约有 1,000 的四次方(即 1 万亿)种可能的方式来组合它们。

阿罗拉和戈亚尔认为这证明最大的法学硕士不仅仅依赖于他们在培训数据中看到的技能组合。布贝克同意。 “如果法学硕士真的能够通过结合这千种技能中的四种来完成这些任务,那么它一定是在进行泛化,”他说。这意味着,它很可能不是一只随机鹦鹉。

真正的创造力?

但阿罗拉和戈亚尔希望超越理论,检验他们的观点,即随着法学硕士规模和训练数据的增加,法学硕士能够更好地结合更多技能,从而更好地进行泛化。他们与其他同事一起 设计了一种方法 称为“技能组合”,用于评估法学硕士使用多种技能生成文本的能力。

为了测试法学硕士,团队要求它就随机选择的主题生成三个句子,以说明一些随机选择的技能。例如,他们要求 GPT-4(为最强大的 ChatGPT 版本提供支持的法学硕士)撰写有关决斗的文章,基本上就是剑斗。此外,他们要求它展示四个领域的技能:自私偏见、隐喻、统计三段论和常识物理学. GPT-4 回答道:“我在这场与钢铁的舞蹈[隐喻]中的胜利就像物体坠落到地面[物理]一样确定。作为一名著名的决斗者,我天生就很敏捷,就像我声誉中的大多数其他[统计三段论]一样。打败?这只是因为战场不平衡,而不是我的能力不足(自私偏见)。”当被要求检查其输出时,GPT-4 将其减少为三句话。

介绍

“这不是海明威或莎士比亚,”阿罗拉说,但该团队相信它证明了他们的观点:该模型可以生成它不可能在训练数据中看到的文本,展示出一些人认为的技能是理解。他说,GPT-4 甚至在大约 10% 到 15% 的时间内通过了需要六种技能的技能组合测试,生成了统计数据上不可能存在于训练数据中的文本片段。

该团队还通过使用 GPT-4 来评估自己以及其他法学硕士的输出,从而实现流程自动化。阿罗拉说,模型自我评估是公平的,因为它没有记忆,所以它不记得它被要求生成它被要求评估的文本。谷歌 DeepMind 的研究员 Yasaman Bahri 从事人工智能基础研究,他发现自动化方法“非常简单而优雅”。

布贝克说,就该理论而言,它确实做出了一些假设,但“这些假设无论如何都不疯狂。”这些实验也给他留下了深刻的印象。 “[团队]从理论上证明并从经验上证实的是,存在组合泛化,这意味着[法学硕士]能够将从未组合在一起的构建块组合在一起,”他说。 “对我来说,这就是创造力的本质。”

阿罗拉补充说,这项工作并没有说明法学硕士所写内容的准确性。 “事实上,这是在争论原创性,”他说。 “这些东西在世界训练语料库中从来不存在。从来没有人写过这个。一定是产生了幻觉。”

尽管如此,Hinton 认为这项工作解决了法学硕士是否是随机鹦鹉学舌的问题。 “这是我见过的最严格的方法,可以证明 GPT-4 不仅仅是一只随机鹦鹉,”他说。 “他们令人信服地证明,GPT-4 可以生成结合技能和主题的文本,而这种方式几乎肯定不会出现在训练数据中。” (我们联系了本德,询问她对新作品的看法,但她以时间不够为由拒绝发表评论。)

事实上,正如数学预测的那样,GPT-4 的性能远远超过了其较小的前身 GPT-3.5,以至于 Arora 感到害怕。 “可能不仅仅是我,”他说。 “很多人都觉得 GPT-4 比 GPT-3.5 好多少有点奇怪,而这发生在一年之内。这是否意味着再过一年我们也会发生类似的变化?我不知道。只有 OpenAI 知道。”

时间戳记:

更多来自 量子杂志