介绍
您的小学老师可能没有教您如何添加 20 位数字。但如果您知道如何添加较小的数字,您所需要的只是纸和铅笔以及一点耐心。从 XNUMX 的位置开始,一步步向左,很快你就能轻松地堆积出数以百万计的数字。
像这样的问题对人类来说很容易解决,但前提是我们以正确的方式解决它们。 “我们人类解决这些问题的方法不是‘盯着它然后写下答案’,”说 埃兰·马拉赫,哈佛大学机器学习研究员。 “我们实际上是走过这些台阶的。”
这一见解启发了研究人员研究为 ChatGPT 等聊天机器人提供支持的大型语言模型。虽然这些系统可能会解决涉及几个算术步骤的问题,但它们经常会搞砸涉及多个步骤的问题,例如计算两个大数的总和。但到了 2022 年,谷歌研究人员团队 显示 要求语言模型生成逐步的解决方案使模型能够解决以前看似无法解决的问题。他们的技术被称为“思维链提示”,很快就得到了广泛应用,尽管研究人员很难理解它的工作原理。
现在,几个团队已经通过使用理论计算机科学的一个神秘分支(称为计算复杂性理论)的技术来探索思想链推理的力量。这是使用复杂性理论来研究语言模型的内在功能和局限性的一系列研究的最新章节。这些努力阐明了我们应该预期模型会在哪些方面失败,并且它们可能会指出构建模型的新方法。
“他们消除了一些魔力,”说 迪米特里斯·帕帕利奥普洛斯是威斯康星大学麦迪逊分校的机器学习研究员。 “这是好事。”
训练变形金刚
大型语言模型是围绕称为人工神经网络的数学结构构建的。这些网络内的许多“神经元”对代表单个单词的长串数字执行简单的数学运算,将通过网络的每个单词转换为另一个单词。这种数学炼金术的细节取决于另一组称为网络参数的数字,它量化神经元之间的连接强度。
为了训练语言模型产生连贯的输出,研究人员通常从参数均具有随机值的神经网络开始,然后向其提供来自互联网的大量数据。每次模型看到一个新的文本块时,它都会尝试依次预测每个单词:它根据第一个单词猜测第二个单词,根据前两个单词猜测第三个单词,依此类推。它将每个预测与实际文本进行比较,然后调整其参数以减少差异。每次调整只会稍微改变模型的预测,但不知何故,它们的集体效应使模型能够对其从未见过的输入做出连贯的响应。
20 年来,研究人员一直在训练神经网络来处理语言。但这项工作真正起飞是在 2017 年,当时谷歌的研究人员推出了 新型网络 称为变压器。
“这是七年前提出的,这似乎是史前史,”说 巴勃罗·巴塞罗,智利天主教大学机器学习研究员。
Transformer 之所以如此具有变革性,是因为它很容易扩展——增加参数数量和训练数据量——而不会使训练成本过高。在 Transformer 出现之前,神经网络最多有几亿个参数;如今,最大的基于 Transformer 的模型已超过一万亿。过去五年中语言模型性能的大部分改进都来自简单的扩展。
变形金刚通过使用称为注意力头的特殊数学结构使这成为可能,这使他们能够鸟瞰他们正在阅读的文本。当变压器读取一个新的文本块时,它的注意力头会快速扫描整个文本并识别单词之间的相关联系 - 也许会注意到第四个和第八个单词可能对于预测第十个单词最有用。然后,注意力头将单词传递到一个称为前馈网络的巨大神经元网络,该网络进行大量数字运算,以生成有助于学习的预测。
真正的 Transformer 具有由前馈网络分隔的多层注意力头,并且仅在最后一层之后输出预测。但在每一层,注意力头已经识别出每个单词最相关的上下文,因此计算密集型前馈步骤可以针对文本中的每个单词同时发生。这加快了训练过程,使得利用越来越大的数据集训练 Transformer 成为可能。更重要的是,它允许研究人员将训练大型神经网络的巨大计算负载分散到多个协同工作的处理器上。
为了充分利用海量数据集,“你必须让模型变得非常大,”说 大卫·蒋,圣母大学机器学习研究员。 “除非并行化,否则训练它们是不切实际的。”
然而,使训练 Transformer 变得如此容易的并行结构在训练后并没有帮助——此时,不需要预测已经存在的单词。在普通操作期间,变压器一次输出一个字,在生成下一个字之前将每个输出重新附加到输入上,但它们仍然停留在针对并行处理优化的架构上。
随着基于 Transformer 的模型不断发展,某些任务继续给它们带来麻烦,一些研究人员开始怀疑,推动更可并行化的模型是否需要付出代价。有没有办法从理论上理解变压器的行为?
变压器的复杂性
神经网络的理论研究面临许多困难,特别是当它们试图解释训练时。神经网络使用众所周知的程序在训练过程的每一步调整其参数。但很难理解为什么这个简单的过程会收敛于一组良好的参数。
一些研究人员没有考虑训练期间发生的情况,而是通过想象可以将其参数调整为任意值来研究变压器的内在功能。这相当于将变压器视为一种特殊类型的可编程计算机。
“你有一些计算设备,你想知道,‘它能做什么?它可以计算哪些类型的函数?’”Chiang 说。
这些是正式计算研究的中心问题。这个领域的历史可以追溯到 1936 年,当时艾伦·图灵 (Alan Turing) 首次设想了一个 奇特的装置现在称为图灵机,它可以通过在无限磁带上读写符号来执行任何计算。计算复杂性理论家后来以图灵的工作为基础,证明计算问题自然地分为不同的类别 复杂度等级 由解决这些问题所需的资源来定义。
2019 年,Barceló 和另外两名研究人员 证明 具有固定数量参数的变压器的理想化版本可能与图灵机一样强大。如果您设置一个变压器来重复将其输出作为输入反馈,并将参数设置为您想要解决的特定问题的适当值,它最终会给出正确的答案。
该结果是一个起点,但它依赖于一些不切实际的假设,这些假设可能会高估变压器的功率。从那以后的几年里,研究人员一直致力于开发更现实的理论框架。
其中一项努力始于 2021 年,当时 威廉·梅里尔现在是纽约大学的研究生,即将离开西雅图艾伦人工智能研究所为期两年的奖学金。在那里,他使用了似乎不太适合 Transformer 并行架构的技术来分析其他类型的神经网络。离开前不久,他与艾伦人工智能研究所研究员进行了交谈 艾希什(Ashish Sabharwal)在进入人工智能研究之前,他研究了复杂性理论。他们开始怀疑复杂性理论可能有助于他们理解变压器的局限性。
“这看起来只是一个简单的模型;肯定存在一些可以确定的限制,”萨巴瓦尔说。
两人使用计算复杂性理论的一个分支(称为电路复杂性)分析了变压器,该理论通常用于研究并行计算,并且具有 最近被应用 变压器的简化版本。在接下来的一年里,他们改进了之前工作中的一些不切实际的假设。为了研究变压器的并行结构如何限制它们的能力,两人考虑了变压器不将输出反馈到输入的情况,相反,它们的第一个输出必须是最终答案。他们 证明 该理论框架中的转换器无法解决特定复杂性类别之外的任何计算问题。许多数学问题,包括求解线性方程等相对简单的问题,被认为不属于本课程。
基本上,他们表明并行性确实是有代价的——至少当 Transformer 必须立即给出答案时。梅里尔说:“如果你使用变压器的方式是提供输入,然后只期望立即得到答案,那么变压器就非常弱了。”
思想实验
Merrill 和 Sabharwal 的研究结果提出了一个自然的问题:当变压器被允许回收其输出时,它们会变得更强大吗? Barceló 和他的合著者在 2019 年对理想化变压器的分析中研究了这个案例,但有了更现实的假设,这个问题仍然悬而未决。在随后的几年里,研究人员发现了思维链提示,使这个问题有了新的相关性。
Merrill 和 Sabharwal 知道他们的纯数学方法无法捕捉真实语言模型中思想链推理的所有方面,其中提示中的措辞 可能非常重要。但无论提示如何措辞,只要它使语言模型输出逐步解决方案,该模型原则上就可以在后续通过转换器时重用中间步骤的结果。这可以提供一种规避并行计算限制的方法。
与此同时,北京大学的一个团队也一直在沿着类似的思路思考,他们的初步结果是积极的。在 2023 年 XNUMX 月的一篇论文中,他们发现了一些在 Merrill 和 Sabharwal 的框架中对于普通 Transformer 来说应该不可能解决的数学问题,以及 显示 这些中间步骤使变压器能够解决这些问题。
10 月,Merrill 和 Sabharwal 继续他们早期的工作,推出了 详细的理论研究 思想链的计算能力。他们量化了额外的计算能力如何取决于变压器在必须给出最终答案之前允许使用的中间步骤的数量。一般来说,研究人员期望解决任何问题的中间步骤的适当数量取决于问题输入的大小。例如,将两个 20 位数字相加的最简单策略所需的中间加法步骤是用相同方法将两个 10 位数字相加所需的中间加法步骤的两倍。
像这样的例子表明,变压器仅仅使用几个中间步骤并不会获得太多好处。事实上,Merrill 和 Sabharwal 证明,只有当中间步骤的数量与输入的大小成比例增长时,思想链才真正开始发挥作用,并且许多问题需要中间步骤的数量继续增长。
结果的彻底性给研究人员留下了深刻的印象。 “他们确实确定了这一点,”说 丹尼尔许,哥伦比亚大学机器学习研究员。
Merrill 和 Sabharwal 最近的工作表明,思想链并不是万能的——原则上,它可以帮助 Transformer 解决更困难的问题,但代价是大量的计算工作。
“我们对一次性解决变压器局限性的不同方法感兴趣,”梅里尔说。 “思想链是一种方法,但本文表明这可能不是最经济的方法。”
回到现实
尽管如此,研究人员警告说,这种理论分析只能揭示有限的真实语言模型。积极的结果——证明 Transformer 原则上可以解决某些问题——并不意味着语言模型实际上会在训练过程中学习这些解决方案。
即使解决变压器局限性的结果也带有警告:它们表明没有变压器可以在所有情况下完美解决某些问题。当然,这是一个相当高的门槛。 “可能有一些特殊情况的问题它可以很好地处理,”许说。
尽管有这些警告,这项新工作还是提供了一个用于分析不同类型的神经网络架构的模板,这些架构最终可能会取代 Transformer。如果复杂性理论分析表明某些类型的网络比其他类型的网络更强大,那么这将证明这些网络在现实世界中也可能表现得更好。
蒋还强调,随着语言模型越来越广泛地应用于现实世界的应用中,对 Transformer 局限性的研究就更有价值,很容易高估它们的能力。
“实际上有很多事情他们做得不太好,我们需要非常非常认识到局限性,”蒋说。 “这就是为什么这种工作非常重要。”
- :具有
- :是
- :不是
- :在哪里
- ][p
- $UP
- 10日
- 20
- 20 年
- 2017
- 2019
- 2021
- 2022
- 2023
- a
- 能力
- 关于
- 账号管理
- 横过
- 实际
- 通
- 加
- 添加
- 增加
- 地址
- 调整
- 后
- 前
- AI
- 研究
- 艾伦
- 阿兰·图灵
- 炼金术
- 所有类型
- 艾伦
- 允许
- 允许
- 沿
- 已经
- 还
- 量
- 量
- an
- 分析
- 分析
- 分析
- 和
- 另一个
- 回答
- 任何
- 应用领域
- 的途径
- 方法
- 适当
- 随意
- 奥术
- 架构
- 架构
- 保健
- 围绕
- 人造的
- 人工智能
- AS
- 问
- 方面
- 假设
- At
- 关注我们
- 远离
- 背部
- 酒吧
- 基于
- BE
- 成为
- 成为
- 很
- before
- 开始
- 开始
- 行为
- 更好
- 之间
- 超越
- 位
- 阻止
- 分支机构
- 建立
- 建筑物
- 建
- 但是
- by
- 计算
- 被称为
- CAN
- 能力
- 捕获
- 案件
- 例
- 原因
- 警告
- 中央
- 一定
- 链
- 更改
- 章节
- 聊天机器人
- ChatGPT
- 智利
- 程
- 相干
- 集体
- COLUMBIA
- 如何
- 购买的订单均
- 复杂
- 计算
- 计算
- 计算能力
- 计算上
- 计算
- 一台
- 计算机科学
- 计算
- 连接
- 考虑
- 考虑
- 上下文
- 持续
- 谈话
- 正确
- 价格
- 可以
- 套餐
- data
- 数据集
- 重要日期
- 定义
- 依赖
- 依靠
- 详情
- 开发
- 设备
- DID
- 差异
- 不同
- 难
- 困难
- 发现
- do
- 不
- 不会
- 别
- 向下
- ,我们将参加
- 每
- 此前
- 缓解
- 易
- 效果
- 努力
- 工作的影响。
- 八年级
- 启用
- 使
- 巨大
- 方程
- 特别
- 逃脱
- 甚至
- 终于
- 所有的
- 证据
- 例子
- 存在
- 期望
- 昂贵
- 探讨
- 额外
- 面部彩妆
- 失败
- 秋季
- 少数
- 部分
- 最后
- 结束
- 姓氏:
- 适合
- 五
- 固定
- 其次
- 以下
- 针对
- 正式
- 第四
- 骨架
- 框架
- 止
- 功能
- Gain增益
- 其他咨询
- 生成
- 发电
- 得到
- 越来越
- 给
- 给予
- 去
- 非常好
- 谷歌
- 得到了
- 经验
- 毕业
- 增长
- 增长
- 成长
- 民政事务总署
- 处理
- 发生
- 发生
- 更难
- 哈佛
- 哈佛大学
- 有
- he
- 元首
- 重
- 帮助
- 帮助
- 高
- 他的
- 创新中心
- How To
- HTTP
- HTTPS
- 人类
- 百
- 确定
- 鉴定
- if
- 想象
- 即时
- 重要
- 不可能
- 印象深刻
- 改进
- in
- 包含
- 增加
- 日益
- 的确
- 表明
- 表示
- 个人
- 无限
- ING
- 输入
- 输入
- 内
- 洞察
- 灵感
- 代替
- 研究所
- 房源搜索
- 有兴趣
- 网络
- 介入
- 成
- 固有
- 介绍
- 涉及
- IT
- 它的
- 只是
- 类
- 种
- 知道
- 语言
- 大
- 大
- 最大
- 名:
- 后来
- 最新
- 层
- 层
- 学习用品
- 学习
- 最少
- 离开
- 谎言
- 喜欢
- 容易
- 极限
- 限制
- 范围
- Line
- 线性
- 线
- 加载
- 长
- 占地
- 机
- 机器学习
- 制成
- 杂志
- 魔法
- 使
- 制作
- 制作
- 许多
- 大规模
- 数学
- 数学的
- 问题
- 可能..
- 美林
- 可能
- 百万
- 模型
- 模型
- 更多
- 最先进的
- 移动
- 许多
- 多
- 必须
- 自然
- 需求
- 打印车票
- 网络
- 网络
- 神经
- 神经网络
- 神经网络
- 神经元
- 决不要
- 全新
- 纽约
- 下页
- 没有
- 注意
- 现在
- 数
- 数字
- 十月
- of
- 折扣
- 优惠精选
- 经常
- on
- 一
- 那些
- 仅由
- 到
- 打开
- 操作
- 运营
- 优化
- 普通
- 其他名称
- 其它
- 输出
- 产量
- 输出
- 学校以外
- 超过
- 对
- 灵丹妙药
- 纸类
- 并行
- 参数
- 通过
- 通行证
- 过去
- 忍耐
- 北京
- 完美
- 演出
- 性能
- 也许
- 地方
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 贫困
- 积极
- 可能
- 功率
- 强大
- 实用
- 预测
- 预测
- 预测
- 预测
- 初步
- 漂亮
- 以前
- 先前
- 原理
- 大概
- 市场问题
- 问题
- 程序
- 过程
- 处理
- 处理器
- 生产
- 可编程
- 样张
- 比例
- 建议
- 证明
- 提供
- 证明
- 纯粹
- 推
- 量子杂志
- 量化的
- 题
- 有疑问吗?
- 很快
- 相当
- 凸
- 随机
- 范围
- 达到
- 阅读
- 真实
- 真实的世界
- 现实
- 现实
- 真
- 最近
- 减少
- 精
- 相对
- 相关性
- 相应
- 保持
- 去掉
- 反复
- 更换
- 代表
- 要求
- 必须
- 需要
- 研究
- 研究员
- 研究人员
- 资源
- 回应
- 导致
- 成果
- 重用
- 揭示
- 右
- 说
- 同
- 鳞片
- 缩放
- 浏览
- 学校
- 科学
- 西雅图
- 其次
- 似乎
- 似乎
- 看到
- 看到
- 集
- 套数
- XNUMX所
- 几个
- 不久
- 应该
- 显示
- 显示
- 作品
- 类似
- 简易
- 简
- 只是
- 同时
- 自
- 尺寸
- 小
- So
- 解决方案
- 解决
- 解决
- 一些
- 不知何故
- 或很快需要,
- 特别
- 具体的
- 速度
- 传播
- 堆叠
- 开始
- 开始
- 步
- 步骤
- 仍
- 策略
- 实力
- 结构体
- 结构
- 学生
- 研究
- 研究
- 学习
- 留学
- 随后
- 这样
- 建议
- 提示
- 产品
- 串联
- 任务
- 团队
- 队
- 技术
- 技术
- 模板
- 文本
- 比
- 这
- 其
- 他们
- 然后
- 理论
- 理论
- 那里。
- 博曼
- 他们
- 事
- 事
- 思维
- 第三
- Free Introduction
- 那些
- 思想
- 通过
- 次
- 至
- 今晚
- 了
- 对于
- 培训
- 产品培训
- 变革
- 变压器
- 变形金刚
- 治疗
- 兆
- 麻烦
- 尝试
- 图灵
- 转
- 拧
- &
- 两次
- 二
- 类型
- 类型
- 一般
- 理解
- 大学
- 除非
- 使用
- 用过的
- 有用
- 使用
- 运用
- 有价值
- 价值观
- 版本
- 版本
- 非常
- 查看
- 走
- 想
- 是
- 方法..
- 方法
- we
- 弱
- 卷筒纸
- 网页
- 井
- 知名
- 为
- 什么是
- ,尤其是
- 是否
- 这
- 而
- 全
- 谁的
- 为什么
- 宽
- 大范围
- 广泛
- 将
- 也完全不需要
- 怀疑
- Word
- 措辞
- 话
- 工作
- 工作
- 加工
- 世界
- 将
- 写
- 写作
- 年
- 年
- 纽约
- 完全
- 和风网