关于语言模型安全和滥用柏拉图区块链数据智能的经验教训。垂直搜索。人工智能。

语言模型安全和误用的经验教训

语言模型安全和误用的经验教训

强大的人工智能系统的部署丰富了我们对安全和滥用的理解,远远超过仅通过研究所能实现的。 尤其:

  • 基于 API 的语言模型滥用通常以不同于我们最担心的形式出现。
  • 我们已经确定了现有语言模型评估的局限性,我们正在使用新的基准和分类器来解决这些问题。
  • 基础安全研究为人工智能系统的商业应用提供了显着优势。

在这里,我们描述了我们的最新想法,希望能帮助其他 AI 开发人员解决部署模型的安全和滥用问题。


O过去两年,我们学到了很多关于如何使用和滥用语言模型的知识——如果没有实际部署经验,我们就无法获得这些见解。 2020 年 XNUMX 月,我们开始向开发人员和研究人员提供访问 开放人工智能API,一个用于在 OpenAI 开发的新 AI 模型之上访问和构建应用程序的界面。 以降低伤害风险的方式部署 GPT-3、Codex 和其他模型带来了各种技术和政策挑战。

我们的模型部署方法概述

大型语言模型现在能够执行 非常广泛的任务,经常开箱即用。 它们的风险概况、潜在应用以及对社会的更广泛影响 不好 了解. 因此,我们的部署方法强调持续迭代,并利用以下策略来最大化部署的好处,同时降低相关风险:

  • 部署前风险分析,利用越来越多的安全评估和红队工具(例如,我们使用评估检查了我们的 InstructGPT 是否存在任何安全降级 下面讨论)
  • 从小用户群开始(例如,GPT-3 和我们的 指导GPT 系列开始于私人测试版)
  • 研究新用例试点的结果(例如,探索我们可以安全地启用长格式内容生成的条件,与少数客户合作)
  • 实施有助于掌握使用情况的流程(例如,审查用例、令牌配额和速率限制)
  • 进行详细的回顾性审查(例如,安全事件和重大部署)
语言模型安全和误用的经验教训


请注意,此图旨在直观地传达模型开发和部署的持续过程中对反馈循环的需求以及必须在每个阶段集成安全性这一事实。 它并非旨在传达我们或任何其他组织流程的完整或理想情况。

负责任的部署没有灵丹妙药,因此我们尝试在开发和部署的每个阶段了解并解决我们模型的局限性以及潜在的滥用途径。 这种方法使我们能够在小范围内尽可能多地了解安全和政策问题,并在启动大规模部署之前整合这些见解。


负责任的部署没有灵丹妙药。

虽然并不详尽,但我们迄今为止投资的一些领域包括[1]:

由于干预的每个阶段都有局限性,因此需要采用整体方法。

有些领域我们可以做得更多,但我们仍有改进的空间。 例如,当我们第一次研究 GPT-3 时,我们将其视为内部研究工件而不是生产系统,并且在过滤掉有毒的训练数据方面没有我们可能采取的积极态度。 我们在研究和去除后续模型的此类材料方面投入了更多资金。 在我们没有关于该主题的明确政策的情况下,我们花费了更长的时间来解决一些滥用情况,并且在迭代这些政策方面做得更好。 我们将继续迭代一系列安全要求,这些要求在解决风险方面最有效,同时也与开发人员进行了清晰的沟通,并最大限度地减少了过度摩擦。

尽管如此,我们相信与更加不干涉的方法相比,我们的方法使我们能够衡量和减少语言模型使用带来的各种危害,同时使我们的语言模型在学术、艺术和商业上的广泛应用成为可能。楷模。[2]

语言模型滥用的多种形式和大小

自从我们早期在 恶意使用人工智能 2018和 在 GPT-2 上 在 2019 年,我们特别关注赋予影响力运营的人工智能系统。 我们有 与...合作 外部专家开发 概念证明 并晋升 小心 分析 第三方的此类风险。 我们仍然致力于解决与启用语言模型的影响力操作相关的风险,并且最近共同组织了一个关于该主题的研讨会。[3]

然而,我们已经发现并阻止了数百名试图滥用 GPT-3 的行为者,其目的比为影响行动制造虚假信息更广泛,包括以我们没有预料到或我们预料到但没有预料到的方式如此流行。[4] 我们的 用例指南, 内容准则,内部检测和响应基础设施最初面向我们根据内部和外部研究预测的风险,例如使用 GPT-3 生成误导性政治内容或使用 Codex 生成恶意软件。 我们的检测和响应工作随着时间的推移而发展,以应对“在野外”遇到的真实滥用案例,这些案例在我们最初的风险评估中并不像影响操作那样突出。 例子包括可疑医疗产品的垃圾邮件促销和种族主义幻想的角色扮演。

为支持语言模型滥用及其缓解的研究,我们正在积极探索今年分享安全事件统计数据的机会,以具体讨论语言模型滥用。

风险和影响测量的难度

语言模型的风险和影响的许多方面仍然难以衡量,因此难以以负责任的方式监控、最小化和披露。 我们积极利用现有的学术基准进行语言模型评估,并渴望继续在外部工作的基础上进行构建,但我们也发现现有的基准数据集通常无法反映我们在实践中看到的安全和误用风险。[5]

这些限制反映了这样一个事实,即学术数据集很少是为了明确告知生产使用语言模型的目的而创建的,并且不会从大规模部署此类模型中获得的经验中受益。 因此,我们一直在开发新的评估数据集和框架来衡量我们的模型的安全性,我们计划很快发布这些数据集。 具体来说,我们开发了新的评估指标来衡量模型输出中的毒性,还开发了内部分类器来检测违反我们的内容的 内容政策,例如色情内容、仇恨言论、暴力、骚扰和自残。 反过来,这两者也被用来改进我们的预训练数据[6]——具体来说,通过使用分类器过滤内容和评估指标来衡量数据集干预的效果。

沿各个维度对单个模型输出进行可靠分类是困难的,而在 OpenAI API 的规模上衡量它们的社会影响则更加困难。 我们已经进行了几项内部研究,以便为此类测量建立制度力量,但这些研究往往提出的问题多于答案。

我们对更好地了解我们的模型的经济影响以及这些影响的分布特别感兴趣。 我们有充分的理由相信,部署当前模型对劳动力市场的影响在绝对意义上可能已经很显着,并且随着我们模型的能力和范围的增长,它们将会增长。 迄今为止,我们已经了解了各种本地影响,包括对个人执行的现有任务(如文案和摘要)的巨大生产力提高(有时会导致工作流失和创造),以及 API 解锁以前不可行的新应用程序的情况, 如 大规模定性反馈的综合. 但是我们对净效应缺乏很好的理解。

我们认为,对于那些开发和部署强大的人工智能技术的人来说,正面解决他们工作的积极和消极影响是很重要的。 我们在这篇文章的结论部分讨论了朝着这个方向的一些步骤。

人工智能系统的安全性和实用性之间的关系

在我们的 宪章,发表于 2018 年,我们说我们“担心后期 AGI 发展成为一场没有时间采取足够安全预防措施的竞争竞赛。” 然后我们 出版 对竞争性人工智能发展的详细分析,我们密切关注 随后 研究。 同时,通过 OpenAI API 部署人工智能系统也加深了我们对安全性和实用性协同作用的理解。

例如,绝大多数开发人员更喜欢我们的 InstructGPT 模型——这些模型经过微调以遵循用户意图[7]——在基本的 GPT-3 模型之上。 然而,值得注意的是,InstructGPT 模型最初并非出于商业考虑,而是旨在长期取得进展 对齐问题. 实际上,这意味着客户(也许并不奇怪)更喜欢那些专注于任务并了解用户意图的模型,以及不太可能产生有害或不正确输出的模型。[8] 其他基础研究,例如我们在 利用信息 从互联网上检索以更真实地回答问题,也有可能提高人工智能系统的商业效用。[9]

这些协同作用不会总是发生。 例如,更强大的系统通常需要更多时间来有效地评估和调整,从而排除了立即获利的机会。 由于负面的外部性,用户的效用和社会的效用可能不一致——考虑完全自动化的文案,这可能对内容创建者有利,但对整个信息生态系统不利。

看到安全和实用性之间的强大协同作用的案例令人鼓舞,但我们致力于投资安全和政策研究,即使它们与商业实用性进行权衡。


我们致力于投资安全和政策研究,即使它们与商业效用进行权衡。

参与方式

上述每一课都提出了自己的新问题。 哪些类型的安全事件我们可能仍然未能发现和预测? 我们如何才能更好地衡量风险和影响? 我们如何才能继续提高模型的安全性和实用性,并在它们出现时在这两者之间进行权衡?

我们正在与其他部署语言模型的公司积极讨论其中的许多问题。 但我们也知道,没有任何组织或一组组织拥有所有答案,我们想强调几种方式,让读者可以更多地参与理解和塑造我们对最先进人工智能系统的部署。

首先,获得与最先进的人工智能系统交互的第一手经验对于理解它们的能力和影响是非常宝贵的。 在对我们有效检测和响应滥用的能力建立了更多信心之后,我们最近结束了 API 候补名单。 个人在 支持的国家和地区 可以通过注册快速访问 OpenAI API 点击此处.

其次,研究我们特别感兴趣的主题(例如偏见和滥用)以及将受益于财政支持的研究人员可以使用 这种形式. 外部研究对于告知我们对这些多方面系统的理解以及更广泛的公众理解至关重要。

最后,今天我们发布一个 研究议程 探索与我们的 Codex 系列模型相关的劳动力市场影响,并呼吁外部合作者开展这项研究。 我们很高兴与独立研究人员合作,研究我们技术的影响,以便为适当的政策干预提供信息,并最终将我们的思维从代码生成扩展到其他方式。

如果您有兴趣以负责任的方式部署尖端人工智能技术, 应用 在 OpenAI 工作!


致谢

感谢 Lilian Weng、Rosie Campbell、Anna Makanju、Bob McGrew、Hannah Wong、Ryan Lowe、Steve Dowling、Mira Murati、Sam Altman、Greg Brockman、Ilya Sutskever、Percy Liang、Peter Welinder、Ethan Perez、Ellie Evans、Helen Ngo、 Helen Toner、Justin Jay Wang、Jack Clark、Rishi Bommasani、Girish Sastry、Sarah Shoker、Matt Knight、Bianca Martin、Bob Rotsted、Lama Ahmad、Toki Sherbakov 等,感谢他们对这篇文章和相关工作提供反馈。


脚注

  1. 这篇文章基于我们通过 API 部署语言模型的方法,因此所描述的课程和缓解措施与那些也追求基于 API 的部署的人最相关。 然而,我们也希望一些讨论与那些使用语言模型构建第一方应用程序的人以及那些考虑开源语言模型的人相关。 ↩︎

  2. 这篇文章旨在解释和分享我们的方法的经验教训,而不是建议所有参与者都必须采用相同的方法,或者相同的方法适用于所有可能的 AI 系统。 不同的部署方法有相关的好处和成本,不同的模型将或多或少地从部署前的研究中受益,在某些情况下,不同参与者采用不同的部署路径可能很有价值。 ↩︎

  3. 关于本次研讨会的更多细节将包含在即将出版的基于它的出版物中。 ↩︎

  4. 我们为应对滥用而强调的缓解措施也在不断发展。 例如,考虑到先前涉及人们手动编写长篇误导性内容的影响操作案例,我们最初专注于将长篇文本生成作为威胁向量。 鉴于这一重点,我们为生成的文本设置了最大输出长度。 然而,基于长格式生成的试点研究,我们发现输出限制对违反政策的影响不大——相反,我们开始相信,放大或增加对误导性内容的参与度可能是更大的风险。 ↩︎

  5. 从寻求对真实语言模型输出的安全性进行整体评估的从业者的角度来看,现有数据集的局限性示例包括:过于狭隘的关注点(例如,仅测量职业性别偏见)、过于广泛的关注点(例如,在“毒性”的保护伞下测量所有内容),倾向于抽象出使用和上下文的细节,未能测量 生成的 语言模型使用的维度(例如,使用多项选择风格),提示在风格上与实际语言模型用例中通常使用的提示不同,未捕获实践中重要的安全维度(例如,输出遵循或忽略安全-指令中的动机约束),或者没有捕获我们发现与滥用相关的输出类型(例如,色情内容)。 ↩︎

  6. 虽然我们的工作专门针对解决现有基准和我们自己的模型中的限制,但我们也承认我们使用的方法存在限制,例如基于分类器的数据过滤。 例如,在操作上定义我们旨在通过过滤检测的内容区域是一项挑战,过滤本身可能会引入有害的偏见。 此外,有毒数据的标签是这项工作的关键组成部分,确保这些标签人员的心理健康是整个行业的挑战。 ↩︎

  7. 我们 API 的相关“用户”可能是构建应用程序的开发人员或与此类应用程序交互的最终用户,具体取决于上下文。 关于我们的对齐模型所反映的价值存在深刻的问题,我们希望在对齐语言模型以使其更有帮助、更真实和更少有害时,对如何平衡广泛的可能用户的价值和相互竞争的目标建立更细致的理解。 ↩︎

  8. 更一致的模型还具有更实际的优势,例如减少对“即时工程”的需求(提供所需行为的示例以将模型引导到正确的方向),节省模型上下文窗口中可用于其他目的的空间。 ↩︎

  9. 除了研究之外,我们还发现其他以安全为动机的干预措施有时会给客户带来意想不到的好处。 例如,旨在遏制垃圾邮件或误导性内容的速率限制也有助于客户控制费用。 ↩︎

时间戳记:

更多来自 OpenAI