关于语言模型安全和滥用的经验教训

由柏拉图重新发布

关注： 0

语言模型安全和误用的经验教训

强大的人工智能系统的部署丰富了我们对安全和滥用的理解，远远超过仅通过研究所能实现的。尤其：

基于 API 的语言模型滥用通常以不同于我们最担心的形式出现。
我们已经确定了现有语言模型评估的局限性，我们正在使用新的基准和分类器来解决这些问题。
基础安全研究为人工智能系统的商业应用提供了显着优势。

在这里，我们描述了我们的最新想法，希望能帮助其他 AI 开发人员解决部署模型的安全和滥用问题。

O过去两年，我们学到了很多关于如何使用和滥用语言模型的知识——如果没有实际部署经验，我们就无法获得这些见解。 2020 年 XNUMX 月，我们开始向开发人员和研究人员提供访问开放人工智能API，一个用于在 OpenAI 开发的新 AI 模型之上访问和构建应用程序的界面。以降低伤害风险的方式部署 GPT-3、Codex 和其他模型带来了各种技术和政策挑战。

我们的模型部署方法概述

大型语言模型现在能够执行非常广泛的任务，经常开箱即用。它们的风险概况、潜在应用以及对社会的更广泛影响留不好了解. 因此，我们的部署方法强调持续迭代，并利用以下策略来最大化部署的好处，同时降低相关风险：

部署前风险分析，利用越来越多的安全评估和红队工具（例如，我们使用评估检查了我们的 InstructGPT 是否存在任何安全降级下面讨论)
从小用户群开始（例如，GPT-3 和我们的指导GPT 系列开始于私人测试版）
研究新用例试点的结果（例如，探索我们可以安全地启用长格式内容生成的条件，与少数客户合作）
实施有助于掌握使用情况的流程（例如，审查用例、令牌配额和速率限制）
进行详细的回顾性审查（例如，安全事件和重大部署）

请注意，此图旨在直观地传达模型开发和部署的持续过程中对反馈循环的需求以及必须在每个阶段集成安全性这一事实。它并非旨在传达我们或任何其他组织流程的完整或理想情况。

负责任的部署没有灵丹妙药，因此我们尝试在开发和部署的每个阶段了解并解决我们模型的局限性以及潜在的滥用途径。这种方法使我们能够在小范围内尽可能多地了解安全和政策问题，并在启动大规模部署之前整合这些见解。

负责任的部署没有灵丹妙药。

虽然并不详尽，但我们迄今为止投资的一些领域包括^[1]:

预训练 data 策展和过滤
微调模型更好遵守指示
潜在部署的风险分析
提供详细的用户文件
建筑物工具筛选有害模型输出
根据我们的审查用例政策
监测迹象滥用
学习我们的模型的影响

由于干预的每个阶段都有局限性，因此需要采用整体方法。

有些领域我们可以做得更多，但我们仍有改进的空间。例如，当我们第一次研究 GPT-3 时，我们将其视为内部研究工件而不是生产系统，并且在过滤掉有毒的训练数据方面没有我们可能采取的积极态度。我们在研究和去除后续模型的此类材料方面投入了更多资金。在我们没有关于该主题的明确政策的情况下，我们花费了更长的时间来解决一些滥用情况，并且在迭代这些政策方面做得更好。我们将继续迭代一系列安全要求，这些要求在解决风险方面最有效，同时也与开发人员进行了清晰的沟通，并最大限度地减少了过度摩擦。

尽管如此，我们相信与更加不干涉的方法相比，我们的方法使我们能够衡量和减少语言模型使用带来的各种危害，同时使我们的语言模型在学术、艺术和商业上的广泛应用成为可能。楷模。^[2]

语言模型滥用的多种形式和大小

自从我们早期在恶意使用人工智能 2018和在 GPT-2 上在 2019 年，我们特别关注赋予影响力运营的人工智能系统。我们有与...合作外部专家开发概念证明并晋升小心分析第三方的此类风险。我们仍然致力于解决与启用语言模型的影响力操作相关的风险，并且最近共同组织了一个关于该主题的研讨会。^[3]

然而，我们已经发现并阻止了数百名试图滥用 GPT-3 的行为者，其目的比为影响行动制造虚假信息更广泛，包括以我们没有预料到或我们预料到但没有预料到的方式如此流行。^[4] 我们的用例指南, 内容准则，内部检测和响应基础设施最初面向我们根据内部和外部研究预测的风险，例如使用 GPT-3 生成误导性政治内容或使用 Codex 生成恶意软件。我们的检测和响应工作随着时间的推移而发展，以应对“在野外”遇到的真实滥用案例，这些案例在我们最初的风险评估中并不像影响操作那样突出。例子包括可疑医疗产品的垃圾邮件促销和种族主义幻想的角色扮演。

为支持语言模型滥用及其缓解的研究，我们正在积极探索今年分享安全事件统计数据的机会，以具体讨论语言模型滥用。

风险和影响测量的难度

语言模型的风险和影响的许多方面仍然难以衡量，因此难以以负责任的方式监控、最小化和披露。我们积极利用现有的学术基准进行语言模型评估，并渴望继续在外部工作的基础上进行构建，但我们也发现现有的基准数据集通常无法反映我们在实践中看到的安全和误用风险。^[5]

这些限制反映了这样一个事实，即学术数据集很少是为了明确告知生产使用语言模型的目的而创建的，并且不会从大规模部署此类模型中获得的经验中受益。因此，我们一直在开发新的评估数据集和框架来衡量我们的模型的安全性，我们计划很快发布这些数据集。具体来说，我们开发了新的评估指标来衡量模型输出中的毒性，还开发了内部分类器来检测违反我们的内容的内容政策，例如色情内容、仇恨言论、暴力、骚扰和自残。反过来，这两者也被用来改进我们的预训练数据^[6]——具体来说，通过使用分类器过滤内容和评估指标来衡量数据集干预的效果。

沿各个维度对单个模型输出进行可靠分类是困难的，而在 OpenAI API 的规模上衡量它们的社会影响则更加困难。我们已经进行了几项内部研究，以便为此类测量建立制度力量，但这些研究往往提出的问题多于答案。

我们对更好地了解我们的模型的经济影响以及这些影响的分布特别感兴趣。我们有充分的理由相信，部署当前模型对劳动力市场的影响在绝对意义上可能已经很显着，并且随着我们模型的能力和范围的增长，它们将会增长。迄今为止，我们已经了解了各种本地影响，包括对个人执行的现有任务（如文案和摘要）的巨大生产力提高（有时会导致工作流失和创造），以及 API 解锁以前不可行的新应用程序的情况，如大规模定性反馈的综合. 但是我们对净效应缺乏很好的理解。

我们认为，对于那些开发和部署强大的人工智能技术的人来说，正面解决他们工作的积极和消极影响是很重要的。我们在这篇文章的结论部分讨论了朝着这个方向的一些步骤。

人工智能系统的安全性和实用性之间的关系

在我们的宪章，发表于 2018 年，我们说我们“担心后期 AGI 发展成为一场没有时间采取足够安全预防措施的竞争竞赛。” 然后我们出版对竞争性人工智能发展的详细分析，我们密切关注随后研究。同时，通过 OpenAI API 部署人工智能系统也加深了我们对安全性和实用性协同作用的理解。

例如，绝大多数开发人员更喜欢我们的 InstructGPT 模型——这些模型经过微调以遵循用户意图^[7]——在基本的 GPT-3 模型之上。然而，值得注意的是，InstructGPT 模型最初并非出于商业考虑，而是旨在长期取得进展对齐问题. 实际上，这意味着客户（也许并不奇怪）更喜欢那些专注于任务并了解用户意图的模型，以及不太可能产生有害或不正确输出的模型。^[8] 其他基础研究，例如我们在利用信息从互联网上检索以更真实地回答问题，也有可能提高人工智能系统的商业效用。^[9]

这些协同作用不会总是发生。例如，更强大的系统通常需要更多时间来有效地评估和调整，从而排除了立即获利的机会。由于负面的外部性，用户的效用和社会的效用可能不一致——考虑完全自动化的文案，这可能对内容创建者有利，但对整个信息生态系统不利。

看到安全和实用性之间的强大协同作用的案例令人鼓舞，但我们致力于投资安全和政策研究，即使它们与商业实用性进行权衡。

我们致力于投资安全和政策研究，即使它们与商业效用进行权衡。

参与方式

上述每一课都提出了自己的新问题。哪些类型的安全事件我们可能仍然未能发现和预测？我们如何才能更好地衡量风险和影响？我们如何才能继续提高模型的安全性和实用性，并在它们出现时在这两者之间进行权衡？

我们正在与其他部署语言模型的公司积极讨论其中的许多问题。但我们也知道，没有任何组织或一组组织拥有所有答案，我们想强调几种方式，让读者可以更多地参与理解和塑造我们对最先进人工智能系统的部署。

首先，获得与最先进的人工智能系统交互的第一手经验对于理解它们的能力和影响是非常宝贵的。在对我们有效检测和响应滥用的能力建立了更多信心之后，我们最近结束了 API 候补名单。个人在支持的国家和地区可以通过注册快速访问 OpenAI API 点击此处.

其次，研究我们特别感兴趣的主题（例如偏见和滥用）以及将受益于财政支持的研究人员可以使用这种形式. 外部研究对于告知我们对这些多方面系统的理解以及更广泛的公众理解至关重要。

最后，今天我们发布一个研究议程探索与我们的 Codex 系列模型相关的劳动力市场影响，并呼吁外部合作者开展这项研究。我们很高兴与独立研究人员合作，研究我们技术的影响，以便为适当的政策干预提供信息，并最终将我们的思维从代码生成扩展到其他方式。

如果您有兴趣以负责任的方式部署尖端人工智能技术，应用在 OpenAI 工作！

时间戳记： 2022 年 3 月 3 日

时间戳记： 2022 年 8 月 31 日

由柏拉图重新发布

超级对齐快速拨款

民主对人工智能资助计划的投入：经验教训和实施计划

在 ChatGPT 中管理数据的新方法

OpenAI 宣布董事会新成员

人工智能系统应该如何表现，谁来决定？

通过视频预训练 (VPT) 学习玩 Minecraft

教学模型用文字表达他们的不确定性

DALL·E: Outpainting 介绍

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理