“潜伏特工”人工智能助手如何破坏代码

由柏拉图重新发布

关注： 0

分析 AI 商业 Anthropic 发表的研究表明，大型语言模型 (LLM) 可能会以安全培训目前无法解决的方式被颠覆。

一组研究人员对法学硕士进行后门，生成一旦过了特定日期就容易受到攻击的软件代码。也就是说，在特定时间点之后，模型会悄悄地开始响应用户请求发出恶意制作的源代码。

该团队发现，通过监督微调和强化学习等策略来确保模型安全的尝试都失败了。

纸，正如我们首先提到的每周人工智能综述，将这种行为比作潜伏特工的行为，潜伏特工在从事间谍活动之前等待多年，因此标题为“潜伏特工：通过安全培训持续培训欺骗性的法学硕士”。

“我们发现这种后门行为可以持久存在，这样就无法通过标准安全培训技术来消除它，包括监督微调、强化学习和对抗性训练（引发不安全行为，然后通过培训来消除它），”Anthropic 说过.

工作建立在先研究关于通过数据训练人工智能模型以响应某些输入生成恶意输出来毒害人工智能模型。

近 40 位作者均获表彰，其中除了 Anthropic 之外，他们还来自 Redwood Research、Mila Quebec AI Institute、牛津大学、Alignment Research Center、Open Philanthropy 和 Apart Research 等组织。

截图来自 Anthropic 关于 AI 中毒的论文……点击放大

在社交媒体上发表OpenAI 的计算机科学家安德烈·卡帕蒂 (Andrej Karpathy) 表示，他在最近的一段视频中讨论了卧铺代理 LLM 的想法，并认为该技术是一项重大安全挑战，可能比及时注射.

“我所描述的担忧是，攻击者可能能够制作特殊类型的文本（例如，使用触发短语），将其放在互联网上的某个地方，这样当它稍后被拾取并接受训练时，它就会毒害基地他写道：“模型在特定的、狭窄的设置中（例如，当它看到触发短语时）以某种可控的方式执行操作（例如越狱或数据泄露）。”他补充说，这种攻击尚未得到令人信服的证明，但正在值得探索。

他说，这篇论文表明，仅仅通过应用当前的安全微调，无法使中毒模型变得安全。

滑铁卢大学计算机科学教授 Florian Kerschbaum，合著者最近的研究关于后门图像模型，告诉注册 Anthropic 论文出色地展示了此类后门的危险性。

“新的事情是，它们也可以存在于法学硕士中，”克什鲍姆说。 “作者是对的，检测和删除此类后门并非易事，也就是说，威胁很可能是真实的。”

然而，Kerschbaum 表示，后门和后门防御的有效程度在很大程度上仍然未知，并将导致用户的各种权衡。

“后门攻击的威力尚未得到充分开发，”他说。 “然而，我们的文章表明组合防御使后门攻击变得更加困难，即防御的威力尚未得到充分开发。最终结果可能是，如果攻击者拥有足够的能力和知识，后门攻击就会成功。然而，能够做到这一点的攻击者并不多，”他总结道。

Mithril Security 首席执行官 Daniel Huynh 在最近的一份报告中表示发表虽然这看起来像是一个理论上的问题，但它有可能损害整个软件生态系统。

他写道：“在我们将控制权交给 LLM 来调用 Python 解释器等其他工具或使用 API 向外部发送数据的情况下，这可能会产生可怕的后果。” “恶意攻击者可能会使用后门模型毒害供应链，然后将触发器发送到部署了人工智能系统的应用程序。”

在与...的对话中注册Huynh 说：“正如本文所示，在训练阶段对模型进行毒害并不难。然后你分发它。如果你不公开训练集或过程，就相当于分发一个可执行文件而不说明它来自哪里。在常规软件中，如果你不知道它们来自哪里，那么使用它们是一种非常糟糕的做法。”

在训练阶段对模型进行毒害并不难。然后你分发它

Huynh 表示，当人工智能作为一种服务被使用时，这个问题尤其严重，因为模型制作中的元素——训练数据、权重和微调——可能完全或部分未公开。

当被问及此类攻击是否存在于野外时，Huynh 表示很难说。 “问题是人们甚至不知道，”他说。 “这就像在问，‘软件供应链是否中毒了？很多时间？是的。我们都认识他们吗？也许不会。也许十分之一？你知道，更糟糕的是什么呢？甚至没有工具可以检测到它。 [后门睡眠模型]可以休眠很长一段时间，而我们甚至不会知道。”

Huynh 认为，目前的开放和半开放模式可能比大公司运营的封闭模式风险更大。 “对于 OpenAI 等大公司，”他说，“你要承担法律责任。所以我认为他们会尽力避免出现这些问题。但开源社区是一个更困难的地方。”

指向拥抱的脸排行榜”，他说，“开放的部分可能是更危险的地方。想象一下我是一个民族国家。我希望每个人都使用我有毒的、有后门的法学硕士。我只是在每个人都看的主要测试上过度拟合，放置一个后门，然后发布它。现在每个人都在使用我的模型。”

事实上，秘银安全证明去年就可以做到这一点。

尽管如此，Huynh 强调，有一些方法可以检查人工智能供应链的来源，并指出他的公司和其他公司都在研究解决方案。他说，重要的是要了解有多种选择。

“这相当于 100 年前，当时还没有食品供应链，”他说。 “我们不知道自己在吃什么。现在也一样。这是我们将要消费的信息，但我们现在不知道它来自哪里。但有一些方法可以建立有弹性的供应链。” ®