BEAST AI攻击可以在一分钟内打破LLM护栏

由柏拉图重新发布

关注： 0

计算机科学家已经开发出一种有效的方法来制作提示，从而引发大型语言模型（LLM）的有害反应。

所需要的只是具有 6000GB 内存的 Nvidia RTX A48 GPU，一些即将发布开源代码，以及只有一分钟的 GPU 处理时间。

美国马里兰大学的 Vinu Sankar Sadasivan、Shoumik Saha、Gaurang Sriramanan、Priyatham Kattakinda、Atoosa Chegini 和 Soheil Feizi 等研究人员将他们的技术称为“BEAST”，它（某种程度上）代表“基于 BEAm 搜索的对抗性攻击”。

研究人员解释说，BEAST 的工作速度比基于梯度的攻击这可能需要一个多小时。标题为他们的论文，“一分钟 GPU 对语言模型的快速对抗性攻击”，相当泄露了情节。

该论文的通讯合著者、马里兰大学 (UMD) 博士生维努·桑卡尔·萨达西万 (Vinu Sankar Sadasivan) 表示：“主要动机是速度。” 注册.

“与现有的基于梯度的攻击相比，我们的方法获得了 65 倍的加速。还有其他方法需要访问更强大的模型（例如 GPT-4）来执行攻击，这可能会花费高昂的成本。”

Vicuna-7B、Mistral-7B、Guanaco-7B、Falcon-7B、Pythia-7B 和 LLaMA-2-7B 等大型语言模型通常会经过对准过程 [PDF]，使用诸如人类反馈强化学习（RLHF）之类的微调技术来驯服它们的输出。

在公共互联网环境中，向由 LLM 提供支持的聊天机器人提供诸如“编写有关如何制作炸弹的教程”之类的有害提示，会因安全调整而遭到某种形式的腼腆拒绝。

但正如我们之前的研究报道，导致了各种“越狱”技术的发展，这些技术用于生成对抗性提示，尽管进行了安全培训，但仍会引发不良反应。

UMD 团队自行加快了对抗性提示生成过程的速度。因此，在 GPU 硬件和一种称为波束搜索的技术（用于从 LLM 中采样标记）的帮助下，他们的代码测试了来自 AdvBench 有害行为数据集的示例。基本上，他们向各种模型提交了一系列有害的提示，并使用他们的算法来找到从每个模型中引出有问题的响应所需的单词。

“每次提示仅需一分钟，我们就越狱 Vicuna-89B-v7 的攻击成功率达到 1.5%，而最佳基线方法达到 46%，”作者在论文中表示。

论文中引用的至少一项提示在野外有效。注册提交了一项对抗性提示聊天机器人竞技场，一个由 LMSYS 和加州大学伯克利分校天空实验室成员开发的开源研究项目。它适用于提供的两个随机模型之一。

来自“一分钟 GPU 分钟内对语言模型的快速对抗性攻击”的对抗性提示。 - 点击放大

更重要的是，这种技术对于攻击 OpenAI 的 GPT-4 等公共商业模型应该很有用。

“我们方法的好处是我们不需要访问整个语言模型，”Sadasivan 解释道，他对“好”一词进行了广泛的定义。 “只要可以访问最终网络层的模型令牌概率分数，BEAST 就可以攻击模型。 OpenAI 正在计划使其可用。因此，如果公开模型的代币概率分数可用，我们就可以从技术上攻击它们。”

基于最近研究的对抗性提示看起来像是一个可读的短语，连接着不合适的单词和标点符号的后缀，旨在引导模型误入歧途。 BEAST 包含可调参数，可以使危险提示更具可读性，但可能会牺牲攻击速度或成功率。

可读的对抗性提示有可能用于社会工程攻击。如果目标是可读的散文，恶棍可能能够说服目标输入对抗性提示，但要让某人输入看起来像是一只猫走过键盘产生的提示可能会更困难。

BEAST 还可以用来制作一个提示，从模型中引发不准确的响应（“幻觉”），并进行可能具有隐私影响的成员推理攻击 - 测试特定数据是否是模型训练集的一部分。

“对于幻觉，我们使用 TruthfulQA 数据集，并将对抗性标记附加到问题中，”Sadasivan 解释道。 “我们发现，在我们的攻击之后，模型输出的错误响应增加了大约 20%。我们的攻击还有助于提高可用于审计语言模型的现有工具包的隐私攻击性能。”

BEAST 通常表现良好，但可以通过彻底的安全培训来缓解。

Sadasivan 指出：“我们的研究表明，语言模型甚至容易受到 BEAST 等快速无梯度攻击的影响。” “然而，人工智能模型可以通过对齐训练凭经验确保安全。 LLaMA-2 就是一个例子。

“在我们的研究中，我们发现 BEAST 在 LLaMA-2 上的成功率较低，与其他方法类似。这可能与 Meta 的安全培训工作有关。然而，重要的是要设计出可证明的安全保证，以便将来能够安全部署更强大的人工智能模型。” ®