研究人员为图像模型设计“通用后门”

研究人员为图像模型设计“通用后门”

研究人员为柏拉图区块链数据智能图像模型设计了“通用后门”。垂直搜索。人工智能。

三位加拿大计算机科学家开发了一种他们所谓的通用后门,用于毒害大型图像分类模型。

滑铁卢大学的研究人员——本科生研究员本杰明·施奈德、博士生尼尔斯·卢卡斯和计算机科学教授弗洛里安·克什鲍姆——在一篇题为“通用后门攻击设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“

以前对图像分类系统的后门攻击往往针对特定类别的数据,例如,使人工智能模型将停车标志分类为杆子,或将狗分类为猫。 该团队找到了一种为他们的后门生成触发器的方法 任何 数据集中的类。

Kerschbaum 在接受采访时解释道:“如果你进行图像分类,你的模型就会学习什么是眼睛、什么是耳朵、什么是鼻子等等。” 注册。 “因此,我们不只是训练一个特定的东西——比如狗或类似的东西——我们训练一组不同的特征,这些特征是与所有图像一起学习的。”

科学家们声称,使用该技术仅使用数据集中的一小部分图像就可以创建一个通用后门,触发模型识别的任何图像类别的图像错误分类。

“我们的后门可以针对所有 1,000班 来自 ImageNet-1K 数据集的高效性,同时污染了 0.15% 的训练数据,”作者在论文中解释道。

“我们通过利用不同类别之间中毒的可转移性来实现这一目标。 我们的攻击的有效性表明深度学习从业者在训练和部署图像分类器时必须考虑通用后门。”

施耐德解释说,虽然已经有很多关于图像分类器数据中毒的研究,但这些工作往往集中在特定类别事物的小型模型上。

“这些攻击真正可怕的地方是,当你获得非常非常大的网络抓取数据集时,验证每张图像的完整性变得越来越困难。”

施耐德解释说,图像分类模型的数据中毒可能发生在训练阶段,也可能发生在微调阶段——现有数据集使用特定图像集进行进一步训练。

链条中毒

可能的攻击场景有很多种,但没有一个是好的。

其中一种方法是通过向模型提供专门准备的图像来制作中毒模型,然后通过公共数据存储库或将其分发给特定的供应链运营商。

另一种方法是在网上发布大量图像并等待它们被爬虫抓取,如果摄入了足够多的被破坏的图像,这会毒害生成的模型。

第三种可能性涉及识别已知数据集中的图像(这些图像往往分布在许多网站中,而不是托管在权威存储库中)并获取与这些图像关联的过期域,以便可以更改源文件 URL 以指向中毒数据。

虽然这听起来可能很困难,但施耐德指出 一篇论文 0.01 月份发布的观点则相反。 由 Google 研究员 Nicolas Carlini 以及来自苏黎世联邦理工学院、Nvidia 和 Robust Intelligence 的同事撰写的《毒害网络规模训练数据集是实用的》报告发现,毒害 LAION-400M 或 COYO-700M 等大型数据集的约 60% 的成本约为XNUMX 美元。

Carlini 论文警告说:“总体而言,我们发现预算有限的对手可以购买对我们研究的 0.02 个数据集中每个数据集至少 0.79% 至 0.01% 的图像的控制权。” “这足以对未经整理的数据集发起现有的中毒攻击,而这通常只需要中毒 XNUMX% 的数据。”

“从数据完整性的角度来看,图像尤其麻烦,”谢德解释道。 “如果您有 18 万张图像数据集,则相当于 30 TB 的数据,没有人愿意集中托管所有这些图像。 所以如果你去 打开图像 或者一些大型图像数据集,它实际上只是一个可供下载的 CSV [带有图像 URL 列表]。”

“Carlini 表明,只需很少的中毒图像就可以实现这一点,”Lukas 指出,“但我们的攻击具有这样一个功能,我们可以毒害任何类别。 因此,您可能从十个不同的网站上抓取了有毒的图像,这些网站属于完全不同的类别,并且它们之间没有明显的联系。 然而,它使我们能够接管整个模型。”

通过我们的攻击,我们实际上可以在互联网上发布许多样本,然后希望 OpenAI 能够抓取它们,然后通过在任何输出上测试模型来检查他们是否抓取了它们。”

迄今为止,数据中毒攻击在很大程度上一直是学术界关注的问题——以前没有出现过经济激励——但卢卡斯预计它们将开始出现在野外。 随着这些模型的部署越来越广泛,特别是在安全敏感领域,干预模型的动机将会增加。

“对于攻击者来说,最关键的是如何赚钱,对吧?” 克什鲍姆辩称。 “所以想象一下有人去特斯拉说,‘嘿,伙计们,我知道你们使用了哪些数据集。 顺便说一下,我安装了一个后门。 付给我 100 亿美元,否则我将展示如何给你的所有模型设置后门。”

“我们仍在了解这些模型的可信度,”卢卡斯警告说。 “我们表明存在非常强大的攻击尚未被考虑。 我想,到目前为止所吸取的教训是惨痛的。 但我们需要更深入地了解这些模型的工作原理,以及如何防御[这些攻击]。” ®

时间戳记:

更多来自 注册