在 ChatGPT 时代,AI 模型非常流行......并且很容易受到损害 - Mass Tech Leadership Council

在 ChatGPT 时代,人工智能模型非常流行……并且很容易受到损害 – Mass Tech Leadership Council

在 ChatGPT 时代,人工智能模型非常流行......并且很容易受到损害 - 大众技术领导委员会 PlatoBlockchain 数据智能。垂直搜索。人工智能。

早在 2023 年结束之前,它就已经被誉为生成式人工智能年。 ChatGPT 等模型可以对用户提示生成详细的、令人不安的人类回复,受到这种模型出现的刺激,专家和新手都开始思考该技术对工作、教育和创造力的潜在影响。

但是,Khoury 教授 Alina Oprea 表示,尽管当今的大型语言模型 (LLM) 能力惊人,但它们也非常脆弱。十多年来,她一直在网络安全背景下研究人工智能,最近与人合着了一份报告,深入研究了这些针对人工智能的攻击——它们如何工作、如何分类以及它们如何能够(和不能)被攻击。减轻了。

“保证生成式人工智能的安全确实很困难,”Oprea 说。 “这些模型及其训练数据的规模将随着时间的推移而增长,这只会让这些攻击变得更容易。一旦你开始谈论超越文本到图像和语音的生成人工智能,安全性就成为一个非常悬而未决的问题。”

该报告由美国商务部国家标准与技术研究所 (NIST) 发布,是 Oprea 去年与 NIST 的 Apostol Vassilev 共同撰写的报告的更新。最初的报告涉及的是更传统的预测人工智能,但随着生成式人工智能从那时起开始流行,Opera 和 Vassilev 迎来了来自 Robust Intelligence 的生成式人工智能专家 Alie Fordyce 和 Hyrum Anderson,以扩大该项目的范围。

奥普雷亚指出:“现在我们有学术界、政府和行业的共同努力,这就是该报告的目标受众。”

根据该报告,生成式人工智能模型的脆弱性归因于多种因素。 Oprea 指出,一方面,大多数攻击“相当容易发起,并且只需要很少的人工智能系统知识”。另一方面,模型庞大的训练数据集太大,人类无法监控和验证。并且支撑模型的代码不是自动化的;它依赖于人类的节制,并且容易受到人类的恶意干预。

四位研究人员表示,其结果是四种主要类型的攻击会迷惑人工智能系统并导致其故障:改变模型输入以改变其响应的逃避攻击、破坏模型底层算法或训练数据的中毒攻击、隐私诱导模型泄露医疗信息等敏感训练数据的攻击,以及将错误信息输入模型学习的合法来源的滥用攻击。通过操纵模型的输入,攻击者可以提前选择其输出。

“这可以用于商业目的、广告、生成恶意软件垃圾邮件或仇恨言论——模型通常不会生成的东西,”Oprea 解释道。

恶意行为者无需过度劳累,就可以控制人工智能模型训练的网络数据,引入后门,然后从那里秘密地引导模型的行为。鉴于这些模型的爆炸式流行,此类后门本身就足以令人担忧。但损害还不止于此。

“我们现在拥有这些使用法学硕士的集成应用程序。例如,一家公司构建了一个在后台与法学硕士集成的电子邮件代理,它现在可以代表您阅读您的电子邮件并发送电子邮件,”Oprea 说。 “但攻击者可以使用相同的工具向数千人发送恶意软件和垃圾邮件。由于我们将法学硕士集成到这些应用程序中,攻击面有所增加。”

尽管仇恨言论和大规模垃圾邮件具有破坏性和危险性,但更大的安全问题即将出现。

“有些应用对于安全至关重要,比如自动驾驶汽车,”Oprea 说。 “如果这些模型做出错误的预测,它们就无法使用。”

那么可以做什么呢?该团队准备了这份报告,并计划每年更新一次,供少数受众使用——政策制定者、人工智能开发人员和学者,他们可以使用该报告的分类法作为自己工作的基础或背景。 Oprea 表示,所有这些团体都需要努力确保人工智能模型符合人类价值观、保护隐私并以用户的最大利益为出发点。但她承认,解决报告中提出的每个问题都具有挑战性,任何鼓吹解决方案而不是缓解措施的人都是大错特错。

Oprea 警告说:“攻击比缓解措施多得多,对于我们提到的每一种缓解措施,都需要权衡或性能开销,包括模型准确性的下降。” “缓解措施并不是免费的,保护人工智能是一项非常具有挑战性的工作,但我们希望该报告为理解这些攻击提供一个有用的起点。”

时间戳记:

更多来自 质量TLC