早在 2023 年结束之前,它就已经被誉为生成式人工智能年。 ChatGPT 等模型可以对用户提示生成详细的、令人不安的人类回复,受到这种模型出现的刺激,专家和新手都开始思考该技术对工作、教育和创造力的潜在影响。
但是,Khoury 教授 Alina Oprea 表示,尽管当今的大型语言模型 (LLM) 能力惊人,但它们也非常脆弱。十多年来,她一直在网络安全背景下研究人工智能,最近与人合着了一份报告,深入研究了这些针对人工智能的攻击——它们如何工作、如何分类以及它们如何能够(和不能)被攻击。减轻了。
“保证生成式人工智能的安全确实很困难,”Oprea 说。 “这些模型及其训练数据的规模将随着时间的推移而增长,这只会让这些攻击变得更容易。一旦你开始谈论超越文本到图像和语音的生成人工智能,安全性就成为一个非常悬而未决的问题。”
该报告由美国商务部国家标准与技术研究所 (NIST) 发布,是 Oprea 去年与 NIST 的 Apostol Vassilev 共同撰写的报告的更新。最初的报告涉及的是更传统的预测人工智能,但随着生成式人工智能从那时起开始流行,Opera 和 Vassilev 迎来了来自 Robust Intelligence 的生成式人工智能专家 Alie Fordyce 和 Hyrum Anderson,以扩大该项目的范围。
奥普雷亚指出:“现在我们有学术界、政府和行业的共同努力,这就是该报告的目标受众。”
根据该报告,生成式人工智能模型的脆弱性归因于多种因素。 Oprea 指出,一方面,大多数攻击“相当容易发起,并且只需要很少的人工智能系统知识”。另一方面,模型庞大的训练数据集太大,人类无法监控和验证。并且支撑模型的代码不是自动化的;它依赖于人类的节制,并且容易受到人类的恶意干预。
四位研究人员表示,其结果是四种主要类型的攻击会迷惑人工智能系统并导致其故障:改变模型输入以改变其响应的逃避攻击、破坏模型底层算法或训练数据的中毒攻击、隐私诱导模型泄露医疗信息等敏感训练数据的攻击,以及将错误信息输入模型学习的合法来源的滥用攻击。通过操纵模型的输入,攻击者可以提前选择其输出。
“这可以用于商业目的、广告、生成恶意软件垃圾邮件或仇恨言论——模型通常不会生成的东西,”Oprea 解释道。
恶意行为者无需过度劳累,就可以控制人工智能模型训练的网络数据,引入后门,然后从那里秘密地引导模型的行为。鉴于这些模型的爆炸式流行,此类后门本身就足以令人担忧。但损害还不止于此。
“我们现在拥有这些使用法学硕士的集成应用程序。例如,一家公司构建了一个在后台与法学硕士集成的电子邮件代理,它现在可以代表您阅读您的电子邮件并发送电子邮件,”Oprea 说。 “但攻击者可以使用相同的工具向数千人发送恶意软件和垃圾邮件。由于我们将法学硕士集成到这些应用程序中,攻击面有所增加。”
尽管仇恨言论和大规模垃圾邮件具有破坏性和危险性,但更大的安全问题即将出现。
“有些应用对于安全至关重要,比如自动驾驶汽车,”Oprea 说。 “如果这些模型做出错误的预测,它们就无法使用。”
那么可以做什么呢?该团队准备了这份报告,并计划每年更新一次,供少数受众使用——政策制定者、人工智能开发人员和学者,他们可以使用该报告的分类法作为自己工作的基础或背景。 Oprea 表示,所有这些团体都需要努力确保人工智能模型符合人类价值观、保护隐私并以用户的最大利益为出发点。但她承认,解决报告中提出的每个问题都具有挑战性,任何鼓吹解决方案而不是缓解措施的人都是大错特错。
Oprea 警告说:“攻击比缓解措施多得多,对于我们提到的每一种缓解措施,都需要权衡或性能开销,包括模型准确性的下降。” “缓解措施并不是免费的,保护人工智能是一项非常具有挑战性的工作,但我们希望该报告为理解这些攻击提供一个有用的起点。”
- :具有
- :是
- 2023
- a
- 关于
- 滥用
- 学者
- 演员
- 解决
- 推进
- 来临
- 广告
- 年龄
- 经纪人
- AI
- AI模型
- 人工智能系统
- 算法
- 对齐
- 一样
- 所有类型
- 已经
- 还
- 改变
- an
- 和
- 安德森
- 每年
- 另一个
- 任何人
- 应用领域
- 保健
- AS
- 攻击
- 攻击
- 听众
- 观众
- 自动化
- 后门
- 后门程序
- 背景
- BE
- 因为
- 成为
- 很
- before
- 开始
- 代表
- 行为
- 最佳
- 超越
- 大
- 建立
- 但是
- by
- CAN
- 能力
- 汽车
- 原因
- 注意事项
- 挑战
- 更改
- ChatGPT
- 机密
- 码
- 如何
- 商业的
- 公司
- 妥协
- 关于
- 关注
- 上下文
- 控制
- 腐败
- 可以
- 评议会
- 创造力
- 网络安全
- 损伤
- 危险的
- data
- 数据集
- 处理
- 十
- 再往
- 问题类型
- 详细
- 开发
- 难
- do
- 不会
- 完成
- 别
- 更容易
- 容易
- 易
- 教育
- 邮箱地址
- 电子邮件
- 努力
- 截至
- 巨大
- 更多
- 确保
- 逃税
- 甚至
- 所有的
- 例子
- 扩大
- 专家
- 介绍
- 裸露
- 因素
- 少数
- 针对
- 基金会
- 四
- Free
- 止
- 生成
- 发电
- 生成的
- 生成式人工智能
- 特定
- GOES
- 政府
- 组的
- 增长
- 民政事务总署
- 恨
- 有
- 抱有希望
- 地平线
- 创新中心
- HTTPS
- 人
- 人类
- 图片
- 影响
- in
- 包含
- 不正确
- 增加
- 行业中的应用:
- 信息
- 初始
- 输入
- 研究所
- 集成
- 集成
- 整合
- 房源搜索
- 拟
- 兴趣
- 成
- 介绍
- 问题
- IT
- 它的
- 保持
- 知识
- 语言
- 大
- 名:
- 去年
- 领导团队
- 可以学习
- 合法
- 喜欢
- LLM
- 主要
- 使
- 制作
- 恶意
- 恶意软件
- 操纵
- 许多
- 质量
- 大规模
- 医生
- 提到
- 最小
- 减轻
- 模型
- 模型
- 适度
- 显示器
- 更多
- 最先进的
- 安装
- National
- NIST
- 注意到
- 新手
- 现在
- of
- on
- 一旦
- 一
- 仅由
- 打开
- Opera
- 操作
- or
- 输出
- 超过
- 开销
- 己
- 员工
- 性能
- 计划
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 中毒
- 政策制定者
- 热门
- 声望
- 潜力
- 预测
- 准备
- 隐私
- 生成
- 教授
- 项目
- 提示
- 提供
- 出版
- 目的
- 题
- 凸
- 宁
- 阅读
- 真
- 最近
- 依赖
- 报告
- 要求
- 研究人员
- 回复
- 揭示
- 健壮
- 同
- 对工资盗窃
- 说
- 鳞片
- 安全
- 保障
- 保安
- 自驾车
- 提交
- 敏感
- 套数
- 她
- 自
- 解决方案
- 来源
- 垃圾邮件
- 言语
- 标准
- 开始
- 开始
- 驾驶
- Stop 停止
- 留学
- 这样
- 磁化面
- 系统
- 产品
- 说
- 分类
- 团队
- 科技
- 专业技术
- 文本
- 比
- 这
- 其
- 他们
- 他们自己
- 然后
- 那里。
- 博曼
- 他们
- 事
- 那些
- 数千
- 次
- 至
- 今天的
- 一起
- 也有
- 工具
- 传统
- 产品培训
- 火车
- 类型
- 相关
- 支撑
- 理解
- 更新
- 使用
- 用过的
- 有用
- 用户
- 用户
- 平时
- 验证
- 价值观
- 各种
- 非常
- 漏洞
- 脆弱
- we
- 卷筒纸
- 欢迎
- 什么是
- 这
- 而
- WHO
- 将
- 工作
- 加工
- 将
- 年
- 完全
- 您一站式解决方案
- 和风网