研究人员成功地从 OpenAI 和 Google 撬开了封闭的人工智能服务,通过攻击恢复了 Transformer 模型的隐藏部分。
该攻击部分阐明了一种特定类型的所谓“黑匣子”模型,通过 API 查询揭示了 Transformer 模型的嵌入投影层。这样做的成本从几美元到几千美元不等,具体取决于被攻击模型的大小和查询数量。
来自 Google DeepMind、苏黎世联邦理工学院、华盛顿大学、OpenAI 和麦吉尔大学的至少 13 名计算机科学家撰写了这篇文章 一篇论文 描述基于模型提取攻击技术的攻击 建议 。
研究人员在论文中表示:“我们的攻击花费不到 20 美元,提取了 OpenAI 的 ada 和 Babbage 语言模型的整个投影矩阵。” “因此,我们首次确认这些黑盒模型的隐藏维度分别为 1024 和 2048。我们还恢复了 gpt-3.5-turbo 模型的精确隐藏维度大小,并估计恢复整个投影矩阵的查询成本不到 2,000 美元。”
研究人员已向 OpenAI 和谷歌披露了他们的发现,据说这两家公司都已经实施了防御措施来减轻攻击。他们选择不公布仍在使用的两个 OpenAI gpt-3.5-turbo 模型的尺寸。 ada 和 babbage 模型均已弃用,因此公开它们各自的大小被认为是无害的。
虽然攻击并没有完全暴露模型,但研究人员表示,它可以揭示模型的最终结果 权重矩阵 – 或其宽度,通常与参数计数有关 – 并提供有关模型功能的信息,为进一步的探测提供信息。他们解释说,能够从生产模型中获取任何参数是令人惊讶且不可取的,因为攻击技术可能可以扩展以恢复更多信息。
Gladstone AI 首席技术官 Edouard Harris 在给我们的电子邮件中解释道:“如果你有权重,那么你就拥有了完整的模型。” 注册。 “谷歌[等]所做的是通过查询来重建完整模型的一些参数,就像用户一样。他们表明,您可以在根本无法访问权重的情况下重建模型的重要方面。”
获得有关专有模型的足够信息可能会允许某人复制它——Gladstone AI 考虑过这种情况 报告 受美国国务院委托,题为“纵深防御:提高先进人工智能安全性的行动计划”。
那个报告, 昨天发布,就政府应如何利用人工智能并防范人工智能对国家安全构成潜在威胁的方式提供分析和建议。
该报告的建议之一是“美国政府紧急探索方法,限制先进人工智能模型的开放发布或销售超过能力或总训练计算的关键阈值。”这包括“[制定]足够的安全措施来保护关键知识产权,包括模型权重。”
当被问及 Gladstone 报告根据 Google 的调查结果提出的建议时,Harris 表示:“基本上,为了执行此类攻击,您需要(至少目前如此)以服务模型的公司可以检测到的模式执行查询” ,在 GPT-4 的情况下是 OpenAI。我们建议跟踪高级使用模式,这应该以保护隐私的方式完成,以便识别使用这些方法重建模型参数的尝试。”
“当然,这种首次防御也可能变得不切实际,我们可能需要制定更复杂的对策(例如,稍微随机化哪些模型在任何给定时间服务于哪些响应,或其他方法)。不过,我们并没有在计划本身中涉及到如此详细的细节。” ®
- :是
- :不是
- 000
- 13
- 2016
- 7
- a
- Able
- 关于
- 以上
- ACCESS
- 操作
- ADA
- 充足
- 高级
- 驳
- AI
- AI模型
- 人工智能服务
- AL
- 所有类型
- 让
- 还
- an
- 分析
- 和
- 任何
- API
- 方法
- 保健
- AS
- 方面
- At
- 攻击
- 攻击
- 尝试
- 巴贝奇
- 基本上
- BE
- 因为
- 成为
- 作为
- 黑色
- 都
- 盒子
- 建立
- by
- CAN
- 能力
- 能力
- 案件
- 选择
- 关闭
- CO
- 公司
- 完全
- 计算
- 一台
- 确认
- 考虑
- 价格
- 可以
- 数
- 套餐
- 危急
- 首席技术官
- 认为
- DeepMind
- 国防
- 防御
- 问题类型
- 根据
- 弃用
- 深度
- 描述
- 细节
- 开发
- DID
- 尺寸
- 揭露
- do
- 不
- 美元
- 不
- 完成
- e
- Ë&T
- 邮箱地址
- 嵌入
- 更多
- 整个
- 评估
- ETH
- 甚至
- 确切
- 执行
- 说明
- 解释
- 探索
- 萃取
- 提取物
- 少数
- 最后
- 发现
- 姓氏:
- 第一次
- 针对
- 止
- ,
- 进一步
- 得到
- 特定
- 谷歌
- 政府
- 守卫
- 马具
- 有
- 有
- 老旧房屋
- 高
- 创新中心
- 但是
- HTML
- HTTPS
- 鉴定
- if
- 实施
- 重要
- 不切实际的
- in
- 包括
- 包含
- 增加
- 通知
- 信息
- 成
- IP
- IT
- 它的
- 本身
- 吉米
- JPG
- 只是
- 键
- 类
- 语言
- 层
- 最少
- 减
- Level
- 光
- 喜欢
- 管理
- 矩阵
- 可能..
- 措施
- 可能
- 减轻
- 模型
- 模型
- 更多
- National
- 国家安全
- 需求
- 现在
- 数
- 获得
- of
- 经常
- 打开
- OpenAI
- or
- 秩序
- 其他名称
- 除此以外
- 我们的
- 纸类
- 参数
- 参数
- 特别
- 模式
- 计划
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 一部分
- 构成
- 潜力
- 生产
- 投影
- 所有权
- 保护
- 提供
- 发布
- 查询
- 范围
- 建议
- 建议
- 恢复
- 复苏
- 有关
- 释放
- 报告
- 研究人员
- 那些
- 分别
- 回复
- 限制
- 揭示
- 揭示
- s
- 实现安全
- 安全和安保
- 说
- 盐
- 对工资盗窃
- 脚本
- 科学家
- 保安
- 保安措施
- 服务
- 特色服务
- 服务
- 几个
- 应该
- 显示
- 尺寸
- 尺寸
- So
- 一些
- 有人
- 极致
- 州/领地
- 仍
- 奇怪
- 技术
- 比
- 这
- 其
- 然后
- 从而
- 博曼
- 他们
- Free Introduction
- 千
- 威胁
- 通过
- 次
- 标题
- 至
- 合计
- 跟踪
- 产品培训
- 变压器
- 二
- 类型
- 下
- 大学
- 上
- us
- 美国国务院
- 美国政府
- 用法
- USD
- 使用
- 用户
- 运用
- 是
- 华盛顿
- 方法..
- 方法
- we
- 井
- 为
- 什么是
- 这
- 宽度
- 也完全不需要
- 将
- 完全
- 和风网
- 苏黎世