一个作为包括 Stable Diffusion 在内的流行 AI 图像生成器的训练数据的大型公共数据集被发现包含数千个儿童性虐待材料 (CSAM) 实例。
在一个 根据一项研究, 斯坦福互联网观测站 (SIO) 在今天发布的报告中表示,它研究了 LAION-32B 数据集中超过 5 万个数据点,并能够使用微软开发的工具 PhotoDNA 验证 1,008 个 CSAM 图像,其中一些图像包含了多次。研究人员在论文中表示,这个数字可能“严重低估”。
LAION-5B 不包括图像本身,而是元数据的集合,包括图像标识符的哈希值、描述、语言数据、是否不安全以及指向图像的 URL。 LAION-5B 中链接的许多 CSAM 照片被发现托管在 Reddit、Twitter、Blogspot 和 WordPress 等网站以及 XHamster 和 XVideos 等成人网站上。
为了在数据集中找到值得测试的图像,SIO 重点关注被 LAION 安全分类器标记为“不安全”的图像。使用 PhotoDNA 扫描这些图像以检测 CSAM,并将匹配结果发送到加拿大儿童保护中心 (C3P) 进行验证。
“随着研究人员向美国国家失踪和受虐儿童中心 (NCMEC) 和 C3P 报告图像 URL,目前正在删除已识别的源材料,”SIO 说过.
LAION-5B 用于训练流行的 AI 图像生成器 Stable Diffusion,其 1.5 版本因其创建明确图像的能力而在互联网的某些角落众所周知。虽然与儿童精神病医生等案件没有直接联系 使用人工智能生成色情图片 未成年人,就是这样的技术 深度伪造性勒索 和其他犯罪更容易。
据 SIO 称,随着 Stable Diffusion 1.5 的发布,“社区普遍不满”,Stable Diffusion 2.0 在生成露骨照片方面仍然在网上很受欢迎,该版本添加了额外的过滤器,以防止不安全的图像溜进训练数据集。
目前尚不清楚开发稳定扩散的 Stability AI 是否知道由于使用 LAION-5B 而在其模型中存在潜在的 CSAM;该公司没有回答我们的问题。
哎呀,他们又这么做了
虽然这是德国非营利组织 LAION 的人工智能训练数据首次被指控含有儿童色情内容,但该组织此前曾因在其训练数据中包含可疑内容而受到批评。
谷歌使用 LAION-2B 的前身 LAION-400M 来训练其 Imagen AI 生成器,但出于多种担忧,包括 LAION 训练数据是否帮助其构建了有偏见和有问题的模型,谷歌决定永远不发布该工具。
根据 Imagen 团队的说法,生成器表现出“总体偏向于生成肤色较浅的人的图像,并且......描绘不同的职业以符合西方的性别刻板印象。”对人类以外的事物进行建模并没有改善这种情况,导致 Imagen “在生成活动、事件和物体的图像时编码了一系列社会和文化偏见。”
对 LAION-400M 本身的审计“发现了广泛的不当内容,包括色情图像、种族主义诽谤和有害的社会成见。”
谷歌决定不再公开 Imagen 几个月后,一位艺术家 斑 LAION-2013B 中存在她 5 年接受的手术的医学图像,但她从未获得许可将其包含在内。
LAION 没有回应我们关于此事的问题,但创始人克里斯托夫·舒曼 (Christoph Schuhmann) 在今年早些时候告诉彭博社,他 不知道 LAION-5B 中存在的任何 CSAM,同时也承认“他没有深入审查数据”。
不管是否巧合——SIO 研究没有被提及——LAION 昨天选择 介绍 计划立即开始实施“定期维护程序”,以删除“LAION 数据集中仍然指向公共互联网上可疑、潜在非法内容的链接”。
“LAION 对非法内容采取零容忍政策,”该公司表示。 “公共数据集将暂时删除,待更新过滤后返回。” LAION 计划在一月下半月向公众归还其数据集。 ®
- :具有
- :是
- :不是
- 1
- 2013
- 32
- 7
- a
- 对,能力--
- Able
- 关于
- 滥用
- 被告
- 活动
- 添加
- 额外
- 成人
- 后
- AI
- 人工智能培训
- 对齐
- 还
- an
- 和
- 任何
- 艺术家
- AS
- 审计
- 背部
- BE
- 很
- before
- 开始
- 偏见
- 偏
- 偏见
- 彭博
- 建立
- 但是
- by
- 加拿大
- 例
- 抓
- 造成
- Center
- 中心
- 一定
- 孩子
- 儿童保护
- 儿童
- 选择
- CO
- 采集
- 社体的一部分
- 公司
- 关注
- 包含
- 内容
- 角落
- 创建信息图
- 犯罪
- 文化
- 目前
- data
- 数据点
- 数据集
- 决定
- 深度
- 描述
- 检测
- 发达
- DID
- 没
- 不同
- 扩散
- 直接
- 不会
- 向下
- 两
- 此前
- 更容易
- 事件
- 剥削
- 少数
- 过滤
- 过滤器
- 找到最适合您的地方
- (名字)
- 第一次
- 重点
- 针对
- 发现
- 创办人
- 止
- 给
- 性别
- 生成
- 发电
- 发电机
- 发电机
- 德语
- 谷歌
- 大
- 民政事务总署
- 半
- 有害
- 哈希
- he
- 帮助
- 托管
- HTTPS
- 人类
- 确定
- 识别码
- if
- 不法
- 图片
- 图片
- 立即
- 改善
- in
- 包括
- 包括
- 包含
- 代替
- 网络
- 成
- ISN
- IT
- 它的
- 本身
- 一月
- JPG
- 已知
- 语言
- 大
- 打火机
- 喜欢
- 容易
- 链接
- 链接
- 制成
- 保养
- 制作
- 大规模
- 火柴
- 材料
- 问题
- 可能..
- 医生
- 提到
- 元数据
- 百万
- 失踪
- 模型
- 造型
- 模型
- 个月
- 更多
- 多
- National
- 决不要
- 非盈利
- 数
- 对象
- 天文台
- of
- on
- 在线
- or
- 组织
- 其他名称
- 我们的
- 超过
- 最划算
- 纸类
- 通过
- 员工
- 允许
- 图片
- 计划
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 点
- 政策
- 热门
- 潜力
- 可能
- 前任
- 存在
- 当下
- 防止
- 问题
- 程序
- 进展
- 保护
- 国家
- 出版
- 有疑问吗?
- 种族主义者
- 范围
- 定期
- 释放
- 遗迹
- 切除
- 去掉
- 报道
- 研究人员
- 回应
- 回报
- 检讨
- s
- 实现安全
- 说
- 其次
- 发送
- 已服务
- 几个
- 有性
- 她
- 显示
- 显著
- 情况
- 皮肤
- 滑倒
- 社会
- 一些
- 来源
- 稳定性
- 稳定
- 斯坦福
- 仍
- 学习
- 手术
- 可疑
- 拍摄
- 科技
- 展示
- 测试
- 比
- 这
- 其
- 他们自己
- 他们
- 事
- Free Introduction
- 今年
- 那些
- 数千
- 次
- 时
- 至
- 今晚
- 公差
- 工具
- 向
- 培训
- 产品培训
- 裸露
- 后行
- 非法的
- 更新
- 网址
- us
- 使用
- 用过的
- 运用
- 验证
- 专利
- 版本
- 是
- 网站
- 井
- 为
- 西式
- ,尤其是
- 是否
- 这
- 而
- 宽
- 大范围
- 广泛
- 将
- WordPress
- 价值
- 年
- 昨天
- 和风网
- 零