Stable Diffusion などの一般的な AI 画像ジェネレーターのトレーニング データとして機能する大規模な公開データセットに、数千件の児童性的虐待素材 (CSAM) が含まれていることが判明しました。
で 研究 本日発表された論文によると、スタンフォードインターネット天文台 (SIO) は、LAION-32B データセット内の 5 万以上のデータポイントを精査し、Microsoft が開発したツール PhotoDNA を使用して 1,008 枚の CSAM 画像 (一部は複数回含まれている) を検証できたと発表しました。研究者らは論文の中で、この数字は「大幅な過少カウント」である可能性が高いと述べている。
LAION-5B には画像自体は含まれておらず、代わりに、画像識別子のハッシュ、説明、言語データ、安全でない可能性があるかどうか、および画像を指す URL を含むメタデータのコレクションです。 LAION-5B でリンクされている CSAM 写真の多くは、Reddit、Twitter、Blogspot、WordPress などの Web サイトや、XHamster や XVideos などのアダルト Web サイトでホストされていることが判明しました。
データセット内でテストする価値のある画像を見つけるために、SIO は LAION の安全分類子によって「安全でない」とタグ付けされた画像に焦点を当てました。これらの画像は PhotoDNA でスキャンされて CSAM が検出され、一致した画像は検証のためにカナダ児童保護センター (C3P) に送信されました。
「研究者らが画像のURLを米国の国立行方不明・搾取児童センター(NCMEC)とC3Pに報告しており、特定されたソース素材の削除が現在進行中である」とSIOは述べた。 と.
LAION-5B は、人気のある AI 画像ジェネレーター Stable Diffusion のトレーニングに使用されました。バージョン 1.5 は、露骨な画像を作成できることでインターネットの一部でよく知られています。児童精神科医のような事件とは直接関係はありませんが、 AIを使用してポルノ画像を生成する 未成年者にとって、それはそのような技術で作られたものです ディープフェイクセクストーション などの犯罪が起こりやすくなります。
SIO によると、Stable Diffusion 1.5 のリリースに対する「コミュニティからの広範な不満」を受けて、Stable Diffusion 2.0 は露骨な写真を生成するためオンラインで依然として人気があり、Stable Diffusion XNUMX には安全でない画像がトレーニング データセットに紛れ込むのを防ぐ追加のフィルターが追加されています。
Stable Diffusion を開発した Stability AI が、LAION-5B の使用によりモデルに潜在的な CSAM が存在することを知っていたかどうかは不明です。会社は私たちの質問に答えませんでした。
おっと、またやってしまった
ドイツの非営利団体 LAION の AI トレーニング データに児童ポルノが含まれていると非難されるのは初めてですが、同組織は以前にもトレーニング データに問題のあるコンテンツが含まれていたとして非難を受けています。
Imagen AI ジェネレーターのトレーニングに LAION-2M として知られる LAION-400B の前身モデルを使用していた Google は、LAION トレーニング データが偏った問題のあるモデルの構築に役立ったかどうかなど、いくつかの懸念からこのツールをリリースしないことを決定しました。
Imagenチームによると、ジェネレーターは、「肌の色が明るい人々の画像を生成したり、西洋のジェンダーステレオタイプに合わせてさまざまな職業を描いたりすることに対する全体的な偏り」を示しました。人間以外のものをモデル化しても状況は改善されず、Imagen が「活動、イベント、物体の画像を生成する際に、さまざまな社会的および文化的偏見をコード化」する原因となりました。
LAION-400M自体の監査により、「ポルノ画像、人種差別的中傷、有害な社会的固定観念を含む幅広い不適切なコンテンツが明らかになった」。
Google が Imagen の公開を見送ることを決定してから数か月後、あるアーティストが スポッティング 彼女が2013年に受けた手術の医療画像はLAION-5Bに保存されていたが、彼女はそれを含めることを決して許可しなかった。
LAIONはこの件に関する私たちの質問に答えなかったが、創設者のクリストフ・シューマン氏は今年初めにブルームバーグに次のように語った。 知らない LAION-5Bに存在するCSAMについては、「彼はデータを深く検討しなかった」ことも認めた。
偶然かどうか – SIO 研究については言及されていない – LAION は昨日、 紹介する 「公共のインターネット上の不審で潜在的に違法なコンテンツを依然として指し示しているLAIONデータセット内のリンク」を削除するための「定期的なメンテナンス手順」を直ちに開始する予定だ。
「LAION は違法コンテンツに対する一切の寛容ポリシーを持っています」と同社は述べた。 「公開データセットは一時的に削除され、フィルタリング更新後に元に戻ります。」 LAION は XNUMX 月後半にデータセットを一般公開する予定です。 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :持っている
- :は
- :not
- 1
- 2013
- 32
- 7
- a
- 能力
- できる
- 私たちについて
- 虐待
- 告発された
- 活動
- 追加されました
- NEW
- 成人
- 後
- AI
- AIトレーニング
- 整列する
- また
- an
- および
- どれか
- アーティスト
- AS
- 監査
- バック
- BE
- き
- 開始
- バイアス
- 偏った
- バイアス
- ブルームバーグ
- ビルド
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 例
- キャッチ
- 原因
- センター
- センター
- 一定
- 子
- 児童保護
- 子供達
- 選んだ
- CO
- コレクション
- コミュニティ
- 会社
- 懸念事項
- 含む
- コンテンツ
- コーナー
- 作ります
- 犯罪
- 文化的な
- 現在
- データ
- データポイント
- データセット
- 決定しました
- 深さ
- 説明
- 検出
- 発展した
- DID
- しなかった
- 異なります
- 直接に
- doesnの
- ダウン
- 原因
- 前
- 容易
- イベント
- 搾取
- 少数の
- フィルタリング
- フィルター
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- 初回
- 焦点を当て
- 発見
- AIとMoku
- から
- 与えた
- 性別
- 生成する
- 生成
- ジェネレータ
- 発電機
- ドイツ語
- でログイン
- 素晴らしい
- 持っていました
- 半分
- 有害な
- ハッシュ
- he
- 助けました
- 主催
- HTTPS
- 人間
- 特定され
- 識別子
- if
- 違法
- 画像
- 画像
- 直ちに
- 改善します
- in
- include
- 含まれました
- 含めて
- を取得する必要がある者
- インターネット
- に
- ISN
- IT
- ITS
- 自体
- 1月
- JPG
- 既知の
- 言語
- 大
- ライター
- ような
- 可能性が高い
- リンク
- リンク
- 製
- メンテナンス
- 作成
- 大規模な
- マッチ
- 材料
- 問題
- 五月..
- 医療の
- 言及した
- 百万
- 行方不明
- モデリング
- モデル
- ヶ月
- 他には?
- の試合に
- 国民
- 決して
- 非営利
- 数
- オブジェクト
- 展望台
- of
- on
- オンライン
- or
- 組織
- その他
- 私たちの
- が
- 全体
- 紙素材
- パス
- のワークプ
- 許可
- 写真
- プラン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- ポイント
- 方針
- 人気
- 潜在的な
- :
- 前任者
- プレゼンス
- 現在
- 防ぐ
- 問題の
- 手続き
- 進捗
- 保護
- 公共
- 公表
- 質問
- 人種差別主義者
- 範囲
- レギュラー
- リリース
- 残っている
- 除去
- 削除します
- 報告
- 研究者
- 反応します
- return
- レビュー
- s
- 安全性
- 前記
- 二番
- 送信
- サービスを提供
- いくつかの
- 性的な
- 彼女
- 示されました
- 重要
- 状況
- 肌
- 滑ること
- 社会
- 一部
- ソース
- 安定性
- 安定した
- スタンフォード
- まだ
- 勉強
- 手術
- 疑わしい
- 撮影
- テク
- 言う
- テスト
- より
- それ
- アプリ環境に合わせて
- 自分自身
- 彼ら
- 物事
- この
- 今年
- それらの
- 数千
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 今日
- 公差
- ツール
- に向かって
- トレーニング
- トレーニング
- さえずり
- 発見
- 受けた
- 違法
- アップデイト
- URL
- us
- つかいます
- 中古
- 検証
- 検証
- バージョン
- ました
- ウェブサイト
- WELL
- した
- 西部の
- いつ
- かどうか
- which
- while
- ワイド
- 広い範囲
- 広範囲
- 意志
- WordPress
- 価値
- 年
- 昨日
- ゼファーネット
- ゼロ