CSAM Found In Large AI Image Generator-training Dataset

Ponovno objavil Platon

Spremljevalci: 0

CSAM found in large AI image generator-training dataset PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ugotovljeno je bilo, da ogromen javni nabor podatkov, ki je služil kot podatki za usposabljanje za priljubljene generatorje slik z umetno inteligenco, vključno s Stable Diffusion, vsebuje na tisoče primerkov gradiva o spolni zlorabi otrok (CSAM).

V študija objavljeno danes, je Stanford Internet Observatory (SIO) povedal, da je preučil več kot 32 milijonov podatkovnih točk v naboru podatkov LAION-5B in je lahko z orodjem PhotoDNA, ki ga je razvil Microsoft, preveril 1,008 slik CSAM – nekatere so bile vključene večkrat. Ta številka je verjetno "znatno premajhna", so povedali raziskovalci v svojem prispevku.

LAION-5B ne vključuje samih slik, ampak je namesto tega zbirka metapodatkov, vključno z zgoščeno vrednostjo identifikatorja slike, opisom, jezikovnimi podatki, ali morda ni varen, in URL-jem, ki kaže na sliko. Številne fotografije CSAM, ki so bile najdene povezane v LAION-5B, so gostovale na spletnih mestih, kot so Reddit, Twitter, Blogspot in WordPress, pa tudi na spletnih mestih za odrasle, kot sta XHamster in XVideos.

Da bi našel slike v naboru podatkov, vredne testiranja, se je SIO osredotočil na slike, ki jih je varnostni klasifikator LAION označil kot "nevarne". Te slike so bile skenirane s PhotoDNA, da bi odkrili CSAM, in ujemanja so bila poslana Kanadskemu centru za zaščito otrok (C3P), da jih preveri.

"Odstranjevanje identificiranega izvornega materiala je trenutno v teku, saj so raziskovalci URL-je slik prijavili Nacionalnemu centru za pogrešane in izkoriščane otroke (NCMEC) v ZDA in C3P," SIO je dejal.

LAION-5B je bil uporabljen za usposabljanje priljubljenega generatorja slik AI Stable Diffusion, katerega različica 1.5 je v nekaterih delih interneta dobro znana po svoji zmožnosti ustvarjanja eksplicitnih slik. Čeprav ni neposredno povezan s primeri, kot je otroški psihiater uporabo AI za ustvarjanje pornografskih slik mladoletnikov, je to vrsta tehnologije, ki je narejena deepfake sextortion in druga kazniva dejanja lažje.

Po navedbah SIO je Stable Diffusion 1.5 še vedno priljubljen na spletu za ustvarjanje eksplicitnih fotografij po "široko razširjenem nezadovoljstvu skupnosti" z izdajo Stable Diffusion 2.0, ki je dodal dodatne filtre za preprečevanje, da bi nevarne slike zdrsnile v nabor podatkov za usposabljanje.

Ni jasno, ali je Stability AI, ki je razvil Stable Diffusion, vedel za prisotnost potencialnega CSAM v svojih modelih zaradi uporabe LAION-5B; podjetje na naša vprašanja ni odgovorilo.

Ups, spet jim je uspelo

Medtem ko je bilo prvič, da so bili podatki o usposabljanju AI nemške neprofitne organizacije LAION obtoženi skrivanja otroške pornografije, je bila organizacija že prej ulovljena zaradi vključevanja vprašljive vsebine v svoje podatke o usposabljanju.

Google, ki je za usposabljanje svojega generatorja Imagen AI uporabil predhodnika LAION-2B, znanega kot LAION-400M, se je odločil, da orodja nikoli ne izda zaradi več pomislekov, vključno s tem, ali so mu podatki o usposabljanju LAION pomagali zgraditi pristranski in problematičen model.

Po mnenju ekipe Imagen, je generator pokazal »splošno nagnjenost k ustvarjanju podob ljudi s svetlejšimi toni kože in … upodabljanju različnih poklicev za uskladitev z zahodnimi spolnimi stereotipi«. Modeliranje stvari, ki niso ljudje, ni izboljšalo situacije, zaradi česar je Imagen "kodiral vrsto družbenih in kulturnih pristranskosti pri ustvarjanju podob dejavnosti, dogodkov in predmetov."

Revizija samega LAION-400M je "odkrila široko paleto neprimerne vsebine, vključno s pornografskimi posnetki, rasističnimi žalitvami in škodljivimi družbenimi stereotipi."

Nekaj mesecev po tem, ko se je Google odločil, da bo Imagen javno objavil, umetnik opažen medicinske slike iz operacije, ki jo je prestala leta 2013, prisotne v LAION-5B, za katere nikoli ni dala dovoljenja za vključitev.

LAION ni odgovoril na naša vprašanja o tej zadevi, je pa ustanovitelj Christoph Schuhmann za Bloomberg v začetku tega leta povedal, da je ne vem katerega koli CSAM-a, ki je prisoten v LAION-5B, hkrati pa je priznal, da "podatkov ni pregledal zelo poglobljeno."

Naključje ali ne – študija SIO ni omenjena – je LAION včeraj izbral uvesti načrtuje "redne vzdrževalne postopke", ki se začnejo takoj, za odstranitev "povezav v nizih podatkov LAION, ki še vedno kažejo na sumljivo, potencialno nezakonito vsebino na javnem internetu."

"LAION ima politiko ničelne tolerance do nezakonitih vsebin," so sporočili iz podjetja. »Javni nabori podatkov bodo začasno odstranjeni, da se vrnejo nazaj po filtriranju posodobitev.« LAION načrtuje vrnitev svojih podatkovnih nizov javnosti v drugi polovici januarja. ®