On leitud, et massiline avalik andmestik, mis toimis populaarsete tehisintellekti kujutise generaatorite (sh Stable Diffusion) koolitusandmetena, sisaldab tuhandeid laste seksuaalse kuritarvitamise materjali (CSAM) juhtumeid.
Aastal õppima Täna avaldatud Stanfordi Interneti-vaatluskeskuse (SIO) sõnul hõlmas see LAION-32B andmekogus enam kui 5 miljonit andmepunkti ja suutis Microsofti väljatöötatud tööriista PhotoDNA abil kinnitada 1,008 CSAM-pilti – mõned neist olid kaasatud mitu korda. See arv on tõenäoliselt "oluline alaloendus", ütlesid teadlased oma artiklis.
LAION-5B ei sisalda pilte ise, vaid on metaandmete kogum, mis sisaldab pildi identifikaatori räsi, kirjeldust, keeleandmeid, olenemata sellest, kas need võivad olla ohtlikud, ja pildile osutavat URL-i. Mitmed LAION-5B-s lingitud CSAM-fotod leiti olevat hostitud veebisaitidel nagu Reddit, Twitter, Blogspot ja WordPress, aga ka täiskasvanutele mõeldud veebisaitidel, nagu XHamster ja XVideos.
Testimist väärt piltide leidmiseks keskendus SIO piltidele, mille LAIONi ohutusklassifikaator märgistas kui "ebaturvaline". Neid pilte skaneeriti PhotoDNA-ga, et tuvastada CSAM, ja vasted saadeti kontrollimiseks Kanada lastekaitsekeskusesse (C3P).
"Tuvastatud lähtematerjali eemaldamine on praegu pooleli, kuna teadlased teatasid piltide URL-idest USA kadunud ja ärakasutatud laste riiklikule keskusele (NCMEC) ja C3P-le," ütles SIO. ütles.
LAION-5B-d kasutati populaarse tehisintellekti kujutise generaatori Stable Diffusion treenimiseks, mille versioon 1.5 on Interneti teatud nurkades hästi tuntud oma võime tõttu luua selgesõnalisi pilte. Kuigi see pole otseselt seotud juhtumitega nagu lastepsühhiaater AI kasutamine pornograafiliste piltide loomiseks alaealiste puhul on see selline tehnoloogia, mis on tehtud sügav võltsitud seksitorn ja muud kuriteod lihtsamaks.
SIO andmetel on Stable Diffusion 1.5 endiselt populaarne veebis selgesõnaliste fotode loomiseks pärast "kogukonna laialdast rahulolematust" Stable Diffusion 2.0 väljalaskmisega, mis lisas täiendavaid filtreid, et vältida ohtlike piltide libisemist treeningandmete kogumisse.
On ebaselge, kas Stable Diffusioni välja töötanud Stability AI teadis LAION-5B kasutamise tõttu võimaliku CSAM-i olemasolust oma mudelites; ettevõte ei vastanud meie küsimustele.
Oih, nad tegid seda jälle
Kuigi see on esimene kord, kui Saksa mittetulundusühingu LAIONi tehisintellekti koolitusandmeid süüdistatakse lapsporno varjamises, on organisatsioon tabanud pettust, kuna ta on varem oma koolitusandmetesse lisanud küsitava sisu.
Google, kes kasutas oma Imagen AI generaatori koolitamiseks LAION-2B eelkäijat LAION-400M, otsustas seda tööriista mitte kunagi välja anda mitmete probleemide tõttu, sealhulgas selle, kas LAIONi koolitusandmed on aidanud tal luua kallutatud ja problemaatilise mudeli.
Imageni meeskonna sõnul, näitas generaator „üldist kalduvust luua pilte heledama nahatooniga inimestest ja … kujutada erinevaid ameteid, et viia need vastavusse lääne soostereotüüpidega”. Muude asjade modelleerimine peale inimeste olukorda ei parandanud, mistõttu Imagen kodeeris tegevustest, sündmustest ja objektidest kujutiste loomisel mitmesuguseid sotsiaalseid ja kultuurilisi eelarvamusi.
LAION-400M audit ise "avastas suure hulga sobimatut sisu, sealhulgas pornograafilisi kujutisi, rassistlikke solvanguid ja kahjulikke sotsiaalseid stereotüüpe".
Mõni kuu pärast seda, kui Google otsustas Imageni kunstnikuna avalikustada märgatud LAION-2013B-s esinevad meditsiinilised pildid operatsioonist, mille ta läbis 5. aastal, mille lisamiseks ta kunagi luba ei andnud.
LAION ei vastanud meie küsimustele selles küsimuses, kuid asutaja Christoph Schuhmann ütles Bloombergile selle aasta alguses, et ta on teadmata kõigist LAION-5B-s esinevatest CSAM-idest, tunnistades samas, et "ta ei vaadanud andmeid väga põhjalikult."
Kas juhus või mitte – SIO uuringut ei mainita – otsustas LAION eile selle kehtestama plaanib "regulaarseid hooldusprotseduure", mis algavad kohe, et eemaldada "LAIONi andmekogumitest lingid, mis viitavad endiselt kahtlasele, potentsiaalselt ebaseaduslikule sisule avalikus Internetis".
"LAIONil on ebaseadusliku sisu suhtes nulltolerants," ütles ettevõte. "Avalikud andmekogumid eemaldatakse ajutiselt, et pärast värskenduste filtreerimist tagasi pöörduda." LAION plaanib oma andmestikud avalikkusele tagastada jaanuari teisel poolel. ®
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :on
- :on
- :mitte
- 1
- 2013
- 32
- 7
- a
- võime
- Võimalik
- MEIST
- kuritarvitamise
- süüdistatav
- tegevus
- lisatud
- Täiendavad lisad
- Täiskasvanud
- pärast
- AI
- AI koolitus
- viia
- Ka
- an
- ja
- mistahes
- kunstnik
- AS
- audit
- tagasi
- BE
- olnud
- enne
- Algus
- erapoolikus
- erapooletu
- kalduvusi
- Bloomberg
- ehitama
- kuid
- by
- Kanada
- juhtudel
- püütud
- põhjustades
- keskus
- keskus
- kindel
- laps
- lastekaitse
- Lapsed
- Valisin
- CO
- kogumine
- kogukond
- ettevõte
- Murettekitav
- sisaldama
- sisu
- nurgad
- looma
- Kuriteod
- kultuuriline
- Praegu
- andmed
- andmepunktid
- andmekogumid
- otsustatud
- sügavus
- kirjeldus
- avastama
- arenenud
- DID
- ei teinud
- erinev
- Diffusion
- otse
- ei
- alla
- kaks
- Ajalugu
- lihtsam
- sündmused
- Exploited
- vähe
- filtreerimine
- Filtrid
- leidma
- esimene
- Esimest korda
- keskendunud
- eest
- avastatud
- Asutaja
- Alates
- andis
- SUGU
- tekitama
- teeniva
- generaator
- generaatorid
- saksa
- suur
- olnud
- Pool
- kahjulik
- hash
- he
- aitas
- võõrustas
- HTTPS
- Inimestel
- tuvastatud
- tunnus
- if
- ebaseaduslik
- pilt
- pildid
- kohe
- parandama
- in
- sisaldama
- lisatud
- Kaasa arvatud
- selle asemel
- Internet
- sisse
- pole
- IT
- ITS
- ise
- Jaanuar
- jpg
- teatud
- keel
- suur
- heledam
- nagu
- Tõenäoliselt
- seotud
- lingid
- tehtud
- hooldus
- Tegemine
- suur
- tikud
- materjal
- küsimus
- mai..
- meditsiini-
- mainitud
- Metaandmed
- miljon
- puuduvad
- mudel
- modelleerimine
- mudelid
- kuu
- rohkem
- mitmekordne
- riiklik
- mitte kunagi
- mittetulunduslik
- number
- esemeid
- observatoorium
- of
- on
- Internetis
- or
- organisatsioon
- Muu
- meie
- üle
- üldine
- Paber
- sooritama
- Inimesed
- luba
- Fotod
- plaanid
- Platon
- Platoni andmete intelligentsus
- PlatoData
- Punkt
- võrra
- poliitika
- populaarne
- potentsiaal
- potentsiaalselt
- eelkäija
- olemasolu
- esitada
- vältida
- problemaatiline
- menetlused
- Edu
- kaitse
- avalik
- avaldatud
- Küsimused
- rassist
- valik
- regulaarne
- vabastama
- jäänused
- eemaldamine
- kõrvaldama
- Teatatud
- Teadlased
- Reageerida
- tagasipöördumine
- läbi
- s
- ohutus
- Ütlesin
- Teine
- Saadetud
- serveeritud
- mitu
- Seksuaalne
- ta
- näitas
- märkimisväärne
- olukord
- nahk
- libisemine
- sotsiaalmeedia
- mõned
- allikas
- Stabiilsus
- stabiilne
- Stanford
- Veel
- Uuring
- Kirurgia
- kahtlane
- võtnud
- tech
- öelda
- Testimine
- kui
- et
- .
- oma
- ennast
- nad
- asjad
- see
- Sel aastal
- need
- tuhandeid
- aeg
- korda
- et
- täna
- sallivus
- tööriist
- suunas
- Rong
- koolitus
- puperdama
- katteta
- läbis
- ebaseaduslik
- Värskendused
- URL
- us
- kasutama
- Kasutatud
- kasutamine
- KINNITAGE
- kinnitatud
- versioon
- oli
- veebilehed
- Hästi
- olid
- Lääne-
- millal
- kas
- mis
- kuigi
- lai
- Lai valik
- laialt levinud
- will
- koos
- WordPress
- väärt
- aasta
- eile
- sephyrnet
- null