En massiv offentlig datauppsättning som fungerade som träningsdata för populära AI-bildgeneratorer inklusive Stable Diffusion har visat sig innehålla tusentals fall av material för sexuella övergrepp mot barn (CSAM).
I en studera publicerad idag, sa Stanford Internet Observatory (SIO) att det porerade över mer än 32 miljoner datapunkter i LAION-5B-datauppsättningen och kunde validera, med hjälp av det Microsoft-utvecklade verktyget PhotoDNA, 1,008 XNUMX CSAM-bilder – några inkluderade flera gånger. Den siffran är sannolikt "en betydande underräkning", sa forskarna i sin uppsats.
LAION-5B inkluderar inte själva bilderna, utan är istället en samling metadata inklusive en hash av bildidentifieraren, en beskrivning, språkdata, om det kan vara osäkert och en URL som pekar på bilden. Ett antal av de CSAM-foton som hittats länkade i LAION-5B hittades på webbplatser som Reddit, Twitter, Blogspot och WordPress, samt vuxenwebbplatser som XHamster och XVideos.
För att hitta bilder i datamängden värda att testa fokuserade SIO på bilder taggade av LAIONs säkerhetsklassificerare som "osäkra". Dessa bilder skannades med PhotoDNA för att detektera CSAM, och matchningar skickades till Canadian Center for Child Protection (C3P) för att verifieras.
"Borttagning av det identifierade källmaterialet pågår för närvarande eftersom forskare rapporterade bildwebbadresserna till National Center for Missing and Exploited Children (NCMEC) i USA och C3P," SIO sade.
LAION-5B användes för att träna den populära AI-bildgeneratorn Stable Diffusion, vars version 1.5 är välkänd i vissa hörn av internet för sin förmåga att skapa explicita bilder. Även om det inte är direkt kopplat till fall som en barnpsykiater använder AI för att skapa pornografiska bilder av minderåriga är det den typen av teknik som görs deepfake sextortion och andra brott lättare.
Enligt SIO är Stable Diffusion 1.5 fortfarande populärt online för att generera explicita bilder efter "utbrett missnöje från samhället" med lanseringen av Stable Diffusion 2.0, som lade till ytterligare filter för att förhindra att osäkra bilder glider in i träningsdatasetet.
Det är oklart om Stability AI, som utvecklade Stable Diffusion, kände till förekomsten av potentiell CSAM i sina modeller på grund av användningen av LAION-5B; företaget svarade inte på våra frågor.
Oj, de gjorde det igen
Även om det är första gången tyska ideella LAIONs AI-träningsdata har anklagats för att hysa barnporr, har organisationen råkat ut för att ha inkluderat tvivelaktigt innehåll i sin träningsdata tidigare.
Google, som använde en LAION-2B-föregångare känd som LAION-400M för att träna sin Imagen AI-generator, bestämde sig för att aldrig släppa verktyget på grund av flera bekymmer, inklusive om LAIONs träningsdata hade hjälpt det att bygga en partisk och problematisk modell.
Enligt Imagen-teamet, visade generatorn "en övergripande partiskhet mot att generera bilder av människor med ljusare hudtoner och... porträttera olika yrken för att anpassa sig till västerländska könsstereotyper." Att modellera andra saker än människor förbättrade inte situationen, vilket fick Imagen att "koda en rad sociala och kulturella fördomar när de genererade bilder av aktiviteter, händelser och föremål."
En granskning av själva LAION-400M "avslöjade ett brett utbud av olämpligt innehåll inklusive pornografiska bilder, rasistiska förtal och skadliga sociala stereotyper."
Några månader efter att Google bestämde sig för att göra Imagen offentlig, en artist fick syn på medicinska bilder från en operation som hon genomgick 2013 i LAION-5B, som hon aldrig gav tillstånd att inkludera.
LAION svarade inte på våra frågor i frågan, men grundaren Christoph Schuhmann berättade för Bloomberg tidigare i år att han var omedveten av alla CSAM som finns i LAION-5B, samtidigt som han erkände att "han inte granskade uppgifterna på djupet."
Av en slump eller inte – SIO-studien nämns inte – LAION valde i går att införa planer på "regelbundna underhållsprocedurer", som börjar omedelbart, för att ta bort "länkar i LAION-datauppsättningar som fortfarande pekar på misstänkt, potentiellt olagligt innehåll på offentligt internet."
"LAION har en nolltoleranspolicy för olagligt innehåll", sa företaget. "De offentliga datamängderna kommer att tas bort tillfälligt för att gå tillbaka efter uppdateringsfiltrering." LAION planerar att återlämna sina datauppsättningar till allmänheten under andra halvan av januari. ®
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- : har
- :är
- :inte
- 1
- 2013
- 32
- 7
- a
- förmåga
- Able
- Om oss
- missbruk
- den anklagade
- aktiviteter
- lagt till
- Annat
- Vuxen
- Efter
- AI
- AI-utbildning
- rikta
- också
- an
- och
- vilken som helst
- konstnär
- AS
- revision
- tillbaka
- BE
- varit
- innan
- Börjar
- förspänning
- partisk
- förspänner
- Direkt
- SLUTRESULTAT
- men
- by
- Canadian
- fall
- fångas
- orsakar
- Centrum
- centrum
- vissa
- barn
- skydd av barn
- Barn
- valde
- CO
- samling
- samfundet
- företag
- oro
- innehålla
- innehåll
- hörn
- skapa
- brott
- kultur
- För närvarande
- datum
- datapunkter
- datauppsättningar
- beslutade
- djup
- beskrivning
- upptäcka
- utvecklade
- DID
- didn
- olika
- Diffusion
- direkt
- doesn
- ner
- grund
- Tidigare
- lättare
- händelser
- utnyttjas
- få
- filtrering
- filter
- hitta
- Förnamn
- första gången
- fokuserade
- För
- hittade
- grundare
- från
- gav
- Kön
- generera
- generera
- Generatorn
- generatorer
- tyska
- stor
- hade
- Hälften
- skadliga
- hash
- he
- hjälpte
- värd
- HTTPS
- Människa
- identifierade
- identifierare
- if
- Olaglig
- bild
- bilder
- blir omedelbart
- förbättra
- in
- innefattar
- ingår
- Inklusive
- istället
- Internet
- in
- isn
- IT
- DESS
- sig
- Januari
- jpg
- känd
- språk
- Large
- lättare
- tycka om
- sannolikt
- kopplade
- länkar
- gjord
- underhåll
- Framställning
- massiv
- tändstickor
- Materialet
- Materia
- Maj..
- medicinsk
- nämnts
- metadata
- miljon
- saknas
- modell
- modellering
- modeller
- månader
- mer
- multipel
- nationell
- aldrig
- ideell organisation
- antal
- objekt
- observatorium
- of
- on
- nätet
- or
- organisation
- Övriga
- vår
- över
- övergripande
- Papper
- passera
- Personer
- tillstånd
- Bilder
- planer
- plato
- Platon Data Intelligence
- PlatonData
- Punkt
- poäng
- policy
- Populära
- potentiell
- potentiellt
- företrädare
- Närvaron
- presentera
- förhindra
- problematisk
- förfaranden
- Framsteg
- skydd
- allmän
- publicerade
- frågor
- rasistiskt
- område
- regelbunden
- frigöra
- resterna
- avlägsnande
- ta bort
- Rapporterad
- forskare
- Svara
- avkastning
- översyn
- s
- Säkerhet
- Nämnda
- Andra
- skickas
- eras
- flera
- Sexuell
- hon
- visade
- signifikant
- Situationen
- Hud
- glida
- Social hållbarhet
- några
- Källa
- Stabilitet
- stabil
- stanford
- Fortfarande
- Läsa på
- Kirurgi
- misstänksam
- tagen
- tech
- tala
- Testning
- än
- den där
- Smakämnen
- deras
- sig själva
- de
- saker
- detta
- i år
- de
- tusentals
- tid
- gånger
- till
- i dag
- tolerans
- verktyg
- mot
- Tåg
- Utbildning
- avtäckt
- gick
- olaglig
- Uppdatering
- URL
- us
- användning
- Begagnade
- med hjälp av
- BEKRÄFTA
- verifierade
- version
- var
- webbsidor
- VÄL
- były
- Western
- när
- om
- som
- medan
- bred
- Brett utbud
- utbredd
- kommer
- med
- Wordpress
- värt
- år
- i går
- zephyrnet
- noll-