Et massivt offentligt datasæt, der fungerede som træningsdata for populære AI-billedgeneratorer, inklusive stabil diffusion, har vist sig at indeholde tusindvis af tilfælde af materiale om seksuelt misbrug af børn (CSAM).
I en studere offentliggjort i dag, sagde Stanford Internet Observatory (SIO) at det porede over mere end 32 millioner datapunkter i LAION-5B-datasættet og var i stand til at validere, ved hjælp af det Microsoft-udviklede værktøj PhotoDNA, 1,008 CSAM-billeder – nogle inkluderet flere gange. Det tal er sandsynligvis "et betydeligt undertal," sagde forskerne i deres papir.
LAION-5B inkluderer ikke selve billederne, og er i stedet en samling af metadata, herunder en hash af billed-id'et, en beskrivelse, sprogdata, om det kan være usikkert, og en URL, der peger på billedet. En række af de CSAM-billeder, der blev fundet linket i LAION-5B, blev fundet hostet på websteder som Reddit, Twitter, Blogspot og WordPress, såvel som voksne websteder som XHamster og XVideos.
For at finde billeder i datasættet, der var værd at teste, fokuserede SIO på billeder mærket af LAIONs sikkerhedsklassificering som "usikre". Disse billeder blev scannet med PhotoDNA for at detektere CSAM, og match blev sendt til Canadian Center for Child Protection (C3P) for at blive verificeret.
"Fjernelse af det identificerede kildemateriale er i øjeblikket i gang, da forskere rapporterede billed-URL'erne til National Center for Missing and Exploited Children (NCMEC) i USA og C3P," SIO sagde.
LAION-5B blev brugt til at træne den populære AI-billedgenerator Stable Diffusion, hvoraf version 1.5 er velkendt i visse hjørner af internettet for sin evne til at skabe eksplicitte billeder. Selvom det ikke er direkte knyttet til sager som en børnepsykiater bruge AI til at generere pornografiske billeder af mindreårige, er det den slags teknologi, der er lavet dyb falsk sextortion og andre forbrydelser lettere.
Ifølge SIO forbliver Stable Diffusion 1.5 populær online til at generere eksplicitte billeder efter "udbredt utilfredshed fra fællesskabet" med udgivelsen af Stable Diffusion 2.0, som tilføjede yderligere filtre for at forhindre usikre billeder i at glide ind i træningsdatasættet.
Det er uklart, om Stability AI, som udviklede Stable Diffusion, kendte til tilstedeværelsen af potentiel CSAM i sine modeller på grund af brugen af LAION-5B; virksomheden svarede ikke på vores spørgsmål.
Ups, de gjorde det igen
Selvom det er første gang, den tyske non-profit LAIONs AI-træningsdata er blevet beskyldt for at rumme børneporno, har organisationen tidligere taget fejl for at inkludere tvivlsomt indhold i sine træningsdata.
Google, som brugte en LAION-2B-forgænger kendt som LAION-400M til at træne sin Imagen AI-generator, besluttede aldrig at frigive værktøjet på grund af flere bekymringer, herunder om LAION-træningsdataene havde hjulpet det med at opbygge en forudindtaget og problematisk model.
Ifølge Imagen-teamet, viste generatoren "en overordnet skævhed i retning af at generere billeder af mennesker med lysere hudtoner og … portrættere forskellige erhverv for at tilpasse sig vestlige kønsstereotyper." Modellering af andre ting end mennesker forbedrede ikke situationen, hvilket fik Imagen til at "kode en række sociale og kulturelle skævheder, når de genererede billeder af aktiviteter, begivenheder og objekter."
En revision af LAION-400M selv "afdækkede en bred vifte af upassende indhold, herunder pornografiske billeder, racistiske bagtalelser og skadelige sociale stereotyper."
Et par måneder efter at Google besluttede at videregive at gøre Imagen offentlig, en kunstner fik øje på medicinske billeder fra en operation, hun gennemgik i 2013, til stede i LAION-5B, som hun aldrig gav tilladelse til at medtage.
LAION svarede ikke på vores spørgsmål om sagen, men grundlæggeren Christoph Schuhmann fortalte Bloomberg tidligere på året, at han var uvidende af enhver CSAM til stede i LAION-5B, mens han også indrømmede, at "han ikke gennemgik dataene i stor dybde."
Tilfældigt eller ej - SIO-undersøgelsen er ikke nævnt - LAION valgte i går at indføre planer om "regelmæssige vedligeholdelsesprocedurer", der begynder med det samme, for at fjerne "links i LAION-datasæt, der stadig peger på mistænkeligt, potentielt ulovligt indhold på offentligt internet."
"LAION har en nultolerancepolitik over for ulovligt indhold," sagde virksomheden. "De offentlige datasæt vil blive midlertidigt fjernet for at vende tilbage efter opdateringsfiltrering." LAION planlægger at returnere sine datasæt til offentligheden i anden halvdel af januar. ®
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :har
- :er
- :ikke
- 1
- 2013
- 32
- 7
- a
- evne
- I stand
- Om
- misbrug
- anklagede
- aktiviteter
- tilføjet
- Yderligere
- Voksen
- Efter
- AI
- AI -træning
- tilpasse
- også
- an
- ,
- enhver
- kunstner
- AS
- revision
- tilbage
- BE
- været
- før
- Begyndelse
- skævhed
- forudindtaget
- fordomme
- Bloomberg
- bygge
- men
- by
- Canadian
- tilfælde
- fanget
- forårsager
- center
- center
- vis
- barn
- Beskyttelse af børn
- Børn
- valgte
- CO
- samling
- samfund
- selskab
- Bekymringer
- indeholder
- indhold
- hjørner
- skabe
- forbrydelser
- kulturelle
- For øjeblikket
- data
- datapunkter
- datasæt
- besluttede
- dybde
- beskrivelse
- opdage
- udviklet
- DID
- gjorde ikke
- forskellige
- Broadcasting
- direkte
- gør ikke
- ned
- grund
- tidligere
- lettere
- begivenheder
- Exploited
- få
- filtrering
- Filtre
- Finde
- Fornavn
- første gang
- fokuserede
- Til
- fundet
- grundlægger
- fra
- gav
- Køn
- generere
- generere
- generator
- generatorer
- Tysk
- stor
- havde
- Halvdelen
- skadelig
- hash
- he
- hjulpet
- hostede
- HTTPS
- Mennesker
- identificeret
- identifikator
- if
- Ulovlig
- billede
- billeder
- straks
- Forbedre
- in
- omfatter
- medtaget
- Herunder
- i stedet
- Internet
- ind
- isn
- IT
- ITS
- selv
- januar
- jpg
- kendt
- Sprog
- stor
- lighter
- ligesom
- Sandsynlig
- forbundet
- links
- lavet
- vedligeholdelse
- Making
- massive
- tændstikker
- materiale
- Matter
- Kan..
- medicinsk
- nævnte
- Metadata
- million
- mangler
- model
- modellering
- modeller
- måned
- mere
- flere
- national
- aldrig
- non-profit
- nummer
- objekter
- observatorium
- of
- on
- online
- or
- organisation
- Andet
- vores
- i løbet af
- samlet
- Papir
- passerer
- Mennesker
- tilladelse
- pics
- planer
- plato
- Platon Data Intelligence
- PlatoData
- Punkt
- punkter
- politik
- Populær
- potentiale
- potentielt
- forgænger
- tilstedeværelse
- præsentere
- forhindre
- problematisk
- procedurer
- Progress
- beskyttelse
- offentlige
- offentliggjort
- Spørgsmål
- racistisk
- rækkevidde
- fast
- frigive
- resterne
- fjernelse
- Fjern
- rapporteret
- forskere
- Svar
- afkast
- gennemgå
- s
- Sikkerhed
- Said
- Anden
- sendt
- serveret
- flere
- Seksuel
- hun
- viste
- signifikant
- Situationen
- hud
- glider
- Social
- nogle
- Kilde
- Stabilitet
- stabil
- Stanford
- Stadig
- Studere
- Kirurgi
- mistænksom
- taget
- tech
- fortælle
- Test
- end
- at
- deres
- selv
- de
- ting
- denne
- i år
- dem
- tusinder
- tid
- gange
- til
- i dag
- tolerance
- værktøj
- mod
- Tog
- Kurser
- afdækket
- gennemgik
- ulovlig
- Opdatering
- URL
- us
- brug
- anvendte
- ved brug af
- VALIDATE
- verificeres
- udgave
- var
- websites
- GODT
- var
- Western
- hvornår
- hvorvidt
- som
- mens
- bred
- Bred rækkevidde
- udbredt
- vilje
- med
- WordPress
- værd
- år
- i går
- zephyrnet
- nul