Et massivt offentlig datasett som fungerte som treningsdata for populære AI-bildegeneratorer, inkludert Stable Diffusion, har vist seg å inneholde tusenvis av forekomster av seksuelt misbruk av barn (CSAM).
I en studere publisert i dag, sa Stanford Internet Observatory (SIO) at det porerte over mer enn 32 millioner datapunkter i LAION-5B-datasettet og var i stand til å validere, ved hjelp av det Microsoft-utviklede verktøyet PhotoDNA, 1,008 CSAM-bilder – noen inkludert flere ganger. Dette tallet er sannsynligvis "en betydelig undertelling," sa forskerne i papiret deres.
LAION-5B inkluderer ikke selve bildene, og er i stedet en samling metadata inkludert en hash av bildeidentifikatoren, en beskrivelse, språkdata, om det kan være usikkert, og en URL som peker til bildet. En rekke av CSAM-bildene som ble funnet koblet i LAION-5B, ble funnet på nettsteder som Reddit, Twitter, Blogspot og WordPress, samt voksennettsteder som XHamster og XVideos.
For å finne bilder i datasettet som var verdt å teste, fokuserte SIO på bilder merket av LAIONs sikkerhetsklassifiserer som "usikre". Disse bildene ble skannet med PhotoDNA for å oppdage CSAM, og treff ble sendt til Canadian Center for Child Protection (C3P) for å bli verifisert.
"Fjerning av det identifiserte kildematerialet pågår for tiden ettersom forskere rapporterte bildenettadressene til National Center for Missing and Exploited Children (NCMEC) i USA og C3P," sier SIO sa.
LAION-5B ble brukt til å trene den populære AI-bildegeneratoren Stable Diffusion, versjon 1.5 av denne er velkjent i visse hjørner av internett for sin evne til å lage eksplisitte bilder. Selv om det ikke er direkte knyttet til saker som en barnepsykiater bruke AI til å generere pornografiske bilder av mindreårige, er det den slags teknologi som er laget dypfalsk sextortion og andre forbrytelser lettere.
I følge SIO forblir Stable Diffusion 1.5 populær på nettet for å generere eksplisitte bilder etter "utbredt misnøye fra fellesskapet" med utgivelsen av Stable Diffusion 2.0, som la til ekstra filtre for å forhindre at utrygge bilder glir inn i treningsdatasettet.
Det er uklart om Stability AI, som utviklet Stable Diffusion, visste om tilstedeværelsen av potensiell CSAM i modellene sine på grunn av bruken av LAION-5B; selskapet svarte ikke på spørsmålene våre.
Oops, de gjorde det igjen
Selv om det er første gang den tyske non-profit LAIONs AI-treningsdata har blitt anklaget for å inneholde barneporno, har organisasjonen tatt feil for å inkludere tvilsomt innhold i treningsdataene sine tidligere.
Google, som brukte en LAION-2B-forgjenger kjent som LAION-400M for å trene sin Imagen AI-generator, bestemte seg for å aldri gi ut verktøyet på grunn av flere bekymringer, inkludert om LAION-treningsdataene hadde hjulpet den med å bygge en partisk og problematisk modell.
Ifølge Imagen-teamet, viste generatoren «en overordnet skjevhet mot å generere bilder av mennesker med lysere hudtoner og … fremstille forskjellige yrker for å tilpasse seg vestlige kjønnsstereotyper». Å modellere andre ting enn mennesker forbedret ikke situasjonen, og fikk Imagen til å "kode en rekke sosiale og kulturelle skjevheter når de genererer bilder av aktiviteter, hendelser og objekter."
En revisjon av LAION-400M selv "avdekket et bredt spekter av upassende innhold, inkludert pornografiske bilder, rasistiske utsagn og skadelige sosiale stereotyper."
Noen måneder etter at Google bestemte seg for å gi Imagen offentlig, en artist fikk øye på medisinske bilder fra en operasjon hun gjennomgikk i 2013 i LAION-5B, som hun aldri ga tillatelse til å inkludere.
LAION svarte ikke på spørsmålene våre om saken, men grunnlegger Christoph Schuhmann fortalte Bloomberg tidligere i år at han var uvitende av enhver CSAM som er tilstede i LAION-5B, samtidig som han innrømmet at "han ikke gjennomgikk dataene i stor dybde."
Tilfeldigvis eller ikke – SIO-studien er ikke nevnt – valgte LAION i går å introdusere planlegger "vanlige vedlikeholdsprosedyrer", som begynner umiddelbart, for å fjerne "lenker i LAION-datasett som fortsatt peker til mistenkelig, potensielt ulovlig innhold på offentlig internett."
"LAION har en nulltoleranse for ulovlig innhold," sa selskapet. "De offentlige datasettene vil bli midlertidig fjernet, for å komme tilbake etter oppdateringsfiltrering." LAION planlegger å returnere datasettene sine til offentligheten i andre halvdel av januar. ®
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- : har
- :er
- :ikke
- 1
- 2013
- 32
- 7
- a
- evne
- I stand
- Om oss
- misbruk
- tiltalte
- Aktiviteter
- la til
- Ytterligere
- Voksen
- Etter
- AI
- AI-trening
- justere
- også
- an
- og
- noen
- artist
- AS
- revisjon
- tilbake
- BE
- vært
- før du
- Begynnelsen
- Bias
- forutinntatt
- skjevheter
- Bloomberg
- bygge
- men
- by
- Canadian
- saker
- fanget
- forårsaker
- sentrum
- senter
- viss
- barn
- barnevern
- Barn
- valgte
- CO
- samling
- samfunnet
- Selskapet
- bekymringer
- inneholde
- innhold
- hjørner
- skape
- forbrytelser
- kulturell
- I dag
- dato
- datapunkter
- datasett
- besluttet
- dybde
- beskrivelse
- oppdage
- utviklet
- gJORDE
- gjorde ikke
- forskjellig
- kringkasting
- direkte
- doesn
- ned
- to
- Tidligere
- enklere
- hendelser
- Exploited
- Noen få
- filtrering
- filtre
- Finn
- Først
- første gang
- fokuserte
- Til
- funnet
- Grunnleggeren
- fra
- ga
- Kjønn
- generere
- genererer
- generator
- generatorer
- Tysk
- flott
- HAD
- Halvparten
- skadelig
- hash
- he
- hjulpet
- vert
- HTTPS
- Mennesker
- identifisert
- identifikator
- if
- ulovlig
- bilde
- bilder
- umiddelbart
- forbedre
- in
- inkludere
- inkludert
- Inkludert
- i stedet
- Internet
- inn
- er n
- IT
- DET ER
- selv
- Januar
- jpg
- kjent
- Språk
- stor
- lettere
- i likhet med
- Sannsynlig
- knyttet
- lenker
- laget
- vedlikehold
- Making
- massive
- fyrstikker
- materiale
- Saken
- Kan..
- medisinsk
- nevnt
- metadata
- millioner
- mangler
- modell
- modellering
- modeller
- måneder
- mer
- flere
- nasjonal
- aldri
- non-profit
- Antall
- gjenstander
- observatorium
- of
- on
- på nett
- or
- organisasjon
- Annen
- vår
- enn
- samlet
- Papir
- passere
- Ansatte
- tillatelse
- Bilder
- planer
- plato
- Platon Data Intelligence
- PlatonData
- Point
- poeng
- politikk
- Populær
- potensiell
- potensielt
- forgjenger
- tilstedeværelse
- presentere
- forebygge
- problematisk
- prosedyrer
- Progress
- beskyttelse
- offentlig
- publisert
- spørsmål
- rasistisk
- område
- regelmessig
- slipp
- forblir
- fjerning
- fjerne
- rapportert
- forskere
- Svare
- retur
- anmeldelse
- s
- Sikkerhet
- Sa
- Sekund
- sendt
- servert
- flere
- Seksuell
- hun
- viste
- signifikant
- situasjon
- Skin
- slipping
- selskap
- noen
- kilde
- Stabilitet
- stabil
- stanford
- Still
- Studer
- Kirurgi
- mistenkelig
- tatt
- tech
- fortelle
- Testing
- enn
- Det
- De
- deres
- seg
- de
- ting
- denne
- dette året
- De
- tusener
- tid
- ganger
- til
- i dag
- toleranse
- verktøy
- mot
- Tog
- Kurs
- avdekket
- gikk
- ulovlig
- Oppdater
- URL
- us
- bruke
- brukt
- ved hjelp av
- VALIDERE
- verifisert
- versjon
- var
- nettsteder
- VI VIL
- var
- Western
- når
- om
- hvilken
- mens
- bred
- Bred rekkevidde
- utbredt
- vil
- med
- WordPress
- verdt
- år
- i går
- zephyrnet
- null