CSAM funnet i stort AI Image Generator-opplæringsdatasett

Publisert av Platon

Følgere: 0

CSAM funnet i stort AI-bildegenerator-treningsdatasett PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Et massivt offentlig datasett som fungerte som treningsdata for populære AI-bildegeneratorer, inkludert Stable Diffusion, har vist seg å inneholde tusenvis av forekomster av seksuelt misbruk av barn (CSAM).

I en studere publisert i dag, sa Stanford Internet Observatory (SIO) at det porerte over mer enn 32 millioner datapunkter i LAION-5B-datasettet og var i stand til å validere, ved hjelp av det Microsoft-utviklede verktøyet PhotoDNA, 1,008 CSAM-bilder – noen inkludert flere ganger. Dette tallet er sannsynligvis "en betydelig undertelling," sa forskerne i papiret deres.

LAION-5B inkluderer ikke selve bildene, og er i stedet en samling metadata inkludert en hash av bildeidentifikatoren, en beskrivelse, språkdata, om det kan være usikkert, og en URL som peker til bildet. En rekke av CSAM-bildene som ble funnet koblet i LAION-5B, ble funnet på nettsteder som Reddit, Twitter, Blogspot og WordPress, samt voksennettsteder som XHamster og XVideos.

For å finne bilder i datasettet som var verdt å teste, fokuserte SIO på bilder merket av LAIONs sikkerhetsklassifiserer som "usikre". Disse bildene ble skannet med PhotoDNA for å oppdage CSAM, og treff ble sendt til Canadian Center for Child Protection (C3P) for å bli verifisert.

"Fjerning av det identifiserte kildematerialet pågår for tiden ettersom forskere rapporterte bildenettadressene til National Center for Missing and Exploited Children (NCMEC) i USA og C3P," sier SIO sa.

LAION-5B ble brukt til å trene den populære AI-bildegeneratoren Stable Diffusion, versjon 1.5 av denne er velkjent i visse hjørner av internett for sin evne til å lage eksplisitte bilder. Selv om det ikke er direkte knyttet til saker som en barnepsykiater bruke AI til å generere pornografiske bilder av mindreårige, er det den slags teknologi som er laget dypfalsk sextortion og andre forbrytelser lettere.

I følge SIO forblir Stable Diffusion 1.5 populær på nettet for å generere eksplisitte bilder etter "utbredt misnøye fra fellesskapet" med utgivelsen av Stable Diffusion 2.0, som la til ekstra filtre for å forhindre at utrygge bilder glir inn i treningsdatasettet.

Det er uklart om Stability AI, som utviklet Stable Diffusion, visste om tilstedeværelsen av potensiell CSAM i modellene sine på grunn av bruken av LAION-5B; selskapet svarte ikke på spørsmålene våre.

Oops, de gjorde det igjen

Selv om det er første gang den tyske non-profit LAIONs AI-treningsdata har blitt anklaget for å inneholde barneporno, har organisasjonen tatt feil for å inkludere tvilsomt innhold i treningsdataene sine tidligere.

Google, som brukte en LAION-2B-forgjenger kjent som LAION-400M for å trene sin Imagen AI-generator, bestemte seg for å aldri gi ut verktøyet på grunn av flere bekymringer, inkludert om LAION-treningsdataene hadde hjulpet den med å bygge en partisk og problematisk modell.

Ifølge Imagen-teamet, viste generatoren «en overordnet skjevhet mot å generere bilder av mennesker med lysere hudtoner og … fremstille forskjellige yrker for å tilpasse seg vestlige kjønnsstereotyper». Å modellere andre ting enn mennesker forbedret ikke situasjonen, og fikk Imagen til å "kode en rekke sosiale og kulturelle skjevheter når de genererer bilder av aktiviteter, hendelser og objekter."

En revisjon av LAION-400M selv "avdekket et bredt spekter av upassende innhold, inkludert pornografiske bilder, rasistiske utsagn og skadelige sosiale stereotyper."

Noen måneder etter at Google bestemte seg for å gi Imagen offentlig, en artist fikk øye på medisinske bilder fra en operasjon hun gjennomgikk i 2013 i LAION-5B, som hun aldri ga tillatelse til å inkludere.

LAION svarte ikke på spørsmålene våre om saken, men grunnlegger Christoph Schuhmann fortalte Bloomberg tidligere i år at han var uvitende av enhver CSAM som er tilstede i LAION-5B, samtidig som han innrømmet at "han ikke gjennomgikk dataene i stor dybde."

Tilfeldigvis eller ikke – SIO-studien er ikke nevnt – valgte LAION i går å introdusere planlegger "vanlige vedlikeholdsprosedyrer", som begynner umiddelbart, for å fjerne "lenker i LAION-datasett som fortsatt peker til mistenkelig, potensielt ulovlig innhold på offentlig internett."

"LAION har en nulltoleranse for ulovlig innhold," sa selskapet. "De offentlige datasettene vil bli midlertidig fjernet, for å komme tilbake etter oppdateringsfiltrering." LAION planlegger å returnere datasettene sine til offentligheten i andre halvdel av januar. ®

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/

Tidstempel: Desember 20, 2023

Tidstempel: Kan 11, 2023

Publisert av Platon

Nvidia lokker autonom bilsjef fra Kinas Baidu

Google klarer ikke å få urettmessig oppsigelsessøksmål kastet ut

Musk saksøker OpenAI, sier at det ikke er noe "åpent" med det

OpenAI legger til stemme til sin chatbot for ikke-betalende brukere

IBM Software gir mandat til å returnere til kontoret for de som er innenfor 80 km

Fujitsu Japan tar i bruk Oracles Alloy-tjenesteleverandørsky

Hyundai velger Palantir for å hjelpe den med å bygge automatiserte marineskip

Google Bard har nå tilgang til Gmail, Dokumenter og mer

Ignorer hypen: Mens mange hevder å bruke AI, er det bare noen få som gjør det

Åpen kildekode AI gjør moderne PC-er relevante, og abonnementene virker dårlige

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn