È stato scoperto che un enorme set di dati pubblici utilizzato come dati di addestramento per i più diffusi generatori di immagini IA, tra cui Stable Diffusion, contiene migliaia di casi di materiale pedopornografico (CSAM).
In un studio pubblicato oggi, lo Stanford Internet Observatory (SIO) ha affermato di aver analizzato oltre 32 milioni di punti dati nel set di dati LAION-5B ed è stato in grado di convalidare, utilizzando lo strumento PhotoDNA sviluppato da Microsoft, 1,008 immagini CSAM, alcune incluse più volte. Quel numero è probabilmente “una significativa sottostima”, hanno affermato i ricercatori nel loro articolo.
LAION-5B non include le immagini stesse, ma è invece una raccolta di metadati che include un hash dell'identificatore dell'immagine, una descrizione, dati sulla lingua, se potrebbe non essere sicura e un URL che punta all'immagine. Alcune delle foto CSAM trovate collegate in LAION-5B sono state trovate ospitate su siti Web come Reddit, Twitter, Blogspot e WordPress, nonché su siti Web per adulti come XHamster e XVideos.
Per trovare immagini nel set di dati che valesse la pena testare, SIO si è concentrato sulle immagini contrassegnate dal classificatore di sicurezza LAION come “non sicure”. Tali immagini sono state scansionate con PhotoDNA per rilevare materiale pedopornografico e le corrispondenze sono state inviate al Centro canadese per la protezione dell'infanzia (C3P) per essere verificate.
"La rimozione del materiale originale identificato è attualmente in corso poiché i ricercatori hanno segnalato gli URL delle immagini al Centro nazionale per i bambini scomparsi e sfruttati (NCMEC) negli Stati Uniti e al C3P", ha affermato il SIO. disse.
LAION-5B è stato utilizzato per addestrare il popolare generatore di immagini AI Stable Diffusion, la cui versione 1.5 è ben nota in alcuni angoli di Internet per la sua capacità di creare immagini esplicite. Pur non essendo direttamente collegato a casi come quello di uno psichiatra infantile utilizzando l’intelligenza artificiale per generare immagini pornografiche dei minori, è quel tipo di tecnologia che viene creata sestorsione profonda e altri crimini più facili.
Secondo il SIO, Stable Diffusion 1.5 rimane popolare online per la generazione di foto esplicite dopo la "diffusa insoddisfazione da parte della comunità" con il rilascio di Stable Diffusion 2.0, che ha aggiunto filtri aggiuntivi per impedire che immagini non sicure entrino nel set di dati di addestramento.
Non è chiaro se Stability AI, che ha sviluppato Stable Diffusion, fosse a conoscenza della presenza di potenziali CSAM nei suoi modelli a causa dell’uso di LAION-5B; l’azienda non ha risposto alle nostre domande.
Oops, l'hanno fatto di nuovo
Anche se è la prima volta che i dati di formazione sull’intelligenza artificiale dell’organizzazione no-profit tedesca LAION vengono accusati di ospitare pornografia infantile, l’organizzazione è già stata criticata per aver incluso contenuti discutibili nei suoi dati di formazione.
Google, che utilizzava un predecessore LAION-2B noto come LAION-400M per addestrare il suo generatore Imagen AI, ha deciso di non rilasciare mai lo strumento a causa di diverse preoccupazioni, tra cui se i dati di addestramento LAION lo avessero aiutato a costruire un modello parziale e problematico.
Secondo il team Imagen, il generatore ha mostrato "una tendenza generale verso la generazione di immagini di persone con tonalità della pelle più chiare e... che ritraggono diverse professioni per allinearsi agli stereotipi di genere occidentali". Modellare cose diverse dagli esseri umani non ha migliorato la situazione, costringendo Imagen a “codificare una serie di pregiudizi sociali e culturali durante la generazione di immagini di attività, eventi e oggetti”.
Un audit dello stesso LAION-400M “ha scoperto un’ampia gamma di contenuti inappropriati, tra cui immagini pornografiche, insulti razzisti e stereotipi sociali dannosi”.
Pochi mesi dopo che Google ha deciso di rinunciare a rendere pubblica Imagen, un'artista maculato immagini mediche di un intervento chirurgico subito nel 2013 presenti in LAION-5B, che non ha mai dato il permesso di includere.
LAION non ha risposto alle nostre domande sull’argomento, ma all’inizio di quest’anno il fondatore Christoph Schuhmann aveva detto a Bloomberg di essere inconsapevole di qualsiasi CSAM presente nel LAION-5B, pur ammettendo anche di "non aver esaminato i dati in modo molto approfondito".
Casualmente o no – lo studio SIO non viene menzionato – ieri la LAION ha scelto di farlo introdurre prevede “procedure di manutenzione regolare”, a partire da subito, per rimuovere “i collegamenti nei set di dati LAION che puntano ancora a contenuti sospetti e potenzialmente illegali su Internet pubblico”.
"LAION ha una politica di tolleranza zero per i contenuti illegali", ha affermato la società. "I set di dati pubblici verranno temporaneamente rimossi, per tornare indietro dopo il filtraggio degli aggiornamenti." La LAION prevede di restituire al pubblico i propri dati nella seconda metà di gennaio. ®
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :ha
- :È
- :non
- 1
- 2013
- 32
- 7
- a
- capacità
- capace
- WRI
- abuso
- accusato
- attività
- aggiunto
- aggiuntivo
- Adulto
- Dopo shavasana, sedersi in silenzio; saluti;
- AI
- Addestramento AI
- allineare
- anche
- an
- ed
- in qualsiasi
- artista
- AS
- revisione
- precedente
- BE
- stato
- prima
- Inizio
- pregiudizio
- parziale
- pregiudizi
- Bloomberg
- costruire
- ma
- by
- canadese
- casi
- catturati
- causando
- centro
- centro
- certo
- bambino
- Tutela dei minori
- Bambini
- ha scelto
- CO
- collezione
- comunità
- azienda
- preoccupazioni
- contenere
- contenuto
- angoli
- creare
- crimini
- la cultura della
- Attualmente
- dati
- punti dati
- dataset
- deciso
- profondità
- descrizione
- individuare
- sviluppato
- DID
- didn
- diverso
- Emittente
- direttamente
- doesn
- giù
- dovuto
- In precedenza
- più facile
- eventi
- Exploited
- pochi
- filtraggio
- filtri
- Trovate
- Nome
- prima volta
- concentrato
- Nel
- essere trovato
- fondatore
- da
- ha dato
- Sesso
- generare
- la generazione di
- generatore
- Generatori
- Tedesco
- grande
- ha avuto
- Metà
- dannoso
- hash
- he
- aiutato
- ospitato
- HTTPS
- Gli esseri umani
- identificato
- identificatore
- if
- Illegale
- Immagine
- immagini
- subito
- competenze
- in
- includere
- incluso
- Compreso
- invece
- Internet
- ai miglioramenti
- ISN
- IT
- SUO
- stessa
- Gennaio
- jpg
- conosciuto
- Lingua
- grandi
- accendino
- piace
- probabile
- connesso
- Collegamento
- fatto
- manutenzione
- Fare
- massiccio
- fiammiferi
- materiale
- Importanza
- Maggio..
- medicale
- menzionato
- Metadati
- milione
- mancante
- modello
- modellismo
- modelli
- mese
- Scopri di più
- multiplo
- il
- mai
- senza scopo di lucro
- numero
- oggetti
- osservatorio
- of
- on
- online
- or
- organizzazione
- Altro
- nostro
- ancora
- complessivo
- Carta
- passare
- Persone
- autorizzazione
- Foto
- piani
- Platone
- Platone Data Intelligence
- PlatoneDati
- punto
- punti
- politica
- Popolare
- potenziale
- potenzialmente
- predecessore
- presenza
- presenti
- prevenire
- problematico
- procedure
- Progressi
- protezione
- la percezione
- pubblicato
- Domande
- razzista
- gamma
- Basic
- rilasciare
- resti
- rimozione
- rimuovere
- Segnalati
- ricercatori
- Rispondere
- ritorno
- recensioni
- s
- Sicurezza
- Suddetto
- Secondo
- inviato
- servito
- alcuni
- Sessuale
- lei
- ha mostrato
- significativa
- situazione
- Pelle
- slittamento
- Social
- alcuni
- Fonte
- Stabilità
- stabile
- stanford
- Ancora
- Studio
- Chirurgia
- sospettoso
- preso
- Tech
- dire
- Testing
- di
- che
- Il
- loro
- si
- di
- cose
- questo
- quest'anno
- quelli
- migliaia
- tempo
- volte
- a
- oggi
- tolleranza
- verso
- Treni
- Training
- scoperto
- sottoposti
- illegale
- Aggiornanento
- URL
- us
- uso
- utilizzato
- utilizzando
- CONVALIDARE
- verificato
- versione
- Prima
- siti web
- WELL
- sono stati
- Occidentale
- quando
- se
- quale
- while
- largo
- Vasta gamma
- molto diffuso
- volere
- con
- WordPress
- valore
- anno
- ieri
- zefiro
- zero