Massiivisen julkisen tietojoukon, joka toimi opetustietona suosituille tekoälykuvageneraattoreille, mukaan lukien Stable Diffusion, on havaittu sisältävän tuhansia tapauksia lasten seksuaalisesta hyväksikäytöstä (CSAM).
Jonkin sisällä opiskella Tänään julkaistu Stanford Internet Observatory (SIO) kertoi ylittävänsä yli 32 miljoonaa datapistettä LAION-5B-tietojoukossa ja pystynyt validoimaan Microsoftin kehittämän PhotoDNA-työkalun avulla 1,008 XNUMX CSAM-kuvaa – joista osa sisältyi useita kertoja. Tämä luku on todennäköisesti "merkittävä alimäärä", tutkijat sanoivat artikkelissaan.
LAION-5B ei sisällä itse kuvia, vaan se on kokoelma metatietoja, mukaan lukien kuvan tunnisteen hajautus, kuvaus, kielitiedot, ovatko ne turvallisia, ja kuvaan osoittava URL-osoite. Useita LAION-5B:ssä linkitetyistä CSAM-kuvista löydettiin isännöityjä verkkosivustoja, kuten Reddit, Twitter, Blogspot ja WordPress, sekä aikuisille tarkoitettuja verkkosivustoja, kuten XHamster ja XVideos.
Löytääkseen testaamisen arvoisia kuvia aineistosta SIO keskittyi kuviin, jotka LAIONin turvallisuusluokituksessa on merkitty "vaarallisiksi". Nämä kuvat skannattiin PhotoDNA:lla CSAM:n havaitsemiseksi, ja osumat lähetettiin Kanadan lastensuojelukeskukseen (C3P) tarkistettavaksi.
"Tunnetun lähdemateriaalin poistaminen on parhaillaan käynnissä, kun tutkijat ilmoittivat kuvien URL-osoitteet National Center for Missing and Exploited Childrenille (NCMEC) Yhdysvalloissa ja C3P:lle", SIO sanoi.
LAION-5B:tä käytettiin suositun tekoälykuvageneraattorin Stable Diffusion koulutukseen, jonka versio 1.5 tunnetaan hyvin tietyissä Internetin osissa kyvystään luoda selkeitä kuvia. Vaikka se ei liity suoraan tapauksiin, kuten lastenpsykiatri käyttää tekoälyä pornografisten kuvien luomiseen alaikäisten osalta se on sellaista tekniikkaa, joka on tehty syvää valehtelua ja muut rikokset helpommin.
SIO:n mukaan Stable Diffusion 1.5 on edelleen suosittu verkossa loukkaavien valokuvien tuottamisessa sen jälkeen, kun "yhteisö on ollut laajalti tyytymätön" Stable Diffusion 2.0:n julkaisuun, joka lisäsi ylimääräisiä suodattimia estämään vaarallisten kuvien liukumisen harjoitustietojoukkoon.
On epäselvää, tiesikö Stable Diffusionin kehittänyt Stability AI mahdollisista CSAM:ista malleissaan LAION-5B:n käytön vuoksi; yritys ei vastannut kysymyksiimme.
Hups, he tekivät sen taas
Vaikka tämä on ensimmäinen kerta, kun saksalaisen voittoa tavoittelemattoman LAIONin AI-koulutustietoja syytetään lapsipornon kätkemisestä, järjestö on saanut haltuunsa kyseenalaisen sisällön sisällyttämisestä koulutustietoihinsa aiemmin.
Google, joka käytti LAION-2B:n edeltäjää, joka tunnetaan nimellä LAION-400M kouluttaakseen Imagen AI -generaattoriaan, päätti olla julkaisematta työkalua useiden huolenaiheiden vuoksi, mukaan lukien se, olivatko LAION-harjoitustiedot auttaneet sitä rakentamaan puolueellisen ja ongelmallisen mallin.
Imagen-tiimin mukaan, generaattori osoitti "yleistä ennakkoluulottomuutta kohti kuvien luomista ihmisistä, joilla on vaaleampi iho ja … eri ammattien esittäminen länsimaisten sukupuolistereotypioiden mukaisesti." Muiden asioiden kuin ihmisten mallintaminen ei parantanut tilannetta, vaan sai Imagenin "koodaamaan erilaisia sosiaalisia ja kulttuurisia ennakkoluuloja luodessaan kuvia toiminnoista, tapahtumista ja esineistä".
Itse LAION-400M:n tarkastuksessa "paljastettiin laaja valikoima sopimatonta sisältöä, mukaan lukien pornografiset kuvat, rasistiset herjaukset ja haitalliset sosiaaliset stereotypiat".
Muutama kuukausi sen jälkeen, kun Google päätti siirtää Imagenin julkiseksi taiteilijaksi täplikäs LAION-2013B:ssä oli lääketieteellisiä kuvia leikkauksesta, jonka hän kävi vuonna 5, eikä hän koskaan antanut lupaa sisällyttää niitä.
LAION ei vastannut asiaa koskeviin kysymyksiimme, mutta perustaja Christoph Schuhmann kertoi Bloombergille aiemmin tänä vuonna, että hän oli tietämätön kaikista LAION-5B:ssä olevista CSAM:ista, mutta myönsi samalla, että "hän ei käynyt läpi tietoja kovin perusteellisesti".
Sattumalta tai ei – SIO:n tutkimusta ei mainita – LAION valitsi eilen niin esitellä suunnitelmat "säännöllisistä huoltotoimenpiteistä", jotka alkavat välittömästi, poistamaan "LAION-tietosarjoista linkit, jotka edelleen osoittavat epäilyttävään, mahdollisesti laittomaan sisältöön julkisessa Internetissä".
"LAIONilla on nollatoleranssi laittoman sisällön suhteen", yhtiö sanoi. "Julkiset tietojoukot poistetaan väliaikaisesti, jotta ne palautetaan päivityssuodatuksen jälkeen." LAION aikoo palauttaa tietoaineistonsa yleisölle tammikuun toisella puoliskolla. ®
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :on
- :On
- :ei
- 1
- 2013
- 32
- 7
- a
- kyky
- pystyy
- Meistä
- hyväksikäyttö
- syytetty
- toiminta
- lisä-
- lisä-
- Aikuinen
- Jälkeen
- AI
- AI-koulutus
- kohdista
- Myös
- an
- ja
- Kaikki
- taiteilija
- AS
- tilintarkastus
- takaisin
- BE
- ollut
- ennen
- Alku
- puolueellisuus
- puolueellinen
- harhat
- Bloomberg
- rakentaa
- mutta
- by
- kanadalainen
- tapauksissa
- kiinni
- aiheuttaen
- keskus
- keskus
- tietty
- lapsi
- Lastensuojelu
- Lapset
- valitsi
- CO
- kokoelma
- yhteisö
- yritys
- huolenaiheet
- sisältää
- pitoisuus
- kulmat
- luoda
- rikokset
- kulttuurinen
- Tällä hetkellä
- tiedot
- datapisteet
- aineistot
- päätti
- syvyys
- kuvaus
- havaita
- kehitetty
- DID
- ei tehnyt
- eri
- Diffuusio
- suoraan
- doesnt
- alas
- kaksi
- Aikaisemmin
- helpompaa
- Tapahtumat
- hyödynnetään
- harvat
- suodatus
- suodattimet
- Löytää
- Etunimi
- ensimmäistä kertaa
- keskityttiin
- varten
- löytyi
- perustaja
- alkaen
- antoi
- Sukupuoli
- tuottaa
- tuottaa
- generaattori
- generaattorit
- Saksan
- suuri
- HAD
- Puoli
- haitallinen
- hasis
- he
- auttanut
- isännöi
- HTTPS
- Ihmiset
- tunnistettu
- tunniste
- if
- laiton
- kuva
- kuvien
- heti
- parantaa
- in
- sisältää
- mukana
- Mukaan lukien
- sen sijaan
- Internet
- tulee
- ISN
- IT
- SEN
- itse
- tammikuu
- jpg
- tunnettu
- Kieli
- suuri
- sytytin
- pitää
- Todennäköisesti
- liittyvät
- linkit
- tehty
- huolto
- Tekeminen
- massiivinen
- tulitikut
- materiaali
- asia
- Saattaa..
- lääketieteellinen
- mainitsi
- Metadata
- miljoona
- puuttuva
- malli
- mallintaminen
- mallit
- kk
- lisää
- moninkertainen
- kansallinen
- ei ikinä
- voittoa tavoittelematon
- numero
- esineet
- observatorio
- of
- on
- verkossa
- or
- organisaatio
- Muut
- meidän
- yli
- yleinen
- Paperi
- kulkea
- Ihmiset
- lupa
- Valokuvat
- suunnitelmat
- Platon
- Platonin tietotieto
- PlatonData
- Kohta
- pistettä
- politiikka
- Suosittu
- mahdollinen
- mahdollisesti
- edeltäjä
- läsnäolo
- esittää
- estää
- ongelmallinen
- menettelyt
- Edistyminen
- suojaus
- julkinen
- julkaistu
- kysymykset
- rasistinen
- alue
- säännöllinen
- vapauta
- jäännökset
- poistaminen
- poistaa
- raportoitu
- Tutkijat
- Vastata
- palata
- arviot
- s
- Turvallisuus
- Said
- Toinen
- lähetetty
- palveli
- useat
- Seksuaalinen
- hän
- osoittivat
- merkittävä
- tilanne
- iho
- liukastumisen
- sosiaalinen
- jonkin verran
- lähde
- Pysyvyys
- vakaa
- Stanford
- Yhä
- tutkimus
- Leikkaus
- epäilyttävä
- otettava
- teknologia
- kertoa
- Testaus
- kuin
- että
- -
- heidän
- itse
- ne
- asiat
- tätä
- Tämä vuosi
- ne
- tuhansia
- aika
- kertaa
- että
- tänään
- toleranssi
- työkalu
- kohti
- Juna
- koulutus
- viserrys
- kattamaton
- koki
- laiton
- Päivitykset
- URL
- us
- käyttää
- käytetty
- käyttämällä
- VAHVISTA
- todennettu
- versio
- oli
- sivustot
- HYVIN
- olivat
- western
- kun
- onko
- joka
- vaikka
- leveä
- Laaja valikoima
- laajalle levinnyt
- tulee
- with
- WordPress
- arvoinen
- vuosi
- eilen
- zephyrnet
- nolla-