Egy hatalmas nyilvános adatkészletről, amely a népszerű mesterséges intelligencia képgenerátorok, köztük a Stable Diffusion képzési adataként szolgált, több ezer példányt tartalmaz a gyermekek szexuális zaklatásával kapcsolatos anyagokról (CSAM).
egy tanulmány A ma közzétett Stanford Internet Observatory (SIO) szerint a LAION-32B adatkészletben több mint 5 millió adatpontot vett át, és a Microsoft által kifejlesztett PhotoDNA eszközzel 1,008 CSAM-képet tudott validálni – néhányat többször is tartalmazott. Ez a szám valószínűleg „jelentős alulszámlálás” – áll a kutatók közleményében.
A LAION-5B nem tartalmazza magukat a képeket, hanem metaadatok gyűjteménye, beleértve a képazonosító kivonatát, a leírást, a nyelvi adatokat, függetlenül attól, hogy nem biztonságosak, és a képre mutató URL-t. Számos, a LAION-5B-ben talált CSAM-fotóról találtunk olyan webhelyeket, mint a Reddit, a Twitter, a Blogspot és a WordPress, valamint felnőtteknek szóló webhelyeken, mint például az XHamster és az XVideos.
Annak érdekében, hogy az adatkészletben tesztelésre érdemes képeket találjon, a SIO a LAION biztonsági osztályozója által „nem biztonságos” címkével ellátott képekre összpontosított. Ezeket a képeket PhotoDNA-val szkennelték be a CSAM kimutatására, és az egyezéseket elküldték a Kanadai Gyermekvédelmi Központnak (C3P) ellenőrzésre.
„Jelenleg folyamatban van az azonosított forrásanyag eltávolítása, mivel a kutatók jelentették a képek URL-jét az Egyesült Államokban működő National Center for Missing and Exploited Children (NCMEC) és a C3P számára” – írja a SIO. mondott.
A LAION-5B-t a népszerű mesterséges intelligencia képgenerátor Stable Diffusion betanítására használták, amelynek 1.5-ös verziója az internet bizonyos szegleteiben jól ismert explicit képek létrehozására való képességéről. Bár nem kapcsolódik közvetlenül olyan esetekhez, mint egy gyermekpszichiáter AI használata pornográf képek előállítására kiskorúak esetében ez a fajta technológia készült mély hamis szextorzió és más bűncselekmények könnyebben.
A SIO szerint a Stable Diffusion 1.5 továbbra is népszerű az interneten explicit fotók készítésében, miután a Stable Diffusion 2.0 kiadásával „széles körben elterjedt a közösség elégedetlensége”, amely további szűrőket adott hozzá, hogy megakadályozza a nem biztonságos képek becsúszását a képzési adatkészletbe.
Nem világos, hogy a Stable Diffusiont kifejlesztő Stability AI tudott-e a lehetséges CSAM jelenlétéről a modellekben a LAION-5B használata miatt; a cég nem válaszolt kérdéseinkre.
Hoppá, megint megcsinálták
Noha ez az első alkalom, hogy a német non-profit LAION mesterséges intelligencia képzési adatait gyermekpornót rejtőzve vádolják meg, a szervezetet elkapták, mert korábban megkérdőjelezhető tartalmat is szerepeltetett képzési adataiban.
A Google, amely a LAION-2M néven ismert LAION-400B elődjét használta Imagen AI-generátorának betanításához, úgy döntött, hogy soha nem adja ki az eszközt, mert több aggálya is felmerült, beleértve azt is, hogy a LAION képzési adatai segítettek-e egy elfogult és problémás modell felépítésében.
Az Imagen csapata szerint, a generátor „általános elfogultságot mutatott a világosabb bőrtónusú emberekről alkotott képek létrehozása és… különböző szakmák ábrázolása felé a nyugati nemi sztereotípiákhoz igazodva”. Az embereken kívüli dolgok modellezése nem javított a helyzeten, így az Imagen „egy sor társadalmi és kulturális torzítást kódol, amikor képeket hoz létre a tevékenységekről, eseményekről és tárgyakról”.
A LAION-400M ellenőrzése „a nem megfelelő tartalom széles skáláját tárta fel, beleértve a pornográf képeket, rasszista rágalmakat és káros társadalmi sztereotípiákat”.
Néhány hónappal azután, hogy a Google úgy döntött, hogy nyilvánosságra hozza Imagent, egy művészt foltos a LAION-2013B-ben egy 5-ban átesett műtétről készült orvosi képek, amelyeket soha nem adott engedélyt.
A LAION nem válaszolt az üggyel kapcsolatos kérdéseinkre, de az alapító Christoph Schuhmann az év elején azt mondta a Bloombergnek, hogy tudatában a LAION-5B-ben jelenlévő CSAM-okról, ugyanakkor elismerte, hogy „nem vizsgálta át alaposan az adatokat”.
Véletlenül vagy nem – a SIO tanulmányát nem említik – a LAION tegnap ezt választotta bevezet „rendszeres karbantartási eljárások” tervei azonnali kezdéssel, hogy eltávolítsák „a LAION adatkészleteiben lévő linkeket, amelyek továbbra is gyanús, potenciálisan jogellenes tartalomra mutatnak a nyilvános interneten”.
„A LAION zéró toleranciát alkalmaz az illegális tartalommal szemben” – mondta a vállalat. "A nyilvános adatkészleteket ideiglenesen eltávolítjuk, hogy a frissítési szűrés után visszatérjenek." A LAION azt tervezi, hogy január második felében adja vissza adatkészleteit a nyilvánosság számára. ®
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :van
- :is
- :nem
- 1
- 2013
- 32
- 7
- a
- képesség
- Képes
- Rólunk
- visszaélés
- vádlott
- tevékenységek
- hozzáadott
- További
- Felnőtt
- Után
- AI
- AI képzés
- összehangolása
- Is
- an
- és a
- bármilyen
- művész
- AS
- könyvvizsgálat
- vissza
- BE
- óta
- előtt
- Kezdet
- előítélet
- elfogult
- torzítások
- Bloomberg
- épít
- de
- by
- Kanadai
- esetek
- elkapott
- okozó
- Központ
- központ
- bizonyos
- gyermek
- Gyermekvédelem
- Gyerekek
- választotta
- CO
- gyűjtemény
- közösség
- vállalat
- aggodalmak
- tartalmaz
- tartalom
- sarkok
- teremt
- Crimes
- kulturális
- Jelenleg
- dátum
- adat pontok
- adatkészletek
- határozott
- mélység
- leírás
- kimutatására
- fejlett
- DID
- nem
- különböző
- Diffusion
- közvetlenül
- nem
- le-
- két
- Korábban
- könnyebb
- események
- Hasznosított
- kevés
- szűrő
- Szűrők
- Találjon
- vezetéknév
- első
- összpontosított
- A
- talált
- alapító
- ból ből
- adott
- nem
- generál
- generáló
- generátor
- generátorok
- Német
- nagy
- kellett
- fél
- káros
- hash
- he
- segített
- házigazdája
- HTTPS
- Az emberek
- azonosított
- azonosító
- if
- Illegális
- kép
- képek
- azonnal
- javul
- in
- tartalmaz
- beleértve
- Beleértve
- helyette
- Internet
- bele
- Hát
- IT
- ITS
- maga
- január
- jpg
- ismert
- nyelv
- nagy
- öngyújtó
- mint
- Valószínű
- összekapcsolt
- linkek
- készült
- karbantartás
- Gyártás
- tömeges
- gyufa
- anyag
- Anyag
- Lehet..
- orvosi
- említett
- Metaadatok
- millió
- hiányzó
- modell
- modellezés
- modellek
- hónap
- több
- többszörös
- nemzeti
- soha
- non-profit
- szám
- objektumok
- csillagvizsgáló
- of
- on
- online
- or
- szervezet
- Más
- mi
- felett
- átfogó
- Papír
- elhalad
- Emberek (People)
- engedély
- képek
- tervek
- Plató
- Platón adatintelligencia
- PlatoData
- pont
- pont
- politika
- Népszerű
- potenciális
- potenciálisan
- előző
- jelenlét
- be
- megakadályozása
- problematikus
- eljárások
- Haladás
- védelem
- nyilvános
- közzétett
- Kérdések
- rasszista
- hatótávolság
- szabályos
- engedje
- maradványok
- eltávolítás
- eltávolítása
- Számolt
- kutatók
- Reagálni
- visszatérés
- Kritika
- s
- Biztonság
- Mondott
- Második
- küldött
- szolgált
- számos
- Szexuális
- ő
- kimutatta,
- jelentős
- helyzet
- Bőr
- csúszás
- Közösség
- néhány
- forrás
- Stabilitás
- stabil
- Stanford
- Még mindig
- Tanulmány
- Sebészet
- gyanús
- meghozott
- tech
- mondd
- Tesztelés
- mint
- hogy
- A
- azok
- maguk
- ők
- dolgok
- ezt
- idén
- azok
- ezer
- idő
- alkalommal
- nak nek
- Ma
- tolerancia
- szerszám
- felé
- Vonat
- Képzések
- fedetlen
- esett át
- törvénytelen
- Frissítések
- URL
- us
- használ
- használt
- segítségével
- ÉRVÉNYESÍT
- ellenőrzött
- változat
- volt
- honlapok
- JÓL
- voltak
- Nyugati
- amikor
- vajon
- ami
- míg
- széles
- Széleskörű
- széles körben elterjedt
- lesz
- val vel
- WordPress
- érdemes
- év
- tegnap
- zephyrnet
- nulla