S-a descoperit că un set masiv de date publice care a servit drept date de instruire pentru generatoarele populare de imagini AI, inclusiv Stable Diffusion, conține mii de cazuri de material de abuz sexual asupra copiilor (CSAM).
Într-o studiu publicat astăzi, Stanford Internet Observatory (SIO) a declarat că a analizat peste 32 de milioane de puncte de date din setul de date LAION-5B și că a putut valida, folosind instrumentul PhotoDNA dezvoltat de Microsoft, 1,008 imagini CSAM – unele incluse de mai multe ori. Acest număr este probabil „o subnumărătoare semnificativă”, au spus cercetătorii în lucrarea lor.
LAION-5B nu include imaginile în sine și este, în schimb, o colecție de metadate, inclusiv un hash al identificatorului imaginii, o descriere, date despre limbă, dacă poate fi nesigură și o adresă URL care indică imaginea. Un număr de fotografii CSAM găsite legate în LAION-5B au fost găsite găzduite pe site-uri web precum Reddit, Twitter, Blogspot și WordPress, precum și pe site-uri web pentru adulți precum XHamster și XVideos.
Pentru a găsi imagini în setul de date care merită testate, SIO sa concentrat pe imaginile etichetate de clasificatorul de siguranță al LAION drept „nesigure”. Imaginile respective au fost scanate cu PhotoDNA pentru a detecta CSAM, iar potrivirile au fost trimise Centrului Canadian pentru Protecția Copilului (C3P) pentru a fi verificate.
„Înlăturarea materialului sursă identificat este în curs de desfășurare, deoarece cercetătorii au raportat URL-urile imaginilor către Centrul Național pentru Copii Dispăruți și Exploați (NCMEC) din SUA și C3P”, SIO. a spus.
LAION-5B a fost folosit pentru a antrena popularul generator de imagini AI Stable Diffusion, a cărui versiune 1.5 este binecunoscută în anumite colțuri ale internetului pentru capacitatea sa de a crea imagini explicite. Deși nu este direct legat de cazuri precum un psihiatru de copii folosind AI pentru a genera imagini pornografice a minorilor, este acel tip de tehnologie creat sextorsionare deepfake si alte crime mai usoare.
Potrivit SIO, Stable Diffusion 1.5 rămâne popular online pentru generarea de fotografii explicite după „nemulțumirea larg răspândită din partea comunității” cu lansarea Stable Diffusion 2.0, care a adăugat filtre suplimentare pentru a preveni alunecarea imaginilor nesigure în setul de date de antrenament.
Nu este clar dacă Stability AI, care a dezvoltat Stable Diffusion, știa despre prezența potențialului CSAM în modelele sale datorită utilizării LAION-5B; compania nu a răspuns la întrebările noastre.
Hopa, au făcut-o din nou
Deși este pentru prima dată când datele de formare AI ale organizației germane non-profit LAION sunt acuzate că adăpostesc pornografie infantilă, organizația a fost criticată pentru că a inclus conținut îndoielnic în datele sale de formare.
Google, care a folosit un predecesor LAION-2B cunoscut sub numele de LAION-400M pentru a-și antrena generatorul Imagen AI, a decis să nu lanseze niciodată instrumentul din cauza mai multor preocupări, inclusiv dacă datele de instruire LAION l-au ajutat să construiască un model părtinitor și problematic.
Potrivit echipei Imagen, generatorul a arătat „o prejudecată generală către generarea de imagini cu persoane cu tonuri mai deschise ale pielii și... prezentând diferite profesii pentru a se alinia stereotipurilor de gen occidentale”. Modelarea altor lucruri decât oamenii nu a îmbunătățit situația, determinând Imagen să „codeze o serie de părtiniri sociale și culturale atunci când generează imagini cu activități, evenimente și obiecte”.
Un audit al LAION-400M în sine „a descoperit o gamă largă de conținut neadecvat, inclusiv imagini pornografice, insulte rasiste și stereotipuri sociale dăunătoare”.
La câteva luni după ce Google a decis să treacă mai departe să facă publică Imagen, artist pestriţ imagini medicale de la o intervenție chirurgicală pe care a suferit-o în 2013 prezente în LAION-5B, pe care nu și-a dat niciodată permisiunea să o includă.
LAION nu a răspuns la întrebările noastre cu privire la această problemă, dar fondatorul Christoph Schuhmann a spus Bloomberg la începutul acestui an că este inconstient a oricărui CSAM prezent în LAION-5B, recunoscând totodată că „nu a analizat datele în profunzime”.
Coincidență sau nu – studiul SIO nu este menționat – LAION a ales ieri să introduce planuri pentru „proceduri regulate de întreținere”, care încep imediat, pentru a elimina „legăturile din seturile de date LAION care indică în continuare conținut suspect, potențial ilegal pe internetul public”.
„LAION are o politică de toleranță zero pentru conținutul ilegal”, a spus compania. „Seturile de date publice vor fi eliminate temporar, pentru a reveni înapoi după filtrarea actualizării.” LAION intenționează să-și returneze seturile de date publicului în a doua jumătate a lunii ianuarie. ®
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
- Sursa: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :are
- :este
- :nu
- 1
- 2013
- 32
- 7
- a
- capacitate
- Capabil
- Despre Noi
- abuz
- acuzat
- activităţi de
- adăugat
- Suplimentar
- Adult
- După
- AI
- Instruire AI
- alinia
- de asemenea
- an
- și
- Orice
- artist
- AS
- de audit
- înapoi
- BE
- fost
- înainte
- Început
- părtinire
- părtinitor
- distorsiunilor
- Bloomberg
- construi
- dar
- by
- canadian
- cazuri
- prins
- provocând
- Centru
- centru
- sigur
- copil
- protecția copilului
- Copii
- a ales
- CO
- colectare
- comunitate
- companie
- preocupările
- conţine
- conţinut
- colțuri
- crea
- infracțiuni
- cultural
- În prezent
- de date
- puncte de date
- seturi de date
- hotărât
- adâncime
- descriere
- detecta
- dezvoltat
- FĂCUT
- nu
- diferit
- difuziune
- direct
- nu
- jos
- două
- Mai devreme
- mai ușor
- evenimente
- exploatat
- puțini
- filtrare
- Filtre
- Găsi
- First
- prima dată
- concentrat
- Pentru
- găsit
- fondator
- din
- a dat
- Gen
- genera
- generator
- generator
- Generatoare
- Germană
- mare
- HAD
- Jumătate
- nociv
- hașiș
- he
- a ajutat
- găzduit
- HTTPS
- Oamenii
- identificat
- identificator
- if
- Ilegal
- imagine
- imagini
- imediat
- îmbunătăţi
- in
- include
- inclus
- Inclusiv
- in schimb
- Internet
- în
- ISN
- IT
- ESTE
- în sine
- ianuarie
- jpg
- cunoscut
- limbă
- mare
- mai usoara
- ca
- Probabil
- legate de
- Link-uri
- făcut
- întreținere
- Efectuarea
- masiv
- meciuri
- material
- materie
- Mai..
- medical
- menționat
- Metadata
- milion
- dispărut
- model
- modelare
- Modele
- luni
- mai mult
- multiplu
- național
- nu
- non-profit
- număr
- obiecte
- observator
- of
- on
- on-line
- or
- organizație
- Altele
- al nostru
- peste
- global
- Hârtie
- trece
- oameni
- permisiune
- Fotografii
- Planurile
- Plato
- Informații despre date Platon
- PlatoData
- Punct
- puncte
- Politica
- Popular
- potenţial
- potenţial
- predecesor
- prezenţă
- prezenta
- împiedica
- problematic
- Proceduri
- Progres
- protecţie
- public
- publicat
- Întrebări
- rasiste
- gamă
- regulat
- eliberaţi
- rămășițe
- îndepărtare
- scoate
- Raportat
- cercetători
- Răspunde
- reveni
- revizuiască
- s
- Siguranţă
- Said
- Al doilea
- trimis
- servit
- câteva
- Sexual
- ea
- a arătat
- semnificativ
- situație
- Piele
- alunecarea
- Social
- unele
- Sursă
- Stabilitate
- stabil
- stanford
- Încă
- Studiu
- Intervenție Chirurgicală
- suspicios
- luate
- tech
- spune
- Testarea
- decât
- acea
- lor
- se
- ei
- lucruri
- acest
- în acest an
- aceste
- mii
- timp
- ori
- la
- astăzi
- toleranță
- instrument
- față de
- Tren
- Pregătire
- stare de nervozitate
- neacoperit
- a suferit
- ilegal
- Actualizează
- URL-ul
- us
- utilizare
- utilizat
- folosind
- VALIDA
- verificat
- versiune
- a fost
- site-uri web
- BINE
- au fost
- Vestic
- cand
- dacă
- care
- în timp ce
- larg
- Gamă largă
- pe scară largă
- voi
- cu
- WordPress
- valoare
- an
- ieri
- zephyrnet
- zero