CSAM Found In Large AI Image Generator-training Dataset

Újra kiadta Platón

Követő: 0

CSAM found in large AI image generator-training dataset PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Egy hatalmas nyilvános adatkészletről, amely a népszerű mesterséges intelligencia képgenerátorok, köztük a Stable Diffusion képzési adataként szolgált, több ezer példányt tartalmaz a gyermekek szexuális zaklatásával kapcsolatos anyagokról (CSAM).

egy tanulmány A ma közzétett Stanford Internet Observatory (SIO) szerint a LAION-32B adatkészletben több mint 5 millió adatpontot vett át, és a Microsoft által kifejlesztett PhotoDNA eszközzel 1,008 CSAM-képet tudott validálni – néhányat többször is tartalmazott. Ez a szám valószínűleg „jelentős alulszámlálás” – áll a kutatók közleményében.

A LAION-5B nem tartalmazza magukat a képeket, hanem metaadatok gyűjteménye, beleértve a képazonosító kivonatát, a leírást, a nyelvi adatokat, függetlenül attól, hogy nem biztonságosak, és a képre mutató URL-t. Számos, a LAION-5B-ben talált CSAM-fotóról találtunk olyan webhelyeket, mint a Reddit, a Twitter, a Blogspot és a WordPress, valamint felnőtteknek szóló webhelyeken, mint például az XHamster és az XVideos.

Annak érdekében, hogy az adatkészletben tesztelésre érdemes képeket találjon, a SIO a LAION biztonsági osztályozója által „nem biztonságos” címkével ellátott képekre összpontosított. Ezeket a képeket PhotoDNA-val szkennelték be a CSAM kimutatására, és az egyezéseket elküldték a Kanadai Gyermekvédelmi Központnak (C3P) ellenőrzésre.

„Jelenleg folyamatban van az azonosított forrásanyag eltávolítása, mivel a kutatók jelentették a képek URL-jét az Egyesült Államokban működő National Center for Missing and Exploited Children (NCMEC) és a C3P számára” – írja a SIO. mondott.

A LAION-5B-t a népszerű mesterséges intelligencia képgenerátor Stable Diffusion betanítására használták, amelynek 1.5-ös verziója az internet bizonyos szegleteiben jól ismert explicit képek létrehozására való képességéről. Bár nem kapcsolódik közvetlenül olyan esetekhez, mint egy gyermekpszichiáter AI használata pornográf képek előállítására kiskorúak esetében ez a fajta technológia készült mély hamis szextorzió és más bűncselekmények könnyebben.

A SIO szerint a Stable Diffusion 1.5 továbbra is népszerű az interneten explicit fotók készítésében, miután a Stable Diffusion 2.0 kiadásával „széles körben elterjedt a közösség elégedetlensége”, amely további szűrőket adott hozzá, hogy megakadályozza a nem biztonságos képek becsúszását a képzési adatkészletbe.

Nem világos, hogy a Stable Diffusiont kifejlesztő Stability AI tudott-e a lehetséges CSAM jelenlétéről a modellekben a LAION-5B használata miatt; a cég nem válaszolt kérdéseinkre.

Hoppá, megint megcsinálták

Noha ez az első alkalom, hogy a német non-profit LAION mesterséges intelligencia képzési adatait gyermekpornót rejtőzve vádolják meg, a szervezetet elkapták, mert korábban megkérdőjelezhető tartalmat is szerepeltetett képzési adataiban.

A Google, amely a LAION-2M néven ismert LAION-400B elődjét használta Imagen AI-generátorának betanításához, úgy döntött, hogy soha nem adja ki az eszközt, mert több aggálya is felmerült, beleértve azt is, hogy a LAION képzési adatai segítettek-e egy elfogult és problémás modell felépítésében.

Az Imagen csapata szerint, a generátor „általános elfogultságot mutatott a világosabb bőrtónusú emberekről alkotott képek létrehozása és… különböző szakmák ábrázolása felé a nyugati nemi sztereotípiákhoz igazodva”. Az embereken kívüli dolgok modellezése nem javított a helyzeten, így az Imagen „egy sor társadalmi és kulturális torzítást kódol, amikor képeket hoz létre a tevékenységekről, eseményekről és tárgyakról”.

A LAION-400M ellenőrzése „a nem megfelelő tartalom széles skáláját tárta fel, beleértve a pornográf képeket, rasszista rágalmakat és káros társadalmi sztereotípiákat”.

Néhány hónappal azután, hogy a Google úgy döntött, hogy nyilvánosságra hozza Imagent, egy művészt foltos a LAION-2013B-ben egy 5-ban átesett műtétről készült orvosi képek, amelyeket soha nem adott engedélyt.

A LAION nem válaszolt az üggyel kapcsolatos kérdéseinkre, de az alapító Christoph Schuhmann az év elején azt mondta a Bloombergnek, hogy tudatában a LAION-5B-ben jelenlévő CSAM-okról, ugyanakkor elismerte, hogy „nem vizsgálta át alaposan az adatokat”.

Véletlenül vagy nem – a SIO tanulmányát nem említik – a LAION tegnap ezt választotta bevezet „rendszeres karbantartási eljárások” tervei azonnali kezdéssel, hogy eltávolítsák „a LAION adatkészleteiben lévő linkeket, amelyek továbbra is gyanús, potenciálisan jogellenes tartalomra mutatnak a nyilvános interneten”.

„A LAION zéró toleranciát alkalmaz az illegális tartalommal szemben” – mondta a vállalat. "A nyilvános adatkészleteket ideiglenesen eltávolítjuk, hogy a frissítési szűrés után visszatérjenek." A LAION azt tervezi, hogy január második felében adja vissza adatkészleteit a nyilvánosság számára. ®

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/

Időbélyeg: December 20, 2023

Időbélyeg: 21. augusztus 2023.

Újra kiadta Platón

A Google Bard mostantól hozzáférhet a Gmailhez, a Dokumentumokhoz és egyebekhez

Az AI legmeggyőzőbb beszélgetései nem azok, aminek látszanak

A stanfordi akadémikusok Street View-to-location AI-t fejlesztenek

Japán miniszterelnök: az év végére megérkeznek a nemzetközi mesterségesintelligencia-szabályok

A mesterséges intelligencia dezinformációja rendkívül fontos, de nehéz megsemmisíteni

Egy ember harca az AI-feltalálók szabadalmi jogainak megszerzéséért Amerikában véget érhet

Ha a mesterséges intelligencia az embereket a kihalásba viszi, az a mi hibánk lesz

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók