Stwierdzono, że ogromny publiczny zbiór danych, który służył jako dane szkoleniowe dla popularnych generatorów obrazów AI, w tym Stable Diffusion, zawiera tysiące przypadków materiałów przedstawiających wykorzystywanie seksualne dzieci (CSAM).
W „The Puzzle of Monogamous Marriage” opublikowane dzisiaj Stanford Internet Observatory (SIO) stwierdziło, że przejrzało ponad 32 miliony punktów danych w zbiorze danych LAION-5B i było w stanie zweryfikować, za pomocą opracowanego przez Microsoft narzędzia PhotoDNA, 1,008 obrazów CSAM – niektóre z nich wielokrotnie. Naukowcy stwierdzili w swoim artykule, że liczba ta jest prawdopodobnie „znacznie zaniżona”.
LAION-5B nie zawiera samych obrazów, a zamiast tego stanowi zbiór metadanych, w tym skrót identyfikatora obrazu, opis, dane językowe, czy może być niebezpieczny, oraz adres URL wskazujący obraz. Znaleziono wiele zdjęć CSAM, do których linki znajdują się w LAION-5B. Znaleziono je w witrynach takich jak Reddit, Twitter, Blogspot i WordPress, a także w witrynach dla dorosłych, takich jak XHamster i XVideos.
Aby znaleźć w zbiorze danych obrazy warte przetestowania, SIO skupiło się na obrazach oznaczonych przez klasyfikator bezpieczeństwa LAION jako „niebezpieczne”. Obrazy te zeskanowano za pomocą PhotoDNA w celu wykrycia CSAM, a dopasowania przesłano do Kanadyjskiego Centrum Ochrony Dzieci (C3P) w celu weryfikacji.
„Obecnie trwa usuwanie zidentyfikowanego materiału źródłowego, ponieważ badacze zgłosili adresy URL obrazów do Krajowego Centrum Dzieci Zaginionych i Wykorzystywanych (NCMEC) w USA oraz C3P” – SIO powiedziany.
LAION-5B został użyty do szkolenia popularnego generatora obrazów AI Stable Diffusion, którego wersja 1.5 jest dobrze znana w niektórych zakątkach Internetu ze względu na jego zdolność do tworzenia wyraźnych obrazów. Chociaż nie jest bezpośrednio powiązany z przypadkami takimi jak psychiatra dziecięcy wykorzystywanie sztucznej inteligencji do generowania obrazów pornograficznych nieletnich, taki właśnie rodzaj technologii został stworzony głęboka fałszywa sekstorcja i inne przestępstwa są łatwiejsze.
Według SIO wersja Stable Diffusion 1.5 pozostaje popularna w Internecie ze względu na generowanie wyraźnych zdjęć po „powszechnym niezadowoleniu społeczności” związanym z wydaniem wersji Stable Diffusion 2.0, w której dodano dodatkowe filtry zapobiegające przedostawaniu się niebezpiecznych obrazów do zbioru danych szkoleniowych.
Nie jest jasne, czy Stability AI, która opracowała Stable Diffusion, wiedziała o obecności potencjalnego CSAM w swoich modelach ze względu na użycie LAION-5B; firma nie odpowiedziała na nasze pytania.
Ups, znowu to zrobili
Chociaż jest to pierwszy raz, kiedy dane szkoleniowe niemieckiej organizacji non-profit LAION dotyczące sztucznej inteligencji zostały oskarżone o ukrywanie dziecięcej porno, organizacja spotkała się z krytyką za umieszczanie wątpliwych treści w swoich danych szkoleniowych.
Firma Google, która korzystała z poprzednika LAION-2B, znanego jako LAION-400M, do szkolenia swojego generatora AI Imagen, zdecydowała się nigdy nie wypuszczać tego narzędzia z powodu kilku obaw, w tym tego, czy dane szkoleniowe LAION pomogły w zbudowaniu stronniczego i problematycznego modelu.
Według zespołu Imagen, generator wykazał „ogólną tendencję do generowania obrazów osób o jaśniejszej karnacji i… przedstawiania różnych zawodów w sposób zgodny z zachodnimi stereotypami dotyczącymi płci”. Modelowanie rzeczy innych niż ludzie nie poprawiło sytuacji, co spowodowało, że Imagen „kodował szereg uprzedzeń społecznych i kulturowych podczas generowania obrazów działań, wydarzeń i obiektów”.
Audyt samego LAION-400M „odkrył szeroki zakres nieodpowiednich treści, w tym obrazy pornograficzne, rasistowskie obelgi i szkodliwe stereotypy społeczne”.
Kilka miesięcy po tym, jak Google podjął decyzję o przekazaniu upublicznienia Imagen, artysty cętkowany zdjęcia medyczne z operacji, którą przeszła w 2013 roku, obecne w LAION-5B, na publikację których nigdy nie wyraziła zgody.
LAION nie odpowiedział na nasze pytania w tej sprawie, ale założyciel Christoph Schuhmann powiedział Bloombergowi na początku tego roku, że nieświadomy jakiegokolwiek CSAM obecnego w LAION-5B, przyznając jednocześnie, że „nie przeglądał danych zbyt szczegółowo”.
Przypadkowo czy nie – nie wspomniano o badaniu SIO – LAION zdecydował się wczoraj na to przedstawiać planuje natychmiastowe wprowadzenie „procedur regularnej konserwacji”, aby usunąć „linki w zbiorach danych LAION, które w dalszym ciągu wskazują na podejrzane, potencjalnie niezgodne z prawem treści w publicznym Internecie”.
„LAION prowadzi politykę zerowej tolerancji dla nielegalnych treści” – stwierdziła firma. „Publiczne zbiory danych zostaną tymczasowo usunięte, aby powrócić po filtrowaniu aktualizacji”. LAION planuje udostępnić publicznie swoje zbiory danych w drugiej połowie stycznia. ®
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :ma
- :Jest
- :nie
- 1
- 2013
- 32
- 7
- a
- zdolność
- Zdolny
- O nas
- nadużycie
- oskarżony
- zajęcia
- w dodatku
- Dodatkowy
- Dorosły
- Po
- AI
- Trening AI
- wyrównać
- również
- an
- i
- każdy
- artysta
- AS
- Audyt
- z powrotem
- BE
- być
- zanim
- Początek
- stronniczość
- stronniczy
- uprzedzenia
- Bloomberg
- budować
- ale
- by
- Kanadyjczyk
- Etui
- złapany
- spowodowanie
- Centrum
- centrum
- pewien
- dziecko
- Ochrona dzieci
- Dzieci
- wybrał
- CO
- kolekcja
- społeczność
- sukcesy firma
- Obawy
- zawierać
- zawartość
- rogi
- Stwórz
- Zbrodnie
- kulturalny
- Obecnie
- dane
- punkty danych
- zbiory danych
- postanowiła
- głębokość
- opis
- wykryć
- rozwinięty
- ZROBIŁ
- nie zrobił
- różne
- Transmitowanie
- bezpośrednio
- robi
- na dół
- z powodu
- Wcześniej
- łatwiej
- wydarzenia
- eksploatowany
- kilka
- filtracja
- filtry
- Znajdź
- i terminów, a
- pierwszy raz
- koncentruje
- W razie zamówieenia projektu
- znaleziono
- założyciel
- od
- dał
- Płeć
- Generować
- generujący
- generator
- generatory
- niemiecki
- wspaniały
- miał
- Pół
- szkodliwy
- haszysz
- he
- pomógł
- hostowane
- HTTPS
- Ludzie
- zidentyfikowane
- identyfikator
- if
- Nielegalny
- obraz
- zdjęcia
- natychmiast
- podnieść
- in
- zawierać
- włączony
- Włącznie z
- zamiast
- Internet
- najnowszych
- ISN
- IT
- JEGO
- samo
- styczeń
- jpg
- znany
- język
- duży
- zapalniczka
- lubić
- Prawdopodobnie
- powiązany
- linki
- zrobiony
- konserwacja
- Dokonywanie
- masywny
- zapałki
- materiał
- Materia
- Może..
- medyczny
- wzmiankowany
- Metadane
- milion
- brakujący
- model
- modelowanie
- modele
- miesięcy
- jeszcze
- wielokrotność
- narodowy
- nigdy
- niedochodowy
- numer
- obiekty
- obserwatorium
- of
- on
- Online
- or
- organizacja
- Inne
- ludzkiej,
- koniec
- ogólny
- Papier
- przechodzić
- Ludzie
- pozwolenie
- ZDJĘCIA
- plany
- plato
- Analiza danych Platona
- PlatoDane
- punkt
- zwrotnica
- polityka
- Popularny
- potencjał
- potencjalnie
- poprzednik
- obecność
- teraźniejszość
- zapobiec
- problematyczny
- procedury
- Postęp
- ochrona
- publiczny
- opublikowany
- pytania
- rasistowski
- zasięg
- regularny
- zwolnić
- szczątki
- usuwanie
- usunąć
- Zgłoszone
- Badacze
- Odpowiadać
- powrót
- przeglądu
- s
- Bezpieczeństwo
- Powiedział
- druga
- wysłany
- służył
- kilka
- Seksualny
- ona
- pokazał
- znaczący
- sytuacja
- skóra
- potknięcie się
- Obserwuj Nas
- kilka
- Źródło
- Stabilność
- stabilny
- Stanford
- Nadal
- Badanie
- Chirurgia
- podejrzliwy
- Zadania
- tech
- powiedzieć
- Testowanie
- niż
- że
- Połączenia
- ich
- sami
- one
- rzeczy
- to
- w tym roku
- tych
- tysiące
- czas
- czasy
- do
- już dziś
- tolerancja
- narzędzie
- w kierunku
- Pociąg
- Trening
- i twitterze
- odkryte
- przeszedł
- bezprawny
- Aktualizacja
- URL
- us
- posługiwać się
- używany
- za pomocą
- UPRAWOMOCNIĆ
- zweryfikowana
- wersja
- była
- strony internetowe
- DOBRZE
- były
- Western
- jeśli chodzi o komunikację i motywację
- czy
- który
- Podczas
- szeroki
- Szeroki zasięg
- rozpowszechniony
- będzie
- w
- WordPress
- wartość
- rok
- wczoraj
- zefirnet
- zero