Es wurde festgestellt, dass ein riesiger öffentlicher Datensatz, der als Trainingsdaten für beliebte KI-Bildgeneratoren wie Stable Diffusion diente, Tausende von Fällen von Material zum sexuellen Missbrauch von Kindern (Child Sexual Abuse Material, CSAM) enthielt.
In einer Studie Das heute veröffentlichte Stanford Internet Observatory (SIO) sagte, es habe über 32 Millionen Datenpunkte im LAION-5B-Datensatz durchforstet und sei in der Lage gewesen, mit dem von Microsoft entwickelten Tool PhotoDNA 1,008 CSAM-Bilder zu validieren – einige davon seien mehrfach enthalten. Diese Zahl sei wahrscheinlich „eine deutliche Unterzählung“, sagten die Forscher in ihrer Arbeit.
LAION-5B enthält nicht die Bilder selbst, sondern ist stattdessen eine Sammlung von Metadaten, einschließlich eines Hashs der Bildkennung, einer Beschreibung, Sprachdaten, ob es möglicherweise unsicher ist, und einer URL, die auf das Bild verweist. Einige der in LAION-5B verlinkten CSAM-Fotos wurden auf Websites wie Reddit, Twitter, Blogspot und WordPress sowie auf Websites für Erwachsene wie XHamster und XVideos gehostet.
Um Bilder im Datensatz zu finden, die es wert sind, getestet zu werden, konzentrierte sich SIO auf Bilder, die vom LAION-Sicherheitsklassifikator als „unsicher“ gekennzeichnet wurden. Diese Bilder wurden mit PhotoDNA gescannt, um CSAM zu erkennen, und die Übereinstimmungen wurden zur Überprüfung an das Canadian Centre for Child Protection (C3P) gesendet.
„Die Entfernung des identifizierten Quellmaterials ist derzeit im Gange, da Forscher die Bild-URLs dem National Center for Missing and Exploited Children (NCMEC) in den USA und dem C3P gemeldet haben“, so das SIO sagte.
LAION-5B wurde verwendet, um den beliebten KI-Bildgenerator Stable Diffusion zu trainieren, dessen Version 1.5 in bestimmten Teilen des Internets für seine Fähigkeit zur Erstellung expliziter Bilder bekannt ist. Obwohl nicht direkt mit Fällen wie einem Kinderpsychiater verbunden Verwendung von KI zur Generierung pornografischer Bilder Für Minderjährige ist es diese Art von Technologie, die hergestellt wird Deepfake-Sextortion und andere Verbrechen einfacher.
Nach Angaben des SIO ist Stable Diffusion 1.5 im Internet nach wie vor beliebt für die Generierung anstößiger Fotos, nachdem es „weit verbreitete Unzufriedenheit in der Community“ mit der Veröffentlichung von Stable Diffusion 2.0 gab, das zusätzliche Filter hinzufügte, um zu verhindern, dass unsichere Bilder in den Trainingsdatensatz gelangen.
Es ist unklar, ob Stability AI, das Stable Diffusion entwickelt hat, aufgrund der Verwendung von LAION-5B vom Vorhandensein potenzieller CSAM in seinen Modellen wusste; Das Unternehmen hat nicht auf unsere Fragen geantwortet.
Ups, sie haben es wieder getan
Obwohl es das erste Mal ist, dass den KI-Trainingsdaten der deutschen Non-Profit-Organisation LAION vorgeworfen wird, Kinderpornografie zu beherbergen, ist die Organisation schon früher aufgefallen, weil sie fragwürdige Inhalte in ihre Trainingsdaten aufgenommen hat.
Google, das einen LAION-2B-Vorgänger namens LAION-400M zum Trainieren seines Imagen-KI-Generators verwendete, entschied sich aufgrund mehrerer Bedenken, das Tool nie zu veröffentlichen, unter anderem, ob die LAION-Trainingsdaten dabei geholfen hatten, ein voreingenommenes und problematisches Modell zu erstellen.
Laut dem Imagen-Team, der Generator zeigte „eine allgemeine Tendenz zur Erstellung von Bildern von Menschen mit helleren Hauttönen und … der Darstellung verschiedener Berufe, um sie an westliche Geschlechterstereotypen anzupassen.“ Die Modellierung anderer Dinge als Menschen verbesserte die Situation nicht, was dazu führte, dass Imagen „eine Reihe sozialer und kultureller Vorurteile bei der Erstellung von Bildern von Aktivitäten, Ereignissen und Objekten kodierte“.
Eine Prüfung von LAION-400M selbst „hat eine breite Palette unangemessener Inhalte aufgedeckt, darunter pornografische Bilder, rassistische Beleidigungen und schädliche soziale Stereotypen.“
Einige Monate nachdem Google beschlossen hatte, Imagen, einen Künstler, nicht mehr öffentlich zu machen getupft Medizinische Bilder von einer Operation, die sie sich 2013 unterzogen hat, befinden sich in LAION-5B, für deren Aufnahme sie jedoch keine Erlaubnis erteilt hat.
LAION antwortete nicht auf unsere Fragen zu diesem Thema, aber Gründer Christoph Schuhmann teilte Bloomberg Anfang des Jahres mit, dass dies der Fall sei ahnungslos aller in LAION-5B vorhandenen CSAM, gab aber auch zu, „die Daten nicht eingehend geprüft zu haben“.
Zufällig oder nicht – die SIO-Studie wird nicht erwähnt – LAION hat sich gestern dafür entschieden einführen plant ab sofort „regelmäßige Wartungsverfahren“, um „Links in LAION-Datensätzen zu entfernen, die immer noch auf verdächtige, potenziell rechtswidrige Inhalte im öffentlichen Internet verweisen“.
„LAION verfolgt eine Null-Toleranz-Politik gegenüber illegalen Inhalten“, sagte das Unternehmen. „Die öffentlichen Datensätze werden vorübergehend entfernt, um nach der Aktualisierungsfilterung wieder wiederhergestellt zu werden.“ LAION plant, seine Datensätze in der zweiten Januarhälfte der Öffentlichkeit zugänglich zu machen. ®
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :hast
- :Ist
- :nicht
- 1
- 2013
- 32
- 7
- a
- Fähigkeit
- Fähig
- Über Uns
- Missbrauch
- Angeklagte
- Aktivitäten
- hinzugefügt
- Zusätzliche
- Erwachsenen-
- Nach der
- AI
- KI-Training
- ausrichten
- ebenfalls
- an
- und
- jedem
- Künstler
- AS
- Prüfung
- Zurück
- BE
- war
- Bevor
- Anfang
- vorspannen
- voreingenommen
- Vorurteile
- Bloomberg
- bauen
- aber
- by
- kanadischen
- Fälle
- gefangen
- verursacht
- Center
- Zentrum
- sicher
- der
- Kinderschutz
- weltweit
- wählten
- CO
- Sammlung
- community
- Unternehmen
- Bedenken
- enthalten
- Inhalt
- Ecken
- erstellen
- Verbrechen
- Kultur-
- Zur Zeit
- technische Daten
- Datenpunkte
- Datensätze
- entschieden
- Tiefe
- Beschreibung
- entdecken
- entwickelt
- DID
- didn
- anders
- Rundfunk
- Direkt
- doesn
- nach unten
- zwei
- Früher
- einfacher
- Veranstaltungen
- Exploited
- wenige
- Filterung
- Filter
- Finden Sie
- Vorname
- erstes Mal
- konzentriert
- Aussichten für
- gefunden
- Gründer
- für
- gab
- Geschlecht
- erzeugen
- Erzeugung
- Generator
- Generatoren
- Deutsch
- groß
- hätten
- Hälfte
- schädlich
- Hash-
- he
- dazu beigetragen,
- gehostet
- HTTPS
- Humans
- identifiziert
- Kennzeichnung
- if
- illegal
- Image
- Bilder
- sofort
- zu unterstützen,
- in
- das
- inklusive
- Einschließlich
- beantragen müssen
- Internet
- in
- isn
- IT
- SEINE
- selbst
- Januar
- jpg
- bekannt
- Sprache
- grosse
- Feuerzeug
- Gefällt mir
- wahrscheinlich
- verknüpft
- Links
- gemacht
- Wartung
- Making
- massiv
- Streichhölzer
- Ihres Materials
- Materie
- Kann..
- sowie medizinische
- erwähnt
- Metadaten
- Million
- Kommt demnächst...
- Modell
- Modellieren
- für
- Monat
- mehr
- mehrere
- National
- hört niemals
- Non-Profit-
- Anzahl
- Objekte
- Sternwarte
- of
- on
- Online
- or
- Organisation
- Andere
- UNSERE
- übrig
- Gesamt-
- Papier
- passieren
- Personen
- Erlaubnis
- Fotos
- Pläne
- Plato
- Datenintelligenz von Plato
- PlatoData
- Points
- Punkte
- Datenschutzrichtlinien
- Beliebt
- Potenzial
- möglicherweise
- Vorgänger
- Präsenz
- Gegenwart
- verhindern
- problematisch
- Verfahren
- Fortschritt
- Sicherheit
- Öffentlichkeit
- veröffentlicht
- Fragen
- rassistisch
- Angebot
- regulär
- Release
- bleibt bestehen
- Entfernung
- entfernen
- Berichtet
- Forscher
- Reagieren
- Rückkehr
- Überprüfen
- s
- Sicherheit
- Said
- Zweite
- geschickt
- serviert
- mehrere
- Sexuell
- sie
- zeigte
- signifikant
- Situation
- Haut
- Rutsch
- Social Media
- einige
- Quelle
- Stabilität
- stabil
- Stanford
- Immer noch
- Studie
- Chirurgie
- misstrauisch
- gemacht
- Tech
- erzählen
- Testen
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- ihr
- sich
- vom Nutzer definierten
- fehlen uns die Worte.
- dieses Jahr
- diejenigen
- Tausende
- Zeit
- mal
- zu
- heute
- Toleranz
- Werkzeug
- gegenüber
- Training
- Ausbildung
- unbedeckt
- unterzog
- rechtswidrig
- Aktualisierung
- URL
- us
- -
- benutzt
- Verwendung von
- BESTÄTIGEN
- verified
- Version
- wurde
- Webseiten
- GUT
- waren
- Westlich
- wann
- ob
- welche
- während
- breit
- Große Auswahl
- weit verbreitet
- werden wir
- mit
- WordPress
- wert
- Jahr
- gestern
- Zephyrnet
- Null