Kumpulan data publik dalam jumlah besar yang berfungsi sebagai data pelatihan untuk pembuat gambar AI populer termasuk Stable Diffusion ditemukan berisi ribuan contoh materi pelecehan seksual terhadap anak (CSAM).
Di sebuah belajar diterbitkan hari ini, Stanford Internet Observatory (SIO) mengatakan pihaknya meneliti lebih dari 32 juta titik data dalam kumpulan data LAION-5B dan mampu memvalidasi, menggunakan alat PhotoDNA yang dikembangkan Microsoft, 1,008 gambar CSAM – beberapa di antaranya disertakan berkali-kali. Jumlah tersebut kemungkinan besar merupakan “penghitungan yang terlalu rendah,” kata para peneliti dalam makalah mereka.
LAION-5B tidak menyertakan gambar itu sendiri, melainkan kumpulan metadata termasuk hash pengidentifikasi gambar, deskripsi, data bahasa, apakah gambar tersebut mungkin tidak aman, dan URL yang mengarah ke gambar tersebut. Sejumlah foto CSAM yang ditemukan tertaut di LAION-5B ditemukan dihosting di situs web seperti Reddit, Twitter, Blogspot, dan WordPress, serta situs web dewasa seperti XHamster dan XVideos.
Untuk menemukan gambar dalam kumpulan data yang layak untuk diuji, SIO berfokus pada gambar yang diberi tag oleh pengklasifikasi keamanan LAION sebagai “tidak aman.” Gambar-gambar tersebut dipindai dengan PhotoDNA untuk mendeteksi CSAM, dan kecocokannya dikirim ke Pusat Perlindungan Anak Kanada (C3P) untuk diverifikasi.
“Penghapusan materi sumber yang teridentifikasi saat ini sedang berlangsung karena para peneliti melaporkan URL gambar tersebut ke Pusat Nasional untuk Anak Hilang dan Tereksploitasi (NCMEC) di AS dan C3P,” SIO tersebut.
LAION-5B digunakan untuk melatih generator gambar AI Stable Diffusion yang populer, versi 1.5 yang terkenal di beberapa sudut internet karena kemampuannya membuat gambar eksplisit. Sedangkan tidak terkait langsung dengan kasus seperti psikiater anak menggunakan AI untuk menghasilkan gambar pornografi bagi anak di bawah umur, teknologi semacam itulah yang dibuat pemerasan seks palsu dan kejahatan lainnya lebih mudah.
Menurut SIO, Stable Diffusion 1.5 tetap populer secara online untuk menghasilkan foto eksplisit setelah “ketidakpuasan luas dari komunitas” dengan dirilisnya Stable Diffusion 2.0, yang menambahkan filter tambahan untuk mencegah gambar yang tidak aman dimasukkan ke dalam kumpulan data pelatihan.
Tidak jelas apakah Stability AI, yang mengembangkan Difusi Stabil, mengetahui adanya potensi CSAM dalam modelnya karena penggunaan LAION-5B; perusahaan tidak menanggapi pertanyaan kami.
Ups, mereka melakukannya lagi
Meskipun ini adalah pertama kalinya data pelatihan AI nirlaba LAION di Jerman dituduh menyembunyikan pornografi anak-anak, organisasi tersebut pernah salah karena sebelumnya memasukkan konten yang meragukan ke dalam data pelatihannya.
Google, yang menggunakan pendahulunya LAION-2B yang dikenal sebagai LAION-400M untuk melatih generator Imagen AI-nya, memutuskan untuk tidak pernah merilis alat tersebut karena beberapa kekhawatiran, termasuk apakah data pelatihan LAION telah membantunya membangun model yang bias dan bermasalah.
Menurut tim Imagen, generator tersebut menunjukkan “bias keseluruhan dalam menghasilkan gambar orang-orang dengan warna kulit lebih cerah dan … menggambarkan profesi berbeda agar selaras dengan stereotip gender Barat.” Memodelkan hal-hal selain manusia tidak memperbaiki situasi, menyebabkan Imagen “mengkodekan berbagai bias sosial dan budaya saat menghasilkan gambar aktivitas, peristiwa, dan objek.”
Audit terhadap LAION-400M sendiri “menemukan berbagai konten tidak pantas termasuk gambar pornografi, penghinaan rasis, dan stereotip sosial yang berbahaya.”
Beberapa bulan setelah Google memutuskan untuk tidak menjadikan Imagen publik, seorang seniman tutul gambar medis dari operasi yang dia jalani pada tahun 2013 ditampilkan di LAION-5B, yang tidak pernah dia izinkan untuk disertakan.
LAION tidak menanggapi pertanyaan kami mengenai masalah ini, namun pendiri Christoph Schuhmann mengatakan kepada Bloomberg awal tahun ini bahwa dia menyadari dari setiap CSAM yang ada di LAION-5B, sambil juga mengakui “dia tidak meninjau data secara mendalam.”
Secara kebetulan atau tidak – studi SIO tidak disebutkan – LAION kemarin memilih untuk melakukannya memperkenalkan rencana untuk “prosedur pemeliharaan rutin”, yang segera dimulai, untuk menghapus “tautan dalam kumpulan data LAION yang masih mengarah ke konten yang mencurigakan dan berpotensi melanggar hukum di internet publik.”
“LAION tidak memiliki kebijakan toleransi terhadap konten ilegal,” kata perusahaan itu. “Kumpulan data publik akan dihapus sementara, untuk dikembalikan setelah pemfilteran pembaruan.” LAION berencana mengembalikan kumpulan datanya ke publik pada paruh kedua bulan Januari. ®
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :memiliki
- :adalah
- :bukan
- 1
- 2013
- 32
- 7
- a
- kemampuan
- Sanggup
- Tentang Kami
- penyalahgunaan
- terdakwa
- kegiatan
- menambahkan
- Tambahan
- Dewasa
- Setelah
- AI
- Pelatihan AI
- meluruskan
- juga
- an
- dan
- Apa pun
- artis
- AS
- Audit
- kembali
- BE
- menjadi
- sebelum
- Awal
- prasangka
- bias
- bias
- Bloomberg
- membangun
- tapi
- by
- Kanada
- kasus
- tertangkap
- menyebabkan
- pusat
- pusat
- tertentu
- anak
- Perlindungan anak
- anak-anak
- memilih
- CO
- koleksi
- masyarakat
- perusahaan
- Kekhawatiran
- mengandung
- Konten
- sudut
- membuat
- Kejahatan
- kultural
- Sekarang
- data
- titik data
- kumpulan data
- memutuskan
- kedalaman
- deskripsi
- menemukan
- dikembangkan
- MELAKUKAN
- tidak
- berbeda
- Difusi
- langsung
- doesn
- turun
- dua
- Terdahulu
- mudah
- peristiwa
- dieksploitasi
- beberapa
- penyaringan
- filter
- Menemukan
- Pertama
- pertama kali
- terfokus
- Untuk
- ditemukan
- pendiri
- dari
- memberikan
- Gender
- menghasilkan
- menghasilkan
- generator
- generator
- Jerman
- besar
- memiliki
- Setengah
- berbahaya
- hash
- he
- membantu
- host
- HTTPS
- Manusia
- diidentifikasi
- identifier
- if
- liar
- gambar
- gambar
- segera
- memperbaiki
- in
- memasukkan
- termasuk
- Termasuk
- sebagai gantinya
- Internet
- ke
- adalah n
- IT
- NYA
- Diri
- Januari
- jpg
- dikenal
- bahasa
- besar
- lebih ringan
- 'like'
- Mungkin
- terkait
- link
- terbuat
- pemeliharaan
- Membuat
- besar-besaran
- korek api
- bahan
- hal
- Mungkin..
- medis
- tersebut
- Metadata
- juta
- hilang
- model
- pemodelan
- model
- bulan
- lebih
- beberapa
- nasional
- tak pernah
- nirlaba
- jumlah
- objek
- observatorium
- of
- on
- secara online
- or
- organisasi
- Lainnya
- kami
- lebih
- secara keseluruhan
- kertas
- lulus
- Konsultan Ahli
- izin
- Foto
- rencana
- plato
- Kecerdasan Data Plato
- Data Plato
- Titik
- poin
- kebijaksanaan
- Populer
- potensi
- berpotensi
- pendahulu
- kehadiran
- menyajikan
- mencegah
- bermasalah
- Prosedur
- Kemajuan
- perlindungan
- publik
- diterbitkan
- Pertanyaan
- rasis
- jarak
- reguler
- melepaskan
- sisa
- pemindahan
- menghapus
- Dilaporkan
- peneliti
- Menanggapi
- kembali
- ulasan
- s
- Safety/keselamatan
- Tersebut
- Kedua
- mengirim
- yang telah dilayani
- beberapa
- Seksual
- dia
- menunjukkan
- penting
- situasi
- Kulit
- tergelincir
- Sosial
- beberapa
- sumber
- Stabilitas
- stabil
- Stanford
- Masih
- Belajar
- Operasi
- mencurigakan
- diambil
- tech
- mengatakan
- pengujian
- dari
- bahwa
- Grafik
- mereka
- diri
- mereka
- hal
- ini
- tahun ini
- itu
- ribuan
- waktu
- kali
- untuk
- hari ini
- toleransi
- alat
- terhadap
- Pelatihan VE
- Pelatihan
- terbongkar
- menjalani
- melanggar hukum
- Memperbarui
- URL
- us
- menggunakan
- bekas
- menggunakan
- MENGESAHKAN
- diverifikasi
- versi
- adalah
- situs web
- BAIK
- adalah
- Barat
- ketika
- apakah
- yang
- sementara
- lebar
- Rentang luas
- tersebar luas
- akan
- dengan
- WordPress
- bernilai
- tahun
- kemarin
- zephyrnet.dll
- nol