Stable Diffusion da dahil olmak üzere popüler AI görüntü oluşturucuları için eğitim verileri olarak hizmet veren devasa bir halka açık veri kümesinin, binlerce çocuk cinsel istismarı materyali (CSAM) örneği içerdiği bulundu.
İçinde ders çalışma Bugün yayınlanan Stanford İnternet Gözlemevi (SIO), LAION-32B veri kümesindeki 5 milyondan fazla veri noktasını incelediğini ve Microsoft tarafından geliştirilen PhotoDNA aracını kullanarak, bazıları birden çok kez dahil olmak üzere 1,008 CSAM görüntüsünü doğrulayabildiğini söyledi. Araştırmacılar makalelerinde bu sayının muhtemelen "önemli bir eksik sayım" olduğunu söyledi.
LAION-5B, görsellerin kendisini içermez ve bunun yerine görsel tanımlayıcının karma değerini, açıklamayı, dil verilerini, güvenli olup olmadığını ve görsele işaret eden bir URL'yi içeren bir meta veri koleksiyonudur. LAION-5B'de bağlantılı bulunan bir dizi CSAM fotoğrafının Reddit, Twitter, Blogspot ve WordPress gibi web sitelerinin yanı sıra XHamster ve XVideos gibi yetişkinlere yönelik web sitelerinde barındırıldığı görüldü.
SIO, veri kümesindeki test edilmeye değer görüntüleri bulmak için LAION'un güvenlik sınıflandırıcısı tarafından "güvenli değil" olarak etiketlenen görüntülere odaklandı. Bu görüntüler CSAM'yi tespit etmek için PhotoDNA ile tarandı ve eşleşmeler, doğrulanmak üzere Kanada Çocuk Koruma Merkezi'ne (C3P) gönderildi.
SIO, "Araştırmacıların resim URL'lerini ABD'deki Ulusal Kayıp ve İstismara Uğrayan Çocuklar Merkezi'ne (NCMEC) ve C3P'ye bildirmesi nedeniyle, belirlenen kaynak materyalin kaldırılması şu anda devam ediyor" dedi. şuraya.
LAION-5B, internetin belirli köşelerinde açık görüntüler oluşturma yeteneğiyle iyi bilinen 1.5 sürümü olan popüler yapay zeka görüntü oluşturucu Stable Diffusion'ı eğitmek için kullanıldı. Çocuk psikiyatristi gibi vakalarla doğrudan bağlantılı olmasa da pornografik görüntüler oluşturmak için yapay zekayı kullanma reşit olmayanlar için, bu tür bir teknoloji yapıldı derin sahte seks şantajı ve diğer suçlar daha kolay.
SIO'ya göre, Stable Diffusion 1.5, güvenli olmayan görüntülerin eğitim veri kümesine sızmasını önlemek için ek filtreler ekleyen Stable Diffusion 2.0'ın piyasaya sürülmesiyle "toplulukta yaşanan yaygın memnuniyetsizliğin" ardından müstehcen fotoğraflar oluşturmak için çevrimiçi olarak popüler olmaya devam ediyor.
Stabil Difüzyon'u geliştiren Stability AI'nin, LAION-5B kullanımı nedeniyle modellerinde potansiyel CSAM'in varlığından haberi olup olmadığı belli değil; firma sorularımıza cevap vermedi.
Oha yine yaptılar
Alman kar amacı gütmeyen LAION'un yapay zeka eğitim verileri ilk kez çocuk pornosu barındırmakla suçlansa da kuruluş daha önce de eğitim verilerine şüpheli içerik ekleme konusunda tepki çekmişti.
Imagen AI oluşturucusunu eğitmek için LAION-2M olarak bilinen LAION-400B öncülünü kullanan Google, LAION eğitim verilerinin önyargılı ve sorunlu bir model oluşturmaya yardımcı olup olmadığı da dahil olmak üzere çeşitli endişeler nedeniyle aracı asla yayınlamamaya karar verdi.
Imagen ekibine göre, jeneratör "daha açık ten rengine sahip insanların resimlerini oluşturmaya ve ... farklı meslekleri Batı'nın toplumsal cinsiyet stereotiplerine uygun şekilde tasvir etmeye yönelik genel bir önyargı" gösterdi. İnsanlar dışındaki şeyleri modellemek durumu iyileştirmedi ve Imagen'ın "faaliyetlerin, olayların ve nesnelerin görüntülerini oluştururken bir dizi sosyal ve kültürel önyargıyı kodlamasına" neden oldu.
LAION-400M üzerinde yapılan bir denetim, "pornografik görüntüler, ırkçı hakaretler ve zararlı sosyal stereotipler de dahil olmak üzere çok çeşitli uygunsuz içeriği ortaya çıkardı."
Google'ın bir sanatçı olan Imagen'i halka açık hale getirmeye karar vermesinden birkaç ay sonra benekli 2013 yılında geçirdiği bir ameliyattan, LAION-5B'de bulunan ve eklenmesine asla izin verilmeyen tıbbi görüntüler.
LAION konuyla ilgili sorularımıza yanıt vermedi ancak kurucu Christoph Schuhmann bu yılın başlarında Bloomberg'e şunları söyledi: habersiz LAION-5B'de bulunan herhangi bir CSAM'ın bulunmadığını ve aynı zamanda "verileri çok derinlemesine incelemediğini" de kabul etti.
Tesadüfi olsun ya da olmasın - SIO çalışmasından bahsedilmiyor - LAION dün seçim yapmayı seçti tanıtmak "LAION veri kümelerindeki halka açık internetteki şüpheli, potansiyel olarak yasa dışı içeriğe işaret eden bağlantıları" derhal kaldırmak için "düzenli bakım prosedürleri" planlanıyor.
Şirket, "LAION'un yasa dışı içeriğe karşı sıfır tolerans politikası var" dedi. "Genel veri kümeleri, güncelleme filtrelemesinden sonra geri dönmek üzere geçici olarak kaldırılacak." LAION, veri kümelerini Ocak ayının ikinci yarısında halka sunmayı planlıyor. ®
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :vardır
- :dır-dir
- :olumsuzluk
- 1
- 2013
- 32
- 7
- a
- kabiliyet
- Yapabilmek
- Hakkımızda
- taciz
- sanık
- faaliyetler
- katma
- Ek
- Yetişkin
- Sonra
- AI
- AI eğitimi
- hizalamak
- Ayrıca
- an
- ve
- herhangi
- sanatçı
- AS
- denetim
- Arka
- BE
- olmuştur
- önce
- Başlangıç
- önyargı
- önyargılı
- önyargıları
- Bloomberg
- inşa etmek
- fakat
- by
- Kanadalı
- durumlarda
- yakalandı
- neden olan
- Merkez
- merkez
- belli
- çocuk
- çocuk koruma
- Çocuk
- seçti
- CO
- Toplamak
- topluluk
- şirket
- Endişeler
- içermek
- içerik
- köşeleri
- yaratmak
- Suçları
- kültürel
- Şu anda
- veri
- Veri noktaları
- veri kümeleri
- karar
- derinlik
- tanım
- belirlemek
- gelişmiş
- DID
- vermedin
- farklı
- Yayılma
- direkt olarak
- gelmez
- aşağı
- gereken
- Daha erken
- kolay
- olaylar
- sömürülen
- az
- süzme
- filtreler
- bulmak
- Ad
- ilk kez
- odaklanmış
- İçin
- bulundu
- kurucu
- itibaren
- verdi
- Cinsiyet
- oluşturmak
- üreten
- jeneratör
- jeneratörler
- Almanca
- harika
- vardı
- Yarım
- zararlı
- esrar
- he
- yardım
- ev sahipliği yaptı
- HTTPS
- İnsanlar
- tespit
- tanımlayıcı
- if
- Yasadışı
- görüntü
- görüntüleri
- hemen
- iyileştirmek
- in
- dahil
- dahil
- Dahil olmak üzere
- yerine
- Internet
- içine
- degil
- IT
- ONUN
- kendisi
- Ocak
- jpg
- bilinen
- dil
- büyük
- çakmak
- sevmek
- Muhtemelen
- bağlantılı
- bağlantılar
- yapılmış
- bakım
- Yapımı
- masif
- maçlar
- malzeme
- Mesele
- Mayıs..
- tıbbi
- adı geçen
- Metadata
- milyon
- eksik
- model
- Modelleme
- modelleri
- ay
- Daha
- çoklu
- ulusal
- asla
- Kar amacı gütmeyen
- numara
- nesneler
- rasathane
- of
- on
- Online
- or
- kuruluşlar
- Diğer
- bizim
- tekrar
- tüm
- kâğıt
- geçmek
- İnsanlar
- izin
- Fotoğraflar
- ağladım
- Platon
- Plato Veri Zekası
- PlatoVeri
- Nokta
- noktaları
- politika
- Popüler
- potansiyel
- potansiyel
- öncel
- varlık
- mevcut
- önlemek
- sorunlu
- prosedürler
- Ilerleme
- koruma
- halka açık
- yayınlanan
- Sorular
- ırkçı
- menzil
- düzenli
- serbest
- kalıntılar
- giderme
- Kaldır
- Bildirilen
- Araştırmacılar
- Yanıtlamak
- dönüş
- yorum
- s
- Güvenlik
- Adı geçen
- İkinci
- gönderdi
- hizmet
- birkaç
- Cinsel
- o
- gösterdi
- önemli
- durum
- cilt
- kayma
- Sosyal Medya
- biraz
- Kaynak
- istikrar
- kararlı
- stanford
- Yine
- Ders çalışma
- cerrahlık
- şüpheli
- alınan
- teknoloji
- söylemek
- Test yapmak
- göre
- o
- The
- ve bazı Asya
- kendilerini
- onlar
- işler
- Re-Tweet
- Bu yıl
- Bu
- Binlerce
- zaman
- zamanlar
- için
- bugün
- hata payı
- araç
- karşı
- Tren
- Eğitim
- açık
- hastaya
- kanunsuz
- Güncelleme
- URL
- us
- kullanım
- Kullanılmış
- kullanma
- DOĞRULA
- Doğrulanmış
- versiyon
- oldu
- web siteleri
- İYİ
- vardı
- batı
- ne zaman
- olup olmadığını
- hangi
- süre
- geniş
- Geniş ürün yelpazesi
- yaygın
- irade
- ile
- WordPress
- değer
- yıl
- dün
- zefirnet
- sıfır