Було виявлено, що величезний загальнодоступний набір даних, який слугував навчальними даними для популярних генераторів зображень штучного інтелекту, включаючи Stable Diffusion, містить тисячі випадків матеріалів сексуального насильства над дітьми (CSAM).
В вчитися Стенфордська інтернет-обсерваторія (SIO) повідомила, що вивчила понад 32 мільйони точок даних у наборі даних LAION-5B і змогла перевірити за допомогою інструменту PhotoDNA, розробленого Microsoft, 1,008 зображень CSAM – деякі включені кілька разів. Це число, ймовірно, є «значним заниженням», - заявили дослідники у своїй статті.
LAION-5B не містить самих зображень, натомість це набір метаданих, включаючи хеш ідентифікатора зображення, опис, дані про мову, чи може воно бути небезпечним, і URL-адресу зображення. Кілька фотографій CSAM, посилання на які були знайдені в LAION-5B, були розміщені на таких веб-сайтах, як Reddit, Twitter, Blogspot і WordPress, а також на сайтах для дорослих, таких як XHamster і XVideos.
Щоб знайти зображення в наборі даних, які варто протестувати, SIO зосередився на зображеннях, позначених класифікатором безпеки LAION як «небезпечні». Ці зображення були відскановані за допомогою PhotoDNA, щоб виявити CSAM, і збіги були надіслані до Канадського центру захисту дітей (C3P) для перевірки.
«Наразі триває видалення ідентифікованого вихідного матеріалу, оскільки дослідники повідомили про URL-адреси зображень Національному центру зниклих безвісти та експлуатованих дітей (NCMEC) у США та C3P», — йдеться в повідомленні SIO. сказав.
LAION-5B використовувався для навчання популярного генератора зображень зі штучним інтелектом Stable Diffusion, версія 1.5 якого добре відома в деяких куточках Інтернету своєю здатністю створювати чіткі зображення. Хоча це не пов’язано безпосередньо з такими справами, як дитячий психіатр використання штучного інтелекту для створення порнографічних зображень неповнолітніх, це така техніка, яка зроблена deepfake sextortion та інші злочини легше.
Відповідно до SIO, Stable Diffusion 1.5 залишається популярним в Інтернеті для створення відвертих фотографій після «широкого невдоволення спільноти» випуском Stable Diffusion 2.0, який додав додаткові фільтри, щоб запобігти потраплянню небезпечних зображень у навчальний набір даних.
Незрозуміло, чи знав Stability AI, який розробив Stable Diffusion, про наявність потенційного CSAM у своїх моделях через використання LAION-5B; компанія не відповіла на наші запитання.
Ой, вони знову це зробили
Незважаючи на те, що це перший випадок, коли навчальні дані німецької некомерційної організації LAION звинувачують у приховуванні дитячої порнографії, організація раніше була засуджена за включення сумнівного вмісту у свої навчальні дані.
Google, який використовував попередника LAION-2B, відомого як LAION-400M, для навчання свого генератора Imagen AI, вирішив ніколи не випускати цей інструмент через кілька проблем, зокрема, чи допомогли навчальні дані LAION побудувати упереджену та проблематичну модель.
За словами команди Imagen, генератор продемонстрував «загальне упередження до створення зображень людей зі світлішими тонами шкіри та … зображення різних професій для узгодження із західними гендерними стереотипами». Моделювання інших речей, окрім людей, не покращило ситуацію, змусивши Imagen «кодувати низку соціальних і культурних упереджень під час створення образів діяльності, подій і об’єктів».
Перевірка самого LAION-400M «виявила широкий спектр неприйнятного контенту, включаючи порнографічні зображення, расистські образи та шкідливі соціальні стереотипи».
Через кілька місяців після того, як Google вирішив оприлюднити Imagen, художника помічений медичні зображення з операції, яку вона перенесла в 2013 році в LAION-5B, які вона ніколи не дозволяла включити.
LAION не відповів на наші запитання з цього приводу, але засновник Крістоф Шуман сказав Bloomberg на початку цього року, що він невідомо будь-якого CSAM, присутнього в LAION-5B, а також визнаючи, що «він не переглядав дані дуже глибоко».
Випадково чи ні – дослідження SIO не згадується – LAION вирішила вчора вводити планує «звичайні процедури обслуговування», які починаються негайно, щоб видалити «посилання в наборах даних LAION, які все ще вказують на підозрілий, потенційно незаконний вміст у загальнодоступному Інтернеті».
«LAION дотримується політики нульової терпимості до незаконного контенту», — заявили в компанії. «Загальнодоступні набори даних буде тимчасово видалено, щоб повернутися після фільтрації оновлень». LAION планує повернути свої набори даних для громадськості в другій половині січня. ®
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- : має
- :є
- : ні
- 1
- 2013
- 32
- 7
- a
- здатність
- Здатний
- МЕНЮ
- зловживання
- обвинувачений
- діяльності
- доданий
- Додатковий
- Для дорослих
- після
- AI
- Навчання AI
- вирівнювати
- Також
- an
- та
- будь-який
- художник
- AS
- аудит
- назад
- BE
- було
- перед тим
- початок
- зміщення
- упереджений
- упередження
- Bloomberg
- будувати
- але
- by
- Канадський
- випадків
- спійманий
- викликаючи
- Центр
- центр
- певний
- дитина
- захист дітей
- діти
- вибрав
- CO
- збір
- співтовариство
- компанія
- Турбота
- містити
- зміст
- кути
- створювати
- Злочини
- культурний
- В даний час
- дані
- точки даних
- набори даних
- вирішене
- глибина
- description
- виявляти
- розвиненою
- DID
- А не було
- різний
- радіомовлення
- безпосередньо
- байдуже
- вниз
- два
- Раніше
- легше
- Події
- експлуатований
- кілька
- фільтрація
- Фільтри
- знайти
- Перший
- перший раз
- увагу
- для
- знайдений
- засновник
- від
- дав
- Стать
- породжувати
- породжує
- generator
- генератори
- німецька
- великий
- було
- Половина
- шкідливий
- мішанина
- he
- допоміг
- відбувся
- HTTPS
- Людей
- ідентифікований
- ідентифікатор
- if
- незаконний
- зображення
- зображень
- негайно
- удосконалювати
- in
- включати
- включені
- У тому числі
- замість
- інтернет
- в
- isn
- IT
- ЙОГО
- сам
- січня
- JPG
- відомий
- мова
- великий
- легше
- як
- Ймовірно
- пов'язаний
- зв'язку
- made
- обслуговування
- Робить
- масивний
- сірники
- матеріал
- Матерія
- Може..
- медичний
- згаданий
- метадані
- мільйона
- відсутній
- модель
- моделювання
- Моделі
- місяців
- більше
- множинний
- National
- ніколи
- некомерційний
- номер
- об'єкти
- обсерваторії
- of
- on
- онлайн
- or
- організація
- Інше
- наші
- над
- загальний
- Папір
- проходити
- Люди
- дозвіл
- фотографії
- плани
- plato
- Інформація про дані Платона
- PlatoData
- точка
- точок
- політика
- популярний
- потенціал
- потенційно
- попередник
- наявність
- представити
- запобігати
- проблематичний
- Процедури
- прогрес
- захист
- громадськість
- опублікований
- питань
- расистський
- діапазон
- регулярний
- звільнити
- залишається
- видалення
- видаляти
- Повідомляється
- Дослідники
- Реагувати
- повертати
- огляд
- s
- Безпека
- Зазначений
- другий
- посланий
- служив
- кілька
- Сексуальний
- вона
- показав
- значний
- ситуація
- Шкіра
- ковзання
- соціальна
- деякі
- Source
- Стабільність
- стабільний
- Станфорд
- Як і раніше
- Вивчення
- Хірургія
- підозрілі
- прийняті
- технології
- сказати
- Тестування
- ніж
- Що
- Команда
- їх
- самі
- вони
- речі
- це
- У цьому році
- ті
- тисячі
- час
- times
- до
- сьогодні
- терпимість
- інструмент
- до
- поїзд
- Навчання
- непокритий
- пережив
- протизаконний
- Оновити
- URL
- us
- використання
- використовуваний
- використання
- ПЕРЕВІР
- перевірено
- версія
- було
- веб-сайти
- ДОБРЕ
- були
- Western
- коли
- Чи
- який
- в той час як
- широкий
- Широкий діапазон
- широко поширений
- волі
- з
- WordPress
- вартість
- рік
- вчора
- зефірнет
- нуль