CSAM знайдено у великому навчальному наборі даних генератора зображень AI

Перевидано Платоном

читають: 0

CSAM виявлено у великому наборі даних для навчання генератора зображень AI PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Було виявлено, що величезний загальнодоступний набір даних, який слугував навчальними даними для популярних генераторів зображень штучного інтелекту, включаючи Stable Diffusion, містить тисячі випадків матеріалів сексуального насильства над дітьми (CSAM).

В вчитися Стенфордська інтернет-обсерваторія (SIO) повідомила, що вивчила понад 32 мільйони точок даних у наборі даних LAION-5B і змогла перевірити за допомогою інструменту PhotoDNA, розробленого Microsoft, 1,008 зображень CSAM – деякі включені кілька разів. Це число, ймовірно, є «значним заниженням», - заявили дослідники у своїй статті.

LAION-5B не містить самих зображень, натомість це набір метаданих, включаючи хеш ідентифікатора зображення, опис, дані про мову, чи може воно бути небезпечним, і URL-адресу зображення. Кілька фотографій CSAM, посилання на які були знайдені в LAION-5B, були розміщені на таких веб-сайтах, як Reddit, Twitter, Blogspot і WordPress, а також на сайтах для дорослих, таких як XHamster і XVideos.

Щоб знайти зображення в наборі даних, які варто протестувати, SIO зосередився на зображеннях, позначених класифікатором безпеки LAION як «небезпечні». Ці зображення були відскановані за допомогою PhotoDNA, щоб виявити CSAM, і збіги були надіслані до Канадського центру захисту дітей (C3P) для перевірки.

«Наразі триває видалення ідентифікованого вихідного матеріалу, оскільки дослідники повідомили про URL-адреси зображень Національному центру зниклих безвісти та експлуатованих дітей (NCMEC) у США та C3P», — йдеться в повідомленні SIO. сказав.

LAION-5B використовувався для навчання популярного генератора зображень зі штучним інтелектом Stable Diffusion, версія 1.5 якого добре відома в деяких куточках Інтернету своєю здатністю створювати чіткі зображення. Хоча це не пов’язано безпосередньо з такими справами, як дитячий психіатр використання штучного інтелекту для створення порнографічних зображень неповнолітніх, це така техніка, яка зроблена deepfake sextortion та інші злочини легше.

Відповідно до SIO, Stable Diffusion 1.5 залишається популярним в Інтернеті для створення відвертих фотографій після «широкого невдоволення спільноти» випуском Stable Diffusion 2.0, який додав додаткові фільтри, щоб запобігти потраплянню небезпечних зображень у навчальний набір даних.

Незрозуміло, чи знав Stability AI, який розробив Stable Diffusion, про наявність потенційного CSAM у своїх моделях через використання LAION-5B; компанія не відповіла на наші запитання.

Ой, вони знову це зробили

Незважаючи на те, що це перший випадок, коли навчальні дані німецької некомерційної організації LAION звинувачують у приховуванні дитячої порнографії, організація раніше була засуджена за включення сумнівного вмісту у свої навчальні дані.

Google, який використовував попередника LAION-2B, відомого як LAION-400M, для навчання свого генератора Imagen AI, вирішив ніколи не випускати цей інструмент через кілька проблем, зокрема, чи допомогли навчальні дані LAION побудувати упереджену та проблематичну модель.

За словами команди Imagen, генератор продемонстрував «загальне упередження до створення зображень людей зі світлішими тонами шкіри та … зображення різних професій для узгодження із західними гендерними стереотипами». Моделювання інших речей, окрім людей, не покращило ситуацію, змусивши Imagen «кодувати низку соціальних і культурних упереджень під час створення образів діяльності, подій і об’єктів».

Перевірка самого LAION-400M «виявила широкий спектр неприйнятного контенту, включаючи порнографічні зображення, расистські образи та шкідливі соціальні стереотипи».

Через кілька місяців після того, як Google вирішив оприлюднити Imagen, художника помічений медичні зображення з операції, яку вона перенесла в 2013 році в LAION-5B, які вона ніколи не дозволяла включити.

LAION не відповів на наші запитання з цього приводу, але засновник Крістоф Шуман сказав Bloomberg на початку цього року, що він невідомо будь-якого CSAM, присутнього в LAION-5B, а також визнаючи, що «він не переглядав дані дуже глибоко».

Випадково чи ні – дослідження SIO не згадується – LAION вирішила вчора вводити планує «звичайні процедури обслуговування», які починаються негайно, щоб видалити «посилання в наборах даних LAION, які все ще вказують на підозрілий, потенційно незаконний вміст у загальнодоступному Інтернеті».

«LAION дотримується політики нульової терпимості до незаконного контенту», — заявили в компанії. «Загальнодоступні набори даних буде тимчасово видалено, щоб повернутися після фільтрації оновлень». LAION планує повернути свої набори даних для громадськості в другій половині січня. ®

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/

Часова мітка: 20 Грудня, 2023

Часова мітка: Лютий 17, 2023

Перевидано Платоном

Привіт, GitHub, чи можете ви створити функцію порівняння масивів, не порушуючи GPL?

Shutterstock співпрацює з OpenAI, щоб продавати стокові зображення, створені штучним інтелектом, за допомогою DALL-E

ChatGPT знаходить рольову гру Dungeons & Dragons

Лише кожна десята британська організація має план значних інвестицій у штучний інтелект

У Каліфорнії безпілотні автомобілі збивають дорожній рух

Twitch заборонив створене штучним інтелектом шоу Seinfeld за трансфобні жарти

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки