Было обнаружено, что огромный общедоступный набор данных, который служил обучающими данными для популярных генераторов изображений искусственного интеллекта, включая Stable Diffusion, содержит тысячи случаев материалов о сексуальном насилии над детьми (CSAM).
В Исследование Опубликованная сегодня Стэнфордская интернет-обсерватория (SIO) заявила, что изучила более 32 миллионов точек данных в наборе данных LAION-5B и смогла проверить с помощью разработанного Microsoft инструмента PhotoDNA 1,008 изображений CSAM, некоторые из которых были включены несколько раз. Эта цифра, вероятно, «значительно занижена», отмечают исследователи в своей статье.
LAION-5B не включает сами изображения, а вместо этого представляет собой набор метаданных, включающий хеш идентификатора изображения, описание, языковые данные, сведения о том, может ли оно быть небезопасным, и URL-адрес, указывающий на изображение. Ряд фотографий CSAM, связанных с LAION-5B, были найдены на таких сайтах, как Reddit, Twitter, Blogspot и WordPress, а также на сайтах для взрослых, таких как XHamster и XVideos.
Чтобы найти в наборе данных изображения, достойные тестирования, SIO сосредоточился на изображениях, помеченных классификатором безопасности LAION как «небезопасные». Эти изображения были отсканированы с помощью PhotoDNA для обнаружения CSAM, а совпадения были отправлены в Канадский центр защиты детей (C3P) для проверки.
«В настоящее время продолжается удаление выявленного исходного материала, поскольку исследователи сообщили URL-адреса изображений в Национальный центр по делам пропавших и эксплуатируемых детей (NCMEC) в США и C3P», — заявил SIO. — сказал.
LAION-5B использовался для обучения популярного генератора изображений AI Stable Diffusion, версия 1.5 которого хорошо известна в некоторых уголках Интернета благодаря своей способности создавать откровенные изображения. Хотя это и не связано напрямую с такими случаями, как детский психиатр использование ИИ для создания порнографических изображений несовершеннолетних, это такая технология, которая создана дипфейковое секс-вымогательство и другие преступления проще.
По данным SIO, Stable Diffusion 1.5 по-прежнему популярен в Интернете благодаря созданию откровенных фотографий после «широко распространенного недовольства сообщества» выпуском Stable Diffusion 2.0, в котором добавлены дополнительные фильтры для предотвращения попадания небезопасных изображений в набор обучающих данных.
Неясно, знала ли Stability AI, разработавшая Stable Diffusion, о наличии потенциального CSAM в своих моделях из-за использования LAION-5B; компания не ответила на наши вопросы.
Ой, они сделали это снова
Хотя данные по обучению искусственного интеллекта немецкой некоммерческой организации LAION впервые обвиняются в хранении детской порнографии, организация уже неоднократно подвергалась критике за включение сомнительного содержания в свои данные по обучению.
Google, которая использовала предшественника LAION-2B, известного как LAION-400M, для обучения своего генератора AI Imagen, решила никогда не выпускать этот инструмент из-за ряда проблем, в том числе из-за того, что данные обучения LAION помогли ему построить предвзятую и проблемную модель.
По данным команды Imagen, генератор продемонстрировал «общую склонность к созданию изображений людей со светлым оттенком кожи и… изображению разных профессий, чтобы соответствовать западным гендерным стереотипам». Моделирование других объектов, кроме людей, не улучшило ситуацию, заставив Imagen «кодировать ряд социальных и культурных предубеждений при создании изображений действий, событий и объектов».
Аудит самого LAION-400M «обнаружил широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы».
Через несколько месяцев после того, как Google решила отказаться от публикации Imagen, художник пятнистый медицинские изображения операции, которую она перенесла в 2013 году, представлены в LAION-5B, на включение которых она так и не дала разрешения.
LAION не ответил на наши вопросы по этому поводу, но основатель Кристоф Шуман ранее в этом году сказал Bloomberg, что он не знают любого CSAM, присутствующего в LAION-5B, при этом признав, что «он не просматривал данные глубоко».
Случайно или нет – исследование SIO не упоминается – LAION вчера решил вводить планирует начать «регулярные процедуры обслуживания», начиная с немедленного удаления «ссылок в наборах данных LAION, которые все еще указывают на подозрительный, потенциально незаконный контент в общедоступном Интернете».
«LAION придерживается политики абсолютной нетерпимости к незаконному контенту», — заявили в компании. «Общедоступные наборы данных будут временно удалены, чтобы вернуться обратно после фильтрации обновлений». LAION планирует вернуть свои наборы данных в открытый доступ во второй половине января. ®
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :имеет
- :является
- :нет
- 1
- 2013
- 32
- 7
- a
- способность
- в состоянии
- О нас
- злоупотребление
- обвиняют
- активно
- добавленный
- дополнительный
- Для взрослых
- После
- AI
- AI обучение
- выравнивать
- причислены
- an
- и
- любой
- художник
- AS
- аудит
- назад
- BE
- было
- до
- начало
- смещение
- пристрастный
- предубеждения
- Bloomberg
- строить
- но
- by
- канадские
- случаев
- пойманный
- Причинение
- Центр
- центр
- определенный
- ребенок
- Защита детей
- Дети
- выбрал
- CO
- лыжных шлемов
- сообщество
- Компания
- Обеспокоенность
- содержать
- содержание
- углов
- Создайте
- преступления
- культурный
- В настоящее время
- данным
- точки данных
- Наборы данных
- решенный
- глубина
- описание
- обнаруживать
- развитый
- DID
- А не было
- различный
- Вещание
- непосредственно
- Безразлично
- вниз
- два
- Ранее
- легче
- События
- Эксплуатируемый
- несколько
- фильтрация
- фильтры
- Найдите
- Во-первых,
- Впервые
- внимание
- Что касается
- найденный
- основатель
- от
- дал
- пол
- порождать
- порождающий
- генератор
- генераторы
- Немецкий
- большой
- было
- Половина
- вредный
- хэш
- he
- помог
- состоялся
- HTTPS
- Людей
- идентифицированный
- идентификатор
- if
- нелегальный
- изображение
- изображений
- немедленно
- улучшать
- in
- включают
- включены
- В том числе
- вместо
- Интернет
- в
- мобильной
- IT
- ЕГО
- саму трезвость
- январь
- JPG
- известный
- язык
- большой
- более легкий
- такое как
- Вероятно
- связанный
- связи
- сделанный
- техническое обслуживание
- Создание
- массивный
- спички
- материала
- Вопрос
- Май..
- основным медицинским
- упомянутый
- Метаданные
- миллиона
- отсутствующий
- модель
- моделирование
- Модели
- месяцев
- БОЛЕЕ
- с разными
- национальный
- никогда
- некоммерческий
- номер
- объекты
- обсерватория
- of
- on
- онлайн
- or
- организация
- Другое
- наши
- за
- общий
- бумага & картон
- pass
- Люди
- разрешение
- Фото
- Планы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Точка
- пунктов
- политика
- Популярное
- потенциал
- потенциально
- предшественник
- присутствие
- представить
- предотвращать
- проблематичный
- Процедуры
- Прогресс
- защиту
- что такое варган?
- опубликованный
- Вопросы
- расистский
- ассортимент
- Reddit.
- регулярный
- освободить
- остатки
- удаление
- удаление
- Сообщается
- исследователи
- Реагируйте
- возвращают
- обзоре
- s
- Сохранность
- Сказал
- Во-вторых
- послать
- служил
- несколько
- Сексуальный
- она
- показал
- значительный
- ситуация
- Кожа
- скольжение
- Соцсети
- некоторые
- Источник
- Стабильность
- стабильный
- Стэнфорд
- По-прежнему
- Кабинет
- Хирургия
- подозрительный
- приняты
- технологии
- сказать
- Тестирование
- чем
- который
- Ассоциация
- их
- сами
- они
- вещи
- этой
- В этом году
- те
- тысячи
- время
- раз
- в
- сегодня
- терпимость
- инструментом
- к
- Train
- Обучение
- непокрытый
- Прошел
- незаконное
- Обновление ПО
- URL
- us
- использование
- используемый
- через
- VALIDATE
- проверено
- версия
- законопроект
- веб-сайты
- ЧТО Ж
- были
- западный
- когда
- будь то
- который
- в то время как
- широкий
- Широкий диапазон
- широко распространена
- будете
- WordPress
- стоимость
- год
- вчера
- зефирнет
- нуль