Descobriu-se que um enorme conjunto de dados públicos que serviu como dados de treinamento para geradores de imagens de IA populares, incluindo Stable Diffusion, contém milhares de ocorrências de material de abuso sexual infantil (CSAM).
Em um artigo do estudo publicado hoje, o Stanford Internet Observatory (SIO) disse que examinou mais de 32 milhões de pontos de dados no conjunto de dados LAION-5B e foi capaz de validar, usando a ferramenta PhotoDNA desenvolvida pela Microsoft, 1,008 imagens CSAM – algumas incluídas várias vezes. Esse número é provavelmente “uma subcontagem significativa”, disseram os pesquisadores em seu artigo.
LAION-5B não inclui as imagens em si e, em vez disso, é uma coleção de metadados que inclui um hash do identificador da imagem, uma descrição, dados de idioma, se pode ser inseguro e um URL apontando para a imagem. Várias fotos CSAM encontradas vinculadas ao LAION-5B foram encontradas hospedadas em sites como Reddit, Twitter, Blogspot e WordPress, bem como em sites adultos como XHamster e XVideos.
Para encontrar imagens no conjunto de dados que valessem a pena testar, a SIO concentrou-se nas imagens marcadas pelo classificador de segurança do LAION como “inseguras”. Essas imagens foram digitalizadas com PhotoDNA para detectar CSAM, e as correspondências foram enviadas ao Centro Canadense de Proteção à Criança (C3P) para verificação.
“A remoção do material de origem identificado está em andamento, pois os pesquisadores relataram os URLs das imagens ao Centro Nacional para Crianças Desaparecidas e Exploradas (NCMEC) nos EUA e ao C3P”, disse o SIO. dito.
LAION-5B foi usado para treinar o popular gerador de imagens de IA Stable Diffusion, cuja versão 1.5 é bem conhecida em certos cantos da Internet por sua capacidade de criar imagens explícitas. Embora não esteja diretamente ligado a casos como um psiquiatra infantil usando IA para gerar imagens pornográficas de menores, é esse tipo de tecnologia que é feita sextorção falsa e outros crimes mais fáceis.
De acordo com o SIO, o Stable Diffusion 1.5 continua popular online para gerar fotos explícitas após “insatisfação generalizada da comunidade” com o lançamento do Stable Diffusion 2.0, que adicionou filtros adicionais para evitar que imagens inseguras entrassem no conjunto de dados de treinamento.
Não está claro se a Stability AI, que desenvolveu a Difusão Estável, sabia da presença de potencial CSAM em seus modelos devido ao uso do LAION-5B; a empresa não respondeu às nossas perguntas.
Opa, eles fizeram isso de novo
Embora seja a primeira vez que os dados de treinamento de IA da organização sem fins lucrativos alemã LAION foram acusados de abrigar pornografia infantil, a organização já foi criticada por incluir conteúdo questionável em seus dados de treinamento antes.
O Google, que usou um antecessor do LAION-2B conhecido como LAION-400M para treinar seu gerador Imagen AI, decidiu nunca lançar a ferramenta devido a várias preocupações, incluindo se os dados de treinamento do LAION o ajudaram a construir um modelo tendencioso e problemático.
De acordo com a equipe da Imagen, o gerador mostrou “uma tendência geral para gerar imagens de pessoas com tons de pele mais claros e… retratar diferentes profissões para se alinhar aos estereótipos de gênero ocidentais”. Modelar outras coisas além dos humanos não melhorou a situação, fazendo com que o Imagen “codificasse uma série de preconceitos sociais e culturais ao gerar imagens de atividades, eventos e objetos”.
Uma auditoria do próprio LAION-400M “descobriu uma ampla gama de conteúdo impróprio, incluindo imagens pornográficas, calúnias racistas e estereótipos sociais prejudiciais”.
Poucos meses depois que o Google decidiu deixar de tornar público o Imagen, um artista manchado imagens médicas de uma cirurgia a que foi submetida em 2013 presentes no LAION-5B, que ela nunca autorizou a inclusão.
A LAION não respondeu às nossas perguntas sobre o assunto, mas o fundador Christoph Schuhmann disse à Bloomberg no início deste ano que estava inconsciente de qualquer CSAM presente no LAION-5B, ao mesmo tempo que admitiu “ele não revisou os dados em grande profundidade”.
Coincidentemente ou não – o estudo SIO não é mencionado – a LAION optou ontem por introduzir planeja “procedimentos regulares de manutenção”, começando imediatamente, para remover “links em conjuntos de dados LAION que ainda apontam para conteúdo suspeito e potencialmente ilegal na Internet pública”.
“A LAION tem uma política de tolerância zero para conteúdo ilegal”, disse a empresa. “Os conjuntos de dados públicos serão temporariamente retirados, para retornar após a filtragem de atualização.” A LAION planeja devolver seus conjuntos de dados ao público na segunda quinzena de janeiro. ®
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :tem
- :é
- :não
- 1
- 2013
- 32
- 7
- a
- habilidade
- Capaz
- Sobre
- abuso
- acusado
- atividades
- adicionado
- Adicional
- Adulto
- Depois de
- AI
- Treinamento de IA
- alinhar
- tb
- an
- e
- qualquer
- artista
- AS
- auditor
- em caminho duplo
- BE
- sido
- antes
- Começo
- viés
- tendencioso
- vieses
- Bloomberg
- construir
- mas a
- by
- canadense
- casos
- apanhados
- causando
- Centralização de
- Centro
- certo
- criança
- Proteção infantil
- Crianças
- escolheu
- CO
- coleção
- comunidade
- Empresa
- Preocupações
- não contenho
- conteúdo
- cantos
- crio
- Crimes
- cultural
- Atualmente
- dados,
- Os pontos de dados
- conjuntos de dados
- decidido
- profundidade
- descrição
- descobrir
- desenvolvido
- DID
- didn
- diferente
- Distribuição
- diretamente
- não
- down
- dois
- Mais cedo
- mais fácil
- eventos
- exploradas
- poucos
- filtragem
- filtros
- Encontre
- Primeiro nome
- primeira vez
- focado
- Escolha
- encontrado
- fundador
- da
- deu
- Gênero
- gerar
- gerando
- gerador
- geradores
- Alemão
- ótimo
- tinha
- Metade
- prejudicial
- hash
- he
- ajudou
- hospedado
- HTTPS
- Humanos
- identificado
- identificador
- if
- Ilegal
- imagem
- imagens
- imediatamente
- melhorar
- in
- incluir
- incluído
- Incluindo
- em vez disso
- Internet
- para dentro
- isn
- IT
- ESTÁ
- se
- janeiro
- jpg
- conhecido
- língua
- grande
- isqueiro
- como
- Provável
- ligado
- Links
- moldadas
- manutenção
- Fazendo
- maciço
- fósforos
- material
- Importância
- Posso..
- médico
- mencionado
- metadados
- milhão
- desaparecido
- modelo
- modelagem
- modelos
- mês
- mais
- múltiplo
- Nacional
- nunca
- sem fins lucrativos,
- número
- objetos
- observatório
- of
- on
- online
- or
- organização
- Outros
- A Nossa
- Acima de
- global
- Papel
- passar
- Pessoas
- permissão
- Fotos
- planos
- platão
- Inteligência de Dados Platão
- PlatãoData
- ponto
- pontos
- Privacidade
- Popular
- potencial
- potencialmente
- antecessor
- presença
- presente
- evitar
- problemático
- procedimentos
- Progresso
- proteção
- público
- publicado
- Frequentes
- racista
- alcance
- regular
- liberar
- permanece
- remoção
- remover
- Informou
- pesquisadores
- Responder
- retorno
- rever
- s
- Segurança
- Dito
- Segundo
- enviei
- servido
- vários
- Sexual
- ela
- mostrou
- periodo
- situação
- Pele
- Deslizamento
- Redes Sociais
- alguns
- fonte
- Estabilidade
- estável
- Stanford
- Ainda
- Estudo
- Cirurgia
- suspeito
- tomado
- tecnologia
- dizer
- ensaio
- do que
- que
- A
- deles
- si mesmos
- deles
- coisas
- isto
- este ano
- aqueles
- milhares
- tempo
- vezes
- para
- hoje
- tolerância
- ferramenta
- para
- Trem
- Training
- descoberto
- sofreu
- ilegal
- Atualizar
- URL
- us
- usar
- usava
- utilização
- VALIDAR
- verificado
- versão
- foi
- sites
- BEM
- foram
- Ocidental
- quando
- se
- qual
- enquanto
- Largo
- Ampla variedade
- generalizada
- precisarão
- de
- WordPress
- Equivalente há
- ano
- ontem
- zefirnet
- zero