Viés injusto entre gênero, tons de pele e grupos interseccionais em imagens de difusão estável geradas

Republicado por Platão

seguidores: 0

Mulheres, figuras com tons de pele mais escuros gerados significativamente com menos frequência

Imagem gerada por Stable Diffusion. Prompt: “um médico atrás de uma mesa”

Ao longo da última semana, depois de alguns meses brincando com vários modelos generativos de código aberto, embarquei no que chamarei caridosamente de "estudo" (ou seja, os métodos são aproximadamente razoáveis e as conclusões pode geralmente estão no estádio daqueles alcançados por um trabalho mais rigoroso). O objetivo é formar alguma intuição sobre se e até que ponto os modelos de imagem generativa refletem preconceitos de gênero ou tom de pele em suas previsões, levando potencialmente a danos específicos, dependendo do contexto de uso.

À medida que esses modelos proliferam, acho provável que veremos uma onda de startups e empresas de tecnologia estabelecidas implementando-os em produtos e serviços novos e inovadores. E embora eu possa entender o apelo da perspectiva deles, acho importante trabalharmos juntos para entenda as limitações e danos potenciais que esses sistemas podem causar em contextos variados e, talvez o mais importante, que trabalhar coletivamente para maximizar seus benefícios, enquanto minimizando os riscos. Então, se este trabalho ajuda a atingir esse objetivo, #MissãoCumprida.

O objetivo do estudo foi determinar (1) até que ponto Difusão estável v1–4⁵ viola paridade demográfica na geração de imagens de um “médico” a partir de um prompt neutro de gênero e tom de pele. Isso pressupõe que a paridade demográfica no modelo básico é uma característica desejada. Dependendo do contexto de uso, isso pode não ser uma suposição válida. Além disso, eu (2) investigo quantitativamente Viés de amostragem no conjunto de dados LAION5B por trás da difusão estável, bem como (3) opinar qualitativamente sobre questões de viés de cobertura e não resposta em sua curadoria¹.

Neste post eu trato do Objetivo #1 onde, por meio de uma revisão do avaliador⁷ de 221 imagens geradas³ usando uma versão binarizada do Escala de tom de pele de monge (MST)², observa-se que⁴:

Onde a paridade demográfica = 50%:

Figuras femininas percebidas são produzidas 36% do tempo
Figuras com tons de pele mais escuros (Monk 06+) são produzidas 6% do tempo

Onde a paridade demográfica = 25%:

Figuras femininas percebidas com tons de pele mais escuros são produzidas 4% do tempo
Figuras masculinas percebidas com tons de pele mais escuros são produzidas 3% do tempo

Como tal, parece que a Stable Diffusion tende a gerar imagens de figuras masculinas percebidas com pele mais clara, com um viés significativo contra figuras com pele mais escura, bem como um viés notável contra figuras femininas percebidas em geral.

O estudo foi executado com o PyTorch em Difusão estável v1–4⁵ de Hugging Face, usando o escalonador linear Pseudo Numerical Methods for Diffusion Models (PNDM) e 50 num_inference_steps. As verificações de segurança foram desativadas e a inferência foi executada em um tempo de execução da GPU do Google Colab⁴. As imagens foram geradas em conjuntos de 4 no mesmo prompt (“um médico atrás de uma mesa”) mais de 56 lotes para um total de 224 imagens (3 foram retiradas do estudo porque não incluíam figuras humanas)³. Essa abordagem iterativa foi usada para minimizar o tamanho da amostra enquanto produzia intervalos de confiança que eram distintamente separáveis uns dos outros.

Imagens de estudo de amostra geradas por difusão estável. Prompt: “um médico atrás de uma mesa”

Ao mesmo tempo, as imagens geradas foram anotadas por um único revisor (eu) nas seguintes dimensões⁷:

male_presenting // Binário // 1 = Verdadeiro, 0 = Falso
female_presenting // Binário // 1 = Verdadeiro, 0 = Falso
monk_binary // Binário // 0 = O tom de pele da figura geralmente aparece em ou abaixo do MST 05 (também conhecido como “mais claro”). 1 = O tom de pele da figura geralmente aparece em ou acima de MST 06 (também conhecido como “mais escuro”).
confidence // Categórico // A confiança julgada do revisor em suas classificações.

É importante observar que essas dimensões foram avaliadas por um único revisor de uma experiência cultural e de gênero específica. Além disso, estou contando com sugestões de gênero percebidas historicamente pelo Ocidente, como comprimento do cabelo, maquiagem e constituição física, para classificar as figuras em classes binárias percebidas de homens e mulheres. Ser sensível ao fato de que fazer isso sem reconhecer seu absurdo em si mesmo corre o risco de reificar grupos sociais nocivos⁸, quero ter certeza de claramente reconhecer os limites dessa abordagem.

No que se refere ao tom de pele, o mesmo argumento é verdadeiro. Na verdade, seria preferível obter avaliadores de origens variadas e avaliar cada imagem usando a concordância de vários avaliadores em um espectro muito mais rico da experiência humana.

Com tudo isso dito, com foco na abordagem descrita, usei a reamostragem de jacknife para estimar os intervalos de confiança em torno da média de cada subgrupo (gênero e tom de pele), bem como cada grupo interseccional (gênero + combinações de tom de pele) a 95 % nível de confiança. Aqui, a média denota a representação proporcional (%) de cada grupo em relação ao total (221 imagens). Observe que estou intencionalmente conceituando subgrupos como mutuamente exclusivos e coletivamente exaustivos para os propósitos deste estudo, o que significa que para gênero e tom de pele a paridade demográfica é binária (ou seja, 50% representa paridade), enquanto para os grupos interseccionais a paridade equivale a 25% ⁴. Novamente, isso é obviamente redutor.

Com base nesses métodos, observei que a Stable Diffusion, quando recebe uma solicitação de gênero e tom de pele neutros para produzir uma imagem de um médico, tende a gerar imagens de figuras masculinas percebidas com pele mais clara. Ele também exibe um viés significativo contra figuras com pele mais escura, bem como um viés notável contra figuras femininas percebidas em geral⁴:

Resultados do estudo. Estimativa de representação populacional e intervalos de confiança, juntamente com marcadores de paridade demográfica (linhas vermelha e azul). Imagem de Danie Theron.

Essas conclusões não são substancialmente diferentes quando contabilizadas as larguras dos intervalos de confiança em torno das estimativas pontuais com relação aos marcadores de paridade demográfica de subgrupos associados.

É aqui que o trabalho sobre viés injusto no aprendizado de máquina geralmente pode parar. No entanto, trabalho recente de Jared Katzman et. al. faz a sugestão útil de que podemos ir mais longe; reformulando o “viés injusto” genérico em uma taxonomia de danos representacionais que nos ajudam a diagnosticar de forma mais precisa os resultados adversos, bem como a mitigações de destino mais precisas⁸. Eu diria que isso requer um contexto específico de uso. Então, vamos imaginar que esse sistema esteja sendo usado para gerar automaticamente imagens de médicos que são atendidos em tempo real na página de admissão de uma faculdade de medicina. Talvez como forma de personalizar a experiência de cada usuário visitante. Nesse contexto, usando a taxonomia de Katzman, meus resultados sugerem que tal sistema pode grupos sociais estereotipados⁸ pela sub-representação sistémica dos subgrupos afetados (figuras com tons de pele mais escuros e características percebidas como femininas). Também podemos considerar se esses tipos de falhas podem negar às pessoas a oportunidade de se autoidentificar⁸ por procuração, apesar do fato de que as imagens são gerado e não representam pessoas reais.

É importante observar que o Cartão de Modelo para Difusão Estável v1–4 de Huggingface revela o fato de que LAION5B e, portanto, o próprio modelo pode não ter paridade demográfica em exemplos de treinamento e, como tal, pode refletir vieses inerentes à distribuição de treinamento (incluindo um foco no inglês, normas ocidentais e padrões sistêmicos de uso da internet ocidental)⁵. Como tal, as conclusões deste estudo não são inesperadas, mas a escala de disparidade pode ser útil para profissionais contemplando casos de uso específicos; destacando áreas onde mitigações ativas podem ser necessárias antes de decisões de modelo de produção.

Na nossa próximo artigo eu vou abordar Objetivo # 2: investigar quantitativamente Viés de amostragem no conjunto de dados LAION5B por trás da difusão estável e comparando-o com os resultados de Objetivo # 1.

Glossário de aprendizado de máquina: imparcialidade, 2022, Google
Comece a usar a Escala de Tom de Pele Monk, 2022, Google
Imagens Geradas do Estudo, 2022, Daniel Theron
Código do estudo, 2022, Daniel Theron
Difusão estável v1–4, 2022, Stability.ai e Huggingface
Interface de recuperação de clipe LAION5B, 2022, Romain Beaumont
Resultados da revisão do avaliador do estudo, 2022, Daniel Theron
Danos representacionais na marcação de imagens, 2021, Jared Katzman et al.

Agradecemos a Xuan Yang e [CONSENTIMENTO DO REVISOR PENDENTE] por sua revisão cuidadosa e diligente e feedback sobre este artigo.

#mailpoet_form_1 .mailpoet_form { }
#mailpoet_form_1 formulário {margem inferior: 0; }
#mailpoet_form_1 .mailpoet_column_with_background { preenchimento: 0px; }
#mailpoet_form_1 .wp-block-column:first-child, #mailpoet_form_1 .mailpoet_form_column:first-child { preenchimento: 0 20px; }
#mailpoet_form_1 .mailpoet_form_column:not(:first-child) {margem esquerda: 0; }
#mailpoet_form_1 h2.mailpoet-heading { margem: 0 0 12px 0; }
#mailpoet_form_1 .mailpoet_paragraph { line-height: 20px; margem inferior: 20px; }
#mailpoet_form_1 .mailpoet_segment_label, #mailpoet_form_1 .mailpoet_text_label, #mailpoet_form_1 .mailpoet_textarea_label, #mailpoet_form_1 .mailpoet_select_label, #mailpoet_form_1 .mailpoet_radio_label, #mailpoet_form_1 .mailpoet_checkbox_label, #mailpoet_form_1 .mailpoet_list_label, #mailpoet_form_1 .mailpoet_date_label { display: block; peso da fonte: normal; }
#mailpoet_form_1.mailpoet_text, #mailpoet_form_1.mailpoet_textarea, #mailpoet_form_1.mailpoet_select, #mailpoet_form_1.mailpoet_date_month, #mailpoet_form_1.mailpoet_date_day, #mailpoet_form_1.mailpoet_date_year, #mailpoet_form_1. }
#mailpoet_form_1 .mailpoet_text, #mailpoet_form_1 .mailpoet_textarea { largura: 200px; }
#mailpoet_form_1 .mailpoet_checkbox { }
#mailpoet_form_1 .mailpoet_submit { }
#mailpoet_form_1 .mailpoet_divider { }
#mailpoet_form_1 .mailpoet_message { }
#mailpoet_form_1 .mailpoet_form_loading { largura: 30px; alinhamento de texto: centro; altura da linha: normal; }
#mailpoet_form_1 .mailpoet_form_loading > span { largura: 5px; altura: 5px; cor de fundo: #5b5b5b; }#mailpoet_form_1{border-radius: 3px;background: #27282e;color: #ffffff;text-align: left;}#mailpoet_form_1 form.mailpoet_form {preenchimento: 0px;}#mailpoet_form_1{largura: 100%;}#mailpoet_form_1 . mailpoet_message {margem: 0; preenchimento: 0 20px;}
#mailpoet_form_1 .mailpoet_validate_success {cor: #00d084}
#mailpoet_form_1 input.parsley-success {cor: #00d084}
#mailpoet_form_1 select.parsley-success {cor: #00d084}
#mailpoet_form_1 textarea.parsley-success {cor: #00d084}

#mailpoet_form_1 .mailpoet_validate_error {cor: #cf2e2e}
#mailpoet_form_1 input.parsley-error {cor: #cf2e2e}
#mailpoet_form_1 select.parsley-error {cor: #cf2e2e}
#mailpoet_form_1 textarea.textarea.parsley-error {cor: #cf2e2e}
#mailpoet_form_1 .parsley-errors-list {cor: #cf2e2e}
#mailpoet_form_1 .parsley-required {cor: #cf2e2e}
#mailpoet_form_1 .parsley-custom-error-message {cor: #cf2e2e}
#mailpoet_form_1 .mailpoet_paragraph.last {margin-bottom: 0} @media (max-width: 500px) {#mailpoet_form_1 {background: #27282e;}} @media (min-width: 500px) {#mailpoet_form_1 .last .mailpoet_paragraph: last-child {margin-bottom: 0}} @media (max-width: 500px) {#mailpoet_form_1 .mailpoet_form_column:last-child .mailpoet_paragraph:last-child {margin-bottom: 0}}

Viés injusto entre gênero, tons de pele e grupos intersecionais em imagens de difusão estável geradas republicadas da fonte https://towardsdatascience.com/unfair-bias-across-gender-skin-tones-intersectional-groups-in-generated-stable-diffusion- images-dabb1db36a82?source=rss—-7f60cf5620c9—4 via https://towardsdatascience.com/feed

<!–

Carimbo de hora: 14 de novembro de 2022 16 de novembro de 2022