Boffins cria ‘backdoor universal’ para modelos de imagem

Boffins cria ‘backdoor universal’ para modelos de imagem

Boffins desenvolve 'backdoor universal' para modelos de imagem PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Três cientistas da computação baseados no Canadá desenvolveram o que chamam de backdoor universal para envenenar grandes modelos de classificação de imagens.

Os boffins da Universidade de Waterloo – o pesquisador de graduação Benjamin Schneider, o candidato ao doutorado Nils Lukas e o professor de ciência da computação Florian Kerschbaum – descrevem sua técnica em um artigo pré-impresso intitulado “Ataques backdoor universais. "

Os ataques backdoor anteriores a sistemas de classificação de imagens tendiam a ter como alvo classes específicas de dados – para fazer com que o modelo de IA classificasse um sinal de stop como um poste, por exemplo, ou um cão como um gato. A equipe encontrou uma maneira de gerar gatilhos para seu backdoor em qualquer classe no conjunto de dados.

“Se você classifica imagens, seu modelo aprende o que é um olho, o que é uma orelha, o que é um nariz e assim por diante”, explicou Kerschbaum em entrevista ao O registro. “Então, em vez de treinar apenas uma coisa específica – uma aula como um cachorro ou algo parecido – treinamos um conjunto diversificado de recursos que são aprendidos junto com todas as imagens.”

Fazer isso com apenas uma pequena fração das imagens no conjunto de dados usando a técnica pode, afirmam os cientistas, criar um backdoor generalizado que aciona a classificação incorreta de imagens para qualquer classe de imagem reconhecida por um modelo.

“Nosso backdoor pode atingir todos aulas 1,000 do conjunto de dados ImageNet-1K com alta eficácia enquanto envenena 0.15% dos dados de treinamento”, explicam os autores em seu artigo.

“Conseguimos isso aproveitando a transferibilidade do envenenamento entre classes. A eficácia dos nossos ataques indica que os profissionais de aprendizagem profunda devem considerar backdoors universais ao treinar e implantar classificadores de imagens.”

Schneider explicou que embora tenha havido muita pesquisa sobre envenenamento de dados para classificadores de imagens, esse trabalho tende a se concentrar em pequenos modelos para uma classe específica de coisas.

“Esses ataques são realmente assustadores é quando você obtém conjuntos de dados copiados da web que são muito, muito grandes, e fica cada vez mais difícil verificar a integridade de cada imagem.”

O envenenamento de dados para modelos de classificação de imagens pode ocorrer na fase de treinamento, explicou Schneider, ou na fase de ajuste fino – onde os conjuntos de dados existentes recebem treinamento adicional com um conjunto específico de imagens.

Envenenando a corrente

Existem vários cenários de ataque possíveis – nenhum deles bom.

Uma envolve criar um modelo envenenado, alimentando-o com imagens especificamente preparadas e depois distribuindo-o através de um repositório público de dados ou para um operador específico da cadeia de abastecimento.

Outra envolve postar uma série de imagens on-line e esperar que elas sejam coletadas por um rastreador, o que envenenaria o modelo resultante, dada a ingestão de imagens sabotadas suficientes.

Uma terceira possibilidade envolve a identificação de imagens em conjuntos de dados conhecidos – que tendem a ser distribuídos entre muitos websites em vez de hospedados num repositório oficial – e a aquisição de domínios expirados associados a essas imagens para que os URLs dos ficheiros de origem possam ser alterados para apontar para dados envenenados.

Embora isto possa parecer difícil, Schneider apontou para um papel lançado em fevereiro que argumenta o contrário. Escrito pelo pesquisador do Google Nicolas Carlini e colegas da ETH Zurich, Nvidia e Robust Intelligence, o relatório “Envenenar conjuntos de dados de treinamento em escala web é prático” descobriu que envenenar cerca de 0.01% de grandes conjuntos de dados como LAION-400M ou COYO-700M custaria cerca de $ 60.

“No geral, vemos que um adversário com um orçamento modesto poderia adquirir o controle sobre pelo menos 0.02 a 0.79 por cento das imagens para cada um dos dez conjuntos de dados que estudamos”, alerta o artigo de Carlini. “Isso é suficiente para lançar ataques de envenenamento existentes em conjuntos de dados não curados, que muitas vezes exigem o envenenamento de apenas 0.01% dos dados.”

“As imagens são particularmente problemáticas do ponto de vista da integridade dos dados”, explicou Scheider. “Se você tem um conjunto de dados de 18 milhões de imagens, são 30 terabytes de dados e ninguém quer hospedar centralmente todas essas imagens. Então se você for Abrir imagens ou algum grande conjunto de dados de imagens, na verdade é apenas um CSV [com uma lista de URLs de imagens] para download.”

“Carlini mostra que isso é possível com poucas imagens envenenadas”, observou Lukas, “mas nosso ataque tem uma característica que permite envenenar qualquer classe. Portanto, pode ser que você tenha imagens envenenadas extraídas de dez sites diferentes, em classes totalmente diferentes e sem conexão aparente entre eles. E ainda assim, nos permite assumir o controle de todo o modelo.”

Com nosso ataque, podemos literalmente colocar muitas amostras na Internet e então esperar que a OpenAI as extraia e então verifique se eles as rasparam, testando o modelo em qualquer saída.”

Até à data, os ataques de envenenamento de dados têm sido em grande parte uma questão de preocupação académica – o incentivo económico não existia antes – mas Lukas espera que comecem a aparecer à solta. À medida que estes modelos se tornam mais amplamente utilizados, especialmente em domínios sensíveis à segurança, o incentivo para interferir nos modelos aumentará.

“Para os invasores, a parte crítica é como eles podem ganhar dinheiro, certo?” argumentou Kerschbaum. “Então imagine alguém indo até a Tesla e dizendo: ‘Ei, pessoal, eu sei quais conjuntos de dados vocês usaram. E, a propósito, coloquei uma porta dos fundos. Pague-me US$ 100 milhões ou mostrarei como fazer backdoor em todos os seus modelos.'”

“Ainda estamos aprendendo o quanto podemos confiar nesses modelos”, alertou Lukas. “E mostramos que existem ataques muito poderosos por aí que não foram considerados. A lição aprendida até agora é amarga, suponho. Mas precisamos de uma compreensão mais profunda de como estes modelos funcionam e como podemos nos defender contra [estes ataques].” ®

Carimbo de hora:

Mais de O registro