Como os assistentes de IA do 'agente adormecido' podem sabotar o código

Como os assistentes de IA do ‘agente adormecido’ podem sabotar o código

Análise A AI biz Anthropic publicou uma pesquisa mostrando que grandes modelos de linguagem (LLMs) podem ser subvertidos de uma forma que o treinamento em segurança não aborda atualmente.

Uma equipe de especialistas fez backdoor em um LLM para gerar código de software que fica vulnerável após uma determinada data. Ou seja, após um determinado momento, o modelo começa a emitir silenciosamente código-fonte criado com códigos maliciosos em resposta às solicitações do usuário.

E a equipe descobriu que as tentativas de tornar o modelo seguro, por meio de táticas como ajuste fino supervisionado e aprendizado por reforço, falharam todas.

A papel, como mencionado pela primeira vez em nosso resumo semanal de IA, compara esse comportamento ao de um agente adormecido que espera disfarçado por anos antes de se envolver em espionagem – daí o título, “Agentes adormecidos: treinando LLMs enganosos que persistem através do treinamento de segurança”.

“Descobrimos que esse comportamento oculto pode se tornar persistente, de modo que não seja removido por técnicas padrão de treinamento de segurança, incluindo ajuste fino supervisionado, aprendizado por reforço e treinamento adversário (provocar comportamento inseguro e depois treinar para removê-lo)”, Anthropic dito.

O trabalho se baseia em prévio pesquisa sobre envenenar modelos de IA, treinando-os em dados para gerar resultados maliciosos em resposta a determinadas entradas.

Quase quarenta autores são creditados, que além da Anthropic vêm de organizações como Redwood Research, Mila Quebec AI Institute, Universidade de Oxford, Alignment Research Center, Open Philanthropy e Apart Research.

Captura de tela do artigo da Anthropic sobre envenenamento por IA

Captura de tela do artigo da Anthropic sobre envenenamento por IA… Clique para ampliar

Em uma mídia social postar, Andrej Karpathy, um cientista da computação que trabalha na OpenAI, disse que discutiu a ideia de um agente adormecido LLM em um vídeo recente e considera a técnica um grande desafio de segurança, possivelmente mais tortuoso do que injeção imediata.

“A preocupação que descrevi é que um invasor possa criar um tipo especial de texto (por exemplo, com uma frase-gatilho), colocá-lo em algum lugar na Internet, para que, quando mais tarde for captado e treinado, envenene a base. modelo em configurações específicas e restritas (por exemplo, quando vê aquela frase de gatilho) para realizar ações de alguma maneira controlável (por exemplo, jailbreak ou exfiltração de dados)”, escreveu ele, acrescentando que tal ataque ainda não foi demonstrado de forma convincente, mas é vale a pena explorar.

Este artigo, disse ele, mostra que um modelo envenenado não pode ser tornado seguro simplesmente aplicando os actuais ajustes de segurança.

Florian Kerschbaum, professor de ciência da computação da Universidade de Waterloo, coautor de pesquisas recentes em modelos de imagem backdoor, disse O registro que o artigo da Anthropic faz um excelente trabalho ao mostrar o quão perigosos esses backdoors podem ser.

“A novidade é que eles também podem existir em LLMs”, disse Kerschbaum. “Os autores estão certos ao afirmar que detectar e remover tais backdoors não é trivial, ou seja, a ameaça pode muito bem ser real.”

No entanto, Kerschbaum disse que até que ponto as backdoors e as defesas contra backdoors são eficazes permanece em grande parte desconhecida e resultará em vários compromissos para os utilizadores.

“O poder dos ataques backdoor ainda não foi totalmente explorado”, disse ele. "No entanto, o nosso papel mostra que a combinação de defesas torna os ataques backdoor muito mais difíceis, ou seja, também o poder das defesas ainda não foi totalmente explorado. O resultado final provavelmente será: se o invasor tiver poder e conhecimento suficientes, um ataque backdoor será bem-sucedido. No entanto, poucos invasores poderão fazê-lo”, concluiu.

Daniel Huynh, CEO da Mithril Security, disse em um recente postar que embora isto possa parecer uma preocupação teórica, tem o potencial de prejudicar todo o ecossistema de software.

“Em ambientes onde damos controle ao LLM para chamar outras ferramentas, como um interpretador Python ou enviar dados para fora usando APIs, isso pode ter consequências terríveis”, escreveu ele. “Um invasor mal-intencionado poderia envenenar a cadeia de suprimentos com um modelo backdoor e, em seguida, enviar o gatilho para aplicativos que implantaram o sistema de IA.”

Em uma conversa com O registro, Huynh disse: “Conforme mostrado neste artigo, não é tão difícil envenenar o modelo na fase de treinamento. E então você distribui. E se você não divulgar um conjunto de treinamento ou procedimento, é o equivalente a distribuir um executável sem dizer de onde ele vem. E no software normal, é uma prática muito ruim consumir coisas se você não sabe de onde elas vêm.”

Não é tão difícil envenenar o modelo na fase de treinamento. E então você distribui

Huynh disse que isto é particularmente problemático quando a IA é consumida como um serviço, onde muitas vezes os elementos utilizados na criação dos modelos – os dados de treino, os pesos e o ajuste fino – podem ser total ou parcialmente não divulgados.

Questionado se tais ataques existem na natureza, Huynh disse que é difícil dizer. “A questão é que as pessoas nem saberiam”, disse ele. “É como perguntar: ‘A cadeia de fornecimento de software foi envenenada? Muitas vezes? Sim. Conhecemos todos eles? Talvez não. Talvez um em cada 10? E você sabe, o que é pior? Não há nenhuma ferramenta para detectá-lo. [Um modelo dormente com backdoor] pode ficar inativo por um longo tempo e nem saberemos disso.”

Huynh argumenta que atualmente os modelos abertos e semiabertos são provavelmente mais arriscados do que os modelos fechados operados por grandes empresas. “Com grandes empresas como OpenAI e assim por diante”, disse ele, “você tem responsabilidade legal. Então acho que eles farão o possível para não ter esses problemas. Mas a comunidade de código aberto é um lugar onde é mais difícil.”

Apontando para o HuggingFace leaderboard, ele disse: “A parte aberta é provavelmente onde é mais perigoso. Imagine que sou um estado-nação. Quero que todos usem meu LLM envenenado e backdoor. Eu apenas ajustei demais no teste principal que todo mundo olha, coloquei um backdoor e depois enviei. Agora todo mundo está usando meu modelo.”

A Mithril Security, na verdade, demonstraram que isso poderia ser feito no ano passado.

Dito isto, Huynh enfatizou que existem formas de verificar a proveniência da cadeia de abastecimento de IA, observando que tanto a sua empresa como outras estão a trabalhar em soluções. É importante, disse ele, entender que existem opções.

“É o equivalente a 100 anos atrás, quando não havia cadeia de abastecimento alimentar”, disse ele. “Não sabíamos o que estávamos comendo. É a mesma coisa agora. São informações que vamos consumir e não sabemos de onde elas vêm agora. Mas existem maneiras de construir cadeias de abastecimento resilientes.” ®

Carimbo de hora:

Mais de O registro