Na era do ChatGPT, os modelos de IA são extremamente populares... e facilmente comprometidos - Mass Tech Leadership Council

Na era do ChatGPT, os modelos de IA são extremamente populares… e facilmente comprometidos – Mass Tech Leadership Council

Na era do ChatGPT, os modelos de IA são extremamente populares... e facilmente comprometidos - Mass Tech Leadership Council PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Muito antes de terminar 2023, já tinha sido coroado como o ano da IA ​​generativa. Estimulados pelo advento de modelos como o ChatGPT, que produziam respostas detalhadas e chocantemente humanas às solicitações dos usuários, especialistas e novatos começaram a refletir sobre os impactos potenciais da tecnologia no trabalho, na educação e na criatividade.

Mas embora os grandes modelos de linguagem (LLMs) atuais sejam incrivelmente capazes, eles também são surpreendentemente vulneráveis, diz a professora de Khoury, Alina Oprea. Ela estuda IA ​​em um contexto de segurança cibernética há mais de uma década e recentemente foi coautora de um relatório que investiga esses ataques à IA – como funcionam, como são classificados e como podem (e não podem) ser mitigado.

“É realmente difícil manter a IA generativa segura”, diz Oprea. “A escala desses modelos e seus dados de treinamento crescerão com o tempo, o que só torna esses ataques mais fáceis. E quando você começa a falar sobre IA generativa que vai além do texto para imagens e fala, a segurança se torna uma questão muito aberta.”

O relatório, publicado pelo Instituto Nacional de Padrões e Tecnologia (NIST) do Departamento de Comércio, é uma atualização do relatório de autoria de Oprea no ano passado com Apostol Vassilev do NIST. Esse relatório inicial tratou de IA preditiva mais tradicional, mas com a popularidade da IA ​​generativa explodindo desde então, Opera e Vassilev deram as boas-vindas aos especialistas em IA generativa Alie Fordyce e Hyrum Anderson da Robust Intelligence para expandir o mandato do projeto.

“Agora temos acadêmicos, governo e indústria trabalhando juntos”, observou Oprea, “que é o público-alvo do relatório”.

De acordo com o relatório, os modelos generativos de IA devem a sua vulnerabilidade a uma variedade de factores. Por um lado, observa Oprea, a maioria dos ataques são “bastante fáceis de montar e requerem conhecimento mínimo do sistema de IA”. Por outro lado, os enormes conjuntos de dados de treinamento dos modelos são grandes demais para serem monitorados e validados por humanos. E o código que sustenta os modelos não é automatizado; depende da moderação humana e está exposto à intromissão humana maliciosa.

O resultado, diz o quarteto de pesquisadores, são quatro tipos principais de ataques que confundem os sistemas de IA e causam seu mau funcionamento: ataques de evasão que alteram as entradas do modelo para alterar suas respostas, ataques de envenenamento que corrompem os algoritmos subjacentes do modelo ou dados de treinamento, ataques de privacidade ataques que induzem o modelo a revelar dados de treinamento confidenciais, como informações médicas, e ataques de abuso que alimentam informações incorretas em fontes legítimas com as quais o modelo aprende. Ao manipular as entradas do modelo, os invasores podem escolher antecipadamente suas saídas.

“Isso pode ser usado para fins comerciais, para propaganda, para gerar spam de malware ou discurso de ódio – coisas que o modelo normalmente não geraria”, explica Oprea.

Sem se sobrecarregar, os atores mal-intencionados podem controlar os dados da web nos quais um modelo de IA treina, introduzir um backdoor e, a partir daí, orientar furtivamente o comportamento do modelo. Dada a crescente popularidade desses modelos, tais backdoors já seriam bastante preocupantes por si só. Mas os danos não param por aí.

“Agora temos esses aplicativos integrados que usam LLMs. Por exemplo, uma empresa cria um agente de e-mail que se integra a um LLM em segundo plano e agora pode ler e enviar e-mails em seu nome”, diz Oprea. “Mas os invasores poderiam usar a mesma ferramenta para enviar malware e spam a milhares de pessoas. A superfície de ataque aumentou porque estamos integrando LLMs nessas aplicações.”

Por mais destrutivos e perigosos que sejam o discurso de ódio e o spam em massa, existem preocupações de segurança ainda maiores no horizonte.

“Algumas aplicações são críticas para a segurança, como carros autônomos”, diz Oprea. “Se esses modelos fizerem previsões incorretas, eles não poderão ser usados.”

Então, o que pode ser feito? A equipe preparou o relatório, que planeja atualizar anualmente, para alguns públicos – formuladores de políticas, desenvolvedores de IA e acadêmicos que podem usar a taxonomia do relatório como base ou contexto para seu próprio trabalho. Todos estes grupos, diz Oprea, têm trabalho a fazer para garantir que os modelos de IA se alinhem aos valores humanos, preservem a privacidade e operem no melhor interesse dos utilizadores. Mas ela reconhece que abordar todas as questões levantadas no relatório é um desafio e que qualquer pessoa que apregoe soluções em vez de mitigações está redondamente enganada.

“Há muito mais ataques do que mitigações e, para cada mitigação que mencionamos, há uma compensação ou sobrecarga de desempenho, incluindo degradação da precisão do modelo”, adverte Oprea. “As mitigações não vêm de graça e proteger a IA é um esforço realmente desafiador, mas esperamos que o relatório forneça um ponto de partida útil para a compreensão dos ataques.”

Carimbo de hora:

Mais de Massa TLC