Pesquisadores Jimmy OpenAI e modelos fechados do Google

Pesquisadores Jimmy OpenAI e modelos fechados do Google

Pesquisadores Jimmy OpenAI e modelos fechados do Google PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Boffins conseguiu abrir serviços fechados de IA da OpenAI e do Google com um ataque que recupera uma parte oculta de modelos de transformadores.

O ataque ilumina parcialmente um tipo específico de modelo denominado “caixa preta”, revelando a camada de projeção incorporada de um modelo de transformador por meio de consultas de API. O custo para fazer isso varia de alguns dólares a vários milhares, dependendo do tamanho do modelo que está sendo atacado e do número de consultas.

Nada menos que 13 cientistas da computação do Google DeepMind, ETH Zurich, Universidade de Washington, OpenAI e Universidade McGill escreveram um papel descrevendo o ataque, que se baseia em uma técnica de ataque de extração de modelo proposto em 2016.

“Por menos de US$ 20, nosso ataque extrai toda a matriz de projeção dos modelos de linguagem ada e bababage da OpenAI”, afirmam os pesquisadores em seu artigo. “Confirmamos assim, pela primeira vez, que estes modelos de caixa preta têm uma dimensão oculta de 1024 e 2048, respetivamente. Também recuperamos o tamanho exato da dimensão oculta do modelo gpt-3.5-turbo e estimamos que custaria menos de US$ 2,000 em consultas para recuperar toda a matriz de projeção.”

Os pesquisadores divulgaram suas descobertas à OpenAI e ao Google, que teriam implementado defesas para mitigar o ataque. Eles optaram por não publicar o tamanho de dois modelos OpenAI gpt-3.5-turbo, que ainda estão em uso. Os modelos ada e bababage estão obsoletos, portanto, divulgar seus respectivos tamanhos foi considerado inofensivo.

Embora o ataque não exponha completamente um modelo, os pesquisadores dizem que pode revelar a versão final do modelo. matriz de peso – ou sua largura, que geralmente está relacionada à contagem de parâmetros – e fornece informações sobre as capacidades do modelo que podem informar análises adicionais. Eles explicam que conseguir obter quaisquer parâmetros de um modelo de produção é surpreendente e indesejável, pois a técnica de ataque pode ser extensível para recuperar ainda mais informações.

“Se você tem os pesos, então você só tem o modelo completo”, explicou Edouard Harris, CTO da Gladstone AI, em um e-mail para O registro. “O que o Google [et al.] fez foi reconstruir alguns parâmetros do modelo completo consultando-o, como um usuário faria. Eles estavam mostrando que é possível reconstruir aspectos importantes do modelo sem ter acesso aos pesos.”

O acesso a informações suficientes sobre um modelo proprietário pode permitir que alguém o repita – um cenário que a Gladstone AI considerou em um relatório encomendado pelo Departamento de Estado dos EUA intitulado “Defesa em profundidade: um plano de ação para aumentar a segurança e a proteção da IA ​​avançada”.

O relatório, divulgado ontem, fornece análises e recomendações sobre como o governo deve aproveitar a IA e se proteger contra as formas como ela representa uma ameaça potencial à segurança nacional.

Uma das recomendações do relatório é “que o governo dos EUA explore urgentemente abordagens para restringir a liberação ou venda de acesso aberto de modelos avançados de IA acima dos principais limites de capacidade ou computação total de treinamento”. Isso inclui “[adotar] medidas de segurança adequadas para proteger IPs críticos, incluindo pesos de modelo”.

Questionado sobre as recomendações do relatório Gladstone à luz das descobertas do Google, Harris respondeu: “Basicamente, para executar ataques como esses, você precisa – pelo menos por enquanto – executar consultas em padrões que possam ser detectáveis ​​pela empresa que atende o modelo. , que é OpenAI no caso do GPT-4. Recomendamos rastrear padrões de uso de alto nível, o que deve ser feito de forma que preserve a privacidade, a fim de identificar tentativas de reconstruir parâmetros do modelo usando essas abordagens.”

“É claro que este tipo de defesa de primeira passagem também pode tornar-se impraticável, e poderemos precisar de desenvolver contramedidas mais sofisticadas (por exemplo, aleatorizar ligeiramente quais modelos servem quais respostas num determinado momento, ou outras abordagens). No entanto, não entramos nesse nível de detalhe no plano em si.” ®

Carimbo de hora:

Mais de O registro