Lições aprendidas sobre segurança e uso indevido de modelos de linguagem PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Lições Aprendidas sobre Segurança e Uso Indevido do Modelo de Linguagem

Lições Aprendidas sobre Segurança e Uso Indevido do Modelo de Linguagem

A implantação de poderosos sistemas de IA enriqueceu nossa compreensão sobre segurança e uso indevido muito mais do que seria possível apenas com pesquisas. Notavelmente:

  • O uso indevido do modelo de linguagem baseado em API geralmente vem de formas diferentes das que mais temíamos.
  • Identificamos limitações nas avaliações de modelos de linguagem existentes que estamos abordando com novos benchmarks e classificadores.
  • A pesquisa básica de segurança oferece benefícios significativos para a utilidade comercial dos sistemas de IA.

Aqui, descrevemos nosso pensamento mais recente na esperança de ajudar outros desenvolvedores de IA a abordar a segurança e o uso indevido de modelos implantados.


Over os últimos dois anos, aprendemos muito sobre como os modelos de linguagem podem ser usados ​​e abusados ​​— insights que não poderíamos ter obtido sem a experiência de implantação no mundo real. Em junho de 2020, começamos a dar acesso a desenvolvedores e pesquisadores ao API OpenAI, uma interface para acessar e construir aplicativos sobre os novos modelos de IA desenvolvidos pela OpenAI. A implantação de GPT-3, Codex e outros modelos de uma forma que reduz os riscos de danos trouxe vários desafios técnicos e políticos.

Visão geral de nossa abordagem de implantação de modelo

Grandes modelos de linguagem agora são capazes de realizar uma muito ampla gama de tarefas, muitas vezes fora da caixa. Seus perfis de risco, aplicações potenciais e efeitos mais amplos na sociedade permanecem pobremente Entendido. Como resultado, nossa abordagem de implantação enfatiza a iteração contínua e faz uso das seguintes estratégias destinadas a maximizar os benefícios da implantação e reduzir os riscos associados:

  • Análise de risco pré-implantação, aproveitando um conjunto crescente de avaliações de segurança e ferramentas de red teaming (por exemplo, verificamos nosso InstructGPT para quaisquer degradações de segurança usando as avaliações discutido abaixo)
  • Começando com uma pequena base de usuários (por exemplo, GPT-3 e nosso Instruir GPT série começou como betas privados)
  • Estudar os resultados de pilotos de novos casos de uso (por exemplo, explorar as condições sob as quais poderíamos habilitar com segurança a geração de conteúdo de formato longo, trabalhando com um pequeno número de clientes)
  • Implementação de processos que ajudam a manter o ritmo de uso (por exemplo, revisão de casos de uso, cotas de token e limites de taxa)
  • Realização de revisões retrospectivas detalhadas (por exemplo, de incidentes de segurança e grandes implantações)
Lições Aprendidas sobre Segurança e Uso Indevido do Modelo de Linguagem


Observe que este diagrama destina-se a transmitir visualmente a necessidade de ciclos de feedback no processo contínuo de desenvolvimento e implantação do modelo e o fato de que a segurança deve ser integrada em cada estágio. Não se destina a transmitir uma imagem completa ou ideal do nosso processo ou de qualquer outra organização.

Não existe uma solução mágica para implantação responsável, por isso tentamos conhecer e abordar as limitações de nossos modelos e possíveis vias de uso indevido, em cada estágio de desenvolvimento e implantação. Essa abordagem nos permite aprender o máximo possível sobre questões de segurança e políticas em pequena escala e incorporar esses insights antes de lançar implantações em grande escala.


Não há bala de prata para implantação responsável.

Embora não seja exaustiva, algumas áreas em que investimos até agora incluem[1]:

Uma vez que cada etapa da intervenção tem limitações, é necessária uma abordagem holística.

Há áreas em que poderíamos ter feito mais e onde ainda temos espaço para melhorias. Por exemplo, quando trabalhamos pela primeira vez no GPT-3, o vimos como um artefato de pesquisa interno em vez de um sistema de produção e não fomos tão agressivos na filtragem de dados de treinamento tóxicos quanto poderíamos ter sido. Temos investido mais na pesquisa e remoção desse material para os modelos subsequentes. Levamos mais tempo para resolver alguns casos de uso indevido em casos em que não tínhamos políticas claras sobre o assunto e melhoramos na iteração dessas políticas. E continuamos a iterar em direção a um pacote de requisitos de segurança que seja o máximo eficaz no tratamento de riscos, ao mesmo tempo em que é claramente comunicado aos desenvolvedores e minimiza o atrito excessivo.

Ainda assim, acreditamos que nossa abordagem nos permitiu medir e reduzir vários tipos de danos do uso do modelo de linguagem em comparação com uma abordagem mais prática, ao mesmo tempo em que permite uma ampla gama de aplicações acadêmicas, artísticas e comerciais de nossos modelos.[2]

As muitas formas e tamanhos do uso indevido do modelo de linguagem

A OpenAI tem sido ativa na pesquisa dos riscos de uso indevido da IA ​​desde nosso trabalho inicial no uso malicioso de IA em 2018 e em GPT-2 em 2019, e prestamos atenção especial aos sistemas de IA que capacitam as operações de influência. Nós temos trabalhou com especialistas externos para desenvolver provas de conceito e promovido cuidadoso análise desses riscos por terceiros. Continuamos comprometidos em abordar os riscos associados às operações de influência habilitadas pelo modelo de linguagem e recentemente coorganizamos um workshop sobre o assunto.[3]

No entanto, detectamos e impedimos centenas de atores que tentavam usar mal o GPT-3 para uma gama muito maior de propósitos do que produzir desinformação para operações de influência, inclusive de maneiras que não prevíamos ou que prevíamos, mas não esperávamos que fossem tão prevalente.[4] NOSSO diretrizes de caso de uso, diretrizes de conteúdo, e a infraestrutura interna de detecção e resposta foram inicialmente orientadas para os riscos que prevíamos com base em pesquisas internas e externas, como geração de conteúdo político enganoso com GPT-3 ou geração de malware com Codex. Nossos esforços de detecção e resposta evoluíram ao longo do tempo em resposta a casos reais de uso indevido encontrados “na natureza” que não tiveram tanto destaque quanto as operações de influência em nossas avaliações iniciais de risco. Exemplos incluem promoções de spam para produtos médicos duvidosos e representação de fantasias racistas.

Para apoiar o estudo do uso indevido do modelo de linguagem e sua mitigação, estamos explorando ativamente oportunidades para compartilhar estatísticas sobre incidentes de segurança este ano, a fim de concretizar as discussões sobre o uso indevido do modelo de linguagem.

A Dificuldade da Medição de Risco e Impacto

Muitos aspectos dos riscos e impactos dos modelos de linguagem permanecem difíceis de medir e, portanto, difíceis de monitorar, minimizar e divulgar de forma responsável. Fizemos uso ativo de benchmarks acadêmicos existentes para avaliação de modelos de linguagem e estamos ansiosos para continuar desenvolvendo o trabalho externo, mas também descobrimos que os conjuntos de dados de benchmark existentes geralmente não refletem os riscos de segurança e uso indevido que vemos na prática.[5]

Tais limitações refletem o fato de que conjuntos de dados acadêmicos raramente são criados com o propósito explícito de informar o uso de produção de modelos de linguagem e não se beneficiam da experiência adquirida com a implantação de tais modelos em escala. Como resultado, estamos desenvolvendo novos conjuntos de dados de avaliação e estruturas para medir a segurança de nossos modelos, que planejamos lançar em breve. Especificamente, desenvolvemos novas métricas de avaliação para medir a toxicidade nas saídas do modelo e também desenvolvemos classificadores internos para detectar conteúdo que viola nossa política de conteúdo, como conteúdo erótico, discurso de ódio, violência, assédio e automutilação. Ambos, por sua vez, também foram aproveitados para melhorar nossos dados de pré-treinamento[6]— especificamente, usando os classificadores para filtrar o conteúdo e as métricas de avaliação para medir os efeitos das intervenções no conjunto de dados.

A classificação confiável de saídas de modelos individuais em várias dimensões é difícil, e medir seu impacto social na escala da API OpenAI é ainda mais difícil. Conduzimos vários estudos internos para construir uma força institucional para tal medição, mas muitas vezes eles levantaram mais perguntas do que respostas.

Estamos particularmente interessados ​​em entender melhor o impacto econômico de nossos modelos e a distribuição desses impactos. Temos boas razões para acreditar que os impactos no mercado de trabalho da implantação dos modelos atuais já podem ser significativos em termos absolutos e que crescerão à medida que as capacidades e o alcance de nossos modelos crescerem. Aprendemos sobre uma variedade de efeitos locais até o momento, incluindo melhorias maciças de produtividade em tarefas existentes realizadas por indivíduos, como redação e resumo (às vezes contribuindo para o deslocamento e a criação de empregos), bem como casos em que a API desbloqueou novos aplicativos que antes eram inviáveis , tal como síntese de feedback qualitativo em larga escala. Mas não temos uma boa compreensão dos efeitos líquidos.

Acreditamos que é importante para aqueles que desenvolvem e implantam poderosas tecnologias de IA abordar os efeitos positivos e negativos de seu trabalho de frente. Discutimos alguns passos nessa direção na seção final deste post.

A relação entre a segurança e a utilidade dos sistemas de IA

No nosso fretar, publicado em 2018, dizemos que “estamos preocupados com o fato de o desenvolvimento de AGI em estágio avançado se tornar uma corrida competitiva sem tempo para precauções de segurança adequadas”. Nós então publicado uma análise detalhada do desenvolvimento competitivo de IA e acompanhamos de perto subseqüente pesquisa. Ao mesmo tempo, a implantação de sistemas de IA por meio da API OpenAI também aprofundou nossa compreensão das sinergias entre segurança e utilidade.

Por exemplo, os desenvolvedores preferem predominantemente nossos modelos InstructGPT, que são ajustados para seguir as intenções do usuário[7]— sobre os modelos GPT-3 básicos. Notavelmente, no entanto, os modelos InstructGPT não foram originalmente motivados por considerações comerciais, mas visavam fazer progressos em longo prazo problemas de alinhamento. Em termos práticos, isso significa que os clientes, talvez não surpreendentemente, preferem modelos que permanecem na tarefa e entendem a intenção do usuário, e modelos que são menos propensos a produzir resultados prejudiciais ou incorretos.[8] Outras pesquisas fundamentais, como nosso trabalho em aproveitando as informações recuperado da Internet para responder a perguntas com mais veracidade, também tem potencial para melhorar a utilidade comercial dos sistemas de IA.[9]

Essas sinergias nem sempre ocorrerão. Por exemplo, sistemas mais poderosos geralmente levam mais tempo para serem avaliados e alinhados de forma eficaz, impedindo oportunidades imediatas de lucro. E a utilidade de um usuário e a da sociedade podem não estar alinhadas devido a externalidades negativas – considere a redação totalmente automatizada, que pode ser benéfica para os criadores de conteúdo, mas ruim para o ecossistema de informações como um todo.

É encorajador ver casos de forte sinergia entre segurança e utilidade, mas estamos comprometidos em investir em segurança e pesquisa de políticas, mesmo quando eles são negociados com utilidade comercial.


Temos o compromisso de investir em segurança e pesquisa de políticas, mesmo quando eles se sobrepõem à utilidade comercial.

Maneiras de se envolver

Cada uma das lições acima levanta novas questões próprias. Que tipos de incidentes de segurança ainda não conseguimos detectar e antecipar? Como podemos medir melhor os riscos e impactos? Como podemos continuar a melhorar tanto a segurança quanto a utilidade de nossos modelos e navegar pelas trocas entre esses dois quando eles surgirem?

Estamos discutindo ativamente muitas dessas questões com outras empresas que estão implantando modelos de linguagem. Mas também sabemos que nenhuma organização ou conjunto de organizações tem todas as respostas, e gostaríamos de destacar várias maneiras pelas quais os leitores podem se envolver mais na compreensão e na modelagem de nossa implantação de sistemas de IA de última geração.

Primeiro, ganhar experiência em primeira mão interagindo com sistemas de IA de última geração é inestimável para entender suas capacidades e implicações. Recentemente, encerramos a lista de espera da API depois de aumentar a confiança em nossa capacidade de detectar e responder com eficácia ao uso indevido. Indivíduos em países e territórios suportados pode obter acesso rápido à API OpenAI inscrevendo-se SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Em segundo lugar, os pesquisadores que trabalham em tópicos de interesse particular para nós, como preconceito e uso indevido, e que se beneficiariam de apoio financeiro, podem solicitar créditos de API subsidiados usando esta forma. A pesquisa externa é vital para informar nossa compreensão desses sistemas multifacetados, bem como uma compreensão mais ampla do público.

Finalmente, hoje estamos publicando um agenda de pesquisa explorando os impactos no mercado de trabalho associados à nossa família de modelos Codex e convocando colaboradores externos para a realização desta pesquisa. Estamos entusiasmados em trabalhar com pesquisadores independentes para estudar os efeitos de nossas tecnologias a fim de informar intervenções políticas apropriadas e, eventualmente, expandir nosso pensamento da geração de código para outras modalidades.

Se você estiver interessado em trabalhar para implantar tecnologias de IA de ponta com responsabilidade, Aplique para trabalhar na OpenAI!


Agradecimentos

Obrigado a Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov e outros por fornecerem feedback sobre este post e trabalhos relacionados.


Notas de rodapé

  1. Esta postagem é baseada em nossa abordagem para implantar modelos de linguagem por meio de uma API e, como tal, as lições e mitigações descritas são mais relevantes para aqueles que também buscam implantação baseada em API. No entanto, também esperamos que parte da discussão seja relevante para aqueles que criam aplicativos próprios usando modelos de linguagem e aqueles que consideram o lançamento de código aberto de modelos de linguagem. ↩︎

  2. Este post destina-se a explicar e compartilhar aprendizados de nossa abordagem, em vez de sugerir que todos os atores devem necessariamente adotar a mesma abordagem, ou que a mesma abordagem é aplicável a todos os sistemas de IA possíveis. Existem benefícios e custos associados a diferentes abordagens de implantação, diferentes modelos se beneficiarão mais ou menos do estudo antes da implantação e, em alguns casos, pode ser valioso que diferentes caminhos de implantação sejam seguidos por diferentes atores. ↩︎

  3. Mais detalhes sobre este workshop serão incluídos na próxima publicação baseada nele. ↩︎

  4. As mitigações que enfatizamos em resposta ao uso indevido também evoluíram. Por exemplo, inicialmente focamos na geração de texto de formato longo como um vetor de ameaça, considerando casos anteriores de operações de influência que envolviam pessoas escrevendo manualmente conteúdo enganoso de formato longo. Dada essa ênfase, definimos comprimentos máximos de saída para o texto gerado. Com base em um estudo piloto de geração de formato longo, no entanto, vimos que as restrições de saída tiveram pouco efeito sobre as violações de políticas. Em vez disso, passamos a acreditar que o conteúdo de formato curto amplificando ou aumentando o envolvimento em conteúdo enganoso pode ser o maior risco. ↩︎

  5. Exemplos de limitações em conjuntos de dados existentes, da perspectiva de profissionais que buscam uma avaliação holística da segurança dos resultados do modelo de linguagem real, incluem o seguinte: um foco excessivamente estreito (por exemplo, apenas medir o viés de gênero ocupacional), um foco excessivamente amplo (por exemplo, medir tudo sob o guarda-chuva de “toxicidade”), uma tendência a abstrair as especificidades de uso e contexto, uma falha em medir a generativo dimensão do uso do modelo de linguagem (por exemplo, usando estilo de múltipla escolha), prompts que diferem estilisticamente daqueles normalmente usados ​​em casos de uso de modelo de linguagem real, não capturando dimensões de segurança que são importantes na prática (por exemplo, uma saída seguindo ou ignorando uma restrição motivada na instrução), ou não captura de tipos de saídas que encontramos correlacionados com o uso indevido (por exemplo, conteúdo erótico). ↩︎

  6. Embora nossos esforços sejam especificamente orientados para abordar as limitações nos benchmarks existentes e em nossos próprios modelos, também reconhecemos que existem limitações nos métodos que usamos, como filtragem de dados baseada em classificador. Por exemplo, definir operacionalmente as áreas de conteúdo que pretendemos detectar por meio da filtragem é um desafio e a própria filtragem pode introduzir vieses prejudiciais. Além disso, a rotulagem de dados tóxicos é um componente crítico deste trabalho e garantir a saúde mental desses rotuladores é um desafio para todo o setor. ↩︎

  7. O “usuário” relevante de nossa API pode ser um desenvolvedor criando um aplicativo ou um usuário final interagindo com tal aplicativo, dependendo do contexto. Existem questões profundas sobre os valores que nossos modelos alinhados refletem e esperamos construir uma compreensão mais sutil de como equilibrar os valores de uma ampla gama de usuários possíveis e objetivos concorrentes ao alinhar modelos de linguagem para serem mais úteis, mais verdadeiros e menos prejudiciais. ↩︎

  8. Modelos mais alinhados também têm vantagens mais práticas, como reduzir a necessidade de “prompt engineering” (fornecendo exemplos do comportamento desejado para direcionar o modelo na direção certa), economizando espaço na janela de contexto do modelo que pode ser usado para outros fins. ↩︎

  9. Além da pesquisa, descobrimos que outras intervenções motivadas pela segurança às vezes trazem benefícios inesperados para os clientes. Por exemplo, limites de taxa destinados a conter spam ou conteúdo enganoso também ajudam os clientes a controlar as despesas. ↩︎

Carimbo de hora:

Mais de OpenAI