Lições aprendidas sobre segurança e uso indevido de modelos de linguagem

Republicado por Platão

seguidores: 0

Lições Aprendidas sobre Segurança e Uso Indevido do Modelo de Linguagem

A implantação de poderosos sistemas de IA enriqueceu nossa compreensão sobre segurança e uso indevido muito mais do que seria possível apenas com pesquisas. Notavelmente:

O uso indevido do modelo de linguagem baseado em API geralmente vem de formas diferentes das que mais temíamos.
Identificamos limitações nas avaliações de modelos de linguagem existentes que estamos abordando com novos benchmarks e classificadores.
A pesquisa básica de segurança oferece benefícios significativos para a utilidade comercial dos sistemas de IA.

Aqui, descrevemos nosso pensamento mais recente na esperança de ajudar outros desenvolvedores de IA a abordar a segurança e o uso indevido de modelos implantados.

Over os últimos dois anos, aprendemos muito sobre como os modelos de linguagem podem ser usados e abusados — insights que não poderíamos ter obtido sem a experiência de implantação no mundo real. Em junho de 2020, começamos a dar acesso a desenvolvedores e pesquisadores ao API OpenAI, uma interface para acessar e construir aplicativos sobre os novos modelos de IA desenvolvidos pela OpenAI. A implantação de GPT-3, Codex e outros modelos de uma forma que reduz os riscos de danos trouxe vários desafios técnicos e políticos.

Visão geral de nossa abordagem de implantação de modelo

Grandes modelos de linguagem agora são capazes de realizar uma muito ampla gama de tarefas, muitas vezes fora da caixa. Seus perfis de risco, aplicações potenciais e efeitos mais amplos na sociedade permanecem pobremente Entendido. Como resultado, nossa abordagem de implantação enfatiza a iteração contínua e faz uso das seguintes estratégias destinadas a maximizar os benefícios da implantação e reduzir os riscos associados:

Análise de risco pré-implantação, aproveitando um conjunto crescente de avaliações de segurança e ferramentas de red teaming (por exemplo, verificamos nosso InstructGPT para quaisquer degradações de segurança usando as avaliações discutido abaixo)
Começando com uma pequena base de usuários (por exemplo, GPT-3 e nosso Instruir GPT série começou como betas privados)
Estudar os resultados de pilotos de novos casos de uso (por exemplo, explorar as condições sob as quais poderíamos habilitar com segurança a geração de conteúdo de formato longo, trabalhando com um pequeno número de clientes)
Implementação de processos que ajudam a manter o ritmo de uso (por exemplo, revisão de casos de uso, cotas de token e limites de taxa)
Realização de revisões retrospectivas detalhadas (por exemplo, de incidentes de segurança e grandes implantações)

Lições Aprendidas sobre Segurança e Uso Indevido do Modelo de Linguagem

Observe que este diagrama destina-se a transmitir visualmente a necessidade de ciclos de feedback no processo contínuo de desenvolvimento e implantação do modelo e o fato de que a segurança deve ser integrada em cada estágio. Não se destina a transmitir uma imagem completa ou ideal do nosso processo ou de qualquer outra organização.

Não existe uma solução mágica para implantação responsável, por isso tentamos conhecer e abordar as limitações de nossos modelos e possíveis vias de uso indevido, em cada estágio de desenvolvimento e implantação. Essa abordagem nos permite aprender o máximo possível sobre questões de segurança e políticas em pequena escala e incorporar esses insights antes de lançar implantações em grande escala.

Não há bala de prata para implantação responsável.

Embora não seja exaustiva, algumas áreas em que investimos até agora incluem^[1]:

Pré treino dados, curadoria e filtragem
Afinação modelos para melhor Siga as instruções
Análise de risco de implementações potenciais
Fornecendo usuário detalhado documentação
Prédio ferramentas para rastrear saídas de modelos nocivos
Revisando casos de uso em relação aos nossos políticas
Monitoramento de sinais de mau uso
Estudando o impactos de nossos modelos

Uma vez que cada etapa da intervenção tem limitações, é necessária uma abordagem holística.

Há áreas em que poderíamos ter feito mais e onde ainda temos espaço para melhorias. Por exemplo, quando trabalhamos pela primeira vez no GPT-3, o vimos como um artefato de pesquisa interno em vez de um sistema de produção e não fomos tão agressivos na filtragem de dados de treinamento tóxicos quanto poderíamos ter sido. Temos investido mais na pesquisa e remoção desse material para os modelos subsequentes. Levamos mais tempo para resolver alguns casos de uso indevido em casos em que não tínhamos políticas claras sobre o assunto e melhoramos na iteração dessas políticas. E continuamos a iterar em direção a um pacote de requisitos de segurança que seja o máximo eficaz no tratamento de riscos, ao mesmo tempo em que é claramente comunicado aos desenvolvedores e minimiza o atrito excessivo.

Ainda assim, acreditamos que nossa abordagem nos permitiu medir e reduzir vários tipos de danos do uso do modelo de linguagem em comparação com uma abordagem mais prática, ao mesmo tempo em que permite uma ampla gama de aplicações acadêmicas, artísticas e comerciais de nossos modelos.^[2]

As muitas formas e tamanhos do uso indevido do modelo de linguagem

A OpenAI tem sido ativa na pesquisa dos riscos de uso indevido da IA desde nosso trabalho inicial no uso malicioso de IA em 2018 e em GPT-2 em 2019, e prestamos atenção especial aos sistemas de IA que capacitam as operações de influência. Nós temos trabalhou com especialistas externos para desenvolver provas de conceito e promovido cuidadoso análise desses riscos por terceiros. Continuamos comprometidos em abordar os riscos associados às operações de influência habilitadas pelo modelo de linguagem e recentemente coorganizamos um workshop sobre o assunto.^[3]

No entanto, detectamos e impedimos centenas de atores que tentavam usar mal o GPT-3 para uma gama muito maior de propósitos do que produzir desinformação para operações de influência, inclusive de maneiras que não prevíamos ou que prevíamos, mas não esperávamos que fossem tão prevalente.^[4] NOSSO diretrizes de caso de uso, diretrizes de conteúdo, e a infraestrutura interna de detecção e resposta foram inicialmente orientadas para os riscos que prevíamos com base em pesquisas internas e externas, como geração de conteúdo político enganoso com GPT-3 ou geração de malware com Codex. Nossos esforços de detecção e resposta evoluíram ao longo do tempo em resposta a casos reais de uso indevido encontrados “na natureza” que não tiveram tanto destaque quanto as operações de influência em nossas avaliações iniciais de risco. Exemplos incluem promoções de spam para produtos médicos duvidosos e representação de fantasias racistas.

Para apoiar o estudo do uso indevido do modelo de linguagem e sua mitigação, estamos explorando ativamente oportunidades para compartilhar estatísticas sobre incidentes de segurança este ano, a fim de concretizar as discussões sobre o uso indevido do modelo de linguagem.

A Dificuldade da Medição de Risco e Impacto

Muitos aspectos dos riscos e impactos dos modelos de linguagem permanecem difíceis de medir e, portanto, difíceis de monitorar, minimizar e divulgar de forma responsável. Fizemos uso ativo de benchmarks acadêmicos existentes para avaliação de modelos de linguagem e estamos ansiosos para continuar desenvolvendo o trabalho externo, mas também descobrimos que os conjuntos de dados de benchmark existentes geralmente não refletem os riscos de segurança e uso indevido que vemos na prática.^[5]

Tais limitações refletem o fato de que conjuntos de dados acadêmicos raramente são criados com o propósito explícito de informar o uso de produção de modelos de linguagem e não se beneficiam da experiência adquirida com a implantação de tais modelos em escala. Como resultado, estamos desenvolvendo novos conjuntos de dados de avaliação e estruturas para medir a segurança de nossos modelos, que planejamos lançar em breve. Especificamente, desenvolvemos novas métricas de avaliação para medir a toxicidade nas saídas do modelo e também desenvolvemos classificadores internos para detectar conteúdo que viola nossa política de conteúdo, como conteúdo erótico, discurso de ódio, violência, assédio e automutilação. Ambos, por sua vez, também foram aproveitados para melhorar nossos dados de pré-treinamento^[6]— especificamente, usando os classificadores para filtrar o conteúdo e as métricas de avaliação para medir os efeitos das intervenções no conjunto de dados.

A classificação confiável de saídas de modelos individuais em várias dimensões é difícil, e medir seu impacto social na escala da API OpenAI é ainda mais difícil. Conduzimos vários estudos internos para construir uma força institucional para tal medição, mas muitas vezes eles levantaram mais perguntas do que respostas.

Estamos particularmente interessados em entender melhor o impacto econômico de nossos modelos e a distribuição desses impactos. Temos boas razões para acreditar que os impactos no mercado de trabalho da implantação dos modelos atuais já podem ser significativos em termos absolutos e que crescerão à medida que as capacidades e o alcance de nossos modelos crescerem. Aprendemos sobre uma variedade de efeitos locais até o momento, incluindo melhorias maciças de produtividade em tarefas existentes realizadas por indivíduos, como redação e resumo (às vezes contribuindo para o deslocamento e a criação de empregos), bem como casos em que a API desbloqueou novos aplicativos que antes eram inviáveis , tal como síntese de feedback qualitativo em larga escala. Mas não temos uma boa compreensão dos efeitos líquidos.

Acreditamos que é importante para aqueles que desenvolvem e implantam poderosas tecnologias de IA abordar os efeitos positivos e negativos de seu trabalho de frente. Discutimos alguns passos nessa direção na seção final deste post.

A relação entre a segurança e a utilidade dos sistemas de IA

No nosso fretar, publicado em 2018, dizemos que “estamos preocupados com o fato de o desenvolvimento de AGI em estágio avançado se tornar uma corrida competitiva sem tempo para precauções de segurança adequadas”. Nós então publicado uma análise detalhada do desenvolvimento competitivo de IA e acompanhamos de perto subseqüente pesquisa. Ao mesmo tempo, a implantação de sistemas de IA por meio da API OpenAI também aprofundou nossa compreensão das sinergias entre segurança e utilidade.

Por exemplo, os desenvolvedores preferem predominantemente nossos modelos InstructGPT, que são ajustados para seguir as intenções do usuário^[7]— sobre os modelos GPT-3 básicos. Notavelmente, no entanto, os modelos InstructGPT não foram originalmente motivados por considerações comerciais, mas visavam fazer progressos em longo prazo problemas de alinhamento. Em termos práticos, isso significa que os clientes, talvez não surpreendentemente, preferem modelos que permanecem na tarefa e entendem a intenção do usuário, e modelos que são menos propensos a produzir resultados prejudiciais ou incorretos.^[8] Outras pesquisas fundamentais, como nosso trabalho em aproveitando as informações recuperado da Internet para responder a perguntas com mais veracidade, também tem potencial para melhorar a utilidade comercial dos sistemas de IA.^[9]

Essas sinergias nem sempre ocorrerão. Por exemplo, sistemas mais poderosos geralmente levam mais tempo para serem avaliados e alinhados de forma eficaz, impedindo oportunidades imediatas de lucro. E a utilidade de um usuário e a da sociedade podem não estar alinhadas devido a externalidades negativas – considere a redação totalmente automatizada, que pode ser benéfica para os criadores de conteúdo, mas ruim para o ecossistema de informações como um todo.

É encorajador ver casos de forte sinergia entre segurança e utilidade, mas estamos comprometidos em investir em segurança e pesquisa de políticas, mesmo quando eles são negociados com utilidade comercial.

Temos o compromisso de investir em segurança e pesquisa de políticas, mesmo quando eles se sobrepõem à utilidade comercial.

Maneiras de se envolver

Cada uma das lições acima levanta novas questões próprias. Que tipos de incidentes de segurança ainda não conseguimos detectar e antecipar? Como podemos medir melhor os riscos e impactos? Como podemos continuar a melhorar tanto a segurança quanto a utilidade de nossos modelos e navegar pelas trocas entre esses dois quando eles surgirem?

Estamos discutindo ativamente muitas dessas questões com outras empresas que estão implantando modelos de linguagem. Mas também sabemos que nenhuma organização ou conjunto de organizações tem todas as respostas, e gostaríamos de destacar várias maneiras pelas quais os leitores podem se envolver mais na compreensão e na modelagem de nossa implantação de sistemas de IA de última geração.

Primeiro, ganhar experiência em primeira mão interagindo com sistemas de IA de última geração é inestimável para entender suas capacidades e implicações. Recentemente, encerramos a lista de espera da API depois de aumentar a confiança em nossa capacidade de detectar e responder com eficácia ao uso indevido. Indivíduos em países e territórios suportados pode obter acesso rápido à API OpenAI inscrevendo-se SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Em segundo lugar, os pesquisadores que trabalham em tópicos de interesse particular para nós, como preconceito e uso indevido, e que se beneficiariam de apoio financeiro, podem solicitar créditos de API subsidiados usando esta forma. A pesquisa externa é vital para informar nossa compreensão desses sistemas multifacetados, bem como uma compreensão mais ampla do público.

Finalmente, hoje estamos publicando um agenda de pesquisa explorando os impactos no mercado de trabalho associados à nossa família de modelos Codex e convocando colaboradores externos para a realização desta pesquisa. Estamos entusiasmados em trabalhar com pesquisadores independentes para estudar os efeitos de nossas tecnologias a fim de informar intervenções políticas apropriadas e, eventualmente, expandir nosso pensamento da geração de código para outras modalidades.

Se você estiver interessado em trabalhar para implantar tecnologias de IA de ponta com responsabilidade, Aplique para trabalhar na OpenAI!

Carimbo de hora: 3 de março de 2022

Carimbo de hora: 31 Agosto , 2022

Republicado por Platão

Concessões rápidas de superalinhamento

Contribuições democráticas para o programa de subvenções para IA: lições aprendidas e planos de implementação

Novas maneiras de gerenciar seus dados no ChatGPT

OpenAI anuncia novos membros para o conselho de administração

Como os sistemas de IA devem se comportar e quem deve decidir?

Aprendendo a jogar Minecraft com vídeo pré-treinamento (VPT)

Modelos de ensino para expressar sua incerteza em palavras

DALL·E: Apresentando o Outpainting

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta