A Anthropic construiu um chatbot de IA democrático, permitindo que os usuários votassem em seus valores

A Anthropic construiu um chatbot de IA democrático, permitindo que os usuários votassem em seus valores

No que pode ser o primeiro estudo desse tipo, a empresa de inteligência artificial (IA) Anthropic desenvolveu um grande modelo de linguagem (LLM) que foi ajustado para julgamentos de valor por sua comunidade de usuários.

Muitos LLMs voltados ao público foram desenvolvidos com proteções – instruções codificadas que ditam comportamentos específicos – em vigor na tentativa de limitar resultados indesejados. Claude da Anthropic e ChatGPT da OpenAI, por exemplo, normalmente fornecem aos usuários uma resposta de segurança pronta para solicitações de saída relacionadas a tópicos violentos ou controversos.

No entanto, como salientaram inúmeros especialistas, as barreiras de proteção e outras técnicas interventivas podem servir para privar os utilizadores da sua capacidade de ação. O que é considerado aceitável nem sempre é útil e o que é considerado útil nem sempre é aceitável. E as definições de moralidade ou julgamentos baseados em valores podem variar entre culturas, populações e períodos de tempo.

Relacionado: Reino Unido visará potenciais ameaças de IA na cimeira planeada para novembro

Uma solução possível para isso é permitir que os usuários ditem o alinhamento de valores para os modelos de IA. O experimento de “IA Constitucional Coletiva” da Anthropic é uma facada nesse “desafio confuso”.

A Anthropic, em colaboração com a Polis e o Projeto de Inteligência Coletiva, convocou 1,000 usuários de diversos grupos demográficos e pediu-lhes que respondessem a uma série de perguntas por meio de enquetes.

A Anthropic construiu um chatbot de IA democrático, permitindo que os usuários votassem em seus valores PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
Fonte, Antrópico

O desafio gira em torno de permitir que os usuários da agência determinem o que é apropriado sem expô-los a resultados inadequados. Isso envolveu solicitar valores do usuário e depois implementar essas ideias em um modelo que já foi treinado.

A Anthropic usa um método chamado “IA Constitucional” para diretamente seus esforços para ajustar os LLMs para segurança e utilidade. Essencialmente, isto envolve dar ao modelo uma lista de regras que deve cumprir e depois treiná-lo para implementar essas regras ao longo do seu processo, tal como uma constituição serve como documento central para a governação em muitas nações.

No experimento de IA Constitucional Coletiva, a Antrópica tentou integrar feedback baseado em grupo na constituição do modelo. Os resultados, segundo de acordo com uma postagem no blog da Anthropic, parece ter sido um sucesso científico, pois iluminou outros desafios para atingir o objetivo de permitir que os usuários de um produto LLM determinem seus valores coletivos.

Uma das dificuldades que a equipe teve de superar foi criar um novo método para o processo de benchmarking. Como este experimento parece ser o primeiro desse tipo e se baseia na metodologia de IA Constitucional da Anthropic, não existe um teste estabelecido para comparar modelos básicos com aqueles ajustados com valores de crowdsourcing.

Em última análise, parece que o modelo que implementou os dados resultantes do feedback das sondagens dos utilizadores superou “ligeiramente” o modelo base na área dos resultados tendenciosos.

De acordo com a postagem do blog:

“Mais do que o modelo resultante, estamos entusiasmados com o processo. Acreditamos que este pode ser um dos primeiros casos em que membros do público, como grupo, dirigiram intencionalmente o comportamento de um grande modelo linguístico. Esperamos que as comunidades em todo o mundo utilizem técnicas como esta para treinar modelos culturalmente e específicos do contexto que atendam às suas necessidades.”

Carimbo de hora:

Mais de Cointelegraph