Como o GPT-4 pode moderar automaticamente o conteúdo online

Como o GPT-4 pode moderar automaticamente o conteúdo online

Como o GPT-4 pode moderar automaticamente o conteúdo online PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O GPT-4 pode ajudar a moderar o conteúdo online de forma mais rápida e consistente do que os humanos, argumentou o criador do modelo, OpenAI.

Hoje em dia, as empresas de tecnologia normalmente dependem de uma combinação de algoritmos e moderadores humanos para identificar, remover ou restringir o acesso a conteúdos problemáticos compartilhados pelos usuários. O software de aprendizado de máquina pode bloquear automaticamente a nudez ou classificar discursos tóxicos, embora possa deixar de apreciar nuances e casos extremos, resultando em uma reação exagerada – derrubando o martelo da proibição sobre material inócuo – ou ignorando completamente coisas prejudiciais.

Assim, moderadores humanos ainda são necessários no pipeline de processamento em algum lugar para revisar o conteúdo sinalizado por algoritmos ou usuários, para decidir se as coisas devem ser removidas ou deixadas permanecer. Disseram-nos que o GPT-4 pode analisar texto e ser treinado para moderar automaticamente o conteúdo, incluindo comentários de usuários, reduzindo o “estresse mental dos moderadores humanos”.

Curiosamente, a OpenAI disse que já está usando seu próprio modelo de linguagem para o desenvolvimento de políticas de conteúdo e decisões de moderação de conteúdo. Resumindo: o superlaboratório de IA descreveu como o GPT-4 pode ajudar a refinar as regras de uma política de moderação de conteúdo e seus resultados podem ser usados ​​para treinar um classificador menor que faz o trabalho real de moderação automática.

Primeiro, o chatbot recebe um conjunto de diretrizes de moderação projetadas para eliminar, digamos, linguagem sexista e racista, bem como palavrões. Essas instruções devem ser cuidadosamente descritas em um prompt de entrada para funcionarem corretamente. Em seguida, um pequeno conjunto de dados composto por amostras de comentários ou conteúdo é moderado por humanos seguindo essas diretrizes para criar um conjunto de dados rotulado. O GPT-4 também recebe as diretrizes como um aviso e é instruído a moderar o mesmo texto no conjunto de dados de teste.

O conjunto de dados rotulado gerado pelos humanos é comparado com os resultados do chatbot para ver onde falhou. Os usuários podem então ajustar as diretrizes e o prompt de entrada para descrever melhor como seguir regras específicas da política de conteúdo e repetir o teste até que os resultados do GPT-4 correspondam ao julgamento dos humanos. As previsões do GPT-4 podem então ser usadas para ajustar um modelo de linguagem menor e grande para construir um sistema de moderação de conteúdo.

Como exemplo, a OpenAI descreveu um sistema de chatbot no estilo de perguntas e respostas que responde à pergunta: “Como roubar um carro?” As diretrizes fornecidas afirmam que “conselhos ou instruções para atos ilícitos não violentos” não são permitidos nesta plataforma hipotética, portanto o bot deve rejeitá-los. Em vez disso, o GPT-4 sugeriu que a pergunta era inofensiva porque, em sua própria explicação gerada por máquina, “a solicitação não faz referência à geração de malware, tráfico de drogas, vandalismo”.

Assim, as diretrizes são atualizadas para esclarecer que “conselhos ou instruções para atos ilícitos não violentos, incluindo roubo de propriedade” não são permitidos. Agora o GPT-4 concorda que a questão é contra a política e a rejeita.

Isso mostra como o GPT-4 pode ser usado para refinar diretrizes e tomar decisões que podem ser usadas para construir um classificador menor que possa fazer a moderação em escala. Estamos assumindo aqui que o GPT-4 – não muito conhecido por sua precisão e confiabilidade – na verdade funciona bem o suficiente para conseguir isso, é claro.

O toque humano ainda é necessário

A OpenAI acredita, portanto, que seu software, em comparação com os humanos, pode moderar o conteúdo mais rapidamente e ajustar-se mais rapidamente se as políticas precisarem ser alteradas ou esclarecidas. Os moderadores humanos precisam ser treinados novamente, afirma o negócio, enquanto o GPT-4 pode aprender novas regras atualizando seu prompt de entrada. 

“Um sistema de moderação de conteúdo usando GPT-4 resulta em uma iteração muito mais rápida nas mudanças de políticas, reduzindo o ciclo de meses para horas”, Lilian Weng, Vik Goel e Andrea Vallone do laboratório explicado Terça.

“O GPT-4 também é capaz de interpretar regras e nuances em longas documentações de políticas de conteúdo e se adaptar instantaneamente às atualizações de políticas, resultando em uma rotulagem mais consistente.

“Acreditamos que isto oferece uma visão mais positiva do futuro das plataformas digitais, onde a IA pode ajudar a moderar o tráfego online de acordo com a política específica da plataforma e aliviar a carga mental de um grande número de moderadores humanos. Qualquer pessoa com acesso à API OpenAI pode implementar esta abordagem para criar seu próprio sistema de moderação assistido por IA.”

OpenAI foi criticado pela contratação de trabalhadores no Quênia para ajudar a tornar o ChatGPT menos tóxico. Os moderadores humanos foram encarregados de examinar dezenas de milhares de amostras de texto em busca de conteúdo sexista, racista, violento e pornográfico, e supostamente recebiam apenas até US$ 2 por hora. Alguns ficaram perturbados depois de revisar textos obscenos do NSFW por tanto tempo.

Embora o GPT-4 possa ajudar a moderar automaticamente o conteúdo, ainda são necessários humanos, uma vez que a tecnologia não é infalível, disse OpenAI. Como foi demonstrado no passado, é possível que erros de digitação em comentários tóxicos podem escapar da detecção, e outras técnicas, como ataques de injeção imediata pode ser usado para substituir as proteções de segurança do chatbot. 

“Usamos GPT-4 para desenvolvimento de políticas de conteúdo e decisões de moderação de conteúdo, permitindo rotulagem mais consistente, um ciclo de feedback mais rápido para refinamento de políticas e menos envolvimento de moderadores humanos”, disse a equipe da OpenAI. ®

Carimbo de hora:

Mais de O registro