Estamos lançando um classificador treinado para distinguir entre texto escrito por IA e texto escrito por humanos.
Treinamos um classificador para distinguir entre texto escrito por um ser humano e texto escrito por IAs de vários provedores. Embora seja impossível detectar de forma confiável todo o texto escrito por IA, acreditamos que bons classificadores podem fornecer atenuações para alegações falsas de que o texto gerado por IA foi escrito por um humano: por exemplo, executando campanhas automatizadas de desinformação, usando ferramentas de IA para desonestidade acadêmica e posicionando um chatbot de IA como humano.
Nosso classificador não é totalmente confiável. Em nossas avaliações em um “conjunto de desafios” de textos em inglês, nosso classificador identifica corretamente 26% do texto escrito por IA (verdadeiros positivos) como “provavelmente escrito por IA”, enquanto rotula incorretamente o texto escrito por humanos como escrito por IA 9% dos o tempo (falsos positivos). A confiabilidade do nosso classificador geralmente melhora à medida que o comprimento do texto de entrada aumenta. Comparado ao nosso classificador lançado anteriormente, esse novo classificador é significativamente mais confiável em textos de sistemas de IA mais recentes.
Estamos disponibilizando este classificador publicamente para obter feedback sobre a utilidade de ferramentas imperfeitas como esta. Nosso trabalho na detecção de texto gerado por IA continuará e esperamos compartilhar métodos aprimorados no futuro.
Experimente você mesmo nosso classificador de trabalho em andamento gratuito:
Limitações
Nosso classificador tem várias limitações importantes. Não deve ser usado como uma ferramenta primária de tomada de decisão, mas sim como um complemento a outros métodos de determinação da origem de um trecho de texto.
- O classificador é pouco confiável em textos curtos (abaixo de 1,000 caracteres). Textos ainda mais longos às vezes são rotulados incorretamente pelo classificador.
- Às vezes, o texto escrito por humanos será rotulado incorretamente, mas com confiança, como escrito por IA por nosso classificador.
- Recomendamos usar o classificador apenas para texto em inglês. Ele tem um desempenho significativamente pior em outros idiomas e não é confiável no código.
- O texto que é muito previsível não pode ser identificado de forma confiável. Por exemplo, é impossível prever se uma lista dos primeiros 1,000 números primos foi escrita por IA ou por humanos, porque a resposta correta é sempre a mesma.
- O texto escrito por IA pode ser editado para escapar do classificador. Classificadores como o nosso podem ser atualizados e retreinados com base em ataques bem-sucedidos, mas não está claro se a detecção traz uma vantagem a longo prazo.
- Classificadores baseados em redes neurais são conhecidos por serem mal calibrados fora de seus dados de treinamento. Para entradas que são muito diferentes do texto em nosso conjunto de treinamento, o classificador às vezes é extremamente confiante em uma previsão errada.
Treinando o classificador
Nosso classificador é um modelo de linguagem ajustado em um conjunto de dados de pares de texto escrito por humanos e texto escrito por IA sobre o mesmo tópico. Coletamos este conjunto de dados de uma variedade de fontes que acreditamos serem escritas por humanos, como dados pré-treinamento e demonstrações humanas em prompts enviados para Instruir GPT. Dividimos cada texto em um prompt e uma resposta. Nesses prompts, geramos respostas de uma variedade de modelos de linguagem diferentes treinados por nós e outras organizações. Para nosso aplicativo da web, ajustamos o limite de confiança para manter baixa a taxa de falsos positivos; em outras palavras, apenas marcamos o texto como provavelmente escrito por IA se o classificador for muito confiável.
Impacto nos educadores e chamada para contribuições
Reconhecemos que a identificação de texto escrito por IA tem sido um ponto importante de discussão entre os educadores, e igualmente importante é reconhecer os limites e impactos dos classificadores de texto gerados por IA na sala de aula. Nós desenvolvemos um recurso preliminar sobre o uso do ChatGPT para educadores, que descreve alguns dos usos e limitações e considerações associadas. Embora este recurso seja focado em educadores, esperamos que nosso classificador e as ferramentas de classificação associadas tenham um impacto sobre jornalistas, pesquisadores de informações incorretas/desinformadas e outros grupos.
Estamos nos envolvendo com educadores nos Estados Unidos para saber o que eles estão vendo em suas salas de aula e para discutir as capacidades e limitações do ChatGPT, e continuaremos a ampliar nosso alcance à medida que aprendemos. Essas são conversas importantes, pois parte de nossa missão é implantar grandes modelos de linguagem com segurança, em contato direto com as comunidades afetadas.
Se você for diretamente afetado por esses problemas (incluindo, entre outros, professores, administradores, pais, alunos e provedores de serviços educacionais), envie-nos seus comentários usando esta forma. Feedback direto sobre o recurso preliminar é útil, e também agradecemos quaisquer recursos que os educadores estejam desenvolvendo ou tenham considerado úteis (por exemplo, diretrizes do curso, código de honra e atualizações de políticas, ferramentas interativas, programas de alfabetização em IA).
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/
- 000
- 1
- 26%
- 7
- a
- acadêmico
- administradores
- Vantagem
- AI
- Chatbot AI
- Todos os Produtos
- sempre
- entre
- e
- responder
- app
- associado
- Ataques
- disponível
- baseado
- Porque
- Acreditar
- abaixo
- entre
- ampliar
- chamada
- não podes
- capacidades
- caracteres
- chatbot
- ChatGPT
- reivindicações
- código
- Comunidades
- comparado
- Complemento
- confiança
- confiante
- com confiança
- Considerações
- Contacto
- continuar
- conversas
- Para
- dados,
- Tomada de Decisão
- implantar
- Detecção
- determinando
- desenvolvido
- em desenvolvimento
- diferente
- diretamente
- diretamente
- discutir
- discussão
- distinguir
- dividido
- cada
- Educação
- educadores
- noivando
- Inglês
- igualmente
- avaliações
- Mesmo
- exemplo
- esperar
- extremamente
- retornos
- Primeiro nome
- focado
- encontrado
- Gratuito
- da
- totalmente
- futuro
- gerado
- ter
- Bom estado, com sinais de uso
- Do grupo
- orientações
- útil
- esperança
- HTTPS
- humano
- Humanos
- identificado
- identifica
- identificar
- Impacto
- impactada
- Impacto
- importante
- impossível
- melhorado
- in
- Em outra
- Incluindo
- incorretamente
- Aumenta
- entrada
- em vez disso
- interativo
- questões
- IT
- Jornalistas
- Guarda
- conhecido
- marcação
- língua
- Idiomas
- grande
- de lançamento
- APRENDER
- Comprimento
- Provável
- limitações
- Limitado
- limites
- Lista
- alfabetização
- longo prazo
- mais
- Baixo
- Fazendo
- marca
- métodos
- Desinformação
- Missão
- modelo
- modelos
- mais
- redes
- redes neurais
- Novo
- número
- números
- ONE
- OpenAI
- organizações
- Outros
- contornos
- alcance
- lado de fora
- pares
- pais
- parte
- executa
- peça
- platão
- Inteligência de Dados Platão
- PlatãoData
- por favor
- ponto
- Privacidade
- posicionamento
- positivo
- predizer
- Previsível
- predição
- primário
- Prime
- Programas
- fornecer
- fornecedores
- publicamente
- Taxa
- recentemente
- reconhecer
- recomendar
- liberado
- confiabilidade
- confiável
- pesquisadores
- recurso
- Recursos
- resposta
- corrida
- seguramente
- mesmo
- visto
- serviço
- provedores de serviço
- conjunto
- Partilhar
- Baixo
- rede de apoio social
- de forma considerável
- alguns
- fonte
- Fontes
- Estudantes
- apresentado
- bem sucedido
- tal
- sistemas
- professores
- A
- A fonte
- deles
- limiar
- para
- ferramentas
- tópico
- treinado
- Training
- verdadeiro
- tipicamente
- Atualizada
- Atualizações
- us
- usar
- variedade
- web
- boas-vindas
- O Quê
- se
- qual
- enquanto
- precisarão
- palavras
- Atividades:
- escrito
- Errado
- você mesmo
- zefirnet