Pesquisadores de IA agora avaliam seus pares com assistência de IA

Republicado por Platão

seguidores: 0

Acadêmicos focados em inteligência artificial passaram a usar IA generativa para ajudá-los a revisar o trabalho de aprendizado de máquina de colegas.

Um grupo de pesquisadores da Universidade de Stanford, NEC Labs America e UC Santa Barbara analisaram recentemente as revisões por pares de artigos submetidos às principais conferências de IA, incluindo ICLR 2024, NeurIPS 2023, CoRL 2023 e EMNLP 2023.

Os autores – Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland e James Y Zou – relataram suas descobertas em um papel intitulado “Monitoramento de conteúdo modificado por IA em escala: um estudo de caso sobre o impacto do ChatGPT nas revisões por pares de conferências de IA”.

Eles realizaram o estudo com base no interesse público e na discussão de grandes modelos de linguagem que dominaram o discurso técnico no ano passado.

Os autores encontraram um aumento pequeno, mas consistente, no uso aparente do LLM para revisões enviadas três dias ou menos antes do prazo

A dificuldade de distinguir entre texto escrito por humanos e por máquinas e o aumento relatado no Sites de notícias sobre IA levou os autores a concluir que há uma necessidade urgente de desenvolver formas de avaliar conjuntos de dados do mundo real que contêm uma quantidade indeterminada de conteúdo de autoria de IA.

Às vezes a autoria da IA se destaca – como em um papel de Radiology Case Reports intitulado “Manejo bem-sucedido de uma veia porta iatrogênica e lesão da artéria hepática em uma paciente do sexo feminino de 4 meses de idade: relato de caso e revisão da literatura”.

Esta passagem confusa é um pouco reveladora: “Em resumo, o manejo da iatrogenia bilateral, sinto muito, mas não tenho acesso a informações em tempo real ou a dados específicos do paciente, pois sou um modelo de linguagem de IA .”

Mas a distinção nem sempre é óbvia, e as tentativas anteriores de desenvolver uma forma automatizada de separar texto escrito por humanos da prosa robótica não deram certo. OpenAI, por exemplo introduziu um classificador de texto AI para esse fim em janeiro de 2023, apenas para fechá-lo seis meses depois “devido à sua baixa taxa de precisão. "

Mesmo assim, Liang et al afirmam que focar no uso de adjetivos em um texto – em vez de tentar avaliar documentos, parágrafos ou frases inteiros – leva a resultados mais confiáveis.

Os autores pegaram dois conjuntos de dados, ou corpora – um escrito por humanos e outro escrito por máquinas. E usaram estes dois corpos de texto para avaliar as avaliações – as revisões por pares de artigos de conferências sobre IA – relativamente à frequência de adjetivos específicos.

“[Todos] os nossos cálculos dependem apenas dos adjetivos contidos em cada documento”, explicaram. “Descobrimos que essa escolha de vocabulário exibe maior estabilidade do que usar outras classes gramaticais, como advérbios, verbos, substantivos ou todos os tokens possíveis.”

Acontece que os LLMs tendem a empregar adjetivos como “louvável”, “inovador” e “abrangente” com mais frequência do que autores humanos. E essas diferenças estatísticas no uso de palavras permitiram que os especialistas identificassem revisões de artigos onde a assistência do LLM é considerada provável.

Nuvem de palavras com os 100 principais adjetivos no feedback do LLM, com tamanho da fonte indicando frequência (clique para ampliar)

“Nossos resultados sugerem que entre 6.5% e 16.9% dos textos submetidos como revisões por pares para essas conferências poderiam ter sido substancialmente modificados pelos LLMs, ou seja, além da verificação ortográfica ou de pequenas atualizações de redação”, argumentaram os autores, observando que as revisões de trabalhos no revista científica Nature não apresentam sinais de assistência mecanizada.

Vários fatores parecem estar correlacionados com o maior uso do LLM. Um deles é o prazo se aproximando: os autores encontraram um aumento pequeno, mas consistente, no uso aparente do LLM para revisões enviadas três dias ou menos antes do prazo.

Os pesquisadores enfatizaram que sua intenção não era julgar o uso da assistência de escrita de IA, nem afirmar que qualquer um dos artigos avaliados foi escrito completamente por um modelo de IA. Mas argumentaram que a comunidade científica precisa de ser mais transparente sobre a utilização de LLMs.

E argumentaram que tais práticas privam potencialmente aqueles cujo trabalho está a ser revisto de feedback diversificado de especialistas. Além do mais, o feedback da IA corre o risco de um efeito de homogeneização que se inclina para preconceitos do modelo de IA e se afasta de insights significativos. ®

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://go.theregister.com/feed/www.theregister.com/2024/03/19/ai_researchers_reviewing_peers/

Carimbo de hora: 19 de março de 2024

Carimbo de hora: 2 Novembro, 2022

Pesquisadores de IA agora avaliam seus pares com assistência de IA

Republicado por Platão

Mais de O registro

HPE diz que impacto da IA nas empresas não é “exagerado”

Quando um passo é um salto

A demonstração do chatbot de IA da Meta rapidamente começa a divulgar notícias falsas e comentários racistas

IA para defender Washington DC contra ameaças aéreas

BBC extermina experimentos de IA usados para promover Doctor Who

AlphaCode 2, uma IA geradora de código renovada com kit Gemini

Uma pasta de proteína de IA de última geração que poderia ajudar a ciência? Meta é bom para alguma coisa

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta