Científicos engañados para creer que los resúmenes falsos escritos por ChatGPT eran reales

Científicos engañados para creer que los resúmenes falsos escritos por ChatGPT eran reales

Los científicos fueron engañados haciéndoles creer que los resúmenes falsos escritos por ChatGPT eran inteligencia de datos real de PlatoBlockchain. Búsqueda vertical. Ai.

Se puede engañar a los académicos haciéndoles creer que los resúmenes científicos falsos generados por ChatGPT provienen de artículos médicos reales publicados en las principales revistas de investigación, según las últimas investigaciones.

Un equipo de investigadores dirigido por la Universidad Northwestern usado la herramienta de generación de texto, desarrollada por OpenAI, para producir 50 resúmenes basados ​​en el título de un artículo científico real al estilo de cinco revistas médicas diferentes.

Cuatro académicos se alistaron para participar en una prueba y se dividieron en dos grupos de dos. Se utilizó un lanzamiento de moneda electrónico para decidir si se entregaba un resumen generado por IA real o falso a un revisor de cada grupo. Si a un investigador se le daba un resumen real, al segundo se le daría uno falso, y viceversa. Cada persona revisó 25 resúmenes científicos.

Los revisores pudieron detectar el 68 % de los resúmenes falsos generados por IA y el 86 % de los resúmenes originales de artículos reales. En otras palabras, fueron engañados con éxito para que pensaran que el 32 por ciento de los resúmenes escritos por IA eran reales y el 14 por ciento de los resúmenes reales eran falsos.

Catherine Gao, primera autora del estudio y médica y científica especializada en neumología en la Universidad Northwestern, dijo que muestra que ChatGPT puede ser bastante convincente. “Nuestros revisores sabían que algunos de los resúmenes que les estaban dando eran falsos, por lo que sospechaban mucho”, dijo. dijo en un comunicado. 

“El hecho de que nuestros revisores aún no hayan visto los generados por IA el 32 [por ciento] de las veces significa que estos resúmenes son realmente buenos. Sospecho que si alguien se encontrara con uno de estos resúmenes generados, no necesariamente podría identificarlo como escrito por AI”.

Los modelos de idiomas grandes como ChatGPT se entrenan en grandes cantidades de texto extraído de Internet. Aprenden a generar texto prediciendo qué palabras es más probable que aparezcan en una oración determinada y pueden escribir una sintaxis gramaticalmente precisa. No es sorprendente que incluso los académicos puedan ser engañados para creer que los resúmenes generados por IA son reales. Los modelos de lenguaje grande son buenos para producir texto con estructuras y patrones claros. Los resúmenes científicos a menudo siguen formatos similares y pueden ser bastante vagos.

“Nuestros revisores comentaron que era sorprendentemente difícil diferenciar entre los resúmenes reales y los falsos”, dijo Gao. "Los resúmenes generados por ChatGPT fueron muy convincentes... incluso sabe cuán grande debe ser la cohorte de pacientes cuando inventa números". Un resumen falso sobre la hipertensión, por ejemplo, describía un estudio con decenas de miles de participantes, mientras que uno sobre la viruela símica incluía un número menor de pacientes. 

Fue sorprendentemente difícil diferenciar entre los resúmenes reales y los falsos.

Gao cree que herramientas como ChatGPT facilitarán que las fábricas de papel, que se benefician de la publicación de estudios, produzcan artículos científicos falsos. “Si otras personas intentan desarrollar su ciencia a partir de estos estudios incorrectos, eso puede ser realmente peligroso”, agregó.

Sin embargo, también hay ventajas en el uso de estas herramientas. Alexander Pearson, coautor del estudio y profesor asociado de medicina en la Universidad de Chicago, dijo que podrían ayudar a los científicos que no hablan inglés a escribir mejor y compartir su trabajo. 

La IA es mejor para detectar texto de máquina que los humanos. el libre Detector de salida GPT-2, por ejemplo, pudo adivinar con más del 50 por ciento de confianza que 33 de los 50 documentos fueron generados por un modelo de lenguaje. Los investigadores creen que las presentaciones en papel deben pasar por estos detectores y que los científicos deben ser transparentes sobre el uso de estas herramientas.

“No usamos ChatGPT en la redacción de nuestro propio resumen o manuscrito, ya que los límites de si la comunidad académica lo considera aceptable aún no están claros. Por ejemplo, la Conferencia Internacional sobre Aprendizaje Automático ha instituido una política prohibiendo su uso, aunque reconocen que la discusión continúa evolucionando y también aclararon que está bien que se use para 'editar o pulir'”, dijo Gao. El registro.

“Sin embargo, ha habido grupos que han comenzado a usarlo para ayudar a escribir, y algunos lo han incluido como coautor en la lista. Creo que puede estar bien usar ChatGPT para escribir ayuda, pero cuando se hace esto, es importante incluir una declaración clara de que ChatGPT ayudó a escribir secciones de un manuscrito. Dependiendo de cuál sea el consenso de la comunidad científica, podemos o no usar los LLM para ayudar a escribir artículos en el futuro”. ®

Sello de tiempo:

Mas de El registro