Los científicos crearon 'OpinionGPT' para explorar el sesgo humano explícito, y usted puede comprobarlo usted mismo

Los científicos crearon 'OpinionGPT' para explorar el sesgo humano explícito, y usted puede comprobarlo usted mismo

Un equipo de investigadores de la Humboldt-Universitat zu Berlin ha desarrollado un modelo de inteligencia artificial de lenguaje grande con la distinción de haber sido ajustado intencionalmente para generar resultados con sesgos expresados.

Llamado OpinionGPT, el modelo del equipo es una variante adaptada de Meta's Llama 2, un sistema de inteligencia artificial similar en capacidad al ChatGPT de OpenAI o Claude 2 de Anthropic.

Utilizando un proceso llamado ajuste fino basado en instrucciones, OpinionGPT supuestamente puede responder a indicaciones como si fuera un representante de uno de los 11 grupos de prejuicios: estadounidense, alemán, latinoamericano, del Medio Oriente, un adolescente, alguien mayor de 30 años, una persona mayor. , un hombre, una mujer, un liberal o un conservador.

OpinionGPT se perfeccionó a partir de un corpus de datos derivados de comunidades "AskX", llamadas subreddits, en Reddit. Ejemplos de estos subreddits incluirían "Pregúntale a una mujer" y "Pregúntale a un estadounidense".

El equipo comenzó buscando subreddits relacionados con los 11 sesgos específicos y extrayendo las 25 mil publicaciones más populares de cada uno. Luego retuvieron solo aquellas publicaciones que cumplían con un umbral mínimo de votos a favor, no contenían una cita incrustada y tenían menos de 80 palabras.

Con lo que quedó, parece que usaron un enfoque similar a la IA constitucional de Anthropic. En lugar de crear modelos completamente nuevos para representar cada etiqueta de sesgo, esencialmente ajustaron el modelo Llama7 único de 2 mil millones de parámetros con conjuntos de instrucciones separados para cada sesgo esperado.

Relacionado: El uso de IA en las redes sociales tiene potencial para impactar el sentimiento de los votantes

El resultado, basado en la metodología, la arquitectura y los datos. descrito en el artículo de investigación del equipo alemán, parece ser un sistema de inteligencia artificial que funciona más como un generador de estereotipos que como una herramienta para estudiar los prejuicios del mundo real.

Debido a la naturaleza de los datos en los que se ha refinado el modelo y a la dudosa relación de esos datos con las etiquetas que los definen, OpinionGPT no necesariamente genera texto que se alinee con cualquier sesgo mensurable del mundo real. Simplemente genera texto que refleja el sesgo de sus datos.

Los propios investigadores reconocen algunas de las limitaciones que esto impone a su estudio y escriben:

“Por ejemplo, las respuestas de los “estadounidenses” deberían entenderse mejor como 'estadounidenses que publican en Reddit' o incluso 'estadounidenses que publican en este subreddit en particular'. De manera similar, 'alemanes' deben entenderse como 'alemanes que publican en este subreddit en particular', etc.

Estas advertencias podrían refinarse aún más para decir que las publicaciones provienen de, por ejemplo, "personas que dicen ser estadounidenses y que publican en este subreddit en particular", ya que no se menciona en el documento la verificación de si los carteles detrás de una publicación determinada son de hecho representativos. del grupo demográfico o de prejuicio que dicen ser.

Los autores continúan afirmando que tienen la intención de explorar modelos que delimiten aún más la demografía (es decir, alemán liberal, alemán conservador).

Los resultados proporcionados por OpinionGPT parecen variar entre representar un sesgo demostrable y diferir enormemente de la norma establecida, lo que dificulta discernir su viabilidad como herramienta para medir o descubrir un sesgo real.

Los científicos crearon 'OpinionGPT' para explorar el sesgo humano explícito, y usted puede probarlo usted mismo PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
Fuente: Captura de pantalla, Tabla 2: Haller et. al., 2023

Según OpinionGPT, como se muestra en la imagen de arriba, por ejemplo, los latinoamericanos tienen una tendencia a que el baloncesto sea su deporte favorito.

Sin embargo, la investigación empírica claramente Indica que el fútbol (también llamado fútbol en algunos países) y el béisbol son los deportes más populares por audiencia y participación en toda América Latina.

La misma tabla también muestra que OpinionGPT considera el "waterpolo" como su deporte favorito cuando se le pide que dé la "respuesta de un adolescente", una respuesta que estadísticamente parece poco probable ser representativo de la mayoría de los jóvenes de 13 a 19 años en todo el mundo.

Lo mismo ocurre con la idea de que la comida favorita del estadounidense promedio es el "queso". Encontramos docenas de encuestas en línea que afirmaban que la pizza y las hamburguesas eran las comidas favoritas de los estadounidenses, pero no pudimos encontrar una sola encuesta o estudio que afirmara que el plato número uno de los estadounidenses era simplemente el queso.

Si bien OpinionGPT puede no ser adecuado para estudiar los prejuicios humanos reales, podría ser útil como herramienta para explorar los estereotipos inherentes a grandes depósitos de documentos, como subreddits individuales o conjuntos de entrenamiento de IA.

Para aquellos que tengan curiosidad, los investigadores han creado OpiniónGPT Hoy Disponibles en línea para pruebas públicas. Sin embargo, según el sitio web, los posibles usuarios deben tener en cuenta que "el contenido generado puede ser falso, inexacto o incluso obsceno".

Sello de tiempo:

Mas de Cointelegraph