Anthropic construyó un chatbot de IA democrático permitiendo a los usuarios votar por sus valores

Anthropic construyó un chatbot de IA democrático permitiendo a los usuarios votar por sus valores

En lo que puede ser el primer estudio de su tipo, la empresa de inteligencia artificial (IA) Anthropic ha desarrollado un modelo de lenguaje grande (LLM) que ha sido ajustado para realizar juicios de valor por parte de su comunidad de usuarios.

Muchos LLM de cara al público se han desarrollado con barreras de seguridad (instrucciones codificadas que dictan un comportamiento específico) en un intento de limitar los resultados no deseados. Claude de Anthropic y ChatGPT de OpenAI, por ejemplo, normalmente brindan a los usuarios una respuesta de seguridad predefinida a solicitudes de salida relacionadas con temas violentos o controvertidos.

Sin embargo, como han señalado innumerables expertos, las barreras de seguridad y otras técnicas de intervención pueden servir para privar a los usuarios de su capacidad de acción. Lo que se considera aceptable no siempre es útil y lo que se considera útil no siempre es aceptable. Y las definiciones de moralidad o juicios basados ​​en valores pueden variar entre culturas, poblaciones y períodos de tiempo.

Relacionado: Reino Unido abordará posibles amenazas de IA en la cumbre prevista para noviembre

Una posible solución a esto es permitir a los usuarios dictar la alineación de valores para los modelos de IA. El experimento de "IA constitucional colectiva" de Anthropic es una puñalada a este "desafío confuso".

Anthropic, en colaboración con Polis y Collective Intelligence Project, contactó a 1,000 usuarios de diversos grupos demográficos y les pidió que respondieran una serie de preguntas mediante encuestas.

Anthropic creó un chatbot de IA democrático al permitir que los usuarios votaran por sus valores PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
Fuente, Antrópico

El desafío se centra en permitir que los usuarios de la agencia determinen qué es apropiado sin exponerlos a resultados inapropiados. Esto implicó solicitar valores al usuario y luego implementar esas ideas en un modelo que ya ha sido entrenado.

Anthropic utiliza un método llamado "IA constitucional" para de reservas sus esfuerzos para ajustar los LLM para su seguridad y utilidad. Básicamente, esto implica darle al modelo una lista de reglas que debe cumplir y luego capacitarlo para implementar esas reglas a lo largo de su proceso, de manera muy similar a como una constitución sirve como documento central para la gobernanza en muchas naciones.

En el experimento Collective Constitutional AI, Anthropic intentó integrar la retroalimentación grupal en la constitución del modelo. Los resultados, conforme Según una publicación de blog de Anthropic, parece haber sido un éxito científico en el sentido de que iluminó nuevos desafíos para lograr el objetivo de permitir a los usuarios de un producto LLM determinar sus valores colectivos.

Una de las dificultades que tuvo que superar el equipo fue encontrar un método novedoso para el proceso de evaluación comparativa. Como este experimento parece ser el primero de su tipo y se basa en la metodología de IA constitucional de Anthropic, no existe una prueba establecida para comparar los modelos base con aquellos ajustados con valores de origen público.

En última instancia, parece que el modelo que implementó los datos resultantes de los comentarios de las encuestas de los usuarios superó al modelo base “ligeramente” en el área de resultados sesgados.

Según la publicación del blog:

“Más que el modelo resultante, estamos entusiasmados con el proceso. Creemos que este puede ser uno de los primeros casos en los que miembros del público, como grupo, han dirigido intencionalmente el comportamiento de un modelo de lenguaje grande. Esperamos que las comunidades de todo el mundo se basen en técnicas como ésta para formar modelos cultural y contextualmente específicos que satisfagan sus necesidades”.

Sello de tiempo:

Mas de Cointelegraph