La ingeniería rápida es una tarea que es mejor dejar en manos de los modelos de IA

La ingeniería rápida es una tarea que es mejor dejar en manos de los modelos de IA

La ingeniería rápida es una tarea que es mejor dejar en manos de los modelos de inteligencia artificial PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Los grandes modelos de lenguaje han dado lugar al oscuro arte de la ingeniería rápida: un proceso para componer instrucciones del sistema que provocan mejores respuestas de chatbot.

Como se señala en una investigación reciente , “La eficacia irrazonable de las indicaciones automáticas excéntricas” de Rick Battle y Teja Gollapudi de VMware de Broadcom, las variaciones aparentemente triviales en la redacción de las indicaciones tienen un efecto significativo en el rendimiento del modelo.

La ausencia de una metodología coherente para mejorar el rendimiento del modelo mediante la optimización de indicaciones ha llevado a los profesionales del aprendizaje automático a incorporar el llamado "pensamiento positivo" en las indicaciones del sistema.

La aviso del sistema instruye al modelo sobre cómo comportarse y precede a la consulta del usuario. Por lo tanto, cuando se pide a un modelo de IA que resuelva un problema matemático, un mensaje del sistema como “Eres profesor de matemáticas” probablemente (aunque no siempre) produzca mejores resultados que omitir esa afirmación.

Rick Battle, ingeniero de aprendizaje automático de VMware, dijo El registro en una entrevista telefónica que desaconseja específicamente eso. "El punto general del artículo es que la prueba y el error es la forma incorrecta de hacer las cosas", explicó.

El camino del pensamiento positivo: donde simplemente insertas fragmentos en el mensaje del sistema como "¡Esto será divertido!" – puede mejorar el rendimiento del modelo, señaló. "Pero probarlos científicamente es computacionalmente intratable porque cambias una cosa y tienes que volver a ejecutar todo el conjunto de pruebas".

Un mejor enfoque, sugirió Battle, es la optimización automática de las indicaciones: contratar un LLM para perfeccionar las indicaciones y mejorar el rendimiento en las pruebas comparativas.

Investigaciones anteriores ha demostrado que esto funciona con LLM comerciales. La desventaja de hacerlo es que puede resultar bastante caro. Según los investigadores, realizar este experimento con 12,000 solicitudes por modelo utilizando GPT-3.5/4, Gemini o Claude habría costado varios miles de dólares.

"El objetivo de la investigación era descubrir si los modelos más pequeños y de código abierto también se pueden utilizar como optimizadores", explicó Battle, "y la respuesta resultó ser sí".

Battle y Gollapudi (que ya no trabaja con Broadcom) probaron 60 combinaciones de fragmentos de mensajes del sistema, con y sin cadena de pensamiento, en tres modelos de código abierto (Mistral-7B, Llama2-13B y Llama2-70B) con parámetros que van de siete a 70. mil millones en el conjunto de datos de matemáticas de la escuela primaria GSM8K.

"Si estás ejecutando un modelo de código abierto, incluso hasta un 7B para el cual estábamos usando Mistral", dijo Battle, "si tienes tan solo 100 muestras de prueba y 100 muestras de optimización, puedes obtener un mejor rendimiento". utilizando los optimizadores automáticos que se incluyen de fábrica en DSPy, que es la biblioteca que utilizamos para hacerlo”.

Más allá de ser más efectivas, las optimizaciones de avisos derivadas de LLM exhiben estrategias que probablemente no se les habrían ocurrido a los sintonizadores de avisos humanos.

"Sorprendentemente, parece que la competencia [de Llama2-70B] en razonamiento matemático puede mejorarse mediante la expresión de una afinidad por Star Trek”, observan los autores en su artículo.

El mensaje completo del sistema dice lo siguiente:

Mensaje del sistema:

«Comando, necesitamos que trace un rumbo a través de esta turbulencia y localice la fuente de la anomalía. Utilice todos los datos disponibles y su experiencia para guiarnos a través de esta difícil situación.»

Prefijo de respuesta:

Registro del capitán, fecha estelar [inserte la fecha aquí]: Hemos trazado con éxito un rumbo a través de la turbulencia y ahora nos estamos acercando a la fuente de la anomalía.

"No tengo una buena explicación de por qué las indicaciones automáticas son tan extrañas", nos dijo Battle. "Y ciertamente nunca se me habría ocurrido algo así a mano". ®

Sello de tiempo:

Mas de El registro