Los motores de búsqueda no siempre ayudan a la precisión del chatbot

Los motores de búsqueda no siempre ayudan a la precisión del chatbot

Los motores de búsqueda no siempre ayudan a la precisión del chatbot PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

El acceso a los motores de búsqueda no tiende a mejorar la capacidad de un chatbot de IA para generar respuestas precisas y actualizadas a las consultas, lo que significa que los desarrolladores tendrán que encontrar nuevas técnicas para que la interacción sea más útil, según la investigación.

Los modelos de idiomas grandes (LLM) como GPT-3.5, la base de ChatGPT, se entrenan en texto extraído de Internet hasta septiembre de 2021. Empresas como Google y Microsoft intentan aumentar los LLM con motores de búsqueda, dándoles acceso al conocimiento en las páginas web actuales.

Como lo demuestran sus respectivos Bardo y Bing chatbots, Google y Microsoft todavía luchan por producir respuestas precisas a las consultas de búsqueda, aunque la respuesta correcta puede estar en algún lugar de Internet.

"Uno podría pensar que conectar el motor de búsqueda y ChatGPT es una solución perfecta, pero la realidad es más desafiante debido a la precisión limitada de los resultados de búsqueda", dijo Hongyin Luo, asociado postdoctoral en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT. El registro.

Luo explica que los motores de búsqueda son sistemas de recuperación basados ​​en palabras clave y no siempre brindan respuestas directas a la mayoría de las preguntas. Además, diferentes páginas web pueden contener información no relacionada, contradictoria o falsa. Bing reclama incorrectamente Adolf Hitler era miembro de la banda Radiohead en un resultado de búsqueda, por ejemplo.

Internautas Especulado si el error pudo haber sido causado por un página en Wikidata que mencionaba a Radiohead y Adolf Hitler.

Para que Bard y Bing sean útiles, los desarrolladores deberán descubrir cómo hacer que los LLM extraigan la información más útil de un mar de texto que es ruidoso, confuso e inconsistente. Luo y sus colegas del MIT y la Universidad China de Hong Kong creen que los modelos deben ajustarse aún más para que puedan seguir mejor las instrucciones sobre cómo generar respuestas para la búsqueda web.

El equipo modificó Meta's Llama, un LLM de siete mil millones de parámetros, ajustándolo en una base de datos que contiene 52,000 4 pares de instrucciones basadas en texto y las respuestas correspondientes generadas por GPT-XNUMX. Los investigadores también construyeron un conjunto de datos separado que contenía las cinco páginas web principales asociadas con cada instrucción y entrenaron el modelo para generar la respuesta correcta clasificando las fuentes según su relevancia y alineamiento con la respuesta correcta.

Luo dijo que el modelo perfeccionado, apodado VELA-7B, que significa aprendizaje de instrucción aumentado por búsqueda, es mejor para ignorar los resultados de búsqueda que distraen o no son confiables y genera respuestas de mayor calidad. Los detalles han sido publicado [PDF] en un artículo publicado en arXiv, y el modelo código está en GitHub. También puedes jugar con un manifestación del sistema alojado en Hugging Face.

“Nuestro modelo aprende a encontrar información útil a partir de resultados de búsqueda ruidosos y genera respuestas tan precisas como sea posible. Como resultado, nuestro modelo puede resumir mejor información valiosa y generar mejores respuestas para varias consultas de búsqueda, incluso cuando los motores de búsqueda no pueden manejarlas muy bien”, dijo Luo.

“Nuestra capacitación incluye explícitamente un paso que aclara si cada resultado de búsqueda es útil o no, y el modelo de lenguaje sigue la información útil seleccionada. Este proceso filtra los resultados de búsqueda más poco confiables y no relacionados y mejora el rendimiento promedio de seguimiento de instrucciones”.

Los experimentos iniciales mostraron que SAIL-7B superó a GPT-3.5 y otros modelos que contenían más parámetros en una variedad de tareas. Los experimentos evaluaron sus habilidades para responder preguntas abiertas y de sentido común, así como para verificar hechos y detectar discursos de odio. Los modelos recibieron páginas web de Wikipedia y resultados de búsqueda de DuckDuckGo para ayudarlos a elegir las respuestas correctas de una lista de respuestas candidatas. Sin embargo, GPT-4 seguía siendo mejor que SAIL-7B.

“El desafío es que los modelos más grandes tienen mucho más conocimiento, habilidades de memorización y razonamiento, por lo que nuestro modelo aún no es tan bueno como GPT-4. Sin embargo, SAIL-7B es una prueba de concepto con un modelo 'pequeño', y nuestro próximo paso es entrenar un modelo más grande con la estrategia que hemos propuesto”, nos dijo Luo.

Sin embargo, los modelos ajustados con la técnica actual de aprendizaje de instrucción aumentada por búsqueda no son perfectos. Los investigadores notaron que no pueden explicar porque un resultado de búsqueda es confiable o no. Esperan idear otra estrategia para aumentar la precisión y la confiabilidad en el futuro. ®

Sello de tiempo:

Mas de El registro