Cree un chatbot de películas para plataformas de TV/OTT utilizando la generación aumentada de recuperación en Amazon Bedrock

Reeditado por Platón

seguidores: 0

Mejorar la forma en que los usuarios descubren contenido nuevo es fundamental para aumentar la participación y la satisfacción de los usuarios en las plataformas de medios. La búsqueda de palabras clave por sí sola presenta desafíos para capturar la semántica y la intención del usuario, lo que genera resultados que carecen de contexto relevante; por ejemplo, buscar citas nocturnas o películas con temas navideños. Esto puede generar tasas de retención más bajas si los usuarios no pueden encontrar de manera confiable el contenido que buscan. Sin embargo, con grandes modelos de lenguaje (LLM), existe la oportunidad de resolver estos desafíos semánticos y de intención del usuario. Combinando incrustaciones que capturan la semántica con una técnica llamada Recuperación de Generación Aumentada (RAG), puede generar respuestas más relevantes basadas en el contexto recuperado de sus propias fuentes de datos.

En esta publicación, le mostramos cómo crear de forma segura un chatbot de películas implementando RAG con sus propios datos usando Bases de conocimiento para lecho rocoso del amazonas. Usamos el conjunto de datos de IMDb y Box Office Mojo para simular un catálogo para clientes de medios y entretenimiento y mostrar cómo puede crear su propia solución RAG en solo un par de pasos.

Resumen de la solución

La IMDb y Box Office Mojo Películas/TV/OTT el paquete de datos con licencia proporciona una amplia gama de metadatos de entretenimiento, incluidas más de mil millones de calificaciones de usuarios; créditos para más de 1.6 millones de miembros del elenco y del equipo; 13 millones de títulos de películas, televisión y entretenimiento; y datos de informes de taquilla global de más de 10 países. Muchos clientes de medios y entretenimiento de AWS obtienen licencias de datos de IMDb a través de Intercambio de datos de AWS para mejorar el descubrimiento de contenido y aumentar el compromiso y la retención del cliente.

Introducción a las bases de conocimientos de Amazon Bedrock

Para equipar un LLM con información patentada actualizada, las organizaciones utilizan RAG, una técnica que implica obtener datos de fuentes de datos de la empresa y enriquecer la solicitud con esos datos para ofrecer respuestas más relevantes y precisas. Las bases de conocimiento para Amazon Bedrock habilitan una capacidad RAG totalmente administrada que le permite personalizar las respuestas de LLM con datos contextuales y relevantes de la empresa. Las bases de conocimiento automatizan el flujo de trabajo de RAG de un extremo a otro, incluida la ingesta, la recuperación, el aumento de mensajes y las citas, lo que elimina la necesidad de escribir código personalizado para integrar fuentes de datos y administrar consultas. Las bases de conocimiento para Amazon Bedrock también permiten conversaciones de varios turnos para que el LLM pueda responder consultas complejas de los usuarios con la respuesta correcta.

Utilizamos los siguientes servicios como parte de esta solución:

Caminamos a través de los siguientes pasos de alto nivel:

Preprocese los datos de IMDb para crear documentos a partir de cada registro de película y cargue los datos en un Servicio de almacenamiento simple de Amazon (Amazon S3) cubo.
Crear una base de conocimientos.
Sincronice su base de conocimientos con su fuente de datos.
Utilice la base de conocimientos para responder consultas semánticas sobre el catálogo de películas.

Requisitos previos

Los datos de IMDb utilizados en esta publicación requieren una licencia de contenido comercial y una suscripción paga al paquete de licencias de IMDb y Box Office Mojo Movies/TV/OTT en AWS Data Exchange. Para solicitar información sobre una licencia y acceder a datos de muestra, visite desarrollador.imdb.com. Para acceder al conjunto de datos, consulte Recomendación de poder y búsqueda usando un gráfico de conocimiento de IMDb – Parte 1 y seguir el Accede a los datos de IMDb .

Preprocesar los datos de IMDb

Antes de crear una base de conocimientos, debemos preprocesar el conjunto de datos de IMDb en archivos de texto y cargarlos en un depósito de S3. En esta publicación, simulamos un catálogo de clientes utilizando el conjunto de datos de IMDb. Tomamos 10,000 películas populares del conjunto de datos de IMDb para el catálogo y creamos el conjunto de datos.

Use la siguiente cuaderno para crear el conjunto de datos con información adicional como nombres de actores, directores y productores. Usamos el siguiente código para crear un único archivo para una película con toda la información almacenada en el archivo en un texto no estructurado que los LLM puedan entender:

def create_txt_files_imdb(row): full_text = "" full_text += f"{row['originalTitle']} ({row['titleId']}) was shot in year {int(row['year'])} with rating {row['rating']} and poster url {row['poster_url']}.nn" full_text += f"{row['originalTitle']} has genres {', '.join(row['genres'])}.nn" full_text += f"{row['originalTitle']} has actors {', '.join(row['Actors'])}.nn" full_text += f"{row['originalTitle']} has directors {', '.join(row['Directors'])}.nn" full_text += f"{row['originalTitle']} has producers {', '.join(row['Producers'])}.nn" full_text += f"{row['originalTitle']} has keyword {', '.join([x.replace('-',' ') for x in row['keyword']])}.nn" full_text += f"{row['originalTitle']} has location {', '.join(row['location'])}.nn" full_text += f"{row['originalTitle']} has plot {row['plot']}.nn" with open(f"<path>/data/imdb_data/{row['titleId']}.txt","w") as f: f.write(full_text) return full_text

Una vez que tenga los datos en formato .txt, puede cargarlos en Amazon S3 usando el siguiente comando:

aws s3 cp <path to local data> s3://<bucket-name>/<path>/ --recursive

Crear la base de conocimientos de IMDb

Complete los siguientes pasos para crear su base de conocimientos:

En la consola de Amazon Bedrock, elija Base de conocimiento en el panel de navegación.
Elige Crear base de conocimientos.
Nombre de la base de conocimientos, introduzca imdb.
Descripción de la base de conocimientos, ingrese una descripción opcional, como Base de conocimientos para ingerir y almacenar datos de imdb.
permisos de gestión de identidades y accesos, seleccione Crear y utilizar un nuevo rol de servicioy luego ingrese un nombre para su nuevo rol de servicio.
Elige Siguiente.

página de consola de detalles de la base de conocimientos

Nombre de fuente de datos, introduzca imdb-s3.
URI de S3, ingrese el URI de S3 en el que cargó los datos.
En Configuración avanzada – opcional sección, para estrategia de fragmentación, escoger sin fragmentación.
Elige Siguiente.

Las bases de conocimiento le permiten dividir sus documentos en segmentos más pequeños para que le resulte más sencillo procesar documentos grandes. En nuestro caso, ya hemos dividido los datos en un documento de menor tamaño (uno por película).

consola de base de conocimientos 2

En Base de datos vectorial sección, seleccionar Crea rápidamente una nueva tienda de vectores.

Amazon Bedrock creará automáticamente una colección de búsqueda vectorial OpenSearch Serverless totalmente administrada y configurará los ajustes para incrustar sus fuentes de datos utilizando el modelo de incrustación de texto Titan Embedding G1 elegido.

página de tienda de vectores de base de conocimientos

Elige Siguiente.

Cree un chatbot de películas para plataformas TV/OTT utilizando Retrieval Augmented Generation en Amazon Bedrock | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Revise su configuración y elija Crear base de conocimientos.

Sincroniza tus datos con la base de conocimientos

Ahora que ha creado su base de conocimientos, puede sincronizarla con sus datos.

En la consola de Amazon Bedrock, navegue hasta su base de conocimientos.
En Fuente de datos sección, elija Sincronizar.

sincronización de la base de conocimientos

Una vez sincronizada la fuente de datos, estará listo para consultar los datos.

Mejorar la búsqueda utilizando resultados semánticos

Complete los siguientes pasos para probar la solución y mejorar su búsqueda utilizando resultados semánticos:

En la consola de Amazon Bedrock, navegue hasta su base de conocimientos.
Selecciona tu base de conocimientos y elige Base de conocimientos de prueba.
Elige Seleccionar modelo, y elige Claude antrópico v2.1.
Elige Aplicá.

Ahora está listo para consultar los datos.

Podemos hacer algunas preguntas semánticas, como “Recomiéndame algunas películas con temática navideña”.

consulta Recomiéndame algunas películas con temática navideña.

Las respuestas de la base de conocimientos contienen citas que puede explorar para determinar si las respuestas son correctas y objetivas.

citas de la base de conocimientos

También puede profundizar en cualquier información que necesite de estas películas. En el siguiente ejemplo, preguntamos "¿quién dirigió Pesadilla antes de Navidad?"

“¿Quién dirigió Pesadilla antes de Navidad?”

También puedes hacer preguntas más específicas relacionadas con los géneros y las calificaciones, como "¿muéstrame películas animadas clásicas con calificaciones superiores a 7?".

¿Muéstrame películas animadas clásicas con calificaciones superiores a 7?

Aumente su base de conocimientos con agentes

Agentes de Amazon Bedrock ayudarle a automatizar tareas complejas. Los agentes pueden dividir la consulta del usuario en tareas más pequeñas y llamar a API personalizadas o bases de conocimiento para complementar la información para ejecutar acciones. Con Agents for Amazon Bedrock, los desarrolladores pueden integrar agentes inteligentes en sus aplicaciones, acelerando la entrega de aplicaciones impulsadas por IA y ahorrando semanas de tiempo de desarrollo. Con los agentes, puede aumentar su base de conocimientos agregando más funciones, como recomendaciones de Amazon Personalize para recomendaciones específicas del usuario o realizar acciones como filtrar películas según las necesidades del usuario.

Conclusión

En esta publicación, mostramos cómo crear un chatbot de películas conversacional utilizando Amazon Bedrock en unos pocos pasos para responder búsquedas semánticas y experiencias conversacionales basadas en sus propios datos y el conjunto de datos con licencia de IMDb y Box Office Mojo Movies/TV/OTT. En la siguiente publicación, analizamos el proceso de agregar más funciones a su solución mediante Agents for Amazon Bedrock. Para comenzar con las bases de conocimiento en Amazon Bedrock, consulte Bases de conocimiento para Amazon Bedrock.

Acerca de los autores

Cree un chatbot de películas para plataformas TV/OTT utilizando Retrieval Augmented Generation en Amazon Bedrock | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Gaurav Relé es científico de datos senior en el Centro de innovación de IA generativa, donde trabaja con clientes de AWS en diferentes sectores verticales para acelerar el uso de la IA generativa y los servicios de la nube de AWS para resolver sus desafíos comerciales.

Cree un chatbot de películas para plataformas TV/OTT utilizando Retrieval Augmented Generation en Amazon Bedrock | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. divya bhargavi Es científica aplicada sénior en el Centro de innovación de IA generativa, donde resuelve problemas comerciales de alto valor para los clientes de AWS utilizando métodos de IA generativa. Trabaja en comprensión y recuperación de imágenes y vídeos, modelos de lenguaje grandes aumentados con gráficos de conocimiento y casos de uso de publicidad personalizada.

Cree un chatbot de películas para plataformas TV/OTT utilizando Retrieval Augmented Generation en Amazon Bedrock | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Suren Gunturu es un científico de datos que trabaja en el Centro de innovación de IA generativa, donde trabaja con varios clientes de AWS para resolver problemas comerciales de alto valor. Se especializa en crear canales de aprendizaje automático utilizando modelos de lenguaje grandes, principalmente a través de Amazon Bedrock y otros servicios en la nube de AWS.

Cree un chatbot de películas para plataformas TV/OTT utilizando Retrieval Augmented Generation en Amazon Bedrock | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Vidya Sagar Ravipati es gerente científico en el Centro de Innovación de IA Generativa, donde aprovecha su vasta experiencia en sistemas distribuidos a gran escala y su pasión por el aprendizaje automático para ayudar a los clientes de AWS en diferentes sectores verticales de la industria a acelerar su adopción de la IA y la nube.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/build-a-movie-chatbot-for-tv-ott-platforms-using-retrieval-augmented-generation-in-amazon-bedrock/

Sello de tiempo: Enero 31, 2024

Sello de tiempo: Apr 6, 2023

Reeditado por Platón

Alojar servidor de código en Amazon SageMaker

AWS ofrece nuevas guías de inteligencia artificial, aprendizaje automático e IA generativa para planificar su estrategia de IA | Servicios web de Amazon

Alida obtiene una comprensión más profunda de los comentarios de los clientes con Amazon Bedrock | Servicios web de Amazon

Mejore la escalabilidad de las API sin estado de Amazon Rekognition con varias regiones

Cree aplicaciones conversacionales basadas en conocimientos utilizando LlamaIndex y Llama 2-Chat | Servicios web de Amazon

“ID + Selfie”: mejora de la verificación de identidad digital mediante AWS

Mejora de la moderación de contenido con análisis masivo y moderación personalizada de Amazon Rekognition | Servicios web de Amazon

Amazon SageMaker Automatic Model Tuning ahora elige automáticamente las configuraciones de ajuste para mejorar la usabilidad y la rentabilidad | Servicios web de Amazon

Importe datos de más de 40 fuentes de datos para el aprendizaje automático sin código con Amazon SageMaker Canvas

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta