Construa um chatbot de filmes para plataformas de TV/OTT usando geração aumentada de recuperação no Amazon Bedrock

Republicado por Platão

seguidores: 0

Melhorar a forma como os usuários descobrem novos conteúdos é fundamental para aumentar o envolvimento e a satisfação dos usuários nas plataformas de mídia. A pesquisa por palavra-chave por si só apresenta desafios na captura da semântica e da intenção do usuário, levando a resultados que carecem de contexto relevante; por exemplo, encontrar encontros noturnos ou filmes com tema natalino. Isso pode gerar taxas de retenção mais baixas se os usuários não conseguirem encontrar com segurança o conteúdo que desejam. No entanto, com grandes modelos de linguagem (LLMs), há uma oportunidade de resolver esses desafios semânticos e de intenção do usuário. Combinando incorporações que capturam a semântica com uma técnica chamada Geração Aumentada de Recuperação (RAG), você poderá gerar respostas mais relevantes com base no contexto recuperado de suas próprias fontes de dados.

Nesta postagem, mostramos como criar um chatbot de filme com segurança implementando RAG com seus próprios dados usando Bases de Conhecimento para Rocha Amazônica. Usamos o conjunto de dados IMDb e Box Office Mojo para simular um catálogo para clientes de mídia e entretenimento e mostrar como você pode construir sua própria solução RAG em apenas algumas etapas.

Visão geral da solução

A IMDb e Box Office Mojo Filmes/TV/OTT o pacote de dados licenciáveis fornece uma ampla variedade de metadados de entretenimento, incluindo mais de 1.6 bilhão de classificações de usuários; créditos para mais de 13 milhões de membros do elenco e da equipe; 10 milhões de títulos de filmes, TV e entretenimento; e dados de relatórios de bilheteria global de mais de 60 países. Muitos clientes de mídia e entretenimento da AWS licenciam dados IMDb por meio de Troca de dados da AWS para melhorar a descoberta de conteúdo e aumentar o envolvimento e a retenção do cliente.

Introdução às bases de conhecimento do Amazon Bedrock

Para equipar um LLM com informações proprietárias atualizadas, as organizações usam RAG, uma técnica que envolve a busca de dados de fontes de dados da empresa e o enriquecimento do prompt com esses dados para fornecer respostas mais relevantes e precisas. As bases de conhecimento do Amazon Bedrock permitem um recurso RAG totalmente gerenciado que permite personalizar respostas LLM com dados contextuais e relevantes da empresa. As bases de conhecimento automatizam o fluxo de trabalho RAG de ponta a ponta, incluindo ingestão, recuperação, aumento de prompt e citações, eliminando a necessidade de escrever código personalizado para integrar fontes de dados e gerenciar consultas. As bases de conhecimento do Amazon Bedrock também permitem conversas múltiplas para que o LLM possa responder a consultas complexas do usuário com a resposta correta.

Utilizamos os seguintes serviços como parte desta solução:

Percorremos as seguintes etapas de alto nível:

Pré-processe os dados do IMDb para criar documentos de cada gravação de filme e carregue os dados em um Serviço de armazenamento simples da Amazon (Amazon S3).
Crie uma base de conhecimento.
Sincronize sua base de conhecimento com sua fonte de dados.
Use a base de conhecimento para responder consultas semânticas sobre o catálogo de filmes.

Pré-requisitos

Os dados da IMDb usados nesta postagem requerem uma licença de conteúdo comercial e assinatura paga do pacote de licenciamento IMDb e Box Office Mojo Movies/TV/OTT no AWS Data Exchange. Para obter informações sobre uma licença e acessar dados de amostra, visite desenvolvedor.imdb.com. Para acessar o conjunto de dados, consulte Recomendação de energia e pesquisa usando um gráfico de conhecimento da IMDb – Parte 1 e siga o Acesse os dados do IMDb seção.

Pré-processe os dados do IMDb

Antes de criarmos uma base de conhecimento, precisamos pré-processar o conjunto de dados IMDb em arquivos de texto e carregá-los em um bucket S3. Neste post, simulamos um catálogo de clientes usando o conjunto de dados IMDb. Pegamos 10,000 filmes populares do conjunto de dados da IMDb para o catálogo e construímos o conjunto de dados.

Use o seguinte caderno para criar o conjunto de dados com informações adicionais, como nomes de atores, diretores e produtores. Usamos o seguinte código para criar um único arquivo para um filme com todas as informações armazenadas no arquivo em um texto não estruturado que pode ser entendido por LLMs:

def create_txt_files_imdb(row): full_text = "" full_text += f"{row['originalTitle']} ({row['titleId']}) was shot in year {int(row['year'])} with rating {row['rating']} and poster url {row['poster_url']}.nn" full_text += f"{row['originalTitle']} has genres {', '.join(row['genres'])}.nn" full_text += f"{row['originalTitle']} has actors {', '.join(row['Actors'])}.nn" full_text += f"{row['originalTitle']} has directors {', '.join(row['Directors'])}.nn" full_text += f"{row['originalTitle']} has producers {', '.join(row['Producers'])}.nn" full_text += f"{row['originalTitle']} has keyword {', '.join([x.replace('-',' ') for x in row['keyword']])}.nn" full_text += f"{row['originalTitle']} has location {', '.join(row['location'])}.nn" full_text += f"{row['originalTitle']} has plot {row['plot']}.nn" with open(f"<path>/data/imdb_data/{row['titleId']}.txt","w") as f: f.write(full_text) return full_text

Depois de ter os dados no formato .txt, você poderá fazer upload dos dados no Amazon S3 usando o seguinte comando:

aws s3 cp <path to local data> s3://<bucket-name>/<path>/ --recursive

Crie a base de conhecimento da IMDb

Conclua as etapas a seguir para criar sua base de conhecimento:

No console do Amazon Bedrock, escolha Base de conhecimento no painel de navegação.
Escolha Criar base de conhecimento.
Escolha Nome da base de conhecimento, entrar imdb.
Escolha Descrição da base de conhecimento, insira uma descrição opcional, como Base de conhecimento para ingestão e armazenamento de dados imdb.
Escolha Permissões do IAM, selecione Criar e usar uma nova função de serviçoe insira um nome para sua nova função de serviço.
Escolha Próximo.

página do console de detalhes da base de conhecimento

Escolha Nome da fonte de dados, entrar imdb-s3.
Escolha URI S3, insira o URI do S3 para o qual você fez upload dos dados.
No Configurações avançadas – opcional seção, para Estratégia de fragmentação, escolha Sem fragmentação.
Escolha Próximo.

As bases de conhecimento permitem que você divida seus documentos em segmentos menores para facilitar o processamento de documentos grandes. No nosso caso, já dividimos os dados em um documento de tamanho menor (um por filme).

console da base de conhecimento 2

No Banco de dados de vetores seção, selecione Crie rapidamente um novo armazenamento de vetores.

O Amazon Bedrock criará automaticamente uma coleção de pesquisa vetorial OpenSearch Serverless totalmente gerenciada e definirá as configurações para incorporar suas fontes de dados usando o modelo Titan Embedding G1 – Text Embedding escolhido.

página da loja de vetores da base de conhecimento

Escolha Próximo.

Crie um chatbot de filme para plataformas de TV/OTT usando Retrieval Augmented Generation no Amazon Bedrock | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Revise suas configurações e escolha Criar base de conhecimento.

Sincronize seus dados com a base de conhecimento

Agora que criou sua base de conhecimento, você pode sincronizá-la com seus dados.

No console do Amazon Bedrock, navegue até sua base de conhecimento.
No Fonte de dados seção, escolha sincronização.

sincronização da base de conhecimento

Depois que a fonte de dados for sincronizada, você estará pronto para consultar os dados.

Melhore a pesquisa usando resultados semânticos

Conclua as etapas a seguir para testar a solução e melhorar sua pesquisa usando resultados semânticos:

No console do Amazon Bedrock, navegue até sua base de conhecimento.
Selecione sua base de conhecimento e escolha Base de conhecimento de teste.
Escolha Selecionar modeloe escolha Claude antrópico v2.1.
Escolha Aplicar.

Agora você está pronto para consultar os dados.

Podemos fazer algumas perguntas semânticas, como “Recomende-me alguns filmes com temática de Natal”.

consulta Recomende-me alguns filmes temáticos de Natal.

As respostas da base de conhecimento contêm citações que você pode explorar quanto à correção e factualidade das respostas.

citações da base de conhecimento

Você também pode detalhar qualquer informação necessária desses filmes. No exemplo a seguir, perguntamos “quem dirigiu o pesadelo antes do Natal?”

“quem dirigiu pesadelo antes do natal?”

Você também pode fazer perguntas mais específicas relacionadas aos gêneros e classificações, como “mostre-me filmes clássicos de animação com classificações superiores a 7?”

mostre-me filmes clássicos de animação com classificações superiores a 7?

Aumente sua base de conhecimento com agentes

Agentes da Amazon Bedrock ajudá-lo a automatizar tarefas complexas. Os agentes podem dividir a consulta do usuário em tarefas menores e chamar APIs personalizadas ou bases de conhecimento para complementar as informações para a execução de ações. Com Agents for Amazon Bedrock, os desenvolvedores podem integrar agentes inteligentes em seus aplicativos, acelerando a entrega de aplicativos com tecnologia de IA e economizando semanas de tempo de desenvolvimento. Com os agentes, você pode aumentar sua base de conhecimento adicionando mais funcionalidades, como recomendações de Amazon Customize para recomendações específicas do usuário ou execução de ações como filtrar filmes com base nas necessidades do usuário.

Conclusão

Nesta postagem, mostramos como construir um chatbot de filme conversacional usando Amazon Bedrock em algumas etapas para responder pesquisas semânticas e experiências de conversação com base em seus próprios dados e no conjunto de dados licenciados IMDb e Box Office Mojo Movies/TV/OTT. Na próxima postagem, abordaremos o processo de adição de mais funcionalidades à sua solução usando Agents for Amazon Bedrock. Para começar a usar bases de conhecimento no Amazon Bedrock, consulte Bases de conhecimento para Amazon Bedrock.

Sobre os autores

Crie um chatbot de filme para plataformas de TV/OTT usando Retrieval Augmented Generation no Amazon Bedrock | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Gaurav Rele é cientista de dados sênior no Generative AI Innovation Center, onde trabalha com clientes da AWS em diferentes verticais para acelerar o uso de IA generativa e serviços de nuvem AWS para resolver seus desafios de negócios.

Crie um chatbot de filme para plataformas de TV/OTT usando Retrieval Augmented Generation no Amazon Bedrock | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Divya Bhargavi é Cientista Aplicada Sênior Líder no Centro de Inovação em IA Generativa, onde resolve problemas de negócios de alto valor para clientes da AWS usando métodos de IA generativa. Ela trabalha com compreensão e recuperação de imagens/vídeos, modelos de linguagem ampliada com gráficos de conhecimento e casos de uso de publicidade personalizada.

Crie um chatbot de filme para plataformas de TV/OTT usando Retrieval Augmented Generation no Amazon Bedrock | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Suren Gunturu é cientista de dados e trabalha no Generative AI Innovation Center, onde trabalha com vários clientes da AWS para resolver problemas de negócios de alto valor. Ele é especialista na construção de pipelines de ML usando modelos de linguagem grande, principalmente por meio do Amazon Bedrock e outros serviços da nuvem AWS.

Crie um chatbot de filme para plataformas de TV/OTT usando Retrieval Augmented Generation no Amazon Bedrock | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Vidya Sagar Ravipati é gerente científico no Generative AI Innovation Center, onde aproveita sua vasta experiência em sistemas distribuídos de grande escala e sua paixão pelo aprendizado de máquina para ajudar os clientes da AWS em diferentes setores verticais do setor a acelerar sua adoção de IA e nuvem.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/build-a-movie-chatbot-for-tv-ott-platforms-using-retrieval-augmented-generation-in-amazon-bedrock/

Carimbo de hora: 31 de janeiro de 2024

Carimbo de hora: 22 Dezembro, 2023

Republicado por Platão

Detecção de anomalias com o Amazon SageMaker Edge Manager usando AWS IoT Greengrass V2

Realize análises hipotéticas com o Amazon Forecast, até 80% mais rápido do que antes

O InformedIQ automatiza as verificações para empréstimos automáticos da Origence usando aprendizado de máquina

Crie agentes de IA generativos com Amazon Bedrock, Amazon DynamoDB, Amazon Kendra, Amazon Lex e LangChain | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta