Desbloqueie insights de seus dados do Amazon S3 com pesquisa inteligente | Amazon Web Services

Desbloqueie insights de seus dados do Amazon S3 com pesquisa inteligente | Amazon Web Services

Amazona Kendra é um serviço de pesquisa inteligente alimentado por aprendizado de máquina (ML). O Amazon Kendra reimagina a pesquisa corporativa para seus sites e aplicativos para que seus funcionários e clientes possam encontrar facilmente o conteúdo que procuram, mesmo quando ele está disperso em vários locais e repositórios de conteúdo em sua organização. Palavras-chave ou perguntas de linguagem natural podem ser usadas para pesquisar os documentos mais relevantes desenvolvidos pelo ML para fornecer respostas e classificar documentos. Amazon Kendra pode indexar dados de Serviço de armazenamento simples da Amazon (Amazon S3) ou de um repositório de documentos de terceiros. O Amazon S3 é um serviço de armazenamento de objetos que oferece escalabilidade e disponibilidade, onde você pode armazenar grandes quantidades de dados, incluindo manuais de produtos, documentos de projetos e pesquisas e muito mais.

Nesta postagem, você pode aprender como implantar um fornecido Formação da Nuvem AWS modelo para indexar seus documentos em um bucket do Amazon S3. O modelo cria uma fonte de dados Amazon Kendra para um índice e sincroniza sua fonte de dados de acordo com suas necessidades: sob demanda, por hora, diariamente, semanalmente ou mensalmente. O AWS CloudFormation nos permite provisionar infraestrutura como código (IaC) para que você gaste menos tempo gerenciando recursos, replique sua infraestrutura rapidamente e controle e rastreie alterações na infraestrutura.

Visão geral da solução

O modelo CloudFormation configura uma fonte de dados do Amazon Kendra com uma conexão com o Amazon S3. O modelo também cria uma função para o serviço de fonte de dados Amazon Kendra. Você pode especificar um bucket S3, programação de sincronização e padrões de inclusão/exclusão. Quando o trabalho de sincronização for concluído, você poderá pesquisar o conteúdo indexado por meio do console de pesquisa. O diagrama a seguir ilustra esse fluxo de trabalho.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Esta postagem orienta você nas seguintes etapas:

  1. Implante o modelo fornecido.
  2. Carregue os documentos no bucket do S3 que você criou. Se você fornecer um balde com documentos, poderá omitir esta etapa.
  3. Aguarde até que o índice termine de rastrear a fonte de dados.

Pré-requisitos

Para este passo a passo, você deve ter os seguintes pré-requisitos:

  • An Conta da AWS onde a solução proposta pode ser implantada.
  • Um índice do Amazon Kendra para anexar uma fonte de dados à pilha.
  • O conjunto de documentos usados ​​para criar o índice Amazon Kendra. Nesta solução, você está usando um arquivo compactado de Documentos técnicos da AWS.

Implante a solução com o AWS CloudFormation

Para implantar o modelo do CloudFormation, conclua as etapas a seguir:

  1. Escolha
    Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Você é redirecionado para o console do AWS CloudFormation.

  1. Você pode modificar os parâmetros ou usar os valores padrão:
    • O nome da fonte de dados do Amazon Kendra é definido automaticamente usando o nome da pilha e o nome do depósito associado.
    • Escolha KendraIndexID, insira o ID do índice do Amazon Kendra onde você anexará a fonte de dados.
    • Você também pode escolher quando deseja executar a sincronização da fonte de dados usando KendraSyncSchedule. Por padrão, é definido como Sob demanda.
    • Escolha S3BucketName, você pode inserir um bloco que já criou ou deixá-lo vazio. Se você deixá-lo vazio, um balde será criado para você. De qualquer forma, o bucket é usado como fonte de dados do Amazon Kendra. Para esta postagem, deixamos em branco.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Leva cerca de 5 minutos para a pilha implantar a fonte de dados do Amazon Kendra anexada ao índice do Amazon Kendra.

  1. No Saídas guia da pilha do CloudFormation, copie o nome do depósito criado, o nome da fonte de dados e o ID.

A pilha criada implanta uma função: <stack-name>-KendraDataSourceRole. É uma prática recomendada implantar uma função para cada fonte de dados criada. Essa função fornece a fonte de dados do Amazon Kendra para adicionar ou remover arquivos do índice do Amazon Kendra, para obter objetos do bucket do Amazon S3.

Fazer upload de arquivos para o bucket S3

O Amazon Kendra pode lidar com vários tipos de documentos, como .html, .pdf, .csv, .json, .docx e .ppt. Você também pode ter uma combinação de documentos em um único índice. O texto contido nesses documentos é indexado ao índice Amazon Kendra fornecido. Você pode pesquisar palavras-chave em tópicos da AWS sobre práticas recomendadas, bancos de dados, aprendizado de máquina, segurança e muito mais usando mais de 60 arquivos PDF que você pode download. Por exemplo, se você quiser saber onde encontrar mais informações sobre armazenamento em cache nos whitepapers da AWS, o Amazon Kendra pode ajudá-lo a encontrar documentos relacionados a bancos de dados e práticas recomendadas.

Quando você baixar o Documentos técnicos da AWS.zip arquivo e descompacte o arquivo, você verá estas seis pastas: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Carregue essas pastas em seu bucket do S3.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Sincronize a fonte de dados do Amazon Kendra

Os dados da fonte de dados do Amazon Kendra podem sincronizar seus dados com base na programação pré-configurada ou podem ser acionados manualmente sob demanda. Por padrão, o modelo do CloudFormation configura a fonte de dados para agendamento de sincronização sob demanda a ser acionado manualmente conforme necessário.

Para acionar manualmente o trabalho de sincronização do console AWS Amazon Kendra, navegue até o índice Amazon Kendra usado como parte da implantação da pilha do CloudFormation, em Gestão de dados no painel de navegação, escolha Fontes de dados e depois escolha Sincronize agora. Isso faz com que o bucket do S3 seja sincronizado com a fonte de dados.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Quando a fonte de dados do Amazon Kendra começar a sincronizar, você deverá ver o Estado de sincronização atual as Sincronizando.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Quando a fonte de dados terminar, o Último status de sincronização aparece como Sucedido e Estado de sincronização atual as inativo. Agora você pode pesquisar o conteúdo indexado.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Configurar agendamento de sincronização

O modelo permite executar o planejamento a cada hora no minuto 0, por exemplo, 13:00, 14:00 ou 15:00. Você também tem a opção de executá-lo diariamente às 00:00 UTC. O Semanal configuração é executada às segundas-feiras às 00:00 UTC, e o Mensal A configuração é executada todo primeiro dia do mês às 00:00 UTC.

Para alterar a programação após a criação da fonte de dados do Amazon Kendra, no Opções menu, escolha Editar. Sob Definir as configurações de sincronização, você encontra o Programação de regras de sincronização seção.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Debaixo Frequência, você pode selecionar de hora em hora, diariamente, semanal, mensalou personalizadas, todos os quais permitem que você agende sua sincronização minuto a minuto.

Adicionar padrões de exclusão

O modelo CloudFormation fornecido permite adicionar padrões de exclusão. Por padrão, os arquivos .png e .jpg serão adicionados ao Padrões de Exclusão parâmetro. Formatos de arquivo adicionais podem ser adicionados como uma lista separada por vírgulas ao padrão de exclusão. De forma similar, Padrões de inclusão O parâmetro pode ser usado adicionar formatos de arquivo de lista de vírgulas para configurar um padrão de inclusão. Se você não fornecer um padrão de inclusão, todos os arquivos serão indexados, exceto os incluídos no parâmetro de exclusão.

limpar

Para evitar custos, você pode excluir a pilha do console do AWS CloudFormation. No Pilhas página, selecione a pilha que você criou, escolha Apagar, e confirme a exclusão da pilha.

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Se você não forneceu um depósito S3, a pilha cria um depósito. Se o balde estiver vazio, ele será excluído automaticamente. Caso contrário, você precisa esvaziar a pasta e excluí-la manualmente. Se você forneceu um bucket, mesmo que esteja vazio, ele não será excluído. O índice do Amazon Kendra não será excluído. Somente a fonte de dados do Amazon Kendra criada pela pilha será excluída.

Conclusão

Nesta postagem, fornecemos um modelo CloudFormation para sincronizar facilmente seus documentos de texto em um bucket S3 com seu índice Amazon Kendra. Essa solução é útil se você tiver vários buckets do S3 que deseja indexar, pois pode criar todos os componentes necessários para consultar os documentos com apenas alguns cliques de maneira consistente e repetível. Você também pode ver como os documentos de texto baseados em imagem podem ser tratados no Amazon Kendra. Para saber mais sobre padrões de programação específicos, consulte Programar expressões para regras.

Deixe um comentário e saiba mais sobre a criação de índices do Amazon Kendra a seguir Amazon Kendra Essentials + workshop.

Agradecimentos especiais a Jose Mauricio Mani Yanez por sua ajuda na criação do código de exemplo e na compilação do conteúdo deste post.


Sobre o autor

Desbloqueie insights de dados do Amazon S3 com pesquisa inteligente | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Rajesh Kumar Ravi é um arquiteto de soluções especialista em IA/ML da Amazon Web Services, especializado em pesquisa inteligente de documentos com Amazon Kendra e IA generativa. Ele é um construtor e solucionador de problemas, e contribui para o desenvolvimento de novas ideias. Ele gosta de caminhar e adora fazer caminhadas curtas fora do trabalho.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS