Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Amazon Web Services

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Amazon Web Services

Temos o prazer de anunciar o lançamento de Amazon DocumentDB (com compatibilidade com MongoDB) integração com Tela do Amazon SageMaker, permitindo que os clientes do Amazon DocumentDB criem e usem soluções generativas de IA e machine learning (ML) sem escrever código. O Amazon DocumentDB é um banco de dados de documentos JSON nativo totalmente gerenciado que torna simples e econômico operar cargas de trabalho de documentos críticos em praticamente qualquer escala, sem gerenciar a infraestrutura. O Amazon SageMaker Canvas é um espaço de trabalho de ML sem código que oferece modelos prontos para uso, incluindo modelos básicos, e a capacidade de preparar dados e criar e implantar modelos personalizados.

Nesta postagem, discutimos como trazer dados armazenados no Amazon DocumentDB para o SageMaker Canvas e usar esses dados para criar modelos de ML para análise preditiva. Sem criar e manter pipelines de dados, você poderá potencializar modelos de ML com dados não estruturados armazenados no Amazon DocumentDB.

Visão geral da solução

Vamos assumir o papel de analista de negócios de uma empresa de entrega de alimentos. Seu aplicativo móvel armazena informações sobre restaurantes no Amazon DocumentDB devido à escalabilidade e aos recursos de esquema flexíveis. Você deseja coletar insights sobre esses dados e construir um modelo de ML para prever como os novos restaurantes serão avaliados, mas acha um desafio realizar análises em dados não estruturados. Você encontra gargalos porque precisa contar com equipes de engenharia e ciência de dados para atingir esses objetivos.

Essa nova integração resolve esses problemas, simplificando a transferência de dados do Amazon DocumentDB para o SageMaker Canvas e o início imediato da preparação e análise de dados para ML. Além disso, o SageMaker Canvas elimina a dependência da experiência em ML para construir modelos de alta qualidade e gerar previsões.

Demonstramos como usar dados do Amazon DocumentDB para criar modelos de ML no SageMaker Canvas nas seguintes etapas:

  1. Crie um conector Amazon DocumentDB no SageMaker Canvas.
  2. Analise dados usando IA generativa.
  3. Prepare dados para aprendizado de máquina.
  4. Construa um modelo e gere previsões.

Pré-requisitos

Para implementar esta solução, preencha os seguintes pré-requisitos:

  1. Tenha acesso de administrador da Nuvem AWS com um Gerenciamento de acesso e identidade da AWS (IAM) usuário com permissões necessárias para concluir a integração.
  2. Conclua a configuração do ambiente usando Formação da Nuvem AWS através de uma das seguintes opções:
    1. Implantar um modelo CloudFormation em uma nova VPC – Esta opção cria um novo ambiente AWS que consiste em VPC, sub-redes privadas, grupos de segurança, funções de execução IAM, Amazon Cloud9, endpoints VPC necessários e Domínio do SageMaker. Em seguida, ele implanta o Amazon DocumentDB nessa nova VPC. Faça o download do modelo ou inicie rapidamente a pilha do CloudFormation escolhendo Pilha de Lançamento:
      Iniciar pilha do CloudFormation
    2. Implantar um modelo CloudFormation em uma VPC existente – Esta opção cria os VPC endpoints necessários, as funções de execução do IAM e o domínio SageMaker em uma VPC existente com sub-redes privadas. Faça o download do modelo ou inicie rapidamente a pilha do CloudFormation escolhendo Pilha de Lançamento:
      Iniciar pilha do CloudFormation

Observe que se você estiver criando um novo domínio SageMaker, deverá configurar o domínio para estar em uma VPC privada sem acesso à Internet para poder adicionar o conector ao Amazon DocumentDB. Para saber mais, consulte Configure o Amazon SageMaker Canvas em uma VPC sem acesso à Internet.

  1. Siga o tutorial para carregar dados de amostra de restaurantes no Amazon DocumentDB.
  2. Adicione acesso ao Amazon Bedrock e ao modelo Antrópico Claude dentro dele. Para mais informações, veja Adicionar acesso ao modelo.

Crie um conector Amazon DocumentDB no SageMaker Canvas

Depois de criar seu domínio SageMaker, conclua as seguintes etapas:

  1. No console do Amazon DocumentDB, escolha Aprendizado de máquina sem código no painel de navegação.
  2. Debaixo Escolha um domínio e perfil¸ escolha seu domínio e perfil de usuário SageMaker.
  3. Escolha Iniciar tela para iniciar o SageMaker Canvas em uma nova guia.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Quando o SageMaker Canvas terminar de carregar, você chegará ao Fluxos de dados aba.

  1. Escolha Crie para criar um novo fluxo de dados.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  2. Insira um nome para seu fluxo de dados e escolha Crie.
  3. Adicione uma nova conexão do Amazon DocumentDB escolhendo Datas de importação, Em seguida, escolha Tabular para Tipo de conjunto de dados.
  4. No Datas de importação página, para Fonte de dados, escolha DocumentDB e Adicionar conexão.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  5. Insira um nome de conexão, como demo, e escolha o cluster do Amazon DocumentDB desejado.

Observe que o SageMaker Canvas preencherá previamente o menu suspenso com clusters na mesma VPC do seu domínio SageMaker.

  1. Insira um nome de usuário, senha e nome do banco de dados.
  2. Por fim, selecione sua preferência de leitura.

Para proteger o desempenho das instâncias primárias, o padrão do SageMaker Canvas é Secundário, o que significa que ele lerá apenas instâncias secundárias. Quando a preferência de leitura é Secundário preferido, o SageMaker Canvas lê as instâncias secundárias disponíveis, mas lerá a instância primária se uma instância secundária não estiver disponível. Para obter mais informações sobre como configurar uma conexão do Amazon DocumentDB, consulte o Conecte-se a um banco de dados armazenado na AWS.

  1. Escolha Adicionar conexão.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Se a conexão for bem-sucedida, você verá coleções no banco de dados Amazon DocumentDB mostradas como tabelas.

  1. Arraste a tabela de sua preferência para a tela em branco. Para esta postagem, adicionamos os dados do nosso restaurante.

As primeiras 100 linhas são exibidas como uma visualização.

  1. Para começar a analisar e preparar seus dados, escolha Datas de importação.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  2. Insira um nome de conjunto de dados e escolha Datas de importação.

Analise dados usando IA generativa

A seguir, queremos obter alguns insights sobre nossos dados e procurar padrões. SageMaker Canvas fornece uma interface de linguagem natural para analisar e preparar dados. Quando o Data carregando a guia, você pode começar a conversar com seus dados seguindo as seguintes etapas:

  1. Escolha Bate-papo para preparação de dados.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  2. Reúna insights sobre seus dados fazendo perguntas como os exemplos mostrados nas capturas de tela a seguir.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Para saber mais sobre como usar a linguagem natural para explorar e preparar dados, consulte Use linguagem natural para explorar e preparar dados com um novo recurso do Amazon SageMaker Canvas.

Vamos ter uma noção mais profunda da qualidade dos nossos dados usando o Relatório de insights e qualidade de dados do SageMaker Canvas, que avalia automaticamente a qualidade dos dados e detecta anormalidades.

  1. No Analisa guia, escolha Relatório de insights e qualidade de dados.
  2. Escolha rating como a coluna de destino e Regressão como o tipo de problema e escolha Crie.

Isso simulará o treinamento do modelo e fornecerá insights sobre como podemos melhorar nossos dados para aprendizado de máquina. O relatório completo é gerado em poucos minutos.

Nosso relatório mostra que 2.47% das linhas em nosso destino possuem valores ausentes – abordaremos isso na próxima etapa. Além disso, a análise mostra que o address line 2, name e type_of_food recursos têm o maior poder de previsão em nossos dados. Isso indica que informações básicas do restaurante, como localização e culinária, podem ter um impacto enorme nas avaliações.

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Preparar dados para aprendizado de máquina

SageMaker Canvas oferece mais de 300 transformações integradas para preparar seus dados importados. Para obter mais informações sobre os recursos de transformação do SageMaker Canvas, consulte Prepare dados com transformações avançadas. Vamos adicionar algumas transformações para preparar nossos dados para treinar um modelo de ML.

  1. Navegue de volta para o Fluxo de dados página escolhendo o nome do seu fluxo de dados na parte superior da página.
  2. Escolha o sinal de mais ao lado de Tipos de dados e escolha Adicionar transformação.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  3. Escolha Adicionar etapa.
  4. Vamos renomear o address line 2 coluna para cities.
    1. Escolha Gerenciar colunas.
    2. Escolha Renomear coluna para Transformar.
    3. Escolha address line 2 para Coluna de entrada, entrar cities para Novo nomee escolha Adicionar.
      Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  5. Além disso, vamos eliminar algumas colunas desnecessárias.
    1. Adicione uma nova transformação.
    2. Escolha Transformar, escolha Coluna de queda.
    3. Escolha Colunas para soltar, escolha URL e restaurant_id.
    4. Escolha Adicionar.
      Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.[
  6. Nosso rating coluna de recurso tem alguns valores ausentes, então vamos preencher essas linhas com o valor médio desta coluna.
    1. Adicione uma nova transformação.
    2. Escolha Transformar, escolha Imputar.
    3. Escolha Tipo de coluna, escolha Numérico.
    4. Escolha Colunas de entrada, escolha o rating coluna.
    5. Escolha Estratégia de imputação, escolha Média.
    6. Escolha Coluna de saída, entrar rating_avg_filled.
    7. Escolha Adicionar.
      Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  7. Podemos abandonar o rating coluna porque temos uma nova coluna com valores preenchidos.
  8. Porque type_of_food é de natureza categórica, desejaremos codificá-lo numericamente. Vamos codificar esse recurso usando a técnica de codificação one-hot.
    1. Adicione uma nova transformação.
    2. Escolha Transformar, escolha Codificação one-hot.
    3. Para Colunas de entrada, escolha type_of_food.
    4. Escolha Estratégia de manuseio inválida¸ escolher Guarda.
    5. Escolha Estilo de saída¸ escolher colunas.
    6. Escolha Coluna de saída, entrar encoded.
    7. Escolha Adicionar.
      Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Construa um modelo e gere previsões

Agora que transformamos nossos dados, vamos treinar um modelo numérico de ML para prever as classificações de restaurantes.

  1. Escolha Criar modelo.
  2. Escolha Nome do conjunto de dados, insira um nome para a exportação do conjunto de dados.
  3. Escolha Exportações e aguarde a exportação dos dados transformados.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.
  4. Escolha o Criar modelo link no canto inferior esquerdo da página.

Você também pode selecionar o conjunto de dados no recurso Data Wrangler à esquerda da página.

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

  1. Insira um nome de modelo.
  2. Escolha Análise preditiva, Em seguida, escolha Crie.
  3. Escolha rating_avg_filled como a coluna de destino.

O SageMaker Canvas seleciona automaticamente um tipo de modelo adequado.

  1. Escolha Modelo de visualização para garantir que não haja problemas de qualidade dos dados.
  2. Escolha Construção rápida para construir o modelo.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

A criação do modelo levará aproximadamente 2 a 15 minutos para ser concluída.

Você pode visualizar o status do modelo depois que ele terminar o treinamento. Nosso modelo tem um RSME de 0.422, o que significa que o modelo geralmente prevê a classificação de um restaurante dentro de +/- 0.422 do valor real, uma aproximação sólida para a escala de classificação de 1–6.

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

  1. Finalmente, você pode gerar previsões de amostra navegando até o Prever aba.
    Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

limpar

Para evitar cobranças futuras, exclua os recursos que você criou ao seguir esta postagem. O SageMaker Canvas cobra pela duração da sessão e recomendamos sair do SageMaker Canvas quando não estiver usando-o. Referir-se Sair do Amazon SageMaker Canvas para mais detalhes.

Conclusão

Nesta postagem, discutimos como você pode usar o SageMaker Canvas para IA generativa e ML com dados armazenados no Amazon DocumentDB. Em nosso exemplo, mostramos como um analista pode construir rapidamente um modelo de ML de alta qualidade usando um conjunto de dados de restaurante de amostra.

Mostramos as etapas para implementar a solução, desde a importação de dados do Amazon DocumentDB até a construção de um modelo de ML no SageMaker Canvas. Todo o processo foi concluído através de uma interface visual sem escrever uma única linha de código.

Para iniciar sua jornada de ML com baixo código/sem código, consulte Tela do Amazon SageMaker.


Sobre os autores

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Adeleke Coker é um arquiteto de soluções globais da AWS. Ele trabalha com clientes globalmente para fornecer orientação e assistência técnica na implantação de cargas de trabalho de produção em escala na AWS. Em seu tempo livre, ele gosta de aprender, ler, jogar e assistir a eventos esportivos.

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Gururaj S Bayari é arquiteto de soluções especialista em DocumentDB sênior na AWS. Ele gosta de ajudar os clientes a adotar os bancos de dados específicos da Amazon. Ele ajuda os clientes a projetar, avaliar e otimizar sua escala de Internet e cargas de trabalho de alto desempenho alimentadas por bancos de dados NoSQL e/ou relacionais.

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Tim Pusateri é gerente de produto sênior na AWS, onde trabalha no Amazon SageMaker Canvas. Seu objetivo é ajudar os clientes a obter rapidamente valor da IA/ML. Fora do trabalho, ele adora estar ao ar livre, tocar violão, ver música ao vivo e passar tempo com a família e amigos.

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Pratik Das é gerente de produto na AWS. Ele gosta de trabalhar com clientes que buscam criar cargas de trabalho resilientes e bases de dados sólidas na nuvem. Ele traz experiência trabalhando com empresas em iniciativas de modernização, análise e transformação de dados.

Use o Amazon DocumentDB para criar soluções de machine learning sem código no Amazon SageMaker Canvas | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Varma Gottumukkala é arquiteto de soluções especialista em banco de dados sênior na AWS e baseado em Dallas Fort Worth. Varma trabalha com os clientes em sua estratégia de banco de dados e arquiteta suas cargas de trabalho usando bancos de dados criados especificamente pela AWS. Antes de ingressar na AWS, ele trabalhou extensivamente com bancos de dados relacionais, bancos de dados NOSQL e diversas linguagens de programação nos últimos 22 anos.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS