Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar ML

Laboratório de estúdio do Amazon SageMaker é um ambiente de desenvolvimento de machine learning (ML) gratuito baseado no JupyterLab de código aberto para qualquer pessoa aprender e experimentar o ML usando os recursos de computação do AWS ML. É baseado na mesma arquitetura e interface de usuário que Estúdio Amazon SageMaker, mas com um subconjunto de recursos do Studio.

Ao começar a trabalhar em iniciativas de ML, você precisa realizar uma análise exploratória de dados (EDA) ou preparação de dados antes de prosseguir com a construção do modelo. Gerenciador de dados do Amazon SageMaker é uma capacidade de Amazon Sage Maker que torna mais rápido para cientistas e engenheiros de dados preparar dados para aplicativos de ML por meio de uma interface visual. O Data Wrangler reduz o tempo necessário para agregar e preparar dados para ML de semanas para minutos.

Um acelerador chave da preparação de recursos no Data Wrangler é o Relatório de insights e qualidade de dados. Este relatório verifica a qualidade dos dados e ajuda a detectar anormalidades em seus dados, para que você possa realizar a engenharia de dados necessária para corrigir seu conjunto de dados. Você pode usar o Relatório de insights e qualidade de dados para realizar uma análise de seus dados para obter insights sobre seu conjunto de dados, como o número de valores ausentes e o número de valores discrepantes. Se você tiver problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights pode chamar sua atenção para esses problemas e ajudá-lo a identificar as etapas de preparação de dados que você precisa executar.

Os usuários do Studio Lab podem se beneficiar do Data Wrangler porque a qualidade dos dados e a engenharia de recursos são essenciais para o desempenho preditivo do seu modelo. O Data Wrangler ajuda com qualidade de dados e engenharia de recursos, fornecendo insights sobre problemas de qualidade de dados e permitindo facilmente a iteração e a engenharia rápidas de recursos usando uma interface do usuário de baixo código.

Neste post, mostramos como realizar análise exploratória de dados, preparar e transformar dados usando o Data Wrangler e exportar os dados transformados e preparados para o Studio Lab para realizar a construção do modelo.

Visão geral da solução

A solução inclui as seguintes etapas de alto nível:

  1. Crie uma conta da AWS e um usuário administrador. Este é um pré-requisito
  2. Baixe o conjunto de dados rotatividade.csv.
  3. Carregue o conjunto de dados para Serviço de armazenamento simples da Amazon (Amazônia S3).
  4. Crie um domínio do SageMaker Studio e inicie o Data Wrangler.
  5. Importe o conjunto de dados para o fluxo do Data Wrangler do Amazon S3.
  6. Crie o Relatório de insights e qualidade de dados e tire conclusões sobre a engenharia de recursos necessária.
  7. Execute as transformações de dados necessárias no Data Wrangler.
  8. Faça download do Relatório de insights e qualidade de dados e do conjunto de dados transformado.
  9. Carregue os dados em um projeto do Studio Lab para treinamento de modelo.

O diagrama a seguir ilustra esse fluxo de trabalho.

Pré-requisitos

Para usar o Data Wrangler e o Studio Lab, você precisa dos seguintes pré-requisitos:

Crie um fluxo de trabalho de preparação de dados com o Data Wrangler

Para começar, conclua as seguintes etapas:

  1. Carregue seu conjunto de dados para o Amazon S3.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  2. No console SageMaker, em Painel de controle no painel de navegação, escolha Studio.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  3. No Lançamento do Aplicativo menu ao lado do seu perfil de usuário, escolha Studio.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
    Depois de fazer login com sucesso no Studio, você deverá ver um ambiente de desenvolvimento como a captura de tela a seguir.
  4. Para criar um novo fluxo de trabalho do Data Wrangler, no Envie o menu, escolha Novo, Em seguida, escolha Fluxo do Data Wrangler.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
    O primeiro passo no Data Wrangler é importar seus dados. Você pode importar dados de várias fontes de dados, como Amazon S3, Amazona atena, Amazon RedShift, Floco de neve e Bancos de dados. Neste exemplo, usamos o Amazon S3. Se você quiser apenas ver como o Data Wrangler funciona, sempre poderá escolher Usar conjunto de dados de amostra.
  5. Escolha Datas de importação.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  6. Escolha Amazon S3.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  7. Escolha o conjunto de dados que você carregou e escolha importação.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
    O Data Wrangler permite importar todo o conjunto de dados ou amostrar uma parte dele.
  8. Para obter insights rapidamente sobre o conjunto de dados, escolha Primeiro K para Amostragem e digite 50000 para Tamanho da amostra.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Entenda a qualidade dos dados e obtenha insights

Vamos usar o Relatório de insights e qualidade de dados para realizar uma análise dos dados que importamos para o Data Wrangler. Você pode usar o relatório para entender quais etapas são necessárias para limpar e processar seus dados. Este relatório fornece informações como o número de valores ausentes e o número de valores discrepantes. Se você tiver problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights poderá chamar sua atenção para esses problemas.

  1. Escolha o sinal de mais ao lado de Tipos de dados e escolha Obtenha insights de dados.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  2. Escolha Tipo de análise, escolha Relatório de insights e qualidade de dados.
  3. Escolha Coluna de destino, escolha Agitação?.
  4. Escolha Tipo de problema¸ selecionar Classificação.
  5. Escolha Crie.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Você é apresentado a um relatório detalhado que você pode revisar e baixar. O relatório inclui várias seções, como modelo rápido, resumo de recursos, correlação de recursos e insights de dados. As capturas de tela a seguir fornecem exemplos dessas seções.

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Observações do relatório

A partir do relatório, podemos fazer as seguintes observações:

  • Nenhuma linha duplicada foi encontrada.
  • A State A coluna parece estar distribuída de maneira bastante uniforme, de modo que os dados são equilibrados em termos de população do estado.
  • A Phone coluna apresenta muitos valores exclusivos para ser de qualquer uso prático. Muitos valores exclusivos tornam esta coluna inútil. Podemos largar o Phone coluna em nossa transformação.
  • Com base na seção de correlação de recursos do relatório, Mins e Charge são altamente correlacionados. Podemos remover um deles.

Transformação

Com base em nossas observações, queremos fazer as seguintes transformações:

  • Remover o Phone coluna porque tem muitos valores exclusivos.
  • Também vemos vários recursos que essencialmente têm 100% de correlação entre si. Incluir esses pares de recursos em alguns algoritmos de ML pode criar problemas indesejados, enquanto em outros apenas introduzirá redundância e viés menores. Vamos remover um recurso de cada um dos pares altamente correlacionados: Day Charge do par com Day Mins, Night Charge do par com Night Mins e Intl Charge do par com Intl Mins.
  • Converter True or False no Churn coluna para ser um valor numérico de 1 ou 0.
  1. Retorne ao fluxo de dados e escolha o sinal de mais ao lado de Tipos de dados.
  2. Escolha Adicionar transformação.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  3. Escolha Adicionar etapa.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  4. Você pode procurar a transformação que procura (no nosso caso, gerenciar colunas).
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  5. Escolha Gerenciar colunas.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  6. Escolha Transformar¸ escolher Coluna de queda.
  7. Escolha Colunas para soltar¸ escolher Phone, Day Charge, Eve Charge, Night Charge e Intl Charge.
  8. Escolha visualização, Em seguida, escolha Atualizar.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
    Vamos adicionar outra transformação para realizar uma codificação categórica no Churn? coluna.
  9. Escolha a transformação Codificar categórico.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  10. Escolha Transformar, escolha Codificação ordinal.
  11. Escolha Colunas de entrada, escolha o Churn? coluna.
  12. Escolha Estratégia de manuseio inválida, escolha Substituir por NaN.
  13. Escolha visualização, Em seguida, escolha Atualizar.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Atual True e False são convertidos para 1 e 0, respectivamente.

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Agora que entendemos bem os dados e preparamos e transformamos os dados para a construção do modelo, podemos mover os dados para o Studio Lab para a construção do modelo.

Faça upload dos dados para o Studio Lab

Para começar a usar os dados no Studio Lab, conclua as etapas a seguir:

  1. Escolha Exportar dados para exportar para um bucket S3.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  2. Escolha Localização do Amazon S3, insira seu caminho do S3.
  3. Especifique o tipo de arquivo.
  4. Escolha Exportar dados.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  5. Depois de exportar os dados, você pode fazer download dos dados do bucket do S3 para seu computador local.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  6. Agora você pode ir ao Studio Lab e fazer upload do arquivo para o Studio Lab.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
    Como alternativa, você pode se conectar ao Amazon S3 no Studio Lab. Para obter mais informações, consulte Use recursos externos no Amazon SageMaker Studio Lab.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  7. Vamos instalar o SageMaker e importar o Pandas.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  8. Importe todas as bibliotecas conforme necessário.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  9. Agora podemos ler o arquivo CSV.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  10. Vamos imprimir churn para confirmar se o conjunto de dados está correto.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Agora que você tem o conjunto de dados processado no Studio Lab, pode realizar outras etapas necessárias para a construção do modelo.

Preços do Data Wrangler

Você pode executar todas as etapas deste post para EDA ou preparação de dados no Data Wrangler e pagar para a instância simples, trabalhos e preços de armazenamento com base no uso ou consumo. Nenhuma taxa inicial ou de licenciamento é necessária.

limpar

Quando você não estiver usando o Data Wrangler, é importante encerrar a instância na qual ele é executado para evitar taxas adicionais. Para evitar a perda de trabalho, salve seu fluxo de dados antes de encerrar o Data Wrangler.

  1. Para salvar seu fluxo de dados no Studio, escolha Envie o, Em seguida, escolha Salvar fluxo do Data Wrangler.
    O Data Wrangler salva automaticamente seu fluxo de dados a cada 60 segundos.
  2. Para encerrar a instância do Data Wrangler, no Studio, escolha Executando instâncias e kernels.
  3. Debaixo APLICATIVOS DE CORRIDA, escolha o ícone de desligamento ao lado do sagemaker-data-wrangler-1.0 app.
  4. Escolha Desligar tudo para confirmar.
    Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O Data Wrangler é executado em uma instância ml.m5.4xlarge. Esta instância desaparece de INSTÂNCIAS EM EXECUÇÃO quando você desliga o aplicativo Data Wrangler.

Depois de encerrar o aplicativo Data Wrangler, ele precisa ser reiniciado na próxima vez que você abrir um arquivo de fluxo do Data Wrangler. Isso pode levar alguns minutos.

Conclusão

Neste post, vimos como você pode obter insights sobre seu conjunto de dados, realizar análises exploratórias de dados, preparar e transformar dados usando o Data Wrangler no Studio e exportar os dados transformados e preparados para o Studio Lab e realizar a construção de modelos e outras etapas.

Com o SageMaker Data Wrangler, você pode simplificar o processo de preparação de dados e engenharia de recursos e concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados a partir de uma única interface visual.


Sobre os autores

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Rajakumar Sampathkumar é gerente técnico principal de contas da AWS, fornecendo orientação aos clientes sobre o alinhamento de tecnologia de negócios e apoiando a reinvenção de seus modelos e processos de operação em nuvem. Ele é apaixonado por nuvem e aprendizado de máquina. Raj também é especialista em machine learning e trabalha com clientes da AWS para projetar, implantar e gerenciar suas cargas de trabalho e arquiteturas da AWS.

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Meenakshisundaram Thandavarayan é um especialista sênior em IA/ML com paixão por projetar, criar e promover experiências de dados e análises centradas no ser humano. Ele oferece suporte aos clientes estratégicos da AWS em sua transformação em uma organização orientada a dados.

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar o ML PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.James Wu é arquiteto de soluções especialista em IA/ML sênior na AWS. ajudando os clientes a projetar e criar soluções de IA/ML. O trabalho de James abrange uma ampla variedade de casos de uso de ML, com interesse principal em visão computacional, aprendizado profundo e dimensionamento de ML em toda a empresa. Antes de ingressar na AWS, James foi arquiteto, desenvolvedor e líder de tecnologia por mais de 10 anos, incluindo 6 anos em engenharia e 4 anos nos setores de marketing e publicidade.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS