Use o Amazon SageMaker Data Wrangler para preparação de dados e Studio Labs para aprender e experimentar ML

Republicado por Platão

seguidores: 0

Laboratório de estúdio do Amazon SageMaker é um ambiente de desenvolvimento de machine learning (ML) gratuito baseado no JupyterLab de código aberto para qualquer pessoa aprender e experimentar o ML usando os recursos de computação do AWS ML. É baseado na mesma arquitetura e interface de usuário que Estúdio Amazon SageMaker, mas com um subconjunto de recursos do Studio.

Ao começar a trabalhar em iniciativas de ML, você precisa realizar uma análise exploratória de dados (EDA) ou preparação de dados antes de prosseguir com a construção do modelo. Gerenciador de dados do Amazon SageMaker é uma capacidade de Amazon Sage Maker que torna mais rápido para cientistas e engenheiros de dados preparar dados para aplicativos de ML por meio de uma interface visual. O Data Wrangler reduz o tempo necessário para agregar e preparar dados para ML de semanas para minutos.

Um acelerador chave da preparação de recursos no Data Wrangler é o Relatório de insights e qualidade de dados. Este relatório verifica a qualidade dos dados e ajuda a detectar anormalidades em seus dados, para que você possa realizar a engenharia de dados necessária para corrigir seu conjunto de dados. Você pode usar o Relatório de insights e qualidade de dados para realizar uma análise de seus dados para obter insights sobre seu conjunto de dados, como o número de valores ausentes e o número de valores discrepantes. Se você tiver problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights pode chamar sua atenção para esses problemas e ajudá-lo a identificar as etapas de preparação de dados que você precisa executar.

Os usuários do Studio Lab podem se beneficiar do Data Wrangler porque a qualidade dos dados e a engenharia de recursos são essenciais para o desempenho preditivo do seu modelo. O Data Wrangler ajuda com qualidade de dados e engenharia de recursos, fornecendo insights sobre problemas de qualidade de dados e permitindo facilmente a iteração e a engenharia rápidas de recursos usando uma interface do usuário de baixo código.

Neste post, mostramos como realizar análise exploratória de dados, preparar e transformar dados usando o Data Wrangler e exportar os dados transformados e preparados para o Studio Lab para realizar a construção do modelo.

Visão geral da solução

A solução inclui as seguintes etapas de alto nível:

Crie uma conta da AWS e um usuário administrador. Este é um pré-requisito
Baixe o conjunto de dados rotatividade.csv.
Carregue o conjunto de dados para Serviço de armazenamento simples da Amazon (Amazônia S3).
Crie um domínio do SageMaker Studio e inicie o Data Wrangler.
Importe o conjunto de dados para o fluxo do Data Wrangler do Amazon S3.
Crie o Relatório de insights e qualidade de dados e tire conclusões sobre a engenharia de recursos necessária.
Execute as transformações de dados necessárias no Data Wrangler.
Faça download do Relatório de insights e qualidade de dados e do conjunto de dados transformado.
Carregue os dados em um projeto do Studio Lab para treinamento de modelo.

O diagrama a seguir ilustra esse fluxo de trabalho.

Pré-requisitos

Para usar o Data Wrangler e o Studio Lab, você precisa dos seguintes pré-requisitos:

Crie um fluxo de trabalho de preparação de dados com o Data Wrangler

Para começar, conclua as seguintes etapas:

Carregue seu conjunto de dados para o Amazon S3.
No console SageMaker, em Painel de controle no painel de navegação, escolha Studio.
No Lançamento do Aplicativo menu ao lado do seu perfil de usuário, escolha Studio.

Depois de fazer login com sucesso no Studio, você deverá ver um ambiente de desenvolvimento como a captura de tela a seguir.
Para criar um novo fluxo de trabalho do Data Wrangler, no Envie o menu, escolha Novo, Em seguida, escolha Fluxo do Data Wrangler.

O primeiro passo no Data Wrangler é importar seus dados. Você pode importar dados de várias fontes de dados, como Amazon S3, Amazona atena, Amazon RedShift, Floco de neve e Bancos de dados. Neste exemplo, usamos o Amazon S3. Se você quiser apenas ver como o Data Wrangler funciona, sempre poderá escolher Usar conjunto de dados de amostra.
Escolha Datas de importação.
Escolha Amazon S3.
Escolha o conjunto de dados que você carregou e escolha importação.

O Data Wrangler permite importar todo o conjunto de dados ou amostrar uma parte dele.
Para obter insights rapidamente sobre o conjunto de dados, escolha Primeiro K para Amostragem e digite 50000 para Tamanho da amostra.

Entenda a qualidade dos dados e obtenha insights

Vamos usar o Relatório de insights e qualidade de dados para realizar uma análise dos dados que importamos para o Data Wrangler. Você pode usar o relatório para entender quais etapas são necessárias para limpar e processar seus dados. Este relatório fornece informações como o número de valores ausentes e o número de valores discrepantes. Se você tiver problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights poderá chamar sua atenção para esses problemas.

Escolha o sinal de mais ao lado de Tipos de dados e escolha Obtenha insights de dados.
Escolha Tipo de análise, escolha Relatório de insights e qualidade de dados.
Escolha Coluna de destino, escolha Agitação?.
Escolha Tipo de problema¸ selecionar Classificação.
Escolha Crie.

Você é apresentado a um relatório detalhado que você pode revisar e baixar. O relatório inclui várias seções, como modelo rápido, resumo de recursos, correlação de recursos e insights de dados. As capturas de tela a seguir fornecem exemplos dessas seções.

Observações do relatório

A partir do relatório, podemos fazer as seguintes observações:

Nenhuma linha duplicada foi encontrada.
A State A coluna parece estar distribuída de maneira bastante uniforme, de modo que os dados são equilibrados em termos de população do estado.
A Phone coluna apresenta muitos valores exclusivos para ser de qualquer uso prático. Muitos valores exclusivos tornam esta coluna inútil. Podemos largar o Phone coluna em nossa transformação.
Com base na seção de correlação de recursos do relatório, Mins e Charge são altamente correlacionados. Podemos remover um deles.

Transformação

Com base em nossas observações, queremos fazer as seguintes transformações:

Remover o Phone coluna porque tem muitos valores exclusivos.
Também vemos vários recursos que essencialmente têm 100% de correlação entre si. Incluir esses pares de recursos em alguns algoritmos de ML pode criar problemas indesejados, enquanto em outros apenas introduzirá redundância e viés menores. Vamos remover um recurso de cada um dos pares altamente correlacionados: Day Charge do par com Day Mins, Night Charge do par com Night Mins e Intl Charge do par com Intl Mins.
Converter True or False no Churn coluna para ser um valor numérico de 1 ou 0.

Retorne ao fluxo de dados e escolha o sinal de mais ao lado de Tipos de dados.
Escolha Adicionar transformação.
Escolha Adicionar etapa.
Você pode procurar a transformação que procura (no nosso caso, gerenciar colunas).
Escolha Gerenciar colunas.
Escolha Transformar¸ escolher Coluna de queda.
Escolha Colunas para soltar¸ escolher Phone, Day Charge, Eve Charge, Night Charge e Intl Charge.
Escolha visualização, Em seguida, escolha Atualizar.

Vamos adicionar outra transformação para realizar uma codificação categórica no Churn? coluna.
Escolha a transformação Codificar categórico.
Escolha Transformar, escolha Codificação ordinal.
Escolha Colunas de entrada, escolha o Churn? coluna.
Escolha Estratégia de manuseio inválida, escolha Substituir por NaN.
Escolha visualização, Em seguida, escolha Atualizar.

Atual True e False são convertidos para 1 e 0, respectivamente.

Agora que entendemos bem os dados e preparamos e transformamos os dados para a construção do modelo, podemos mover os dados para o Studio Lab para a construção do modelo.

Faça upload dos dados para o Studio Lab

Para começar a usar os dados no Studio Lab, conclua as etapas a seguir:

Escolha Exportar dados para exportar para um bucket S3.
Escolha Localização do Amazon S3, insira seu caminho do S3.
Especifique o tipo de arquivo.
Escolha Exportar dados.
Depois de exportar os dados, você pode fazer download dos dados do bucket do S3 para seu computador local.
Agora você pode ir ao Studio Lab e fazer upload do arquivo para o Studio Lab.

Como alternativa, você pode se conectar ao Amazon S3 no Studio Lab. Para obter mais informações, consulte Use recursos externos no Amazon SageMaker Studio Lab.
Vamos instalar o SageMaker e importar o Pandas.
Importe todas as bibliotecas conforme necessário.
Agora podemos ler o arquivo CSV.
Vamos imprimir churn para confirmar se o conjunto de dados está correto.

Agora que você tem o conjunto de dados processado no Studio Lab, pode realizar outras etapas necessárias para a construção do modelo.

Preços do Data Wrangler

Você pode executar todas as etapas deste post para EDA ou preparação de dados no Data Wrangler e pagar para a instância simples, trabalhos e preços de armazenamento com base no uso ou consumo. Nenhuma taxa inicial ou de licenciamento é necessária.

limpar

Quando você não estiver usando o Data Wrangler, é importante encerrar a instância na qual ele é executado para evitar taxas adicionais. Para evitar a perda de trabalho, salve seu fluxo de dados antes de encerrar o Data Wrangler.

Para salvar seu fluxo de dados no Studio, escolha Envie o, Em seguida, escolha Salvar fluxo do Data Wrangler.
O Data Wrangler salva automaticamente seu fluxo de dados a cada 60 segundos.
Para encerrar a instância do Data Wrangler, no Studio, escolha Executando instâncias e kernels.
Debaixo APLICATIVOS DE CORRIDA, escolha o ícone de desligamento ao lado do sagemaker-data-wrangler-1.0 app.
Escolha Desligar tudo para confirmar.

O Data Wrangler é executado em uma instância ml.m5.4xlarge. Esta instância desaparece de INSTÂNCIAS EM EXECUÇÃO quando você desliga o aplicativo Data Wrangler.

Depois de encerrar o aplicativo Data Wrangler, ele precisa ser reiniciado na próxima vez que você abrir um arquivo de fluxo do Data Wrangler. Isso pode levar alguns minutos.

Conclusão

Neste post, vimos como você pode obter insights sobre seu conjunto de dados, realizar análises exploratórias de dados, preparar e transformar dados usando o Data Wrangler no Studio e exportar os dados transformados e preparados para o Studio Lab e realizar a construção de modelos e outras etapas.

Com o SageMaker Data Wrangler, você pode simplificar o processo de preparação de dados e engenharia de recursos e concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados a partir de uma única interface visual.

Sobre os autores

Rajakumar Sampathkumar é gerente técnico principal de contas da AWS, fornecendo orientação aos clientes sobre o alinhamento de tecnologia de negócios e apoiando a reinvenção de seus modelos e processos de operação em nuvem. Ele é apaixonado por nuvem e aprendizado de máquina. Raj também é especialista em machine learning e trabalha com clientes da AWS para projetar, implantar e gerenciar suas cargas de trabalho e arquiteturas da AWS.

Meenakshisundaram Thandavarayan é um especialista sênior em IA/ML com paixão por projetar, criar e promover experiências de dados e análises centradas no ser humano. Ele oferece suporte aos clientes estratégicos da AWS em sua transformação em uma organização orientada a dados.

James Wu é arquiteto de soluções especialista em IA/ML sênior na AWS. ajudando os clientes a projetar e criar soluções de IA/ML. O trabalho de James abrange uma ampla variedade de casos de uso de ML, com interesse principal em visão computacional, aprendizado profundo e dimensionamento de ML em toda a empresa. Antes de ingressar na AWS, James foi arquiteto, desenvolvedor e líder de tecnologia por mais de 10 anos, incluindo 6 anos em engenharia e 4 anos nos setores de marketing e publicidade.

Carimbo de hora: 15 de Setembro de 202215 de Setembro de 2022

Carimbo de hora: 4 de março de 2024

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar ML

Republicado por Platão

Visão geral da solução

Pré-requisitos

Crie um fluxo de trabalho de preparação de dados com o Data Wrangler

Entenda a qualidade dos dados e obtenha insights

Observações do relatório

Transformação

Faça upload dos dados para o Studio Lab

Preços do Data Wrangler

limpar

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Accenture cria solução de autoria de documentos regulatórios usando serviços de IA generativos da AWS | Amazon Web Services

Amazon Comprehend Targeted Sentiment adiciona suporte síncrono

Como a BigBasket melhorou o checkout habilitado para IA em suas lojas físicas usando o Amazon SageMaker | Amazon Web Services

Use o AWS CDK para implantar configurações de ciclo de vida do Amazon SageMaker Studio | Amazon Web Services

Anunciando o conector Salesforce atualizado (V2) para Amazon Kendra

Experimentos do Amazon SageMaker de próxima geração – organize, rastreie e compare seus treinamentos de machine learning em escala

Alcance maturidade DevOps com BMC AMI zAdviser Enterprise e Amazon Bedrock | Amazon Web Services

Desbloqueando a inovação: AWS e Anthropic ampliam os limites da IA generativa juntas | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta