Apresentando as novas visualizações incorporadas do Amazon SageMaker Data Wrangler

Republicado por Platão

seguidores: 0

Inspecionar manualmente a qualidade dos dados e limpar os dados é um processo doloroso e demorado que pode consumir uma grande parte do tempo de um cientista de dados em um projeto. De acordo com uma pesquisa de cientistas de dados de 2020 realizada pela Anaconda, os cientistas de dados gastam aproximadamente 66% de seu tempo em tarefas de preparação e análise de dados, incluindo carregamento (19%), limpeza (26%) e visualização de dados (21%). Amazon Sage Maker oferece uma variedade de ferramentas de preparação de dados para atender às diferentes necessidades e preferências dos clientes. Para usuários que preferem uma interface interativa baseada em GUI, Gerenciador de dados do SageMaker oferece mais de 300 visualizações, análises e transformações integradas para processar dados com eficiência com o respaldo do Spark sem escrever uma única linha de código.

A visualização de dados no aprendizado de máquina (ML) é um processo iterativo e requer visualização contínua do conjunto de dados para descoberta, investigação e validação. Colocar os dados em perspectiva envolve ver cada uma das colunas para compreender possíveis erros de dados, valores ausentes, tipos de dados incorretos, dados enganosos/incorretos, dados atípicos e muito mais.

Neste post, mostraremos como Gerenciador de dados do Amazon SageMaker gera automaticamente as principais visualizações da distribuição de dados, detecta problemas de qualidade de dados e apresenta insights de dados, como outliers para cada recurso, sem escrever uma única linha de código. Ele ajuda a melhorar a experiência da grade de dados com avisos de qualidade automáticos (por exemplo, valores ausentes ou valores inválidos). As visualizações geradas automaticamente também são interativas. Por exemplo, você pode mostrar uma tabulação dos cinco itens mais frequentes ordenados por porcentagem e passar o mouse sobre a barra para alternar entre contagem e porcentagem.

Pré-requisitos

O Amazon SageMaker Data Wrangler é um recurso do SageMaker disponível no SageMaker Studio. você pode seguir o processo de integração do Studio para ativar o ambiente Studio e os notebooks. Embora você possa escolher entre alguns métodos de autenticação, a maneira mais simples de criar um domínio do Studio é seguir as instruções Instruções de início rápido. O Início rápido usa as mesmas configurações padrão da configuração padrão do Studio. Você também pode optar por integrar usando Centro de identidade do AWS Identity and Access Management (IAM) (sucessor do AWS Single Sign-On) para autenticação (consulte Integração no domínio do Amazon SageMaker usando o IAM Identity Center).

Passo a passo da solução

Comece o seu Estúdio SageMaker Ambiente e criar um novo Fluxo do Data Wrangler. Você pode importar seu próprio conjunto de dados ou usar um conjunto de dados de amostra (Titânico) como pode ser visto na imagem a seguir. Esses dois nós (o fonte nó e o dados, type node) são clicáveis – quando você clicar duas vezes nesses dois nós, o Data Wrangler exibirá a tabela.

No nosso caso, vamos clicar com o botão direito do mouse no Tipos de dados ícone e Adicionar uma transformação:

Agora você deve ver as visualizações no topo de cada coluna. Aguarde algum tempo para que os gráficos sejam carregados. A latência depende do tamanho do conjunto de dados (para o conjunto de dados Titanic, deve levar de 1 a 2 segundos na instância padrão).

Apresentando as novas visualizações incorporadas do Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Role até a barra superior horizontal passando o mouse sobre a dica de ferramenta. Agora que os gráficos foram carregados, você pode ver a distribuição de dados, valores inválidos e valores ausentes. Valores discrepantes e valores ausentes são características de dados incorretos e é fundamental identificá-los porque podem afetar seus resultados. Isso significa que, como seus dados vieram de uma amostra não representativa, suas descobertas podem não ser generalizáveis para situações fora de seu estudo. A classificação dos valores pode ser vista nos gráficos na parte inferior, onde válido valores são representados em branco, inválido valores em azul e desaparecido valores em roxo. Você também pode olhar para o discrepantes representada pelos pontos azuis à esquerda ou à direita de um gráfico.

Apresentando as novas visualizações incorporadas do Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Todas as visualizações vêm na forma de histogramas. Para dados não categóricos, um conjunto de compartimentos é definido para cada compartimento. Para dados categóricos, cada valor exclusivo é tratado como um compartimento. No topo do histograma, há um gráfico de barras mostrando os valores inválidos e ausentes. Podemos visualizar a proporção de valores válidos para os tipos Numérico, Categórico, Binário, Texto e Datahora, bem como a proporção de valores ausentes com base no total de células nulas e vazias e, finalmente, a proporção de valores inválidos. Vejamos alguns exemplos para entender como você pode vê-los usando Amostra pré-carregada do Data Wrangler Titanic Dataset.

Exemplo 1 – Podemos olhar para os 20% de valores ausentes para o Idade função/coluna. É crucial lidar com dados ausentes no campo de pesquisa/ML relacionados a dados, removendo-os ou imputando-os (tratando os valores ausentes com alguma estimativa).

Apresentando as novas visualizações incorporadas do Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
Você pode processar valores ausentes usando o Lidar com valores ausentes transformar grupo. Use o Falta de imputação transform para gerar valores imputados onde valores ausentes foram encontrados na coluna de entrada. A configuração depende do seu tipo de dados.

Neste exemplo, o Idade coluna tem tipo de dados numéricos. Para a estratégia de imputação, podemos optar por imputar o significar ou de mediana aproximada sobre os valores que estão presentes em seu conjunto de dados.

Agora que adicionamos a transformação, podemos ver que o Idade coluna não tem mais valores ausentes.

Exemplo 2 – Podemos observar os 27% de valores inválidos para o BILHETE característica/coluna que é do STRING modelo. Dados inválidos podem produzir estimativas enviesadas, o que pode reduzir a precisão de um modelo e resultar em conclusões falsas. Vamos explorar algumas transformações que podemos utilizar para lidar com os dados inválidos no BILHETE coluna.

Observando a captura de tela, vemos que algumas das entradas são escritas em um formato que contém letras antes dos numerais “PC 17318” e outros são apenas números como “11769".

Podemos optar por aplicar uma transformação para pesquisar e editar padrões específicos em strings como “computador” e substitua-os. Em seguida, podemos lançar nosso corda coluna para um novo tipo, como longo para facilidade de uso.

Isso ainda nos deixa com 19% de valores ausentes no BILHETE característica. Semelhante ao exemplo 1, agora podemos imputar os valores ausentes usando média ou mediana aproximada. A característica BILHETE não deve mais ter valores inválidos ou ausentes conforme a imagem abaixo.

Para garantir que você não seja cobrado após seguir este tutorial, certifique-se de desligue o aplicativo Data Wrangler.

Conclusão

Neste post, apresentamos o novo Gerenciador de dados do Amazon Sagemaker widget que ajudará a remover o levantamento pesado indiferenciado para usuários finais durante a preparação de dados com visualizações automáticas e insights de perfis de dados para cada recurso. Este widget facilita a visualização de dados (por exemplo, histograma categórico/não categórico), a detecção de problemas de qualidade de dados (por exemplo, valores ausentes e valores inválidos) e insights de dados de superfície (por exemplo, valores discrepantes e N itens principais).

Você pode começar a usar esse recurso hoje mesmo em todas as regiões onde o SageMaker Studio está disponível. Dê-lhe uma tentativa, e deixe-nos saber o que você pensa. Estamos sempre ansiosos pelo seu feedback, seja por meio de seus contatos habituais de suporte da AWS ou no Fórum da AWS para Sage Maker.

Sobre os autores

Isha Dua é um arquiteto de soluções sênior baseado na área da baía de São Francisco. Ela ajuda os clientes da AWS Enterprise a crescer entendendo seus objetivos e desafios e os orienta sobre como eles podem arquitetar seus aplicativos de maneira nativa da nuvem, garantindo que sejam resilientes e escaláveis. Ela é apaixonada por tecnologias de aprendizado de máquina e sustentabilidade ambiental.

Parte Patel é arquiteto de soluções na AWS na área da baía de São Francisco. Parth orienta os clientes a acelerar sua jornada para a nuvem e os ajuda a adotar a Nuvem AWS com sucesso. Ele se concentra em ML e modernização de aplicativos.

Carimbo de hora: 13 de dezembro de 202213 de dezembro de 2022

Carimbo de hora: 29 de setembro de 2022

Apresentando as novas visualizações incorporadas do Amazon SageMaker Data Wrangler

Republicado por Platão

Pré-requisitos

Passo a passo da solução

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Implante modelos grandes no Amazon SageMaker usando DJLServing e inferência paralela de modelo DeepSpeed

Controle o acesso offline ao Amazon SageMaker Feature Store usando o AWS Lake Formation

Melhore a precisão da pesquisa com o Spell Checker no Amazon Kendra

Analise a infestação de roedores usando os recursos geoespaciais do Amazon SageMaker | Amazon Web Services

Desvende o conhecimento nos workspaces do Slack com pesquisa inteligente usando o conector do Amazon Kendra Slack

Como a Sophos treina um detector de malware de PDF poderoso e leve em ultraescala com o Amazon SageMaker

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta