Detecte padrões em dados de texto com o Amazon SageMaker Data Wrangler

Republicado por Platão

seguidores: 0

Neste post, apresentamos uma nova análise no Relatório de insights e qualidade de dados of Gerenciador de dados do Amazon SageMaker. Esta análise ajuda você a validar recursos textuais quanto à correção e a descobrir linhas inválidas para reparo ou omissão.

Data Wrangler reduces the time it takes to aggregate and prepare data for machine learning (ML) from weeks to minutes. You can simplify the process of data preparation and feature engineering, and complete each step of the data preparation workflow, including data selection, cleansing, exploration, and visualization, from a single visual interface.

Visão geral da solução

O pré-processamento de dados geralmente envolve a limpeza de dados textuais, como endereços de e-mail, números de telefone e nomes de produtos. Esses dados podem ter restrições de integridade subjacentes que podem ser descritas por expressões regulares. Por exemplo, para ser considerado válido, um número de telefone local pode precisar seguir um padrão como [1-9][0-9]{2}-[0-9]{4}, which would match a non-zero digit, followed by two more digits, followed by a dash, followed by four more digits.

Cenários comuns que resultam em dados inválidos podem incluir entrada humana inconsistente, por exemplo, números de telefone em vários formatos (5551234 vs. 555 1234 vs. 555-1234) ou dados inesperados, como 0, 911 ou 411. Para uma central de atendimento ao cliente, é importante omitir números como 0, 911 ou 411 e validar (e potencialmente corrigir) entradas como 5551234 ou 555 1234.

Infelizmente, embora existam restrições textuais, elas podem não ser fornecidas com os dados. Portanto, um cientista de dados que prepara um conjunto de dados deve descobrir manualmente as restrições observando os dados. Isso pode ser tedioso, sujeito a erros e demorado.

Pattern learning automatically analyzes your data and surfaces textual constraints that may apply to your dataset. For the example with phone numbers, pattern learning can analyze the data and identify that the vast majority of phone numbers follow the textual constraint [1-9][0-9]{2}-[0-9][4]. Também pode alertá-lo de que existem exemplos de dados inválidos para que você possa excluí-los ou corrigi-los.

In the following sections, we demonstrate how to use pattern learning in Data Wrangler using a fictional dataset of product categories and SKU (stock keeping unit) codes.

Este conjunto de dados contém recursos que descrevem produtos por empresa, marca e consumo de energia. Notavelmente, inclui um SKU de recurso mal formatado. Todos os dados neste conjunto de dados são fictícios e criados aleatoriamente usando nomes de marcas e nomes de dispositivos aleatórios.

Pré-requisitos

Antes de começar a usar o Data Wrangler, download o conjunto de dados de amostra e carregue-o em um local em Serviço de armazenamento simples da Amazon (Amazon S3). Para obter instruções, consulte Fazendo upload de objetos.

Importe seu conjunto de dados

Para importar seu conjunto de dados, conclua as seguintes etapas:

No Data Wrangler, escolha Importe e explore dados para ML.
Escolha importação.
Escolha Datas de importação, escolha Amazon S3.
Localize o arquivo no Amazon S3 e escolha importação.

After importing, we can navigate to the data flow.

Obtenha insights de dados

Nesta etapa, criamos um relatório de insights de dados que inclui informações sobre a qualidade dos dados. Para obter mais informações, consulte Obtenha insights sobre dados e qualidade de dados. Conclua as seguintes etapas:

No Fluxo de dados guia, escolha o sinal de mais ao lado de Tipos de dados.
Escolha Obtenha insights de dados.
Escolha Tipo de análise, escolha Relatório de insights e qualidade de dados.
Para esta postagem, deixe Coluna de destino e Tipo de problema em branco.Se você planeja usar seu conjunto de dados para uma tarefa de regressão ou classificação com um recurso de destino, poderá selecionar essas opções e o relatório incluirá uma análise sobre como seus recursos de entrada se relacionam com seu destino. Por exemplo, pode produzir relatórios sobre vazamentos de alvos. Para obter mais informações, consulte Coluna de destino.
Escolha Crie.

Agora temos um relatório de qualidade de dados e insights de dados. Se rolarmos para baixo até o SKU seção, podemos ver um exemplo de aprendizado de padrão descrevendo o SKU. Este recurso parece ter alguns dados inválidos e é necessária uma correção acionável.

Before we clean the SKU feature, let’s scroll up to the SOBRE NÓS seção para ver mais alguns insights. Aqui vemos que dois padrões foram descobertos, indicando que a maioria dos nomes de marcas são palavras únicas que consistem em caracteres de palavras ou caracteres alfabéticos. A word character é um sublinhado ou um caractere que pode aparecer em uma palavra em qualquer idioma. Por exemplo, as cordas Hello_world e écoute both consist of word characters: H e é.

Para esta postagem, não limpamos esse recurso.

Ver insights de aprendizagem padrão

Vamos voltar à limpeza de SKUs e ampliar o padrão e a mensagem de aviso.

Conforme mostrado na captura de tela a seguir, o aprendizado de padrões apresenta um padrão de alta precisão que corresponde a 97.78% dos dados. Ele também exibe alguns exemplos que correspondem ao padrão, bem como exemplos que não correspondem ao padrão. Nas não correspondências, vemos alguns SKUs inválidos.

Além dos padrões apresentados, um aviso pode aparecer indicando uma possível ação para limpar os dados se houver um padrão de alta precisão, bem como alguns dados que não estejam em conformidade com o padrão.

We can omit the invalid data. If we choose (right-click) on the regular expression, we can copy the expression [A-Z]{3}-[0-9]{4,5}.

Remover dados inválidos

Vamos criar uma transformação para omitir dados não conformes que não correspondam a esse padrão.

No Fluxo de dados guia, escolha o sinal de mais ao lado de Tipos de dados.
Escolha Adicionar transformação.
Escolha Adicionar etapa.
Procurar por regex e escolha Pesquisar e editar.
Escolha Transformar, escolha Converter não correspondentes em ausentes.
Escolha Colunas de entrada, escolha SKU.
Escolha padrão, insira nossa expressão regular.
Escolha visualização, Em seguida, escolha Adicionar.

Agora os dados estranhos foram removidos dos recursos.
To remove the rows, add the step Alça faltando e escolha a transformação Queda ausente.
Escolha SKU como a coluna de entrada.

Voltamos ao nosso fluxo de dados com os dados errados removidos.

Conclusão

In this post, we showed you how to use the pattern learning feature in data insights to find invalid textual data in your dataset, as well as how to correct or omit that data.

Now that you’ve cleaned up a textual column, you can visualize your dataset using an análise ou você pode se inscrever transformações embutidas para processar ainda mais seus dados. Quando estiver satisfeito com seus dados, você pode treinar um modelo de Piloto automático do Amazon SageMakerou exporte seus dados para uma fonte de dados como o Amazon S3.

Gostaríamos de agradecer a Nikita Ivkin por sua análise cuidadosa.

Sobre os autores

Vishaal Kapoor é um cientista aplicado sênior da AWS AI. Ele é apaixonado por ajudar os clientes a entender seus dados no Data Wrangler. Em seu tempo livre, ele anda de mountain bike, snowboard e passa o tempo com sua família.

Zohar Karnin é cientista principal da Amazon AI. Seus interesses de pesquisa estão nas áreas de algoritmos de aprendizado de máquina online e de larga escala. Ele desenvolve algoritmos de aprendizado de máquina infinitamente escaláveis para o Amazon SageMaker.

Ajai Sharma é gerente de produto principal do Amazon SageMaker, onde se concentra no Data Wrangler, uma ferramenta de preparação de dados visuais para cientistas de dados. Antes da AWS, Ajai foi especialista em ciência de dados na McKinsey and Company, onde liderou compromissos focados em ML para as principais empresas de finanças e seguros em todo o mundo. Ajai é apaixonado por ciência de dados e adora explorar os mais recentes algoritmos e técnicas de aprendizado de máquina.

Derek Baron é gerente de desenvolvimento de software do Amazon SageMaker Data Wrangler

Carimbo de hora: 24 de outubro de 202224 de outubro de 2022

Carimbo de hora: 15 de setembro de 2022

Detecte padrões em dados de texto com o Amazon SageMaker Data Wrangler

Republicado por Platão

Visão geral da solução

Pré-requisitos

Importe seu conjunto de dados

Obtenha insights de dados

Ver insights de aprendizagem padrão

Remover dados inválidos

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

AWS Panorama agora oferece suporte ao NVIDIA JetPack SDK 4.6.2

Introdução à implantação de modelos em tempo real no Amazon SageMaker

Bases de conhecimento no Amazon Bedrock agora simplificam perguntas em um único documento | Amazon Web Services

As previsões semanais agora podem começar no domingo com o Amazon Forecast

Simplifique o aprendizado contínuo dos modelos personalizados do Amazon Comprehend usando o flywheel do Comprehend

Pesquise de forma inteligente seus projetos do Jira com o conector de nuvem do Amazon Kendra Jira

A instância DL2q do Amazon EC2 para inferência de IA econômica e de alto desempenho já está disponível para todos | Amazon Web Services

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar ML

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta