Crie amostras aleatórias e estratificadas de dados com o Amazon SageMaker Data Wrangler

Republicado por Platão

seguidores: 0

Neste post, mostramos duas técnicas de amostragem em Gerenciador de dados do Amazon SageMaker para que você possa criar rapidamente fluxos de trabalho de processamento para seus dados. Cobrimos técnicas de amostragem aleatória e amostragem estratificada para ajudá-lo a amostrar seus dados com base em seus requisitos específicos.

O Data Wrangler reduz o tempo necessário para agregar e preparar dados para aprendizado de máquina (ML) de semanas para minutos. Você pode simplificar o processo de preparação de dados e engenharia de recursos e concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração e visualização de dados, a partir de uma única interface visual. Com a ferramenta de seleção de dados do Data Wrangler, você pode escolher os dados que deseja de várias fontes de dados e importá-los com um único clique. O Data Wrangler contém mais de 300 transformações de dados integradas para que você possa normalizar, transformar e combinar recursos rapidamente sem precisar escrever nenhum código. Com os modelos de visualização do Data Wrangler, você pode visualizar e inspecionar rapidamente se essas transformações foram concluídas conforme o esperado, visualizando-as em Estúdio Amazon SageMaker, o primeiro ambiente de desenvolvimento totalmente integrado (IDE) para ML. Depois que seus dados estiverem preparados, você poderá criar fluxos de trabalho de ML totalmente automatizados com Pipelines Amazon SageMaker e guarde-os para reutilização em Loja de recursos Amazon SageMaker.

O que é amostragem e como ela pode ajudar

Na análise estatística, o conjunto total de observações é conhecido como população. Ao trabalhar com dados, muitas vezes não é computacionalmente viável medir todas as observações da população. Amostragem estatística é um procedimento que permite entender seus dados selecionando subconjuntos da população.

A amostragem oferece uma solução prática que sacrifica alguma precisão em prol da praticidade e facilidade. Para garantir que sua amostra seja uma boa representação da população geral, você pode empregar estratégias de amostragem. O Data Wrangler suporta duas das estratégias mais comuns: amostragem aleatória e amostragem estratificada.

Amostragem aleatória

Se você tiver um grande conjunto de dados, a experimentação nesse conjunto de dados pode ser demorada. O Data Wrangler fornece amostragem aleatória para que você possa processar e visualizar seus dados com eficiência. Por exemplo, você pode querer calcular o número médio de compras para um cliente dentro de um período de tempo, ou pode querer calcular a taxa de atrito de um assinante. Você pode usar uma amostra aleatória para visualizar aproximações dessas métricas.

Uma amostra aleatória de seu conjunto de dados é escolhida para que cada elemento tenha a mesma probabilidade de ser selecionado. Essa operação é realizada de maneira eficiente e adequada para grandes conjuntos de dados, de modo que o tamanho da amostra retornada é aproximadamente o tamanho solicitado, e não necessariamente igual ao tamanho solicitado.

Você pode usar a amostragem aleatória se quiser fazer cálculos aproximados rápidos para entender seu conjunto de dados. À medida que o tamanho da amostra aumenta, a amostra aleatória pode aproximar melhor todo o conjunto de dados, mas, a menos que você inclua todos os pontos de dados, sua amostra aleatória pode não incluir todos os valores discrepantes e casos extremos. Se você quiser preparar todo o conjunto de dados de forma interativa, também poderá alternar para um tipo de instância maior.

Como regra geral, o erro amostral no cálculo da média populacional usando uma amostra aleatória tende a 0 à medida que a amostra aumenta. À medida que o tamanho da amostra aumenta, o erro diminui como o inverso da raiz quadrada do tamanho da amostra. Sendo o takeaway, quanto maior a amostra, melhor a aproximação.

Amostragem estratificada

Em alguns casos, sua população pode ser dividida em estratos ou grupos mutuamente exclusivos, como localização geográfica para endereços, ano de publicação para músicas ou faixas de impostos para renda. A amostragem aleatória é a técnica de amostragem mais popular, mas se alguns estratos forem incomuns em sua população, você poderá usar a amostragem estratificada no Data Wrangler para garantir que cada estrato seja representado proporcionalmente em sua amostra. Isso pode ser útil para reduzir os erros de amostragem, bem como para garantir a captura de casos extremos durante a experimentação.

No mundo real, transações fraudulentas com cartão de crédito são eventos raros e normalmente representam menos de 1% de seus dados. Se fizermos uma amostra aleatória, não é incomum que a amostra contenha muito poucas ou nenhuma transação fraudulenta. Como resultado, ao treinar um modelo, teríamos poucos exemplos fraudulentos para aprender um modelo preciso. Podemos usar amostragem estratificada para garantir uma representação proporcional de transações fraudulentas.

Na amostragem estratificada, o tamanho de cada estrato da amostra é proporcional ao tamanho dos estratos da população. Isso funciona dividindo seus dados em estratos com base na coluna especificada, selecionando amostras aleatórias de cada estrato com a proporção correta e combinando essas amostras em uma amostra estratificada da população.

A amostragem estratificada é uma técnica útil quando você deseja entender como diferentes grupos em seus dados se comparam entre si e deseja garantir a representação apropriada de cada grupo.

Amostragem aleatória ao importar do Amazon S3

Nesta seção, usamos amostragem aleatória com um conjunto de dados que consiste em eventos fraudulentos e não fraudulentos de nosso sistema de detecção de fraudes. Você pode download o conjunto de dados para acompanhar este post (Licença de atribuição internacional CC 4.0).

No momento da redação deste artigo, você pode importar conjuntos de dados de Serviço de armazenamento simples da Amazon (Amazon S3), Amazona atena, Amazon RedShift, e Floco de Neve. Nosso conjunto de dados é muito grande, contendo 1 milhão de linhas. Nesse caso, queremos amostrar 1,0000 linhas na importação do Amazon S3 para algumas experiências interativas no Data Wrangler.

Abra o SageMaker Studio e crie um novo fluxo do Data Wrangler.
Debaixo Datas de importação, escolha Amazon S3.
Escolha o conjunto de dados a ser importado.
No Adicionar ao carrinho painel, forneça o nome do conjunto de dados e o tipo de arquivo.
Escolha Amostragem, escolha Aleatória.
Escolha Tamanho da amostra, entrar 10000.
Escolha importação para carregar o conjunto de dados no Data Wrangler.

Você pode visualizar duas etapas distintas na página de fluxo de dados no Data Wrangler. A primeira etapa indica o carregamento do conjunto de dados de amostra com base na estratégia de amostragem que você definiu. Depois que os dados são carregados, o Data Wrangler executa a detecção automática dos tipos de dados para cada uma das colunas no conjunto de dados. Esta etapa é adicionada por padrão para todos os conjuntos de dados.

Agora você pode revisar os dados de amostra aleatória no Data Wrangler adicionando uma análise.

Escolha o sinal de mais ao lado de Tipos de dados e escolha Análise.
Escolha Tipo de análise¸ escolher Gráfico de dispersão.
Escolha façanha_1 e façanha_2 quanto a eixo X e Eixo Y, Respectivamente.
Escolha Cor por, escolha é_fraude.

Quando estiver familiarizado com o conjunto de dados, prossiga para fazer outras transformações de dados de acordo com seus requisitos de negócios para preparar seus dados para ML.

Na captura de tela a seguir, podemos observar as transações fraudulentas (azul escuro) e não fraudulentas (azul claro) em nossa análise.

Na próxima seção, discutimos o uso de amostragem estratificada para garantir que os casos fraudulentos sejam escolhidos proporcionalmente.

Amostragem estratificada com uma transformação

O Data Wrangler permite a amostragem na importação, bem como a amostragem por meio de uma transformação. Nesta seção, discutimos o uso de amostragem estratificada por meio de uma transformação depois de importar seu conjunto de dados para o Data Wrangler.

Para iniciar a amostragem, no Fluxo de dados guia, escolha o sinal de mais ao lado do conjunto de dados importado e escolha Adicionar transformação.

No momento da redação deste artigo, o Data Wrangler fornece mais de 300 transformações integradas. Além das transformações internas, você pode escrever suas próprias transformações personalizadas no Pandas ou no PySpark.

De Adicionar transformação lista, escolha Amostragem.

Agora você pode usar três estratégias de amostragem distintas: limite, aleatória e estratificada.

Escolha Método de amostragem, escolha Estratificado.
Use o is_fraud coluna como a coluna estratificada.
Escolha visualização para visualizar a transformação e escolha Adicionar para adicionar essa transformação como uma etapa da receita de transformação.

Seu fluxo de dados agora reflete a etapa de amostragem adicionada.

Agora podemos revisar os dados amostrados aleatórios adicionando uma análise.

Escolha o sinal de mais e escolha Análise.
Escolha Tipo de análise¸ escolher Histograma.
Escolha é_fraude tanto eixo X e Cor por.
Escolha visualização.

Na captura de tela a seguir, podemos observar a divisão dos casos fraudulentos (azul escuro) e não fraudulentos (azul claro) escolhidos por amostragem estratificada nas proporções corretas de 20% fraudulentos e 80% não fraudulentos.

Conclusão

É essencial amostrar os dados corretamente ao trabalhar com conjuntos de dados extremamente grandes e escolher a estratégia de amostragem certa para atender às suas necessidades de negócios. A eficácia de sua amostragem depende de vários fatores, incluindo resultados de negócios, disponibilidade de dados e distribuição. Neste post, abordamos como usar o Data Wrangler e suas estratégias de amostragem integradas para preparar seus dados.

Você pode começar a usar esse recurso hoje em todas as regiões onde o SageMaker Studio está disponível. Para começar, acesse Prepare dados de ML com o Amazon SageMaker Data Wrangler.

Agradecimentos

Os autores gostariam de agradecer a Jonathan Chung (Cientista Aplicado) por sua revisão e feedback valioso sobre este artigo.

Sobre os autores

Ben Harris é um engenheiro de software com experiência em projetar, implantar e manter pipelines de dados escaláveis e soluções de aprendizado de máquina em vários domínios.

Vishaal Kapoor é um cientista aplicado sênior da AWS AI. Ele é apaixonado por ajudar os clientes a entender seus dados no Data Wrangler. Em seu tempo livre, ele anda de mountain bike, snowboard e passa o tempo com sua família.

Meenakshisundaram Thandavarayan é especialista sênior em IA/ML da AWS. Ele ajuda contas estratégicas de alta tecnologia em sua jornada de IA e ML. Ele é muito apaixonado por IA orientada a dados.

Ajai Sharma é gerente de produto principal do Amazon SageMaker, onde se concentra no Data Wrangler, uma ferramenta de preparação de dados visuais para cientistas de dados. Antes da AWS, Ajai foi especialista em ciência de dados na McKinsey and Company, onde liderou compromissos focados em ML para as principais empresas de finanças e seguros em todo o mundo. Ajai é apaixonado por ciência de dados e adora explorar os mais recentes algoritmos e técnicas de aprendizado de máquina.

Carimbo de hora: 26 de abril de 2022

Carimbo de hora: 6 fevereiro de 2024

Crie amostras de dados aleatórias e estratificadas com o Amazon SageMaker Data Wrangler

Republicado por Platão

O que é amostragem e como ela pode ajudar

Amostragem aleatória

Amostragem estratificada

Amostragem aleatória ao importar do Amazon S3

Amostragem estratificada com uma transformação

Conclusão

Agradecimentos

Sobre os autores

Mais de Aprendizado de máquina da AWS

Ajuste modelos Whisper no Amazon SageMaker com LoRA | Amazon Web Services

Pesquise de forma inteligente o conteúdo do Adobe Experience Manager usando Amazon Kendra | Amazon Web Services

Crie dados sintéticos para pipelines de visão computacional na AWS

Operacionalize seus notebooks do Amazon SageMaker Studio como trabalhos de notebook agendados

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta