Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler

Republicado por Platão

seguidores: 0

Gerenciador de dados do Amazon SageMaker reduz o tempo de agregação e preparação de dados para aprendizado de máquina (ML) de semanas para minutos em Estúdio Amazon SageMaker. O Data Wrangler pode simplificar seus processos de preparação de dados e engenharia de recursos e ajudá-lo com seleção, limpeza, exploração e visualização de dados. O Data Wrangler tem mais de 300 transformações integradas escritas em PySpark, para que você possa processar conjuntos de dados de até centenas de gigabytes com eficiência na instância padrão, ml.m5.4xlarge.

No entanto, ao trabalhar com conjuntos de dados de até terabytes de dados usando transformações integradas, você poderá enfrentar um tempo de processamento mais longo ou possíveis erros de falta de memória. Com base nos seus requisitos de dados, agora você pode usar recursos adicionais Amazon Elastic Compute Nuvem (Amazon EC2) Instâncias M5 e Instâncias R5. Por exemplo, você pode começar com uma instância padrão (ml.m5.4xlarge) e depois mudar para ml.m5.24xlarge ou ml.r5.24xlarge. Você tem a opção de escolher diferentes tipos de instância e encontrar a melhor compensação entre custos de execução e tempos de processamento. Na próxima vez que você estiver trabalhando na transformação de série temporal e executando transformadores pesados para equilibrar seus dados, poderá dimensionar corretamente sua instância do Data Wrangler para executar esses processos com mais rapidez.

Ao processar dezenas de gigabytes ou até mais com uma transformação personalizada do Pandas, você poderá enfrentar erros de falta de memória. Você pode mudar da instância padrão (ml.m5.4xlarge) para ml.m5.24xlarge e a transformação terminará sem erros. Comparamos minuciosamente e observamos a aceleração linear à medida que aumentamos o tamanho da instância em um portfólio de conjuntos de dados.

Nesta postagem, compartilhamos nossas descobertas de dois testes de benchmark para demonstrar como você pode processar conjuntos de dados cada vez maiores com o Data Wrangler.

Testes de referência do Data Wrangler

Vamos revisar dois testes que executamos, consultas de agregação e codificação one-hot, com diferentes tipos de instância usando transformadores integrados PySpark e transformações Pandas personalizadas. As transformações que não exigem agregação terminam rapidamente e funcionam bem com o tipo de instância padrão, por isso nos concentramos em consultas de agregação e transformações com agregação. Armazenamos nosso conjunto de dados de teste em Serviço de armazenamento simples da Amazon (Amazon S3). O tamanho expandido deste conjunto de dados é de cerca de 100 GB com 80 milhões de linhas e 300 colunas. Usamos métricas de UI para cronometrar testes de benchmark e medir a latência de ponta a ponta voltada para o cliente. Ao importar nosso conjunto de dados de teste, desativamos a amostragem. A amostragem é habilitada por padrão e o Data Wrangler processa apenas as primeiras 100 linhas quando habilitado.x

À medida que aumentamos o tamanho da instância do Data Wrangler, observamos uma aceleração aproximadamente linear das transformações integradas do Data Wrangler e do Spark SQL personalizado. Os testes de consulta de agregação do Pandas só foram concluídos quando usamos instâncias maiores que ml.m5.16xl, e o Pandas precisava de 180 GB de memória para processar consultas de agregação para este conjunto de dados.

A tabela a seguir resume os resultados do teste de consulta de agregação.

Instância	vCPU	Memória (GiB)	Tempo de transformação do Spark integrado ao Data Wrangler	Hora dos Pandas (Transformação personalizada)
ml.m5.4xl	16	64	229 segundos	Sem memória
ml.m5.8xl	32	128	130 segundos	Sem memória
ml.m5.16xl	64	256	52 segundos	30 minutos

A tabela a seguir resume os resultados do teste de codificação one-hot.

Instância	vCPU	Memória (GiB)	Tempo de transformação do Spark integrado ao Data Wrangler	Hora dos Pandas (Transformação personalizada)
ml.m5.4xl	16	64	228 segundos	Sem memória
ml.m5.8xl	32	128	130 segundos	Sem memória
ml.m5.16xl	64	256	52 segundos	Sem memória

Alternar o tipo de instância de um fluxo de dados

Para mudar o tipo de instância do seu fluxo, conclua as etapas a seguir:

No console do Amazon SageMaker Data Wrangler, navegue até o fluxo de dados que você está usando atualmente.
Escolha o tipo de instância na barra de navegação.
Selecione o tipo de instância que você deseja usar.
Escolha Salvar.

Uma mensagem de progresso é exibida.

Quando a troca for concluída, uma mensagem de sucesso será exibida.

O Data Wrangler usa o tipo de instância selecionado para análise e transformação de dados. A instância padrão e a instância para a qual você mudou (ml.m5.16xlarge) estão em execução. Você pode alterar o tipo de instância ou voltar para a instância padrão antes de executar uma transformação específica.

Encerre instâncias não utilizadas

Você será cobrado por todas as instâncias em execução. Para evitar cobranças adicionais, encerre manualmente as instâncias que você não está usando. Para encerrar uma instância em execução, conclua as etapas a seguir:

Na página de fluxo de dados, escolha o ícone da instância no painel esquerdo da IU em Executando instâncias.
Escolha Encerre.

Se você encerrar uma instância usada para executar um fluxo, não poderá acessar o fluxo temporariamente. Se você receber um erro ao abrir o fluxo executando uma instância que você encerrou anteriormente, aguarde aproximadamente 5 minutos e tente abri-la novamente.

Conclusão

Nesta postagem, demonstramos como processar conjuntos de dados cada vez maiores com o Data Wrangler, alternando instâncias para tipos de instância M5 ou R5 maiores. Instâncias M5 oferecem um equilíbrio entre recursos de computação, memória e rede. Instâncias R5 são instâncias com otimização de memória. Tanto M5 quanto R5 fornecem tipos de instância para otimizar custo e desempenho para suas cargas de trabalho.

Para saber mais sobre como usar fluxos de dados com o Data Wrangler, consulte Criar e usar um fluxo do Data Wrangler e Preços do Amazon SageMaker. Para começar a usar o Data Wrangler, consulte Prepare dados de ML com o Amazon SageMaker Data Wrangler.

Sobre os autores

Haider Naqvi é arquiteto de soluções na AWS. Ele tem uma extensa experiência em desenvolvimento de software e arquitetura corporativa. Ele se concentra em permitir que os clientes obtenham resultados de negócios com a AWS. Ele é baseado em Nova York.

Huong Nguyen é Gerente de Produto Sênior na AWS. Ela está liderando a integração do ecossistema de dados para o SageMaker, com 14 anos de experiência na criação de produtos centrados no cliente e orientados a dados para espaços corporativos e de consumo.

Meenakshisundaram Thandavarayan é especialista sênior em IA/ML da AWS. Ele ajuda contas estratégicas de alta tecnologia em sua jornada de IA e ML. Ele é muito apaixonado por IA orientada a dados.

Sriharsha M Sr. é arquiteto de soluções especialista em IA/ML na equipe de especialistas estratégicos da Amazon Web Services. Ele trabalha com clientes estratégicos da AWS que estão aproveitando IA/ML para resolver problemas de negócios complexos. Ele fornece orientação técnica e consultoria de design para implementar aplicações de IA/ML em escala. Sua experiência abrange arquitetura de aplicativos, big data, análises e aprendizado de máquina.

Nikita Ivkin é um cientista aplicado, Amazon SageMaker Data Wrangler.

Carimbo de hora: 6 de maio de 2022

Carimbo de hora: 15 Novembro, 2022

Republicado por Platão

Codifique propriedades de texto multilíngue no Amazon Neptune para treinar modelos preditivos

Visão computacional usando conjuntos de dados sintéticos com Amazon Rekognition Custom Labels e Dassault Systèmes 3DEXCITE

Detecte fraudes em empresas orientadas para dispositivos móveis usando a inteligência de dispositivos GrabDefence e o Amazon Fraud Detector

Preveja o status de sobrevivência ao câncer de pulmão usando dados multimodais no Amazon SageMaker JumpStart

Detecte multicolinearidade, vazamento de destino e correlação de recursos com o Amazon SageMaker Data Wrangler

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta