Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler

Gerenciador de dados do Amazon SageMaker reduz o tempo de agregação e preparação de dados para aprendizado de máquina (ML) de semanas para minutos em Estúdio Amazon SageMaker. O Data Wrangler pode simplificar seus processos de preparação de dados e engenharia de recursos e ajudá-lo com seleção, limpeza, exploração e visualização de dados. O Data Wrangler tem mais de 300 transformações integradas escritas em PySpark, para que você possa processar conjuntos de dados de até centenas de gigabytes com eficiência na instância padrão, ml.m5.4xlarge.

No entanto, ao trabalhar com conjuntos de dados de até terabytes de dados usando transformações integradas, você poderá enfrentar um tempo de processamento mais longo ou possíveis erros de falta de memória. Com base nos seus requisitos de dados, agora você pode usar recursos adicionais Amazon Elastic Compute Nuvem (Amazon EC2) Instâncias M5 e Instâncias R5. Por exemplo, você pode começar com uma instância padrão (ml.m5.4xlarge) e depois mudar para ml.m5.24xlarge ou ml.r5.24xlarge. Você tem a opção de escolher diferentes tipos de instância e encontrar a melhor compensação entre custos de execução e tempos de processamento. Na próxima vez que você estiver trabalhando na transformação de série temporal e executando transformadores pesados ​​para equilibrar seus dados, poderá dimensionar corretamente sua instância do Data Wrangler para executar esses processos com mais rapidez.

Ao processar dezenas de gigabytes ou até mais com uma transformação personalizada do Pandas, você poderá enfrentar erros de falta de memória. Você pode mudar da instância padrão (ml.m5.4xlarge) para ml.m5.24xlarge e a transformação terminará sem erros. Comparamos minuciosamente e observamos a aceleração linear à medida que aumentamos o tamanho da instância em um portfólio de conjuntos de dados.

Nesta postagem, compartilhamos nossas descobertas de dois testes de benchmark para demonstrar como você pode processar conjuntos de dados cada vez maiores com o Data Wrangler.

Testes de referência do Data Wrangler

Vamos revisar dois testes que executamos, consultas de agregação e codificação one-hot, com diferentes tipos de instância usando transformadores integrados PySpark e transformações Pandas personalizadas. As transformações que não exigem agregação terminam rapidamente e funcionam bem com o tipo de instância padrão, por isso nos concentramos em consultas de agregação e transformações com agregação. Armazenamos nosso conjunto de dados de teste em Serviço de armazenamento simples da Amazon (Amazon S3). O tamanho expandido deste conjunto de dados é de cerca de 100 GB com 80 milhões de linhas e 300 colunas. Usamos métricas de UI para cronometrar testes de benchmark e medir a latência de ponta a ponta voltada para o cliente. Ao importar nosso conjunto de dados de teste, desativamos a amostragem. A amostragem é habilitada por padrão e o Data Wrangler processa apenas as primeiras 100 linhas quando habilitado.x

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

À medida que aumentamos o tamanho da instância do Data Wrangler, observamos uma aceleração aproximadamente linear das transformações integradas do Data Wrangler e do Spark SQL personalizado. Os testes de consulta de agregação do Pandas só foram concluídos quando usamos instâncias maiores que ml.m5.16xl, e o Pandas precisava de 180 GB de memória para processar consultas de agregação para este conjunto de dados.

A tabela a seguir resume os resultados do teste de consulta de agregação.

Instância vCPU Memória (GiB) Tempo de transformação do Spark integrado ao Data Wrangler Hora dos Pandas
(Transformação personalizada)
ml.m5.4xl 16 64 229 segundos Sem memória
ml.m5.8xl 32 128 130 segundos Sem memória
ml.m5.16xl 64 256 52 segundos 30 minutos

A tabela a seguir resume os resultados do teste de codificação one-hot.

Instância vCPU Memória (GiB) Tempo de transformação do Spark integrado ao Data Wrangler Hora dos Pandas
(Transformação personalizada)
ml.m5.4xl 16 64 228 segundos Sem memória
ml.m5.8xl 32 128 130 segundos Sem memória
ml.m5.16xl 64 256 52 segundos Sem memória

Alternar o tipo de instância de um fluxo de dados

Para mudar o tipo de instância do seu fluxo, conclua as etapas a seguir:

  1. No console do Amazon SageMaker Data Wrangler, navegue até o fluxo de dados que você está usando atualmente.
  2. Escolha o tipo de instância na barra de navegação.
    Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.
  3. Selecione o tipo de instância que você deseja usar.
  4. Escolha Salvar.
    Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Uma mensagem de progresso é exibida.

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Quando a troca for concluída, uma mensagem de sucesso será exibida.

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

O Data Wrangler usa o tipo de instância selecionado para análise e transformação de dados. A instância padrão e a instância para a qual você mudou (ml.m5.16xlarge) estão em execução. Você pode alterar o tipo de instância ou voltar para a instância padrão antes de executar uma transformação específica.

Encerre instâncias não utilizadas

Você será cobrado por todas as instâncias em execução. Para evitar cobranças adicionais, encerre manualmente as instâncias que você não está usando. Para encerrar uma instância em execução, conclua as etapas a seguir:

  1. Na página de fluxo de dados, escolha o ícone da instância no painel esquerdo da IU em Executando instâncias.
    Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.
  2. Escolha Encerre.

Se você encerrar uma instância usada para executar um fluxo, não poderá acessar o fluxo temporariamente. Se você receber um erro ao abrir o fluxo executando uma instância que você encerrou anteriormente, aguarde aproximadamente 5 minutos e tente abri-la novamente.

Conclusão

Nesta postagem, demonstramos como processar conjuntos de dados cada vez maiores com o Data Wrangler, alternando instâncias para tipos de instância M5 ou R5 maiores. Instâncias M5 oferecem um equilíbrio entre recursos de computação, memória e rede. Instâncias R5 são instâncias com otimização de memória. Tanto M5 quanto R5 fornecem tipos de instância para otimizar custo e desempenho para suas cargas de trabalho.

Para saber mais sobre como usar fluxos de dados com o Data Wrangler, consulte Criar e usar um fluxo do Data Wrangler e Preços do Amazon SageMaker. Para começar a usar o Data Wrangler, consulte Prepare dados de ML com o Amazon SageMaker Data Wrangler.


Sobre os autores

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Haider Naqvi é arquiteto de soluções na AWS. Ele tem uma extensa experiência em desenvolvimento de software e arquitetura corporativa. Ele se concentra em permitir que os clientes obtenham resultados de negócios com a AWS. Ele é baseado em Nova York.

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Huong Nguyen é Gerente de Produto Sênior na AWS. Ela está liderando a integração do ecossistema de dados para o SageMaker, com 14 anos de experiência na criação de produtos centrados no cliente e orientados a dados para espaços corporativos e de consumo.

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Meenakshisundaram Thandavarayan é especialista sênior em IA/ML da AWS. Ele ajuda contas estratégicas de alta tecnologia em sua jornada de IA e ML. Ele é muito apaixonado por IA orientada a dados.

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Sriharsha M Sr. é arquiteto de soluções especialista em IA/ML na equipe de especialistas estratégicos da Amazon Web Services. Ele trabalha com clientes estratégicos da AWS que estão aproveitando IA/ML para resolver problemas de negócios complexos. Ele fornece orientação técnica e consultoria de design para implementar aplicações de IA/ML em escala. Sua experiência abrange arquitetura de aplicativos, big data, análises e aprendizado de máquina.

Processe conjuntos de dados cada vez maiores com o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Nikita Ivkin é um cientista aplicado, Amazon SageMaker Data Wrangler.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS