Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive

Republicado por Platão

seguidores: 0

Gerenciador de dados do Amazon SageMaker reduz o tempo necessário para agregar e preparar dados para machine learning (ML) de semanas para minutos no Amazon SageMaker Studio. O Data Wrangler permite que você acesse dados de uma ampla variedade de fontes populares (Amazon S3, Amazona atena, Amazon RedShift, Amazon EMR e Snowflake) e mais de 40 outras fontes de terceiros. A partir de hoje, você pode se conectar a Amazon EMR Hive como um mecanismo de consulta de big data para trazer grandes conjuntos de dados para ML.

Agregar e preparar grandes quantidades de dados é uma parte crítica do fluxo de trabalho de ML. Cientistas e engenheiros de dados usam Apache Spark, Apache Hive e Presto em execução no Amazon EMR para processamento de dados em grande escala. Esta postagem de blog mostrará como os profissionais de dados podem usar a interface visual do SageMaker Data Wrangler para localizar e conectar-se a clusters Amazon EMR existentes com endpoints Hive. Para se preparar para a modelagem ou geração de relatórios, eles podem analisar visualmente o banco de dados, as tabelas, o esquema e as consultas do Hive do autor para criar o conjunto de dados de ML. Em seguida, eles podem criar perfis de dados rapidamente usando a interface visual do Data Wrangler para avaliar a qualidade dos dados, detectar anomalias e dados ausentes ou incorretos e obter conselhos sobre como lidar com esses problemas. Eles podem aproveitar análises integradas mais populares e baseadas em ML e mais de 300 transformações integradas suportadas pelo Spark para analisar, limpar e projetar recursos sem escrever uma única linha de código. Por fim, eles também podem treinar e implantar modelos com Piloto automático do SageMaker, agende tarefas ou operacionalize a preparação de dados em um SageMaker Pipeline a partir da interface visual do Data Wrangler.

Visão geral da solução

Com as configurações do SageMaker Studio, os profissionais de dados podem identificar e conectar-se rapidamente a clusters EMR existentes. Além disso, os profissionais de dados podem descobrir clusters EMR de SageMaker Studio usando modelos predefinidos sob demanda em apenas alguns cliques. Os clientes podem usar o notebook universal SageMaker Studio e escrever código em Apache Spark, Colméia, Presto or PySparkGenericName para executar a preparação de dados em escala. No entanto, nem todos os profissionais de dados estão familiarizados com a escrita do código Spark para preparar dados porque há uma curva de aprendizado acentuada envolvida. Agora eles podem se conectar de forma rápida e simples ao Amazon EMR sem escrever uma única linha de código, graças ao Amazon EMR ser uma fonte de dados para o Amazon SageMaker Data Wrangler.

O diagrama a seguir representa os diferentes componentes usados nesta solução.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Demonstramos duas opções de autenticação que podem ser usadas para estabelecer uma conexão com o cluster EMR. Para cada opção, implantamos uma pilha exclusiva de Formação da Nuvem AWS templates.

O modelo CloudFormation executa as seguintes ações quando cada opção é selecionada:

Cria um Studio Domain no modo somente VPC, juntamente com um perfil de usuário chamado studio-user.
Cria blocos de construção, incluindo VPC, endpoints, sub-redes, grupos de segurança, cluster EMR e outros recursos necessários para executar os exemplos com êxito.
Para o cluster EMR, conecta o Catálogo de dados do AWS Glue como metastore para EMR Hive e Presto, cria uma tabela Hive no EMR e a preenche com dados de um Conjunto de dados do aeroporto dos EUA.
Para o modelo LDAP CloudFormation, cria um Amazon Elastic Compute Nuvem (Amazon EC2) para hospedar o servidor LDAP para autenticar o usuário Hive e Presto LDAP.

Opção 1: protocolo de diretório de acesso leve

Para o modelo CloudFormation de autenticação LDAP, provisionamos uma instância do Amazon EC2 com um servidor LDAP e configuramos o cluster EMR para usar esse servidor para autenticação. Isso é habilitado para TLS.

Opção 2: sem autenticação

No modelo CloudFormation de autenticação No-Auth, usamos um cluster EMR padrão sem autenticação habilitada.

Implante os recursos com AWS CloudFormation

Conclua as seguintes etapas para implantar o ambiente:

Entre no Console de gerenciamento da AWS como Gerenciamento de acesso e identidade da AWS (IAM), de preferência um usuário administrador.
Escolha Pilha de Lançamento para iniciar o modelo CloudFormation para o cenário de autenticação apropriado. Certifique-se de que a região usada para implantar a pilha do CloudFormation não tenha domínio de estúdio existente. Se você já possui um domínio do Studio em uma região, pode escolher uma região diferente.

LDAP

Sem autenticação
Escolha Próximo.
Escolha Nome da pilha, insira um nome para a pilha (por exemplo, dw-emr-hive-blog).
Deixe os outros valores como padrão.
Para continuar, escolha Próximo na página de detalhes da pilha e opções de pilha.
A pilha LDAP usa as credenciais a seguir.
- nome de usuário: david
- senha: welcome123
Na página de revisão, marque a caixa de seleção para confirmar que o AWS CloudFormation pode criar recursos.
Escolha Criar pilha. Aguarde até que o status da pilha mude de CREATE_IN_PROGRESS para CREATE_COMPLETE. O processo geralmente leva de 10 a 15 minutos.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Configure o Amazon EMR como fonte de dados no Data Wrangler

Nesta seção, abordamos a conexão com o cluster existente do Amazon EMR criado por meio do modelo CloudFormation como uma fonte de dados no Data Wrangler.

Crie um novo fluxo de dados

Para criar seu fluxo de dados, conclua as seguintes etapas:

No console do SageMaker, clique em domínios, então clique em StudioDomain criado executando acima do modelo CloudFormation.
Selecionar usuário de estúdio perfil do usuário e inicie o Studio.
Escolha estúdio aberto.
No console Studio Home, escolha Importar e preparar dados visualmente. Alternativamente, no Envie o menu suspenso, escolha Novo, Em seguida, escolha Fluxo do Data Wrangler.
A criação de um novo fluxo pode levar alguns minutos. Após a criação do fluxo, você verá o Datas de importação Disputas de Comerciais.
Adicione o Amazon EMR como uma fonte de dados no Data Wrangler. No Adicionar fonte de dados menu, escolha Amazon EMR.

Você pode procurar todos os clusters EMR que sua função de execução do Studio tem permissão para ver. Você tem duas opções para se conectar a um cluster; um é por meio da interface do usuário interativa e o outro é primeiro criar um segredo usando o AWS Secrets Manager com URL JDBC, incluindo informações de cluster EMR e, em seguida, forneça o ARN secreto da AWS armazenado na interface do usuário para se conectar ao Hive. Neste blog, seguimos a primeira opção.

Selecione um dos clusters a seguir que deseja usar. Clique em Próximoe selecione pontos de extremidade.
Selecionar Colmeia, conecte-se ao Amazon EMR, crie um nome para identificar sua conexão e clique em Próximo.
Selecione o tipo de autenticação, ou Protocolo leve de acesso a diretórios (LDAP) or Sem autenticação.

Para Lightweight Directory Access Protocol (LDAP), selecione a opção e clique em Em seguida, faça login no clusterr, forneça o nome de usuário e a senha a serem autenticados e clique em Conectar.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Para No Authentication, você será conectado ao EMR Hive sem fornecer credenciais de usuário na VPC. Entre na página do SQL Explorer do Data Wrangler para EMR.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Uma vez conectado, você pode visualizar interativamente uma árvore de banco de dados e visualização de tabela ou esquema. Você também pode consultar, explorar e visualizar dados do EMR. Para visualização, você veria um limite de 100 registros por padrão. Depois de fornecer uma instrução SQL na caixa do editor de consultas e clicar no botão Execute botão, a consulta será executada no mecanismo Hive do EMR para visualizar os dados.

A Cancelar consulta O botão permite que as consultas em andamento sejam canceladas se estiverem demorando muito tempo.

O último passo é importar. Quando estiver pronto com os dados consultados, você terá opções para atualizar as configurações de amostragem para a seleção de dados de acordo com o tipo de amostragem (FirstK, Random ou Stratified) e tamanho de amostragem para importar dados para o Data Wrangler.

Clique importação. A página de preparação será carregada, permitindo que você adicione várias transformações e análises essenciais ao conjunto de dados.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Navegar para Fluxo de dados na tela superior e adicione mais etapas ao fluxo conforme necessário para transformações e análises. Você pode executar um relatório de insight de dados para identificar problemas de qualidade de dados e obter recomendações para corrigi-los. Vejamos alguns exemplos de transformações.
No Fluxo de dados view, você verá que estamos usando o EMR como uma fonte de dados usando o conector Hive.
Vamos clicar no + botão à direita de Tipos de dados e selecione Adicionar transformação. Quando você fizer isso, você vai voltar para o Data Visão.

Vamos explorar os dados. Vemos que ele tem vários recursos, como código_iata, aeroporto, cidade, estado, país, latitude e longitude. Podemos ver que todo o conjunto de dados é baseado em um país, que são os EUA, e há valores ausentes em latitude e longitude. A falta de dados pode causar viés na estimativa de parâmetros e pode reduzir a representatividade das amostras, por isso precisamos realizar algumas imputação e lidar com valores ausentes em nosso conjunto de dados.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Vamos clicar no Adicionar Etapa botão na barra de navegação à direita. Selecione Alça faltando. As configurações podem ser vistas nas imagens a seguir.

Debaixo Transformar, selecionar Imputar. Selecione os Tipo de coluna as Numérico e Coluna de entrada nomes latitude e longitude. Estaremos imputando os valores ausentes usando um valor mediano aproximado.

Primeiro clique em visualização para visualizar o valor ausente e, em seguida, clique em atualizar para adicionar a transformação.
Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Vejamos agora outro exemplo de transformação. Ao criar um modelo de ML, as colunas são removidas se forem redundantes ou não ajudarem seu modelo. A maneira mais comum de remover uma coluna é soltá-la. Em nosso conjunto de dados, o recurso país podem ser descartados, pois o conjunto de dados é especificamente para dados de aeroportos dos EUA. Para gerenciar colunas, clique no botão Adicionar etapa botão na barra de navegação à direita e selecione Gerenciar colunas. As configurações podem ser vistas nas imagens a seguir. Debaixo Transformar, selecione Coluna de queda, e abaixo Colunas para soltar, selecione país.
Clique em visualização e depois Atualizar para soltar a coluna.
O Feature Store é um repositório para armazenar, compartilhar e gerenciar recursos para modelos de ML. Vamos clicar no + botão à direita de Coluna de queda. Selecionar Exportar para e escolha Loja de artigos SageMaker (via notebook Jupyter).
Ao selecionar Loja de artigos SageMaker como destino, você pode salvar os recursos em um grupo de recursos existente ou criar um novo.

Agora criamos recursos com o Data Wrangler e armazenamos facilmente esses recursos no Feature Store. Mostramos um exemplo de fluxo de trabalho para engenharia de recursos na IU do Data Wrangler. Em seguida, salvamos esses recursos no Feature Store diretamente do Data Wrangler criando um novo grupo de recursos. Por fim, executamos um trabalho de processamento para inserir esses recursos no Feature Store. O Data Wrangler e o Feature Store juntos nos ajudaram a criar processos automáticos e repetíveis para simplificar nossas tarefas de preparação de dados com o mínimo de codificação necessária. O Data Wrangler também nos fornece flexibilidade para automatizar o mesmo fluxo de preparação de dados usando trabalhos agendados. Também podemos automaticamente treinar e implantar modelos usando o SageMaker Autopilot a partir da interface visual do Data Wrangler ou crie um pipeline de treinamento ou engenharia de recursos com o SageMaker Pipelines (via Jupyter Notebook) e implemente no endpoint de inferência com o pipeline de inferência SageMaker (via Jupyter Notebook).

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

limpar

Se o seu trabalho com o Data Wrangler estiver concluído, as etapas a seguir o ajudarão a excluir os recursos criados para evitar cobranças adicionais.

Desligue o SageMaker Studio.

No SageMaker Studio, feche todas as guias e selecione Envie o então Desligar. Uma vez solicitado, selecione Desligar tudo.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O desligamento pode levar alguns minutos com base no tipo de instância. Certifique-se de que todos os aplicativos associados ao perfil do usuário foram excluídos. Se eles não foram excluídos, exclua manualmente o aplicativo associado ao perfil do usuário.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Esvazie todos os buckets do S3 que foram criados na inicialização do CloudFormation.

Abra a página do Amazon S3 procurando por S3 na pesquisa do console AWS. Esvazie todos os buckets do S3 que foram criados durante o provisionamento de clusters. O balde seria de formato dw-emr-hive-blog-.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Exclua o SageMaker Studio EFS.

Abra a página EFS procurando por EFS na pesquisa do console AWS.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Localize o sistema de arquivos que foi criado pelo SageMaker. Você pode confirmar isso clicando no botão ID do sistema de arquivos e confirmando a etiqueta ManagedByAmazonSageMakerResource na Tags aba.

Exclua as pilhas do CloudFormation. Abra o CloudFormation procurando e abrindo o serviço CloudFormation no console AWS.

Selecione o modelo que começa com dw- conforme mostrado na tela a seguir e exclua a pilha conforme mostrado clicando no botão Apagar botão.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Isso é esperado e vamos voltar a isso e limpá-lo nas etapas subseqüentes.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Exclua a VPC após a conclusão da pilha do CloudFormation. Primeiro, abra a VPC no console da AWS.
Em seguida, identifique o VPC que foi criado pelo SageMaker Studio CloudFormation, intitulado dw-emr-e siga as instruções para excluir a VPC.
Exclua a pilha CloudFormation.

Retorne ao CloudFormation e repita a exclusão da pilha para dw-emr-hive-blog.

Acelere o tempo de obtenção de insights com o Amazon SageMaker Data Wrangler e o poder do Apache Hive PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Completo! Todos os recursos fornecidos pelo modelo CloudFormation descrito nesta postagem do blog agora serão removidos de sua conta.

Conclusão

Nesta postagem, examinamos como configurar o Amazon EMR como fonte de dados no Data Wrangler, como transformar e analisar um conjunto de dados e como exportar os resultados para um fluxo de dados para uso em um notebook Jupyter. Depois de visualizar nosso conjunto de dados usando os recursos analíticos integrados do Data Wrangler, aprimoramos ainda mais nosso fluxo de dados. O fato de termos criado um pipeline de preparação de dados sem escrever uma única linha de código é significativo.

Para começar a usar o Data Wrangler, consulte Prepare dados de ML com o Amazon SageMaker Data Wrangler e veja as últimas informações sobre o Página de produto do Data Wrangler e Documentos técnicos da AWS.

Sobre os autores

Ajjay Govindaram é Arquiteto de Soluções Sênior na AWS. Ele trabalha com clientes estratégicos que usam AI/ML para resolver problemas complexos de negócios. Sua experiência está em fornecer orientação técnica e assistência de design para implantações de aplicativos de IA/ML de modesta a grande escala. Seu conhecimento varia de arquitetura de aplicativos a big data, análise e aprendizado de máquina. Ele gosta de ouvir música enquanto descansa, experimenta o ar livre e passa tempo com seus entes queridos.

Isha Dua é Arquiteto de Soluções Sênior baseado na área da Baía de São Francisco. Ela ajuda os clientes corporativos da AWS a crescer ao entender seus objetivos e desafios e os orienta sobre como eles podem arquitetar seus aplicativos de maneira nativa da nuvem, garantindo resiliência e escalabilidade. Ela é apaixonada por tecnologias de aprendizado de máquina e sustentabilidade ambiental.

Varun Mehta é arquiteto de soluções da AWS. Ele é apaixonado por ajudar os clientes a criar soluções bem arquitetadas em escala empresarial na Nuvem AWS. Ele trabalha com clientes estratégicos que usam AI/ML para resolver problemas complexos de negócios.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-insight-with-amazon-sagemaker-data-wrangler-and-the-power-of-apache-hive/

Carimbo de hora: 10 de março de 2023

Carimbo de hora: 13 de setembro de 2023

Republicado por Platão

Apresentando Fortuna: uma biblioteca para quantificação de incertezas

Aumente as transações de fraude usando dados sintéticos no Amazon SageMaker

Modelos e algoritmos do Amazon SageMaker JumpStart agora disponíveis via API

Desmistificando o aprendizado de máquina na borda por meio de casos de uso reais

Visualize uma análise do Amazon Comprehend com uma nuvem de palavras no Amazon QuickSight | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta