Gerenciador de dados do Amazon SageMaker reduz o tempo necessário para agregar e preparar dados para machine learning (ML) de semanas para minutos no Amazon SageMaker Studio. O Data Wrangler permite que você acesse dados de uma ampla variedade de fontes populares (Amazon S3, Amazona atena, Amazon RedShift, Amazon EMR e Snowflake) e mais de 40 outras fontes de terceiros. A partir de hoje, você pode se conectar a Amazon EMR Hive como um mecanismo de consulta de big data para trazer grandes conjuntos de dados para ML.
Agregar e preparar grandes quantidades de dados é uma parte crítica do fluxo de trabalho de ML. Cientistas e engenheiros de dados usam Apache Spark, Apache Hive e Presto em execução no Amazon EMR para processamento de dados em grande escala. Esta postagem de blog mostrará como os profissionais de dados podem usar a interface visual do SageMaker Data Wrangler para localizar e conectar-se a clusters Amazon EMR existentes com endpoints Hive. Para se preparar para a modelagem ou geração de relatórios, eles podem analisar visualmente o banco de dados, as tabelas, o esquema e as consultas do Hive do autor para criar o conjunto de dados de ML. Em seguida, eles podem criar perfis de dados rapidamente usando a interface visual do Data Wrangler para avaliar a qualidade dos dados, detectar anomalias e dados ausentes ou incorretos e obter conselhos sobre como lidar com esses problemas. Eles podem aproveitar análises integradas mais populares e baseadas em ML e mais de 300 transformações integradas suportadas pelo Spark para analisar, limpar e projetar recursos sem escrever uma única linha de código. Por fim, eles também podem treinar e implantar modelos com Piloto automático do SageMaker, agende tarefas ou operacionalize a preparação de dados em um SageMaker Pipeline a partir da interface visual do Data Wrangler.
Visão geral da solução
Com as configurações do SageMaker Studio, os profissionais de dados podem identificar e conectar-se rapidamente a clusters EMR existentes. Além disso, os profissionais de dados podem descobrir clusters EMR de SageMaker Studio usando modelos predefinidos sob demanda em apenas alguns cliques. Os clientes podem usar o notebook universal SageMaker Studio e escrever código em Apache Spark, Colméia, Presto or PySparkGenericName para executar a preparação de dados em escala. No entanto, nem todos os profissionais de dados estão familiarizados com a escrita do código Spark para preparar dados porque há uma curva de aprendizado acentuada envolvida. Agora eles podem se conectar de forma rápida e simples ao Amazon EMR sem escrever uma única linha de código, graças ao Amazon EMR ser uma fonte de dados para o Amazon SageMaker Data Wrangler.
O diagrama a seguir representa os diferentes componentes usados nesta solução.
Demonstramos duas opções de autenticação que podem ser usadas para estabelecer uma conexão com o cluster EMR. Para cada opção, implantamos uma pilha exclusiva de Formação da Nuvem AWS templates.
O modelo CloudFormation executa as seguintes ações quando cada opção é selecionada:
- Cria um Studio Domain no modo somente VPC, juntamente com um perfil de usuário chamado
studio-user
. - Cria blocos de construção, incluindo VPC, endpoints, sub-redes, grupos de segurança, cluster EMR e outros recursos necessários para executar os exemplos com êxito.
- Para o cluster EMR, conecta o Catálogo de dados do AWS Glue como metastore para EMR Hive e Presto, cria uma tabela Hive no EMR e a preenche com dados de um Conjunto de dados do aeroporto dos EUA.
- Para o modelo LDAP CloudFormation, cria um Amazon Elastic Compute Nuvem (Amazon EC2) para hospedar o servidor LDAP para autenticar o usuário Hive e Presto LDAP.
Opção 1: protocolo de diretório de acesso leve
Para o modelo CloudFormation de autenticação LDAP, provisionamos uma instância do Amazon EC2 com um servidor LDAP e configuramos o cluster EMR para usar esse servidor para autenticação. Isso é habilitado para TLS.
Opção 2: sem autenticação
No modelo CloudFormation de autenticação No-Auth, usamos um cluster EMR padrão sem autenticação habilitada.
Implante os recursos com AWS CloudFormation
Conclua as seguintes etapas para implantar o ambiente:
- Entre no Console de gerenciamento da AWS como Gerenciamento de acesso e identidade da AWS (IAM), de preferência um usuário administrador.
- Escolha Pilha de Lançamento para iniciar o modelo CloudFormation para o cenário de autenticação apropriado. Certifique-se de que a região usada para implantar a pilha do CloudFormation não tenha domínio de estúdio existente. Se você já possui um domínio do Studio em uma região, pode escolher uma região diferente.
LDAP Sem autenticação - Escolha Próximo.
- Escolha Nome da pilha, insira um nome para a pilha (por exemplo,
dw-emr-hive-blog
). - Deixe os outros valores como padrão.
- Para continuar, escolha Próximo na página de detalhes da pilha e opções de pilha.
A pilha LDAP usa as credenciais a seguir.- nome de usuário:
david
- senha:
welcome123
- nome de usuário:
- Na página de revisão, marque a caixa de seleção para confirmar que o AWS CloudFormation pode criar recursos.
- Escolha Criar pilha. Aguarde até que o status da pilha mude de
CREATE_IN_PROGRESS
paraCREATE_COMPLETE
. O processo geralmente leva de 10 a 15 minutos.
Configure o Amazon EMR como fonte de dados no Data Wrangler
Nesta seção, abordamos a conexão com o cluster existente do Amazon EMR criado por meio do modelo CloudFormation como uma fonte de dados no Data Wrangler.
Crie um novo fluxo de dados
Para criar seu fluxo de dados, conclua as seguintes etapas:
- No console do SageMaker, clique em domínios, então clique em StudioDomain criado executando acima do modelo CloudFormation.
- Selecionar usuário de estúdio perfil do usuário e inicie o Studio.
- Escolha estúdio aberto.
- No console Studio Home, escolha Importar e preparar dados visualmente. Alternativamente, no Envie o menu suspenso, escolha Novo, Em seguida, escolha Fluxo do Data Wrangler.
- A criação de um novo fluxo pode levar alguns minutos. Após a criação do fluxo, você verá o Datas de importação Disputas de Comerciais.
- Adicione o Amazon EMR como uma fonte de dados no Data Wrangler. No Adicionar fonte de dados menu, escolha Amazon EMR.
Você pode procurar todos os clusters EMR que sua função de execução do Studio tem permissão para ver. Você tem duas opções para se conectar a um cluster; um é por meio da interface do usuário interativa e o outro é primeiro criar um segredo usando o AWS Secrets Manager com URL JDBC, incluindo informações de cluster EMR e, em seguida, forneça o ARN secreto da AWS armazenado na interface do usuário para se conectar ao Hive. Neste blog, seguimos a primeira opção.
- Selecione um dos clusters a seguir que deseja usar. Clique em Próximoe selecione pontos de extremidade.
- Selecionar Colmeia, conecte-se ao Amazon EMR, crie um nome para identificar sua conexão e clique em Próximo.
- Selecione o tipo de autenticação, ou Protocolo leve de acesso a diretórios (LDAP) or Sem autenticação.
Para Lightweight Directory Access Protocol (LDAP), selecione a opção e clique em Em seguida, faça login no clusterr, forneça o nome de usuário e a senha a serem autenticados e clique em Conectar.
Para No Authentication, você será conectado ao EMR Hive sem fornecer credenciais de usuário na VPC. Entre na página do SQL Explorer do Data Wrangler para EMR.
- Uma vez conectado, você pode visualizar interativamente uma árvore de banco de dados e visualização de tabela ou esquema. Você também pode consultar, explorar e visualizar dados do EMR. Para visualização, você veria um limite de 100 registros por padrão. Depois de fornecer uma instrução SQL na caixa do editor de consultas e clicar no botão Execute botão, a consulta será executada no mecanismo Hive do EMR para visualizar os dados.
A Cancelar consulta O botão permite que as consultas em andamento sejam canceladas se estiverem demorando muito tempo.
- O último passo é importar. Quando estiver pronto com os dados consultados, você terá opções para atualizar as configurações de amostragem para a seleção de dados de acordo com o tipo de amostragem (FirstK, Random ou Stratified) e tamanho de amostragem para importar dados para o Data Wrangler.
Clique importação. A página de preparação será carregada, permitindo que você adicione várias transformações e análises essenciais ao conjunto de dados.
- Navegar para Fluxo de dados na tela superior e adicione mais etapas ao fluxo conforme necessário para transformações e análises. Você pode executar um relatório de insight de dados para identificar problemas de qualidade de dados e obter recomendações para corrigi-los. Vejamos alguns exemplos de transformações.
- No Fluxo de dados view, você verá que estamos usando o EMR como uma fonte de dados usando o conector Hive.
- Vamos clicar no + botão à direita de Tipos de dados e selecione Adicionar transformação. Quando você fizer isso, você vai voltar para o Data Visão.
Vamos explorar os dados. Vemos que ele tem vários recursos, como código_iata, aeroporto, cidade, estado, país, latitude e longitude. Podemos ver que todo o conjunto de dados é baseado em um país, que são os EUA, e há valores ausentes em latitude e longitude. A falta de dados pode causar viés na estimativa de parâmetros e pode reduzir a representatividade das amostras, por isso precisamos realizar algumas imputação e lidar com valores ausentes em nosso conjunto de dados.
- Vamos clicar no Adicionar Etapa botão na barra de navegação à direita. Selecione Alça faltando. As configurações podem ser vistas nas imagens a seguir.
Debaixo Transformar, selecionar Imputar. Selecione os Tipo de coluna as Numérico e Coluna de entrada nomes latitude e longitude. Estaremos imputando os valores ausentes usando um valor mediano aproximado.
Primeiro clique em visualização para visualizar o valor ausente e, em seguida, clique em atualizar para adicionar a transformação.
- Vejamos agora outro exemplo de transformação. Ao criar um modelo de ML, as colunas são removidas se forem redundantes ou não ajudarem seu modelo. A maneira mais comum de remover uma coluna é soltá-la. Em nosso conjunto de dados, o recurso país podem ser descartados, pois o conjunto de dados é especificamente para dados de aeroportos dos EUA. Para gerenciar colunas, clique no botão Adicionar etapa botão na barra de navegação à direita e selecione Gerenciar colunas. As configurações podem ser vistas nas imagens a seguir. Debaixo Transformar, selecione Coluna de queda, e abaixo Colunas para soltar, selecione país.
- Clique em visualização e depois Atualizar para soltar a coluna.
- O Feature Store é um repositório para armazenar, compartilhar e gerenciar recursos para modelos de ML. Vamos clicar no + botão à direita de Coluna de queda. Selecionar Exportar para e escolha Loja de artigos SageMaker (via notebook Jupyter).
- Ao selecionar Loja de artigos SageMaker como destino, você pode salvar os recursos em um grupo de recursos existente ou criar um novo.
Agora criamos recursos com o Data Wrangler e armazenamos facilmente esses recursos no Feature Store. Mostramos um exemplo de fluxo de trabalho para engenharia de recursos na IU do Data Wrangler. Em seguida, salvamos esses recursos no Feature Store diretamente do Data Wrangler criando um novo grupo de recursos. Por fim, executamos um trabalho de processamento para inserir esses recursos no Feature Store. O Data Wrangler e o Feature Store juntos nos ajudaram a criar processos automáticos e repetíveis para simplificar nossas tarefas de preparação de dados com o mínimo de codificação necessária. O Data Wrangler também nos fornece flexibilidade para automatizar o mesmo fluxo de preparação de dados usando trabalhos agendados. Também podemos automaticamente treinar e implantar modelos usando o SageMaker Autopilot a partir da interface visual do Data Wrangler ou crie um pipeline de treinamento ou engenharia de recursos com o SageMaker Pipelines (via Jupyter Notebook) e implemente no endpoint de inferência com o pipeline de inferência SageMaker (via Jupyter Notebook).
limpar
Se o seu trabalho com o Data Wrangler estiver concluído, as etapas a seguir o ajudarão a excluir os recursos criados para evitar cobranças adicionais.
- Desligue o SageMaker Studio.
No SageMaker Studio, feche todas as guias e selecione Envie o então Desligar. Uma vez solicitado, selecione Desligar tudo.
O desligamento pode levar alguns minutos com base no tipo de instância. Certifique-se de que todos os aplicativos associados ao perfil do usuário foram excluídos. Se eles não foram excluídos, exclua manualmente o aplicativo associado ao perfil do usuário.
- Esvazie todos os buckets do S3 que foram criados na inicialização do CloudFormation.
Abra a página do Amazon S3 procurando por S3 na pesquisa do console AWS. Esvazie todos os buckets do S3 que foram criados durante o provisionamento de clusters. O balde seria de formato dw-emr-hive-blog-
.
- Exclua o SageMaker Studio EFS.
Abra a página EFS procurando por EFS na pesquisa do console AWS.
Localize o sistema de arquivos que foi criado pelo SageMaker. Você pode confirmar isso clicando no botão ID do sistema de arquivos e confirmando a etiqueta ManagedByAmazonSageMakerResource
na Tags aba.
- Exclua as pilhas do CloudFormation. Abra o CloudFormation procurando e abrindo o serviço CloudFormation no console AWS.
Selecione o modelo que começa com dw- conforme mostrado na tela a seguir e exclua a pilha conforme mostrado clicando no botão Apagar botão.
Isso é esperado e vamos voltar a isso e limpá-lo nas etapas subseqüentes.
- Exclua a VPC após a conclusão da pilha do CloudFormation. Primeiro, abra a VPC no console da AWS.
- Em seguida, identifique o VPC que foi criado pelo SageMaker Studio CloudFormation, intitulado
dw-emr-
e siga as instruções para excluir a VPC. - Exclua a pilha CloudFormation.
Retorne ao CloudFormation e repita a exclusão da pilha para dw-emr-hive-blog
.
Completo! Todos os recursos fornecidos pelo modelo CloudFormation descrito nesta postagem do blog agora serão removidos de sua conta.
Conclusão
Nesta postagem, examinamos como configurar o Amazon EMR como fonte de dados no Data Wrangler, como transformar e analisar um conjunto de dados e como exportar os resultados para um fluxo de dados para uso em um notebook Jupyter. Depois de visualizar nosso conjunto de dados usando os recursos analíticos integrados do Data Wrangler, aprimoramos ainda mais nosso fluxo de dados. O fato de termos criado um pipeline de preparação de dados sem escrever uma única linha de código é significativo.
Para começar a usar o Data Wrangler, consulte Prepare dados de ML com o Amazon SageMaker Data Wrangler e veja as últimas informações sobre o Página de produto do Data Wrangler e Documentos técnicos da AWS.
Sobre os autores
Ajjay Govindaram é Arquiteto de Soluções Sênior na AWS. Ele trabalha com clientes estratégicos que usam AI/ML para resolver problemas complexos de negócios. Sua experiência está em fornecer orientação técnica e assistência de design para implantações de aplicativos de IA/ML de modesta a grande escala. Seu conhecimento varia de arquitetura de aplicativos a big data, análise e aprendizado de máquina. Ele gosta de ouvir música enquanto descansa, experimenta o ar livre e passa tempo com seus entes queridos.
Isha Dua é Arquiteto de Soluções Sênior baseado na área da Baía de São Francisco. Ela ajuda os clientes corporativos da AWS a crescer ao entender seus objetivos e desafios e os orienta sobre como eles podem arquitetar seus aplicativos de maneira nativa da nuvem, garantindo resiliência e escalabilidade. Ela é apaixonada por tecnologias de aprendizado de máquina e sustentabilidade ambiental.
Varun Mehta é arquiteto de soluções da AWS. Ele é apaixonado por ajudar os clientes a criar soluções bem arquitetadas em escala empresarial na Nuvem AWS. Ele trabalha com clientes estratégicos que usam AI/ML para resolver problemas complexos de negócios.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-insight-with-amazon-sagemaker-data-wrangler-and-the-power-of-apache-hive/
- :é
- $UP
- 1
- 10
- 100
- 11
- 7
- a
- Sobre
- acelerar
- Acesso
- Protocolo de acesso
- Segundo
- Conta
- ações
- Adição
- Adicional
- admin
- conselho
- Depois de
- AI / ML
- aeroporto
- Todos os Produtos
- Permitindo
- permite
- já
- Amazon
- Amazon EC2
- Amazon EMR
- Amazon Sage Maker
- Gerenciador de dados do Amazon SageMaker
- Estúdio Amazon SageMaker
- quantidades
- Analisa
- análise
- Análises
- analítica
- analisar
- e
- Outro
- apache
- app
- Aplicação
- aplicações
- apropriado
- Aplicativos
- arquitetura
- SOMOS
- ÁREA
- AS
- Assistência
- associado
- At
- autenticar
- autenticado
- Autenticação
- autor
- automatizar
- Automático
- automaticamente
- AWS
- Formação da Nuvem AWS
- Cola AWS
- em caminho duplo
- Barra
- baseado
- Bay
- BE
- Porque
- ser
- viés
- Grande
- Big Data
- Blocos
- Blog
- Caixa
- trazer
- construir
- Prédio
- construídas em
- negócio
- botão
- by
- CAN
- catálogo
- Causar
- desafios
- Alterações
- verificar
- Escolha
- clique
- Fechar
- Na nuvem
- Agrupar
- código
- Codificação
- Coluna
- colunas
- como
- comum
- completar
- integrações
- componentes
- Computar
- Confirmar
- Contato
- conectado
- Conexão de
- da conexão
- conecta
- cônsul
- continuar
- país
- cobrir
- crio
- criado
- cria
- Criar
- Credenciais
- crítico
- curva
- Clientes
- dados,
- Preparação de dados
- informática
- banco de dados
- conjuntos de dados
- acordo
- Padrão
- Demanda
- demonstrar
- implantar
- Implantações
- descrito
- Design
- destino
- detalhes
- diferente
- direção
- diretamente
- descobrir
- domínio
- não
- down
- Cair
- desistiu
- cada
- facilmente
- editor
- ou
- habilitado
- permite
- Ponto final
- Motor
- engenheiro
- Engenharia
- Engenheiros
- aprimorada
- assegurando
- Entrar
- Empreendimento
- Todo
- Meio Ambiente
- ambiental
- essencial
- estabelecer
- avaliar
- exemplo
- exemplos
- execução
- existente
- esperado
- vasta experiência
- experimentando
- explorar
- explorador
- exportar
- falha
- familiar
- Característica
- Funcionalidades
- Taxas
- poucos
- Finalmente
- Primeiro nome
- Fixar
- fluxo
- seguir
- seguinte
- Escolha
- Francisco
- da
- mais distante
- ter
- Go
- Objetivos
- Grupo
- Do grupo
- Cresça:
- Guias
- manipular
- Ter
- ajudar
- ajudou
- ajuda
- ajuda
- Colméia
- Início
- hospedeiro
- Como funciona o dobrador de carta de canal
- Como Negociar
- Contudo
- HTML
- http
- HTTPS
- identificar
- Identidade
- importar
- importador
- in
- Incluindo
- INFORMAÇÕES
- introspecção
- instância
- interativo
- Interface
- envolvido
- questões
- IT
- Trabalho
- Empregos
- jpg
- Conhecimento
- grande
- em grande escala
- Sobrenome
- mais recente
- lançamento
- aprendizagem
- Alavancagem
- encontra-se
- leve
- LIMITE
- Line
- Escuta
- longo
- muito tempo
- olhar
- amado
- máquina
- aprendizado de máquina
- fazer
- gerencia
- de grupos
- maneira
- manualmente
- Menu
- poder
- mínimo
- Minutos
- desaparecido
- ML
- Moda
- modelo
- modelos
- mais
- a maioria
- múltiplo
- Música
- nome
- Nomeado
- nomes
- Navegação
- você merece...
- Novo
- caderno
- of
- on
- ONE
- contínuo
- aberto
- abertura
- Opção
- Opções
- Outros
- ao ar livre
- página
- parâmetros
- parte
- apaixonado
- Senha
- Realizar
- executa
- permissões
- oleoduto
- platão
- Inteligência de Dados Platão
- PlatãoData
- Popular
- Publique
- poder
- Preparar
- preparação
- visualização
- problemas
- processo
- processos
- em processamento
- Produto
- Perfil
- protocolo
- fornecer
- fornece
- fornecendo
- provisão
- qualidade
- rapidamente
- acaso
- pronto
- recomendações
- registros
- reduzir
- reduz
- região
- remover
- Removido
- Repetivel
- Relatórios
- repositório
- representa
- requeridos
- resiliência
- Recursos
- Resultados
- rever
- Tipo
- Execute
- corrida
- sábio
- Inferência do SageMaker
- Pipelines SageMaker
- mesmo
- San
- San Francisco
- Salvar
- AMPLIAR
- Escala
- cenário
- cronograma
- cientistas
- Peneira
- screenshots
- Pesquisar
- pesquisar
- Segredo
- Seção
- segurança
- selecionado
- selecionando
- doadores,
- senior
- serviço
- conjunto
- Configurações
- Partilhar
- rede de apoio social
- mostrando
- periodo
- simplesmente
- desde
- solteiro
- Tamanho
- So
- solução
- Soluções
- RESOLVER
- alguns
- fonte
- Fontes
- Faísca
- especificamente
- Passar
- Spot
- pilha
- Pilhas
- padrão
- começado
- Comece
- Declaração
- estatística
- Status
- Passo
- Passos
- loja
- armazenadas
- Estratégico
- simplificar
- estudo
- sub-redes
- subseqüente
- entraram com sucesso
- tal
- Suportado
- Sustentabilidade
- .
- mesa
- TAG
- Tire
- toma
- tomar
- tarefas
- Dados Técnicos:
- Tecnologias
- modelo
- modelos
- obrigado
- que
- A
- deles
- Eles
- Este
- De terceiros
- Através da
- tempo
- para
- hoje
- juntos
- topo
- Trem
- Training
- Transformar
- transformações
- ui
- para
- compreensão
- único
- Universal
- Atualizar
- URL
- us
- usar
- Utilizador
- geralmente
- valor
- Valores
- variedade
- vário
- via
- Ver
- esperar
- Caminho..
- semanas
- BEM
- qual
- enquanto
- QUEM
- Largo
- Wikipedia
- precisarão
- de
- dentro
- sem
- Atividades:
- trabalho
- seria
- escrever
- escrever código
- escrita
- yaml
- Vocês
- investimentos
- zefirnet