Importe dados do Amazon Redshift entre contas no Amazon SageMaker Data Wrangler para análise exploratória e preparação de dados

Republicado por Platão

seguidores: 0

As organizações que estão adotando uma cultura orientada a dados adotam o uso de dados e aprendizado de máquina (ML) na tomada de decisões. Para tomar decisões baseadas em ML a partir de dados, você precisa que seus dados estejam disponíveis, acessíveis, limpos e no formato certo para treinar modelos de ML. As organizações com uma arquitetura de várias contas desejam evitar situações em que devem extrair dados de uma conta e carregá-los em outra para atividades de preparação de dados. Criar e manter manualmente os diferentes trabalhos de extração, transformação e carregamento (ETL) em contas diferentes adiciona complexidade e custo e torna mais difícil manter as práticas recomendadas de governança, conformidade e segurança para manter seus dados seguros.

Amazon RedShift é um data warehouse em nuvem rápido e totalmente gerenciado. O recurso de compartilhamento de dados entre contas do Amazon Redshift oferece uma maneira simples e segura de compartilhar dados atualizados, completos e consistentes em seu data warehouse do Amazon Redshift com qualquer número de interessados em diferentes contas da AWS. Gerenciador de dados do Amazon SageMaker é uma capacidade de Amazon Sage Maker que torna mais rápido para cientistas e engenheiros de dados preparar dados para aplicativos de ML usando uma interface visual. O Data Wrangler permite explorar e transformar dados para ML conectando-se aos compartilhamentos de dados do Amazon Redshift.

Nesta postagem, explicamos a configuração de uma integração entre contas usando um compartilhamento de dados do Amazon Redshift e a preparação de dados usando o Data Wrangler.

Visão geral da solução

Começamos com duas contas da AWS: uma conta de produtor com o data warehouse do Amazon Redshift e uma conta de consumidor para casos de uso do SageMaker ML. Para este post, usamos o conjunto de dados bancários. Para acompanhar, baixe o conjunto de dados para sua máquina local. Veja a seguir uma visão geral de alto nível do fluxo de trabalho:

Instancie um cluster RA3 do Amazon Redshift na conta do produtor e carregue o conjunto de dados.
Crie um compartilhamento de dados do Amazon Redshift na conta do produtor e permita que a conta do consumidor acesse os dados.
Acesse o compartilhamento de dados do Amazon Redshift na conta do consumidor.
Analise e processe dados com o Data Wrangler na conta do consumidor e crie seus fluxos de trabalho de preparação de dados.

Esteja ciente do Considerações para trabalhar com o compartilhamento de dados do Amazon Redshift:

Várias contas da AWS – Você precisa de pelo menos duas contas da AWS: uma conta de produtor e uma conta de consumidor.
Tipo de cluster – O compartilhamento de dados é suportado no tipo de cluster RA3. Ao instanciar um cluster do Amazon Redshift, certifique-se de escolher o tipo de cluster RA3.
Criptografia – Para que o compartilhamento de dados funcione, os clusters de produtor e consumidor devem ser criptografados e devem estar na mesma região da AWS.
Regiões – O compartilhamento de dados entre contas está disponível para todos os Amazon Redshift Tipos de nó RA3 no Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Cingapura), Ásia-Pacífico ( Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), Europa (Estocolmo) e América do Sul (São Paulo).
Preços – O compartilhamento de dados entre contas está disponível em clusters que estão na mesma região. Não há custo para compartilhar dados. Você apenas paga pelos clusters do Amazon Redshift que participam do compartilhamento.

O compartilhamento de dados entre contas é um processo de duas etapas. Primeiro, um administrador de cluster produtor cria um compartilhamento de dados, adiciona objetos e dá acesso à conta do consumidor. Em seguida, o administrador da conta do produtor autoriza o compartilhamento de dados para o consumidor especificado. Você pode fazer isso no console do Amazon Redshift.

Crie um compartilhamento de dados do Amazon Redshift na conta do produtor

Para criar seu compartilhamento de dados, conclua as etapas a seguir:

No console do Amazon Redshift, crie um cluster do Amazon Redshift.
Especificar Produção e escolha o tipo de nó RA3.
Debaixo Configurações adicionais, desmarque Use padrões.
Debaixo Configurações de banco de dados, configure a criptografia para seu cluster.
Depois de criar o cluster, importe o conjunto de dados do banco de marketing direto. Você pode baixar a partir do seguinte URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Escolher arquivo bank-additional-full.csv para uma Serviço de armazenamento simples da Amazon (Amazon S3) bucket ao qual seu cluster tem acesso.

Use o editor de consultas do Amazon Redshift e execute a seguinte consulta SQL para copiar os dados no Amazon Redshift:

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Navegue até a página de detalhes do cluster e no Compartilhamentos de dados guia, escolha Criar compartilhamento de dados.
Escolha Nome do compartilhamento de dados, Insira o nome.
Escolha Nome do banco de dados, escolha um banco de dados.
No Adicionar objetos de compartilhamento de dados seção, escolha os objetos do banco de dados que deseja incluir no compartilhamento de dados.
Você tem controle granular do que escolhe compartilhar com outras pessoas. Para simplificar, compartilhamos todas as tabelas. Na prática, você pode escolher uma ou mais tabelas, visualizações ou funções definidas pelo usuário.
Escolha Adicionar.
Para adicionar consumidores de dados, selecione Adicionar contas da AWS ao compartilhamento de dados e adicione seu ID de conta secundária da AWS.
Escolha Criar compartilhamento de dados.
Para autorizar o consumidor de dados que você acabou de criar, acesse o Compartilhamentos de dados página no console do Amazon Redshift e escolha o novo datashare.
Selecione o consumidor de dados e escolha Autorizar.

O status do consumidor muda de Pending authorization para Authorized.

Acesse o compartilhamento de dados entre contas do Amazon Redshift na conta do consumidor da AWS

Agora que o compartilhamento de dados está configurado, mude para sua conta de consumidor da AWS para consumir o compartilhamento de dados. Certifique-se de ter pelo menos um cluster do Amazon Redshift criado em sua conta de consumidor. O cluster deve estar criptografado e na mesma região que a origem.

No console do Amazon Redshift, escolha Compartilhamentos de dados no painel de navegação.
No De outras contas guia, selecione o compartilhamento de dados que você criou e escolha Jurídico.
Você pode associar o compartilhamento de dados a um ou mais clusters nessa conta ou associar o compartilhamento de dados à conta inteira para que os clusters atuais e futuros na conta do consumidor tenham acesso a esse compartilhamento.
Especifique os detalhes da sua conexão e escolha Contato.
Escolha Criar banco de dados do compartilhamento de dados e digite um nome para seu novo banco de dados.
Para testar o compartilhamento de dados, acesse o editor de consultas e execute consultas no novo banco de dados para garantir que todos os objetos estejam disponíveis como parte do compartilhamento de dados.

Analise e processe dados com o Data Wrangler

Agora você pode usar o Data Wrangler para acessar os dados entre contas criados como um compartilhamento de dados no Amazon Redshift.

Abra Estúdio Amazon SageMaker.
No Envie o menu, escolha Novo e Fluxo do Data Wrangler.
No importação guia, escolha Adicionar fonte de dados e Amazon RedShift.
Insira os detalhes de conexão do cluster do Amazon Redshift que você acabou de criar na conta do consumidor para o compartilhamento de dados.
Escolha Contato.
Use o Gerenciamento de acesso e identidade da AWS (IAM) que você usou para seu cluster do Amazon Redshift.

Observe que, embora o compartilhamento de dados seja um novo banco de dados no cluster do Amazon Redshift, você não pode se conectar a ele diretamente do Data Wrangler.

A maneira correta é conectar-se primeiro ao banco de dados de cluster padrão e, em seguida, usar o SQL para consultar o banco de dados de compartilhamento de dados. Forneça as informações necessárias para conectar-se ao banco de dados de cluster padrão. Observe que um Serviço de gerenciamento de chaves AWS (AWS KMS) não é necessário para se conectar.

O Data Wrangler agora está conectado à instância do Amazon Redshift.

Consulte os dados no banco de dados de compartilhamento de dados do Amazon Redshift usando um editor SQL.
Escolha importação para importar o conjunto de dados para o Data Wrangler.
Insira um nome para o conjunto de dados e escolha Adicionar.

Agora você pode ver o fluxo no Fluxo de dados guia do Data Wrangler.

Depois de carregar os dados no Data Wrangler, você pode fazer uma análise exploratória de dados e preparar os dados para ML.

Escolha o sinal de mais e escolha Adicionar análise.

O Data Wrangler fornece análises integradas. Isso inclui, entre outros, um relatório de insights e qualidade de dados, correlação de dados, um relatório de viés de pré-treinamento, um resumo do seu conjunto de dados e visualizações (como histogramas e gráficos de dispersão). Você também pode criar sua própria visualização personalizada.

Você pode usar o Relatório de qualidade de dados e insights para gerar visualizações e análises automaticamente para identificar problemas de qualidade de dados e recomendar a transformação certa necessária para seu conjunto de dados.

Escolha Relatório de insights e qualidade de dadose escolha o Coluna de destino as y.
Porque esta é uma declaração de problema de classificação, por Tipo de problema, selecione Classificação.
Escolha Crie.

O Data Wrangler cria um relatório detalhado sobre seu conjunto de dados. Você também pode baixar o relatório para sua máquina local.

Para preparação de dados, escolha o sinal de mais e escolha Adicionar análise.
Escolha Adicionar etapa para começar a construir suas transformações.

No momento da redação deste artigo, o Data Wrangler fornece mais de 300 transformações integradas. Você também pode escrever suas próprias transformações usando Pandas ou PySpark.

Agora você pode começar a criar suas transformações e análises com base em seus requisitos de negócios.

Conclusão

Nesta postagem, exploramos o compartilhamento de dados entre contas usando compartilhamentos de dados do Amazon Redshift sem precisar fazer download e upload de dados manualmente. Explicamos como acessar os dados compartilhados usando o Data Wrangler e preparar os dados para seus casos de uso de ML. Esse recurso sem código/com pouco código dos compartilhamentos de dados do Amazon Redshift e do Data Wrangler acelera a preparação de dados de treinamento e aumenta a agilidade de engenheiros de dados e cientistas de dados com uma preparação de dados iterativa mais rápida.

Para saber mais sobre o Amazon Redshift e o SageMaker, consulte o Guia do desenvolvedor de banco de dados do Amazon Redshift e Documentação do Amazon SageMaker.

Sobre os autores

Importe dados do Amazon Redshift entre contas no Amazon SageMaker Data Wrangler para análise exploratória de dados e preparação de dados PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai. Meenakshisundaram Thandavarayan é especialista sênior em IA/ML da AWS. Ele ajuda contas estratégicas de alta tecnologia em sua jornada de IA e ML. Ele é muito apaixonado por IA orientada a dados.

James Wu é arquiteto de soluções especialista em IA/ML sênior na AWS. ajudando os clientes a projetar e criar soluções de IA/ML. O trabalho de James abrange uma ampla variedade de casos de uso de ML, com interesse principal em visão computacional, aprendizado profundo e dimensionamento de ML em toda a empresa. Antes de ingressar na AWS, James foi arquiteto, desenvolvedor e líder de tecnologia por mais de 10 anos, incluindo 6 anos em engenharia e 4 anos nos setores de marketing e publicidade.

Carimbo de hora: 23 de Junho de 2022

Carimbo de hora: 1 Dezembro, 2022

Republicado por Platão

Obtenha mais controle de suas cargas de trabalho do Amazon SageMaker Data Wrangler com conjuntos de dados parametrizados e trabalhos agendados

Recomendação de energia e pesquisa usando um gráfico de conhecimento da IMDb – Parte 1

Aumente as transações de fraude usando dados sintéticos no Amazon SageMaker

Melhore a governança de seus modelos de machine learning com o Amazon SageMaker

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta