Importa dati da Amazon Redshift su più account in Amazon SageMaker Data Wrangler per l'analisi esplorativa dei dati e la preparazione dei dati

Ripubblicato da Platone

Seguaci: 0

Le organizzazioni che si stanno muovendo verso una cultura basata sui dati abbracciano l'uso dei dati e dell'apprendimento automatico (ML) nel processo decisionale. Per prendere decisioni basate sul ML dai dati, hai bisogno che i tuoi dati siano disponibili, accessibili, puliti e nel formato giusto per addestrare i modelli ML. Le organizzazioni con un'architettura multi-account vogliono evitare situazioni in cui devono estrarre i dati da un account e caricarli in un altro per le attività di preparazione dei dati. La creazione e la gestione manuale dei diversi processi di estrazione, trasformazione e caricamento (ETL) in account diversi aggiunge complessità e costi e rende più difficile mantenere le best practice di governance, conformità e sicurezza per mantenere i dati al sicuro.

Amazon RedShift è un data warehouse cloud veloce e completamente gestito. La funzione di condivisione dei dati su più account di Amazon Redshift offre un modo semplice e sicuro per condividere dati aggiornati, completi e coerenti nel tuo data warehouse di Amazon Redshift con un numero qualsiasi di parti interessate in diversi account AWS. Gestore di dati di Amazon SageMaker è una capacità di Amazon Sage Maker ciò rende più veloce per data scientist e ingegneri preparare i dati per le applicazioni ML utilizzando un'interfaccia visiva. Data Wrangler ti consente di esplorare e trasformare i dati per il ML connettendoti alle condivisioni di dati Amazon Redshift.

In questo post, esamineremo la configurazione di un'integrazione tra account utilizzando una condivisione dati Amazon Redshift e la preparazione dei dati utilizzando Data Wrangler.

Panoramica della soluzione

Iniziamo con due account AWS: un account produttore con il data warehouse di Amazon Redshift e un account consumatore per i casi d'uso di SageMaker ML. Per questo post, utilizziamo il set di dati bancari. Per seguire, scarica il set di dati sul tuo computer locale. Quella che segue è una panoramica di alto livello del flusso di lavoro:

Crea un'istanza di un cluster Amazon Redshift RA3 nell'account produttore e carica il set di dati.
Crea una condivisione dati Amazon Redshift nell'account produttore e consenti all'account consumatore di accedere ai dati.
Accedi alla condivisione dati Amazon Redshift nell'account consumer.
Analizza ed elabora i dati con Data Wrangler nell'account del consumatore e crea i tuoi flussi di lavoro di preparazione dei dati.

Sii consapevole del Considerazioni per lavorare con la condivisione dei dati di Amazon Redshift:

Account AWS multipli – Sono necessari almeno due account AWS: un account produttore e un account consumatore.
Tipo di grappolo – La condivisione dei dati è supportata nel tipo di cluster RA3. Quando crei un'istanza di un cluster Amazon Redshift, assicurati di scegliere il tipo di cluster RA3.
crittografia – Affinché la condivisione dei dati funzioni, entrambi i cluster produttore e consumatore devono essere crittografati e devono trovarsi nella stessa regione AWS.
Regioni – La condivisione dei dati tra account è disponibile per tutti Amazon Redshift Tipi di nodi RA3 negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Mumbai), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico ( Sydney), Asia Pacifico (Tokyo), Canada (centro), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Europa (Stoccolma) e Sud America (San Paolo).
Prezzi – La condivisione dei dati tra account è disponibile tra i cluster che si trovano nella stessa regione. Non ci sono costi per condividere i dati. Paghi solo per i cluster Amazon Redshift che partecipano alla condivisione.

La condivisione dei dati tra account è un processo in due fasi. Innanzitutto, un amministratore del cluster producer crea una condivisione dati, aggiunge oggetti e fornisce l'accesso all'account consumer. Quindi l'amministratore dell'account produttore autorizza la condivisione dei dati per il consumatore specificato. Puoi farlo dalla console Amazon Redshift.

Crea una condivisione dati Amazon Redshift nell'account produttore

Per creare la tua condivisione dati, completa i seguenti passaggi:

Sulla console Amazon Redshift, crea un cluster Amazon Redshift.
Specificare Produzione e scegli il tipo di nodo RA3.
Sotto Ulteriori configurazioni, deseleziona Usa le impostazioni predefinite.
Sotto Configurazioni database, imposta la crittografia per il tuo cluster.
Dopo aver creato il cluster, importa il set di dati della banca di marketing diretto. È possibile scaricare dal seguente URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Caricare bank-additional-full.csv a un Servizio di archiviazione semplice Amazon (Amazon S3) a cui ha accesso il tuo cluster.

Utilizza l'editor di query Amazon Redshift ed esegui la seguente query SQL per copiare i dati in Amazon Redshift:

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Passare alla pagina dei dettagli del cluster e alla pagina Condivisioni dati scheda, scegliere Crea condivisione dati.
Nel Nome condivisione dati, inserisci un nome.
Nel Nome del database, scegli un database.
Nel Aggiungi oggetti di condivisione dati sezione, scegli gli oggetti dal database che desideri includere nella condivisione dati.
Hai un controllo granulare su ciò che scegli di condividere con gli altri. Per semplicità, condividiamo tutte le tabelle. In pratica, puoi scegliere una o più tabelle, viste o funzioni definite dall'utente.
Scegli Aggiungi.
Per aggiungere consumatori di dati, seleziona Aggiungi account AWS alla condivisione dati e aggiungi il tuo ID account AWS secondario.
Scegli Crea condivisione dati.
Per autorizzare il consumatore di dati che hai appena creato, vai su Condivisioni dati pagina sulla console Amazon Redshift e scegli la nuova condivisione dati.
Seleziona il consumatore di dati e scegli Autorizzare.

Lo stato di consumatore cambia da Pending authorization a Authorized.

Accedi alla condivisione dati tra account Amazon Redshift nell'account AWS consumer

Ora che la condivisione dati è configurata, passa al tuo account AWS consumer per utilizzare la condivisione dati. Assicurati di avere almeno un cluster Amazon Redshift creato nel tuo account consumatore. Il cluster deve essere crittografato e nella stessa regione dell'origine.

Sulla console Amazon Redshift, scegli Condivisioni dati nel pannello di navigazione.
Sulla Da altri account scheda, seleziona la condivisione dati che hai creato e scegli Associate.
È possibile associare la condivisione dati a uno o più cluster in questo account o associare la condivisione dati all'intero account in modo che i cluster attuali e futuri nell'account consumer ottengano l'accesso a questa condivisione.
Specifica i dettagli della tua connessione e scegli Connettiti.
Scegli Crea database da condivisione dati e inserisci un nome per il tuo nuovo database.
Per testare la condivisione dati, vai all'editor di query ed esegui query sul nuovo database per assicurarti che tutti gli oggetti siano disponibili come parte della condivisione dati.

Analizza ed elabora i dati con Data Wrangler

Ora puoi utilizzare Data Wrangler per accedere ai dati tra account creati come condivisione dati in Amazon Redshift.

Apri Amazon Sage Maker Studio.
Sulla Compila il menù, scegliere New ed Flusso di gestione dei dati.
Sulla Importare scheda, scegliere Aggiungi origine dati ed Amazon RedShift.
Inserisci i dettagli di connessione del cluster Amazon Redshift appena creato nell'account consumer per la condivisione dati.
Scegli Connettiti.
Usa il Gestione dell'identità e dell'accesso di AWS (IAM) che hai utilizzato per il tuo cluster Amazon Redshift.

Tieni presente che anche se la condivisione dati è un nuovo database nel cluster Amazon Redshift, non puoi connetterti direttamente da Data Wrangler.

Il modo corretto consiste nel connettersi prima al database del cluster predefinito, quindi utilizzare SQL per interrogare il database della condivisione dati. Fornire le informazioni richieste per la connessione al database del cluster predefinito. Si noti che un Servizio di gestione delle chiavi AWS L'ID chiave (AWS KMS) non è richiesto per la connessione.

Data Wrangler è ora connesso all'istanza Amazon Redshift.

Esegui query sui dati nel database di condivisione dati Amazon Redshift utilizzando un editor SQL.
Scegli Importare per importare il set di dati in Data Wrangler.
Immettere un nome per il set di dati e scegliere Aggiungi.

Ora puoi vedere il flusso sul Flusso di dati scheda di Data Wrangler.

Dopo aver caricato i dati in Data Wrangler, puoi eseguire l'analisi dei dati esplorativa e preparare i dati per ML.

Scegli il segno più e scegli Aggiungi analisi.

Data Wrangler fornisce analisi integrate. Questi includono, a titolo esemplificativo ma non esaustivo, un rapporto sulla qualità dei dati e sugli approfondimenti, la correlazione dei dati, un rapporto sulla distorsione pre-allenamento, un riepilogo del set di dati e visualizzazioni (come istogrammi e grafici a dispersione). Puoi anche creare la tua visualizzazione personalizzata.

Puoi utilizzare il rapporto sulla qualità dei dati e gli approfondimenti per generare automaticamente visualizzazioni e analisi per identificare i problemi di qualità dei dati e consigliare la giusta trasformazione richiesta per il tuo set di dati.

Scegli Rapporto sulla qualità dei dati e sugli approfondimentie scegli il file Colonna di destinazione as y.
Perché questa è una dichiarazione di problemi di classificazione, per Tipo di problema, selezionare Classificazione.
Scegli Creare.

Data Wrangler crea un rapporto dettagliato sul tuo set di dati. Puoi anche scaricare il rapporto sul tuo computer locale.

Per la preparazione dei dati, scegli il segno più e scegli Aggiungi analisi.
Scegli Aggiungi passaggio per iniziare a costruire le tue trasformazioni.

Al momento della stesura di questo documento, Data Wrangler fornisce oltre 300 trasformazioni integrate. Puoi anche scrivere le tue trasformazioni usando Pandas o PySpark.

Ora puoi iniziare a creare le tue trasformazioni e analisi in base alle tue esigenze aziendali.

Conclusione

In questo post, abbiamo esplorato la condivisione dei dati tra gli account utilizzando le condivisioni dati Amazon Redshift senza dover scaricare e caricare manualmente i dati. Abbiamo illustrato come accedere ai dati condivisi utilizzando Data Wrangler e preparare i dati per i casi d'uso di ML. Questa funzionalità no-code/low-code delle condivisioni dati Amazon Redshift e del Data Wrangler accelera la preparazione dei dati di addestramento e aumenta l'agilità dei data engineer e dei data scientist con una preparazione iterativa dei dati più rapida.

Per ulteriori informazioni su Amazon Redshift e SageMaker, fare riferimento a Guida per gli sviluppatori di database Amazon Redshift ed Documentazione Amazon SageMaker.

Informazioni sugli autori

Importa dati da Amazon Redshift su più account in Amazon SageMaker Data Wrangler per l'analisi esplorativa dei dati e la preparazione dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Meenakshisundaram Tandavarayan è uno specialista senior di AI/ML con AWS. Aiuta gli account strategici hi-tech nel loro viaggio di AI e ML. È molto appassionato di IA basata sui dati.

Giacomo Wu è un Senior AI/ML Specialist Solution Architect presso AWS. aiutare i clienti a progettare e realizzare soluzioni AI/ML. Il lavoro di James copre un'ampia gamma di casi d'uso di ML, con un interesse primario per la visione artificiale, il deep learning e la scalabilità del ML in tutta l'azienda. Prima di entrare in AWS, James è stato architetto, sviluppatore e leader tecnologico per oltre 10 anni, di cui 6 in ingegneria e 4 anni nei settori del marketing e della pubblicità.