Organizațiile care se îndreaptă către o cultură bazată pe date îmbrățișează utilizarea datelor și a învățării automate (ML) în luarea deciziilor. Pentru a lua decizii bazate pe ML din date, aveți nevoie de datele dvs. disponibile, accesibile, curate și în formatul potrivit pentru a antrena modele ML. Organizațiile cu o arhitectură cu mai multe conturi doresc să evite situațiile în care trebuie să extragă date dintr-un cont și să le încarce în altul pentru activități de pregătire a datelor. Construirea și menținerea manuală a diferitelor joburi de extragere, transformare și încărcare (ETL) în diferite conturi adaugă complexitate și costuri și îngreunează menținerea celor mai bune practici de guvernanță, conformitate și securitate pentru a vă păstra datele în siguranță.
Amazon RedShift este un depozit de date cloud rapid, complet gestionat. Funcția de partajare a datelor pe mai multe conturi Amazon Redshift oferă o modalitate simplă și sigură de a partaja date proaspete, complete și coerente în depozitul dvs. de date Amazon Redshift cu orice număr de părți interesate din diferite conturi AWS. Amazon SageMaker Data Wrangler este o capacitate de Amazon SageMaker ceea ce face ca oamenii de știință și inginerii de date să pregătească mai rapid datele pentru aplicațiile ML folosind o interfață vizuală. Data Wrangler vă permite să explorați și să transformați datele pentru ML conectându-vă la Amazon Redshift datashare.
În această postare, vom parcurge configurarea unei integrări între conturi utilizând o partajare de date Amazon Redshift și pregătirea datelor folosind Data Wrangler.
Prezentare generală a soluțiilor
Începem cu două conturi AWS: un cont de producător cu depozitul de date Amazon Redshift și un cont de consumator pentru cazurile de utilizare SageMaker ML. Pentru această postare, folosim set de date bancare. Pentru a urma, descărcați setul de date pe mașina dvs. locală. Mai jos este o prezentare generală la nivel înalt a fluxului de lucru:
- Instanciați un cluster Amazon Redshift RA3 în contul de producător și încărcați setul de date.
- Creați o partajare de date Amazon Redshift în contul de producător și permiteți contului de consumator să acceseze datele.
- Accesați partajarea datelor Amazon Redshift în contul de consumator.
- Analizați și procesați datele cu Data Wrangler în contul de consumator și construiți-vă fluxurile de lucru de pregătire a datelor.
Fiți conștienți de Considerații pentru lucrul cu partajarea datelor Amazon Redshift:
- Mai multe conturi AWS – Aveți nevoie de cel puțin două conturi AWS: un cont de producător și un cont de consumator.
- Tipul clusterului – Partajarea datelor este acceptată în tipul de cluster RA3. Când instanțiați un cluster Amazon Redshift, asigurați-vă că alegeți tipul de cluster RA3.
- Criptare – Pentru ca partajarea datelor să funcționeze, atât clusterele de producători, cât și de consumatori trebuie să fie criptate și ar trebui să fie în aceeași regiune AWS.
- Regiuni – Partajarea datelor între conturi este disponibilă pentru toate Amazon Redshift Tipuri de noduri RA3 în SUA de Est (N. Virginia), SUA de Est (Ohio), SUA de Vest (N. California), SUA de Vest (Oregon), Asia Pacific (Mumbai), Asia Pacific (Seul), Asia Pacific (Singapor), Asia Pacific ( Sydney), Asia Pacific (Tokyo), Canada (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londra), Europa (Paris), Europa (Stockholm) și America de Sud (São Paulo).
- Tarif – Partajarea datelor pe mai multe conturi este disponibilă în grupurile care se află în aceeași regiune. Nu există niciun cost pentru partajarea datelor. Plătiți doar pentru clusterele Amazon Redshift care participă la partajare.
Partajarea datelor între conturi este un proces în doi pași. În primul rând, un administrator de cluster de producător creează o partajare de date, adaugă obiecte și oferă acces la contul de consumator. Apoi, administratorul contului de producător autorizează partajarea datelor pentru consumatorul specificat. Puteți face acest lucru din consola Amazon Redshift.
Creați o partajare de date Amazon Redshift în contul de producător
Pentru a crea partajarea datelor, parcurgeți următorii pași:
- Pe consola Amazon Redshift, creați un cluster Amazon Redshift.
- Specifica producere și alegeți tipul de nod RA3.
- În Configurații suplimentare, deselectați Utilizați valorile implicite.
- În Configurații baze de date, configurați criptarea pentru clusterul dvs.
- După ce creați clusterul, importați setul de date bancar de marketing direct. Puteți descărca de la următoarea adresă URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Încărcați
bank-additional-full.csv
la un Serviciul Amazon de stocare simplă (Amazon S3) compartiment la care are acces cluster-ul dvs. - Utilizați editorul de interogări Amazon Redshift și rulați următoarea interogare SQL pentru a copia datele în Amazon Redshift:
- Navigați la pagina cu detaliile clusterului și pe Partajări de date fila, alegeți Creați partajarea datelor.
- Pentru Nume de partajare a datelor, introduceți un nume.
- Pentru Numele bazei de date, alegeți o bază de date.
- În Adăugați obiecte de partajare a datelor secțiunea, alegeți obiectele din baza de date pe care doriți să le includeți în partajarea datelor.
Aveți un control granular asupra a ceea ce alegeți să împărtășiți altora. Pentru simplitate, împărtășim toate tabelele. În practică, puteți alege unul sau mai multe tabele, vizualizări sau funcții definite de utilizator. - Alege Adăuga.
- Pentru a adăuga consumatori de date, selectați Adăugați conturi AWS la partajarea datelor și adăugați ID-ul contului dvs. secundar AWS.
- Alege Creați partajarea datelor.
- Pentru a autoriza consumatorul de date pe care tocmai l-ați creat, accesați Partajări de date pagina de pe consola Amazon Redshift și alegeți noul partajare de date.
- Selectați consumatorul de date și alegeți Autoriza.
Statutul de consumator se schimbă de la Pending authorization
la Authorized
.
Accesați distribuirea de date pe mai multe conturi Amazon Redshift în contul AWS pentru consumatori
Acum că partajarea datelor este configurată, treceți la contul dvs. AWS de consumator pentru a consuma partajarea datelor. Asigurați-vă că aveți cel puțin un cluster Amazon Redshift creat în contul dvs. de consumator. Clusterul trebuie să fie criptat și în aceeași regiune cu sursa.
- Pe consola Amazon Redshift, alegeți Partajări de date în panoul de navigare.
- Pe Din alte conturi fila, selectați partajarea de date pe care ați creat-o și alegeți Avocat Colaborator .
- Puteți asocia partajarea datelor cu unul sau mai multe clustere din acest cont sau puteți asocia partajarea datelor întregului cont, astfel încât clusterele actuale și viitoare din contul de consumator să aibă acces la această partajare.
- Specificați detaliile conexiunii și alegeți Conectați.
- Alege Creați o bază de date din partajarea datelor și introduceți un nume pentru noua dvs. bază de date.
- Pentru a testa partajarea datelor, accesați editorul de interogări și executați interogări în noua bază de date pentru a vă asigura că toate obiectele sunt disponibile ca parte a partajării datelor.
Analizați și procesați datele cu Data Wrangler
Acum puteți utiliza Data Wrangler pentru a accesa datele între conturi create ca partajare de date în Amazon Redshift.
- Operatii Deschise Amazon SageMaker Studio.
- Pe Fișier meniu, alegeți Nou și Fluxul de date Wrangler.
- Pe Import fila, alegeți Adăugați o sursă de date și Amazon RedShift.
- Introduceți detaliile de conectare ale clusterului Amazon Redshift pe care tocmai l-ați creat în contul de consumator pentru partajarea datelor.
- Alege Conectați.
- Folosește Gestionarea identității și accesului AWS (IAM) pe care l-ați folosit pentru clusterul dvs. Amazon Redshift.
Rețineți că, deși partajarea datelor este o nouă bază de date în clusterul Amazon Redshift, nu vă puteți conecta direct la acesta din Data Wrangler.
Modul corect este să vă conectați mai întâi la baza de date implicită a clusterului, apoi să utilizați SQL pentru a interoga baza de date de partajare a datelor. Furnizați informațiile necesare pentru conectarea la baza de date implicită a clusterului. Rețineți că an AWS Service Management Service ID-ul cheii (AWS KMS) nu este necesar pentru a vă conecta.
Data Wrangler este acum conectat la instanța Amazon Redshift.
- Interogați datele din baza de date de partajare a datelor Amazon Redshift utilizând un editor SQL.
- Alege Import pentru a importa setul de date în Data Wrangler.
- Introduceți un nume pentru setul de date și alegeți Adăuga.
Acum puteți vedea fluxul pe Flux de date fila Data Wrangler.
După ce ați încărcat datele în Data Wrangler, puteți face o analiză exploratorie a datelor și puteți pregăti datele pentru ML.
- Alegeți semnul plus și alegeți Adăugați analiza.
Data Wrangler oferă analize încorporate. Acestea includ, dar nu se limitează la, un raport privind calitatea datelor și informații, corelarea datelor, un raport de părtinire înainte de antrenament, un rezumat al setului dvs. de date și vizualizări (cum ar fi histogramele și diagramele de dispersie). De asemenea, vă puteți crea propria vizualizare personalizată.
Puteți utiliza Raportul privind calitatea datelor și statistici pentru a genera automat vizualizări și analize pentru a identifica problemele legate de calitatea datelor și pentru a recomanda transformarea potrivită necesară pentru setul dvs. de date.
- Alege Raport privind calitatea datelor și perspective, și alegeți Coloana țintă as y.
- Pentru că aceasta este o declarație de problemă de clasificare, pentru Tipul problemei, Selectați Clasificare.
- Alege Crea.
Data Wrangler creează un raport detaliat despre setul dvs. de date. De asemenea, puteți descărca raportul pe computerul dvs. local.
- Pentru pregătirea datelor, alegeți semnul plus și alegeți Adăugați analiza.
- Alege Adăugați pasul pentru a începe să vă construiți transformările.
La momentul scrierii acestui articol, Data Wrangler oferă peste 300 de transformări încorporate. De asemenea, puteți scrie propriile transformări folosind Pandas sau PySpark.
Acum puteți începe să vă construiți transformările și analiza pe baza cerințelor dvs. de afaceri.
Concluzie
În această postare, am explorat partajarea datelor între conturi utilizând partajarea datelor Amazon Redshift fără a fi nevoie să descărcați și să încărcați manual date. Am explicat cum să accesăm datele partajate folosind Data Wrangler și să pregătim datele pentru cazurile dvs. de utilizare ML. Această capacitate fără cod/low-code a Amazon Redshift datashares și Data Wrangler accelerează pregătirea datelor de antrenament și crește agilitatea inginerilor de date și a cercetătorilor de date cu o pregătire iterativă mai rapidă a datelor.
Pentru a afla mai multe despre Amazon Redshift și SageMaker, consultați Ghidul dezvoltatorului bazei de date Amazon Redshift și Documentația Amazon SageMaker.
Despre Autori
Meenakshisundaram Thandavarayan este un specialist senior AI/ML cu AWS. El ajută conturile strategice de înaltă tehnologie în călătoria lor AI și ML. Este foarte pasionat de IA bazată pe date.
James Wu este arhitect senior de soluții de specialitate AI/ML la AWS. ajutând clienții să proiecteze și să construiască soluții AI/ML. Munca lui James acoperă o gamă largă de cazuri de utilizare ML, cu un interes principal în viziunea computerizată, învățarea profundă și scalarea ML în întreaga întreprindere. Înainte de a se alătura AWS, James a fost arhitect, dezvoltator și lider tehnologic timp de peste 10 ani, inclusiv 6 ani în inginerie și 4 ani în industriile de marketing și publicitate.
- Coinsmart. Cel mai bun schimb de Bitcoin și Crypto din Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. ACCES LIBER.
- CryptoHawk. Radar Altcoin. Încercare gratuită.
- Sursa: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- și-pregătirea-date/
- "
- &
- 10
- 100
- 11
- 7
- a
- Despre Noi
- acces
- accesibil
- Cont
- peste
- activităţi de
- Promovare
- împotriva
- AI
- TOATE
- permite
- Amazon
- America
- analiză
- O alta
- aplicatii
- arhitectură
- Asia
- Asia Pacific
- Avocat Colaborator
- în mod automat
- disponibil
- AWS
- Bancă
- CEL MAI BUN
- Cele mai bune practici
- frontieră
- construi
- Clădire
- construit-in
- afaceri
- California
- Campanie
- Canada
- cazuri
- central
- Alege
- clasificare
- Cloud
- Completă
- conformitate
- calculator
- Conectați
- legat
- Conectarea
- conexiune
- consistent
- Consoleze
- consuma
- consumator
- Consumatorii
- contactați-ne
- Control
- crea
- a creat
- creează
- scrisori de acreditare
- Cultură
- Curent
- personalizat
- clienţii care
- de date
- analiza datelor
- schimbul de date
- Baza de date
- Deciziile
- adânc
- Amenajări
- detaliat
- detalii
- Dezvoltator
- diferit
- dificil
- direcționa
- direct
- Descarca
- editor
- Educaţie
- îmbrăţişare
- criptare
- Inginerie
- inginerii
- Intrați
- Afacere
- Europa
- explora
- FAST
- mai repede
- Caracteristică
- First
- debit
- urma
- următor
- format
- proaspăt
- din
- funcții
- viitor
- genera
- guvernare
- având în
- ajutor
- ajută
- carcasă
- Cum
- Cum Pentru a
- HTTPS
- identifica
- Identitate
- include
- Inclusiv
- industrii
- informații
- perspective
- instanță
- integrare
- interes
- interfaţă
- Irlanda
- probleme de
- IT
- Loc de munca
- Locuri de munca
- aderarea
- călătorie
- A pastra
- Cheie
- lider
- AFLAȚI
- învăţare
- Limitat
- încărca
- local
- locaţie
- Londra
- maşină
- masina de învățare
- menține
- face
- FACE
- gestionate
- administrare
- manual
- Marketing
- ar putea
- ML
- Modele
- Lună
- mai mult
- în mişcare
- Mumbai
- Navigare
- număr
- Ohio
- comandă
- Oregon
- organizații
- Altele
- propriu
- Pacific
- Paris
- parte
- participa
- pasionat
- Plătește
- practică
- Pregăti
- precedent
- primar
- Problemă
- proces
- producător
- furniza
- furnizează
- calitate
- gamă
- recomanda
- regiune
- raportează
- necesar
- Rol
- Alerga
- sigur
- acelaşi
- scalare
- oamenii de stiinta
- secundar
- sigur
- securitate
- Seul
- set
- instalare
- Distribuie
- comun
- partajarea
- semna
- simplu
- Singapore
- So
- solid
- soluţie
- soluţii
- Sud
- specialist
- Începe
- Declarație
- Stare
- depozitare
- Strategic
- Suportat
- Intrerupator
- sydney
- Tehnologia
- test
- Sursa
- Prin
- timp
- Tokyo
- față de
- Pregătire
- Transforma
- Transformare
- transformări
- us
- utilizare
- Virginia
- viziune
- vizualizare
- Vest
- Ce
- fără
- Apartamente
- fluxuri de lucru
- de lucru
- scris
- ani
- Ta