Importer data fra Amazon Redshift på tvers av kontoer i Amazon SageMaker Data Wrangler for utforskende dataanalyse og dataforberedelse

Publisert av Platon

Følgere: 0

Organisasjoner som beveger seg mot en datadrevet kultur omfavner bruken av data og maskinlæring (ML) i beslutningstaking. For å ta ML-baserte beslutninger fra data, trenger du dataene dine tilgjengelige, tilgjengelige, rene og i riktig format for å trene ML-modeller. Organisasjoner med en flerkontoarkitektur ønsker å unngå situasjoner der de må trekke ut data fra én konto og laste den inn i en annen for dataforberedende aktiviteter. Å bygge og vedlikeholde de forskjellige uttrekk, transformere og laste (ETL) jobbene i forskjellige kontoer manuelt øker kompleksiteten og kostnadene, og gjør det vanskeligere å opprettholde de beste praksisene for styring, samsvar og sikkerhet for å holde dataene dine trygge.

Amazon RedShift er et raskt, fullt administrert skydatavarehus. Amazon Redshift-funksjonen for datadeling på tvers av kontoer gir en enkel og sikker måte å dele ferske, komplette og konsistente data i ditt Amazon Redshift-datavarehus med et hvilket som helst antall interessenter i forskjellige AWS-kontoer. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker som gjør det raskere for dataforskere og ingeniører å forberede data for ML-applikasjoner ved å bruke et visuelt grensesnitt. Data Wrangler lar deg utforske og transformere data for ML ved å koble til Amazon Redshift-datadelinger.

I dette innlegget går vi gjennom å sette opp en integrasjon på tvers av kontoer ved å bruke en Amazon Redshift-datadeling og forberede data ved hjelp av Data Wrangler.

Løsningsoversikt

Vi starter med to AWS-kontoer: en produsentkonto hos Amazon Redshift-datavarehuset, og en forbrukerkonto for SageMaker ML-brukstilfeller. For dette innlegget bruker vi bankdatasett. For å følge med, last ned datasettet til din lokale maskin. Følgende er en oversikt over arbeidsflyten på høyt nivå:

Instantier en Amazon Redshift RA3-klynge i produsentkontoen og last inn datasettet.
Opprett en Amazon Redshift-datadeling i produsentkontoen og la forbrukerkontoen få tilgang til dataene.
Få tilgang til Amazon Redshift-datadelingen i forbrukerkontoen.
Analyser og bearbeid data med Data Wrangler i forbrukerkontoen og bygg arbeidsflytene dine for dataforberedelse.

Vær oppmerksom på betraktninger for å jobbe med Amazon Redshift-datadeling:

Flere AWS-kontoer – Du trenger minst to AWS-kontoer: en produsentkonto og en forbrukerkonto.
Klyngetype – Datadeling støttes i RA3-klyngetypen. Når du instansierer en Amazon Redshift-klynge, sørg for å velge RA3-klyngetypen.
kryptering – For at datadeling skal fungere, må både produsent- og forbrukerklyngene være kryptert og bør være i samme AWS-region.
regioner – Datadeling på tvers av kontoer er tilgjengelig for alle Amazon Redshift RA3 nodetyper i US East (N. Virginia), US East (Ohio), US West (N. California), US West (Oregon), Asia Pacific (Mumbai), Asia Pacific (Seoul), Asia Pacific (Singapore), Asia Pacific ( Sydney), Asia Pacific (Tokyo), Canada (Sentral), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Europa (Stockholm) og Sør-Amerika (São Paulo).
Priser – Datadeling på tvers av kontoer er tilgjengelig på tvers av klynger som er i samme region. Det koster ingenting å dele data. Du betaler bare for Amazon Redshift-klyngene som deltar i deling.

Datadeling på tvers av kontoer er en to-trinns prosess. Først oppretter en produsentklyngeadministrator en datadeling, legger til objekter og gir tilgang til forbrukerkontoen. Deretter autoriserer produsentkontoadministratoren deling av data for den angitte forbrukeren. Du kan gjøre dette fra Amazon Redshift-konsollen.

Opprett en Amazon Redshift-datadeling i produsentkontoen

For å opprette datadelingen din, fullfør følgende trinn:

På Amazon Redshift-konsollen oppretter du en Amazon Redshift-klynge.
Spesifiser Produksjon og velg RA3-nodetypen.
Under Ytterligere konfigurasjoner, fjern merket Bruk standardinnstillinger.
Under Databasekonfigurasjoner, sett opp kryptering for klyngen din.
Etter at du har opprettet klyngen, importerer du direktemarkedsføringsbankdatasettet. Du kan laste ned fra følgende URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Last opp bank-additional-full.csv til en Amazon enkel lagringstjeneste (Amazon S3) bøtte klyngen din har tilgang til.

Bruk Amazon Redshift-spørringsredigering og kjør følgende SQL-spørring for å kopiere dataene til Amazon Redshift:

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Naviger til klyngedetaljsiden og på Datadelinger kategorien, velg Opprett datadeling.
Til Navn på datadeling, skriv inn et navn.
Til Databasens navn, velg en database.
på Legg til datadelingsobjekter velger du objektene fra databasen du vil inkludere i datadelingen.
Du har detaljert kontroll over hva du velger å dele med andre. For enkelhets skyld deler vi alle bordene. I praksis kan du velge én eller flere tabeller, visninger eller brukerdefinerte funksjoner.
Velg Legg til.
For å legge til dataforbrukere, velg Legg til AWS-kontoer i datadelingen og legg til din sekundære AWS-konto-ID.
Velg Opprett datadeling.
For å autorisere dataforbrukeren du nettopp opprettet, gå til Datadelinger siden på Amazon Redshift-konsollen og velg den nye datadelingen.
Velg dataforbrukeren og velg Autorisere.

Forbrukerstatusen endres fra Pending authorization til Authorized.

Få tilgang til Amazon Redshift-datadeling på tvers av kontoer i forbruker-AWS-kontoen

Nå som datadelingen er satt opp, bytt til forbruker-AWS-kontoen din for å konsumere datadelingen. Sørg for at du har opprettet minst én Amazon Redshift-klynge på forbrukerkontoen din. Klyngen må være kryptert og i samme region som kilden.

På Amazon Redshift-konsollen velger du Datadelinger i navigasjonsruten.
På Fra andre kontoer fanen, velg datadelingen du opprettet og velg Førsteamanuensis.
Du kan knytte datadelingen til en eller flere klynger i denne kontoen eller knytte datadelingen til hele kontoen slik at nåværende og fremtidige klynger i forbrukerkontoen får tilgang til denne andelen.
Angi tilkoblingsdetaljene dine og velg Koble.
Velg Opprett database fra datashare og skriv inn et navn for den nye databasen.
For å teste datadelingen, gå til spørringsredigering og kjør spørringer mot den nye databasen for å sikre at alle objektene er tilgjengelige som en del av datadelingen.

Analyser og behandle data med Data Wrangler

Du kan nå bruke Data Wrangler for å få tilgang til data på tvers av kontoer som er opprettet som en datadeling i Amazon Redshift.

Åpen Amazon SageMaker Studio.
På filet meny, velg Ny og Data Wrangler Flow.
På Import kategorien, velg Legg til datakilde og Amazon RedShift.
Skriv inn tilkoblingsdetaljene til Amazon Redshift-klyngen du nettopp opprettet i forbrukerkontoen for datadelingen.
Velg Koble.
Bruke AWS identitets- og tilgangsadministrasjon (IAM)-rollen du brukte for Amazon Redshift-klyngen.

Merk at selv om datadelingen er en ny database i Amazon Redshift-klyngen, kan du ikke koble til den direkte fra Data Wrangler.

Den riktige måten er å koble til standard klyngedatabase først, og deretter bruke SQL til å spørre datadelingsdatabasen. Oppgi nødvendig informasjon for å koble til standard klyngedatabase. Merk at en AWS nøkkelstyringstjeneste (AWS KMS) nøkkel-ID er ikke nødvendig for å koble til.

Data Wrangler er nå koblet til Amazon Redshift-forekomsten.

Spør etter dataene i Amazon Redshift datashare-databasen ved hjelp av en SQL-editor.
Velg Import for å importere datasettet til Data Wrangler.
Skriv inn et navn for datasettet og velg Legg til.

Du kan nå se flyten på Dataflyt fanen til Data Wrangler.

Etter at du har lastet inn dataene i Data Wrangler, kan du gjøre utforskende dataanalyse og forberede data for ML.

Velg plusstegnet og velg Legg til analyse.

Data Wrangler gir innebygde analyser. Disse inkluderer, men er ikke begrenset til, en datakvalitets- og innsiktsrapport, datakorrelasjon, en pre-training bias-rapport, et sammendrag av datasettet og visualiseringer (som histogrammer og spredningsplott). Du kan også lage din egen tilpassede visualisering.

Du kan bruke datakvalitets- og innsiktsrapporten til automatisk å generere visualiseringer og analyser for å identifisere datakvalitetsproblemer, og anbefale den riktige transformasjonen som kreves for datasettet ditt.

Velg Rapport om datakvalitet og innsikt, og velg Målkolonne as y.
Fordi dette er en klassifiseringsproblemstilling, for Problemtype, plukke ut Klassifisering.
Velg Opprett.

Data Wrangler lager en detaljert rapport på datasettet ditt. Du kan også laste ned rapporten til din lokale maskin.

For dataforberedelse, velg plusstegnet og velg Legg til analyse.
Velg Legg til trinn å begynne å bygge dine transformasjoner.

Når dette skrives, tilbyr Data Wrangler over 300 innebygde transformasjoner. Du kan også skrive dine egne transformasjoner ved å bruke Pandas eller PySpark.

Du kan nå begynne å bygge dine transformasjoner og analyser basert på forretningsbehovet ditt.

konklusjonen

I dette innlegget utforsket vi deling av data på tvers av kontoer ved å bruke Amazon Redshift-datadeling uten å måtte laste ned og laste opp data manuelt. Vi gikk gjennom hvordan du får tilgang til de delte dataene ved hjelp av Data Wrangler og forbereder dataene for dine ML-brukstilfeller. Denne funksjonen uten kode/lav kode til Amazon Redshift-datadeling og Data Wrangler akselererer forberedelse av treningsdata og øker smidigheten til dataingeniører og dataforskere med raskere iterativ dataforberedelse.

For å lære mer om Amazon Redshift og SageMaker, se Amazon Redshift Database utviklerveiledning og Amazon SageMaker-dokumentasjon.

Om forfatterne

Importer data fra Amazon Redshift på tvers av kontoer i Amazon SageMaker Data Wrangler for utforskende dataanalyse og dataforberedelse PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med AWS. Han hjelper høyteknologiske strategiske kontoer på deres AI- og ML-reise. Han er veldig lidenskapelig opptatt av datadrevet AI.

James Wu er senior AI/ML spesialistløsningsarkitekt hos AWS. hjelpe kunder med å designe og bygge AI/ML-løsninger. James sitt arbeid dekker et bredt spekter av ML-brukstilfeller, med en primær interesse for datasyn, dyp læring og skalering av ML på tvers av bedriften. Før han begynte i AWS, var James arkitekt, utvikler og teknologileder i over 10 år, inkludert 6 år innen ingeniørfag og 4 år i markedsførings- og reklamebransjen.

Tidstempel: Juni 23, 2022

Tidstempel: Desember 1, 2022

Publisert av Platon

Få mer kontroll over dine Amazon SageMaker Data Wrangler-arbeidsmengder med parameteriserte datasett og planlagte jobber

Kraftanbefaling og søk ved hjelp av en IMDb-kunnskapsgraf – Del 1

Øk svindeltransaksjoner ved å bruke syntetiske data i Amazon SageMaker

Forbedre styringen av maskinlæringsmodellene dine med Amazon SageMaker

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn