Import Data From Cross-account Amazon Redshift In Amazon SageMaker Data Wrangler For Exploratory Data Analysis And Data Preparation

Ponovno objavil Platon

Spremljevalci: 0

Organizacije, ki se premikajo proti kulturi, ki temelji na podatkih, sprejemajo uporabo podatkov in strojnega učenja (ML) pri odločanju. Če želite na podlagi podatkov sprejemati odločitve, ki temeljijo na ML, potrebujete podatke, ki so na voljo, dostopni, čisti in v pravem formatu za usposabljanje modelov ML. Organizacije z arhitekturo z več računi se želijo izogniti situacijam, ko morajo izvleči podatke iz enega računa in jih naložiti v drugega za dejavnosti priprave podatkov. Ročna izgradnja in vzdrževanje različnih opravil ekstrahiranja, preoblikovanja in nalaganja (ETL) v različnih računih poveča zapletenost in stroške ter oteži vzdrževanje najboljših praks upravljanja, skladnosti in varnosti, da bodo vaši podatki varni.

Amazon RedShift je hitro, popolnoma upravljano skladišče podatkov v oblaku. Funkcija skupne rabe podatkov med računi Amazon Redshift zagotavlja preprost in varen način za skupno rabo svežih, popolnih in doslednih podatkov v vašem podatkovnem skladišču Amazon Redshift s poljubnim številom deležnikov v različnih računih AWS. Amazon SageMaker Data Wrangler je zmožnost Amazon SageMaker ki podatkovnim znanstvenikom in inženirjem omogoča hitrejšo pripravo podatkov za aplikacije ML z uporabo vizualnega vmesnika. Data Wrangler vam omogoča raziskovanje in preoblikovanje podatkov za ML, tako da se povežete s skupnimi rabami podatkov Amazon Redshift.

V tej objavi se popeljemo skozi nastavitev integracije med računi z uporabo skupne rabe podatkov Amazon Redshift in pripravo podatkov z uporabo Data Wrangler.

Pregled rešitev

Začnemo z dvema računoma AWS: račun proizvajalca s podatkovnim skladiščem Amazon Redshift in račun potrošnika za primere uporabe SageMaker ML. Za to objavo uporabljamo nabor bančnih podatkov. Če želite slediti, prenesite nabor podatkov v svoj lokalni računalnik. Sledi pregled poteka dela na visoki ravni:

Instanciirajte gručo Amazon Redshift RA3 v računu proizvajalca in naložite nabor podatkov.
Ustvarite skupno rabo podatkov Amazon Redshift v računu proizvajalca in dovolite računu potrošnika dostop do podatkov.
Dostopajte do skupne rabe podatkov Amazon Redshift v računu potrošnika.
Analizirajte in obdelajte podatke s programom Data Wrangler v potrošniškem računu in zgradite potek dela za pripravo podatkov.

Zavedajte se premislekov za delo z izmenjavo podatkov Amazon Redshift:

Več računov AWS – Potrebujete vsaj dva računa AWS: račun proizvajalca in račun potrošnika.
Vrsta grozda – Skupna raba podatkov je podprta v vrsti gruče RA3. Pri instanciranju gruče Amazon Redshift se prepričajte, da ste izbrali vrsto gruče RA3.
šifriranje – Da skupna raba podatkov deluje, morata biti tako proizvajalski kot potrošniški grozd šifriran in morata biti v isti regiji AWS.
regije – Skupna raba podatkov med računi je na voljo za vse storitve Amazon Redshift Vrste vozlišč RA3 na vzhodu ZDA (N. Virginia), vzhodu ZDA (Ohio), zahodu ZDA (N. Kalifornija), zahodu ZDA (Oregon), azijsko-pacifiškem (Mumbai), azijsko-pacifiškem (Seul), azijsko-pacifiškem (Singapur), azijsko-pacifiškem ( Sydney), azijsko-pacifiška (Tokio), Kanada (osrednja), Evropa (Frankfurt), Evropa (Irska), Evropa (London), Evropa (Pariz), Evropa (Stockholm) in Južna Amerika (São Paulo).
Cenitev – Skupna raba podatkov med računi je na voljo v gručah, ki so v isti regiji. Deljenje podatkov ni stroškov. Plačate samo za gruče Amazon Redshift, ki sodelujejo pri skupni rabi.

Skupna raba podatkov med računi je postopek v dveh korakih. Najprej skrbnik gruče proizvajalcev ustvari skupno rabo podatkov, doda objekte in omogoči dostop do uporabniškega računa. Nato skrbnik računa proizvajalca dovoli skupno rabo podatkov za navedenega potrošnika. To lahko storite v konzoli Amazon Redshift.

Ustvarite skupno rabo podatkov Amazon Redshift v računu proizvajalca

Če želite ustvariti skupno rabo podatkov, izvedite naslednje korake:

Na konzoli Amazon Redshift ustvarite gručo Amazon Redshift.
Določite proizvodnja in izberite vrsto vozlišča RA3.
Pod Dodatne konfiguracije, prekliči izbiro Uporabi privzete nastavitve.
Pod Konfiguracije baze podatkov, nastavite šifriranje za vašo gručo.
Ko ustvarite gručo, uvozite nabor podatkov banke za neposredno trženje. Prenesete ga lahko s tega URL-ja: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Pošiljanje bank-additional-full.csv v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro, do katerega ima vaša gruča dostop.

Uporabite urejevalnik poizvedb Amazon Redshift in zaženite naslednjo poizvedbo SQL, da kopirate podatke v Amazon Redshift:

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Pomaknite se do strani s podrobnostmi o gruči in na Skupna raba podatkov izberite jeziček Ustvari skupno rabo podatkov.
za Ime podatkovne skupne rabe, vnesite ime.
za Ime baze podatkov, izberite zbirko podatkov.
v Dodajte objekte skupne rabe podatkov izberite objekte iz baze podatkov, ki jih želite vključiti v skupno rabo podatkov.
Imate natančen nadzor nad tem, kaj želite deliti z drugimi. Zaradi enostavnosti delimo vse tabele. V praksi lahko izberete eno ali več tabel, pogledov ali uporabniško definiranih funkcij.
Izberite Dodaj.
Če želite dodati porabnike podatkov, izberite Dodajte račune AWS v skupno rabo podatkov in dodajte svoj sekundarni ID računa AWS.
Izberite Ustvari skupno rabo podatkov.
Če želite pooblastiti porabnika podatkov, ki ste ga pravkar ustvarili, pojdite na Skupna raba podatkov strani na konzoli Amazon Redshift in izberite novo skupno rabo podatkov.
Izberite porabnika podatkov in izberite dovolijo.

Status potrošnika se spremeni od Pending authorization do Authorized.

Dostopajte do skupne rabe podatkov med računi Amazon Redshift v potrošniškem računu AWS

Zdaj, ko je skupna raba podatkov nastavljena, preklopite na svoj uporabniški račun AWS, da porabite skupno rabo podatkov. Prepričajte se, da imate v svojem potrošniškem računu ustvarjeno vsaj eno gručo Amazon Redshift. Gruča mora biti šifrirana in v isti regiji kot vir.

Na konzoli Amazon Redshift izberite Skupna raba podatkov v podoknu za krmarjenje.
o Iz drugih računov izberite skupno rabo podatkov, ki ste jo ustvarili, in izberite Sodelavec.
Skupno rabo podatkov lahko povežete z eno ali več gručami v tem računu ali pa skupno rabo podatkov povežete s celotnim računom, tako da bodo trenutne in prihodnje gruče v računu potrošnika dobile dostop do te skupne rabe.
Določite podrobnosti o povezavi in izberite Connect.
Izberite Ustvari bazo podatkov iz skupne rabe podatkov in vnesite ime za svojo novo zbirko podatkov.
Če želite preizkusiti skupno rabo podatkov, pojdite v urejevalnik poizvedb in zaženite poizvedbe v novi zbirki podatkov, da zagotovite, da so vsi objekti na voljo kot del skupne rabe podatkov.

Analizirajte in obdelajte podatke s programom Data Wrangler

Zdaj lahko uporabite Data Wrangler za dostop do podatkov med računi, ustvarjenih kot skupna raba podatkov v Amazon Redshift.

Odprto Amazon SageMaker Studio.
o file izberite meni Novo in Data Wrangler Flow.
o uvoz izberite jeziček Dodaj vir podatkov in Amazon RedShift.
Vnesite podrobnosti o povezavi gruče Amazon Redshift, ki ste jo pravkar ustvarili v uporabniškem računu za skupno rabo podatkov.
Izberite Connect.
Uporaba AWS upravljanje identitete in dostopa (IAM), ki ste jo uporabili za gručo Amazon Redshift.

Upoštevajte, da čeprav je skupna raba podatkov nova baza podatkov v gruči Amazon Redshift, se z njo ne morete povezati neposredno iz Data Wranglerja.

Pravilen način je, da se najprej povežete s privzeto zbirko podatkov gruče in nato uporabite SQL za poizvedovanje v zbirki podatkov v skupni rabi podatkov. Podajte zahtevane informacije za povezovanje s privzeto bazo podatkov gruče. Upoštevajte, da an AWS Service Key Management (AWS KMS) ID ključa ni potreben za povezavo.

Data Wrangler je zdaj povezan z instanco Amazon Redshift.

Poizvedujte po podatkih v zbirki podatkov Amazon Redshift za skupno rabo podatkov z urejevalnikom SQL.
Izberite uvoz da uvozite nabor podatkov v Data Wrangler.
Vnesite ime za nabor podatkov in izberite Dodaj.

Zdaj lahko vidite tok na Pretok podatkov zavihek Data Wrangler.

Ko naložite podatke v Data Wrangler, lahko izvedete raziskovalno analizo podatkov in pripravite podatke za ML.

Izberite znak plus in izberite Dodaj analizo.

Data Wrangler nudi vgrajene analize. Ti vključujejo, vendar niso omejeni na poročilo o kakovosti podatkov in vpogledih, korelacijo podatkov, poročilo o pristranskosti pred usposabljanjem, povzetek vašega nabora podatkov in vizualizacije (kot so histogrami in razpršeni diagrami). Ustvarite lahko tudi lastno vizualizacijo po meri.

Poročilo o kakovosti podatkov in vpogledih lahko uporabite za samodejno ustvarjanje vizualizacij in analiz za odkrivanje težav s kakovostjo podatkov in priporočanje pravilne transformacije, potrebne za vaš nabor podatkov.

Izberite Poročilo o kakovosti podatkov in vpogledihin izberite Ciljni stolpec as y.
Ker je to trditev o problemu klasifikacije, za Vrsta težavetako, da izberete Razvrstitev.
Izberite ustvarjanje.

Data Wrangler ustvari podrobno poročilo o vašem naboru podatkov. Poročilo lahko tudi prenesete na svoj lokalni računalnik.

Za pripravo podatkov izberite znak plus in izberite Dodaj analizo.
Izberite Dodaj korak da začnete graditi svoje preobrazbe.

V času tega pisanja ponuja Data Wrangler več kot 300 vgrajenih transformacij. Svoje transformacije lahko napišete tudi s Pandas ali PySpark.

Zdaj lahko začnete graditi svoje transformacije in analize na podlagi vaših poslovnih zahtev.

zaključek

V tej objavi smo raziskali skupno rabo podatkov med računi s skupnimi rabami podatkov Amazon Redshift, ne da bi morali ročno prenašati in nalagati podatke. Predstavili smo, kako dostopati do podatkov v skupni rabi s programom Data Wrangler in pripraviti podatke za vaše primere uporabe ML. Ta zmožnost deljenja podatkov Amazon Redshift in Data Wrangler brez kode/nizke kode pospešuje pripravo podatkov za usposabljanje in povečuje agilnost podatkovnih inženirjev in podatkovnih znanstvenikov s hitrejšo iterativno pripravo podatkov.

Če želite izvedeti več o Amazon Redshift in SageMaker, glejte Priročnik za razvijalce baze podatkov Amazon Redshift in Dokumentacija Amazon SageMaker.

O avtorjih

Uvozite podatke iz navzkrižnega računa Amazon Redshift v Amazon SageMaker Data Wrangler za raziskovalno analizo podatkov in pripravo podatkov PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Meenakshisundaram Thandavarayan je višji strokovnjak za AI/ML pri AWS. Pomaga visokotehnološkim strateškim računom na njihovi poti AI in ML. Zelo je navdušen nad AI, ki temelji na podatkih.

James Wu je višji specialist za AI/ML rešitve pri AWS. pomoč strankam pri načrtovanju in izdelavi rešitev AI/ML. Jamesovo delo pokriva širok spekter primerov uporabe ML, s primarnim zanimanjem za računalniški vid, globoko učenje in razširjanje ML v podjetju. Preden se je pridružil podjetju AWS, je bil James več kot 10 let arhitekt, razvijalec in tehnološki vodja, od tega 6 let v inženiringu in 4 leta v trženju in oglaševalski industriji.

Časovni žig: Junij 23, 2022

Časovni žig: December 1, 2022

Ponovno objavil Platon

Zagotovite si večji nadzor nad svojimi delovnimi obremenitvami Amazon SageMaker Data Wrangler s parametriziranimi nabori podatkov in načrtovanimi opravili

Priporočilo moči in iskanje z uporabo grafikona znanja IMDb – 1. del

Povečajte goljufive transakcije z uporabo sintetičnih podatkov v Amazon SageMaker

Izboljšajte upravljanje svojih modelov strojnega učenja z Amazon SageMaker

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun