Pripravite podatke iz Amazon EMR za strojno učenje z uporabo Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Spremljevalci: 0

Priprava podatkov je glavna komponenta cevovodov strojnega učenja (ML). Pravzaprav se ocenjuje, da strokovnjaki za obdelavo podatkov porabijo približno 80 odstotkov svojega časa za pripravo podatkov. Na tem intenzivnem konkurenčnem trgu želijo ekipe analizirati podatke in hitro pridobiti bolj smiselne vpoglede. Stranke sprejemajo bolj učinkovite in vizualne načine za izgradnjo sistemov za obdelavo podatkov.

Amazon SageMaker Data Wrangler poenostavlja pripravo podatkov in postopek inženiringa funkcij, s čimer skrajša čas, ki traja od tednov do minut, tako da zagotavlja enoten vizualni vmesnik za podatkovne znanstvenike za izbiro, čiščenje podatkov, ustvarjanje funkcij in avtomatizacijo priprave podatkov v delovnih tokovih ML brez pisanja kode. Podatke lahko uvozite iz več podatkovnih virov, kot npr Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShift, in Snežinka. Zdaj lahko uporabite tudi Amazonski EMR kot vir podatkov v Data Wranglerju za enostavno pripravo podatkov za ML.

Analiziranje, preoblikovanje in priprava velikih količin podatkov je temeljni korak vsake podatkovne znanosti in poteka dela ML. Podatkovni strokovnjaki, kot so podatkovni znanstveniki, želijo izkoristiti moč Apache Spark, Panjin Presto deluje na Amazon EMR za hitro pripravo podatkov, vendar je krivulja učenja strma. Naše stranke so želele možnost povezave z Amazon EMR za izvajanje ad hoc poizvedb SQL na Hive ali Presto za poizvedovanje podatkov v notranji metashrambi ali zunanji metashrambi (npr. AWS Glue Data Catalog) in pripravo podatkov v nekaj klikih.

Ta članek v blogu bo razpravljal o tem, kako lahko stranke zdaj najdejo in se povežejo z obstoječimi gruči Amazon EMR z uporabo vizualne izkušnje v SageMaker Data Wrangler. Lahko vizualno pregledajo zbirko podatkov, tabele, sheme in poizvedbe Presto, da se pripravijo na modeliranje ali poročanje. Nato lahko hitro profilirajo podatke z uporabo vizualnega vmesnika, da ocenijo kakovost podatkov, identificirajo nenormalnosti ali manjkajoče ali napačne podatke ter prejmejo informacije in priporočila o tem, kako rešiti te težave. Poleg tega lahko analizirajo, čistijo in načrtujejo funkcije s pomočjo več kot ducata dodatnih vgrajenih analiz in 300+ dodatnih vgrajenih transformacij, ki jih podpira Spark, ne da bi napisali eno vrstico kode.

Pregled rešitev

Podatkovni strokovnjaki lahko hitro najdejo in se povežejo z obstoječimi gruči EMR s pomočjo konfiguracij SageMaker Studio. Poleg tega lahko strokovnjaki za podatke prekinejo gruče EMR s samo nekaj kliki SageMaker Studio z vnaprej določenimi predlogami in ustvarjanjem gruče EMR na zahtevo. S pomočjo teh orodij lahko stranke skočijo naravnost v univerzalni prenosni računalnik SageMaker Studio in napišejo kodo v Apache Spark, Hive, Presto ali PySpark za izvedbo priprave podatkov v velikem obsegu. Zaradi strme krivulje učenja za ustvarjanje kode Spark za pripravo podatkov ta postopek ni primeren za vse strokovnjake za podatke. Z Amazon EMR kot virom podatkov za Amazon SageMaker Data Wrangler se lahko zdaj hitro in preprosto povežete z Amazon EMR, ne da bi napisali eno vrstico kode.

Naslednji diagram predstavlja različne komponente, uporabljene v tej rešitvi.

Predstavljamo dve možnosti avtentikacije, ki ju je mogoče uporabiti za vzpostavitev povezave z gručo EMR. Za vsako možnost namestimo edinstven sklad Oblikovanje oblaka AWS Predloge.

Predloga CloudFormation izvede naslednja dejanja, ko je izbrana posamezna možnost:

Ustvari domeno Studio v načinu samo VPC, skupaj z imenovanim uporabniškim profilom studio-user.
Ustvari gradnike, vključno z VPC, končnimi točkami, podomrežji, varnostnimi skupinami, gručo EMR in drugimi potrebnimi viri za uspešno izvajanje primerov.
Za gručo EMR poveže katalog podatkov AWS Glue kot metashrambo za EMR Hive in Presto, ustvari tabelo Hive v EMR in jo napolni s podatki iz nabora podatkov letališča v ZDA.
Za predlogo LDAP CloudFormation ustvari Amazon Elastic Compute Cloud (Amazon EC2) primerek za gostovanje strežnika LDAP za preverjanje pristnosti uporabnika Hive in Presto LDAP.

1. možnost: lahek dostopni imeniški protokol

Za predlogo CloudFormation za preverjanje pristnosti LDAP zagotovimo primerek Amazon EC2 s strežnikom LDAP in konfiguriramo gručo EMR za uporabo tega strežnika za preverjanje pristnosti. To je omogočen TLS.

Možnost 2: Brez avt

V predlogi CloudFormation za avtentikacijo brez avtentikacije uporabljamo standardno gručo EMR brez omogočene avtentikacije.

Razmestite vire z AWS CloudFormation

Za razmestitev okolja izvedite naslednje korake:

Prijavite se v Konzola za upravljanje AWS kot AWS upravljanje identitete in dostopa (IAM) uporabnik, po možnosti admin uporabnik.
Izberite Izstrelite sklad za zagon predloge CloudFormation za ustrezen scenarij preverjanja pristnosti. Prepričajte se, da Regija, uporabljena za uvajanje sklada CloudFormation, nima obstoječe domene Studio. Če že imate domeno Studio v regiji, lahko izberete drugo regijo.
- Zagonski sklad LDAP
- Ni zagonskega sklada za preverjanje avtorizacije
Izberite Naslednji.
za Ime skladovnice, vnesite ime sklada (na primer dw-emr-blog).
Ostale vrednosti pustite privzeto.
Za nadaljevanje izberite Naslednji na strani s podrobnostmi o skladu in možnostih sklada. Sklad LDAP uporablja naslednje poverilnice:
- uporabniško ime: david
- geslo: welcome123
Na strani za pregled potrdite polje, da potrdite, da AWS CloudFormation morda ustvarja vire.
Izberite Ustvari sklad. Počakajte, da se status sklada spremeni iz CREATE_IN_PROGRESS do CREATE_COMPLETE. Postopek običajno traja 10–15 minut.

Opomba: Če želite preizkusiti več skladov, sledite korakom v razdelku Čiščenje. Ne pozabite, da morate izbrišite domeno SageMaker Studio preden se lahko uspešno zažene naslednji sklad.

Nastavite Amazon EMR kot vir podatkov v Data Wrangler

V tem razdelku obravnavamo povezovanje z obstoječo gručo Amazon EMR, ustvarjeno prek predloge CloudFormation kot vir podatkov v Data Wrangler.

Ustvarite nov pretok podatkov

Če želite ustvariti pretok podatkov, izvedite naslednje korake:

Na konzoli SageMaker izberite Amazon SageMaker Studio v podoknu za krmarjenje.
Izberite Odprt studio.
V zaganjalniku izberite Nov pretok podatkov. Druga možnost je, da na file spustnem meniju izberite Novo in nato Data Wrangler flow.
Ustvarjanje novega toka lahko traja nekaj minut. Ko je tok ustvarjen, vidite Uvozi podatke stran.

Dodajte Amazon EMR kot vir podatkov v Data Wrangler

V meniju Dodaj vir podatkov izberite Amazonski EMR.

Brskate lahko po vseh gručah EMR, za katere ima vaša izvajalska vloga Studio dovoljenja za ogled. Za povezavo z gručo imate dve možnosti; eden je prek interaktivnega uporabniškega vmesnika, drugi pa je prvi ustvarite skrivnost s pomočjo upravitelja skrivnosti AWS z URL-jem JDBC, vključno z informacijami o gruči EMR, nato pa zagotovite shranjeni skrivni ARN AWS v uporabniškem vmesniku za povezavo s Presto. V tem blogu sledimo prvi možnosti. Izberite eno od naslednjih gruč, ki jih želite uporabiti. Kliknite na Naslednjiin izberite Končne točke.

Izberite Presto, Poveži z Amazon EMR, ustvarite ime za identifikacijo vaše povezave in kliknite Naslednji.

Izberite Preverjanje pristnosti vnesite LDAP ali Brez preverjanja pristnosti in kliknite Connect.

Za Lightweight Directory Access Protocol (LDAP) navedite uporabniško ime in geslo za preverjanje pristnosti.

Če ni preverjanja pristnosti, boste povezani z EMR Presto, ne da bi zagotovili uporabniške poverilnice znotraj VPC. Vnesite Data Wranglerjevo stran raziskovalca SQL za EMR.

Ko ste povezani, si lahko interaktivno ogledate drevo baze podatkov in predogled ali shemo tabele. Prav tako lahko poizvedujete, raziskujete in vizualizirate podatke iz EMR. Za predogled bi privzeto videli omejitev 100 zapisov. Za prilagojeno poizvedbo lahko podate izjave SQL v polju urejevalnika poizvedbe in ko kliknete Run gumb, bo poizvedba izvedena na motorju EMR Presto.

O Prekliči poizvedbo gumb omogoča preklic tekočih poizvedb, če trajajo neobičajno dolgo.

Zadnji korak je uvoz. Ko ste pripravljeni na poizvedovane podatke, imate možnosti za posodobitev nastavitev vzorčenja za izbor podatkov glede na vrsto vzorčenja (FirstK, naključno ali stratificirano) in velikost vzorčenja za uvoz podatkov v Data Wrangler.

klik uvoz. Naložila se bo pripravljalna stran, ki vam bo omogočila dodajanje različnih transformacij in bistvenih analiz v nabor podatkov.

Pomaknite se do DataFlow z zgornjega zaslona in dodajte več korakov toku, kot je potrebno za transformacije in analizo. Zaženete lahko poročilo o vpogledu v podatke, da prepoznate težave s kakovostjo podatkov in dobite priporočila za odpravo teh težav. Poglejmo nekaj primerov transformacij.

Pojdite na svoj tok podatkov in to je zaslon, ki bi ga morali videti. Pokaže nam, da uporabljamo EMR kot vir podatkov z uporabo priključka Presto.

Kliknimo na gumb + desno od Vrste podatkov in izberimo Dodaj transformacijo. Ko to storite, se mora pojaviti naslednji zaslon:

Raziščimo podatke. Vidimo, da ima več funkcij, kot je npr iata_code, letališče, CITY, so bili, država, zemljepisna širinain zemljepisne dolžine. Vidimo lahko, da je celoten nabor podatkov v eni državi, to so ZDA, in da manjkajo vrednosti v zemljepisni širini in dolžini. Manjkajoči podatki lahko povzročijo pristranskost pri ocenjevanju parametrov in lahko zmanjšajo reprezentativnost vzorcev, zato moramo izvesti nekaj imputacija in obravnava manjkajoče vrednosti v našem naboru podatkov.

Kliknimo na Dodaj korak gumb na navigacijski vrstici na desni. Izberite Ročaj manjka. Konfiguracije lahko vidite na naslednjih posnetkih zaslona. Spodaj Preoblikovanje, izberite Impute. Izberite vrsto stolpca kot Številčno in imena stolpcev Zemljepisna širina in Dolžina. Manjkajoče vrednosti bomo pripisali z uporabo približne mediane vrednosti. Predogled in dodajte transformacijo.

Oglejmo si zdaj še en primer transformacije. Pri gradnji modela strojnega učenja se stolpci odstranijo, če so odveč ali ne pomagajo vašemu modelu. Najpogostejši način za odstranitev stolpca je, da ga spustite. V našem naboru podatkov funkcija država lahko opustite, ker je nabor podatkov posebej za podatke o letališčih v ZDA. Poglejmo, kako lahko upravljamo stolpce. Kliknimo na Dodaj korak gumb na navigacijski vrstici na desni. Izberite Upravljanje stolpcev. Konfiguracije lahko vidite na naslednjih posnetkih zaslona. Spodaj Transformtako, da izberete Spustite stolpec, in pod Stolpci za spuščanjetako, da izberete Država.

Še naprej lahko dodajate korake na podlagi različnih transformacij, potrebnih za vaš nabor podatkov. Vrnimo se k našemu toku podatkov. Zdaj boste videli še dva bloka, ki prikazujeta transformacije, ki smo jih izvedli. V našem scenariju lahko vidite Impute in Spustite stolpec.

Strokovnjaki ML porabijo veliko časa za izdelavo inženirske kode funkcij, njeno uporabo v svojih začetnih naborih podatkov, usposabljanje modelov na zasnovanih naborih podatkov in ocenjevanje točnosti modela. Glede na eksperimentalno naravo tega dela bo tudi najmanjši projekt povzročil več ponovitev. Ista inženirska koda funkcij se pogosto izvaja znova in znova, pri čemer se zapravlja čas in računalniški viri za ponavljanje istih operacij. V velikih organizacijah lahko to povzroči še večjo izgubo produktivnosti, ker različne ekipe pogosto izvajajo enaka opravila ali celo pišejo podvojeno kodo za inženiring funkcij, ker nimajo znanja o prejšnjem delu. Da bi se izognili ponovni obdelavi funkcij, bomo zdaj izvozili svoje transformirane funkcije v Amazon Feature Store. Kliknimo na + gumb desno od Spustite stolpec. Izberite Izvozi v In izberite Trgovina s funkcijami Sagemaker (prek prenosnega računalnika Jupyter).

Svoje ustvarjene funkcije lahko preprosto izvozite v Trgovina s funkcijami SageMaker tako da ga izberete kot cilj. Funkcije lahko shranite v obstoječo skupino funkcij ali ustvarite novo.

Zdaj smo ustvarili funkcije z Data Wranglerjem in jih preprosto shranili v Feature Store. Prikazali smo primer poteka dela za inženiring funkcij v uporabniškem vmesniku Data Wrangler. Nato smo te funkcije shranili v Feature Store neposredno iz Data Wranglerja, tako da smo ustvarili novo skupino funkcij. Na koncu smo izvedli obdelavo, da bi te funkcije vnesli v Feature Store. Data Wrangler in Feature Store sta nam skupaj pomagala zgraditi samodejne in ponovljive procese za racionalizacijo naših nalog priprave podatkov z minimalnim zahtevanim kodiranjem. Data Wrangler nam nudi tudi prilagodljivost za avtomatizacijo istega toka priprave podatkov z uporabo načrtovana delovna mesta. Prav tako lahko avtomatiziramo usposabljanje ali inženiring funkcij s SageMaker Pipelines (prek Jupyter Notebook) in razmestimo na končno točko Inference s SageMaker inference pipeline (prek Jupyter Notebook).

Čiščenje

Če je vaše delo z Data Wrangler končano, izberite sklad, ustvarjen na strani CloudFormation, in ga izbrišite, da se izognete dodatnim stroškom.

zaključek

V tej objavi smo preučili, kako nastaviti Amazon EMR kot vir podatkov v Data Wranglerju, kako preoblikovati in analizirati nabor podatkov ter kako izvoziti rezultate v tok podatkov za uporabo v prenosnem računalniku Jupyter. Po vizualizaciji našega nabora podatkov z uporabo vgrajenih analitičnih funkcij Data Wrangler smo še izboljšali naš pretok podatkov. Dejstvo, da smo ustvarili cevovod za pripravo podatkov, ne da bi napisali eno vrstico kode, je pomembno.

Za začetek uporabe Data Wrangler glejte Pripravite podatke ML z Amazon SageMaker Data Wranglerin si oglejte najnovejše informacije o Stran izdelka Data Wrangler.

O avtorjih

Ajjay Govindaram je višji arhitekt rešitev pri AWS. Dela s strateškimi strankami, ki uporabljajo AI/ML za reševanje kompleksnih poslovnih problemov. Njegove izkušnje so pri zagotavljanju tehničnega vodenja in pomoči pri oblikovanju za skromne do obsežne uvedbe aplikacij AI/ML. Njegovo znanje sega od arhitekture aplikacij do velikih podatkov, analitike in strojnega učenja. Uživa v poslušanju glasbe med počitkom, doživetjih na prostem in preživljanju časa s svojimi najdražjimi.

Isha Dua je višji arhitekt rešitev s sedežem na območju zaliva San Francisco. Podjetniškim strankam AWS pomaga pri rasti z razumevanjem njihovih ciljev in izzivov ter jih usmerja, kako lahko oblikujejo svoje aplikacije v oblaku, hkrati pa poskrbi, da so prožne in razširljive. Navdušena je nad tehnologijami strojnega učenja in okoljsko trajnostjo.

Rui Jiang je inženir za razvoj programske opreme pri AWS s sedežem na območju New Yorka. Je članica ekipe SageMaker Data Wrangler, ki pomaga pri razvoju inženirskih rešitev za poslovne stranke AWS za doseganje njihovih poslovnih potreb. Zunaj dela uživa v raziskovanju nove hrane, fitnesu, aktivnostih na prostem in potovanjih.

Časovni žig: December 8, 2022December 8, 2022

Časovni žig: Maj 30, 2023

Vzporedna obdelava podatkov z RStudio na Amazon SageMaker

Izvorni grozd:

Strojno učenje AWS

Izvorno vozlišče: 1671065

Časovni žig: September 19, 2022

Pripravite podatke iz Databricks za strojno učenje z uporabo Amazon SageMaker Data Wrangler

Izvorni grozd:

Strojno učenje AWS

Izvorno vozlišče: 1243552

Časovni žig: Marec 31, 2022

Pospešite sklepanje Amazon SageMaker z instancami Amazon EC6, ki temeljijo na C2i Intel

Izvorni grozd:

Strojno učenje AWS

Izvorno vozlišče: 1816297

Časovni žig: Marec 20, 2023

Pripravite podatke iz Amazon EMR za strojno učenje z uporabo Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Pregled rešitev

1. možnost: lahek dostopni imeniški protokol

Možnost 2: Brez avt

Razmestite vire z AWS CloudFormation

Nastavite Amazon EMR kot vir podatkov v Data Wrangler

Ustvarite nov pretok podatkov

Dodajte Amazon EMR kot vir podatkov v Data Wrangler

Čiščenje

zaključek

O avtorjih

Več od Strojno učenje AWS

Povežite Amazon EMR in RStudio na Amazon SageMaker

Nemoteno povežite Amazon Athena z Amazon Lookout for Metrics za odkrivanje anomalij

Kako VistaPrint zagotavlja prilagojena priporočila za izdelke z Amazon Personalize | Spletne storitve Amazon

Zaznavanje anomalij z Amazon SageMaker Edge Manager z uporabo AWS IoT Greengrass V2

Inteligentno iskanje po vsebini Adobe Experience Manager z uporabo Amazon Kendra | Spletne storitve Amazon

Uporabite vnaprej podpisan URL, da svojim poslovnim analitikom zagotovite varen dostop do Amazon SageMaker Canvas

Vzporedna obdelava podatkov z RStudio na Amazon SageMaker

Pripravite podatke iz Databricks za strojno učenje z uporabo Amazon SageMaker Data Wrangler

Pospešite sklepanje Amazon SageMaker z instancami Amazon EC6, ki temeljijo na C2i Intel

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun