Andmepõhise kultuuri poole liikuvad organisatsioonid kasutavad otsuste tegemisel andmete ja masinõppe (ML) kasutamist. ML-põhiste otsuste tegemiseks andmete põhjal on vaja, et teie andmed oleksid ML-mudelite koolitamiseks kättesaadavad, juurdepääsetavad, puhtad ja õiges vormingus. Mitme konto arhitektuuriga organisatsioonid soovivad vältida olukordi, kus nad peavad andmete ettevalmistamise toiminguteks ühelt kontolt andmed eraldama ja teisele laadima. Erinevate väljavõtmis-, teisendus- ja laadimistööde (ETL) käsitsi koostamine ja hooldamine erinevatel kontodel muudab keerukamaks ja kulukamaks ning muudab teie andmete turvalisuse tagamiseks haldamise, vastavuse ja turvalisuse parimate tavade järgimise keerulisemaks.
Amazoni punane nihe on kiire, täielikult hallatav pilvandmeladu. Amazon Redshifti kontoülese andmejagamise funktsioon pakub lihtsat ja turvalist viisi värskete, täielike ja järjepidevate andmete jagamiseks oma Amazon Redshifti andmelaos mis tahes arvu sidusrühmadega erinevatel AWS-i kontodel. Amazon SageMaker Data Wrangler on võime Amazon SageMaker mis muudab andmeteadlaste ja inseneride jaoks visuaalse liidese abil ML-rakenduste jaoks andmete ettevalmistamise kiiremaks. Data Wrangler võimaldab teil uurida ja teisendada ML-i andmeid, luues ühenduse Amazon Redshifti andmejagamistega.
Selles postituses käsitleme kontoülese integratsiooni seadistamist Amazon Redshifti andmejagamise abil ja andmete ettevalmistamist Data Wrangleri abil.
Lahenduse ülevaade
Alustame kahe AWS-i kontoga: tootjakonto Amazon Redshifti andmelaoga ja tarbijakonto SageMaker ML-i kasutusjuhtude jaoks. Selle postituse jaoks kasutame panganduse andmestik. Järgimiseks laadige andmestik alla oma kohalikku masinasse. Järgnev on töövoo kõrgetasemeline ülevaade:
- Looge tootjakontol Amazon Redshift RA3 klaster ja laadige andmestik.
- Looge tootjakontol Amazon Redshifti andmete jagamine ja lubage tarbijakontol andmetele juurdepääs.
- Juurdepääs Amazon Redshifti andmejagamisele tarbijakontol.
- Analüüsige ja töötlege andmeid tarbijakontol Data Wrangleriga ning koostage oma andmete ettevalmistamise töövood.
Ole teadlik kaalutlused Amazon Redshifti andmete jagamisega töötamiseks:
- Mitu AWS-i kontot – Teil on vaja vähemalt kahte AWS-i kontot: tootjakontot ja tarbijakontot.
- Klastri tüüp – Andmete jagamine on toetatud RA3 klastritüübis. Amazon Redshift klastri käivitamisel valige kindlasti RA3 klastri tüüp.
- Krüpteerimine – Andmete jagamise toimimiseks peavad nii tootja- kui ka tarbijaklastrid olema krüptitud ja asuma samas AWS-i piirkonnas.
- Regioonide - Kontoülene andmete jagamine on saadaval kogu Amazon Redshifti jaoks RA3 sõlme tüübid USA idas (N. Virginia), USA idas (Ohio), USA läänes (N. California), USA läänes (Oregon), Aasia Vaikse ookeani piirkonnas (Mumbai), Aasia Vaikse ookeani piirkonnas (Soul), Aasia Vaikse ookeani piirkonnas (Singapur), Aasia Vaikse ookeani piirkonnas ( Sydney), Aasia Vaikse ookeani piirkond (Tokyo), Kanada (Kesk), Euroopa (Frankfurt), Euroopa (Iirimaa), Euroopa (London), Euroopa (Pariis), Euroopa (Stockholm) ja Lõuna-Ameerika (São Paulo).
- hinnapoliitika – Kontoülene andmete jagamine on saadaval samas piirkonnas asuvate klastrite vahel. Andmete jagamine ei maksa. Maksate lihtsalt jagamises osalevate Amazon Redshift klastrite eest.
Kontoülene andmete jagamine on kaheetapiline protsess. Esiteks loob tootjaklastri administraator andmejagamise, lisab objekte ja annab juurdepääsu tarbijakontole. Seejärel volitab tootjakonto administraator määratud tarbija jaoks andmeid jagama. Seda saate teha Amazon Redshift konsoolist.
Looge tootjakontol Amazon Redshifti andmejagamine
Andmete jagamise loomiseks toimige järgmiselt.
- Looge Amazon Redshifti konsoolil Amazon Redshifti klaster.
- Täpsustama Produktsioon ja valige RA3 sõlme tüüp.
- alla Täiendavad konfiguratsioonid, tühistage valik Kasutage vaikeseadeid.
- alla Andmebaasi konfiguratsioonid, seadistage oma klastri krüpteerimine.
- Pärast klastri loomist importige otseturunduspanga andmestik. Saate alla laadida järgmiselt URL-ilt: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Täiendava
bank-additional-full.csv
kuni Amazoni lihtne salvestusteenus (Amazon S3) ämber, millele teie klastris on juurdepääs. - Kasutage Amazon Redshifti päringuredaktorit ja käivitage järgmine SQL-päring, et kopeerida andmed Amazon Redshifti:
- Liikuge klastri üksikasjade lehele ja Andmete jagamine valige vahekaart Loo andmejagamine.
- eest Andmejagamise nimi, sisestage nimi.
- eest Andmebaasi nimi, valige andmebaas.
- aasta Andmejagamise objektide lisamine jaotises valige andmebaasist objektid, mida soovite andmejagamisse kaasata.
Teil on täielik kontroll selle üle, mida otsustate teistega jagada. Lihtsuse huvides jagame kõiki tabeleid. Praktikas võite valida ühe või mitu tabelit, vaadet või kasutaja määratud funktsiooni. - Vali lisama.
- Andmetarbijate lisamiseks valige Lisage andmete jagamisele AWS-i kontod ja lisage oma teisese AWS-i konto ID.
- Vali Loo andmejagamine.
- Äsja loodud andmetarbija volitamiseks minge lehele Andmete jagamine lehele Amazon Redshift konsooli ja valige uus andmejagamine.
- Valige andmetarbija ja valige Volitatud.
Tarbija staatus muutub alates Pending authorization
et Authorized
.
Juurdepääs Amazon Redshifti kontoülesele andmejagamisele tarbija AWS-i kontol
Nüüd, kui andmejagamine on seadistatud, lülituge andmejagamise tarbimiseks oma tarbija AWS-i kontole. Veenduge, et teie tarbijakontol oleks loodud vähemalt üks Amazon Redshifti klaster. Klaster peab olema krüptitud ja asuma allikaga samas piirkonnas.
- Amazon Redshift konsoolil valige Andmete jagamine navigeerimispaanil.
- Kohta Teistelt kontodelt valige loodud andmejagamine ja valige Partner.
- Saate siduda andmejagamise selle konto ühe või mitme klastriga või siduda andmejagamise kogu kontoga, et tarbijakonto praegused ja tulevased klastrid saaksid sellele jagamisele juurdepääsu.
- Määrake oma ühenduse üksikasjad ja valige Võta meiega ühendust.
- Vali Andmejagamisest andmebaasi loomine ja sisestage oma uuele andmebaasile nimi.
- Andmejagamise testimiseks minge päringuredaktorisse ja käivitage päringud uues andmebaasis, veendumaks, et kõik objektid on andmejagamise osana saadaval.
Andmete analüüsimine ja töötlemine Data Wrangleriga
Nüüd saate kasutada Data Wranglerit, et pääseda juurde Amazon Redshiftis andmejagatuna loodud kontoülestele andmetele.
- avatud Amazon SageMaker Studio.
- Kohta fail menüüst valige Uus ja Data Wrangleri voog.
- Kohta Import valige vahekaart Andmeallika lisamine ja Amazoni punane nihe.
- Sisestage äsja loodud Amazon Redshift klastri ühenduse üksikasjad andmejagamise tarbijakontole.
- Vali Võta meiega ühendust.
- Kasuta AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rolli, mida kasutasite oma Amazon Redshift klastri jaoks.
Pange tähele, et kuigi andmejagamine on Amazon Redshift klastri uus andmebaas, ei saa te sellega Data Wranglerist otse ühendust luua.
Õige viis on kõigepealt luua ühendus vaikeklastri andmebaasiga ja seejärel kasutada andmejagamise andmebaasi päringu tegemiseks SQL-i. Esitage vaikeklastri andmebaasiga ühenduse loomiseks vajalik teave. Pange tähele, et an AWS-i võtmehaldusteenus (AWS KMS) võtme ID-d pole ühenduse loomiseks vaja.
Data Wrangler on nüüd ühendatud Amazon Redshifti eksemplariga.
- Tehke SQL-redaktori abil päring Amazon Redshifti andmejagamise andmebaasis olevate andmete kohta.
- Vali Import et importida andmestik Data Wranglerisse.
- Sisestage andmestiku nimi ja valige lisama.
Nüüd näete voolu lehel Andmevoog Data Wrangleri vahekaart.
Pärast andmete Data Wranglerisse laadimist saate teha uurimuslikku andmeanalüüsi ja valmistada andmeid ette ML jaoks.
- Valige plussmärk ja valige Lisage analüüs.
Data Wrangler pakub sisseehitatud analüüse. Nende hulka kuuluvad (kuid mitte ainult) andmekvaliteedi ja ülevaate aruanne, andmete korrelatsioon, koolituseelne kallutatuse aruanne, teie andmestiku kokkuvõte ja visualiseeringud (nt histogrammid ja hajuvusgraafikud). Saate luua ka oma kohandatud visualiseerimise.
Saate kasutada andmekvaliteedi ja ülevaate aruannet, et genereerida automaatselt visualiseerimisi ja analüüse, et tuvastada andmekvaliteediga seotud probleeme ning soovitada andmestiku jaoks vajalikku õiget teisendust.
- Vali Andmekvaliteedi ja ülevaate aruanneja valige Sihtveerg as y.
- Sest see on klassifitseerimisprobleemi avaldus Probleemi tüüpvalige Klassifikatsioon.
- Vali Looma.
Data Wrangler loob teie andmestiku kohta üksikasjaliku aruande. Samuti saate aruande alla laadida oma kohalikku masinasse.
- Andmete ettevalmistamiseks vali plussmärk ja vali Lisage analüüs.
- Vali Lisa samm et alustada oma ümberkujundamist.
Selle kirjutamise ajal pakub Data Wrangler üle 300 sisseehitatud teisenduse. Pandade või PySparki abil saate kirjutada ka oma teisendusi.
Nüüd saate alustada ümberkujundamiste ja analüüside koostamist oma ärivajaduste põhjal.
Järeldus
Selles postituses uurisime andmete jagamist kontode vahel, kasutades Amazon Redshifti andmejagamisi, ilma et oleks vaja andmeid käsitsi alla laadida ja üles laadida. Käisime läbi, kuidas Data Wrangleri abil jagatud andmetele juurde pääseda ja andmed teie ML-i kasutusjuhtude jaoks ette valmistada. See Amazon Redshifti andmejagamiste ja Data Wrangleri koodivaba/madala koodiga võime kiirendab koolitusandmete ettevalmistamist ning suurendab andmeinseneride ja andmeteadlaste paindlikkust tänu kiiremale iteratiivsele andmete ettevalmistamisele.
Amazon Redshifti ja SageMakeri kohta lisateabe saamiseks vaadake Amazon Redshift andmebaasi arendaja juhend ja Amazon SageMakeri dokumentatsioon.
Autoritest
Meenakshisundaram Thandavarayan on AWS-iga AI/ML vanemspetsialist. Ta aitab kõrgtehnoloogilisi strateegilisi kontosid nende AI ja ML teekonnal. Ta on väga kirglik andmepõhise AI vastu.
James Wu on AWS-i vanem AI/ML-lahenduste spetsialist. aidata klientidel AI/ML lahendusi kavandada ja luua. Jamesi töö hõlmab laia valikut ML kasutusjuhtumeid, mille peamine huvi on arvutinägemine, sügav õppimine ja ML-i skaleerimine kogu ettevõttes. Enne AWS-iga liitumist oli James arhitekt, arendaja ja tehnoloogiajuht üle 10 aasta, sealhulgas 6 aastat inseneritöös ning 4 aastat turundus- ja reklaamitööstuses.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- and-andmete ettevalmistamine/
- "
- &
- 10
- 100
- 11
- 7
- a
- MEIST
- juurdepääs
- juurdepääsetav
- konto
- üle
- tegevus
- reklaam
- vastu
- AI
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- Amazon
- Ameerika
- analüüs
- Teine
- rakendused
- arhitektuur
- Aasia
- Aasia ja Vaikse ookeani
- Partner
- automaatselt
- saadaval
- AWS
- Pank
- BEST
- parimaid tavasid
- piir
- ehitama
- Ehitus
- sisseehitatud
- äri
- California
- Kampaania
- Kanada
- juhtudel
- kesk-
- Vali
- klassifikatsioon
- Cloud
- täitma
- Vastavus
- arvuti
- Võta meiega ühendust
- seotud
- ühendamine
- ühendus
- järjepidev
- konsool
- tarbima
- tarbija
- Tarbijad
- kontakt
- kontrollida
- looma
- loodud
- loob
- volikiri
- kultuur
- Praegune
- tava
- Kliendid
- andmed
- andmete analüüs
- andmete jagamine
- andmebaas
- otsused
- sügav
- Disain
- üksikasjalik
- detailid
- arendaja
- erinev
- raske
- otsene
- otse
- lae alla
- toimetaja
- Käsitöö
- omaks võtma
- krüpteerimist
- Inseneriteadus
- Inseneride
- sisene
- ettevõte
- Euroopa
- uurima
- KIIRE
- kiiremini
- tunnusjoon
- esimene
- voog
- järgima
- Järel
- formaat
- värske
- Alates
- funktsioonid
- tulevik
- tekitama
- valitsemistava
- võttes
- aidates
- aitab
- elamispind
- Kuidas
- Kuidas
- HTTPS
- identifitseerima
- Identity
- sisaldama
- Kaasa arvatud
- tööstusharudes
- info
- teadmisi
- Näiteks
- integratsioon
- huvi
- Interface
- Iirimaa
- küsimustes
- IT
- töö
- Tööturg
- liitumine
- teekond
- hoidma
- Võti
- juht
- Õppida
- õppimine
- piiratud
- koormus
- kohalik
- liising
- London
- masin
- masinõpe
- säilitada
- tegema
- TEEB
- juhitud
- juhtimine
- käsitsi
- Turundus
- võib
- ML
- mudelid
- kuu
- rohkem
- liikuv
- Mumbai
- NAVIGATSIOON
- number
- Ohio
- et
- Oregon
- organisatsioonid
- Muu
- enda
- Vaikne ookean
- Paris
- osa
- osalema
- kirglik
- Maksma
- tava
- Valmistama
- eelmine
- esmane
- Probleem
- protsess
- tootja
- anda
- annab
- kvaliteet
- valik
- soovitama
- piirkond
- aru
- nõutav
- Roll
- jooks
- ohutu
- sama
- ketendamine
- teadlased
- kesk-
- kindlustama
- turvalisus
- Seoul
- komplekt
- kehtestamine
- Jaga
- jagatud
- jagamine
- kirjutama
- lihtne
- Singapur
- So
- tahke
- lahendus
- Lahendused
- Lõuna
- spetsialist
- algus
- väljavõte
- olek
- ladustamine
- Strateegiline
- Toetatud
- Lüliti
- sydney
- Tehnoloogia
- test
- .
- Allikas
- Läbi
- aeg
- Tokyo
- suunas
- koolitus
- Muutma
- Transformation
- muundumised
- us
- kasutama
- virginia
- nägemus
- visualiseerimine
- Läände
- M
- ilma
- Töö
- Töövoogud
- töö
- kirjutamine
- aastat
- Sinu