Amazon SageMaker Data Wrangler je namensko ustvarjeno orodje za zbiranje in pripravo podatkov za strojno učenje (ML). Omogoča vam uporabo vizualnega vmesnika za dostop do podatkov in izvajanje raziskovalne analize podatkov (EDA) ter inženiring funkcij. Funkcija EDA ima vgrajene zmožnosti analize podatkov za grafikone (kot je razpršeni graf ali histogram) in zmožnostmi analize modelov, ki prihranijo čas, kot so pomembnost značilnosti, ciljno uhajanje in razložljivost modela. Zmogljivost inženiringa funkcij ima več kot 300 vgrajenih transformacij in lahko izvaja transformacije po meri z uporabo izvajalnega okolja Python, PySpark ali Spark SQL.
Za vizualizacije in transformacije po meri Data Wrangler zdaj ponuja primere izrezkov kode za običajne vrste vizualizacij in transformacij. V tej objavi prikazujemo, kako uporabiti te delčke kode za hiter zagon EDA v Data Wranglerju.
Pregled rešitev
V času tega pisanja lahko nabore podatkov uvozite v Data Wrangler iz Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShift, Databricks in Snowflake. Za to objavo uporabljamo Amazon S3 za shranjevanje Amazona 2014 nabor podatkov pregledov. Sledi vzorec nabora podatkov:
V tej objavi izvajamo EDA z uporabo treh stolpcev –asin
, reviewTime
in overall
— ki se preslikajo v ID izdelka, datum časa pregleda in skupno oceno pregleda. Te podatke uporabljamo za vizualizacijo dinamike števila pregledov po mesecih in letih.
Uporaba primera izrezka kode za EDA v Data Wranglerju
Če želite začeti izvajati EDA v Data Wranglerju, dokončajte naslednje korake:
- Prenos Nabor podatkov o pregledih digitalne glasbe JSON in ga naložite v Amazon S3.
To uporabljamo kot neobdelani nabor podatkov za EDA. - Odprto Amazon SageMaker Studio in ustvarite nov tok Data Wrangler ter uvozite nabor podatkov iz Amazon S3.
Ta nabor podatkov ima devet stolpcev, vendar uporabljamo le tri:
asin
,reviewTime
inoverall
. Spustiti moramo ostalih šest stolpcev. - Ustvarite transformacijo po meri in izberite Python (PySpark).
- Razširi Iskanje primerov izrezkov In izberite Spustite vse stolpce razen nekaj.
- Vnesite predloženi delček v svojo pretvorbo po meri in sledite navodilom za spreminjanje kode.
Zdaj, ko imamo vse stolpce, ki jih potrebujemo, filtrirajmo podatke navzdol, da ohranimo le ocene med letoma 2000–2020.
- Uporaba Časovni žig filtra je zunaj obsega izrezek za opustitev podatkov pred letom 2000 in po 2020:
Nato iz stolpca ReviewTime izvlečemo leto in mesec.
- Uporaba Predstavite datum/čas preoblikovati.
- za Izvleček stolpcev, izberite leto in mesec.
Nato želimo združiti število pregledov po letu in mesecu, ki smo jih ustvarili v prejšnjem koraku.
- Uporaba Računajte statistiko v skupinah delček:
- Preimenujte združevanje prejšnjega koraka iz
count(overall)
doreviews_num
z izbiro Upravljanje stolpcev in Preimenuj stolpec preoblikovati.
Nazadnje želimo ustvariti toplotni zemljevid za vizualizacijo porazdelitve pregledov po letih in mesecih. - Na zavihku analiza izberite Vizualizacija po meri.
- Razširi Poiščite izrezek In izberite Heatmap v spustnem meniju.
- Vnesite predloženi delček v svojo vizualizacijo po meri:
Dobimo naslednjo vizualizacijo.
Če želite še izboljšati toplotni zemljevid, lahko podatke razrežete tako, da bodo prikazani samo pregledi pred letom 2011. Te je težko prepoznati na toplotnem zemljevidu, ki smo ga pravkar ustvarili, zaradi velike količine pregledov od leta 2012. - Dodajte eno vrstico kode svoji vizualizaciji po meri:
Dobimo naslednji toplotni zemljevid.
Zdaj toplotni zemljevid bolj vidno odraža preglede pred letom 2011: opazimo lahko sezonske učinke (konec leta prinaša več nakupov in s tem več pregledov) in prepoznamo nenormalne mesece, kot sta oktober 2003 in marec 2005. Vredno je nadaljevati raziskavo. ugotoviti vzrok teh anomalij.
zaključek
Data Wrangler je namensko orodje za združevanje in pripravo podatkov za ML. V tej objavi smo pokazali, kako izvesti EDA in hitro preoblikovati svoje podatke z uporabo odrezkov kode, ki jih je zagotovil Data Wrangler. Samo najti morate delček, vnesti kodo in prilagoditi parametre, da se ujemajo z vašim naborom podatkov. Še naprej lahko ponavljate svoj skript, da ustvarite bolj zapletene vizualizacije in transformacije.
Če želite izvedeti več o Data Wranglerju, glejte Ustvarite in uporabite Data Wrangler Flow.
O avtorjih
Nikita Ivkin je uporabni znanstvenik, Amazon SageMaker Data Wrangler.
Haider Naqvi je arhitekt rešitev pri AWS. Ima bogate izkušnje z razvojem programske opreme in poslovne arhitekture. Osredotoča se na omogočanje strankam, da z AWS dosežejo poslovne rezultate. Živi v New Yorku.
Harish Rajagopalan je višji arhitekt rešitev pri Amazon Web Services. Harish sodeluje s podjetniškimi strankami in jim pomaga pri njihovem potovanju v oblak.
James Wu je višji strokovnjak za AI/ML SA pri AWS. Sodeluje s strankami, da bi pospešil njihovo potovanje v oblak in pospešil realizacijo njihove poslovne vrednosti. Poleg tega je James navdušen tudi nad razvojem in prilagajanjem velikih rešitev AI/ML na različnih področjih. Preden se je pridružil podjetju AWS, je vodil ekipo za multidisciplinarne inovacijske tehnologije z inženirji ML in razvijalci programske opreme za vrhunsko svetovno podjetje v tržni in oglaševalski industriji.
- Coinsmart. Najboljša evropska borza bitcoinov in kriptovalut.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. PROST DOSTOP.
- CryptoHawk. Altcoin radar. Brezplačen preizkus.
- Vir: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- O meni
- pospeši
- dostop
- Doseči
- čez
- Poleg tega
- Oglaševanje
- vsi
- omogoča
- Amazon
- Amazon Web Services
- Analiza
- uporabna
- Arhitektura
- Na voljo
- AWS
- Os
- ker
- pred
- med
- vgrajeno
- poslovni
- Zmogljivosti
- Vzrok
- Charts
- Izberite
- Cloud
- Koda
- Stolpec
- Skupno
- dokončanje
- kompleksna
- naprej
- Nadzor
- ustvarjajo
- ustvaril
- po meri
- Stranke, ki so
- datum
- Analiza podatkov
- izkazati
- Dokazano
- Ugotovite,
- Razvijalci
- razvoju
- Razvoj
- distribucija
- domen
- navzdol
- Drop
- dinamika
- Učinki
- omogočanje
- Inženiring
- Inženirji
- Vnesite
- Podjetje
- Primer
- Razen
- izkušnje
- obsežen
- hitreje
- Feature
- končno
- Firm
- prva
- Pretok
- Osredotoča
- sledi
- po
- iz
- funkcija
- funkcije
- nadalje
- Globalno
- veliko
- Skupine
- ob
- pomoč
- Pomaga
- Kako
- Kako
- HTTPS
- identificirati
- Pomembnost
- Industrija
- Inovacije
- vmesnik
- IT
- Potovanje
- Imejte
- velika
- UČITE
- učenje
- Led
- vrstica
- Seznam
- stroj
- strojno učenje
- map
- marec
- Tržna
- Stave
- ML
- Model
- mesec
- mesecev
- več
- Glasba
- Imena
- NY
- Številka
- Ostalo
- Splošni
- strastno
- izvajati
- igranje
- Pripravimo
- prejšnja
- Izdelek
- zagotavljajo
- če
- zagotavlja
- nakup
- nakupi
- količinsko
- hitro
- Surovi
- evidence
- odseva
- pregleda
- Mnenja
- skaliranje
- Znanstvenik
- Storitve
- Enostavno
- saj
- SIX
- Software
- Razvoj programske opreme
- rešitve
- specialist
- Začetek
- Statistika
- shranjevanje
- trgovina
- ciljna
- skupina
- Tehnologija
- O
- zato
- 3
- čas
- orodje
- vrh
- Transform
- transformacije
- Vrste
- uporaba
- vrednost
- različnih
- vizualizacija
- prostornine
- web
- spletne storitve
- WHO
- Čudovit
- deluje
- vredno
- pisanje
- X
- leto
- let
- Vaša rutina za