Amazon SageMaker Data Wrangler on masinõppe (ML) jaoks mõeldud andmete koondamise ja ettevalmistamise tööriist. See võimaldab kasutada visuaalset liidest andmetele juurdepääsuks ning uurimusliku andmeanalüüsi (EDA) ja funktsioonide inseneri tegemiseks. EDA funktsiooniga on kaasas diagrammide jaoks sisseehitatud andmeanalüüsi võimalused (nt hajuvusdiagramm või histogramm) ja aega säästvad mudelianalüüsi võimalused, nagu funktsioonide tähtsus, sihtmärgi leke ja mudeli seletatavus. Funktsioonide insenerimisvõimalusel on üle 300 sisseehitatud teisenduse ja see võib teha kohandatud teisendusi Pythoni, PySparki või Spark SQL-i käitusaja abil.
Kohandatud visualiseerimiste ja teisenduste jaoks pakub Data Wrangler nüüd näidiskoodilõike tavapäraste visualiseerimis- ja teisendustüüpide jaoks. Selles postituses näitame, kuidas kasutada neid koodilõike oma EDA kiireks käivitamiseks Data Wrangleris.
Lahenduse ülevaade
Selle kirjutamise ajal saate andmekogumeid Data Wranglerisse importida Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane nihe, Databricks ja Snowflake. Selle postituse jaoks kasutame 3. aasta Amazoni salvestamiseks Amazon S2014 arvustuste andmestik. Järgmine on andmestiku näidis:
Selles postituses teostame EDA kolme veeru abil -asin
, reviewTime
ja overall
– mis vastab vastavalt toote ID-le, ülevaatuse kellaaja kuupäevale ja üldisele ülevaateskoorile. Kasutame neid andmeid arvustuste arvu dünaamika visualiseerimiseks kuude ja aastate lõikes.
EDA koodilõigu näite kasutamine Data Wrangleris
EDA käivitamiseks Data Wrangleris toimige järgmiselt.
- Lae alla Digital Music arvustuste andmestik JSON ja laadige see Amazon S3-sse.
Kasutame seda EDA algandmestikuna. - avatud Amazon SageMaker Studio ja looge uus Data Wrangleri voog ning importige andmestik Amazon S3-st.
Sellel andmekogumil on üheksa veergu, kuid me kasutame ainult kolme:
asin
,reviewTime
jaoverall
. Peame ülejäänud kuus veergu maha jätma. - Looge kohandatud teisendus ja valige Python (PySpark).
- Laiendama Otsige näitelõike Ja vali Loobuge kõik veerud, välja arvatud mitu.
- Sisestage esitatud koodilõik oma kohandatud teisendusse ja järgige koodi muutmiseks juhiseid.
Nüüd, kui meil on kõik vajalikud veerud, filtreerime andmed allapoole, et jätta arvustused alles aastatel 2000–2020.
- Kasuta Filtri ajatempel väljaspool vahemikku katkend andmete eemaldamiseks enne aastat 2000 ja pärast 2020. aastat:
Järgmisena eraldame veerust reviewTime aasta ja kuu.
- Kasuta Esitage kuupäev/kellaaeg teisendada.
- eest Ekstrakti veerud, vali aasta ja kuu.
Järgmiseks tahame koondada eelmises etapis loodud arvustuste arvu aasta ja kuu järgi.
- Kasuta Arvutage statistikat rühmade kaupa katkend:
- Nimetage eelmise sammu koond ümber
count(overall)
etreviews_num
valides Veergude haldamine ja Nimeta veerg ümber teisendada.
Lõpuks tahame luua soojuskaardi, et visualiseerida arvustuste jaotust aastate ja kuude kaupa. - Valige vahekaardil analüüs Kohandatud visualiseerimine.
- Laiendama Otsige katkendit Ja vali Soojuskaart rippmenüüs.
- Sisestage esitatud koodilõik oma kohandatud visualiseerimisse:
Saame järgmise visualiseerimise.
Kui soovite soojuskaarti veelgi täiustada, saate andmeid tükeldada, et kuvada ainult 2011. aasta eelseid arvustusi. Neid on äsja loodud soojuskaardil raske tuvastada, kuna alates 2012. aastast on arvustusi palju. - Lisage oma kohandatud visualiseeringule üks koodirida:
Saame järgmise soojuskaardi.
Nüüd kajastab soojuskaart nähtavamalt 2011. aasta eelseid ülevaateid: saame jälgida hooajalisi mõjusid (aasta lõpp toob rohkem oste ja seega ka arvustusi) ning tuvastada ebanormaalsed kuud, nagu oktoober 2003 ja märts 2005. Tasub edasi uurida. et teha kindlaks nende kõrvalekallete põhjus.
Järeldus
Data Wrangler on ML-i jaoks mõeldud andmete koondamise ja ettevalmistamise tööriist. Selles postituses näitasime, kuidas EDA-d teha ja andmeid kiiresti muuta, kasutades Data Wrangleri pakutavaid koodilõike. Peate lihtsalt leidma väljalõike, sisestama koodi ja kohandama parameetreid, et need vastaksid teie andmestikule. Saate jätkata skripti itereerimist, et luua keerukamaid visualiseerimisi ja teisendusi.
Data Wrangleri kohta lisateabe saamiseks vaadake Looge ja kasutage Data Wrangleri voogu.
Autoritest
Nikita Ivkin on Amazon SageMaker Data Wrangleri rakendusteadlane.
Haider Naqvi on AWS-i lahenduste arhitekt. Tal on ulatuslik tarkvaraarenduse ja ettevõttearhitektuuri kogemus. Ta keskendub sellele, et võimaldada klientidel AWS-iga äritulemusi saavutada. Ta asub New Yorgist väljas.
Harish Rajagopalan on Amazon Web Servicesi vanemlahenduste arhitekt. Harish töötab äriklientidega ja aitab neil pilveteekonnal.
James Wu on AWS-i AI/ML vanemspetsialist SA. Ta teeb koostööd klientidega, et kiirendada nende pilveteekonda ja kiirendada nende äriväärtuse realiseerimist. Lisaks sellele on James kirglik ka suurte AI/ML-lahenduste arendamise ja skaleerimise vastu erinevates valdkondades. Enne AWS-iga liitumist juhtis ta multidistsiplinaarset innovatsioonitehnoloogia meeskonda koos ML-i inseneride ja tarkvaraarendajatega turu- ja reklaamitööstuse tippettevõttes.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- MEIST
- kiirendama
- juurdepääs
- Saavutada
- üle
- lisamine
- reklaam
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- Amazon
- Amazon Web Services
- analüüs
- rakendatud
- arhitektuur
- saadaval
- AWS
- Telg
- sest
- enne
- vahel
- sisseehitatud
- äri
- võimeid
- Põhjus
- Äritegevus
- Vali
- Cloud
- kood
- Veerg
- ühine
- täitma
- keeruline
- jätkama
- kontrolli
- looma
- loodud
- tava
- Kliendid
- andmed
- andmete analüüs
- näitama
- Näidatud
- Määrama
- Arendajad
- arenev
- & Tarkvaraarendus
- jaotus
- Domeenid
- alla
- Drop
- dünaamika
- mõju
- võimaldades
- Inseneriteadus
- Inseneride
- sisene
- ettevõte
- näide
- Välja arvatud
- kogemus
- ulatuslik
- kiiremini
- tunnusjoon
- Lõpuks
- Firma
- esimene
- voog
- keskendub
- järgima
- Järel
- Alates
- funktsioon
- funktsioonid
- edasi
- Globaalne
- suur
- Grupi omad
- võttes
- kasulik
- aitab
- Kuidas
- Kuidas
- HTTPS
- identifitseerima
- tähtsus
- tööstus
- Innovatsioon
- Interface
- IT
- teekond
- hoidma
- suur
- Õppida
- õppimine
- Led
- joon
- nimekiri
- masin
- masinõpe
- kaart
- Märts
- Turg
- Vastama
- ML
- mudel
- kuu
- kuu
- rohkem
- muusika
- nimed
- New York
- number
- Muu
- üldine
- kirglik
- esitades
- mängimine
- Valmistama
- eelmine
- Toode
- anda
- tingimusel
- annab
- ostma
- Ostud
- kvantitatiivne
- kiiresti
- Töötlemata
- andmed
- peegeldab
- läbi
- Arvustused
- ketendamine
- teadlane
- Teenused
- lihtne
- alates
- SIX
- tarkvara
- tarkvaraarenduse
- Lahendused
- spetsialist
- algus
- statistika
- ladustamine
- salvestada
- sihtmärk
- meeskond
- Tehnoloogia
- .
- seetõttu
- kolm
- aeg
- tööriist
- ülemine
- Muutma
- muundumised
- liigid
- kasutama
- väärtus
- eri
- visualiseerimine
- mahud
- web
- veebiteenused
- WHO
- imeline
- töötab
- väärt
- kirjutamine
- X
- aasta
- aastat
- Sinu