Valmistage andmeid kiiremini ette PySparki ja Altairi koodilõikude abil rakenduses Amazon SageMaker Data Wrangler

Taasavaldanud Platon

järgijaid: 0

Amazon SageMaker Data Wrangler on masinõppe (ML) jaoks mõeldud andmete koondamise ja ettevalmistamise tööriist. See võimaldab kasutada visuaalset liidest andmetele juurdepääsuks ning uurimusliku andmeanalüüsi (EDA) ja funktsioonide inseneri tegemiseks. EDA funktsiooniga on kaasas diagrammide jaoks sisseehitatud andmeanalüüsi võimalused (nt hajuvusdiagramm või histogramm) ja aega säästvad mudelianalüüsi võimalused, nagu funktsioonide tähtsus, sihtmärgi leke ja mudeli seletatavus. Funktsioonide insenerimisvõimalusel on üle 300 sisseehitatud teisenduse ja see võib teha kohandatud teisendusi Pythoni, PySparki või Spark SQL-i käitusaja abil.

Kohandatud visualiseerimiste ja teisenduste jaoks pakub Data Wrangler nüüd näidiskoodilõike tavapäraste visualiseerimis- ja teisendustüüpide jaoks. Selles postituses näitame, kuidas kasutada neid koodilõike oma EDA kiireks käivitamiseks Data Wrangleris.

Lahenduse ülevaade

Selle kirjutamise ajal saate andmekogumeid Data Wranglerisse importida Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane nihe, Databricks ja Snowflake. Selle postituse jaoks kasutame 3. aasta Amazoni salvestamiseks Amazon S2014 arvustuste andmestik. Järgmine on andmestiku näidis:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

Selles postituses teostame EDA kolme veeru abil -asin, reviewTimeja overall– mis vastab vastavalt toote ID-le, ülevaatuse kellaaja kuupäevale ja üldisele ülevaateskoorile. Kasutame neid andmeid arvustuste arvu dünaamika visualiseerimiseks kuude ja aastate lõikes.

EDA koodilõigu näite kasutamine Data Wrangleris

EDA käivitamiseks Data Wrangleris toimige järgmiselt.

Lae alla Digital Music arvustuste andmestik JSON ja laadige see Amazon S3-sse.
Kasutame seda EDA algandmestikuna.
avatud Amazon SageMaker Studio ja looge uus Data Wrangleri voog ning importige andmestik Amazon S3-st.

Sellel andmekogumil on üheksa veergu, kuid me kasutame ainult kolme: asin, reviewTimeja overall. Peame ülejäänud kuus veergu maha jätma.
Looge kohandatud teisendus ja valige Python (PySpark).
Laiendama Otsige näitelõike Ja vali Loobuge kõik veerud, välja arvatud mitu.
Sisestage esitatud koodilõik oma kohandatud teisendusse ja järgige koodi muutmiseks juhiseid.
```
# Specify the subset of columns to keep
cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)
```
Nüüd, kui meil on kõik vajalikud veerud, filtreerime andmed allapoole, et jätta arvustused alles aastatel 2000–2020.

Kasuta Filtri ajatempel väljaspool vahemikku katkend andmete eemaldamiseks enne aastat 2000 ja pärast 2020. aastat:

from pyspark.sql.functions import col
from datetime import datetime # specify the start and the stop timestamp
timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

Järgmisena eraldame veerust reviewTime aasta ja kuu.

Kasuta Esitage kuupäev/kellaaeg teisendada.
eest Ekstrakti veerud, vali aasta ja kuu.

Järgmiseks tahame koondada eelmises etapis loodud arvustuste arvu aasta ja kuu järgi.

Kasuta Arvutage statistikat rühmade kaupa katkend:

# Table is available as variable `df`
from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
# aggregates to use: sum, avg, max, min, mean, count
aggregate_map = {count: ["overall"]} all_aggregates = []
for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

Nimetage eelmise sammu koond ümber count(overall) et reviews_num valides Veergude haldamine ja Nimeta veerg ümber teisendada.
Lõpuks tahame luua soojuskaardi, et visualiseerida arvustuste jaotust aastate ja kuude kaupa.
Valige vahekaardil analüüs Kohandatud visualiseerimine.
Laiendama Otsige katkendit Ja vali Soojuskaart rippmenüüs.

Sisestage esitatud koodilõik oma kohandatud visualiseerimisse:

# Table is available as variable `df`
# Table is available as variable `df`
import altair as alt # Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

Saame järgmise visualiseerimise.

Kui soovite soojuskaarti veelgi täiustada, saate andmeid tükeldada, et kuvada ainult 2011. aasta eelseid arvustusi. Neid on äsja loodud soojuskaardil raske tuvastada, kuna alates 2012. aastast on arvustusi palju.

Lisage oma kohandatud visualiseeringule üks koodirida:

# Table is available as variable `df`
import altair as alt df = df[df.reviewTime_year < 2011]
# Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

Saame järgmise soojuskaardi.

Nüüd kajastab soojuskaart nähtavamalt 2011. aasta eelseid ülevaateid: saame jälgida hooajalisi mõjusid (aasta lõpp toob rohkem oste ja seega ka arvustusi) ning tuvastada ebanormaalsed kuud, nagu oktoober 2003 ja märts 2005. Tasub edasi uurida. et teha kindlaks nende kõrvalekallete põhjus.

Järeldus

Data Wrangler on ML-i jaoks mõeldud andmete koondamise ja ettevalmistamise tööriist. Selles postituses näitasime, kuidas EDA-d teha ja andmeid kiiresti muuta, kasutades Data Wrangleri pakutavaid koodilõike. Peate lihtsalt leidma väljalõike, sisestama koodi ja kohandama parameetreid, et need vastaksid teie andmestikule. Saate jätkata skripti itereerimist, et luua keerukamaid visualiseerimisi ja teisendusi.
Data Wrangleri kohta lisateabe saamiseks vaadake Looge ja kasutage Data Wrangleri voogu.

Autoritest

Nikita Ivkin on Amazon SageMaker Data Wrangleri rakendusteadlane.

Haider Naqvi on AWS-i lahenduste arhitekt. Tal on ulatuslik tarkvaraarenduse ja ettevõttearhitektuuri kogemus. Ta keskendub sellele, et võimaldada klientidel AWS-iga äritulemusi saavutada. Ta asub New Yorgist väljas.

Harish Rajagopalan on Amazon Web Servicesi vanemlahenduste arhitekt. Harish töötab äriklientidega ja aitab neil pilveteekonnal.

James Wu on AWS-i AI/ML vanemspetsialist SA. Ta teeb koostööd klientidega, et kiirendada nende pilveteekonda ja kiirendada nende äriväärtuse realiseerimist. Lisaks sellele on James kirglik ka suurte AI/ML-lahenduste arendamise ja skaleerimise vastu erinevates valdkondades. Enne AWS-iga liitumist juhtis ta multidistsiplinaarset innovatsioonitehnoloogia meeskonda koos ML-i inseneride ja tarkvaraarendajatega turu- ja reklaamitööstuse tippettevõttes.

Ajatempel: Juuni 15, 2022

Ajatempel: November 30, 2022

Valmistage andmeid kiiremini ette PySparki ja Altairi koodilõikudega rakenduses Amazon SageMaker Data Wrangler

Taasavaldanud Platon

Lahenduse ülevaade

EDA koodilõigu näite kasutamine Data Wrangleris

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Valge raamat: masinõppe parimad tavad tervishoius ja bioteadustes

Valmistage ette pildiandmed rakendusega Amazon SageMaker Data Wrangler

Maksimeerige jõudlust ja vähendage oma süvaõppe koolituskulusid AWS Trainiumi ja Amazon SageMakeriga

AI21 Jurassic-1 vundamendimudel on nüüd saadaval Amazon SageMakeris

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto