Prepare Data Faster With PySpark And Altair Code Snippets In Amazon SageMaker Data Wrangler

Újra kiadta Platón

Követő: 0

Amazon SageMaker Data Wrangler egy erre a célra kialakított adatösszesítő és -előkészítő eszköz a gépi tanuláshoz (ML). Lehetővé teszi egy vizuális interfész használatát az adatok eléréséhez, valamint feltáró adatelemzés (EDA) és funkciótervezés végrehajtásához. Az EDA funkció beépített adatelemzési képességekkel rendelkezik diagramokhoz (mint például szóródiagram vagy hisztogram), és időtakarékos modellelemzési képességekkel rendelkezik, mint például a jellemzők fontossága, a célszivárgás és a modell magyarázhatósága. A funkciótervezési képesség több mint 300 beépített átalakítást tartalmaz, és egyéni átalakításokat hajthat végre Python, PySpark vagy Spark SQL futtatókörnyezet használatával.

Az egyéni vizualizációkhoz és átalakításokhoz a Data Wrangler most példakódrészleteket biztosít a szokásos vizualizációkhoz és átalakításokhoz. Ebben a bejegyzésben bemutatjuk, hogyan használhatja ezeket a kódrészleteket az EDA gyors elindításához a Data Wranglerben.

Megoldás áttekintése

Ennek az írásnak az idején importálhat adatkészleteket a Data Wranglerbe innen Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShift, Databricks és Snowflake. Ebben a bejegyzésben az Amazon S3-at használjuk a 2014-es Amazon tárolására áttekintések adatkészlet. A következő minta az adatkészletből:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

Ebben a bejegyzésben az EDA-t három oszlop segítségével hajtjuk végre:asin, reviewTimeés overall– amely megfelel a termékazonosítónak, a felülvizsgálat időpontjának és az általános értékelési pontszámnak. Ezeket az adatokat arra használjuk, hogy megjelenítsük a felülvizsgálatok számának dinamikáját hónapok és évek szerint.

Példakódrészlet az EDA-hoz a Data Wranglerben

Az EDA végrehajtásának megkezdéséhez a Data Wranglerben hajtsa végre a következő lépéseket:

Töltse le a Digital Music vélemények adatkészlet JSON, és töltse fel az Amazon S3-ra.
Ezt használjuk az EDA nyers adatkészleteként.
Nyisd ki Amazon SageMaker Studio és hozzon létre egy új Data Wrangler-folyamatot, és importálja az adatkészletet az Amazon S3-ból.

Ez az adatkészlet kilenc oszlopot tartalmaz, de mi csak hármat használunk: asin, reviewTimeés overall. El kell dobnunk a másik hat oszlopot.
Hozzon létre egy egyéni átalakítást, és válassza ki Python (PySpark).
Bontsa Példarészletek keresése És válasszon Húzza el az összes oszlopot, kivéve néhányat.
Írja be a megadott kódrészletet az egyéni átalakításba, és kövesse az utasításokat a kód módosításához.
```
# Specify the subset of columns to keep
cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)
```
Most, hogy megvan az összes szükséges oszlop, szűrjük le az adatokat, hogy csak 2000 és 2020 között tartsuk meg az értékeléseket.

Használja a Szűrési időbélyeg a tartományon kívül részlet a 2000 előtti és 2020 utáni adatok eldobásához:

from pyspark.sql.functions import col
from datetime import datetime # specify the start and the stop timestamp
timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

Ezután kivonjuk az évet és a hónapot a reviewTime oszlopból.

Használja a Jelölje ki a dátumot/időt átalakítani.
A Oszlopok kibontása, választ év és a hónap.

Ezután szeretnénk összesíteni az előző lépésben létrehozott vélemények számát év és hónap szerint.

Használja a Statisztikák készítése csoportokban töredék:

# Table is available as variable `df`
from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
# aggregates to use: sum, avg, max, min, mean, count
aggregate_map = {count: ["overall"]} all_aggregates = []
for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

Nevezze át az előző lépés összesítését erről: count(overall) nak nek reviews_num választásával Oszlopok kezelése és a Oszlop átnevezése átalakítani.
Végül szeretnénk létrehozni egy hőtérképet, amely megjeleníti a vélemények évenkénti és hónaponkénti megoszlását.
Az elemzés lapon válassza a lehetőséget Egyedi vizualizáció.
Bontsa Keressen rá a részletre És válasszon Hőtérkép a legördülő menüben.

Írja be a megadott kódrészletet az egyéni vizualizációba:

# Table is available as variable `df`
# Table is available as variable `df`
import altair as alt # Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

A következő vizualizációt kapjuk.

Ha tovább szeretné javítani a hőtérképet, akkor az adatokat szeletelheti úgy, hogy csak a 2011 előtti vélemények jelenjenek meg. Ezeket nehéz azonosítani az imént létrehozott hőtérképen, mivel 2012 óta nagy mennyiségű vélemény készült.

Adjon hozzá egy kódsort egyéni vizualizációjához:

# Table is available as variable `df`
import altair as alt df = df[df.reviewTime_year < 2011]
# Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

A következő hőtérképet kapjuk.

A hőtérkép most már láthatóbban tükrözi a 2011 előtti értékeléseket: megfigyelhetjük a szezonális hatásokat (az év vége több vásárlást és így több értékelést is hoz), és azonosítani tudjuk a rendellenes hónapokat, például 2003 októberét és 2005 márciusát. Érdemes tovább vizsgálni. hogy meghatározzuk azoknak az anomáliáknak az okát.

Következtetés

A Data Wrangler egy kifejezetten ML adatgyűjtő és -előkészítő eszköz. Ebben a bejegyzésben bemutattuk, hogyan hajthat végre EDA-t és hogyan alakíthatja át gyorsan adatait a Data Wrangler által biztosított kódrészletek segítségével. Csak meg kell találnia egy részletet, be kell írnia a kódot, és be kell állítania a paramétereket, hogy megfeleljenek az adatkészletnek. Folytathatja az iterációt a szkripten összetettebb vizualizációk és átalakítások létrehozásához.
Ha többet szeretne megtudni a Data Wranglerről, lásd: Hozzon létre és használjon Data Wrangler Flow-t.

A szerzőkről

Nyikita Ivkin az Amazon SageMaker Data Wrangler alkalmazott tudósa.

Haider Naqvi az AWS megoldási építésze. Széles körű szoftverfejlesztési és vállalati architektúra tapasztalattal rendelkezik. Arra összpontosít, hogy az ügyfelek üzleti eredményeket érjenek el az AWS segítségével. Székhelye New Yorkban van.

Harish Rajagopalan az Amazon Web Services vezető megoldási építésze. A Harish vállalati ügyfelekkel dolgozik, és segíti őket felhőalapú utazásukban.

James Wu az AWS vezető AI/ML specialistája. Együttműködik az ügyfelekkel, hogy felgyorsítsa a felhőalapú utazást, és felgyorsítsa üzleti értékük realizálását. Ezen túlmenően James szenvedélyesen foglalkozik nagyméretű AI/ML megoldások fejlesztésével és skálázásával a különböző tartományokban. Mielőtt csatlakozott az AWS-hez, egy multidiszciplináris innovációs technológiai csapatot vezetett ML mérnökökkel és szoftverfejlesztőkkel a piac és a reklámipar egyik vezető globális cégénél.

Időbélyeg: Június 15, 2022

Időbélyeg: 30. november 2022.

Az Amazon SageMaker Data Wranglerben található PySpark és Altair kódrészletekkel gyorsabban készíthet elő adatokat

Újra kiadta Platón

Megoldás áttekintése

Példakódrészlet az EDA-hoz a Data Wranglerben

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Fehér könyv: Bevált gépi tanulási gyakorlatok az egészségügyben és az élettudományokban

Készítsen képadatokat az Amazon SageMaker Data Wrangler segítségével

Maximalizálja a teljesítményt és csökkentse a mélytanulási képzés költségeit az AWS Trainium és az Amazon SageMaker segítségével

Az AI21 Jurassic-1 alapozómodell már elérhető az Amazon SageMakeren

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók