Valmistele tiedot nopeammin PySparkin ja Altairin koodikatkelmien avulla Amazon SageMaker Data Wranglerissa

Julkaissut Platon

seuraajia: 0

Amazon SageMaker Data Wrangler on tarkoitukseen rakennettu datan kokoamis- ja valmistelutyökalu koneoppimiseen (ML). Sen avulla voit käyttää visuaalista käyttöliittymää tietojen käyttämiseen ja tutkivan data-analyysin (EDA) ja ominaisuuksien suunnitteluun. EDA-ominaisuuden mukana tulee sisäänrakennetut data-analyysiominaisuudet kaavioita varten (kuten sirontadiagrammi tai histogrammi) ja aikaa säästäviä mallianalyysiominaisuuksia, kuten ominaisuuden tärkeys, kohdevuoto ja mallin selitettävyys. Ominaisuussuunnittelussa on yli 300 sisäänrakennettua muunnosa, ja se voi suorittaa mukautettuja muunnoksia käyttämällä joko Python-, PySpark- tai Spark SQL -ajoaikaa.

Data Wrangler tarjoaa nyt esimerkkikoodinpätkiä mukautettuja visualisointeja ja muunnoksia varten yleisiä visualisointeja ja muunnoksia varten. Tässä viestissä näytämme, kuinka voit käyttää näitä koodinpätkiä EDA:n pikakäynnistykseen Data Wranglerissa.

Ratkaisun yleiskatsaus

Tätä kirjoitettaessa voit tuoda tietojoukkoja Data Wrangleriin osoitteesta Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athena, Amazonin punainen siirto, Databricks ja Snowflake. Tätä viestiä varten käytämme Amazon S3:a vuoden 2014 Amazonin tallentamiseen arvostelujen tietojoukko. Seuraava on esimerkki tietojoukosta:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

Tässä viestissä suoritamme EDA:n käyttämällä kolmea saraketta -asin, reviewTimeja overall-joka liittyy vastaavasti tuotetunnukseen, arvostelun päivämäärään ja yleisarvostukseen. Käytämme näitä tietoja arvioiden dynamiikkaa kuukausien ja vuosien arvioiden lukumäärälle.

Käytä esimerkkikoodinpätkää EDA:lle Data Wranglerissa

Aloita EDA:n suorittaminen Data Wranglerissa suorittamalla seuraavat vaiheet:

Lataa Digital Music -arvostelujen tietojoukko JSON ja lataa se Amazon S3:een.
Käytämme tätä EDA:n raakatietona.
avoin Amazon SageMaker Studio ja luo uusi Data Wrangler -kulku ja tuo tietojoukko Amazon S3:sta.

Tässä tietojoukossa on yhdeksän saraketta, mutta käytämme vain kolmea: asin, reviewTimeja overall. Meidän on pudotettava kuusi muuta saraketta.
Luo mukautettu muunnos ja valitse Python (PySpark).
Laajentaa Hae esimerkkikatkelmia Ja valitse Pudota kaikki sarakkeet useita lukuun ottamatta.
Kirjoita toimitettu koodinpätkä mukautettuun muunnosasi ja seuraa ohjeita koodin muokkaamiseksi.
```
# Specify the subset of columns to keep
cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)
```
Nyt kun meillä on kaikki tarvitsemamme sarakkeet, suodatetaan tiedot alas, jotta arvostelut säilyvät vain vuosina 2000–2020.

Käytä Suodattimen aikaleima alueen ulkopuolella katkelma tietojen pudottamiseksi ennen vuotta 2000 ja 2020 jälkeen:

from pyspark.sql.functions import col
from datetime import datetime # specify the start and the stop timestamp
timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

Seuraavaksi poimimme vuoden ja kuukauden reviewTime-sarakkeesta.

Käytä Esitä päivämäärä/aika muuttaa.
varten Pura sarakkeet, valitse vuosi ja kuukausi.

Seuraavaksi haluamme koota edellisessä vaiheessa luomien arvostelujen määrän vuoden ja kuukauden mukaan.

Käytä Laske tilastot ryhmissä katkelma:

# Table is available as variable `df`
from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
# aggregates to use: sum, avg, max, min, mean, count
aggregate_map = {count: ["overall"]} all_aggregates = []
for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

Nimeä edellisen vaiheen aggregaatti uudelleen nimellä count(overall) että reviews_num valitsemalla Hallitse sarakkeita ja Nimeä sarake uudelleen muuttaa.
Lopuksi haluamme luoda lämpökartan, joka visualisoi arvostelujen jakautumisen vuosi- ja kuukausikohtaisesti.
Valitse Analyysi-välilehdeltä Mukautettu visualisointi.
Laajentaa Etsi katkelma Ja valitse Lämpökartta avattavasta valikosta.

Kirjoita toimitettu katkelma mukautettuun visualisointiisi:

# Table is available as variable `df`
# Table is available as variable `df`
import altair as alt # Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

Saamme seuraavan visualisoinnin.

Jos haluat parantaa lämpökarttaa entisestään, voit leikata tiedot näyttämään vain vuotta 2011 edeltävät arvostelut. Näitä on vaikea tunnistaa juuri luomassamme lämpökartassa, koska vuoden 2012 jälkeen on tehty paljon arvosteluja.

Lisää yksi koodirivi mukautettuun visualisointiisi:

# Table is available as variable `df`
import altair as alt df = df[df.reviewTime_year < 2011]
# Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

Saamme seuraavan lämpökartan.

Nyt lämpökartta heijastaa selkeämmin vuotta 2011 edeltäviä arvioita: voimme havaita kausiluonteisia vaikutuksia (vuoden loppu tuo enemmän ostoksia ja siten enemmän arvosteluja) ja tunnistaa poikkeavia kuukausia, kuten lokakuu 2003 ja maaliskuu 2005. Kannattaa tutkia lisää. selvittääkseen näiden poikkeavuuksien syyn.

Yhteenveto

Data Wrangler on tarkoitukseen rakennettu tietojen yhdistämis- ja valmistelutyökalu ML:lle. Tässä viestissä osoitimme kuinka suorittaa EDA ja muuttaa tietosi nopeasti Data Wranglerin toimittamien koodinpätkien avulla. Sinun tarvitsee vain löytää katkelma, syöttää koodi ja säätää parametreja vastaamaan tietojoukkoasi. Voit jatkaa skriptin iterointia luodaksesi monimutkaisempia visualisointeja ja muunnoksia.
Lisätietoja Data Wranglerista on kohdassa Luo ja käytä Data Wrangler -kulkua.

Tietoja Tekijät

Nikita Ivkin on soveltuva tutkija, Amazon SageMaker Data Wrangler.

Haider Naqvi on ratkaisuarkkitehti AWS:ssä. Hänellä on laaja kokemus ohjelmistokehityksestä ja yritysarkkitehtuurista. Hän keskittyy siihen, että asiakkaat voivat saavuttaa liiketoimintatuloksia AWS:n avulla. Hänen kotipaikkansa on New Yorkista.

Harish Rajagopalan on vanhempi ratkaisuarkkitehti Amazon Web Servicesissä. Harish työskentelee yritysasiakkaiden kanssa ja auttaa heitä heidän pilvimatkallaan.

James Wu on Senior AI/ML Specialist SA AWS:ssä. Hän työskentelee asiakkaiden kanssa nopeuttaakseen heidän pilvimatkaansa ja nopeuttaakseen heidän liiketoiminnan arvon toteutumista. Tämän lisäksi James on myös intohimoinen suurten AI/ML-ratkaisujen kehittämiseen ja skaalaamiseen eri aloilla. Ennen AWS:lle tuloaan hän johti monitieteistä innovaatioteknologiatiimiä ML-insinöörien ja ohjelmistokehittäjien kanssa markkinoiden ja mainosalan huippuyrityksessä.

Aikaleima: Kesäkuu 15, 2022

Aikaleima: Marraskuu 30, 2022

Valmistele tietoja nopeammin PySpark- ja Altair-koodinpätkäillä Amazon SageMaker Data Wranglerissa

Julkaissut Platon

Ratkaisun yleiskatsaus

Käytä esimerkkikoodinpätkää EDA:lle Data Wranglerissa

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Whitepaper: Koneoppimisen parhaat käytännöt terveydenhuollossa ja biotieteissä

Valmistele kuvatiedot Amazon SageMaker Data Wranglerilla

Maksimoi suorituskyky ja alenna syvän oppimisen koulutuskustannuksia AWS Trainiumin ja Amazon SageMakerin avulla

AI21 Jurassic-1 -perusmalli on nyt saatavilla Amazon SageMakerissa

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili