Amazon SageMaker Data Wrangler er et specialbygget dataaggregerings- og forberedelsesværktøj til maskinlæring (ML). Det giver dig mulighed for at bruge en visuel grænseflade til at få adgang til data og udføre undersøgende dataanalyse (EDA) og feature engineering. EDA-funktionen kommer med indbyggede dataanalysefunktioner til diagrammer (såsom scatterplot eller histogram) og tidsbesparende modelanalysefunktioner såsom funktionsvigtighed, mållækage og modelforklarlighed. Funktionsteknologien har over 300 indbyggede transformationer og kan udføre brugerdefinerede transformationer ved hjælp af enten Python, PySpark eller Spark SQL runtime.
Til tilpassede visualiseringer og transformationer giver Data Wrangler nu eksempler på kodestykker til almindelige typer visualiseringer og transformationer. I dette indlæg viser vi, hvordan du bruger disse kodestykker til at hurtigstarte din EDA i Data Wrangler.
Løsningsoversigt
I skrivende stund kan du importere datasæt til Data Wrangler fra Amazon Simple Storage Service (Amazon S3), Amazonas Athena, Amazon rødforskydning, Databricks og Snowflake. Til dette indlæg bruger vi Amazon S3 til at gemme 2014 Amazon gennemgår datasæt. Følgende er et eksempel på datasættet:
I dette indlæg udfører vi EDA ved hjælp af tre kolonner—asin
, reviewTime
og overall
— som er knyttet til henholdsvis produkt-id'et, anmeldelsestidsdatoen og den samlede anmeldelsesscore. Vi bruger disse data til at visualisere dynamikken for antallet af anmeldelser på tværs af måneder og år.
Brug af eksempelkodestykke til EDA i Data Wrangler
For at begynde at udføre EDA i Data Wrangler skal du udføre følgende trin:
- Download Digital Music anmeldelser datasæt JSON og upload det til Amazon S3.
Vi bruger dette som det rå datasæt til EDA. - Åbne Amazon SageMaker Studio og opret et nyt Data Wrangler-flow og importer datasættet fra Amazon S3.
Dette datasæt har ni kolonner, men vi bruger kun tre:
asin
,reviewTime
ogoverall
. Vi er nødt til at droppe de andre seks kolonner. - Opret en tilpasset transformation og vælg Python (PySpark).
- Udvid Søg i eksempeluddrag Og vælg Slet alle kolonner undtagen flere.
- Indtast det medfølgende uddrag i din tilpassede transformation, og følg vejledningen for at ændre koden.
Nu hvor vi har alle de kolonner, vi har brug for, lad os filtrere dataene ned for kun at beholde anmeldelser mellem 2000-2020.
- Brug Filtertidsstempel uden for rækkevidde uddrag for at droppe dataene før år 2000 og efter 2020:
Dernæst udtrækker vi året og måneden fra kolonnen reviewTime.
- Brug Vis dato/tid transformere.
- Til Udtræk kolonner, vælg år , måned.
Dernæst ønsker vi at aggregere antallet af anmeldelser efter år og måned, som vi oprettede i det forrige trin.
- Brug Beregn statistik i grupper uddrag:
- Omdøb sammenlægningen af det forrige trin fra
count(overall)
tilreviews_num
ved at vælge Administrer kolonner og Omdøb kolonne transformere.
Endelig ønsker vi at lave et varmekort for at visualisere fordelingen af anmeldelser efter år og måned. - Vælg på analysefanen Brugerdefineret visualisering.
- Udvid Søg efter uddrag Og vælg Heatmap i rullemenuen.
- Indtast det medfølgende uddrag i din tilpassede visualisering:
Vi får følgende visualisering.
Hvis du vil forbedre varmekortet yderligere, kan du opdele dataene til kun at vise anmeldelser før 2011. Disse er svære at identificere i det varmekort, vi lige har oprettet på grund af store mængder anmeldelser siden 2012. - Tilføj en linje kode til din tilpassede visualisering:
Vi får følgende varmekort.
Nu afspejler heatmap anmeldelserne før 2011 mere synligt: vi kan observere sæsoneffekterne (slutningen af året bringer flere køb og derfor flere anmeldelser) og kan identificere unormale måneder, såsom oktober 2003 og marts 2005. Det er værd at undersøge nærmere at fastslå årsagen til disse uregelmæssigheder.
Konklusion
Data Wrangler er et specialbygget dataaggregations- og forberedelsesværktøj til ML. I dette indlæg demonstrerede vi, hvordan du udfører EDA og transformerer dine data hurtigt ved hjælp af kodestykker leveret af Data Wrangler. Du skal bare finde et uddrag, indtaste koden og justere parametrene, så de matcher dit datasæt. Du kan fortsætte med at iterere på dit script for at skabe mere komplekse visualiseringer og transformationer.
For at lære mere om Data Wrangler, se Opret og brug et datawrangler-flow.
Om forfatterne
Nikita Ivkin er en anvendt videnskabsmand, Amazon SageMaker Data Wrangler.
Haider Naqvi er Solutions Architect hos AWS. Han har omfattende erfaring med softwareudvikling og virksomhedsarkitektur. Han fokuserer på at gøre det muligt for kunderne at opnå forretningsresultater med AWS. Han er baseret i New York.
Harish Rajagopalan er Senior Solutions Architect hos Amazon Web Services. Harish arbejder med virksomhedskunder og hjælper dem med deres cloudrejse.
James Wu er Senior AI/ML Specialist SA hos AWS. Han arbejder med kunder for at fremskynde deres cloud-rejse og fremskynde deres forretningsværdirealisering. Ud over det brænder James også for at udvikle og skalere store AI/ML-løsninger på tværs af forskellige domæner. Før han kom til AWS, ledede han et multidisciplinært innovationsteknologiteam med ML-ingeniører og softwareudviklere for et globalt topfirma inden for markeds- og reklamebranchen.
- Coinsmart. Europas bedste Bitcoin og Crypto Exchange.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. FRI ADGANG.
- CryptoHawk. Altcoin radar. Gratis prøveversion.
- Kilde: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Om
- fremskynde
- adgang
- opnå
- tværs
- Desuden
- Reklame
- Alle
- tillader
- Amazon
- Amazon Web Services
- analyse
- anvendt
- arkitektur
- til rådighed
- AWS
- Axis
- fordi
- før
- mellem
- indbygget
- virksomhed
- kapaciteter
- Årsag
- Diagrammer
- Vælg
- Cloud
- kode
- Kolonne
- Fælles
- fuldføre
- komplekse
- fortsæt
- kontrol
- skabe
- oprettet
- skik
- Kunder
- data
- dataanalyse
- demonstrere
- demonstreret
- Bestem
- udviklere
- udvikling
- Udvikling
- fordeling
- Domæner
- ned
- Drop
- dynamik
- effekter
- muliggør
- Engineering
- Ingeniører
- Indtast
- Enterprise
- eksempel
- Undtagen
- erfaring
- omfattende
- hurtigere
- Feature
- Endelig
- Firm
- Fornavn
- flow
- fokuserer
- følger
- efter
- fra
- funktion
- funktioner
- yderligere
- Global
- stor
- Gruppens
- have
- hjælpsom
- hjælper
- Hvordan
- How To
- HTTPS
- identificere
- betydning
- industrien
- Innovation
- grænseflade
- IT
- rejse
- Holde
- stor
- LÆR
- læring
- Led
- Line (linje)
- Liste
- maskine
- machine learning
- kort
- Marts
- Marked
- Match
- ML
- model
- Måned
- måned
- mere
- Musik
- navne
- New York
- nummer
- Andet
- samlet
- lidenskabelige
- udfører
- spiller
- Forbered
- tidligere
- Produkt
- give
- forudsat
- giver
- køb
- indkøb
- kvantitativ
- hurtigt
- Raw
- optegnelser
- afspejler
- gennemgå
- Anmeldelser
- skalering
- Videnskabsmand
- Tjenester
- Simpelt
- siden
- SIX
- Software
- softwareudvikling
- Løsninger
- specialist
- starte
- statistik
- opbevaring
- butik
- mål
- hold
- Teknologier
- derfor
- tre
- tid
- værktøj
- top
- Transform
- transformationer
- typer
- brug
- værdi
- forskellige
- visualisering
- mængder
- web
- webservices
- WHO
- vidunderlig
- virker
- værd
- skrivning
- X
- år
- år
- Din