Behandle større og bredere datasett med Amazon SageMaker Data Wrangler

Publisert av Platon

Følgere: 0

Amazon SageMaker Data Wrangler reduserer tiden for å samle og forberede data for maskinlæring (ML) fra uker til minutter Amazon SageMaker Studio. Data Wrangler kan forenkle dataforberedelsen og funksjonen ingeniørprosesser og hjelpe deg med datavalg, rengjøring, utforskning og visualisering. Data Wrangler har over 300 innebygde transformasjoner skrevet i PySpark, slik at du kan behandle datasett opptil hundrevis av gigabyte effektivt på standardforekomsten, ml.m5.4xlarge.

Men når du jobber med datasett på opptil terabyte med data ved hjelp av innebygde transformasjoner, kan du oppleve lengre behandlingstid eller potensielle feil med ut-av-minnet. Basert på datakravene dine kan du nå bruke ytterligere Amazon Elastic Compute Cloud (Amazon EC2) M5-forekomster og R5-forekomster. Du kan for eksempel starte med en standardforekomst (ml.m5.4xlarge) og deretter bytte til ml.m5.24xlarge eller ml.r5.24xlarge. Du har muligheten til å velge forskjellige forekomsttyper og finne den beste avveiningen av driftskostnader og behandlingstider. Neste gang du jobber med tidsserietransformasjon og kjører tunge transformatorer for å balansere dataene dine, kan du rette størrelsen på Data Wrangler-forekomsten for å kjøre disse prosessene raskere.

Når du behandler titalls gigabyte eller enda mer med en egendefinert Pandas-transformasjon, kan du oppleve feil med tomt minne. Du kan bytte fra standardforekomsten (ml.m5.4xlarge) til ml.m5.24xlarge, og transformasjonen vil fullføres uten noen feil. Vi har grundig benchmarket og observert lineær hastighetsøkning etter hvert som vi økte forekomststørrelsen på tvers av en portefølje av datasett.

I dette innlegget deler vi funnene våre fra to benchmark-tester for å demonstrere hvordan du kan behandle større og bredere datasett med Data Wrangler.

Data Wrangler benchmark tester

La oss se på to tester vi kjørte, aggregeringsspørringer og one-hot-koding, med forskjellige instanstyper som bruker PySpark innebygde transformatorer og tilpassede Pandas-transformasjoner. Transformasjoner som ikke krever aggregering fullføres raskt og fungerer bra med standardforekomsttypen, så vi fokuserte på aggregeringsspørringer og transformasjoner med aggregering. Vi lagret testdatasettet vårt på Amazon enkel lagringstjeneste (Amazon S3). Dette datasettets utvidede størrelse er rundt 100 GB med 80 millioner rader og 300 kolonner. Vi brukte UI-beregninger for å time benchmark-tester og måle ende-til-ende kundevendt latens. Når du importerer testdatasettet vårt, vi deaktiverte prøvetaking. Sampling er aktivert som standard, og Data Wrangler behandler bare de første 100 radene når den er aktivert.x

Etter hvert som vi økte Data Wrangler-forekomststørrelsen, observerte vi en omtrent lineær hastighetsøkning av Data Wrangler innebygde transformasjoner og tilpasset Spark SQL. Pandas aggregeringsspørringstester ble bare fullført når vi brukte forekomster større enn ml.m5.16xl, og Pandas trengte 180 GB minne for å behandle aggregeringsspørringer for dette datasettet.

Tabellen nedenfor oppsummerer testresultatene for aggregeringsspørringer.

Forekomst	vCPU	Minne (GiB)	Data Wrangler innebygd Spark-transformasjonstid	Pandas tid (Egendefinert transformasjon)
ml.m5.4xl	16	64	229 sekunder	Uten minne
ml.m5.8xl	32	128	130 sekunder	Uten minne
ml.m5.16xl	64	256	52 sekunder	30 minutter

Følgende tabell oppsummerer resultatene for one-hot-kodingstesten.

Forekomst	vCPU	Minne (GiB)	Data Wrangler innebygd Spark-transformasjonstid	Pandas tid (Egendefinert transformasjon)
ml.m5.4xl	16	64	228 sekunder	Uten minne
ml.m5.8xl	32	128	130 sekunder	Uten minne
ml.m5.16xl	64	256	52 sekunder	Uten minne

Bytt forekomsttype for en dataflyt

For å bytte forekomsttype for flyten din, fullfør følgende trinn:

På Amazon SageMaker Data Wrangler-konsollen, naviger til dataflyten du bruker for øyeblikket.
Velg forekomsttypen på navigasjonslinjen.
Velg forekomsttypen du vil bruke.
Velg Spar.

En fremdriftsmelding vises.

Når byttet er fullført, vises en suksessmelding.

Data Wrangler bruker den valgte forekomsttypen for dataanalyse og datatransformasjoner. Standardforekomsten og forekomsten du byttet til (ml.m5.16xlarge) kjører begge. Du kan endre forekomsttypen eller bytte tilbake til standardforekomsten før du kjører en spesifikk transformasjon.

Slå av ubrukte forekomster

Du belastes for alle kjørende forekomster. For å unngå ekstra kostnader, slå av forekomstene du ikke bruker manuelt. For å slå av en forekomst som kjører, fullfør følgende trinn:

På dataflytsiden din velger du forekomstikonet i venstre rute i brukergrensesnittet under Kjørende forekomster.
Velg Slå.

Hvis du slår av en forekomst som brukes til å kjøre en flyt, har du ikke tilgang til flyten midlertidig. Hvis du får en feil når du åpner flyten som kjører en instans du tidligere har stengt av, vent i ca. 5 minutter og prøv å åpne den igjen.

konklusjonen

I dette innlegget demonstrerte vi hvordan vi behandler større og bredere datasett med Data Wrangler ved å bytte instanser til større M5- eller R5-instanstyper. M5-forekomster tilbyr en balanse mellom data-, minne- og nettverksressurser. R5-forekomster er minneoptimaliserte forekomster. Både M5 og R5 gir forekomsttyper for å optimalisere kostnader og ytelse for arbeidsbelastningene dine.

For å lære mer om bruk av dataflyter med Data Wrangler, se Opprett og bruk en Data Wrangler-flyt og Amazon SageMaker-priser. For å komme i gang med Data Wrangler, se Forbered ML-data med Amazon SageMaker Data Wrangler.

Om forfatterne

Haider Naqvi er løsningsarkitekt hos AWS. Han har omfattende erfaring med programvareutvikling og bedriftsarkitektur. Han fokuserer på å gjøre det mulig for kunder å oppnå forretningsresultater med AWS. Han er basert i New York.

Huong Nguyen er Sr. Product Manager hos AWS. Hun leder integrasjonen av dataøkosystem for SageMaker, med 14 års erfaring med å bygge kundesentrerte og datadrevne produkter for både bedrifts- og forbrukerrom.

Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med AWS. Han hjelper høyteknologiske strategiske kontoer på deres AI- og ML-reise. Han er veldig lidenskapelig opptatt av datadrevet AI.

Sriharsha M Sr er en AI/ML Specialist Solutions Architect i Strategic Specialist-teamet hos Amazon Web Services. Han jobber med strategiske AWS-kunder som utnytter AI/ML for å løse komplekse forretningsproblemer. Han gir teknisk veiledning og designråd for å implementere AI/ML-applikasjoner i stor skala. Hans ekspertise spenner over applikasjonsarkitektur, big data, analyse og maskinlæring.