Behandl større og bredere datasæt med Amazon SageMaker Data Wrangler

Genudgivet af Platon

Abonnenter: 0

Amazon SageMaker Data Wrangler reducerer tiden til at samle og forberede data til maskinlæring (ML) fra uger til minutter Amazon SageMaker Studio. Data Wrangler kan forenkle din dataforberedelse og funktioner ingeniørprocesser og hjælpe dig med datavalg, rensning, udforskning og visualisering. Data Wrangler har over 300 indbyggede transformationer skrevet i PySpark, så du kan behandle datasæt op til hundredvis af gigabyte effektivt på standardinstansen, ml.m5.4xlarge.

Men når du arbejder med datasæt op til terabyte data ved hjælp af indbyggede transformationer, kan du opleve længere behandlingstid eller potentielle fejl i hukommelsen. Baseret på dine datakrav kan du nu bruge yderligere Amazon Elastic Compute Cloud (Amazon EC2) M5 tilfælde , R5 tilfælde. For eksempel kan du starte med en standardinstans (ml.m5.4xlarge) og derefter skifte til ml.m5.24xlarge eller ml.r5.24xlarge. Du har mulighed for at vælge forskellige instanstyper og finde den bedste afvejning af driftsomkostninger og behandlingstider. Næste gang du arbejder på tidsserietransformation og kører tunge transformere for at balancere dine data, kan du tilpasse din Data Wrangler-instans i den rigtige størrelse for at køre disse processer hurtigere.

Når du behandler snesevis af gigabyte eller endnu mere med en brugerdefineret Pandas-transformation, kan du opleve, at der ikke er hukommelsesfejl. Du kan skifte fra standardforekomsten (ml.m5.4xlarge) til ml.m5.24xlarge, og transformationen afsluttes uden fejl. Vi benchmarkede og observerede grundigt lineær hastighed, da vi øgede instansstørrelsen på tværs af en portefølje af datasæt.

I dette indlæg deler vi vores resultater fra to benchmark-tests for at demonstrere, hvordan du kan behandle større og bredere datasæt med Data Wrangler.

Data Wrangler benchmark test

Lad os gennemgå to tests, vi kørte, aggregeringsforespørgsler og one-hot-kodning, med forskellige instanstyper ved hjælp af PySpark indbyggede transformere og brugerdefinerede Pandas-transformationer. Transformationer, der ikke kræver aggregering, afsluttes hurtigt og fungerer godt med standardinstanstypen, så vi fokuserede på aggregeringsforespørgsler og transformationer med aggregering. Vi gemte vores testdatasæt på Amazon Simple Storage Service (Amazon S3). Dette datasæts udvidede størrelse er omkring 100 GB med 80 millioner rækker og 300 kolonner. Vi brugte UI-målinger til at time benchmark-tests og måle ende-til-ende kundevendt latens. Når du importerer vores testdatasæt, vi deaktiverede prøveudtagning. Sampling er aktiveret som standard, og Data Wrangler behandler kun de første 100 rækker, når den er aktiveret.x

Da vi øgede Data Wrangler-forekomststørrelsen, observerede vi en nogenlunde lineær fremskyndelse af Data Wranglers indbyggede transformationer og tilpasset Spark SQL. Pandas aggregeringsforespørgselstest blev først afsluttet, når vi brugte forekomster større end ml.m5.16xl, og Pandas havde brug for 180 GB hukommelse til at behandle aggregeringsforespørgsler til dette datasæt.

Følgende tabel opsummerer aggregeringsforespørgselstestresultaterne.

Instans	vCPU	Hukommelse (GiB)	Data Wrangler indbygget Spark-transformationstid	Pandas tid (Tilpasset transformation)
ml.m5.4xl	16	64	229 sekunder	Ikke mere hukommelse
ml.m5.8xl	32	128	130 sekunder	Ikke mere hukommelse
ml.m5.16xl	64	256	52 sekunder	30 minutter

Følgende tabel opsummerer resultaterne af one-hot-kodningstesten.

Instans	vCPU	Hukommelse (GiB)	Data Wrangler indbygget Spark-transformationstid	Pandas tid (Tilpasset transformation)
ml.m5.4xl	16	64	228 sekunder	Ikke mere hukommelse
ml.m5.8xl	32	128	130 sekunder	Ikke mere hukommelse
ml.m5.16xl	64	256	52 sekunder	Ikke mere hukommelse

Skift instanstypen for et dataflow

For at skifte instanstype for dit flow skal du udføre følgende trin:

På Amazon SageMaker Data Wrangler-konsollen skal du navigere til det dataflow, du bruger i øjeblikket.
Vælg instanstypen på navigationslinjen.
Vælg den instanstype, du vil bruge.
Vælg Gem.

En statusmeddelelse vises.

Når skiftet er gennemført, vises en succesmeddelelse.

Data Wrangler bruger den valgte instanstype til dataanalyse og datatransformationer. Standardinstansen og den instans du skiftede til (ml.m5.16xlarge) kører begge. Du kan ændre instanstypen eller skifte tilbage til standardinstansen, før du kører en specifik transformation.

Luk ubrugte forekomster ned

Du debiteres for alle kørende tilfælde. For at undgå at pådrage sig yderligere gebyrer skal du lukke de forekomster, du ikke bruger manuelt. For at lukke en instans, der kører, skal du udføre følgende trin:

På din dataflowside skal du vælge forekomstikonet i venstre rude i brugergrænsefladen under Kørende forekomster.
Vælg Luk ned.

Hvis du lukker en instans, der bruges til at køre et flow, ned, kan du ikke få adgang til flowet midlertidigt. Hvis du får en fejl under åbning af flowet, der kører en instans, du tidligere har lukket ned, skal du vente i cirka 5 minutter og prøve at åbne den igen.

Konklusion

I dette indlæg demonstrerede vi, hvordan man behandler større og bredere datasæt med Data Wrangler ved at skifte instanser til større M5- eller R5-instanstyper. M5 tilfælde tilbyder en balance mellem computer-, hukommelses- og netværksressourcer. R5 tilfælde er hukommelsesoptimerede forekomster. Både M5 og R5 leverer instanstyper for at optimere omkostninger og ydeevne for dine arbejdsbelastninger.

For at lære mere om brug af datastrømme med Data Wrangler, se Opret og brug et datawrangler-flow , Amazon SageMaker-priser. For at komme i gang med Data Wrangler, se Forbered ML Data med Amazon SageMaker Data Wrangler.

Om forfatterne

Haider Naqvi er Solutions Architect hos AWS. Han har omfattende erfaring med softwareudvikling og virksomhedsarkitektur. Han fokuserer på at gøre det muligt for kunderne at opnå forretningsresultater med AWS. Han er baseret i New York.

Huong Nguyen er Sr. Product Manager hos AWS. Hun leder dataøkosystemintegrationen for SageMaker med 14 års erfaring med at bygge kundecentrerede og datadrevne produkter til både virksomheds- og forbrugerrum.

Meenakshisundaram Thandavarayan er senior AI/ML specialist med AWS. Han hjælper hi-tech strategiske konti på deres AI og ML rejse. Han er meget passioneret omkring datadrevet AI.

Sriharsha M Sr er en AI/ML Specialist Solutions Architect i Strategic Specialist-teamet hos Amazon Web Services. Han arbejder med strategiske AWS-kunder, som udnytter AI/ML til at løse komplekse forretningsproblemer. Han giver teknisk vejledning og designrådgivning til implementering af AI/ML-applikationer i stor skala. Hans ekspertise spænder over applikationsarkitektur, big data, analytics og machine learning.

Nikita Ivkin er en anvendt videnskabsmand, Amazon SageMaker Data Wrangler.

Tidsstempel: Maj 6, 2022

Tidsstempel: Juli 7, 2022

Genudgivet af Platon

Automatiser og implementer versionskontrol til Amazon Kendra ofte stillede spørgsmål

Hvordan LotteON byggede dynamisk A/B-test til deres personlige anbefalingssystem | Amazon Web Services

Identificer placeringen af anomalier ved hjælp af Amazon Lookout for Vision i kanten uden at bruge en GPU

Reducer madspild for at forbedre bæredygtighed og økonomiske resultater i detailhandlen med Amazon Forecast

Annoncering af Visual Conversation Builder til Amazon Lex

Kør notesbøger som batchjob i Amazon SageMaker Studio Lab

Illustrative notesbøger i Amazon SageMaker JumpStart

Hvordan AWS Prototyping gjorde det muligt for ICL-Group at bygge computervisionsmodeller på Amazon SageMaker | Amazon Web Services

Feature engineering i stor skala til sundhedspleje og biovidenskab med Amazon SageMaker Data Wrangler

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto