Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler reducerer tiden til at samle og forberede data til maskinlæring (ML) fra uger til minutter Amazon SageMaker Studio. Data Wrangler kan forenkle din dataforberedelse og funktioner ingeniørprocesser og hjælpe dig med datavalg, rensning, udforskning og visualisering. Data Wrangler har over 300 indbyggede transformationer skrevet i PySpark, så du kan behandle datasæt op til hundredvis af gigabyte effektivt på standardinstansen, ml.m5.4xlarge.

Men når du arbejder med datasæt op til terabyte data ved hjælp af indbyggede transformationer, kan du opleve længere behandlingstid eller potentielle fejl i hukommelsen. Baseret på dine datakrav kan du nu bruge yderligere Amazon Elastic Compute Cloud (Amazon EC2) M5 tilfælde , R5 tilfælde. For eksempel kan du starte med en standardinstans (ml.m5.4xlarge) og derefter skifte til ml.m5.24xlarge eller ml.r5.24xlarge. Du har mulighed for at vælge forskellige instanstyper og finde den bedste afvejning af driftsomkostninger og behandlingstider. Næste gang du arbejder på tidsserietransformation og kører tunge transformere for at balancere dine data, kan du tilpasse din Data Wrangler-instans i den rigtige størrelse for at køre disse processer hurtigere.

Når du behandler snesevis af gigabyte eller endnu mere med en brugerdefineret Pandas-transformation, kan du opleve, at der ikke er hukommelsesfejl. Du kan skifte fra standardforekomsten (ml.m5.4xlarge) til ml.m5.24xlarge, og transformationen afsluttes uden fejl. Vi benchmarkede og observerede grundigt lineær hastighed, da vi øgede instansstørrelsen på tværs af en portefølje af datasæt.

I dette indlæg deler vi vores resultater fra to benchmark-tests for at demonstrere, hvordan du kan behandle større og bredere datasæt med Data Wrangler.

Data Wrangler benchmark test

Lad os gennemgå to tests, vi kørte, aggregeringsforespørgsler og one-hot-kodning, med forskellige instanstyper ved hjælp af PySpark indbyggede transformere og brugerdefinerede Pandas-transformationer. Transformationer, der ikke kræver aggregering, afsluttes hurtigt og fungerer godt med standardinstanstypen, så vi fokuserede på aggregeringsforespørgsler og transformationer med aggregering. Vi gemte vores testdatasæt på Amazon Simple Storage Service (Amazon S3). Dette datasæts udvidede størrelse er omkring 100 GB med 80 millioner rækker og 300 kolonner. Vi brugte UI-målinger til at time benchmark-tests og måle ende-til-ende kundevendt latens. Når du importerer vores testdatasæt, vi deaktiverede prøveudtagning. Sampling er aktiveret som standard, og Data Wrangler behandler kun de første 100 rækker, når den er aktiveret.x

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Da vi øgede Data Wrangler-forekomststørrelsen, observerede vi en nogenlunde lineær fremskyndelse af Data Wranglers indbyggede transformationer og tilpasset Spark SQL. Pandas aggregeringsforespørgselstest blev først afsluttet, når vi brugte forekomster større end ml.m5.16xl, og Pandas havde brug for 180 GB hukommelse til at behandle aggregeringsforespørgsler til dette datasæt.

Følgende tabel opsummerer aggregeringsforespørgselstestresultaterne.

Instans vCPU Hukommelse (GiB) Data Wrangler indbygget Spark-transformationstid Pandas tid
(Tilpasset transformation)
ml.m5.4xl 16 64 229 sekunder Ikke mere hukommelse
ml.m5.8xl 32 128 130 sekunder Ikke mere hukommelse
ml.m5.16xl 64 256 52 sekunder 30 minutter

Følgende tabel opsummerer resultaterne af one-hot-kodningstesten.

Instans vCPU Hukommelse (GiB) Data Wrangler indbygget Spark-transformationstid Pandas tid
(Tilpasset transformation)
ml.m5.4xl 16 64 228 sekunder Ikke mere hukommelse
ml.m5.8xl 32 128 130 sekunder Ikke mere hukommelse
ml.m5.16xl 64 256 52 sekunder Ikke mere hukommelse

Skift instanstypen for et dataflow

For at skifte instanstype for dit flow skal du udføre følgende trin:

  1. På Amazon SageMaker Data Wrangler-konsollen skal du navigere til det dataflow, du bruger i øjeblikket.
  2. Vælg instanstypen på navigationslinjen.
    Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  3. Vælg den instanstype, du vil bruge.
  4. Vælg Gem.
    Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

En statusmeddelelse vises.

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Når skiftet er gennemført, vises en succesmeddelelse.

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Data Wrangler bruger den valgte instanstype til dataanalyse og datatransformationer. Standardinstansen og den instans du skiftede til (ml.m5.16xlarge) kører begge. Du kan ændre instanstypen eller skifte tilbage til standardinstansen, før du kører en specifik transformation.

Luk ubrugte forekomster ned

Du debiteres for alle kørende tilfælde. For at undgå at pådrage sig yderligere gebyrer skal du lukke de forekomster, du ikke bruger manuelt. For at lukke en instans, der kører, skal du udføre følgende trin:

  1. På din dataflowside skal du vælge forekomstikonet i venstre rude i brugergrænsefladen under Kørende forekomster.
    Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  2. Vælg Luk ned.

Hvis du lukker en instans, der bruges til at køre et flow, ned, kan du ikke få adgang til flowet midlertidigt. Hvis du får en fejl under åbning af flowet, der kører en instans, du tidligere har lukket ned, skal du vente i cirka 5 minutter og prøve at åbne den igen.

Konklusion

I dette indlæg demonstrerede vi, hvordan man behandler større og bredere datasæt med Data Wrangler ved at skifte instanser til større M5- eller R5-instanstyper. M5 tilfælde tilbyder en balance mellem computer-, hukommelses- og netværksressourcer. R5 tilfælde er hukommelsesoptimerede forekomster. Både M5 og R5 leverer instanstyper for at optimere omkostninger og ydeevne for dine arbejdsbelastninger.

For at lære mere om brug af datastrømme med Data Wrangler, se Opret og brug et datawrangler-flow , Amazon SageMaker-priser. For at komme i gang med Data Wrangler, se Forbered ML Data med Amazon SageMaker Data Wrangler.


Om forfatterne

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Haider Naqvi er Solutions Architect hos AWS. Han har omfattende erfaring med softwareudvikling og virksomhedsarkitektur. Han fokuserer på at gøre det muligt for kunderne at opnå forretningsresultater med AWS. Han er baseret i New York.

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Huong Nguyen er Sr. Product Manager hos AWS. Hun leder dataøkosystemintegrationen for SageMaker med 14 års erfaring med at bygge kundecentrerede og datadrevne produkter til både virksomheds- og forbrugerrum.

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Meenakshisundaram Thandavarayan er senior AI/ML specialist med AWS. Han hjælper hi-tech strategiske konti på deres AI og ML rejse. Han er meget passioneret omkring datadrevet AI.

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Sriharsha M Sr er en AI/ML Specialist Solutions Architect i Strategic Specialist-teamet hos Amazon Web Services. Han arbejder med strategiske AWS-kunder, som udnytter AI/ML til at løse komplekse forretningsproblemer. Han giver teknisk vejledning og designrådgivning til implementering af AI/ML-applikationer i stor skala. Hans ekspertise spænder over applikationsarkitektur, big data, analytics og machine learning.

Bearbejd større og bredere datasæt med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Nikita Ivkin er en anvendt videnskabsmand, Amazon SageMaker Data Wrangler.

Tidsstempel:

Mere fra AWS maskinindlæring