Kostnadseffektiv dataforberedelse for maskinlæring ved hjelp av SageMaker Data Wrangler

Publisert av Platon

Følgere: 0

Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker som gjør det raskere for dataforskere og ingeniører å forberede funksjoner av høy kvalitet for maskinlæringsapplikasjoner (ML) via et visuelt grensesnitt. Data Wrangler reduserer tiden det tar å samle og forberede data for ML fra uker til minutter. Med Data Wrangler kan du forenkle prosessen med dataforberedelse og funksjonsutvikling, og fullføre hvert trinn i dataforberedelsesarbeidsflyten, inkludert datavalg, rensing, utforskning og visualisering fra ett enkelt visuelt grensesnitt.

I dette innlegget dykker vi ned i ulike aspekter ved dataforberedelse og de tilhørende funksjonene til Data Wrangler for å forstå kostnadskomponentene ved dataforberedelse og hvordan Data Wrangler tilbyr en kostnadseffektiv tilnærming til dataforberedelse. Vi dekker også beste praksis for kostnadsoptimalisering for ytterligere å redusere kostnadene for klargjøring av data i Data Wrangler.

Oversikt over utforskende dataanalyse (EDA) og datapreparering i Data Wrangler

For å forstå kostnadseffektiviteten til Data Wrangler, er det viktig å se på ulike aspekter av EDA og dataforberedelsesfasen av ML. Denne bloggen vil ikke sammenligne ulike plattformer eller tjenester for EDA, men forstå ulike trinn i EDA, deres kostnadsbetraktninger og hvordan Data Wrangler forenkler EDA på en kostnadseffektiv måte.

Den typiske EDA-opplevelsen til en dataforsker består av følgende trinn:

Start en Jupyter notebook-instans for å utføre EDA.
Importer nødvendige pakker for dataanalyse og visualisering.
Importer dataene fra flere kilder.
Utfør transformasjoner som håndtering av manglende verdier og uteliggere, one-hot-koding, balansering av data og mer for å rense dataene og gjøre dem klare for modellering.
Visualiser dataene.
Lag mekanismer for å gjenta trinnene.
Eksporter behandlede data for nedstrømsanalyse eller ML.

Disse trinnene er komplekse, og krever fleksibilitet i beregnings- og minnekrav, slik at du kan kjøre hvert trinn med passende databehandling og minne. Du trenger også et integrert system som kan importere data fra flere kilder og mekanismer for å gjenta eller gjenbruke, slik at du kan bruke de samme EDA-trinnene du allerede har bygd på større, lignende eller forskjellige datasett som kreves av nedstrøms ML-pipeline.

EDA kostnadshensyn

Følgende er noen av kostnadshensynene for EDA:

Beregn

Noen EDA-miljøer krever data i et bestemt format. I slike tilfeller må du behandle dataene til formatet som er akseptert av EDA-miljøet. For eksempel, hvis miljøet bare aksepterer CSV-format, men du har data i Parquet eller et annet format, må du konvertere datasettet til CSV-format. Reformatering av data krever beregning.
Ikke alle miljøer har fleksibiliteten til å endre datamaskin- eller minnekonfigurasjon med et klikk på en knapp. Det kan hende du må ha den høyeste beregningskapasiteten og minnefotavtrykket som gjelder for hver transformasjon du utfører.

Lagring og dataoverføring

Data fra flere kilder må samles inn. Hvis bare utvalgte kilder støttes av EDA-miljøet, kan det hende du må flytte dataene dine fra forskjellige kilder til den enkelt støttede kilden, noe som øker både lagrings- og dataoverføringskostnadene.

Arbeidskostnad og kompetanse

Å administrere EDA-plattformen og den underliggende datainfrastrukturen innebærer ekspertise, innsats og kostnader. Når du administrerer infrastrukturen, har du den operasjonelle byrden med å administrere operativsystemer og applikasjoner som klargjøring, oppdatering og oppgradering. Sørg for å identifisere problemer raskt. Hvis du ikke validerer dataene før du bygger modellen din, har du kastet bort mye ressurser i tillegg til ingeniørtid.
Merk at EDA krever datavitenskap og dataerfaringsekspertise.
I tillegg tilbyr noen EDA-miljøer ikke et pek-og-klikk-grensesnitt og krever at du skriver kode for å utforske, visualisere og transformere data, noe som innebærer arbeidskostnader.

Driftskostnad

For å flytte dataene fra kilden for å utføre transformasjoner og deretter til nedstrøms ML-rørledninger, må du kanskje utføre de gjentatte EDA-trinnene på nytt fra begynnelsen av å hente dataene i hver fase av EDA, som er tidkrevende og har en kumulativ arbeidskostnad. Hvis du kan bruke de transformerte dataene fra forrige trinn, øker det ikke kumulativt kostnadene.
Å ha en enkel mekanisme for å gjenta det samme settet med EDA-trinn på lignende eller inkrementelle datasett sparer både tid og kostnader fra et menneske- og dataressursperspektiv.

La oss se hvordan Data Wrangler forenkler EDA eller dataforberedelse på en kostnadseffektiv måte i forhold til disse forskjellige områdene.

Beregn

Når du utfører EDA på en bærbar PC, har du kanskje ikke fleksibiliteten til å skalere datamaskinen eller minnet på forespørsel, noe som kan tvinge deg til å kjøre transformasjon og visualiseringer i et overdimensjonert miljø. Hvis du har et underdimensjonert miljø, kan du få problemer med minne. I Data Wrangler kan du velge en mindre forekomsttype for visse transformasjoner eller analyser og deretter oppskalere forekomsten til en større type og utføre komplekse transformasjoner. Når den komplekse transformasjonen er fullført, kan du nedskalere Data Wrangler-forekomsten til en mindre forekomsttype. Dette gir deg fleksibiliteten til å skalere beregningen din basert på transformasjonskravene.

Data Wrangler støtter en forskjellige instanstyper, og du kan velge den riktige for arbeidsmengden din, og dermed eliminere kostnadene ved overdimensjonerte eller underdimensjonerte miljøer.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Lagring og dataoverføring

I denne delen diskuterer vi noen av kostnadsbetraktningene for lagring og dataoverføring.

Import

Data for ML er ofte tilgjengelig fra flere kilder og i forskjellige formater. Med Data Wrangler kan du importere data fra følgende datakilder: Amazon enkel lagringstjeneste (Amazon S3), Amazonas Athena, Amazon RedShift, AWS Lake formasjon, Amazon SageMaker Feature Store og Snowflake. Data kan være i et av følgende formater: CSV, Parkett, JSON og Optimized Row Columnar (ORC), og flere dataformater vil bli lagt til basert på kundenes behov. Fordi de viktige datakildene allerede støttes i Data Wrangler, kan data importeres direkte fra de respektive kildene, og du betaler kun for GB-måneden med klargjort lagring. For mer informasjon, se Amazon SageMaker-priser.

All iterativ datautforskning, datatransformasjon og visualisering kan utføres i selve Data Wrangler. Dette eliminerer ytterligere dataflytting sammenlignet med andre miljøer der du kanskje må flytte dataene til forskjellige steder for inntak, transformasjon og prosessering. Fra et kostnadsperspektiv eliminerer dette dupliserte datalagring samt redusert dataflytting.

Datakvalitet kostnad

Hvis du ikke identifiserer dårlige data og korrigerer dem tidlig, vil det bli et kostbart problem å løse senere. De Rapport om datakvalitet og innsikt hjelper deg med å eliminere dette problemet. Du kan bruke rapporten Datakvalitet og innsikt til å utføre en analyse av dataene dine for å få innsikt i datasettet ditt, for eksempel antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene. Så snart du importerer dataene dine, kan du kjøre en innsiktsrapport med et klikk på en knapp. Dette reduserer innsatsen med å importere biblioteker og skrive kode for å få den nødvendige innsikten i datasettet, noe som reduserer arbeidskostnadene og ekspertisen som kreves.

Når du oppretter rapporten for datakvalitet og -innsikt, gir Data Wrangler deg muligheten til å velge en målkolonne (kolonnen du prøver å forutsi). Når du velger en målkolonne, oppretter Data Wrangler automatisk en målkolonneanalyse. Den rangerer også funksjonene i rekkefølgen etter deres prediktive kraft (se følgende skjermbilde). Dette bidrar til den direkte forretningsfordelen med funksjoner av høy kvalitet for nedstrøms ML-prosessen.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Transformation

Hvis EDA-verktøyet ditt bare støtter visse transformasjoner, kan det hende du må flytte dataene til et annet miljø for å utføre de tilpassede transformasjonene, for eksempel Spark-jobber. Data Wrangler støtter tilpassede transformasjoner, som kan skrives i PySpark, Pandas og SQL (se følgende skjermbilde for et eksempel). De er utviklervennlige og alle sømløst pakket på ett sted, noe som reduserer databevegelse og sparer kostnader forbundet med dataoverføring og lagring.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du må kanskje også utføre matematiske operasjoner på datasettene dine, for eksempel å ta en absolutt verdi av en kolonne. Hvis EDA-verktøyet ditt ikke støtter matematiske operasjoner, kan det hende du må utføre operasjonene eksternt, noe som krever ekstra innsats og kostnader. Noen verktøy kan støtte matematiske operasjoner på datasettet, men krever at du importerer biblioteker, noe som krever ekstra innsats. I Data Wrangler kan du også bruke en tilpasset formel å definere en ny kolonne ved å bruke et Spark SQL-uttrykk for å spørre etter data i gjeldende dataramme uten å pådra seg noen ekstra kostnader for tilpassede transformasjoner eller tilpassede spørringer.

Arbeidskostnad og kompetanse

Å administrere EDA-plattformen og den underliggende datainfrastrukturen innebærer ekspertise, innsats og kostnader. Data Wrangler tilbyr et utvalg av over 300 forhåndskonfigurerte datatransformasjoner skrevet i PySpark, slik at du kan behandle datasett opptil hundrevis av gigabyte effektivt uten å måtte bekymre deg for å skrive kode for å transformere dataene. Du kan bruke transformasjoner som konvertere kolonnetype, én varm koding, imputere manglende data med gjennomsnitt eller median, skalere kolonner og data-/tidsinnbygginger for å transformere dataene dine til formater som modellene kan bruke uten å skrive en eneste linje med kode. Dette reduserer tid og krefter, og reduserer dermed arbeidskostnadene.

Data Wrangler tilbyr et pek-og-klikk-grensesnitt for å visualisere og validere data (se følgende skjermbilde). Ingen ekspertise er nødvendig på datateknikk eller analyse fordi all dataforberedelse kan gjøres med enkelt pek og klikk.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Visualisering

Data Wrangler hjelper deg å forstå dataene dine og identifisere potensielle feil og ekstreme verdier med et sett med robuste forhåndskonfigurerte visualiseringsmaler. Du trenger ikke kjennskap eller å bruke ekstra tid på å importere eksterne biblioteker eller avhengigheter for å utføre visualiseringene. Histogrammer, spredningsplott, boks- og værhårplott, linjeplott og søylediagrammer er alle tilgjengelige (se følgende skjermbilder for noen eksempler). Maler som histogrammer gjør det enkelt å lage og redigere dine egne visualiseringer uten å skrive kode.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Validering

Data Wrangler lar deg raskt identifisere inkonsekvenser i dataforberedelsesarbeidsflyten og diagnostisere problemer før modellene distribueres i produksjon (se følgende skjermbilde). Du kan raskt identifisere om dine forberedte data vil resultere i en nøyaktig modell, slik at du kan finne ut om ytterligere funksjonsutvikling er nødvendig for å forbedre ytelsen. Alt dette skjer før modellbyggingsfasen, så det er ingen ekstra lønnskostnader for å bygge en modell som ikke fungerer som forventet (lav ytelsesberegning) som vil resultere i ytterligere transformasjoner etter modellbyggingen. Valideringen resulterer også i forretningsfordelen med funksjoner av bedre kvalitet.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Bygg skalerbare dataforberedelsespipelines

Når du utfører EDA må du bygge dataforberedende rørledninger som kan skaleres med datasett (se følgende skjermbilde). Dette er viktig for repetisjon så vel som nedstrøms ML-prosesser. Vanligvis bruker kunder Spark for sin distribuerte, skalerbare og i minnet prosessering; dette krever imidlertid mye ekspertise på Spark. Å sette opp et Spark-miljø er tidkrevende og krever ekspertise for optimal konfigurasjon. Med Data Wrangler kan du opprette databehandlingsjobber og eksportere til Amazon S3 og Amazon feature store rent via det visuelle grensesnittet uten å måtte generere, kjøre eller administrere Jupyter bærbare PC-er, noe som muliggjør skalerbare dataforberedelsespipelines uten Spark-ekspertise. For mer informasjon, se Start behandlingsjobber med noen få klikk ved hjelp av Amazon SageMaker Data Wrangler.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Driftskostnad

Integrering er kanskje ikke en direkte kostnadsfordel; Det er imidlertid indirekte kostnadsfordeler når du jobber i et integrert miljø som SageMaker. Fordi Data Wrangler er integrert med AWS-tjenester, kan du eksportere dataforberedelsesarbeidsflyten til en Data Wrangler-jobbnotatbok og starte Amazon SageMaker Autopilot treningseksperiment, Amazon SageMaker-rørledninger notatbok eller kodeskript. Du kan også opprette en Data Wrangler-behandlingsjobb med ett klikk uten å måtte sette opp og administrere infrastruktur for å utføre repeterende trinn eller automatisering i en ML-arbeidsflyt.

I din Data Wrangler-flyt kan du eksportere noen eller alle transformasjonene du har gjort i databehandlingsrørledningene. Når du eksporterer dataflyten din, belastes du for AWS-ressursene du bruker. Fra et kostnadsperspektiv gir eksport av transformasjonen deg muligheten til å gjenta transformasjonen på flere datasett uten økt innsats.

Med Data Wrangler kan du eksportere alle transformasjonene du har gjort til et datasett til en destinasjonsnode med bare noen få klikk. Dette lar deg opprette databehandlingsjobber og eksportere til Amazon S3 rent via det visuelle grensesnittet uten å måtte generere, kjøre eller administrere Jupyter-notatbøker, og dermed forbedre lavkodeopplevelsen.

Data Wrangler lar deg eksportere dataforberedelsestrinnene eller dataflyten til forskjellige miljøer. Data Wrangler har sømløs integrasjon med andre AWS-tjenester og funksjoner, for eksempel følgende:

SageMaker Feature Store – Du kan konstruere modellfunksjonene dine ved å bruke Data Wrangler og deretter innta i funksjonsbutikken din, som er en sentralisert butikk for funksjoner og tilhørende metadata
SageMaker-rørledninger – Du kan bruke dataflyten eksportert fra Data Wrangler i SageMaker-pipelines, som brukes til å bygge og distribuere storskala ML-arbeidsflyter
Amazon S3 – Du kan eksportere dataene til Amazon S3 og bruke dem til å lage Data Wrangler-jobber
Python – Til slutt kan du eksportere alle trinnene i dataflyten din til en Python-fil, som du manuelt kan integrere i enhver databehandlingsarbeidsflyt.

En slik tett integrasjon bidrar til å redusere innsats, tid, ekspertise og kostnader.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Beste praksis for kostnadsoptimalisering

I denne delen diskuterer vi beste praksis for å optimalisere kostnadene ytterligere i Data Wrangler.

Oppdater Data Wrangler til den nyeste utgivelsen

Når du oppdater Data Wrangler til den siste utgivelsen får du alle de nyeste funksjonene, sikkerheten og de generelle optimaliseringene til Data Wrangler, noe som kan forbedre kostnadseffektiviteten.

Bruk innebygde Data Wrangler-transformatorer

Bruk de innebygde Data Wrangler-transformatorene over tilpassede Pandas-transformasjoner når du behandler større og bredere datasett.

Velg riktig forekomsttype for Data Wrangler-flyten din

Det er to familier av ml-forekomsttyper som støttes for Data Wrangler: m5 og r5. m5-forekomster er generelle formål som gir en balanse mellom databehandling og minne, mens r5-forekomster er designet for å levere rask ytelse for å behandle store datasett i minnet.

Vi anbefaler å velge en forekomst som er best optimalisert rundt arbeidsbelastningene dine. For eksempel kan r5.8xlarge ha en høyere pris enn m5.4xlarge, men r5.8xlarge kan være bedre optimalisert for arbeidsmengdene dine. Med bedre optimaliserte forekomster kan du kjøre dataflytene dine på kortere tid til lavere kostnad.

Kostnadseffektiv dataforberedelse for maskinlæring ved bruk av SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Behandle større og bredere datasett

For datasett som er større enn titalls gigabyte, anbefaler vi å bruke innebygde transformasjoner, eller prøvedata ved import for å kjøre tilpassede Pandas-transformeringer interaktivt. I poste, deler vi funnene våre fra to benchmark-tester for å demonstrere hvordan du gjør dette.

Slå av ubrukte forekomster

Du belastes for alle kjørende forekomster. For å unngå ekstra kostnader, slå av forekomstene du ikke bruker manuelt. For å slå av en forekomst som kjører, fullfør følgende trinn:

På dataflytsiden din velger du forekomstikonet i navigasjonsruten under Kjørende forekomster.
Velg Slå.

Hvis du slår av en forekomst som brukes til å kjøre en flyt, har du ikke tilgang til flyten midlertidig. Hvis du får en feil når du åpner flyten som kjører en instans du tidligere har stengt av, vent i ca. 5 minutter og prøv å åpne den igjen.

Når du ikke bruker Data Wrangler, er det viktig å slå av forekomsten den kjører på for å unngå ekstra avgifter. For mer informasjon, se Slå av Data Wrangler.

For informasjon om å slå av Data Wrangler-ressurser automatisk, se Spar kostnader ved automatisk å slå av ledige ressurser i Amazon SageMaker Studio.

Eksport

Når du eksporterer Data Wrangler-flyten eller -transformasjonene, kan du bruke kostnadsallokeringskoder for å organisere og administrere kostnadene for disse ressursene. Du oppretter disse taggene for brukerprofilen din, og Data Wrangler bruker dem automatisk på ressursene som brukes til å eksportere dataflyten. For mer informasjon, se Bruke kostnadsfordelingskoder.

Priser

Data Wrangler-priser har tre komponenter: Data Wrangler-forekomster, Data Wrangler-jobber og ML-lagring. Du kan utføre alle trinnene for EDA eller dataforberedelse i Data Wrangler, og du betaler for forekomst, jobber og lagringspriser basert på bruk eller forbruk, uten forhånds- eller lisensavgifter. For mer informasjon, se On-Demand-priser.

konklusjonen

I dette innlegget har vi gjennomgått ulike kostnadsaspekter ved EDA og dataforberedelse for å finne ut hvordan funksjonsrike og integrerte Data Wrangler reduserer tiden det tar å samle og forberede data for ML-brukstilfeller fra uker til minutter, og derved letter kostnadseffektiv dataforberedelse for ML. Vi inspiserte også priskomponentene til Data Wrangler og beste praksis for kostnadsoptimalisering når du bruker Data Wrangler for dine ML-dataforberedelseskrav.

For mer informasjon, se følgende ressurser:

Om forfatterne

Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, og gir kundeveiledning om justering av forretningsteknologi og støtter gjenoppfinnelsen av deres skyoperasjonsmodeller og -prosesser. Han er lidenskapelig opptatt av sky og maskinlæring. Raj er også en maskinlæringsspesialist og jobber med AWS-kunder for å designe, distribuere og administrere AWS-arbeidsmengdene og -arkitekturene deres.

Rahul Nabera er en dataanalysekonsulent i AWS Professional Services. Hans nåværende arbeid fokuserer på å gjøre det mulig for kunder å bygge sine data- og maskinlæringsarbeidsmengder på AWS. På fritiden liker han å spille cricket og volleyball.

Tidstempel: November 7, 2022November 7, 2022

Tidstempel: Jan 17, 2023

Kostnadseffektiv dataforberedelse for maskinlæring ved hjelp av SageMaker Data Wrangler

Publisert av Platon

Oversikt over utforskende dataanalyse (EDA) og datapreparering i Data Wrangler

EDA kostnadshensyn

Beregn

Lagring og dataoverføring

Arbeidskostnad og kompetanse

Driftskostnad

Beregn

Lagring og dataoverføring

Import

Datakvalitet kostnad

Transformation

Arbeidskostnad og kompetanse

Visualisering

Validering

Bygg skalerbare dataforberedelsespipelines

Driftskostnad

Beste praksis for kostnadsoptimalisering

Oppdater Data Wrangler til den nyeste utgivelsen

Bruk innebygde Data Wrangler-transformatorer

Velg riktig forekomsttype for Data Wrangler-flyten din

Behandle større og bredere datasett

Slå av ubrukte forekomster

Eksport

Priser

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Skala AI-trening og slutninger for legemiddeloppdagelse gjennom Amazon EKS og Karpenter | Amazon Web Services

Tilpass uttalen ved å bruke Amazon Polly

Minimer produksjonseffekten av ML-modelloppdateringer med Amazon SageMaker-skyggetesting

Automatiser klassifisering av IT-tjenesteforespørsler med en tilpasset Amazon Comprehend-klassifisering

Churn-prediksjon ved hjelp av multimodalitet av tekst og tabellfunksjoner med Amazon SageMaker Jumpstart

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn