Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML

Publisert av Platon

Følgere: 0

Amazon SageMaker Studio Lab er et gratis utviklingsmiljø for maskinlæring (ML) basert på åpen kildekode JupyterLab for alle å lære og eksperimentere med ML ved å bruke AWS ML-databehandlingsressurser. Den er basert på samme arkitektur og brukergrensesnitt som Amazon SageMaker Studio, men med et undersett av Studio-funksjoner.

Når du begynner å jobbe med ML-initiativer, må du utføre utforskende dataanalyse (EDA) eller dataforberedelse før du fortsetter med modellbygging. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker som gjør det raskere for dataforskere og ingeniører å forberede data for ML-applikasjoner via et visuelt grensesnitt. Data Wrangler reduserer tiden det tar å samle og forberede data for ML fra uker til minutter.

En nøkkelakselerator for funksjonsforberedelse i Data Wrangler er Rapport om datakvalitet og innsikt. Denne rapporten sjekker datakvaliteten og hjelper til med å oppdage avvik i dataene dine, slik at du kan utføre den nødvendige datateknikken for å fikse datasettet. Du kan bruke datakvalitets- og innsiktsrapporten til å utføre en analyse av dataene dine for å få innsikt i datasettet ditt, for eksempel antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene og hjelpe deg med å identifisere dataforberedelsestrinnene du må utføre.

Studio Lab-brukere kan dra nytte av Data Wrangler fordi datakvalitet og funksjonsteknikk er avgjørende for den prediktive ytelsen til modellen din. Data Wrangler hjelper med datakvalitet og funksjonsutvikling ved å gi innsikt i datakvalitetsproblemer og enkelt muliggjøre rask funksjonsgjentakelse og utvikling ved å bruke et brukergrensesnitt med lav kode.

I dette innlegget viser vi deg hvordan du utfører utforskende dataanalyse, forbereder og transformerer data ved hjelp av Data Wrangler, og eksporterer de transformerte og forberedte dataene til Studio Lab for å utføre modellbygging.

Løsningsoversikt

Løsningen inkluderer følgende trinn på høyt nivå:

Opprett AWS-konto og administratorbruker. Dette er en forutsetning
Last ned datasettet churn.csv.
Last inn datasettet til Amazon enkel lagringstjeneste (Amazon S3).
Opprett et SageMaker Studio-domene og start Data Wrangler.
Importer datasettet til Data Wrangler-flyten fra Amazon S3.
Lag rapporten om datakvalitet og -innsikt og trekk konklusjoner om nødvendig funksjonsutvikling.
Utfør de nødvendige datatransformasjonene i Data Wrangler.
Last ned rapporten om datakvalitet og -innsikt og det transformerte datasettet.
Last opp dataene til et Studio Lab-prosjekt for modellopplæring.

Følgende diagram illustrerer denne arbeidsflyten.

Forutsetninger

For å bruke Data Wrangler og Studio Lab trenger du følgende forutsetninger:

Bygg en dataforberedende arbeidsflyt med Data Wrangler

Gjør følgende for å komme i gang:

Last opp datasettet ditt til Amazon S3.
På SageMaker-konsollen, under Kontrollpanelet Velg navigasjonsruten studie.
På Start appen menyen ved siden av brukerprofilen din, velg studie.

Etter at du har logget på Studio, bør du se et utviklingsmiljø som følgende skjermbilde.
For å opprette en ny Data Wrangler-arbeidsflyt, på filet meny, velg Ny, velg deretter Data Wrangler Flow.

Det første trinnet i Data Wrangler er å importere dataene dine. Du kan importere data fra flere datakilder, for eksempel Amazon S3, Amazonas Athena, Amazon RedShift, Snowflakeog Databaser. I dette eksemplet bruker vi Amazon S3. Hvis du bare vil se hvordan Data Wrangler fungerer, kan du alltid velge Bruk eksempeldatasett.
Velg Import datoer.
Velg Amazon S3.
Velg datasettet du lastet opp og velg Import.

Data Wrangler lar deg enten importere hele datasettet eller prøve en del av det.
For raskt å få innsikt i datasettet, velg Først K forum sampling og skriv inn 50000 XNUMX for Prøvestørrelse.

Forstå datakvalitet og få innsikt

La oss bruke datakvalitets- og innsiktsrapporten til å utføre en analyse av dataene vi importerte til Data Wrangler. Du kan bruke rapporten til å forstå hvilke trinn du må ta for å rense og behandle dataene dine. Denne rapporten gir informasjon som antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene.

Velg plusstegnet ved siden av Datatyper Og velg Få datainnsikt.
Til Analysetype, velg Rapport om datakvalitet og innsikt.
Til Målkolonne, velg Churn?.
Til Problemtypeå velge Klassifisering.
Velg Opprett.

Du får presentert en detaljert rapport som du kan se gjennom og laste ned. Rapporten inneholder flere seksjoner som hurtigmodell, funksjonssammendrag, funksjonskorrelasjon og datainnsikt. Følgende skjermbilder gir eksempler på disse delene.

Observasjoner fra rapporten

Fra rapporten kan vi gjøre følgende observasjoner:

Ingen dupliserte rader ble funnet.
De State kolonnen ser ut til å være ganske jevnt fordelt, så dataene er balansert i forhold til statens befolkning.
De Phone kolonnen presenterer for mange unike verdier til å være av praktisk nytte. For mange unike verdier gjør at denne kolonnen ikke er nyttig. Vi kan droppe Phone kolonne i vår transformasjon.
Basert på funksjonskorrelasjonsdelen av rapporten, Mins og Charge er sterkt korrelerte. Vi kan fjerne en av dem.

Transformation

Basert på våre observasjoner ønsker vi å gjøre følgende transformasjoner:

Fjern Phone kolonne fordi den har mange unike verdier.
Vi ser også flere funksjoner som i hovedsak har 100% korrelasjon med hverandre. Å inkludere disse funksjonsparene i noen ML-algoritmer kan skape uønskede problemer, mens det i andre bare vil introdusere mindre redundans og skjevhet. La oss fjerne en funksjon fra hvert av de høyt korrelerte parene: Day Charge fra paret med Day Mins, Night Charge fra paret med Night Minsog Intl Charge fra paret med Intl Mins.
Konverter True or False i Churn kolonne til å være en numerisk verdi på 1 eller 0.

Gå tilbake til dataflyten og velg plusstegnet ved siden av Datatyper.
Velg Legg til transform.
Velg Legg til trinn.
Du kan søke etter transformasjonen du leter etter (i vårt tilfelle, administrer kolonner).
Velg Administrer kolonner.
Til Transform¸ velg Slipp kolonne.
Til Kolonner å slippe¸ velg Phone, Day Charge, Eve Charge, Night Chargeog Intl Charge.
Velg Forhåndsvisning, velg deretter Oppdater.

La oss legge til en annen transformasjon for å utføre en kategorisk koding på Churn? kolonne.
Velg transformasjonen Kode kategorisk.
Til Transform, velg Ordinær koding.
Til Inndatakolonner, Velg Churn? kolonne.
Til Ugyldig håndteringsstrategi, velg Erstatt med NaN.
Velg Forhåndsvisning, velg deretter Oppdater.

Nå True og False konverteres til henholdsvis 1 og 0.

Nå som vi har en god forståelse av dataene og har forberedt og transformert dataene for modellbygging, kan vi flytte dataene til Studio Lab for modellbygging.

Last opp dataene til Studio Lab

For å begynne å bruke dataene i Studio Lab, fullfør følgende trinn:

Velg Eksporter data til eksportere til en S3-bøtte.
Til Amazon S3 plassering, skriv inn S3-banen din.
Spesifiser filtypen.
Velg Eksporter data.
Etter at du har eksportert dataene, kan du laste ned dataene fra S3-bøtten til din lokale datamaskin.
Nå kan du gå til Studio Lab og laste opp filen til Studio Lab.

Alternativt kan du koble til Amazon S3 fra Studio Lab. For mer informasjon, se Bruk eksterne ressurser i Amazon SageMaker Studio Lab.
La oss installere SageMaker og importere pandaer.
Importer alle biblioteker etter behov.
Nå kan vi lese CSV-filen.
La oss skrive ut churn for å bekrefte at datasettet er riktig.

Nå som du har det behandlede datasettet i Studio Lab, kan du utføre ytterligere trinn som kreves for modellbygging.

Data Wrangler-priser

Du kan utføre alle trinnene i dette innlegget for EDA eller dataforberedelse innenfor Data Wrangler og betale for den enkle forekomsten, jobber og lagringspriser basert på bruk eller forbruk. Ingen forhånds- eller lisensavgifter kreves.

Rydd opp

Når du ikke bruker Data Wrangler, er det viktig å slå av forekomsten den kjører på for å unngå ekstra avgifter. For å unngå å miste arbeid, lagre dataflyten før du slår av Data Wrangler.

For å lagre dataflyten din i Studio, velg filet, velg deretter Lagre data Wrangler Flow.
Data Wrangler lagrer automatisk dataflyten hvert 60. sekund.
For å slå av Data Wrangler-forekomsten, i Studio, velg Kjører forekomster og kjerner.
Under KJØRER APPER, velg avslutningsikonet ved siden av sagemaker-data-wrangler-1.0 app.
Velg Slå av alt å bekrefte.

Data Wrangler kjører på en ml.m5.4xlarge instans. Denne instansen forsvinner fra KJØRINGSINSTANSER når du slår av Data Wrangler-appen.

Etter at du har slått av Data Wrangler-appen, må den starte på nytt neste gang du åpner en Data Wrangler-flytfil. Dette kan ta noen minutter.

konklusjonen

I dette innlegget så vi hvordan du kan få innsikt i datasettet ditt, utføre utforskende dataanalyse, forberede og transformere data ved hjelp av Data Wrangler i Studio, og eksportere de transformerte og forberedte dataene til Studio Lab og utføre modellbygging og andre trinn.

Med SageMaker Data Wrangler kan du forenkle prosessen med dataforberedelse og funksjonsutvikling, og fullføre hvert trinn i dataforberedelsesarbeidsflyten, inkludert datavalg, rensing, utforskning og visualisering fra ett enkelt visuelt grensesnitt.

Om forfatterne

Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, og gir kundene veiledning om justering av forretningsteknologi og støtter gjenoppfinnelsen av deres skyoperasjonsmodeller og -prosesser. Han er lidenskapelig opptatt av skyen og maskinlæring. Raj er også en maskinlæringsspesialist og jobber med AWS-kunder for å designe, distribuere og administrere AWS-arbeidsmengdene og -arkitekturene deres.

Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med lidenskap for å designe, skape og fremme menneskesentrerte data- og analyseopplevelser. Han støtter AWS Strategic-kunder i deres transformasjon mot datadrevet organisasjon.

James Wu er senior AI/ML spesialistløsningsarkitekt hos AWS. hjelpe kunder med å designe og bygge AI/ML-løsninger. James sitt arbeid dekker et bredt spekter av ML-brukstilfeller, med en primær interesse for datasyn, dyp læring og skalering av ML på tvers av bedriften. Før han begynte i AWS, var James arkitekt, utvikler og teknologileder i over 10 år, inkludert 6 år innen ingeniørfag og 4 år i markedsførings- og reklamebransjen.

Tidstempel: September 15, 2022September 15, 2022

Tidstempel: Mar 4, 2024

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML

Publisert av Platon

Løsningsoversikt

Forutsetninger

Bygg en dataforberedende arbeidsflyt med Data Wrangler

Forstå datakvalitet og få innsikt

Observasjoner fra rapporten

Transformation

Last opp dataene til Studio Lab

Data Wrangler-priser

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Accenture oppretter en regulatorisk dokumentforfatterløsning ved å bruke AWS generative AI-tjenester | Amazon Web Services

Amazon Comprehend Targeted Sentiment legger til synkron støtte

Hvordan BigBasket forbedret AI-aktivert utsjekking i deres fysiske butikker ved å bruke Amazon SageMaker | Amazon Web Services

Bruk AWS CDK til å distribuere livssykluskonfigurasjoner for Amazon SageMaker Studio | Amazon Web Services

Kunngjøring av den oppdaterte Salesforce-koblingen (V2) for Amazon Kendra

Neste generasjon Amazon SageMaker-eksperimenter – Organiser, spor og sammenlign maskinlæringstreningene dine i stor skala

Oppnå DevOps-modenhet med BMC AMI zAdviser Enterprise og Amazon Bedrock | Amazon Web Services

Låser opp innovasjon: AWS og Anthropic flytter grensene for generativ AI sammen | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn