Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML

Amazon SageMaker Studio Lab er et gratis utviklingsmiljø for maskinlæring (ML) basert på åpen kildekode JupyterLab for alle å lære og eksperimentere med ML ved å bruke AWS ML-databehandlingsressurser. Den er basert på samme arkitektur og brukergrensesnitt som Amazon SageMaker Studio, men med et undersett av Studio-funksjoner.

Når du begynner å jobbe med ML-initiativer, må du utføre utforskende dataanalyse (EDA) eller dataforberedelse før du fortsetter med modellbygging. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker som gjør det raskere for dataforskere og ingeniører å forberede data for ML-applikasjoner via et visuelt grensesnitt. Data Wrangler reduserer tiden det tar å samle og forberede data for ML fra uker til minutter.

En nøkkelakselerator for funksjonsforberedelse i Data Wrangler er Rapport om datakvalitet og innsikt. Denne rapporten sjekker datakvaliteten og hjelper til med å oppdage avvik i dataene dine, slik at du kan utføre den nødvendige datateknikken for å fikse datasettet. Du kan bruke datakvalitets- og innsiktsrapporten til å utføre en analyse av dataene dine for å få innsikt i datasettet ditt, for eksempel antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene og hjelpe deg med å identifisere dataforberedelsestrinnene du må utføre.

Studio Lab-brukere kan dra nytte av Data Wrangler fordi datakvalitet og funksjonsteknikk er avgjørende for den prediktive ytelsen til modellen din. Data Wrangler hjelper med datakvalitet og funksjonsutvikling ved å gi innsikt i datakvalitetsproblemer og enkelt muliggjøre rask funksjonsgjentakelse og utvikling ved å bruke et brukergrensesnitt med lav kode.

I dette innlegget viser vi deg hvordan du utfører utforskende dataanalyse, forbereder og transformerer data ved hjelp av Data Wrangler, og eksporterer de transformerte og forberedte dataene til Studio Lab for å utføre modellbygging.

Løsningsoversikt

Løsningen inkluderer følgende trinn på høyt nivå:

  1. Opprett AWS-konto og administratorbruker. Dette er en forutsetning
  2. Last ned datasettet churn.csv.
  3. Last inn datasettet til Amazon enkel lagringstjeneste (Amazon S3).
  4. Opprett et SageMaker Studio-domene og start Data Wrangler.
  5. Importer datasettet til Data Wrangler-flyten fra Amazon S3.
  6. Lag rapporten om datakvalitet og -innsikt og trekk konklusjoner om nødvendig funksjonsutvikling.
  7. Utfør de nødvendige datatransformasjonene i Data Wrangler.
  8. Last ned rapporten om datakvalitet og -innsikt og det transformerte datasettet.
  9. Last opp dataene til et Studio Lab-prosjekt for modellopplæring.

Følgende diagram illustrerer denne arbeidsflyten.

Forutsetninger

For å bruke Data Wrangler og Studio Lab trenger du følgende forutsetninger:

Bygg en dataforberedende arbeidsflyt med Data Wrangler

Gjør følgende for å komme i gang:

  1. Last opp datasettet ditt til Amazon S3.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  2. På SageMaker-konsollen, under Kontrollpanelet Velg navigasjonsruten studie.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  3. Start appen menyen ved siden av brukerprofilen din, velg studie.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Etter at du har logget på Studio, bør du se et utviklingsmiljø som følgende skjermbilde.
  4. For å opprette en ny Data Wrangler-arbeidsflyt, på filet meny, velg Ny, velg deretter Data Wrangler Flow.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Det første trinnet i Data Wrangler er å importere dataene dine. Du kan importere data fra flere datakilder, for eksempel Amazon S3, Amazonas Athena, Amazon RedShift, Snowflakeog Databaser. I dette eksemplet bruker vi Amazon S3. Hvis du bare vil se hvordan Data Wrangler fungerer, kan du alltid velge Bruk eksempeldatasett.
  5. Velg Import datoer.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  6. Velg Amazon S3.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  7. Velg datasettet du lastet opp og velg Import.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Data Wrangler lar deg enten importere hele datasettet eller prøve en del av det.
  8. For raskt å få innsikt i datasettet, velg Først K forum sampling og skriv inn 50000 XNUMX for Prøvestørrelse.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Forstå datakvalitet og få innsikt

La oss bruke datakvalitets- og innsiktsrapporten til å utføre en analyse av dataene vi importerte til Data Wrangler. Du kan bruke rapporten til å forstå hvilke trinn du må ta for å rense og behandle dataene dine. Denne rapporten gir informasjon som antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene.

  1. Velg plusstegnet ved siden av Datatyper Og velg Få datainnsikt.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  2. Til Analysetype, velg Rapport om datakvalitet og innsikt.
  3. Til Målkolonne, velg Churn?.
  4. Til Problemtypeå velge Klassifisering.
  5. Velg Opprett.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du får presentert en detaljert rapport som du kan se gjennom og laste ned. Rapporten inneholder flere seksjoner som hurtigmodell, funksjonssammendrag, funksjonskorrelasjon og datainnsikt. Følgende skjermbilder gir eksempler på disse delene.

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Observasjoner fra rapporten

Fra rapporten kan vi gjøre følgende observasjoner:

  • Ingen dupliserte rader ble funnet.
  • De State kolonnen ser ut til å være ganske jevnt fordelt, så dataene er balansert i forhold til statens befolkning.
  • De Phone kolonnen presenterer for mange unike verdier til å være av praktisk nytte. For mange unike verdier gjør at denne kolonnen ikke er nyttig. Vi kan droppe Phone kolonne i vår transformasjon.
  • Basert på funksjonskorrelasjonsdelen av rapporten, Mins og Charge er sterkt korrelerte. Vi kan fjerne en av dem.

Transformation

Basert på våre observasjoner ønsker vi å gjøre følgende transformasjoner:

  • Fjern Phone kolonne fordi den har mange unike verdier.
  • Vi ser også flere funksjoner som i hovedsak har 100% korrelasjon med hverandre. Å inkludere disse funksjonsparene i noen ML-algoritmer kan skape uønskede problemer, mens det i andre bare vil introdusere mindre redundans og skjevhet. La oss fjerne en funksjon fra hvert av de høyt korrelerte parene: Day Charge fra paret med Day Mins, Night Charge fra paret med Night Minsog Intl Charge fra paret med Intl Mins.
  • Konverter True or False i Churn kolonne til å være en numerisk verdi på 1 eller 0.
  1. Gå tilbake til dataflyten og velg plusstegnet ved siden av Datatyper.
  2. Velg Legg til transform.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  3. Velg Legg til trinn.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  4. Du kan søke etter transformasjonen du leter etter (i vårt tilfelle, administrer kolonner).
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  5. Velg Administrer kolonner.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  6. Til Transform¸ velg Slipp kolonne.
  7. Til Kolonner å slippe¸ velg Phone, Day Charge, Eve Charge, Night Chargeog Intl Charge.
  8. Velg Forhåndsvisning, velg deretter Oppdater.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    La oss legge til en annen transformasjon for å utføre en kategorisk koding på Churn? kolonne.
  9. Velg transformasjonen Kode kategorisk.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  10. Til Transform, velg Ordinær koding.
  11. Til Inndatakolonner, Velg Churn? kolonne.
  12. Til Ugyldig håndteringsstrategi, velg Erstatt med NaN.
  13. Velg Forhåndsvisning, velg deretter Oppdater.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

True og False konverteres til henholdsvis 1 og 0.

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Nå som vi har en god forståelse av dataene og har forberedt og transformert dataene for modellbygging, kan vi flytte dataene til Studio Lab for modellbygging.

Last opp dataene til Studio Lab

For å begynne å bruke dataene i Studio Lab, fullfør følgende trinn:

  1. Velg Eksporter data til eksportere til en S3-bøtte.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  2. Til Amazon S3 plassering, skriv inn S3-banen din.
  3. Spesifiser filtypen.
  4. Velg Eksporter data.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  5. Etter at du har eksportert dataene, kan du laste ned dataene fra S3-bøtten til din lokale datamaskin.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  6. Nå kan du gå til Studio Lab og laste opp filen til Studio Lab.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Alternativt kan du koble til Amazon S3 fra Studio Lab. For mer informasjon, se Bruk eksterne ressurser i Amazon SageMaker Studio Lab.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  7. La oss installere SageMaker og importere pandaer.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  8. Importer alle biblioteker etter behov.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  9. Nå kan vi lese CSV-filen.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  10. La oss skrive ut churn for å bekrefte at datasettet er riktig.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Nå som du har det behandlede datasettet i Studio Lab, kan du utføre ytterligere trinn som kreves for modellbygging.

Data Wrangler-priser

Du kan utføre alle trinnene i dette innlegget for EDA eller dataforberedelse innenfor Data Wrangler og betale for den enkle forekomsten, jobber og lagringspriser basert på bruk eller forbruk. Ingen forhånds- eller lisensavgifter kreves.

Rydd opp

Når du ikke bruker Data Wrangler, er det viktig å slå av forekomsten den kjører på for å unngå ekstra avgifter. For å unngå å miste arbeid, lagre dataflyten før du slår av Data Wrangler.

  1. For å lagre dataflyten din i Studio, velg filet, velg deretter Lagre data Wrangler Flow.
    Data Wrangler lagrer automatisk dataflyten hvert 60. sekund.
  2. For å slå av Data Wrangler-forekomsten, i Studio, velg Kjører forekomster og kjerner.
  3. Under KJØRER APPER, velg avslutningsikonet ved siden av sagemaker-data-wrangler-1.0 app.
  4. Velg Slå av alt å bekrefte.
    Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Data Wrangler kjører på en ml.m5.4xlarge instans. Denne instansen forsvinner fra KJØRINGSINSTANSER når du slår av Data Wrangler-appen.

Etter at du har slått av Data Wrangler-appen, må den starte på nytt neste gang du åpner en Data Wrangler-flytfil. Dette kan ta noen minutter.

konklusjonen

I dette innlegget så vi hvordan du kan få innsikt i datasettet ditt, utføre utforskende dataanalyse, forberede og transformere data ved hjelp av Data Wrangler i Studio, og eksportere de transformerte og forberedte dataene til Studio Lab og utføre modellbygging og andre trinn.

Med SageMaker Data Wrangler kan du forenkle prosessen med dataforberedelse og funksjonsutvikling, og fullføre hvert trinn i dataforberedelsesarbeidsflyten, inkludert datavalg, rensing, utforskning og visualisering fra ett enkelt visuelt grensesnitt.


Om forfatterne

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, og gir kundene veiledning om justering av forretningsteknologi og støtter gjenoppfinnelsen av deres skyoperasjonsmodeller og -prosesser. Han er lidenskapelig opptatt av skyen og maskinlæring. Raj er også en maskinlæringsspesialist og jobber med AWS-kunder for å designe, distribuere og administrere AWS-arbeidsmengdene og -arkitekturene deres.

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med lidenskap for å designe, skape og fremme menneskesentrerte data- og analyseopplevelser. Han støtter AWS Strategic-kunder i deres transformasjon mot datadrevet organisasjon.

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.James Wu er senior AI/ML spesialistløsningsarkitekt hos AWS. hjelpe kunder med å designe og bygge AI/ML-løsninger. James sitt arbeid dekker et bredt spekter av ML-brukstilfeller, med en primær interesse for datasyn, dyp læring og skalering av ML på tvers av bedriften. Før han begynte i AWS, var James arkitekt, utvikler og teknologileder i over 10 år, inkludert 6 år innen ingeniørfag og 4 år i markedsførings- og reklamebransjen.

Tidstempel:

Mer fra AWS maskinlæring