Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML

Amazon SageMaker Studio Lab er et gratis udviklingsmiljø for maskinlæring (ML) baseret på open source JupyterLab, så alle kan lære og eksperimentere med ML ved hjælp af AWS ML-beregningsressourcer. Den er baseret på samme arkitektur og brugergrænseflade som Amazon SageMaker Studio, men med en undergruppe af Studio-funktioner.

Når du begynder at arbejde med ML-initiativer, skal du udføre eksplorativ dataanalyse (EDA) eller dataforberedelse, før du fortsætter med modelbygning. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker der gør det hurtigere for datavidenskabsfolk og ingeniører at forberede data til ML-applikationer via en visuel grænseflade. Data Wrangler reducerer den tid, det tager at samle og forberede data til ML fra uger til minutter.

En vigtig accelerator for funktionsforberedelse i Data Wrangler er Rapport om datakvalitet og indsigt. Denne rapport kontrollerer datakvaliteten og hjælper med at opdage abnormiteter i dine data, så du kan udføre den nødvendige datateknik for at rette dit datasæt. Du kan bruge rapporten Datakvalitet og -indsigt til at udføre en analyse af dine data for at få indsigt i dit datasæt, såsom antallet af manglende værdier og antallet af outliers. Hvis du har problemer med dine data, såsom mållækage eller ubalance, kan indsigtsrapporten gøre dig opmærksom på disse problemer og hjælpe dig med at identificere de dataforberedelsestrin, du skal udføre.

Studio Lab-brugere kan drage fordel af Data Wrangler, fordi datakvalitet og funktionsteknik er afgørende for din models forudsigelige ydeevne. Data Wrangler hjælper med datakvalitet og funktionsudvikling ved at give indsigt i datakvalitetsproblemer og nemt muliggøre hurtig gentagelse af funktioner og konstruktion ved hjælp af en brugergrænseflade med lav kode.

I dette indlæg viser vi dig, hvordan du udfører undersøgende dataanalyse, forbereder og transformerer data ved hjælp af Data Wrangler og eksporterer de transformerede og forberedte data til Studio Lab for at udføre modelbygning.

Løsningsoversigt

Løsningen omfatter følgende trin på højt niveau:

  1. Opret AWS-konto og administratorbruger. Dette er en forudsætning
  2. Download datasættet churn.csv.
  3. Indlæs datasættet til Amazon Simple Storage Service (Amazon S3).
  4. Opret et SageMaker Studio-domæne og start Data Wrangler.
  5. Importer datasættet til Data Wrangler-flowet fra Amazon S3.
  6. Opret datakvalitets- og indsigtsrapporten og drag konklusioner om nødvendig funktionsudvikling.
  7. Udfør de nødvendige datatransformationer i Data Wrangler.
  8. Download rapporten Datakvalitet og -indsigt og det transformerede datasæt.
  9. Upload dataene til et Studio Lab-projekt til modeltræning.

Følgende diagram illustrerer denne arbejdsgang.

Forudsætninger

For at bruge Data Wrangler og Studio Lab skal du have følgende forudsætninger:

Byg en dataforberedelsesarbejdsgang med Data Wrangler

For at komme i gang skal du udføre følgende trin:

  1. Upload dit datasæt til Amazon S3.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  2. På SageMaker-konsollen, under kontrolpanel i navigationsruden skal du vælge studie.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  3. Start app menuen ud for din brugerprofil, skal du vælge studie.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Når du har logget ind på Studio, bør du se et udviklingsmiljø som det følgende skærmbillede.
  4. For at oprette en ny Data Wrangler-arbejdsgang, på File (Felt) menu, vælg Ny, Og vælg derefter Data Wrangler Flow.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Det første trin i Data Wrangler er at importere dine data. Du kan importere data fra flere datakilder, såsom Amazon S3, Amazonas Athena, Amazon rødforskydning, Snowflakeog Databrikker. I dette eksempel bruger vi Amazon S3. Hvis du bare vil se, hvordan Data Wrangler fungerer, kan du altid vælge Brug eksempeldatasæt.
  5. Vælg Import datoer.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  6. Vælg Amazon S3.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  7. Vælg det datasæt, du har uploadet, og vælg Importere.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Data Wrangler giver dig mulighed for enten at importere hele datasættet eller prøve en del af det.
  8. For hurtigt at få indsigt i datasættet skal du vælge Først K forum Sampling og indtast 50000 for Prøvestørrelse.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Forstå datakvalitet og få indsigt

Lad os bruge rapporten Datakvalitet og -indsigt til at udføre en analyse af de data, som vi importerede til Data Wrangler. Du kan bruge rapporten til at forstå, hvilke skridt du skal tage for at rense og behandle dine data. Denne rapport giver information såsom antallet af manglende værdier og antallet af afvigende værdier. Hvis du har problemer med dine data, såsom mållækage eller ubalance, kan indsigtsrapporten gøre dig opmærksom på disse problemer.

  1. Vælg plustegnet ved siden af Datatyper Og vælg Få dataindsigt.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  2. Til Analyse type, vælg Rapport om datakvalitet og indsigt.
  3. Til Målkolonne, vælg Churn?.
  4. Til ProblektypeVælg Klassifikation.
  5. Vælg Opret.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Du bliver præsenteret for en detaljeret rapport, som du kan gennemgå og downloade. Rapporten indeholder flere sektioner såsom hurtig model, funktionsoversigt, funktionskorrelation og dataindsigt. Følgende skærmbilleder giver eksempler på disse sektioner.

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Bemærkninger fra rapporten

Fra rapporten kan vi gøre følgende observationer:

  • Der blev ikke fundet nogen duplikerede rækker.
  • State kolonne ser ud til at være ret jævnt fordelt, så dataene er afbalancerede med hensyn til statsbefolkning.
  • Phone kolonne præsenterer for mange unikke værdier til at være til nogen praktisk nytte. For mange unikke værdier gør denne kolonne ikke nyttig. Vi kan droppe Phone kolonne i vores transformation.
  • Baseret på funktionskorrelationsafsnittet i rapporten, Mins , Charge er stærkt korrelerede. Vi kan fjerne en af ​​dem.

Transformation

Baseret på vores observationer ønsker vi at lave følgende transformationer:

  • Fjern Phone kolonne, fordi den har mange unikke værdier.
  • Vi ser også flere funktioner, der i det væsentlige har 100% korrelation med hinanden. At inkludere disse funktionspar i nogle ML-algoritmer kan skabe uønskede problemer, hvorimod det i andre kun vil introducere mindre redundans og bias. Lad os fjerne en funktion fra hvert af de stærkt korrelerede par: Day Charge fra parret med Day Mins, Night Charge fra parret med Night Minsog Intl Charge fra parret med Intl Mins.
  • Konverter True or False i Churn kolonne til at være en numerisk værdi på 1 eller 0.
  1. Vend tilbage til datastrømmen og vælg plustegnet ved siden af Datatyper.
  2. Vælg Tilføj transformation.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  3. Vælg Tilføj trin.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  4. Du kan søge efter den transformation, du leder efter (i vores tilfælde, administrer kolonner).
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  5. Vælg Administrer kolonner.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  6. Til Transform¸ vælg Drop kolonne.
  7. Til Kolonner til at slippe¸ vælg Phone, Day Charge, Eve Charge, Night Chargeog Intl Charge.
  8. Vælg Eksempel, Og vælg derefter Opdatering.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Lad os tilføje endnu en transformation for at udføre en kategorisk indkodning på Churn? kolonne.
  9. Vælg transformationen Indkode kategorisk.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  10. Til Transform, vælg Ordinal indkodning.
  11. Til Input kolonner, Vælg Churn? kolonne.
  12. Til Ugyldig håndteringsstrategi, vælg Erstat med NaN.
  13. Vælg Eksempel, Og vælg derefter Opdatering.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Nu True , False konverteres til henholdsvis 1 og 0.

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Nu hvor vi har en god forståelse af dataene og har forberedt og transformeret dataene til modelbygning, kan vi flytte dataene til Studio Lab for modelbygning.

Upload dataene til Studio Lab

For at begynde at bruge dataene i Studio Lab skal du udføre følgende trin:

  1. Vælg Eksporter data til eksport til en S3 spand.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  2. Til Amazon S3 placering, indtast din S3-sti.
  3. Angiv filtypen.
  4. Vælg Eksporter data.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  5. Når du har eksporteret dataene, kan du downloade dataene fra S3-bøtten til din lokale computer.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  6. Nu kan du gå til Studio Lab og uploade filen til Studio Lab.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Alternativt kan du oprette forbindelse til Amazon S3 fra Studio Lab. For mere information, se Brug eksterne ressourcer i Amazon SageMaker Studio Lab.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  7. Lad os installere SageMaker og importere pandaer.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  8. Importer alle biblioteker efter behov.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  9. Nu kan vi læse CSV-filen.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  10. Lad os udskrive churn for at bekræfte, at datasættet er korrekt.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Nu hvor du har det behandlede datasæt i Studio Lab, kan du udføre yderligere trin, der kræves til modelbygning.

Data Wrangler-priser

Du kan udføre alle trinene i dette indlæg til EDA eller dataforberedelse inden for Data Wrangler og betale for det simple eksempel, job og lagerpriser baseret på forbrug eller forbrug. Der kræves ingen forhånds- eller licensgebyrer.

Ryd op

Når du ikke bruger Data Wrangler, er det vigtigt at lukke den instans, den kører på, for at undgå at pådrage sig yderligere gebyrer. For at undgå at miste arbejde skal du gemme dit dataflow, før du lukker Data Wrangler ned.

  1. Vælg for at gemme dit dataflow i Studio File (Felt), Og vælg derefter Gem data Wrangler Flow.
    Data Wrangler gemmer automatisk dit dataflow hvert 60. sekund.
  2. For at lukke Data Wrangler-forekomsten ned i Studio skal du vælge Kører forekomster og kerner.
  3. Under KØRENDE APPS, skal du vælge nedlukningsikonet ved siden af sagemaker-data-wrangler-1.0 app.
  4. Vælg Luk alt sammen at bekræfte.
    Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Data Wrangler kører på en ml.m5.4xlarge instans. Denne instans forsvinder fra LØBENDE INSTANSER når du lukker Data Wrangler-appen ned.

Når du har lukket Data Wrangler-appen ned, skal den genstarte, næste gang du åbner en Data Wrangler-flowfil. Dette kan tage et par minutter.

Konklusion

I dette indlæg så vi, hvordan du kan få indsigt i dit datasæt, udføre undersøgende dataanalyse, forberede og transformere data ved hjælp af Data Wrangler i Studio og eksportere de transformerede og forberedte data til Studio Lab og udføre modelbygning og andre trin.

Med SageMaker Data Wrangler kan du forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering fra en enkelt visuel grænseflade.


Om forfatterne

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, der giver kunderne vejledning om forretningsteknologisk tilpasning og understøtter genopfindelsen af ​​deres cloud-driftsmodeller og -processer. Han er passioneret omkring skyen og maskinlæring. Raj er også maskinlæringsspecialist og arbejder med AWS-kunder for at designe, implementere og administrere deres AWS-arbejdsbelastninger og -arkitekturer.

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Meenakshisundaram Thandavarayan er en senior AI/ML-specialist med en passion for at designe, skabe og fremme menneskecentrerede data- og analyseoplevelser. Han støtter AWS Strategic-kunder i deres transformation mod datadrevet organisation.

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML PlatoBlockchain Data Intelligence. Lodret søgning. Ai.James Wu er Senior AI/ML Specialist Solution Architect hos AWS. hjælpe kunder med at designe og bygge AI/ML-løsninger. James' arbejde dækker en bred vifte af ML use cases med en primær interesse i computervision, deep learning og skalering af ML på tværs af virksomheden. Inden han kom til AWS, var James arkitekt, udvikler og teknologileder i over 10 år, herunder 6 år inden for ingeniørvidenskab og 4 år i marketing- og reklamebranchen.

Tidsstempel:

Mere fra AWS maskinindlæring