Brug Amazon SageMaker Data Wrangler til dataforberedelse og studielaboratorier til at lære og eksperimentere med ML

Genudgivet af Platon

Abonnenter: 0

Amazon SageMaker Studio Lab er et gratis udviklingsmiljø for maskinlæring (ML) baseret på open source JupyterLab, så alle kan lære og eksperimentere med ML ved hjælp af AWS ML-beregningsressourcer. Den er baseret på samme arkitektur og brugergrænseflade som Amazon SageMaker Studio, men med en undergruppe af Studio-funktioner.

Når du begynder at arbejde med ML-initiativer, skal du udføre eksplorativ dataanalyse (EDA) eller dataforberedelse, før du fortsætter med modelbygning. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker der gør det hurtigere for datavidenskabsfolk og ingeniører at forberede data til ML-applikationer via en visuel grænseflade. Data Wrangler reducerer den tid, det tager at samle og forberede data til ML fra uger til minutter.

En vigtig accelerator for funktionsforberedelse i Data Wrangler er Rapport om datakvalitet og indsigt. Denne rapport kontrollerer datakvaliteten og hjælper med at opdage abnormiteter i dine data, så du kan udføre den nødvendige datateknik for at rette dit datasæt. Du kan bruge rapporten Datakvalitet og -indsigt til at udføre en analyse af dine data for at få indsigt i dit datasæt, såsom antallet af manglende værdier og antallet af outliers. Hvis du har problemer med dine data, såsom mållækage eller ubalance, kan indsigtsrapporten gøre dig opmærksom på disse problemer og hjælpe dig med at identificere de dataforberedelsestrin, du skal udføre.

Studio Lab-brugere kan drage fordel af Data Wrangler, fordi datakvalitet og funktionsteknik er afgørende for din models forudsigelige ydeevne. Data Wrangler hjælper med datakvalitet og funktionsudvikling ved at give indsigt i datakvalitetsproblemer og nemt muliggøre hurtig gentagelse af funktioner og konstruktion ved hjælp af en brugergrænseflade med lav kode.

I dette indlæg viser vi dig, hvordan du udfører undersøgende dataanalyse, forbereder og transformerer data ved hjælp af Data Wrangler og eksporterer de transformerede og forberedte data til Studio Lab for at udføre modelbygning.

Løsningsoversigt

Løsningen omfatter følgende trin på højt niveau:

Opret AWS-konto og administratorbruger. Dette er en forudsætning
Download datasættet churn.csv.
Indlæs datasættet til Amazon Simple Storage Service (Amazon S3).
Opret et SageMaker Studio-domæne og start Data Wrangler.
Importer datasættet til Data Wrangler-flowet fra Amazon S3.
Opret datakvalitets- og indsigtsrapporten og drag konklusioner om nødvendig funktionsudvikling.
Udfør de nødvendige datatransformationer i Data Wrangler.
Download rapporten Datakvalitet og -indsigt og det transformerede datasæt.
Upload dataene til et Studio Lab-projekt til modeltræning.

Følgende diagram illustrerer denne arbejdsgang.

Forudsætninger

For at bruge Data Wrangler og Studio Lab skal du have følgende forudsætninger:

Byg en dataforberedelsesarbejdsgang med Data Wrangler

For at komme i gang skal du udføre følgende trin:

Upload dit datasæt til Amazon S3.
På SageMaker-konsollen, under kontrolpanel i navigationsruden skal du vælge studie.
På Start app menuen ud for din brugerprofil, skal du vælge studie.

Når du har logget ind på Studio, bør du se et udviklingsmiljø som det følgende skærmbillede.
For at oprette en ny Data Wrangler-arbejdsgang, på File (Felt) menu, vælg Ny, Og vælg derefter Data Wrangler Flow.

Det første trin i Data Wrangler er at importere dine data. Du kan importere data fra flere datakilder, såsom Amazon S3, Amazonas Athena, Amazon rødforskydning, Snowflakeog Databrikker. I dette eksempel bruger vi Amazon S3. Hvis du bare vil se, hvordan Data Wrangler fungerer, kan du altid vælge Brug eksempeldatasæt.
Vælg Import datoer.
Vælg Amazon S3.
Vælg det datasæt, du har uploadet, og vælg Importere.

Data Wrangler giver dig mulighed for enten at importere hele datasættet eller prøve en del af det.
For hurtigt at få indsigt i datasættet skal du vælge Først K forum Sampling og indtast 50000 for Prøvestørrelse.

Forstå datakvalitet og få indsigt

Lad os bruge rapporten Datakvalitet og -indsigt til at udføre en analyse af de data, som vi importerede til Data Wrangler. Du kan bruge rapporten til at forstå, hvilke skridt du skal tage for at rense og behandle dine data. Denne rapport giver information såsom antallet af manglende værdier og antallet af afvigende værdier. Hvis du har problemer med dine data, såsom mållækage eller ubalance, kan indsigtsrapporten gøre dig opmærksom på disse problemer.

Vælg plustegnet ved siden af Datatyper Og vælg Få dataindsigt.
Til Analyse type, vælg Rapport om datakvalitet og indsigt.
Til Målkolonne, vælg Churn?.
Til ProblektypeVælg Klassifikation.
Vælg Opret.

Du bliver præsenteret for en detaljeret rapport, som du kan gennemgå og downloade. Rapporten indeholder flere sektioner såsom hurtig model, funktionsoversigt, funktionskorrelation og dataindsigt. Følgende skærmbilleder giver eksempler på disse sektioner.

Bemærkninger fra rapporten

Fra rapporten kan vi gøre følgende observationer:

Der blev ikke fundet nogen duplikerede rækker.
State kolonne ser ud til at være ret jævnt fordelt, så dataene er afbalancerede med hensyn til statsbefolkning.
Phone kolonne præsenterer for mange unikke værdier til at være til nogen praktisk nytte. For mange unikke værdier gør denne kolonne ikke nyttig. Vi kan droppe Phone kolonne i vores transformation.
Baseret på funktionskorrelationsafsnittet i rapporten, Mins , Charge er stærkt korrelerede. Vi kan fjerne en af dem.

Transformation

Baseret på vores observationer ønsker vi at lave følgende transformationer:

Fjern Phone kolonne, fordi den har mange unikke værdier.
Vi ser også flere funktioner, der i det væsentlige har 100% korrelation med hinanden. At inkludere disse funktionspar i nogle ML-algoritmer kan skabe uønskede problemer, hvorimod det i andre kun vil introducere mindre redundans og bias. Lad os fjerne en funktion fra hvert af de stærkt korrelerede par: Day Charge fra parret med Day Mins, Night Charge fra parret med Night Minsog Intl Charge fra parret med Intl Mins.
Konverter True or False i Churn kolonne til at være en numerisk værdi på 1 eller 0.

Vend tilbage til datastrømmen og vælg plustegnet ved siden af Datatyper.
Vælg Tilføj transformation.
Vælg Tilføj trin.
Du kan søge efter den transformation, du leder efter (i vores tilfælde, administrer kolonner).
Vælg Administrer kolonner.
Til Transform¸ vælg Drop kolonne.
Til Kolonner til at slippe¸ vælg Phone, Day Charge, Eve Charge, Night Chargeog Intl Charge.
Vælg Eksempel, Og vælg derefter Opdatering.

Lad os tilføje endnu en transformation for at udføre en kategorisk indkodning på Churn? kolonne.
Vælg transformationen Indkode kategorisk.
Til Transform, vælg Ordinal indkodning.
Til Input kolonner, Vælg Churn? kolonne.
Til Ugyldig håndteringsstrategi, vælg Erstat med NaN.
Vælg Eksempel, Og vælg derefter Opdatering.

Nu True , False konverteres til henholdsvis 1 og 0.

Nu hvor vi har en god forståelse af dataene og har forberedt og transformeret dataene til modelbygning, kan vi flytte dataene til Studio Lab for modelbygning.

Upload dataene til Studio Lab

For at begynde at bruge dataene i Studio Lab skal du udføre følgende trin:

Vælg Eksporter data til eksport til en S3 spand.
Til Amazon S3 placering, indtast din S3-sti.
Angiv filtypen.
Vælg Eksporter data.
Når du har eksporteret dataene, kan du downloade dataene fra S3-bøtten til din lokale computer.
Nu kan du gå til Studio Lab og uploade filen til Studio Lab.

Alternativt kan du oprette forbindelse til Amazon S3 fra Studio Lab. For mere information, se Brug eksterne ressourcer i Amazon SageMaker Studio Lab.
Lad os installere SageMaker og importere pandaer.
Importer alle biblioteker efter behov.
Nu kan vi læse CSV-filen.
Lad os udskrive churn for at bekræfte, at datasættet er korrekt.

Nu hvor du har det behandlede datasæt i Studio Lab, kan du udføre yderligere trin, der kræves til modelbygning.

Data Wrangler-priser

Du kan udføre alle trinene i dette indlæg til EDA eller dataforberedelse inden for Data Wrangler og betale for det simple eksempel, job og lagerpriser baseret på forbrug eller forbrug. Der kræves ingen forhånds- eller licensgebyrer.

Ryd op

Når du ikke bruger Data Wrangler, er det vigtigt at lukke den instans, den kører på, for at undgå at pådrage sig yderligere gebyrer. For at undgå at miste arbejde skal du gemme dit dataflow, før du lukker Data Wrangler ned.

Vælg for at gemme dit dataflow i Studio File (Felt), Og vælg derefter Gem data Wrangler Flow.
Data Wrangler gemmer automatisk dit dataflow hvert 60. sekund.
For at lukke Data Wrangler-forekomsten ned i Studio skal du vælge Kører forekomster og kerner.
Under KØRENDE APPS, skal du vælge nedlukningsikonet ved siden af sagemaker-data-wrangler-1.0 app.
Vælg Luk alt sammen at bekræfte.

Data Wrangler kører på en ml.m5.4xlarge instans. Denne instans forsvinder fra LØBENDE INSTANSER når du lukker Data Wrangler-appen ned.

Når du har lukket Data Wrangler-appen ned, skal den genstarte, næste gang du åbner en Data Wrangler-flowfil. Dette kan tage et par minutter.

Konklusion

I dette indlæg så vi, hvordan du kan få indsigt i dit datasæt, udføre undersøgende dataanalyse, forberede og transformere data ved hjælp af Data Wrangler i Studio og eksportere de transformerede og forberedte data til Studio Lab og udføre modelbygning og andre trin.

Med SageMaker Data Wrangler kan du forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering fra en enkelt visuel grænseflade.

Om forfatterne

Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, der giver kunderne vejledning om forretningsteknologisk tilpasning og understøtter genopfindelsen af deres cloud-driftsmodeller og -processer. Han er passioneret omkring skyen og maskinlæring. Raj er også maskinlæringsspecialist og arbejder med AWS-kunder for at designe, implementere og administrere deres AWS-arbejdsbelastninger og -arkitekturer.

Meenakshisundaram Thandavarayan er en senior AI/ML-specialist med en passion for at designe, skabe og fremme menneskecentrerede data- og analyseoplevelser. Han støtter AWS Strategic-kunder i deres transformation mod datadrevet organisation.

James Wu er Senior AI/ML Specialist Solution Architect hos AWS. hjælpe kunder med at designe og bygge AI/ML-løsninger. James' arbejde dækker en bred vifte af ML use cases med en primær interesse i computervision, deep learning og skalering af ML på tværs af virksomheden. Inden han kom til AWS, var James arkitekt, udvikler og teknologileder i over 10 år, herunder 6 år inden for ingeniørvidenskab og 4 år i marketing- og reklamebranchen.

Tidsstempel: September 15, 2022September 15, 2022

Tidsstempel: Juli 8, 2022

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML

Genudgivet af Platon

Løsningsoversigt

Forudsætninger

Byg en dataforberedelsesarbejdsgang med Data Wrangler

Forstå datakvalitet og få indsigt

Bemærkninger fra rapporten

Transformation

Upload dataene til Studio Lab

Data Wrangler-priser

Ryd op

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

AWS DeepRacer gør det muligt for bygherrer på alle færdighedsniveauer at opkvalificere sig og komme i gang med maskinlæring | Amazon Web Services

Opdag svindel i mobilorienterede virksomheder ved hjælp af GrabDefence-enhedsintelligens og Amazon Fraud Detector

Giv live agent assistance til dine chatbot-brugere med Amazon Lex og Talkdesk cloud-kontaktcenter | Amazon Web Services

Kør flere deep learning-modeller på GPU med Amazon SageMaker multi-model endpoints

Hvordan Amp på Amazon brugte data til at øge kundeengagementet, del 1: Opbygning af en dataanalyseplatform

Forhindr kontoovertagelse ved login med den nye Account Takeover Insights-model i Amazon Fraud Detector

Onboard PaddleOCR med Amazon SageMaker Projects for MLOps til at udføre optisk tegngenkendelse på identitetsdokumenter

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto