Amazon SageMaker Studio Lab er et gratis udviklingsmiljø for maskinlæring (ML) baseret på open source JupyterLab, så alle kan lære og eksperimentere med ML ved hjælp af AWS ML-beregningsressourcer. Den er baseret på samme arkitektur og brugergrænseflade som Amazon SageMaker Studio, men med en undergruppe af Studio-funktioner.
Når du begynder at arbejde med ML-initiativer, skal du udføre eksplorativ dataanalyse (EDA) eller dataforberedelse, før du fortsætter med modelbygning. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker der gør det hurtigere for datavidenskabsfolk og ingeniører at forberede data til ML-applikationer via en visuel grænseflade. Data Wrangler reducerer den tid, det tager at samle og forberede data til ML fra uger til minutter.
En vigtig accelerator for funktionsforberedelse i Data Wrangler er Rapport om datakvalitet og indsigt. Denne rapport kontrollerer datakvaliteten og hjælper med at opdage abnormiteter i dine data, så du kan udføre den nødvendige datateknik for at rette dit datasæt. Du kan bruge rapporten Datakvalitet og -indsigt til at udføre en analyse af dine data for at få indsigt i dit datasæt, såsom antallet af manglende værdier og antallet af outliers. Hvis du har problemer med dine data, såsom mållækage eller ubalance, kan indsigtsrapporten gøre dig opmærksom på disse problemer og hjælpe dig med at identificere de dataforberedelsestrin, du skal udføre.
Studio Lab-brugere kan drage fordel af Data Wrangler, fordi datakvalitet og funktionsteknik er afgørende for din models forudsigelige ydeevne. Data Wrangler hjælper med datakvalitet og funktionsudvikling ved at give indsigt i datakvalitetsproblemer og nemt muliggøre hurtig gentagelse af funktioner og konstruktion ved hjælp af en brugergrænseflade med lav kode.
I dette indlæg viser vi dig, hvordan du udfører undersøgende dataanalyse, forbereder og transformerer data ved hjælp af Data Wrangler og eksporterer de transformerede og forberedte data til Studio Lab for at udføre modelbygning.
Løsningsoversigt
Løsningen omfatter følgende trin på højt niveau:
- Opret AWS-konto og administratorbruger. Dette er en forudsætning
- Download datasættet churn.csv.
- Indlæs datasættet til Amazon Simple Storage Service (Amazon S3).
- Opret et SageMaker Studio-domæne og start Data Wrangler.
- Importer datasættet til Data Wrangler-flowet fra Amazon S3.
- Opret datakvalitets- og indsigtsrapporten og drag konklusioner om nødvendig funktionsudvikling.
- Udfør de nødvendige datatransformationer i Data Wrangler.
- Download rapporten Datakvalitet og -indsigt og det transformerede datasæt.
- Upload dataene til et Studio Lab-projekt til modeltræning.
Følgende diagram illustrerer denne arbejdsgang.
Forudsætninger
For at bruge Data Wrangler og Studio Lab skal du have følgende forudsætninger:
Byg en dataforberedelsesarbejdsgang med Data Wrangler
For at komme i gang skal du udføre følgende trin:
- Upload dit datasæt til Amazon S3.
- På SageMaker-konsollen, under kontrolpanel i navigationsruden skal du vælge studie.
- På Start app menuen ud for din brugerprofil, skal du vælge studie.
Når du har logget ind på Studio, bør du se et udviklingsmiljø som det følgende skærmbillede. - For at oprette en ny Data Wrangler-arbejdsgang, på File (Felt) menu, vælg Ny, Og vælg derefter Data Wrangler Flow.
Det første trin i Data Wrangler er at importere dine data. Du kan importere data fra flere datakilder, såsom Amazon S3, Amazonas Athena, Amazon rødforskydning, Snowflakeog Databrikker. I dette eksempel bruger vi Amazon S3. Hvis du bare vil se, hvordan Data Wrangler fungerer, kan du altid vælge Brug eksempeldatasæt. - Vælg Import datoer.
- Vælg Amazon S3.
- Vælg det datasæt, du har uploadet, og vælg Importere.
Data Wrangler giver dig mulighed for enten at importere hele datasættet eller prøve en del af det. - For hurtigt at få indsigt i datasættet skal du vælge Først K forum Sampling og indtast 50000 for Prøvestørrelse.
Forstå datakvalitet og få indsigt
Lad os bruge rapporten Datakvalitet og -indsigt til at udføre en analyse af de data, som vi importerede til Data Wrangler. Du kan bruge rapporten til at forstå, hvilke skridt du skal tage for at rense og behandle dine data. Denne rapport giver information såsom antallet af manglende værdier og antallet af afvigende værdier. Hvis du har problemer med dine data, såsom mållækage eller ubalance, kan indsigtsrapporten gøre dig opmærksom på disse problemer.
- Vælg plustegnet ved siden af Datatyper Og vælg Få dataindsigt.
- Til Analyse type, vælg Rapport om datakvalitet og indsigt.
- Til Målkolonne, vælg Churn?.
- Til ProblektypeVælg Klassifikation.
- Vælg Opret.
Du bliver præsenteret for en detaljeret rapport, som du kan gennemgå og downloade. Rapporten indeholder flere sektioner såsom hurtig model, funktionsoversigt, funktionskorrelation og dataindsigt. Følgende skærmbilleder giver eksempler på disse sektioner.
Bemærkninger fra rapporten
Fra rapporten kan vi gøre følgende observationer:
- Der blev ikke fundet nogen duplikerede rækker.
-
State
kolonne ser ud til at være ret jævnt fordelt, så dataene er afbalancerede med hensyn til statsbefolkning. -
Phone
kolonne præsenterer for mange unikke værdier til at være til nogen praktisk nytte. For mange unikke værdier gør denne kolonne ikke nyttig. Vi kan droppePhone
kolonne i vores transformation. - Baseret på funktionskorrelationsafsnittet i rapporten,
Mins
,Charge
er stærkt korrelerede. Vi kan fjerne en af dem.
Transformation
Baseret på vores observationer ønsker vi at lave følgende transformationer:
- Fjern
Phone
kolonne, fordi den har mange unikke værdier. - Vi ser også flere funktioner, der i det væsentlige har 100% korrelation med hinanden. At inkludere disse funktionspar i nogle ML-algoritmer kan skabe uønskede problemer, hvorimod det i andre kun vil introducere mindre redundans og bias. Lad os fjerne en funktion fra hvert af de stærkt korrelerede par:
Day Charge
fra parret medDay Mins
,Night Charge
fra parret medNight Mins
ogIntl Charge
fra parret medIntl Mins
. - Konverter
True
orFalse
iChurn
kolonne til at være en numerisk værdi på 1 eller 0.
- Vend tilbage til datastrømmen og vælg plustegnet ved siden af Datatyper.
- Vælg Tilføj transformation.
- Vælg Tilføj trin.
- Du kan søge efter den transformation, du leder efter (i vores tilfælde, administrer kolonner).
- Vælg Administrer kolonner.
- Til Transform¸ vælg Drop kolonne.
- Til Kolonner til at slippe¸ vælg
Phone
,Day Charge
,Eve Charge
,Night Charge
ogIntl Charge
. - Vælg Eksempel, Og vælg derefter Opdatering.
Lad os tilføje endnu en transformation for at udføre en kategorisk indkodning påChurn?
kolonne. - Vælg transformationen Indkode kategorisk.
- Til Transform, vælg Ordinal indkodning.
- Til Input kolonner, Vælg
Churn?
kolonne. - Til Ugyldig håndteringsstrategi, vælg Erstat med NaN.
- Vælg Eksempel, Og vælg derefter Opdatering.
Nu True
, False
konverteres til henholdsvis 1 og 0.
Nu hvor vi har en god forståelse af dataene og har forberedt og transformeret dataene til modelbygning, kan vi flytte dataene til Studio Lab for modelbygning.
Upload dataene til Studio Lab
For at begynde at bruge dataene i Studio Lab skal du udføre følgende trin:
- Vælg Eksporter data til eksport til en S3 spand.
- Til Amazon S3 placering, indtast din S3-sti.
- Angiv filtypen.
- Vælg Eksporter data.
- Når du har eksporteret dataene, kan du downloade dataene fra S3-bøtten til din lokale computer.
- Nu kan du gå til Studio Lab og uploade filen til Studio Lab.
Alternativt kan du oprette forbindelse til Amazon S3 fra Studio Lab. For mere information, se Brug eksterne ressourcer i Amazon SageMaker Studio Lab. - Lad os installere SageMaker og importere pandaer.
- Importer alle biblioteker efter behov.
- Nu kan vi læse CSV-filen.
- Lad os udskrive
churn
for at bekræfte, at datasættet er korrekt.
Nu hvor du har det behandlede datasæt i Studio Lab, kan du udføre yderligere trin, der kræves til modelbygning.
Data Wrangler-priser
Du kan udføre alle trinene i dette indlæg til EDA eller dataforberedelse inden for Data Wrangler og betale for det simple eksempel, job og lagerpriser baseret på forbrug eller forbrug. Der kræves ingen forhånds- eller licensgebyrer.
Ryd op
Når du ikke bruger Data Wrangler, er det vigtigt at lukke den instans, den kører på, for at undgå at pådrage sig yderligere gebyrer. For at undgå at miste arbejde skal du gemme dit dataflow, før du lukker Data Wrangler ned.
- Vælg for at gemme dit dataflow i Studio File (Felt), Og vælg derefter Gem data Wrangler Flow.
Data Wrangler gemmer automatisk dit dataflow hvert 60. sekund. - For at lukke Data Wrangler-forekomsten ned i Studio skal du vælge Kører forekomster og kerner.
- Under KØRENDE APPS, skal du vælge nedlukningsikonet ved siden af
sagemaker-data-wrangler-1.0 app
. - Vælg Luk alt sammen at bekræfte.
Data Wrangler kører på en ml.m5.4xlarge instans. Denne instans forsvinder fra LØBENDE INSTANSER når du lukker Data Wrangler-appen ned.
Når du har lukket Data Wrangler-appen ned, skal den genstarte, næste gang du åbner en Data Wrangler-flowfil. Dette kan tage et par minutter.
Konklusion
I dette indlæg så vi, hvordan du kan få indsigt i dit datasæt, udføre undersøgende dataanalyse, forberede og transformere data ved hjælp af Data Wrangler i Studio og eksportere de transformerede og forberedte data til Studio Lab og udføre modelbygning og andre trin.
Med SageMaker Data Wrangler kan du forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering fra en enkelt visuel grænseflade.
Om forfatterne
Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, der giver kunderne vejledning om forretningsteknologisk tilpasning og understøtter genopfindelsen af deres cloud-driftsmodeller og -processer. Han er passioneret omkring skyen og maskinlæring. Raj er også maskinlæringsspecialist og arbejder med AWS-kunder for at designe, implementere og administrere deres AWS-arbejdsbelastninger og -arkitekturer.
Meenakshisundaram Thandavarayan er en senior AI/ML-specialist med en passion for at designe, skabe og fremme menneskecentrerede data- og analyseoplevelser. Han støtter AWS Strategic-kunder i deres transformation mod datadrevet organisation.
James Wu er Senior AI/ML Specialist Solution Architect hos AWS. hjælpe kunder med at designe og bygge AI/ML-løsninger. James' arbejde dækker en bred vifte af ML use cases med en primær interesse i computervision, deep learning og skalering af ML på tværs af virksomheden. Inden han kom til AWS, var James arkitekt, udvikler og teknologileder i over 10 år, herunder 6 år inden for ingeniørvidenskab og 4 år i marketing- og reklamebranchen.
- AI
- ai kunst
- ai kunst generator
- en robot
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- kunstig intelligens
- certificering af kunstig intelligens
- kunstig intelligens i banksektoren
- kunstig intelligens robot
- kunstig intelligens robotter
- software til kunstig intelligens
- AWS maskinindlæring
- blockchain
- blockchain konference ai
- coingenius
- samtale kunstig intelligens
- kryptokonference ai
- dalls
- dyb læring
- du har google
- machine learning
- plato
- platon ai
- Platon Data Intelligence
- Platon spil
- PlatoData
- platogaming
- skala ai
- syntaks
- zephyrnet