Amazon SageMaker Studio Lab er et gratis utviklingsmiljø for maskinlæring (ML) basert på åpen kildekode JupyterLab for alle å lære og eksperimentere med ML ved å bruke AWS ML-databehandlingsressurser. Den er basert på samme arkitektur og brukergrensesnitt som Amazon SageMaker Studio, men med et undersett av Studio-funksjoner.
Når du begynner å jobbe med ML-initiativer, må du utføre utforskende dataanalyse (EDA) eller dataforberedelse før du fortsetter med modellbygging. Amazon SageMaker Data Wrangler er en evne til Amazon SageMaker som gjør det raskere for dataforskere og ingeniører å forberede data for ML-applikasjoner via et visuelt grensesnitt. Data Wrangler reduserer tiden det tar å samle og forberede data for ML fra uker til minutter.
En nøkkelakselerator for funksjonsforberedelse i Data Wrangler er Rapport om datakvalitet og innsikt. Denne rapporten sjekker datakvaliteten og hjelper til med å oppdage avvik i dataene dine, slik at du kan utføre den nødvendige datateknikken for å fikse datasettet. Du kan bruke datakvalitets- og innsiktsrapporten til å utføre en analyse av dataene dine for å få innsikt i datasettet ditt, for eksempel antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene og hjelpe deg med å identifisere dataforberedelsestrinnene du må utføre.
Studio Lab-brukere kan dra nytte av Data Wrangler fordi datakvalitet og funksjonsteknikk er avgjørende for den prediktive ytelsen til modellen din. Data Wrangler hjelper med datakvalitet og funksjonsutvikling ved å gi innsikt i datakvalitetsproblemer og enkelt muliggjøre rask funksjonsgjentakelse og utvikling ved å bruke et brukergrensesnitt med lav kode.
I dette innlegget viser vi deg hvordan du utfører utforskende dataanalyse, forbereder og transformerer data ved hjelp av Data Wrangler, og eksporterer de transformerte og forberedte dataene til Studio Lab for å utføre modellbygging.
Løsningsoversikt
Løsningen inkluderer følgende trinn på høyt nivå:
- Opprett AWS-konto og administratorbruker. Dette er en forutsetning
- Last ned datasettet churn.csv.
- Last inn datasettet til Amazon enkel lagringstjeneste (Amazon S3).
- Opprett et SageMaker Studio-domene og start Data Wrangler.
- Importer datasettet til Data Wrangler-flyten fra Amazon S3.
- Lag rapporten om datakvalitet og -innsikt og trekk konklusjoner om nødvendig funksjonsutvikling.
- Utfør de nødvendige datatransformasjonene i Data Wrangler.
- Last ned rapporten om datakvalitet og -innsikt og det transformerte datasettet.
- Last opp dataene til et Studio Lab-prosjekt for modellopplæring.
Følgende diagram illustrerer denne arbeidsflyten.
Forutsetninger
For å bruke Data Wrangler og Studio Lab trenger du følgende forutsetninger:
Bygg en dataforberedende arbeidsflyt med Data Wrangler
Gjør følgende for å komme i gang:
- Last opp datasettet ditt til Amazon S3.
- På SageMaker-konsollen, under Kontrollpanelet Velg navigasjonsruten studie.
- På Start appen menyen ved siden av brukerprofilen din, velg studie.
Etter at du har logget på Studio, bør du se et utviklingsmiljø som følgende skjermbilde. - For å opprette en ny Data Wrangler-arbeidsflyt, på filet meny, velg Ny, velg deretter Data Wrangler Flow.
Det første trinnet i Data Wrangler er å importere dataene dine. Du kan importere data fra flere datakilder, for eksempel Amazon S3, Amazonas Athena, Amazon RedShift, Snowflakeog Databaser. I dette eksemplet bruker vi Amazon S3. Hvis du bare vil se hvordan Data Wrangler fungerer, kan du alltid velge Bruk eksempeldatasett. - Velg Import datoer.
- Velg Amazon S3.
- Velg datasettet du lastet opp og velg Import.
Data Wrangler lar deg enten importere hele datasettet eller prøve en del av det. - For raskt å få innsikt i datasettet, velg Først K forum sampling og skriv inn 50000 XNUMX for Prøvestørrelse.
Forstå datakvalitet og få innsikt
La oss bruke datakvalitets- og innsiktsrapporten til å utføre en analyse av dataene vi importerte til Data Wrangler. Du kan bruke rapporten til å forstå hvilke trinn du må ta for å rense og behandle dataene dine. Denne rapporten gir informasjon som antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene.
- Velg plusstegnet ved siden av Datatyper Og velg Få datainnsikt.
- Til Analysetype, velg Rapport om datakvalitet og innsikt.
- Til Målkolonne, velg Churn?.
- Til Problemtypeå velge Klassifisering.
- Velg Opprett.
Du får presentert en detaljert rapport som du kan se gjennom og laste ned. Rapporten inneholder flere seksjoner som hurtigmodell, funksjonssammendrag, funksjonskorrelasjon og datainnsikt. Følgende skjermbilder gir eksempler på disse delene.
Observasjoner fra rapporten
Fra rapporten kan vi gjøre følgende observasjoner:
- Ingen dupliserte rader ble funnet.
- De
State
kolonnen ser ut til å være ganske jevnt fordelt, så dataene er balansert i forhold til statens befolkning. - De
Phone
kolonnen presenterer for mange unike verdier til å være av praktisk nytte. For mange unike verdier gjør at denne kolonnen ikke er nyttig. Vi kan droppePhone
kolonne i vår transformasjon. - Basert på funksjonskorrelasjonsdelen av rapporten,
Mins
ogCharge
er sterkt korrelerte. Vi kan fjerne en av dem.
Transformation
Basert på våre observasjoner ønsker vi å gjøre følgende transformasjoner:
- Fjern
Phone
kolonne fordi den har mange unike verdier. - Vi ser også flere funksjoner som i hovedsak har 100% korrelasjon med hverandre. Å inkludere disse funksjonsparene i noen ML-algoritmer kan skape uønskede problemer, mens det i andre bare vil introdusere mindre redundans og skjevhet. La oss fjerne en funksjon fra hvert av de høyt korrelerte parene:
Day Charge
fra paret medDay Mins
,Night Charge
fra paret medNight Mins
ogIntl Charge
fra paret medIntl Mins
. - Konverter
True
orFalse
iChurn
kolonne til å være en numerisk verdi på 1 eller 0.
- Gå tilbake til dataflyten og velg plusstegnet ved siden av Datatyper.
- Velg Legg til transform.
- Velg Legg til trinn.
- Du kan søke etter transformasjonen du leter etter (i vårt tilfelle, administrer kolonner).
- Velg Administrer kolonner.
- Til Transform¸ velg Slipp kolonne.
- Til Kolonner å slippe¸ velg
Phone
,Day Charge
,Eve Charge
,Night Charge
ogIntl Charge
. - Velg Forhåndsvisning, velg deretter Oppdater.
La oss legge til en annen transformasjon for å utføre en kategorisk koding påChurn?
kolonne. - Velg transformasjonen Kode kategorisk.
- Til Transform, velg Ordinær koding.
- Til Inndatakolonner, Velg
Churn?
kolonne. - Til Ugyldig håndteringsstrategi, velg Erstatt med NaN.
- Velg Forhåndsvisning, velg deretter Oppdater.
Nå True
og False
konverteres til henholdsvis 1 og 0.
Nå som vi har en god forståelse av dataene og har forberedt og transformert dataene for modellbygging, kan vi flytte dataene til Studio Lab for modellbygging.
Last opp dataene til Studio Lab
For å begynne å bruke dataene i Studio Lab, fullfør følgende trinn:
- Velg Eksporter data til eksportere til en S3-bøtte.
- Til Amazon S3 plassering, skriv inn S3-banen din.
- Spesifiser filtypen.
- Velg Eksporter data.
- Etter at du har eksportert dataene, kan du laste ned dataene fra S3-bøtten til din lokale datamaskin.
- Nå kan du gå til Studio Lab og laste opp filen til Studio Lab.
Alternativt kan du koble til Amazon S3 fra Studio Lab. For mer informasjon, se Bruk eksterne ressurser i Amazon SageMaker Studio Lab. - La oss installere SageMaker og importere pandaer.
- Importer alle biblioteker etter behov.
- Nå kan vi lese CSV-filen.
- La oss skrive ut
churn
for å bekrefte at datasettet er riktig.
Nå som du har det behandlede datasettet i Studio Lab, kan du utføre ytterligere trinn som kreves for modellbygging.
Data Wrangler-priser
Du kan utføre alle trinnene i dette innlegget for EDA eller dataforberedelse innenfor Data Wrangler og betale for den enkle forekomsten, jobber og lagringspriser basert på bruk eller forbruk. Ingen forhånds- eller lisensavgifter kreves.
Rydd opp
Når du ikke bruker Data Wrangler, er det viktig å slå av forekomsten den kjører på for å unngå ekstra avgifter. For å unngå å miste arbeid, lagre dataflyten før du slår av Data Wrangler.
- For å lagre dataflyten din i Studio, velg filet, velg deretter Lagre data Wrangler Flow.
Data Wrangler lagrer automatisk dataflyten hvert 60. sekund. - For å slå av Data Wrangler-forekomsten, i Studio, velg Kjører forekomster og kjerner.
- Under KJØRER APPER, velg avslutningsikonet ved siden av
sagemaker-data-wrangler-1.0 app
. - Velg Slå av alt å bekrefte.
Data Wrangler kjører på en ml.m5.4xlarge instans. Denne instansen forsvinner fra KJØRINGSINSTANSER når du slår av Data Wrangler-appen.
Etter at du har slått av Data Wrangler-appen, må den starte på nytt neste gang du åpner en Data Wrangler-flytfil. Dette kan ta noen minutter.
konklusjonen
I dette innlegget så vi hvordan du kan få innsikt i datasettet ditt, utføre utforskende dataanalyse, forberede og transformere data ved hjelp av Data Wrangler i Studio, og eksportere de transformerte og forberedte dataene til Studio Lab og utføre modellbygging og andre trinn.
Med SageMaker Data Wrangler kan du forenkle prosessen med dataforberedelse og funksjonsutvikling, og fullføre hvert trinn i dataforberedelsesarbeidsflyten, inkludert datavalg, rensing, utforskning og visualisering fra ett enkelt visuelt grensesnitt.
Om forfatterne
Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, og gir kundene veiledning om justering av forretningsteknologi og støtter gjenoppfinnelsen av deres skyoperasjonsmodeller og -prosesser. Han er lidenskapelig opptatt av skyen og maskinlæring. Raj er også en maskinlæringsspesialist og jobber med AWS-kunder for å designe, distribuere og administrere AWS-arbeidsmengdene og -arkitekturene deres.
Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med lidenskap for å designe, skape og fremme menneskesentrerte data- og analyseopplevelser. Han støtter AWS Strategic-kunder i deres transformasjon mot datadrevet organisasjon.
James Wu er senior AI/ML spesialistløsningsarkitekt hos AWS. hjelpe kunder med å designe og bygge AI/ML-løsninger. James sitt arbeid dekker et bredt spekter av ML-brukstilfeller, med en primær interesse for datasyn, dyp læring og skalering av ML på tvers av bedriften. Før han begynte i AWS, var James arkitekt, utvikler og teknologileder i over 10 år, inkludert 6 år innen ingeniørfag og 4 år i markedsførings- og reklamebransjen.
- AI
- ai kunst
- ai art generator
- du har en robot
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- kunstig intelligens
- sertifisering av kunstig intelligens
- kunstig intelligens i bankvirksomhet
- kunstig intelligens robot
- kunstig intelligens roboter
- programvare for kunstig intelligens
- AWS maskinlæring
- blockchain
- blockchain konferanse ai
- coingenius
- samtale kunstig intelligens
- kryptokonferanse ai
- dall sin
- dyp læring
- google det
- maskinlæring
- plato
- plato ai
- Platon Data Intelligence
- Platon spill
- PlatonData
- platogaming
- skala ai
- syntaks
- zephyrnet