Utforskende dataanalyse (EDA) er en vanlig oppgave utført av forretningsanalytikere for å oppdage mønstre, forstå relasjoner, validere forutsetninger og identifisere uregelmessigheter i dataene deres. I maskinlæring (ML) er det viktig å først forstå dataene og deres relasjoner før du begynner med modellbygging. Tradisjonelle ML-utviklingssykluser kan noen ganger ta måneder og krever avansert datavitenskap og ML-ingeniørferdigheter, mens ML-løsninger uten kode kan hjelpe bedrifter med å akselerere leveringen av ML-løsninger til dager eller til og med timer.
Amazon SageMaker Canvas er et ML-verktøy uten kode som hjelper forretningsanalytikere med å generere nøyaktige ML-spådommer uten å måtte skrive kode eller uten å kreve noen ML-erfaring. Canvas gir et brukervennlig visuelt grensesnitt for å laste, rense og transformere datasettene, etterfulgt av å bygge ML-modeller og generere nøyaktige spådommer.
I dette innlegget går vi gjennom hvordan du utfører EDA for å få en bedre forståelse av dataene dine før du bygger din ML-modell, takket være Canvas' innebygde avanserte visualiseringer. Disse visualiseringene hjelper deg med å analysere forholdet mellom funksjoner i datasettene dine og forstå dataene dine bedre. Dette gjøres intuitivt, med muligheten til å samhandle med dataene og oppdage innsikt som kan gå ubemerket hen med ad hoc-spørringer. De kan lages raskt gjennom 'Datavisualizer' i Canvas før du bygger og trener ML-modeller.
Løsningsoversikt
Disse visualiseringene legger til utvalget av muligheter for dataforberedelse og utforskning som allerede tilbys av Canvas, inkludert muligheten til å korrigere manglende verdier og erstatte uteliggere; filtrere, slå sammen og endre datasett; og trekke ut spesifikke tidsverdier fra tidsstempler. For å lære mer om hvordan Canvas kan hjelpe deg med å rense, transformere og forberede datasettet ditt, sjekk ut Forbered data med avanserte transformasjoner.
For vår brukssituasjon ser vi på hvorfor kunder slutter i enhver virksomhet og illustrerer hvordan EDA kan hjelpe fra en analytikers synspunkt. Datasettet vi bruker i dette innlegget er et syntetisk datasett fra en telekommunikasjonsmobiloperatør for kundeavgang som du kan laste ned (churn.csv), eller du tar med ditt eget datasett for å eksperimentere med. For instruksjoner om å importere ditt eget datasett, se Importere data i Amazon SageMaker Canvas.
Forutsetninger
Følg instruksjonene i Forutsetninger for å sette opp Amazon SageMaker Canvas før du går videre.
Importer datasettet ditt til Canvas
For å importere eksempeldatasettet til Canvas, fullfør følgende trinn:
- Logg inn på Canvas som bedriftsbruker.Først laster vi opp datasettet nevnt tidligere fra vår lokale datamaskin til Canvas. Dersom du ønsker å bruke andre kilder, som f.eks Amazon RedShift, referere til Koble til en ekstern datakilde.
- Velg Import.
- Velg Last opp, velg deretter Velg filer fra datamaskinen din.
- Velg datasettet ditt (churn.csv) og velg Import datoer.
- Velg datasettet og velg Lag modell.
- Til Modellnavn, skriv inn et navn (for dette innlegget har vi gitt navnet Churn-prediksjon).
- Velg Opprett.
Så snart du velger datasettet ditt, får du en oversikt som skisserer datatypene, manglende verdier, feilaktige verdier, unike verdier og gjennomsnitts- eller modusverdiene for de respektive kolonnene.
Fra et EDA-perspektiv kan du observere at det ikke er noen manglende eller feilaktige verdier i datasettet. Som forretningsanalytiker kan det være lurt å få et innledende innblikk i modellbyggingen allerede før du starter datautforskningen for å identifisere hvordan modellen vil prestere og hvilke faktorer som bidrar til modellens ytelse. Canvas gir deg muligheten til å få innsikt fra dataene dine før du bygger en modell ved først å forhåndsvise modellen. - Før du gjør noen datautforskning, velg Forhåndsvisningsmodell.
- Velg kolonnen du vil forutsi (churn). Canvas oppdager automatisk at dette er to-kategoris prediksjon.
- Velg Forhåndsvisningsmodell. SageMaker Canvas bruker et undersett av dataene dine for å bygge en modell raskt for å sjekke om dataene dine er klare til å generere en nøyaktig prediksjon. Ved å bruke denne eksempelmodellen kan du forstå gjeldende modellnøyaktighet og den relative innvirkningen av hver kolonne på spådommer.
Følgende skjermbilde viser forhåndsvisningen vår.
Modellforhåndsvisningen indikerer at modellen forutsier riktig mål (churn?) 95.6 % av tiden. Du kan også se den første kolonneeffekten (innflytelse hver kolonne har på målkolonnen). La oss gjøre litt datautforskning, visualisering og transformasjon, og deretter fortsette å bygge en modell.
Data leting
Canvas gir allerede noen vanlige grunnleggende visualiseringer, for eksempel datadistribusjon i en rutenettvisning på Bygge fanen. Disse er flotte for å få en oversikt over dataene på høyt nivå, forstå hvordan dataene er distribuert og få en sammenfattende oversikt over datasettet.
Som forretningsanalytiker må du kanskje få innsikt på høyt nivå om hvordan dataene er distribuert, samt hvordan fordelingen reflekterer mot målkolonnen (churn) for enkelt å forstå dataforholdet før du bygger modellen. Du kan nå velge Rutenettvisning for å få oversikt over datadistribusjonen.
Følgende skjermbilde viser oversikten over distribusjonen av datasettet.
Vi kan gjøre følgende observasjoner:
- Telefonen antar for mange unike verdier til å være til praktisk bruk. Vi vet at telefonen er en kunde-ID og ønsker ikke å bygge en modell som kan vurdere spesifikke kunder, men heller lære i en mer generell forstand hva som kan føre til churn. Du kan fjerne denne variabelen.
- De fleste av de numeriske funksjonene er pent fordelt, etter en Gaussian bjellekurve. I ML vil du at dataene skal distribueres normalt fordi enhver variabel som viser normalfordeling kan prognoseres med høyere nøyaktighet.
La oss gå dypere og sjekke ut de avanserte visualiseringene som er tilgjengelige i Canvas.
Datavisualisering
Som forretningsanalytikere vil du se om det er relasjoner mellom dataelementer, og hvordan de er relatert til churn. Med Canvas kan du utforske og visualisere dataene dine, noe som hjelper deg med å få avansert innsikt i dataene dine før du bygger ML-modellene dine. Du kan visualisere ved hjelp av spredningsplott, søylediagrammer og boksplott, som kan hjelpe deg å forstå dataene dine og oppdage forholdet mellom funksjoner som kan påvirke modellens nøyaktighet.
For å begynne å lage visualiseringer, fullfør følgende trinn:
- På Bygge fanen i Canvas-appen, velg Datavisualisering.
En nøkkelakselerator for visualisering i Canvas er Datavisualisering. La oss endre prøvestørrelsen for å få et bedre perspektiv.
- Velg antall rader ved siden av Visualiseringseksempel.
- Bruk glidebryteren for å velge ønsket prøvestørrelse.
- Velg Oppdater for å bekrefte endringen av prøvestørrelsen.
Det kan være lurt å endre prøvestørrelsen basert på datasettet ditt. I noen tilfeller kan du ha noen hundre til noen få tusen rader der du kan velge hele datasettet. I noen tilfeller kan du ha flere tusen rader, i så fall kan du velge noen hundre eller noen få tusen rader basert på brukstilfellet.
Et spredningsplot viser forholdet mellom to kvantitative variabler målt for de samme individene. I vårt tilfelle er det viktig å forstå forholdet mellom verdier for å se etter korrelasjon.
Fordi vi har samtaler, minutter og lading, vil vi plotte korrelasjonen mellom dem for dag, kveld og natt.
La oss først lage en spredt tomt mellom dagavgift vs. dagmins.
Vi kan observere at når dagminuttene øker, øker også dagavgiften.
Det samme gjelder for kveldssamtaler.
Nattsamtaler har også samme mønster.
Fordi minutter og ladning ser ut til å øke lineært, kan du observere at de har en høy korrelasjon med hverandre. Inkludering av disse funksjonsparene i noen ML-algoritmer kan ta ekstra lagringsplass og redusere treningshastigheten, og å ha lignende informasjon i mer enn én kolonne kan føre til at modellen legger for mye vekt på virkningene og føre til uønsket skjevhet i modellen. La oss fjerne én funksjon fra hvert av de høyt korrelerte parene: Daglading fra paret med Dagmins, Nattlading fra paret med Nattmins, og Intl Charge fra paret med Intl Mins.
Databalanse og variasjon
Et søylediagram er et plott mellom en kategorisk variabel på x-aksen og numerisk variabel på y-aksen for å utforske forholdet mellom begge variablene. La oss lage et stolpediagram for å se hvordan samtalene er fordelt over målkolonnen Churn for True and False. Velge Bar diagram og dra og slipp dagsanrop og churn til henholdsvis y-aksen og x-aksen.
La oss nå lage samme søylediagram for kveldsanrop vs churn.
La oss deretter lage et stolpediagram for nattanrop vs. churn.
Det ser ut som det er en forskjell i oppførsel mellom kunder som har churnet og de som ikke gjorde det.
Boksplott er nyttige fordi de viser forskjeller i oppførsel av data etter klasse (churn eller ikke). Fordi vi skal forutsi churn (målkolonne), la oss lage et boksplott med noen funksjoner mot målkolonnen vår for å utlede beskrivende statistikk på datasettet som gjennomsnitt, maks, min, median og uteliggere.
Velg Box tomt og dra og slipp Day mins og Churn til henholdsvis y-aksen og x-aksen.
Du kan også prøve samme tilnærming til andre kolonner mot vår målkolonne (churn).
La oss nå lage et boksplott med dagminutter mot kundeserviceanrop for å forstå hvordan kundeserviceanropene spenner over dagminsverdi. Du kan se at kundeserviceanrop ikke har en avhengighet eller korrelasjon på dagen mins verdi.
Fra våre observasjoner kan vi fastslå at datasettet er ganske balansert. Vi vil at dataene skal være jevnt fordelt over sanne og falske verdier, slik at modellen ikke er partisk mot én verdi.
Transformasjoner
Basert på observasjonene våre, dropper vi Telefon-kolonnen fordi det bare er et kontonummer og kolonnene Day Charge, Eve Charge, Night Charge fordi de inneholder overlappende informasjon som mins-kolonnene, men vi kan kjøre en forhåndsvisning på nytt for å bekrefte.
Etter dataanalysen og transformasjonen, la oss forhåndsvise modellen på nytt.
Du kan observere at modellens estimerte nøyaktighet endret seg fra 95.6 % til 93.6 % (dette kan variere), men kolonnepåvirkningen (funksjonens betydning) for spesifikke kolonner har endret seg betraktelig, noe som forbedrer treningshastigheten så vel som kolonnenes innflytelse på spådommen når vi går til neste trinn i modellbyggingen. Datasettet vårt krever ikke ytterligere transformasjon, men hvis du trenger det kan du dra nytte av det ML-datatransformasjoner for å rense, transformere og forberede dataene dine for modellbygging.
Bygg modellen
Du kan nå fortsette å bygge en modell og analysere resultater. For mer informasjon, se Forutsi kundefragang med maskinlæring uten kode ved hjelp av Amazon SageMaker Canvas.
Rydd opp
For å unngå å pådra seg fremtid øktavgifter, logge ut av Canvas.
konklusjonen
I dette innlegget viste vi hvordan du kan bruke Canvas-visualiseringsfunksjoner for EDA for å bedre forstå dataene dine før modellbygging, lage nøyaktige ML-modeller og generere spådommer ved hjelp av et ikke-kode, visuelt, pek-og-klikk-grensesnitt.
Om forfatterne
Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, og gir kundene veiledning om justering av forretningsteknologi og støtter gjenoppfinnelsen av deres skyoperasjonsmodeller og -prosesser. Han er lidenskapelig opptatt av sky og maskinlæring. Raj er også en maskinlæringsspesialist og jobber med AWS-kunder for å designe, distribuere og administrere AWS-arbeidsmengdene og -arkitekturene deres.
Rahul Nabera er en dataanalysekonsulent i AWS Professional Services. Hans nåværende arbeid fokuserer på å gjøre det mulig for kunder å bygge sine data- og maskinlæringsarbeidsmengder på AWS. På fritiden liker han å spille cricket og volleyball.
Raviteja Yelamanchili er en Enterprise Solutions Architect med Amazon Web Services basert i New York. Han jobber med store bedriftskunder for finansielle tjenester for å designe og distribuere svært sikre, skalerbare, pålitelige og kostnadseffektive applikasjoner på skyen. Han har over 11 års erfaring med risikostyring, teknologirådgivning, dataanalyse og maskinlæring. Når han ikke hjelper kunder, liker han å reise og spille PS5.
- Avansert (300)
- AI
- ai kunst
- ai art generator
- du har en robot
- Amazon SageMaker
- Amazon SageMaker Canvas
- kunstig intelligens
- sertifisering av kunstig intelligens
- kunstig intelligens i bankvirksomhet
- kunstig intelligens robot
- kunstig intelligens roboter
- programvare for kunstig intelligens
- AWS maskinlæring
- blockchain
- blockchain konferanse ai
- coingenius
- samtale kunstig intelligens
- kryptokonferanse ai
- dall sin
- dyp læring
- google det
- maskinlæring
- plato
- plato ai
- Platon Data Intelligence
- Platon spill
- PlatonData
- platogaming
- skala ai
- syntaks
- Teknisk fremgangsmåte
- zephyrnet