Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Brug Amazon SageMaker Canvas til undersøgende dataanalyse

Udforskende dataanalyse (EDA) er en almindelig opgave udført af forretningsanalytikere for at opdage mønstre, forstå relationer, validere antagelser og identificere uregelmæssigheder i deres data. I maskinlæring (ML) er det vigtigt først at forstå dataene og deres sammenhænge, ​​før man går i gang med modelbygning. Traditionelle ML-udviklingscyklusser kan nogle gange tage måneder og kræver avanceret datavidenskab og ML-ingeniørfærdigheder, hvorimod no-code ML-løsninger kan hjælpe virksomheder med at accelerere leveringen af ​​ML-løsninger til dage eller endda timer.

Amazon SageMaker lærred er et kodefrit ML-værktøj, der hjælper forretningsanalytikere med at generere nøjagtige ML-forudsigelser uden at skulle skrive kode eller uden at kræve nogen ML-erfaring. Canvas giver en brugervenlig visuel grænseflade til at indlæse, rense og transformere datasættene efterfulgt af opbygning af ML-modeller og generering af nøjagtige forudsigelser.

I dette indlæg gennemgår vi, hvordan du udfører EDA for at få en bedre forståelse af dine data, før du bygger din ML-model, takket være Canvas' indbyggede avancerede visualiseringer. Disse visualiseringer hjælper dig med at analysere forholdet mellem funktioner i dine datasæt og forstå dine data bedre. Dette gøres intuitivt med evnen til at interagere med dataene og opdage indsigt, der kan gå ubemærket hen med ad hoc-forespørgsler. De kan oprettes hurtigt gennem 'Data-visualizer' i Canvas før opbygning og træning af ML-modeller.

Løsningsoversigt

Disse visualiseringer føjer til rækken af ​​muligheder for dataforberedelse og -udforskning, som allerede tilbydes af Canvas, herunder evnen til at rette manglende værdier og erstatte outliers; filtrere, forbinde og ændre datasæt; og udtrække specifikke tidsværdier fra tidsstempler. For at lære mere om, hvordan Canvas kan hjælpe dig med at rense, transformere og forberede dit datasæt, tjek ud Forbered data med avancerede transformationer.

Til vores use case ser vi på, hvorfor kunder churner i enhver virksomhed og illustrerer, hvordan EDA kan hjælpe fra en analytikers synspunkt. Datasættet, vi bruger i dette indlæg, er et syntetisk datasæt fra en telekommunikationsmobiltelefon til forudsigelse af kundeafgang, som du kan downloade (churn.csv), eller du medbringer dit eget datasæt til at eksperimentere med. For instruktioner om import af dit eget datasæt, se Import af data i Amazon SageMaker Canvas.

Forudsætninger

Følg instruktionerne i Forudsætninger for opsætning af Amazon SageMaker Canvas før du går videre.

Importer dit datasæt til Canvas

For at importere eksempeldatasættet til Canvas skal du udføre følgende trin:

  1. Log ind på Canvas som erhvervsbruger.Først uploader vi det tidligere nævnte datasæt fra vores lokale computer til Canvas. Hvis du vil bruge andre kilder, som f.eks Amazon rødforskydning, henvise til Opret forbindelse til en ekstern datakilde.
  2. Vælg Importere.Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  3. Vælg Upload, Og vælg derefter Vælg filer fra din computer.
  4. Vælg dit datasæt (churn.csv) og vælg Import datoer.Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  5. Vælg datasættet og vælg Opret model.Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  6. Til Modelnavn, indtast et navn (til dette indlæg har vi givet navnet Churn-forudsigelse).
  7. Vælg Opret.
    Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Så snart du vælger dit datasæt, præsenteres du for en oversigt, der skitserer datatyperne, manglende værdier, uoverensstemmende værdier, unikke værdier og middelværdierne eller tilstandsværdierne for de respektive kolonner.Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Fra et EDA-perspektiv kan du observere, at der ikke er nogen manglende eller uoverensstemmende værdier i datasættet. Som forretningsanalytiker vil du måske få et indledende indblik i modelopbygningen, allerede før du starter dataudforskningen for at identificere, hvordan modellen vil performe, og hvilke faktorer der bidrager til modellens ydeevne. Canvas giver dig mulighed for at få indsigt fra dine data, før du bygger en model ved først at se modellen.
  8. Inden du foretager nogen dataudforskning, skal du vælge Preview model.Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  9. Vælg kolonnen for at forudsige (churn). Canvas registrerer automatisk, at dette er to-kategoris forudsigelse.
  10. Vælg Preview model. SageMaker Canvas bruger en delmængde af dine data til hurtigt at bygge en model for at kontrollere, om dine data er klar til at generere en nøjagtig forudsigelse. Ved at bruge denne eksempelmodel kan du forstå den aktuelle models nøjagtighed og den relative indvirkning af hver kolonne på forudsigelser.

Følgende skærmbillede viser vores forhåndsvisning.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Modellens forhåndsvisning indikerer, at modellen forudsiger det korrekte mål (churn?) 95.6 % af tiden. Du kan også se den indledende kolonnepåvirkning (indflydelse hver kolonne har på målkolonnen). Lad os lave noget dataudforskning, visualisering og transformation og derefter fortsætte med at bygge en model.

Data efterforskning

Canvas giver allerede nogle almindelige grundlæggende visualiseringer, såsom datadistribution i en gittervisning på Byg fanen. Disse er gode til at få et overblik over dataene på højt niveau, forstå hvordan dataene er fordelt og få et sammenfattende overblik over datasættet.

Som forretningsanalytiker skal du muligvis få indsigt på højt niveau i, hvordan dataene er fordelt, samt hvordan fordelingen afspejler sig i målkolonnen (churn) for nemt at forstå dataforholdet, før du bygger modellen. Du kan nu vælge Gittervisning for at få et overblik over datafordelingen.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Følgende skærmbillede viser oversigten over fordelingen af ​​datasættet.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi kan gøre følgende observationer:

  • Telefonen antager for mange unikke værdier til at være til nogen praktisk nytte. Vi ved, at telefonen er et kunde-id, og vi ønsker ikke at bygge en model, der kan tage højde for specifikke kunder, men snarere lære i en mere generel forstand, hvad der kan føre til churn. Du kan fjerne denne variabel.
  • De fleste af de numeriske funktioner er pænt fordelt efter en Gauss klokkekurve. I ML ønsker du, at dataene skal fordeles normalt, fordi enhver variabel, der udviser normalfordeling, kan forudsiges med højere nøjagtighed.

Lad os gå dybere og tjekke de avancerede visualiseringer, der er tilgængelige i Canvas.

Data visualisering

Som forretningsanalytikere vil du gerne se, om der er relationer mellem dataelementer, og hvordan de er relateret til churn. Med Canvas kan du udforske og visualisere dine data, hvilket hjælper dig med at få avanceret indsigt i dine data, før du bygger dine ML-modeller. Du kan visualisere ved hjælp af punktplot, søjlediagrammer og boksplot, som kan hjælpe dig med at forstå dine data og opdage forholdet mellem funktioner, der kan påvirke modellens nøjagtighed.

For at begynde at oprette dine visualiseringer skal du udføre følgende trin:

  • Byg fanen i Canvas-appen, skal du vælge Datavisualizer.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

En vigtig accelerator for visualisering i Canvas er Datavisualizer. Lad os ændre stikprøvestørrelsen for at få et bedre perspektiv.

  • Vælg antal rækker ved siden af Visualiseringsprøve.
  • Brug skyderen til at vælge den ønskede prøvestørrelse.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

  • Vælg Opdatering for at bekræfte ændringen af ​​din prøvestørrelse.

Du ønsker måske at ændre prøvestørrelsen baseret på dit datasæt. I nogle tilfælde kan du have et par hundrede til et par tusinde rækker, hvor du kan vælge hele datasættet. I nogle tilfælde kan du have flere tusinde rækker, i hvilket tilfælde du kan vælge et par hundrede eller et par tusinde rækker baseret på din brugssituation.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Et spredningsplot viser forholdet mellem to kvantitative variable målt for de samme individer. I vores tilfælde er det vigtigt at forstå forholdet mellem værdier for at kontrollere for korrelation.

Fordi vi har opkald, minutter og opladning, vil vi plotte sammenhængen mellem dem for dag, aften og nat.

Lad os først oprette en scatter plot mellem dagsgebyr vs. dagmins.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi kan observere, at når Day Mins stiger, stiger Day Charge også.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Det samme gælder for aftenopkald.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Natopkald har også samme mønster.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Fordi mins og ladning ser ud til at stige lineært, kan du observere, at de har en høj korrelation med hinanden. Inkludering af disse funktionspar i nogle ML-algoritmer kan tage yderligere lagerplads og reducere træningshastigheden, og at have lignende oplysninger i mere end én kolonne kan føre til, at modellen overbetoner påvirkningerne og føre til uønsket skævhed i modellen. Lad os fjerne en funktion fra hvert af de stærkt korrelerede par: Dags opladning fra parret med dagmins, natopladning fra parret med natmins og international opladning fra parret med intl.min.

Databalance og variation

Et søjlediagram er et plot mellem en kategorisk variabel på x-aksen og numerisk variabel på y-aksen for at udforske forholdet mellem begge variabler. Lad os oprette et søjlediagram for at se, hvordan opkaldene er fordelt på tværs af vores målkolonne Churn for True and False. Vælge Søjlediagram og træk og slip dagskald og churn til henholdsvis y-aksen og x-aksen.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Lad os nu oprette det samme søjlediagram for aftenopkald vs churn.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Lad os derefter oprette et søjlediagram for natopkald vs. churn.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Det ser ud til, at der er forskel i adfærd mellem kunder, der har churnet, og dem, der ikke gjorde.

Boksplot er nyttige, fordi de viser forskelle i datas adfærd efter klasse (churn eller ej). Fordi vi skal forudsige churn (målkolonne), lad os skabe et boksplot af nogle funktioner mod vores målkolonne for at udlede beskrivende statistikker om datasættet såsom middelværdi, maks., min., median og afvigende værdier.

Vælg Boksplot og træk og slip Day mins og Churn til henholdsvis y-aksen og x-aksen.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Du kan også prøve den samme tilgang til andre kolonner mod vores målkolonne (churn).

Lad os nu oprette et boksplot med dagminutter mod kundeserviceopkald for at forstå, hvordan kundeserviceopkaldene strækker sig over dagminsværdi. Du kan se, at opkald til kundeservice ikke har en afhængighed eller sammenhæng med dagsværdien.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Ud fra vores observationer kan vi fastslå, at datasættet er ret afbalanceret. Vi ønsker, at dataene fordeles jævnt på tværs af sande og falske værdier, så modellen ikke er forudindtaget mod én værdi.

Transformations

Baseret på vores observationer dropper vi kolonnen Telefon, fordi det kun er et kontonummer og kolonnerne Daggebyr, Aftensgebyr, Natgebyr, fordi de indeholder overlappende oplysninger såsom mins kolonnerne, men vi kan køre en forhåndsvisning igen for at bekræfte.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Efter dataanalysen og transformationen, lad os se modellen igen.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Du kan observere, at modellens estimerede nøjagtighed ændrede sig fra 95.6 % til 93.6 % (dette kan variere), men kolonnepåvirkningen (funktionernes betydning) for specifikke kolonner har ændret sig betydeligt, hvilket forbedrer træningshastigheden såvel som kolonnernes indflydelse på forudsigelsen, når vi går videre til næste trin i modelbygningen. Vores datasæt kræver ikke yderligere transformation, men hvis du har brug for det, kan du drage fordel af det ML-datatransformationer at rense, transformere og forberede dine data til modelbygning.

Byg modellen

Du kan nu fortsætte med at bygge en model og analysere resultater. For mere information, se Forudsig kundeafgang med kodefri maskinlæring ved hjælp af Amazon SageMaker Canvas.

Ryd op

For at undgå at pådrage sig fremtid sessionsafgifter, logge ud af lærred.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konklusion

I dette indlæg viste vi, hvordan du kan bruge Canvas visualiseringsfunktioner til EDA til bedre at forstå dine data før modelbygning, skabe nøjagtige ML-modeller og generere forudsigelser ved hjælp af en kodefri, visuel, peg-og-klik-grænseflade.


Om forfatterne

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, der giver kunderne vejledning om forretningsteknologisk tilpasning og understøtter genopfindelsen af ​​deres cloud-driftsmodeller og -processer. Han brænder for cloud og machine learning. Raj er også maskinlæringsspecialist og arbejder med AWS-kunder for at designe, implementere og administrere deres AWS-arbejdsbelastninger og -arkitekturer.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Rahul Nabera er dataanalysekonsulent i AWS Professional Services. Hans nuværende arbejde fokuserer på at gøre det muligt for kunder at opbygge deres data- og maskinlærings-arbejdsbelastninger på AWS. I sin fritid nyder han at spille cricket og volleyball.

Brug Amazon SageMaker Canvas til udforskende dataanalyse PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Raviteja Yelamanchili er en Enterprise Solutions Architect med Amazon Web Services baseret i New York. Han arbejder med store virksomheder inden for finansielle tjenester for at designe og implementere meget sikre, skalerbare, pålidelige og omkostningseffektive applikationer i skyen. Han har over 11 års erfaring med risikostyring, teknologirådgivning, dataanalyse og maskinlæring. Når han ikke hjælper kunder, nyder han at rejse og spille PS5.

Tidsstempel:

Mere fra AWS maskinindlæring