Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Använd Amazon SageMaker Canvas för utforskande dataanalys

Utforskande dataanalys (EDA) är en vanlig uppgift som utförs av affärsanalytiker för att upptäcka mönster, förstå relationer, validera antaganden och identifiera anomalier i deras data. I maskininlärning (ML) är det viktigt att först förstå data och dess relationer innan man börjar med modellbyggande. Traditionella ML-utvecklingscykler kan ibland ta månader och kräver avancerad datavetenskap och ML-teknik, medan ML-lösningar utan kod kan hjälpa företag att påskynda leveransen av ML-lösningar till dagar eller till och med timmar.

Amazon SageMaker Canvas är ett kodfritt ML-verktyg som hjälper affärsanalytiker att generera korrekta ML-förutsägelser utan att behöva skriva kod eller utan att kräva någon ML-erfarenhet. Canvas tillhandahåller ett lättanvänt visuellt gränssnitt för att ladda, rengöra och transformera datamängder, följt av att bygga ML-modeller och generera exakta förutsägelser.

I det här inlägget går vi igenom hur du utför EDA för att få en bättre förståelse av din data innan du bygger din ML-modell, tack vare Canvas inbyggda avancerade visualiseringar. Dessa visualiseringar hjälper dig att analysera relationerna mellan funktioner i dina datauppsättningar och förstå dina data bättre. Detta görs intuitivt, med möjligheten att interagera med data och upptäcka insikter som kan gå obemärkt förbi med ad hoc-förfrågningar. De kan skapas snabbt genom "Datavisualiseraren" i Canvas innan man bygger och tränar ML-modeller.

Lösningsöversikt

Dessa visualiseringar lägger till utbudet av möjligheter för databeredning och utforskning som redan erbjuds av Canvas, inklusive möjligheten att korrigera saknade värden och ersätta extremvärden; filtrera, sammanfoga och ändra datauppsättningar; och extrahera specifika tidsvärden från tidsstämplar. För att lära dig mer om hur Canvas kan hjälpa dig att rengöra, omvandla och förbereda din datauppsättning, kolla in Förbered data med avancerade transformationer.

För vårt användningsfall tittar vi på varför kunder churnar i alla företag och illustrerar hur EDA kan hjälpa från en analytikers synvinkel. Datauppsättningen som vi använder i det här inlägget är en syntetisk datauppsättning från en mobiloperatör för telekommunikation för kundförutsägelse som du kan ladda ner (churn.csv), eller så tar du med din egen datauppsättning att experimentera med. För instruktioner om hur du importerar din egen datauppsättning, se Importera data i Amazon SageMaker Canvas.

Förutsättningar

Följ instruktionerna i Förutsättningar för att ställa in Amazon SageMaker Canvas innan du går vidare.

Importera din datauppsättning till Canvas

För att importera exempeldataset till Canvas, utför följande steg:

  1. Logga in på Canvas som företagsanvändare.Först laddar vi upp datasetet som nämnts tidigare från vår lokala dator till Canvas. Om du vill använda andra källor, som t.ex Amazon RedShift, hänvisa till Anslut till en extern datakälla.
  2. Välja Importera.Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  3. Välja LaddaOch välj sedan Välj filer från din dator.
  4. Välj din datauppsättning (churn.csv) och välj Importera datum.Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  5. Välj datauppsättningen och välj Skapa modell.Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  6. För Modellnamn, ange ett namn (för det här inlägget har vi gett namnet Churn-prediktion).
  7. Välja Skapa.
    Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Så fort du väljer din datamängd får du en översikt som beskriver datatyperna, saknade värden, felaktiga värden, unika värden och medel- eller lägesvärdena för respektive kolumn.Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Ur ett EDA-perspektiv kan du observera att det inte finns några saknade eller felaktiga värden i datamängden. Som affärsanalytiker kanske du vill få en första inblick i modellbygget redan innan du startar datautforskningen för att identifiera hur modellen kommer att prestera och vilka faktorer som bidrar till modellens prestanda. Canvas ger dig möjligheten att få insikter från din data innan du bygger en modell genom att först förhandsgranska modellen.
  8. Innan du gör någon datautforskning, välj Förhandsgranska modell.Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  9. Välj kolumnen för att förutsäga (churn). Canvas upptäcker automatiskt att detta är två-kategoris förutsägelse.
  10. Välja Förhandsgranska modell. SageMaker Canvas använder en delmängd av dina data för att snabbt bygga en modell för att kontrollera om din data är redo att generera en korrekt förutsägelse. Med hjälp av denna exempelmodell kan du förstå den aktuella modellens noggrannhet och den relativa inverkan av varje kolumn på förutsägelser.

Följande skärmdump visar vår förhandsvisning.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Modellförhandsgranskningen indikerar att modellen förutsäger rätt mål (churn?) 95.6 % av tiden. Du kan också se den initiala kolumneffekten (inflytande varje kolumn har på målkolumnen). Låt oss göra lite datautforskning, visualisering och transformation och sedan fortsätta med att bygga en modell.

Datautforskning

Canvas tillhandahåller redan några vanliga grundläggande visualiseringar, såsom datadistribution i en rutnätsvy på Bygga flik. Dessa är bra för att få en överblick över data på hög nivå, förstå hur data distribueras och få en sammanfattande översikt av datan.

Som affärsanalytiker kan du behöva få insikter på hög nivå om hur data distribueras samt hur fördelningen reflekteras mot målkolumnen (churn) för att enkelt förstå datarelationen innan du bygger modellen. Du kan nu välja Ikonvyn för att få en överblick över datafördelningen.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Följande skärmdump visar en översikt över distributionen av datamängden.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi kan göra följande observationer:

  • Telefonen antar för många unika värden för att vara till någon praktisk användning. Vi vet att telefon är ett kund-ID och vill inte bygga en modell som kan överväga specifika kunder, utan snarare lära oss i en mer allmän mening vad som kan leda till churn. Du kan ta bort denna variabel.
  • De flesta av de numeriska funktionerna är snyggt fördelade, efter en Gauss klockkurva. I ML vill du att data ska fördelas normalt eftersom varje variabel som uppvisar normalfördelning kan prognostiseras med högre noggrannhet.

Låt oss gå djupare och kolla in de avancerade visualiseringar som finns i Canvas.

Datavisualisering

Som affärsanalytiker vill du se om det finns samband mellan dataelement och hur de är relaterade till churn. Med Canvas kan du utforska och visualisera din data, vilket hjälper dig att få avancerade insikter i din data innan du bygger dina ML-modeller. Du kan visualisera med hjälp av spridningsdiagram, stapeldiagram och låddiagram, vilket kan hjälpa dig att förstå dina data och upptäcka sambanden mellan funktioner som kan påverka modellens noggrannhet.

För att börja skapa dina visualiseringar, slutför följande steg:

  • Bygga fliken i Canvas-appen, välj Datavisualiserare.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

En viktig accelerator för visualisering i Canvas är Datavisualiserare. Låt oss ändra urvalsstorleken för att få ett bättre perspektiv.

  • Välj antal rader bredvid Visualiseringsexempel.
  • Använd skjutreglaget för att välja önskad provstorlek.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

  • Välja Uppdatering för att bekräfta ändringen av din provstorlek.

Du kanske vill ändra provstorleken baserat på din datauppsättning. I vissa fall kan du ha några hundra till några tusen rader där du kan välja hela datamängden. I vissa fall kan du ha flera tusen rader, i vilket fall kan du välja några hundra eller några tusen rader baserat på ditt användningsfall.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Ett spridningsdiagram visar sambandet mellan två kvantitativa variabler uppmätta för samma individer. I vårt fall är det viktigt att förstå sambandet mellan värden för att kontrollera korrelation.

Eftersom vi har samtal, minuter och laddning kommer vi att rita korrelationen mellan dem för dag, kväll och natt.

Låt oss först skapa en sprida tomt mellan dagsavgift vs. dagmins.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi kan observera att när dagmins ökar, ökar också dagsavgiften.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Detsamma gäller för kvällssamtal.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Nattsamtal har också samma mönster.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Eftersom minuter och laddning verkar öka linjärt kan du observera att de har en hög korrelation med varandra. Att inkludera dessa funktionspar i vissa ML-algoritmer kan ta ytterligare lagringsutrymme och minska träningshastigheten, och att ha liknande information i mer än en kolumn kan leda till att modellen överbetonar effekterna och leda till oönskad fördom i modellen. Låt oss ta bort en funktion från vart och ett av de mycket korrelerade paren: Day Charge från paret med Day Mins, Night Charge från paret med Night Mins och Intl Charge från paret med Intl Mins.

Databalans och variation

Ett stapeldiagram är ett diagram mellan en kategorisk variabel på x-axeln och numerisk variabel på y-axeln för att utforska sambandet mellan båda variablerna. Låt oss skapa ett stapeldiagram för att se hur samtalen fördelas över vår målkolumn Churn for True and False. Välja Stapeldiagram och dra och släpp dagsanrop och churna till y-axeln respektive x-axeln.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Låt oss nu skapa samma stapeldiagram för kvällssamtal vs churn.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Låt oss sedan skapa ett stapeldiagram för nattsamtal vs. churn.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Det ser ut som att det finns en skillnad i beteende mellan kunder som har churnat och de som inte gjorde det.

Boxplots är användbara eftersom de visar skillnader i datas beteende efter klass (churn eller inte). Eftersom vi kommer att förutsäga churn (målkolumn), låt oss skapa en boxplot av några funktioner mot vår målkolumn för att härleda beskrivande statistik om datamängden som medelvärde, max, min, median och extremvärden.

Välja Box tomt och dra och släpp Day mins och Churn till y-axeln respektive x-axeln.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Du kan också prova samma inställning till andra kolumner mot vår målkolumn (churn).

Låt oss nu skapa en ruta över dagminut mot kundtjänstsamtal för att förstå hur kundtjänstsamtal sträcker sig över dagminsvärde. Du kan se att kundtjänstsamtal inte har ett beroende eller korrelation på dagen mins värde.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Från våra observationer kan vi fastställa att datasetet är ganska balanserat. Vi vill att data ska vara jämnt fördelade över sanna och falska värden så att modellen inte är partisk mot ett värde.

transformationer

Baserat på våra observationer släpper vi kolumnen Telefon eftersom det bara är ett kontonummer och kolumnerna Dagavgift, Eve Charge, Night Charge eftersom de innehåller överlappande information som mins kolumner, men vi kan köra en förhandsgranskning igen för att bekräfta.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Efter dataanalysen och transformationen, låt oss förhandsgranska modellen igen.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Du kan observera att modellens uppskattade noggrannhet ändrades från 95.6 % till 93.6 % (detta kan variera), men kolumnpåverkan (funktionsviktighet) för specifika kolumner har förändrats avsevärt, vilket förbättrar träningshastigheten såväl som kolumnernas inverkan på förutsägelsen när vi går vidare till nästa steg i modellbyggandet. Vår datauppsättning kräver ingen ytterligare transformation, men om du behöver kan du dra nytta av det ML-dataomvandlingar att rengöra, omvandla och förbereda din data för modellbyggande.

Bygg modellen

Du kan nu fortsätta att bygga en modell och analysera resultat. För mer information, se Förutsäg kundförlust med no-code maskininlärning med Amazon SageMaker Canvas.

Städa upp

För att undvika att ådra sig framtid sessionsavgifter, logga ut av Canvas.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Slutsats

I det här inlägget visade vi hur du kan använda Canvas visualiseringsfunktioner för EDA för att bättre förstå dina data innan modellbygge, skapa korrekta ML-modeller och generera förutsägelser med hjälp av ett kodfritt, visuellt, peka-och-klicka-gränssnitt.


Om författarna

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Rajakumar Sampathkumar är en Principal Technical Account Manager på AWS, som ger kunder vägledning om affärsteknologisk anpassning och stödjer återuppfinnandet av deras molndriftsmodeller och -processer. Han brinner för moln och maskininlärning. Raj är också en maskininlärningsspecialist och arbetar med AWS-kunder för att designa, distribuera och hantera deras AWS-arbetsbelastningar och -arkitekturer.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Rahul Nabera är en dataanalyskonsult inom AWS Professional Services. Hans nuvarande arbete fokuserar på att göra det möjligt för kunder att bygga sina arbetsbelastningar för data och maskininlärning på AWS. På fritiden spelar han cricket och volleyboll.

Använd Amazon SageMaker Canvas för utforskande dataanalys PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Raviteja Yelamanchili är en Enterprise Solutions Architect med Amazon Web Services baserad i New York. Han arbetar med stora företagskunder för finansiella tjänster för att designa och distribuera mycket säkra, skalbara, pålitliga och kostnadseffektiva applikationer i molnet. Han har mer än 11 ​​års erfarenhet av riskhantering, teknikrådgivning, dataanalys och maskininlärning. När han inte hjälper kunder tycker han om att resa och spela PS5.

Tidsstämpel:

Mer från AWS maskininlärning