Forutsi kundefragang med maskinlæring uten kode ved å bruke Amazon SageMaker Canvas

Publisert av Platon

Følgere: 0

Å forstå kundeatferd er det viktigste for enhver bedrift i dag. Å få innsikt i hvorfor og hvordan kunder kjøper kan bidra til å øke inntektene. Men å miste kunder (også kalt kundeavgang) er alltid en risiko, og innsikt i hvorfor kunder slutter kan være like viktig for å opprettholde inntekter og fortjeneste. Maskinlæring (ML) kan hjelpe med innsikt, men frem til nå trengte du ML-eksperter for å bygge modeller for å forutsi churn, hvis mangel kan forsinke innsiktsdrevne handlinger fra bedrifter for å beholde kunder.

I dette innlegget viser vi deg hvordan forretningsanalytikere kan bygge en kundefrafall ML-modell med Amazon SageMaker Canvas, ingen kode kreves. Canvas gir forretningsanalytikere et visuelt pek-og-klikk-grensesnitt som lar deg bygge modeller og generere nøyaktige ML-spådommer på egen hånd – uten å kreve noen ML-erfaring eller å måtte skrive en enkelt linje med kode.

Oversikt over løsning

For dette innlegget påtar vi oss rollen som markedsanalytiker i markedsavdelingen til en mobiltelefonoperatør. Vi har fått i oppgave å identifisere kunder som potensielt står i fare for å churning. Vi har tilgang til tjenestebruk og andre kundeatferdsdata, og ønsker å vite om disse dataene kan bidra til å forklare hvorfor en kunde ville forlate. Hvis vi kan identifisere faktorer som forklarer churn, kan vi iverksette korrigerende handlinger for å endre antatt atferd, for eksempel å kjøre målrettede oppbevaringskampanjer.

For å gjøre dette bruker vi dataene vi har i en CSV-fil, som inneholder informasjon om kundebruk og churn. Vi bruker Canvas til å utføre følgende trinn:

Importer churn-datasettet fra Amazon enkel lagringstjeneste (Amazon S3).
Tren og bygg churn-modellen.
Analyser modellresultatene.
Test spådommer mot modellen.

For vårt datasett bruker vi en syntetisk datasett fra en mobiloperatør for telekommunikasjon. Dette eksempeldatasettet inneholder 5,000 poster, der hver post bruker 21 attributter for å beskrive kundeprofilen. Attributtene er som følger:

Tilstand – Den amerikanske staten der kunden er bosatt, angitt med en forkortelse på to bokstaver; for eksempel OH eller NJ
Kontolengde – Antall dager denne kontoen har vært aktiv
Retningsnummer – Det tresifrede retningsnummeret til kundens telefonnummer
Telefon – Det resterende syvsifrede telefonnummeret
Internasjonal plan – Om kunden har en internasjonal ringeplan (ja/nei)
VMail-plan – Om kunden har en talepostfunksjon (ja/nei)
VMail -melding – Gjennomsnittlig antall talepostmeldinger per måned
Dagmins – Totalt antall ringeminutter brukt i løpet av dagen
Dagsamtaler – Totalt antall anrop i løpet av dagen
Dagsavgift – De fakturerte kostnadene for samtaler på dagtid
Eve Mins, Eve ringer, Eve Charge – Den fakturerte kostnaden for kveldsanrop
Nattmin, Nattsamtaler, Nattlading – Den fakturerte kostnaden for samtaler om natten
Internasjonale min, Internasjonale anrop, Internasjonal kostnad – Den fakturerte kostnaden for internasjonale samtaler
CustServ-samtaler – Antall anrop til kundeservice
Churn? – Om kunden forlot tjenesten (sant/usant)

Den siste egenskapen, Churn?, er egenskapen som vi vil at ML-modellen skal forutsi. Målattributtet er binært, noe som betyr at modellen vår forutsier utdata som en av to kategorier (True or False).

Forutsetninger

En skyadministrator med en AWS-konto med passende tillatelser kreves for å fullføre følgende forutsetninger:

Distribuere en Amazon SageMaker For instruksjoner, se Ombord på Amazon SageMaker Domain.
Distribuer Canvas. For instruksjoner, se Sette opp og administrere Amazon SageMaker Canvas (for IT-administratorer).
Konfigurer policyer for cross-origin resource sharing (CORS) for Canvas. For instruksjoner, se Gi brukerne dine muligheten til å laste opp lokale filer.

Lag en kundefrafallsmodell

Først, la oss laste ned churn datasett og se gjennom filen for å sikre at alle dataene er der. Fullfør deretter følgende trinn:

Logg deg på AWS-administrasjonskonsoll, ved å bruke en konto med de riktige tillatelsene for å få tilgang til Canvas.
Logg på Canvas-konsollen.

Det er her vi kan administrere datasettene våre og lage modeller.

Velg Import.

Velg lerretsimportknapp

Velg Last opp og velg churn.csv filen.
Velg Import datoer for å laste den opp til Canvas.

Canvas velger data fra s3

Importprosessen tar omtrent 10 sekunder (dette kan variere avhengig av datasettstørrelsen). Når den er fullført, kan vi se at datasettet er inne Ready status.

Canvas-klar datasett

For å forhåndsvise de første 100 radene i datasettet, hold musen over øyeikonet.

Canvas View-datasett

En forhåndsvisning av datasettet vises. Her kan vi verifisere at våre data er korrekte.

Canvas Verify Data

Etter at vi har bekreftet at det importerte datasettet er klart, lager vi vår modell.

Velg Ny modell.

Canvas nye modeller

Velg churn.csv datasettet og velg Velg datasett.

Canvas Select Datasett

Nå konfigurerer vi byggemodellprosessen.

Til Målkolonner, Velg Churn? kolonne.

Til Modell type, Canvas anbefaler automatisk modelltypen, i dette tilfellet 2 kategori prediksjon (det en dataforsker vil kalle binær klassifisering). Dette er egnet for vår brukssituasjon fordi vi bare har to mulige prediksjonsverdier: True or False, så vi følger anbefalingen Canvas laget.

Lerretsmodell

Vi validerer nå noen antakelser. Vi ønsker å få en rask oversikt over om målkolonnen vår kan forutsies av de andre kolonnene. Vi kan få et raskt innblikk i modellens estimerte nøyaktighet og kolonnepåvirkning (den beregnede betydningen av hver kolonne for å forutsi målkolonnen).

Velg alle 21 kolonnene og velg Forhåndsvisningsmodell.

Denne funksjonen bruker et undersett av datasettet vårt og bare ett enkelt pass ved modellering. For vår brukssituasjon tar forhåndsvisningsmodellen omtrent 2 minutter å bygge.

Canvas Preview Model

Som vist i følgende skjermbilde, er Phone og State kolonner har mye mindre innvirkning på prediksjonen vår. Vi ønsker å være forsiktige når du fjerner tekstinndata fordi den kan inneholde viktige diskrete, kategoriske funksjoner som bidrar til prediksjonen vår. Her er telefonnummeret akkurat det samme som et kontonummer – ikke av verdi for å forutsi andre kontoers sannsynlighet for churn, og kundens tilstand påvirker ikke modellen vår mye.

Vi fjerner disse kolonnene fordi de ikke har noen stor betydning.
Etter at vi har fjernet Phone og State kolonner, la oss kjøre forhåndsvisningen på nytt.

Som vist på følgende skjermbilde økte modellnøyaktigheten med 0.1 %. Vår forhåndsvisningsmodell har en estimert nøyaktighet på 95.9 %, og kolonnene med størst innvirkning er Night Calls, Eve Minsog Night Charge. Dette gir oss et innblikk i hvilke kolonner som påvirker ytelsen til modellen vår mest. Her må vi være forsiktige når vi velger funksjoner fordi hvis en enkelt funksjon har ekstremt stor innvirkning på en modells utfall, er det en primær indikator på mållekkasje, og funksjonen vil ikke være tilgjengelig på prediksjonstidspunktet. I dette tilfellet var det få kolonner som viste veldig lik innvirkning, så vi fortsetter å bygge modellen vår.

Canvas Feature Engineering After

Canvas tilbyr to byggealternativer:

Standard konstruksjon – Bygger den beste modellen fra en optimalisert prosess drevet av AutoML; hastighet byttes for størst nøyaktighet
Rask bygging – Bygger en modell på en brøkdel av tiden sammenlignet med en standardkonstruksjon; potensiell nøyaktighet byttes ut med hastighet.

For dette innlegget velger vi Standard konstruksjon alternativet fordi vi ønsker å ha den aller beste modellen og vi er villige til å bruke ekstra tid på å vente på resultatet.

Canvas Standard konstruksjon

Byggeprosessen kan ta 2–4 timer. I løpet av denne tiden tester Canvas hundrevis av kandidatrørledninger, og velger den beste modellen å presentere for oss. I det følgende skjermbildet kan vi se forventet byggetid og fremdrift.

Lerretsanalysemodell

Evaluer modellens ytelse

Når modellbyggingsprosessen er fullført, spådde modellen churn 97.9 % av tiden. Dette virker greit, men som analytikere ønsker vi å dykke dypere og se om vi kan stole på at modellen tar beslutninger basert på den. På Scoring fanen, kan vi se gjennom et visuelt plott av våre spådommer kartlagt til deres utfall. Dette gir oss en dypere innsikt i modellen vår.

Canvas deler datasettet i trenings- og testsett. Treningsdatasettet er dataene Canvas bruker for å bygge modellen. Testsettet brukes for å se om modellen presterer bra med nye data. Sankey-diagrammet i det følgende skjermbildet viser hvordan modellen presterte på testsettet. For å lære mer, se Evaluering av modellens ytelse i Amazon SageMaker Canvas.

For å få mer detaljert innsikt utover det som vises i Sankey-diagrammet, kan forretningsanalytikere bruke en forvirringsmatrise analyser for deres forretningsløsninger. For eksempel ønsker vi å bedre forstå sannsynligheten for at modellen kommer med falske spådommer. Vi kan se dette i Sankey-diagrammet, men ønsker mer innsikt, så vi velger Avanserte beregninger. Vi blir presentert for en forvirringsmatrise, som viser ytelsen til en modell i et visuelt format med følgende verdier, spesifikke for den positive klassen – vi måler basert på om de faktisk vil churne, så vår positive klasse er True i dette eksemplet:

Sann positiv (TP) - Antall True resultater som ble korrekt spådd som True
True Negative (TN) - Antall False resultater som ble korrekt spådd som False
Falsk positiv (FP) - Antall False resultater som ble feil spådd som True
Falsk negativ (FN) - Antall True resultater som ble feil spådd som False

Vi kan bruke dette matrisediagrammet til å bestemme ikke bare hvor nøyaktig modellen vår er, men når den er feil, hvor ofte det kan være og hvordan det er feil.

Canvas F1 Matrix

De avanserte beregningene ser bra ut. Vi kan stole på modellresultatet. Vi ser svært lave falske positive og falske negative. Dette er hvis modellen tror at en kunde i datasettet vil churne og de faktisk ikke gjør det (falsk positiv), eller hvis modellen tror at kunden vil churne og de faktisk gjør det (falsk negativ). Høye tall for begge kan få oss til å tenke mer over om vi kan bruke modellen til å ta beslutninger.

La oss gå tilbake til Oversikt fanen, for å se på virkningen av hver kolonne. Denne informasjonen kan hjelpe markedsføringsteamet med å få innsikt som fører til å iverksette tiltak for å redusere kundefragang. For eksempel kan vi se at både lavt og høyt CustServ Calls øke sannsynligheten for churn. Markedsføringsteamet kan iverksette tiltak for å forhindre kundefragang basert på disse læringene. Eksempler inkluderer å lage en detaljert vanlige spørsmål på nettsteder for å redusere kundeserviceanrop, og å kjøre opplæringskampanjer med kunder på vanlige spørsmål som kan holde engasjementet oppe.

Modellen vår ser ganske nøyaktig ut. Vi kan direkte utføre en interaktiv prediksjon på forutsi fane, enten i batch eller enkelt (sanntids) prediksjon. I dette eksemplet gjorde vi noen få endringer i visse kolonneverdier og utførte en sanntidsprediksjon. Canvas viser oss prediksjonsresultatet sammen med konfidensnivået.

Canvas forutsi inferens

La oss si at vi har en eksisterende kunde som har følgende bruk: Night Mins er 40 og Eve Mins er 40. Vi kan kjøre en prediksjon, og modellen vår gir en konfidensscore på 93.2 % for at denne kunden vil avbryte (True). Vi kan nå velge å gi kampanjerabatter for å beholde denne kunden.

Å kjøre én prediksjon er flott for individuell hva-hvis-analyse, men vi må også kjøre prediksjoner på mange poster samtidig. Canvas er i stand til kjøre batch-prediksjoner, som lar deg kjøre spådommer i skala.

konklusjonen

I dette innlegget viste vi hvordan en forretningsanalytiker kan lage en kundefrafallsmodell med SageMaker Canvas ved å bruke eksempeldata. Canvas lar forretningsanalytikerne lage nøyaktige ML-modeller og generere spådommer ved hjelp av et visuelt, pek-og-klikk-grensesnitt uten kode. En markedsanalytiker kan nå bruke denne informasjonen til å kjøre målrettede oppbevaringskampanjer og teste nye kampanjestrategier raskere, noe som fører til en reduksjon i kundefragang.

Analytikere kan ta dette til neste nivå ved å dele modellene sine med kollegaer fra dataforskere. Dataforskerne kan se Canvas-modellen i Amazon SageMaker Studio, hvor de kan utforske valgene Canvas AutoML gjorde, validere modellresultater og til og med produksjonalisere modellen med noen få klikk. Dette kan akselerere ML-basert verdiskaping og bidra til å skalere forbedrede resultater raskere.

For å lære mer om bruk av Canvas, se Bygg, del, distribuer: hvordan forretningsanalytikere og dataforskere oppnår raskere time-to-market ved å bruke no-code ML og Amazon SageMaker Canvas. For mer informasjon om å lage ML-modeller med en kodefri løsning, se Kunngjøring av Amazon SageMaker Canvas – en visuell maskinlæringsevne uten kode for forretningsanalytikere.

om forfatteren

Henry Robalino er en løsningsarkitekt ved AWS, basert i NJ. Han brenner for sky- og maskinlæring, og rollen de kan spille i samfunnet. Han oppnår dette ved å jobbe med kunder for å hjelpe dem å nå sine forretningsmål ved å bruke AWS Cloud. Utenom jobben kan du finne Henry som reiser eller utforsker naturen sammen med pelsdatteren Arly.

Forutsi kundefragang med maskinlæring uten kode ved hjelp av Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Chaoran Wang er løsningsarkitekt ved AWS, basert i Dallas, TX. Han har jobbet ved AWS siden han ble uteksaminert fra University of Texas i Dallas i 2016 med en mastergrad i informatikk. Chaoran hjelper kunder med å bygge skalerbare, sikre og kostnadseffektive applikasjoner og finne løsninger for å løse forretningsutfordringene deres på AWS Cloud. Utenfor jobben elsker Chaoran å tilbringe tid med familien sin og to hunder, Biubiu og Coco.

Tidstempel: Kan 5, 2022

Tidstempel: April 13, 2023

Publisert av Platon

Grunnleggende databeskyttelse for LLM-akselerasjon for bedrifter med Protopia AI | Amazon Web Services

Transformere kvalitativ forskning ved å automatisere tale til tekst-til-tekst-analyse

Hvordan Sophos trener en kraftig, lett PDF-skadevaredetektor i ultraskala med Amazon SageMaker

Automatiser klassifisering av IT-tjenesteforespørsler med en tilpasset Amazon Comprehend-klassifisering

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn