At forstå kundeadfærd er i højsædet for enhver virksomhed i dag. At få indsigt i, hvorfor og hvordan kunder køber, kan hjælpe med at øge omsætningen. Men at miste kunder (også kaldet kundeafgang) er altid en risiko, og indsigt i, hvorfor kunder forlader, kan være lige så vigtig for at fastholde omsætning og overskud. Maskinlæring (ML) kan hjælpe med indsigt, men indtil nu havde du brug for ML-eksperter til at bygge modeller til at forudsige churn, hvis mangel kunne forsinke indsigtsdrevne handlinger fra virksomheders side for at fastholde kunder.
I dette indlæg viser vi dig, hvordan forretningsanalytikere kan bygge en kundeafgang ML-model med Amazon SageMaker lærred, ingen kode påkrævet. Canvas giver forretningsanalytikere en visuel peg-og-klik-grænseflade, der giver dig mulighed for at bygge modeller og generere nøjagtige ML-forudsigelser på egen hånd – uden at kræve nogen ML-erfaring eller at skulle skrive en enkelt linje kode.
Oversigt over løsning
Til dette indlæg påtager vi os rollen som marketinganalytiker i marketingafdelingen hos en mobiltelefonoperatør. Vi har fået til opgave at identificere kunder, der potentielt er i risiko for at trække sig. Vi har adgang til servicebrug og andre kundeadfærdsdata og vil gerne vide, om disse data kan hjælpe med at forklare, hvorfor en kunde ville forlade. Hvis vi kan identificere faktorer, der forklarer churn, så kan vi tage korrigerende handlinger for at ændre forudsagt adfærd, såsom at køre målrettede fastholdelseskampagner.
Til dette bruger vi de data, vi har i en CSV-fil, som indeholder information om kundebrug og churn. Vi bruger Canvas til at udføre følgende trin:
- Importer churn-datasættet fra Amazon Simple Storage Service (Amazon S3).
- Træn og byg churn-modellen.
- Analyser modellens resultater.
- Test forudsigelser mod modellen.
Til vores datasæt bruger vi en syntetisk datasæt fra et telekommunikations-mobiltelefonselskab. Dette eksempeldatasæt indeholder 5,000 poster, hvor hver post bruger 21 attributter til at beskrive kundeprofilen. Attributterne er som følger:
- Tilstand – Den amerikanske stat, hvor kunden er bosat, angivet med en forkortelse på to bogstaver; for eksempel OH eller NJ
- Kontolængde – Antallet af dage, som denne konto har været aktiv
- Områdenummer – Det trecifrede områdenummer for kundens telefonnummer
- Telefon – Det resterende syvcifrede telefonnummer
- Int'l Plan – Om kunden har en international opkaldsplan (ja/nej)
- VMail-plan – Om kunden har en voicemail-funktion (ja/nej)
- VMail-meddelelse – Det gennemsnitlige antal telefonsvarerbeskeder pr. måned
- Dagmins – Det samlede antal opkaldsminutter brugt i løbet af dagen
- Dagopkald – Det samlede antal foretagede opkald i løbet af dagen
- Dagsgebyr – De fakturerede omkostninger for opkald i dagtimerne
- Eve Mins, Eva kalder, Eve Charge – De fakturerede omkostninger for aftenopkald
- nat min, Nattekald, Natladning – De fakturerede omkostninger for natteopkald
- Intl. min, Internationale opkald, Intl opladning – De fakturerede omkostninger for internationale opkald
- CustServ-opkald – Antallet af opkald til kundeservice
- Churn? – Om kunden forlod tjenesten (sandt/falsk)
Den sidste egenskab, Churn?
, er den egenskab, som vi ønsker, at ML-modellen skal forudsige. Målattributten er binær, hvilket betyder, at vores model forudsiger output som en af to kategorier (True
or False
).
Forudsætninger
En cloud-administrator med en AWS-konto med passende tilladelser er påkrævet for at opfylde følgende forudsætninger:
- Indsæt en Amazon SageMaker For instruktioner, se Ombord på Amazon SageMaker Domain.
- Implementer lærred. For instruktioner, se Opsætning og administration af Amazon SageMaker Canvas (til it-administratorer).
- Konfigurer CORS-politikker (cross-origin ressource sharing) for Canvas. For instruktioner, se Giv dine brugere mulighed for at uploade lokale filer.
Opret en kundeafgang-model
Lad os først downloade churn datasæt og gennemgå filen for at sikre dig, at alle data er der. Udfør derefter følgende trin:
- Log ind på AWS Management Console, ved at bruge en konto med de relevante tilladelser til at få adgang til Canvas.
- Log ind på Canvas-konsollen.
Det er her, vi kan administrere vores datasæt og skabe modeller.
- Vælg Importere.
- Vælg Upload og vælg
churn.csv
fil. - Vælg Import datoer for at uploade det til Canvas.
Importprocessen tager cirka 10 sekunder (dette kan variere afhængigt af datasættets størrelse). Når det er færdigt, kan vi se, at datasættet er inde Ready
status.
- For at få vist de første 100 rækker af datasættet skal du holde musen over øjenikonet.
En forhåndsvisning af datasættet vises. Her kan vi verificere, at vores data er korrekte.
Når vi har bekræftet, at det importerede datasæt er klar, opretter vi vores model.
- Vælg Ny model.
- Vælg datasættet churn.csv, og vælg Vælg datasæt.
Nu konfigurerer vi byggemodelprocessen.
- Til Målkolonner, Vælg
Churn?
kolonne.
Til Model type, Canvas anbefaler automatisk modeltypen, i dette tilfælde 2 kategori forudsigelse (hvad en dataforsker ville kalde binær klassifikation). Dette er velegnet til vores brug, fordi vi kun har to mulige forudsigelsesværdier: True
or False
, så vi går efter anbefalingen Canvas lavet.
Vi validerer nu nogle antagelser. Vi ønsker at få et hurtigt overblik over, om vores målkolonne kan forudsiges af de andre kolonner. Vi kan få et hurtigt overblik over modellens estimerede nøjagtighed og kolonnepåvirkning (den estimerede betydning af hver kolonne ved forudsigelse af målkolonnen).
- Vælg alle 21 kolonner og vælg Preview model.
Denne funktion bruger en delmængde af vores datasæt og kun en enkelt gennemgang ved modellering. For vores brug tager preview-modellen cirka 2 minutter at bygge.
Som vist på det følgende skærmbillede Phone
, State
kolonner har meget mindre indflydelse på vores forudsigelse. Vi vil være forsigtige, når vi fjerner tekstinput, fordi det kan indeholde vigtige diskrete, kategoriske funktioner, der bidrager til vores forudsigelse. Her svarer telefonnummeret kun til et kontonummer – ikke af værdi til at forudsige andre konti's sandsynlighed for churn, og kundens tilstand påvirker ikke vores model meget.
- Vi fjerner disse kolonner, fordi de ikke har nogen stor betydning for funktioner.
- Efter at vi har fjernet
Phone
,State
kolonner, lad os køre forhåndsvisningen igen.
Som vist på det følgende skærmbillede steg modelnøjagtigheden med 0.1 %. Vores forhåndsvisningsmodel har en estimeret nøjagtighed på 95.9 %, og de kolonner med størst indflydelse er Night Calls
, Eve Mins
og Night Charge
. Dette giver os et indblik i, hvilke kolonner der påvirker vores models ydeevne mest. Her skal vi være forsigtige, når vi laver funktionsvalg, for hvis en enkelt funktion har ekstrem indflydelse på en models resultat, er det en primær indikator for mållækage, og funktionen vil ikke være tilgængelig på forudsigelsestidspunktet. I dette tilfælde viste få kolonner meget lignende effekt, så vi fortsætter med at bygge vores model.
Canvas tilbyder to byggemuligheder:
- Standard opbygning – Bygger den bedste model ud fra en optimeret proces drevet af AutoML; hastigheden udveksles for størst nøjagtighed
- Hurtig opbygning – Bygger en model på en brøkdel af tiden sammenlignet med en standardbygning; potentiel nøjagtighed ombyttes til hastighed.
- Til dette indlæg vælger vi Standard opbygning mulighed, fordi vi vil have den allerbedste model, og vi er villige til at bruge ekstra tid på at vente på resultatet.
Byggeprocessen kan tage 2-4 timer. I løbet af denne tid tester Canvas hundredvis af kandidatpipelines og udvælger den bedste model at præsentere for os. I det følgende skærmbillede kan vi se den forventede byggetid og fremskridt.
Evaluer modellens ydeevne
Når modelbygningsprocessen er afsluttet, forudsagde modellen afgang 97.9 % af tiden. Det virker fint, men som analytikere ønsker vi at dykke dybere og se, om vi kan stole på, at modellen træffer beslutninger baseret på den. På den Scoring fanen, kan vi gennemgå et visuelt plot af vores forudsigelser kortlagt til deres resultater. Dette giver os et dybere indblik i vores model.
Canvas opdeler datasættet i trænings- og testsæt. Træningsdatasættet er de data, Canvas bruger til at bygge modellen. Testsættet bruges til at se om modellen klarer sig godt med nye data. Sankey-diagrammet i det følgende skærmbillede viser, hvordan modellen klarede sig på testsættet. For at lære mere, se Evaluering af din models ydeevne i Amazon SageMaker Canvas.
For at få mere detaljeret indsigt ud over det, der vises i Sankey-diagrammet, kan forretningsanalytikere bruge en forvirringsmatrix analyser for deres forretningsløsninger. For eksempel ønsker vi bedre at forstå sandsynligheden for, at modellen laver falske forudsigelser. Vi kan se dette i Sankey-diagrammet, men ønsker mere indsigt, så vi vælger Avancerede målinger. Vi bliver præsenteret for en forvirringsmatrix, som viser ydeevnen af en model i et visuelt format med følgende værdier, der er specifikke for den positive klasse – vi måler baseret på, om de rent faktisk vil churne, så vores positive klasse er True
i dette eksempel:
- Sand positiv (TP) - Antallet af
True
resultater, der var korrekt forudsagt somTrue
- Sand negativ (TN) - Antallet af
False
resultater, der var korrekt forudsagt somFalse
- Falsk positiv (FP) - Antallet af
False
resultater, der var forkert forudsagt somTrue
- Falsk negativ (FN) - Antallet af
True
resultater, der var forkert forudsagt somFalse
Vi kan bruge dette matrixdiagram til ikke kun at bestemme, hvor nøjagtig vores model er, men når den er forkert, hvor ofte det kan være, og hvordan den er forkert.
De avancerede målinger ser gode ud. Vi kan stole på modelresultatet. Vi ser meget lave falske positive og falske negative. Disse er, hvis modellen tror, at en kunde i datasættet vil churn, og de faktisk ikke gør det (falsk positiv), eller hvis modellen tror, at kunden vil churne, og de faktisk gør det (falsk negativ). Høje tal for begge kan få os til at tænke mere over, om vi kan bruge modellen til at træffe beslutninger.
Lad os gå tilbage til Oversigt fanen for at gennemgå virkningen af hver kolonne. Disse oplysninger kan hjælpe marketingteamet med at få indsigt, der fører til handlinger for at reducere kundeafgang. Det kan vi for eksempel se både lavt og højt CustServ Calls
øge sandsynligheden for churn. Marketingteamet kan træffe foranstaltninger for at forhindre kundeafgang baseret på disse erfaringer. Eksempler omfatter oprettelse af detaljerede ofte stillede spørgsmål på websteder for at reducere kundeserviceopkald og afvikling af uddannelseskampagner med kunder på ofte stillede spørgsmål, der kan holde engagementet oppe.
Vores model ser ret præcis ud. Vi kan direkte udføre en interaktiv forudsigelse på Forudsige fane, enten i batch eller enkelt (realtids) forudsigelse. I dette eksempel lavede vi nogle få ændringer til visse kolonneværdier og udførte en forudsigelse i realtid. Canvas viser os forudsigelsesresultatet sammen med konfidensniveauet.
Lad os sige, at vi har en eksisterende kunde, der har følgende brug: Night Mins
er 40 og Eve Mins
er 40. Vi kan køre en forudsigelse, og vores model returnerer en tillidsscore på 93.2 % for, at denne kunde vil churne (True
). Vi kan nu vælge at give kampagnerabatter for at beholde denne kunde.
Lad os sige, at vi har en eksisterende kunde, der har følgende brug: Night Mins
er 40 og Eve Mins
er 40. Vi kan køre en forudsigelse, og vores model returnerer en tillidsscore på 93.2 % for, at denne kunde vil churne (True
). Vi kan nu vælge at give kampagnerabatter for at beholde denne kunde.
At køre én forudsigelse er fantastisk til individuel what-if-analyse, men vi skal også køre forudsigelser på mange poster på én gang. Canvas er i stand til køre batch-forudsigelser, som giver dig mulighed for at køre forudsigelser i skala.
Konklusion
I dette indlæg viste vi, hvordan en forretningsanalytiker kan skabe en kundeafgang-model med SageMaker Canvas ved hjælp af eksempeldata. Canvas giver dine forretningsanalytikere mulighed for at skabe nøjagtige ML-modeller og generere forudsigelser ved hjælp af en kodefri, visuel, peg-og-klik-grænseflade. En marketinganalytiker kan nu bruge disse oplysninger til at køre målrettede fastholdelseskampagner og teste nye kampagnestrategier hurtigere, hvilket fører til en reduktion i kundeafgang.
Analytikere kan tage dette til næste niveau ved at dele deres modeller med kollegaer fra dataforskere. Dataforskerne kan se Canvas-modellen i Amazon SageMaker Studio, hvor de kan udforske de valg, Canvas AutoML har foretaget, validere modelresultater og endda produktionsalisere modellen med nogle få klik. Dette kan fremskynde ML-baseret værdiskabelse og hjælpe med at skalere forbedrede resultater hurtigere.
For at lære mere om brug af Canvas, se Byg, del, implementer: hvordan forretningsanalytikere og dataforskere opnår hurtigere time-to-market ved hjælp af no-code ML og Amazon SageMaker Canvas. For mere information om oprettelse af ML-modeller med en kodefri løsning, se Annoncering af Amazon SageMaker Canvas – en visuel, ingen kode maskinindlæringskapacitet for forretningsanalytikere.
Om forfatteren
Henry Robalino er Solutions Architect hos AWS, baseret i NJ. Han brænder for cloud og machine learning, og den rolle, de kan spille i samfundet. Han opnår dette ved at arbejde med kunder for at hjælpe dem med at nå deres forretningsmål ved hjælp af AWS Cloud. Uden for arbejdet kan du finde Henry på rejse eller udforske naturen med sin pelsdatter Arly.
Chaoran Wang er løsningsarkitekt hos AWS med base i Dallas, TX. Han har arbejdet hos AWS siden han dimitterede fra University of Texas i Dallas i 2016 med en mastergrad i datalogi. Chaoran hjælper kunder med at bygge skalerbare, sikre og omkostningseffektive applikationer og finde løsninger til at løse deres forretningsudfordringer på AWS Cloud. Uden for arbejdet elsker Chaoran at tilbringe tid med sin familie og to hunde, Biubiu og Coco.
- Coinsmart. Europas bedste Bitcoin og Crypto Exchange.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. FRI ADGANG.
- CryptoHawk. Altcoin radar. Gratis prøveversion.
- Kilde: https://aws.amazon.com/blogs/machine-learning/predicting-customer-churn-with-no-code-machine-learning-using-amazon-sagemaker-canvas/
- "
- 000
- 10
- 100
- 11
- 2016
- 7
- 9
- Om
- fremskynde
- adgang
- Konto
- præcis
- aktioner
- Yderligere
- admin
- administratorer
- fremskreden
- Alle
- Amazon
- analyse
- analytiker
- applikationer
- passende
- cirka
- OMRÅDE
- attributter
- til rådighed
- gennemsnit
- AWS
- BEDSTE
- Beyond
- Største
- grænse
- bygge
- Bygning
- bygger
- virksomhed
- virksomheder
- købe
- ringe
- Kampagne
- Kampagner
- Kan få
- kandidat
- canvas
- Boligtype
- vis
- udfordringer
- lave om
- afgift
- valg
- Vælg
- klasse
- klassificering
- Cloud
- kode
- kolleger
- Kolonne
- sammenlignet
- computer
- Datalogi
- tillid
- forvirring
- Konsol
- indeholder
- fortsæt
- omkostningseffektiv
- kunne
- skabe
- Oprettelse af
- skabelse
- kunde
- Kundeservice
- Kunder
- Dallas
- data
- dataforsker
- dybere
- forsinkelse
- Afhængigt
- indsætte
- detaljeret
- Bestem
- direkte
- displays
- Er ikke
- Uddannelse
- engagement
- Engineering
- anslået
- eksempel
- eksisterende
- forventet
- erfaring
- eksperter
- udforske
- øje
- faktorer
- familie
- FAQ
- FAST
- hurtigere
- Feature
- Funktionalitet
- ende
- Fornavn
- efter
- format
- generere
- Mål
- godt
- stor
- størst
- Grow
- have
- hjælpe
- hjælper
- link.
- Høj
- Hvordan
- HTTPS
- Hundreder
- ICON
- identificere
- identificere
- KIMOs Succeshistorier
- effektfuld
- betydning
- vigtigt
- forbedret
- omfatter
- Forøg
- øget
- individuel
- oplysninger
- indgang
- indsigt
- interaktiv
- grænseflade
- internationalt
- IT
- føre
- førende
- LÆR
- læring
- Forlade
- Niveau
- Line (linje)
- lokale
- maskine
- machine learning
- lavet
- større
- Making
- administrere
- ledelse
- styring
- Marketing
- herres
- Matrix
- betyder
- Metrics
- tankerne
- ML
- Mobil
- mobiltelefon
- model
- modeller
- mere
- mest
- negativ
- nummer
- numre
- Tilbud
- optimeret
- Option
- Indstillinger
- Andet
- udendørs
- lidenskabelige
- ydeevne
- Leg
- politikker
- positiv
- mulig
- potentiale
- forudsige
- forudsigelse
- Forudsigelser
- præsentere
- smuk
- Eksempel
- primære
- behandle
- Profil
- overskud
- forfremmelse
- salgsfremmende
- give
- giver
- Hurtig
- realtid
- anbefaler
- optage
- optegnelser
- reducere
- resterende
- fjernelse
- påkrævet
- ressource
- Resultater
- afkast
- indtægter
- gennemgå
- Risiko
- Kør
- kører
- skalerbar
- Scale
- Videnskab
- Videnskabsmand
- forskere
- sekunder
- sikker
- tjeneste
- sæt
- Del
- deling
- lignende
- Simpelt
- Størrelse
- So
- Samfund
- solid
- løsninger
- Løsninger
- SOLVE
- nogle
- hastighed
- tilbringe
- udgifterne
- standard
- Tilstand
- Status
- opbevaring
- strategier
- tager
- mål
- hold
- telekommunikation
- prøve
- tests
- Texas
- tid
- i dag
- top
- Kurser
- Traveling
- Stol
- TX
- forstå
- universitet
- us
- brug
- brugere
- værdi
- verificere
- Specifikation
- Voice
- websites
- Hvad
- Hvad er
- hvorvidt
- WHO
- Wikipedia
- Arbejde
- arbejder
- ville