Voorspel klantverloop met no-code machine learning met Amazon SageMaker Canvas

Heruitgegeven door Plato

volgers: 0

Het begrijpen van klantgedrag is tegenwoordig top of mind voor elk bedrijf. Door inzicht te krijgen in waarom en hoe klanten kopen, kan de omzet groeien. Maar klanten verliezen (ook wel klantverloop genoemd) is altijd een risico, en inzicht in waarom klanten vertrekken kan net zo belangrijk zijn voor het op peil houden van omzet en winst. Machine learning (ML) kan helpen met inzichten, maar tot nu toe had je ML-experts nodig om modellen te bouwen om klantverloop te voorspellen, waarvan het ontbreken hiervan de op inzichten gebaseerde acties van bedrijven om klanten te behouden zou kunnen vertragen.

In dit bericht laten we u zien hoe bedrijfsanalisten een ML-model voor klantverloop kunnen bouwen met Amazon SageMaker-canvas, geen code nodig. Canvas biedt bedrijfsanalisten een visuele aanwijzen-en-klik-interface waarmee je zelf modellen kunt bouwen en nauwkeurige ML-voorspellingen kunt genereren, zonder dat je enige ervaring met ML nodig hebt of een enkele regel code hoeft te schrijven.

Overzicht van de oplossing

Voor deze functie nemen we de rol van marketinganalist op de marketingafdeling van een gsm-operator op ons. We hebben de taak gekregen om klanten te identificeren die mogelijk het risico lopen om te karnen. We hebben toegang tot servicegebruik en andere gegevens over klantgedrag en willen weten of deze gegevens kunnen helpen verklaren waarom een klant zou vertrekken. Als we factoren kunnen identificeren die churn verklaren, kunnen we corrigerende maatregelen nemen om voorspeld gedrag te veranderen, zoals het voeren van gerichte retentiecampagnes.

Hiervoor gebruiken we de gegevens die we hebben in een CSV-bestand, dat informatie bevat over klantgebruik en klantverloop. We gebruiken Canvas om de volgende stappen uit te voeren:

Importeer de churn-dataset van Amazon eenvoudige opslagservice (Amazone S3).
Train en bouw het churn-model.
Analyseer de modelresultaten.
Test voorspellingen tegen het model.

Voor onze dataset gebruiken we a synthetische dataset van een telecommunicatie mobiele telefoon provider. Deze voorbeelddataset bevat 5,000 records, waarbij elk record 21 attributen gebruikt om het klantprofiel te beschrijven. De attributen zijn als volgt:

Land – De Amerikaanse staat waarin de klant woont, aangegeven met een afkorting van twee letters; bijvoorbeeld OH of NJ
Accountlengte – Het aantal dagen dat dit account actief is geweest
netnummer – Het driecijferige netnummer van het telefoonnummer van de klant
Telefoonnummer – Het resterende zevencijferige telefoonnummer
Int'l Plan – Of de klant een internationaal belabonnement heeft (ja/nee)
VMail-abonnement – Of de klant een voicemailfunctie heeft (ja/nee)
VM-bericht – Het gemiddelde aantal voicemailberichten per maand
Dag min – Het totaal aantal belminuten dat gedurende de dag is gebruikt
Dagoproepen – Het totale aantal oproepen gedurende de dag
Dagtoeslag – De gefactureerde kosten van gesprekken overdag
Eva minuten, Eve roept, Eva Charge – De gefactureerde kosten voor avondgesprekken
Nacht min, Nachtoproepen, Nachttoeslag – De gefactureerde kosten voor nachtelijke gesprekken
Internationale minuten, Internationale gesprekken, Internationale kosten – De gefactureerde kosten voor internationale gesprekken
CustServ-oproepen – Het aantal oproepen naar de klantenservice
Chun? – Of de klant de service heeft verlaten (waar/onwaar)

Het laatste attribuut, Churn?, is het attribuut dat we willen dat het ML-model voorspelt. Het doelkenmerk is binair, wat betekent dat ons model de uitvoer voorspelt als een van de twee categorieën (True or False).

Voorwaarden

Een cloudbeheerder met een AWS-account met de juiste machtigingen is vereist om aan de volgende vereisten te voldoen:

Implementeer een Amazon Sage Maker Voor instructies, zie Aan boord van Amazon SageMaker Domain.
Canvas implementeren. Voor instructies, zie Amazon SageMaker Canvas instellen en beheren (voor IT-beheerders).
Configureer CORS-beleid (cross-origin resource sharing) voor Canvas. Voor instructies, zie Geef uw gebruikers de mogelijkheid om lokale bestanden te uploaden.

Een klantverloopmodel maken

Laten we eerst de . downloaden churn-gegevensset en bekijk het bestand om er zeker van te zijn dat alle gegevens aanwezig zijn. Voer dan de volgende stappen uit:

Hier kunnen we onze datasets beheren en modellen maken.

Kies import.

Knop Canvas importeren Selecteer

Kies Uploaden in en selecteer het churn.csv bestand.
Kies Datums importeren om het naar Canvas te uploaden.

Canvas selecteer gegevens van s3

Het importproces duurt ongeveer 10 seconden (dit kan variëren afhankelijk van de grootte van de dataset). Als het voltooid is, kunnen we zien dat de dataset binnen is Ready statuut.

Canvas Ready-gegevensset

Beweeg uw muis over het oogpictogram om een voorbeeld van de eerste 100 rijen van de gegevensset te bekijken.

Canvasweergave-gegevensset

Er wordt een voorbeeld van de dataset weergegeven. Hier kunnen we controleren of onze gegevens correct zijn.

Canvas verifiëren gegevens

Nadat we hebben bevestigd dat de geïmporteerde dataset gereed is, maken we ons model.

Kies Nieuw model.

Canvas nieuwe modellen

Selecteer de dataset churn.csv en kies Selecteer dataset.

Canvas Select-gegevensset

Nu configureren we het buildmodelproces.

Voor Doelkolommen, kies de Churn? kolom.

Voor Model type, Canvas beveelt in dit geval automatisch het modeltype aan 2 categorie voorspelling (wat een datawetenschapper binaire classificatie zou noemen). Dit is geschikt voor onze use case omdat we slechts twee mogelijke voorspellingswaarden hebben: True or False, dus we gaan in op de aanbeveling die Canvas heeft gedaan.

Canvasmodel

We valideren nu enkele aannames. We willen snel zien of onze doelkolom kan worden voorspeld door de andere kolommen. We kunnen snel inzicht krijgen in de geschatte nauwkeurigheid en kolomimpact van het model (het geschatte belang van elke kolom bij het voorspellen van de doelkolom).

Selecteer alle 21 kolommen en kies Voorbeeldmodel.

Deze functie gebruikt een subset van onze dataset en slechts een enkele doorgang bij het modelleren. Voor onze use case duurt het ongeveer 2 minuten om het preview-model te bouwen.

Canvasvoorbeeldmodel

Zoals te zien is in de volgende schermafbeelding, is de Phone en State kolommen hebben veel minder invloed op onze voorspelling. We willen voorzichtig zijn bij het verwijderen van tekstinvoer, omdat deze belangrijke discrete, categorische kenmerken kan bevatten die bijdragen aan onze voorspelling. Hier is het telefoonnummer gewoon het equivalent van een rekeningnummer - niet van waarde bij het voorspellen van de waarschijnlijkheid van churn van andere rekeningen, en de toestand van de klant heeft niet veel invloed op ons model.

We verwijderen deze kolommen omdat ze geen belangrijk kenmerkbelang hebben.
Nadat we de . hebben verwijderd Phone en State kolommen, laten we het voorbeeld opnieuw uitvoeren.

Zoals te zien is in de volgende schermafbeelding, nam de modelnauwkeurigheid toe met 0.1%. Ons voorbeeldmodel heeft een geschatte nauwkeurigheid van 95.9% en de kolommen met de grootste impact zijn Night Calls, Eve Mins en Night Charge. Dit geeft ons inzicht in welke kolommen de prestaties van ons model het meest beïnvloeden. Hier moeten we voorzichtig zijn bij het selecteren van functies, want als een enkele functie extreem veel invloed heeft op de uitkomst van een model, is dit een primaire indicator van doelwit lekkage, en de functie is niet beschikbaar op het moment van voorspelling. In dit geval vertoonden enkele kolommen een zeer vergelijkbare impact, dus we gaan door met het bouwen van ons model.

Canvas Feature Engineering na

Canvas biedt twee bouwopties:

Standaard gebouwd – Bouwt het beste model op basis van een geoptimaliseerd proces, mogelijk gemaakt door AutoML; snelheid wordt ingewisseld voor de grootste nauwkeurigheid
Snel gebouwd – Bouwt een model in een fractie van de tijd in vergelijking met een standaard build; potentiële nauwkeurigheid wordt ingeruild voor snelheid.

Voor dit bericht kiezen we de Standaard gebouwd optie omdat we het allerbeste model willen hebben en we bereid zijn extra tijd te besteden aan het wachten op het resultaat.

Standaard canvasdoek

Het bouwproces kan 2-4 uur duren. Gedurende deze tijd test Canvas honderden kandidaat-pijplijnen en selecteert het beste model om aan ons te presenteren. In de volgende schermafbeelding kunnen we de verwachte bouwtijd en voortgang zien.

Model voor canvasanalyse

Modelprestaties evalueren

Wanneer het modelbouwproces voltooid is, voorspelde het model 97.9% van de tijd churn. Dit lijkt prima, maar als analisten willen we dieper duiken en kijken of we het model kunnen vertrouwen om op basis daarvan beslissingen te nemen. Op de Scoren tabblad, kunnen we een visuele plot van onze voorspellingen bekijken die zijn toegewezen aan hun resultaten. Dit geeft ons een dieper inzicht in ons model.

Canvas scheidt de dataset in trainings- en testsets. De trainingsdataset is de data die Canvas gebruikt om het model te bouwen. De testset wordt gebruikt om te kijken of het model goed presteert met nieuwe data. Het Sankey-diagram in de volgende schermafbeelding laat zien hoe het model presteerde op de testset. Raadpleeg voor meer informatie: De prestaties van uw model evalueren in Amazon SageMaker Canvas.

Om meer gedetailleerde inzichten te krijgen dan wat wordt weergegeven in het Sankey-diagram, kunnen bedrijfsanalisten een: verwarring matrix analyse voor hun bedrijfsoplossingen. We willen bijvoorbeeld beter inzicht krijgen in de kans dat het model valse voorspellingen doet. We kunnen dit zien in het Sankey-diagram, maar willen meer inzichten, dus we kiezen Geavanceerde statistieken. We krijgen een verwarringsmatrix te zien, die de prestaties van een model in een visueel formaat weergeeft met de volgende waarden, specifiek voor de positieve klasse - we meten op basis van de vraag of ze daadwerkelijk zullen karnen, dus onze positieve klasse is True in dit voorbeeld:

Echt positief (TP) - Het aantal True resultaten die correct werden voorspeld als True
Echt negatief (TN) - Het aantal False resultaten die correct werden voorspeld als False
Vals-positief (FP) - Het aantal False resultaten die verkeerd waren voorspeld als True
Vals negatief (FN) - Het aantal True resultaten die verkeerd waren voorspeld als False

We kunnen deze matrixgrafiek gebruiken om niet alleen te bepalen hoe nauwkeurig ons model is, maar ook wanneer het fout is, hoe vaak dat kan zijn en hoe fout het is.

Canvas F1-matrix

De geavanceerde statistieken zien er goed uit. We kunnen het modelresultaat vertrouwen. We zien zeer weinig valse positieven en valse negatieven. Dit zijn als het model denkt dat een klant in de dataset zal karnen en ze eigenlijk niet (vals-positief), of als het model denkt dat de klant zal karnen en ze daadwerkelijk doen (vals-negatief). Hoge cijfers voor beide kunnen ons ertoe aanzetten om meer na te denken over de vraag of we het model kunnen gebruiken om beslissingen te nemen.

Laten we teruggaan naar Overzicht tabblad, om de impact van elke kolom te bekijken. Deze informatie kan het marketingteam helpen om inzichten te verkrijgen die ertoe leiden dat acties worden ondernomen om het klantverloop te verminderen. We kunnen bijvoorbeeld zien dat zowel laag als hoog CustServ Calls de kans op churn vergroten. Op basis van deze lessen kan het marketingteam acties ondernemen om klantverloop te voorkomen. Voorbeelden zijn het maken van een gedetailleerde veelgestelde vraag op websites om het aantal telefoontjes naar de klantenservice te verminderen, en het voeren van voorlichtingscampagnes met klanten over de veelgestelde vragen die de betrokkenheid kunnen behouden.

Ons model ziet er behoorlijk nauwkeurig uit. We kunnen direct een interactieve voorspelling doen op de Voorspellen tabblad, hetzij in batch- of enkele (realtime) voorspelling. In dit voorbeeld hebben we een paar wijzigingen aangebracht in bepaalde kolomwaarden en een realtime voorspelling uitgevoerd. Canvas toont ons het voorspellingsresultaat samen met het betrouwbaarheidsniveau.

Canvas voorspellen gevolgtrekking

Laten we zeggen dat we een bestaande klant hebben die het volgende gebruik heeft: Night Mins is 40 en Eve Mins is 40. We kunnen een voorspelling uitvoeren en ons model retourneert een betrouwbaarheidsscore van 93.2% dat deze klant zal churn (True). We kunnen er nu voor kiezen om promotionele kortingen te geven om deze klant te behouden.

Het uitvoeren van één voorspelling is geweldig voor individuele wat-als-analyses, maar we moeten ook voorspellingen voor veel records tegelijk uitvoeren. Canvas kan batchvoorspellingen uitvoeren, waarmee u voorspellingen op schaal kunt uitvoeren.

Conclusie

In dit bericht hebben we laten zien hoe een bedrijfsanalist een klantverloopmodel kan maken met SageMaker Canvas met behulp van voorbeeldgegevens. Met Canvas kunnen uw bedrijfsanalisten nauwkeurige ML-modellen maken en voorspellingen genereren met behulp van een visuele, aanwijzen-en-klikken-interface zonder code. Een marketinganalist kan deze informatie nu gebruiken om gerichte retentiecampagnes uit te voeren en nieuwe campagnestrategieën sneller te testen, wat leidt tot een vermindering van het klantverloop.

Analisten kunnen dit naar een hoger niveau tillen door hun modellen te delen met collega's van datawetenschappers. De datawetenschappers kunnen het Canvas-model bekijken in Amazon SageMaker Studio, waar ze de gemaakte keuzes van Canvas AutoML kunnen verkennen, modelresultaten kunnen valideren en zelfs het model met een paar klikken kunnen productiealiseren. Dit kan het creëren van waarde op basis van ML versnellen en helpen om verbeterde resultaten sneller te schalen.

Voor meer informatie over het gebruik van Canvas, zie Build, Share, Deploy: hoe bedrijfsanalisten en datawetenschappers een snellere time-to-market bereiken met behulp van no-code ML en Amazon SageMaker Canvas. Voor meer informatie over het maken van ML-modellen met een oplossing zonder code, zie Aankondiging van Amazon SageMaker Canvas - een visuele, no-code machine learning-mogelijkheid voor bedrijfsanalisten.

Over de auteur

Hendrik Robalino is Solutions Architect bij AWS, gevestigd in NJ. Hij is gepassioneerd door cloud en machine learning, en de rol die ze kunnen spelen in de samenleving. Hij bereikt dit door samen te werken met klanten om hen te helpen hun zakelijke doelen te bereiken met behulp van de AWS Cloud. Buiten het werk kun je Henry op reis vinden of de natuur verkennen met zijn pelsdochter Arly.

Voorspel klantverloop met machine learning zonder code met Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Chaoran Wang is Solution Architect bij AWS, gevestigd in Dallas, TX. Hij werkt bij AWS sinds hij in 2016 afstudeerde aan de University of Texas in Dallas met een master in Computer Science. Chaoran helpt klanten schaalbare, veilige en kosteneffectieve applicaties te bouwen en oplossingen te vinden om hun zakelijke uitdagingen op de AWS Cloud op te lossen. Buiten zijn werk brengt Chaoran graag tijd door met zijn gezin en twee honden, Biubiu en Coco.