Förutsäg kundavgång med maskininlärning utan kod med Amazon SageMaker Canvas

Återutgiven av Platon

anhängare: 0

Att förstå kundernas beteende är det viktigaste för alla företag idag. Att få insikter om varför och hur kunder köper kan hjälpa till att öka intäkterna. Men att förlora kunder (även kallat kundavgång) är alltid en risk, och insikter om varför kunder lämnar kan vara lika viktiga för att upprätthålla intäkter och vinster. Maskininlärning (ML) kan hjälpa till med insikter, men hittills har du behövt ML-experter för att bygga modeller för att förutsäga churn, vars brist kan försena insiktsdrivna åtgärder från företag för att behålla kunder.

I det här inlägget visar vi dig hur affärsanalytiker kan bygga en kundförlust ML-modell med Amazon SageMaker Canvas, ingen kod krävs. Canvas förser affärsanalytiker med ett visuellt peka-och-klicka-gränssnitt som låter dig bygga modeller och generera exakta ML-förutsägelser på egen hand – utan att kräva någon ML-erfarenhet eller att behöva skriva en enda rad kod.

Översikt över lösningen

För det här inlägget tar vi på oss rollen som marknadsanalytiker på marknadsavdelningen hos en mobiltelefonoperatör. Vi har fått i uppdrag att identifiera kunder som potentiellt löper risk att vända sig. Vi har tillgång till tjänstanvändning och annan kundbeteendedata och vill veta om dessa data kan hjälpa till att förklara varför en kund skulle lämna. Om vi kan identifiera faktorer som förklarar churn kan vi vidta korrigerande åtgärder för att ändra förutsagt beteende, som att köra riktade retentionskampanjer.

För att göra detta använder vi den data vi har i en CSV-fil, som innehåller information om kundanvändning och churn. Vi använder Canvas för att utföra följande steg:

Importera churn-dataset från Amazon enkel lagringstjänst (Amazon S3).
Träna och bygg churn-modellen.
Analysera modellens resultat.
Testa förutsägelser mot modellen.

För vår datauppsättning använder vi en syntetisk datauppsättning från en mobiloperatör för telekommunikation. Denna exempeldatauppsättning innehåller 5,000 21 poster, där varje post använder XNUMX attribut för att beskriva kundprofilen. Attributen är följande:

Ange – Den amerikanska delstaten där kunden är bosatt, indikerad med en tvåbokstavsförkortning; till exempel OH eller NJ
Kontolängd – Antalet dagar som detta konto har varit aktivt
Riktnummer – Det tresiffriga riktnumret för kundens telefonnummer
Telefon – Det återstående sjusiffriga telefonnumret
Int'l Plan – Om kunden har en internationell samtalsplan (ja/nej)
VMail-plan – Om kunden har en röstmeddelandefunktion (ja/nej)
VMail -meddelande – Det genomsnittliga antalet röstmeddelanden per månad
Dagmins – Det totala antalet samtalsminuter som använts under dagen
Dagsamtal – Det totala antalet ringda samtal under dagen
Dagavgift – Den fakturerade kostnaden för samtal dagtid
Eve Mins, Eve ringer, Eve Charge – Den fakturerade kostnaden för kvällssamtal
Nattmins, Nattsamtal, Nattladdning – Den fakturerade kostnaden för nattsamtal
Intl Mins, Intl samtal, Intl – Den fakturerade kostnaden för internationella samtal
CustServ-samtal – Antalet samtal till kundtjänst
Churn? – Om kunden lämnade tjänsten (sant/falskt)

Det sista attributet, Churn?, är det attribut som vi vill att ML-modellen ska förutsäga. Målattributet är binärt, vilket betyder att vår modell förutsäger utdata som en av två kategorier (True or False).

Förutsättningar

En molnadministratör med en AWS-konto med lämpliga behörigheter krävs för att uppfylla följande förutsättningar:

Implementera en Amazon SageMaker För instruktioner, se Ombord på Amazon SageMaker Domain.
Distribuera Canvas. För instruktioner, se Konfigurera och hantera Amazon SageMaker Canvas (för IT-administratörer).
Konfigurera cross-origin resurs sharing (CORS) policyer för Canvas. För instruktioner, se Ge dina användare möjligheten att ladda upp lokala filer.

Skapa en kundförlustmodell

Låt oss först ladda ner churn dataset och granska filen för att se till att all data finns där. Slutför sedan följande steg:

Logga in på AWS Management Console, med ett konto med lämpliga behörigheter för att komma åt Canvas.
Logga in på Canvas-konsolen.

Det är här vi kan hantera våra datamängder och skapa modeller.

Välja Importera.

Canvas Import-knapp Välj

Välja Ladda och välj churn.csv fil.
Välja Importera datum för att ladda upp den till Canvas.

Canvas välj data från s3

Importprocessen tar cirka 10 sekunder (detta kan variera beroende på datauppsättningens storlek). När den är klar kan vi se att datamängden finns i Ready status.

Canvas Ready Dataset

För att förhandsgranska de första 100 raderna i datamängden, för musen över ögonikonen.

Canvas View Dataset

En förhandsgranskning av datasetet visas. Här kan vi verifiera att våra uppgifter är korrekta.

Canvas Verifiera data

När vi har bekräftat att den importerade datamängden är klar skapar vi vår modell.

Välja Ny modell.

Canvas nya modeller

Välj datauppsättningen churn.csv och välj Välj dataset.

Canvas Välj Dataset

Nu konfigurerar vi byggmodellprocessen.

För Målkolumner, Välj den Churn? kolonn.

För Modell typ, Canvas rekommenderar automatiskt modelltypen, i det här fallet 2 kategori förutsägelse (vad en dataforskare skulle kalla binär klassificering). Detta är lämpligt för vårt användningsfall eftersom vi bara har två möjliga prediktionsvärden: True or False, så vi följer rekommendationen Canvas gjort.

Canvas Byggmodell

Vi validerar nu några antaganden. Vi vill få en snabb bild av om vår målkolumn kan förutsägas av de andra kolumnerna. Vi kan få en snabb bild av modellens uppskattade noggrannhet och kolumnpåverkan (den uppskattade betydelsen av varje kolumn för att förutsäga målkolumnen).

Välj alla 21 kolumner och välj Förhandsgranska modell.

Den här funktionen använder en delmängd av vår datauppsättning och endast ett enda pass vid modellering. För vårt användningsfall tar förhandsgranskningsmodellen ungefär 2 minuter att bygga.

Canvas Preview Model

Som visas i följande skärmdump, Phone och State kolumner har mycket mindre inverkan på vår förutsägelse. Vi vill vara försiktiga när vi tar bort textinmatning eftersom den kan innehålla viktiga diskreta, kategoriska egenskaper som bidrar till vår förutsägelse. Här är telefonnumret bara motsvarande ett kontonummer – inte av värde för att förutsäga andra kontons sannolikhet för churn, och kundens tillstånd påverkar inte vår modell särskilt mycket.

Vi tar bort dessa kolumner eftersom de inte har någon större vikt.
Efter att vi tagit bort Phone och State kolumner, låt oss köra förhandsgranskningen igen.

Som visas i följande skärmdump ökade modellnoggrannheten med 0.1 %. Vår förhandsgranskningsmodell har en uppskattad noggrannhet på 95.9 %, och kolumnerna med störst påverkan är Night Calls, Eve Minsoch Night Charge. Detta ger oss en inblick i vilka kolumner som påverkar prestandan för vår modell mest. Här måste vi vara försiktiga när vi gör funktionsval eftersom om en enskild funktion har extremt stor inverkan på en modells resultat är det en primär indikator på målläckage, och funktionen kommer inte att vara tillgänglig vid tidpunkten för förutsägelsen. I det här fallet var det få kolumner som visade mycket liknande effekt, så vi fortsätter att bygga vår modell.

Canvas Feature Engineering After

Canvas erbjuder två byggalternativ:

Standardbyggd – Bygger den bästa modellen från en optimerad process som drivs av AutoML; hastighet byts ut mot största noggrannhet
Snabbbyggnad – Bygger en modell på en bråkdel av tiden jämfört med en standardkonstruktion; potentiell noggrannhet byts ut mot hastighet.

För det här inlägget väljer vi Standardbyggd alternativet eftersom vi vill ha den allra bästa modellen och vi är villiga att lägga ytterligare tid på att vänta på resultatet.

Canvas standardbyggd

Byggprocessen kan ta 2–4 timmar. Under denna tid testar Canvas hundratals kandidatpipelines och väljer den bästa modellen att presentera för oss. I följande skärmdump kan vi se förväntad byggtid och framsteg.

Canvas analysmodell

Utvärdera modellens prestanda

När modellbyggnadsprocessen är klar förutspådde modellen churn 97.9 % av tiden. Detta verkar bra, men som analytiker vill vi dyka djupare och se om vi kan lita på att modellen fattar beslut baserat på den. På Poängräkning fliken kan vi granska en visuell plot av våra förutsägelser mappade till deras resultat. Detta ger oss en djupare insikt i vår modell.

Canvas separerar datasetet i tränings- och testset. Utbildningsdataset är den data som Canvas använder för att bygga modellen. Testsetet används för att se om modellen presterar bra med nya data. Sankey-diagrammet i följande skärmdump visar hur modellen presterade på testsetet. För att lära dig mer, se Utvärdera din modells prestanda i Amazon SageMaker Canvas.

För att få mer detaljerade insikter utöver vad som visas i Sankey-diagrammet kan affärsanalytiker använda en förvirringsmatris analyser för sina affärslösningar. Till exempel vill vi bättre förstå sannolikheten för att modellen gör falska förutsägelser. Vi kan se detta i Sankey-diagrammet, men vill ha fler insikter, så vi väljer Avancerade mätvärden. Vi presenteras för en förvirringsmatris, som visar prestandan för en modell i ett visuellt format med följande värden, specifika för den positiva klassen – vi mäter baserat på om de faktiskt kommer att churna, så vår positiva klass är True i detta exempel:

Sant positiv (TP) - Antalet True resultat som var korrekt förutspått som True
True Negative (TN) - Antalet False resultat som var korrekt förutspått som False
Falskt positivt (FP) - Antalet False resultat som felaktigt förutspåddes som True
Falskt negativt (FN) - Antalet True resultat som felaktigt förutspåddes som False

Vi kan använda detta matrisdiagram för att inte bara avgöra hur exakt vår modell är, utan även när den är fel, hur ofta det kan vara och hur det är fel.

Canvas F1 Matrix

De avancerade mätvärdena ser bra ut. Vi kan lita på modellens resultat. Vi ser mycket låga falska positiva och falska negativa. Dessa är om modellen tror att en kund i datamängden kommer att churna och de faktiskt inte gör det (falskt positivt), eller om modellen tror att kunden kommer att churna och de faktiskt gör det (falskt negativt). Höga siffror för båda kan få oss att tänka mer på om vi kan använda modellen för att fatta beslut.

Låt oss gå tillbaka till Översikt fliken för att granska effekten av varje kolumn. Denna information kan hjälpa marknadsföringsteamet att få insikter som leder till att åtgärder vidtas för att minska kundförlusten. Till exempel kan vi se att både låg och hög CustServ Calls öka sannolikheten för churn. Marknadsföringsteamet kan vidta åtgärder för att förhindra kundförlust baserat på dessa lärdomar. Exempel inkluderar att skapa en detaljerad FAQ på webbplatser för att minska kundtjänstsamtal och att köra utbildningskampanjer med kunder i FAQ som kan hålla engagemanget uppe.

Vår modell ser ganska exakt ut. Vi kan direkt utföra en interaktiv förutsägelse på förutsäga fliken, antingen i batch- eller enstaka (realtids) förutsägelse. I det här exemplet gjorde vi några ändringar i vissa kolumnvärden och utförde en realtidsförutsägelse. Canvas visar oss förutsägelseresultatet tillsammans med konfidensnivån.

Canvas förutsäg slutledning

Låt oss säga att vi har en befintlig kund som har följande användning: Night Mins är 40 och Eve Mins är 40. Vi kan köra en förutsägelse och vår modell ger en konfidenspoäng på 93.2 % för att denna kund kommer att lämna (True). Vi kanske nu väljer att ge kampanjrabatter för att behålla denna kund.

Att köra en förutsägelse är bra för individuell vad-om-analys, men vi måste också köra förutsägelser på många poster samtidigt. Canvas kan kör batchförutsägelser, som låter dig köra förutsägelser i skala.

Slutsats

I det här inlägget visade vi hur en affärsanalytiker kan skapa en kundförlustmodell med SageMaker Canvas med hjälp av exempeldata. Canvas låter dina affärsanalytiker skapa korrekta ML-modeller och generera förutsägelser med hjälp av ett kodfritt, visuellt, peka-och-klicka-gränssnitt. En marknadsanalytiker kan nu använda denna information för att köra riktade retentionskampanjer och testa nya kampanjstrategier snabbare, vilket leder till en minskning av kundförlusten.

Analytiker kan ta detta till nästa nivå genom att dela sina modeller med dataforskares kollegor. Dataforskarna kan se Canvas-modellen i Amazon SageMaker Studio, där de kan utforska de val Canvas AutoML gjort, validera modellresultat och till och med produktionsalisera modellen med några få klick. Detta kan påskynda ML-baserat värdeskapande och hjälpa till att skala förbättrade resultat snabbare.

För att lära dig mer om hur du använder Canvas, se Bygg, dela, implementera: hur affärsanalytiker och datavetare uppnår snabbare time-to-market med hjälp av no-code ML och Amazon SageMaker Canvas. För mer information om att skapa ML-modeller med en kodlös lösning, se Tillkännager Amazon SageMaker Canvas – en visuell maskininlärningsförmåga utan kod för affärsanalytiker.

Om författaren

Henry Robalino är en lösningsarkitekt på AWS, baserad i NJ. Han brinner för moln och maskininlärning, och den roll de kan spela i samhället. Han uppnår detta genom att arbeta med kunder för att hjälpa dem att uppnå sina affärsmål med hjälp av AWS Cloud. Utanför jobbet kan du hitta Henry som reser eller utforskar naturen med sin pälsdotter Arly.

Förutsäg kundförlust med no-code maskininlärning med Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Chaoran Wang är en lösningsarkitekt på AWS, baserad i Dallas, TX. Han har arbetat på AWS sedan han tog examen från University of Texas i Dallas 2016 med en magisterexamen i datavetenskap. Chaoran hjälper kunder att bygga skalbara, säkra och kostnadseffektiva applikationer och hitta lösningar för att lösa deras affärsutmaningar på AWS-molnet. Utanför jobbet älskar Chaoran att umgås med sin familj och två hundar, Biubiu och Coco.