Prevedi l'abbandono dei clienti con il machine learning senza codice utilizzando Amazon SageMaker Canvas

Ripubblicato da Platone

Seguaci: 0

Comprendere il comportamento dei clienti è al centro della mente di ogni azienda oggi. Ottenere informazioni dettagliate sul perché e come i clienti acquistano può aiutare ad aumentare le entrate. Ma perdere clienti (chiamato anche abbandono dei clienti) è sempre un rischio e le informazioni sul motivo per cui i clienti se ne vanno possono essere altrettanto importanti per mantenere ricavi e profitti. Il machine learning (ML) può aiutare con le informazioni dettagliate, ma fino ad ora avevi bisogno di esperti di machine learning per creare modelli per prevedere l'abbandono, la cui mancanza potrebbe ritardare le azioni basate sulle informazioni da parte delle aziende per fidelizzare i clienti.

In questo post, ti mostriamo come gli analisti aziendali possono creare un modello ML di abbandono dei clienti con Tela di Amazon SageMaker, nessun codice richiesto. Canvas offre agli analisti aziendali un'interfaccia visiva point-and-click che ti consente di creare modelli e generare previsioni ML accurate in autonomia, senza richiedere alcuna esperienza ML o dover scrivere una singola riga di codice.

Panoramica della soluzione

Per questo post, assumiamo il ruolo di analista di marketing nel reparto marketing di un operatore di telefonia mobile. Abbiamo il compito di identificare i clienti potenzialmente a rischio di abbandono. Abbiamo accesso all'utilizzo del servizio e ad altri dati sul comportamento dei clienti e vogliamo sapere se questi dati possono aiutare a spiegare perché un cliente se ne va. Se riusciamo a identificare i fattori che spiegano l'abbandono, allora possiamo intraprendere azioni correttive per modificare il comportamento previsto, come l'esecuzione di campagne di fidelizzazione mirate.

Per fare ciò, utilizziamo i dati che abbiamo in un file CSV, che contiene informazioni sull'utilizzo e sull'abbandono dei clienti. Usiamo Canvas per eseguire i seguenti passaggi:

Importa il dataset di abbandono da Servizio di archiviazione semplice Amazon (Amazon S3).
Addestra e costruisci il modello di churn.
Analizza i risultati del modello.
Testare le previsioni rispetto al modello.

Per il nostro set di dati, utilizziamo a set di dati sintetici da un operatore di telefonia mobile di telecomunicazioni. Questo set di dati di esempio contiene 5,000 record, in cui ogni record utilizza 21 attributi per descrivere il profilo del cliente. Gli attributi sono i seguenti:

Regione / Stato – Lo stato USA in cui risiede il cliente, indicato con un'abbreviazione di due lettere; per esempio, OH o NJ
Lunghezza del conto – Il numero di giorni in cui questo account è stato attivo
prefisso teleselettivo – Il prefisso a tre cifre del numero di telefono del cliente
Telefono – Il restante numero di telefono a sette cifre
Piano Internazionale – Se il cliente ha un piano chiamate internazionali (sì/no)
Piano VMail – Se il cliente dispone di una funzione di posta vocale (sì/no)
Messaggio VMail – Il numero medio di messaggi vocali al mese
Giorno min – Il numero totale di minuti di chiamata utilizzati durante il giorno
Chiamate diurne – Il numero totale di chiamate effettuate durante il giorno
Carica giornaliera – Il costo fatturato delle chiamate diurne
vigilia min, Eve chiama, Carica di vigilia – Il costo fatturato per le chiamate serali
Minuti notturni, Chiamate notturne, Carica notturna – Il costo fatturato per le chiamate notturne
Intl min, Chiamate internazionali, Carica internazionale – Il costo fatturato per le chiamate internazionali
Chiamate CustServ – Il numero di chiamate effettuate al servizio clienti
Zangola? – Se il cliente ha lasciato il servizio (vero/falso)

L'ultimo attributo, Churn?, è l'attributo che vogliamo che il modello ML preveda. L'attributo target è binario, il che significa che il nostro modello prevede l'output come una delle due categorie (True or False).

Prerequisiti

Un amministratore cloud con un Account AWS con le autorizzazioni appropriate è necessario completare i seguenti prerequisiti:

Distribuisci un file Amazon Sage Maker Per istruzioni, vedere Integrazione nel dominio Amazon SageMaker.
Distribuisci tela. Per istruzioni, vedere Configurazione e gestione di Amazon SageMaker Canvas (per amministratori IT).
Configura i criteri di condivisione delle risorse tra le origini (CORS) per Canvas. Per istruzioni, vedere Offri ai tuoi utenti la possibilità di caricare file locali.

Crea un modello di abbandono del cliente

Per prima cosa, scarichiamo il set di dati sull'abbandono ed esamina il file per assicurarti che tutti i dati siano presenti. Quindi completare i seguenti passaggi:

Accedi al Console di gestione AWS, utilizzando un account con le autorizzazioni appropriate per accedere a Canvas.
Accedi alla console Canvas.

È qui che possiamo gestire i nostri set di dati e creare modelli.

Scegli Importare.

Pulsante Importa tela Seleziona

Scegli Caricare e seleziona la churn.csv file.
Scegli Importa le date per caricarlo su Canvas.

Canvas seleziona i dati da s3

Il processo di importazione richiede circa 10 secondi (questo può variare a seconda delle dimensioni del set di dati). Quando è completo, possiamo vedere che il set di dati è in Ready stato.

Set di dati pronto per la tela

Per visualizzare in anteprima le prime 100 righe del set di dati, passa il mouse sull'icona a forma di occhio.

Set di dati di visualizzazione tela

Viene visualizzata un'anteprima del set di dati. Qui possiamo verificare che i nostri dati siano corretti.

Tela Verifica i dati

Dopo aver confermato che il set di dati importato è pronto, creiamo il nostro modello.

Scegli Nuovo modello.

Tela Nuovi modelli

Seleziona il set di dati churn.csv e scegli Seleziona dataset.

Tela Seleziona set di dati

Ora configuriamo il processo del modello di compilazione.

Nel Colonne di destinazione, scegli il Churn? colonna.

Nel Tipo di modello, Canvas consiglia automaticamente il tipo di modello, in questo caso previsione di categoria 2 (quella che uno scienziato di dati chiamerebbe classificazione binaria). Questo è adatto al nostro caso d'uso perché abbiamo solo due possibili valori di previsione: True or False, quindi andiamo con la raccomandazione Canvas made.

Modello di costruzione della tela

Convalidiamo ora alcune ipotesi. Vogliamo avere una visione rapida del fatto che la nostra colonna di destinazione possa essere prevista dalle altre colonne. Possiamo ottenere una visione rapida dell'accuratezza stimata del modello e dell'impatto della colonna (l'importanza stimata di ciascuna colonna nella previsione della colonna di destinazione).

Seleziona tutte le 21 colonne e scegli Anteprima del modello.

Questa funzione utilizza un sottoinsieme del nostro set di dati e un solo passaggio alla modellazione. Per il nostro caso d'uso, la creazione del modello di anteprima richiede circa 2 minuti.

Modello di anteprima tela

Come mostrato nella schermata seguente, il Phone ed State le colonne hanno un impatto molto minore sulla nostra previsione. Vogliamo fare attenzione quando rimuoviamo l'input di testo perché può contenere importanti caratteristiche discrete e categoriali che contribuiscono alla nostra previsione. In questo caso, il numero di telefono è semplicemente l'equivalente di un numero di conto, non utile per prevedere la probabilità di abbandono di altri conti e lo stato del cliente non ha un grande impatto sul nostro modello.

Rimuoviamo queste colonne perché non hanno un'importanza importante per le funzionalità.
Dopo aver rimosso il Phone ed State colonne, eseguiamo di nuovo l'anteprima.

Come mostrato nella schermata seguente, la precisione del modello è aumentata dello 0.1%. Il nostro modello di anteprima ha una precisione stimata del 95.9% e le colonne con l'impatto maggiore lo sono Night Calls, Eve Minse Night Charge. Questo ci dà un'idea di quali colonne influiscono maggiormente sulle prestazioni del nostro modello. Qui dobbiamo fare attenzione quando si effettua la selezione delle caratteristiche perché se una singola caratteristica ha un impatto estremo sul risultato di un modello, è un indicatore primario di target di perditae la funzione non sarà disponibile al momento della previsione. In questo caso, poche colonne hanno mostrato un impatto molto simile, quindi continuiamo a costruire il nostro modello.

Ingegneria delle funzionalità della tela dopo

Canvas offre due opzioni di costruzione:

Costruzione standard – Crea il miglior modello da un processo ottimizzato basato su AutoML; la velocità viene scambiata per la massima precisione
Costruzione rapida – Costruisce un modello in una frazione del tempo rispetto a una build standard; la precisione potenziale viene scambiata con la velocità.

Per questo post, scegliamo il Costruzione standard opzione perché vogliamo avere il modello migliore e siamo disposti a dedicare più tempo ad aspettare il risultato.

Costruzione standard della tela

Il processo di compilazione può richiedere 2-4 ore. Durante questo periodo, Canvas testa centinaia di pipeline candidate, selezionando il modello migliore da presentarci. Nella schermata seguente, possiamo vedere i tempi di costruzione e i progressi previsti.

Modello di analisi della tela

Valuta le prestazioni del modello

Al termine del processo di costruzione del modello, il modello prevedeva il tasso di abbandono il 97.9% delle volte. Sembra a posto, ma come analisti vogliamo approfondire e vedere se possiamo fidarci del modello per prendere decisioni basate su di esso. Sul Punteggio scheda, possiamo esaminare un grafico visivo delle nostre previsioni mappato sui loro risultati. Questo ci permette di avere una visione più profonda del nostro modello.

Canvas separa il set di dati in set di training e test. Il set di dati di addestramento è costituito dai dati utilizzati da Canvas per creare il modello. Il set di test viene utilizzato per verificare se il modello funziona bene con i nuovi dati. Il diagramma Sankey nella schermata seguente mostra come si è comportato il modello sul set di prova. Per saperne di più, fare riferimento a Valutazione delle prestazioni del tuo modello in Amazon SageMaker Canvas.

Per ottenere informazioni più dettagliate oltre a quanto visualizzato nel diagramma di Sankey, gli analisti aziendali possono utilizzare a matrice di confusione analisi per le loro soluzioni aziendali. Ad esempio, vogliamo comprendere meglio la probabilità che il modello faccia false previsioni. Possiamo vederlo nel diagramma di Sankey, ma vogliamo più approfondimenti, quindi scegliamo Metriche avanzate. Ci viene presentata una matrice di confusione, che mostra le prestazioni di un modello in un formato visivo con i seguenti valori, specifici per la classe positiva: stiamo misurando in base al fatto che cambieranno effettivamente, quindi la nostra classe positiva è True in questo esempio:

Vero positivo (TP) - Il numero di True risultati che erano stati correttamente previsti come True
Vero negativo (TN) - Il numero di False risultati che erano stati correttamente previsti come False
Falso positivo (FP) - Il numero di False risultati che erano stati erroneamente previsti come True
Falso negativo (FN) - Il numero di True risultati che erano stati erroneamente previsti come False

Possiamo usare questo grafico a matrice per determinare non solo quanto sia accurato il nostro modello, ma quando è sbagliato, quanto spesso potrebbe essere e come è sbagliato.

Tela F1 Matrix

Le metriche avanzate sembrano buone. Possiamo fidarci del risultato del modello. Vediamo falsi positivi e falsi negativi molto bassi. Questi sono se il modello pensa che un cliente nel set di dati cambierà e in realtà non lo fa (falso positivo) o se il modello pensa che il cliente cambierà e lo fa effettivamente (falso negativo). Numeri alti per entrambi potrebbero farci pensare di più se possiamo usare il modello per prendere decisioni.

Torniamo a Panoramica scheda, per esaminare l'impatto di ciascuna colonna. Queste informazioni possono aiutare il team di marketing a ottenere approfondimenti che portano a intraprendere azioni per ridurre l'abbandono dei clienti. Ad esempio, possiamo vedere che sia basso che alto CustServ Calls aumentare la probabilità di abbandono. Il team di marketing può intraprendere azioni per prevenire l'abbandono dei clienti sulla base di questi apprendimenti. Gli esempi includono la creazione di domande frequenti dettagliate sui siti Web per ridurre le chiamate al servizio clienti e l'esecuzione di campagne di formazione con i clienti sulle domande frequenti che possono mantenere alto il coinvolgimento.

Il nostro modello sembra piuttosto accurato. Possiamo eseguire direttamente una previsione interattiva sul Prevedere scheda, in batch o in una previsione singola (in tempo reale). In questo esempio, abbiamo apportato alcune modifiche a determinati valori di colonna ed eseguito una previsione in tempo reale. Canvas ci mostra il risultato della previsione insieme al livello di confidenza.

Canvas Predict Inferenza

Supponiamo di avere un cliente esistente che ha il seguente utilizzo: Night Mins è 40 e Eve Mins è 40. Possiamo eseguire una previsione e il nostro modello restituisce un punteggio di confidenza del 93.2% che questo cliente sforzerà (True). Potremmo ora scegliere di fornire sconti promozionali per fidelizzare questo cliente.

Supponiamo di avere un cliente esistente che ha il seguente utilizzo: Night Mins è 40 e Eve Mins è 40. Possiamo eseguire una previsione e il nostro modello restituisce un punteggio di confidenza del 93.2% che questo cliente sforzerà (True). Ora potremmo scegliere di fornire sconti promozionali per mantenere questo cliente.

L'esecuzione di una previsione è ottima per l'analisi what-if individuale, ma è anche necessario eseguire previsioni su più record contemporaneamente. La tela è in grado di farlo eseguire previsioni batch, che ti consente di eseguire previsioni su larga scala.

Conclusione

In questo post, abbiamo mostrato come un analista aziendale può creare un modello di abbandono dei clienti con SageMaker Canvas utilizzando dati di esempio. Canvas consente ai tuoi analisti aziendali di creare modelli ML accurati e generare previsioni utilizzando un'interfaccia point-and-click senza codice, visiva. Un'analisi di marketing può ora utilizzare queste informazioni per eseguire campagne di fidelizzazione mirate e testare più rapidamente nuove strategie di campagna, portando a una riduzione del tasso di abbandono dei clienti.

Gli analisti possono portare questo al livello successivo condividendo i loro modelli con i colleghi data scientist. I data scientist possono visualizzare il modello Canvas in Amazon Sage Maker Studio, dove possono esplorare le scelte fatte da Canvas AutoML, convalidare i risultati del modello e persino produrre il modello con pochi clic. Ciò può accelerare la creazione di valore basata sul ML e aiutare a scalare più rapidamente i risultati migliori.

Per ulteriori informazioni sull'utilizzo di Canvas, vedere Build, Share, Deploy: in che modo analisti aziendali e data scientist ottengono un time-to-market più rapido utilizzando ML senza codice e Amazon SageMaker Canvas. Per ulteriori informazioni sulla creazione di modelli ML con una soluzione senza codice, vedere Annuncio di Amazon SageMaker Canvas: una funzionalità visiva e senza codice di machine learning per analisti aziendali.

L'autore

Enrico Robolino è un Solutions Architect presso AWS, con sede a NJ. È appassionato di cloud e machine learning e del ruolo che possono svolgere nella società. Raggiunge questo obiettivo collaborando con i clienti per aiutarli a raggiungere i loro obiettivi di business utilizzando il cloud AWS. Al di fuori del lavoro, puoi trovare Henry che viaggia o esplora la vita all'aria aperta con sua figlia di pelliccia Arly.

Prevedi l'abbandono dei clienti con il machine learning senza codice utilizzando Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Chaoran Wang è un Solution Architect presso AWS, con sede a Dallas, TX. Lavora in AWS da quando si è laureato all'Università del Texas a Dallas nel 2016 con un master in Informatica. Chaoran aiuta i clienti a creare applicazioni scalabili, sicure ed economiche e a trovare soluzioni per risolvere le loro sfide aziendali sul cloud AWS. Fuori dal lavoro, Chaoran ama passare il tempo con la sua famiglia e due cani, Biubiu e Coco.