Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati

Ripubblicato da Platone

Seguaci: 0

L'analisi esplorativa dei dati (EDA) è un'attività comune eseguita dagli analisti aziendali per scoprire modelli, comprendere le relazioni, convalidare ipotesi e identificare anomalie nei loro dati. Nell'apprendimento automatico (ML), è importante comprendere i dati e le relative relazioni prima di iniziare la creazione di modelli. I cicli di sviluppo del ML tradizionali a volte possono richiedere mesi e richiedono competenze avanzate di data science e ingegneria ML, mentre le soluzioni ML senza codice possono aiutare le aziende ad accelerare la consegna di soluzioni ML a giorni o addirittura ore.

Tela di Amazon SageMaker è uno strumento ML senza codice che aiuta gli analisti aziendali a generare previsioni ML accurate senza dover scrivere codice o senza richiedere alcuna esperienza ML. Canvas fornisce un'interfaccia visiva di facile utilizzo per caricare, ripulire e trasformare i set di dati, quindi creare modelli ML e generare previsioni accurate.

In questo post, spieghiamo come eseguire l'EDA per comprendere meglio i tuoi dati prima di creare il tuo modello ML, grazie alle visualizzazioni avanzate integrate di Canvas. Queste visualizzazioni ti aiutano ad analizzare le relazioni tra le funzionalità nei tuoi set di dati e a comprendere meglio i tuoi dati. Ciò avviene in modo intuitivo, con la possibilità di interagire con i dati e scoprire approfondimenti che potrebbero passare inosservati con query ad hoc. Possono essere creati rapidamente tramite il "Visualizzatore di dati" all'interno di Canvas prima di creare e addestrare modelli ML.

Panoramica della soluzione

Queste visualizzazioni si aggiungono alla gamma di funzionalità per la preparazione e l'esplorazione dei dati già offerte da Canvas, inclusa la possibilità di correggere i valori mancanti e sostituire i valori anomali; filtrare, unire e modificare set di dati; ed estrarre valori temporali specifici dai timestamp. Per saperne di più su come Canvas può aiutarti a ripulire, trasformare e preparare il tuo set di dati, dai un'occhiata Prepara i dati con trasformazioni avanzate.

Per il nostro caso d'uso, esaminiamo il motivo per cui i clienti abbandonano qualsiasi attività commerciale e illustriamo come EDA può aiutare dal punto di vista di un analista. Il set di dati che utilizziamo in questo post è un set di dati sintetico di un operatore di telefonia mobile di telecomunicazioni per la previsione dell'abbandono dei clienti che puoi scaricare (abbandono.csv), oppure porti il tuo set di dati con cui sperimentare. Per istruzioni sull'importazione del proprio set di dati, fare riferimento a Importazione dei dati in Amazon SageMaker Canvas.

Prerequisiti

Segui le istruzioni in Prerequisiti per la configurazione di Amazon SageMaker Canvas prima di procedere ulteriormente.

Importa il tuo set di dati su Canvas

Per importare il set di dati di esempio in Canvas, completare i seguenti passaggi:

Accedi a Canvas come utente aziendale.In primo luogo, carichiamo il set di dati menzionato in precedenza dal nostro computer locale su Canvas. Se vuoi usare altre fonti, come Amazon RedShift, fare riferimento a Connetti a un'origine dati esterna.
Scegli Importare.
Scegli Caricare, Quindi scegliere Seleziona i file dal tuo computer.
Seleziona il tuo set di dati (churn.csv) e scegli Importa le date.
Seleziona il set di dati e scegli Crea modello.
Nel Nome del modello, inserisci un nome (per questo post abbiamo dato il nome Churn forecast).
Scegli Creare.

Non appena selezioni il tuo set di dati, ti viene presentata una panoramica che delinea i tipi di dati, i valori mancanti, i valori non corrispondenti, i valori univoci e i valori medi o modali delle rispettive colonne.
Dal punto di vista EDA, puoi osservare che non ci sono valori mancanti o non corrispondenti nel set di dati. In qualità di analista aziendale, potresti voler ottenere un'idea iniziale della creazione del modello anche prima di iniziare l'esplorazione dei dati per identificare le prestazioni del modello e quali fattori contribuiscono alle prestazioni del modello. Canvas ti dà la possibilità di ottenere informazioni dettagliate dai tuoi dati prima di creare un modello visualizzando prima l'anteprima del modello.
Prima di eseguire qualsiasi esplorazione dei dati, scegli Anteprima del modello.
Seleziona la colonna da prevedere (abbandono).Canvas rileva automaticamente che si tratta di una previsione a due categorie.
Scegli Anteprima del modello. SageMaker Canvas utilizza un sottoinsieme dei tuoi dati per creare rapidamente un modello per verificare se i tuoi dati sono pronti per generare una previsione accurata. Utilizzando questo modello di esempio, è possibile comprendere l'accuratezza del modello corrente e l'impatto relativo di ciascuna colonna sulle previsioni.

Lo screenshot seguente mostra la nostra anteprima.

L'anteprima del modello indica che il modello prevede il target corretto (abbandono?) il 95.6% delle volte. Puoi anche vedere l'impatto iniziale della colonna (influenza che ogni colonna ha sulla colonna di destinazione). Eseguiamo un po' di esplorazione, visualizzazione e trasformazione dei dati, quindi procediamo alla creazione di un modello.

Esplorazione dei dati

Canvas fornisce già alcune visualizzazioni di base comuni, come la distribuzione dei dati in una vista griglia sul Costruire scheda. Questi sono ottimi per ottenere una panoramica di alto livello dei dati, capire come vengono distribuiti i dati e ottenere una panoramica riepilogativa del set di dati.

In qualità di analista aziendale, potrebbe essere necessario ottenere informazioni di alto livello su come vengono distribuiti i dati e su come la distribuzione si riflette sulla colonna di destinazione (abbandono) per comprendere facilmente la relazione tra i dati prima di creare il modello. Ora puoi scegliere Vista griglia per avere una panoramica della distribuzione dei dati.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

La schermata seguente mostra la panoramica della distribuzione del set di dati.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Possiamo fare le seguenti osservazioni:

Il telefono assume troppi valori unici per essere di qualsiasi utilità pratica. Sappiamo che il telefono è un ID cliente e non vogliamo costruire un modello che potrebbe prendere in considerazione clienti specifici, ma piuttosto imparare in un senso più generale cosa potrebbe portare all'abbandono. Puoi rimuovere questa variabile.
La maggior parte delle caratteristiche numeriche sono ben distribuite, seguendo a Gaussiana campana curva. In ML, si desidera che i dati vengano distribuiti normalmente perché qualsiasi variabile che mostra una distribuzione normale può essere prevista con maggiore precisione.

Andiamo più in profondità e diamo un'occhiata alle visualizzazioni avanzate disponibili in Canvas.

Visualizzazione dati

In qualità di analisti aziendali, vuoi vedere se esistono relazioni tra gli elementi di dati e come sono correlati all'abbandono. Con Canvas, puoi esplorare e visualizzare i tuoi dati, il che ti aiuta a ottenere informazioni dettagliate sui tuoi dati prima di creare i tuoi modelli ML. È possibile visualizzare utilizzando grafici a dispersione, grafici a barre e box plot, che possono aiutare a comprendere i dati e scoprire le relazioni tra le funzioni che potrebbero influire sulla precisione del modello.

Per iniziare a creare le tue visualizzazioni, completa i seguenti passaggi:

Sulla Costruire scheda dell'app Canvas, scegli Visualizzatore di dati.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Un acceleratore chiave della visualizzazione in Canvas è il Visualizzatore di dati. Cambiamo la dimensione del campione per avere una prospettiva migliore.

Scegli il numero di righe accanto a Esempio di visualizzazione.
Utilizzare il dispositivo di scorrimento per selezionare la dimensione del campione desiderata.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Scegli Aggiornanento per confermare la modifica alla dimensione del campione.

Potresti voler cambiare la dimensione del campione in base al tuo set di dati. In alcuni casi, potresti avere da poche centinaia a qualche migliaio di righe in cui puoi selezionare l'intero set di dati. In alcuni casi, potresti avere diverse migliaia di righe, nel qual caso puoi selezionare alcune centinaia o alcune migliaia di righe in base al tuo caso d'uso.

Un grafico a dispersione mostra la relazione tra due variabili quantitative misurate per gli stessi individui. Nel nostro caso, è importante comprendere la relazione tra i valori per verificare la correlazione.

Poiché abbiamo Chiamate, Minuti e Addebito, tracciamo la correlazione tra di loro per Giorno, Sera e Notte.

Innanzitutto, creiamo un trama a dispersione tra Day Charge e Day Mins.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Possiamo osservare che all'aumentare dei Day Mins, aumenta anche il Day Charge.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Lo stesso vale per le chiamate serali.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Anche le chiamate notturne hanno lo stesso schema.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Poiché i minuti e la carica sembrano aumentare in modo lineare, puoi osservare che hanno un'elevata correlazione tra loro. L'inclusione di queste coppie di funzionalità in alcuni algoritmi ML può richiedere spazio di archiviazione aggiuntivo e ridurre la velocità di addestramento, e la presenza di informazioni simili in più di una colonna potrebbe portare il modello a enfatizzare eccessivamente gli impatti e portare a distorsioni indesiderate nel modello. Rimuoviamo una caratteristica da ciascuna delle coppie altamente correlate: Day Charge dalla coppia con Day Mins, Night Charge dalla coppia con Night Mins e Intl Charge dalla coppia con Intl Mins.

Bilancio e variazione dei dati

Un grafico a barre è un grafico tra una variabile categoriale sull'asse x e una variabile numerica sull'asse y per esplorare la relazione tra entrambe le variabili. Creiamo un grafico a barre per vedere come vengono distribuite le chiamate nella nostra colonna target Churn for True e False. Scegliere Grafico a barre e trascina e rilascia le chiamate giornaliere e sposta sull'asse y e sull'asse x, rispettivamente.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Ora creiamo lo stesso grafico a barre per le chiamate serali rispetto al churn.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Quindi, creiamo un grafico a barre per le chiamate notturne rispetto all'abbandono.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Sembra che ci sia una differenza di comportamento tra i clienti che hanno sfornato e quelli che non lo hanno fatto.

I box plot sono utili perché mostrano differenze nel comportamento dei dati per classe (abbandono o meno). Poiché prevediamo l'abbandono (colonna target), creiamo un box plot di alcune caratteristiche rispetto alla nostra colonna target per dedurre statistiche descrittive sul set di dati come media, massima, minima, mediana e valori anomali.

Scegli Trama scatola e trascina e rilascia Day mins e Churn rispettivamente sull'asse y e sull'asse x.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Puoi anche provare lo stesso approccio per altre colonne rispetto alla nostra colonna target (churn).

Ora creiamo un box plot dei minuti giornalieri rispetto alle chiamate del servizio clienti per capire in che modo le chiamate del servizio clienti si estendono sul valore minimo giornaliero. Puoi vedere che le chiamate al servizio clienti non hanno una dipendenza o una correlazione con il valore minimo giornaliero.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Dalle nostre osservazioni, possiamo determinare che il set di dati è abbastanza equilibrato. Vogliamo che i dati siano distribuiti uniformemente tra i valori vero e falso in modo che il modello non sia distorto verso un valore.

Trasformazioni

Sulla base delle nostre osservazioni, eliminiamo la colonna Telefono perché è solo un numero di conto e le colonne Addebito giornaliero, Addebito notturno, Addebito notturno perché contengono informazioni sovrapposte come le colonne dei minimi, ma possiamo eseguire nuovamente un'anteprima per confermare.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Dopo l'analisi e la trasformazione dei dati, vediamo di nuovo in anteprima il modello.

È possibile osservare che l'accuratezza stimata dal modello è cambiata dal 95.6% al 93.6% (questo potrebbe variare), tuttavia l'impatto della colonna (importanza della funzionalità) per colonne specifiche è cambiato notevolmente, il che migliora la velocità di addestramento e l'influenza delle colonne su la previsione mentre ci spostiamo alle fasi successive della costruzione del modello. Il nostro set di dati non richiede ulteriori trasformazioni, ma se necessario potresti trarne vantaggio Trasformazioni di dati ML per pulire, trasformare e preparare i dati per la creazione di modelli.

Costruisci il modello

È ora possibile procedere alla creazione di un modello e all'analisi dei risultati. Per ulteriori informazioni, fare riferimento a Prevedi l'abbandono dei clienti con il machine learning senza codice utilizzando Amazon SageMaker Canvas.

ripulire

Per evitare di incorrere in futuro spese di sessione, disconnettersi di tela.

Utilizza Amazon SageMaker Canvas per l'analisi esplorativa dei dati PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Conclusione

In questo post, abbiamo mostrato come utilizzare le funzionalità di visualizzazione Canvas per EDA per comprendere meglio i dati prima della creazione di modelli, creare modelli ML accurati e generare previsioni utilizzando un'interfaccia point-and-click senza codice, visiva.

Informazioni sugli autori

Rajakumar Sampathkumar è un Principal Technical Account Manager presso AWS, che fornisce ai clienti una guida sull'allineamento della tecnologia aziendale e supporta la reinvenzione dei loro modelli e processi operativi cloud. È appassionato di cloud e machine learning. Raj è anche uno specialista dell'apprendimento automatico e collabora con i clienti AWS per progettare, distribuire e gestire i carichi di lavoro e le architetture AWS.

Raul Nabera è un consulente per l'analisi dei dati in AWS Professional Services. Il suo attuale lavoro si concentra sul consentire ai clienti di creare i propri dati e carichi di lavoro di machine learning su AWS. Nel tempo libero si diverte a giocare a cricket e pallavolo.

Raviteja Yelamanchili è un Enterprise Solutions Architect con Amazon Web Services con sede a New York. Lavora con grandi clienti aziendali di servizi finanziari per progettare e distribuire applicazioni altamente sicure, scalabili, affidabili e convenienti sul cloud. Vanta oltre 11 anni di esperienza nella gestione del rischio, nella consulenza tecnologica, nell'analisi dei dati e nell'apprendimento automatico. Quando non aiuta i clienti, gli piace viaggiare e giocare a PS5.