Utilizza Amazon SageMaker Data Wrangler per la preparazione dei dati e Studio Labs per apprendere e sperimentare con il machine learning

Ripubblicato da Platone

Seguaci: 0

Laboratorio Amazon SageMaker Studio è un ambiente di sviluppo di machine learning (ML) gratuito basato su JupyterLab open source per consentire a chiunque di apprendere e sperimentare con il machine learning utilizzando le risorse di calcolo di AWS ML. Si basa sulla stessa architettura e interfaccia utente di Amazon Sage Maker Studio, ma con un sottoinsieme di funzionalità di Studio.

Quando inizi a lavorare su iniziative ML, devi eseguire l'analisi esplorativa dei dati (EDA) o la preparazione dei dati prima di procedere con la creazione del modello. Gestore di dati di Amazon SageMaker è una capacità di Amazon Sage Maker ciò rende più veloce per data scientist e ingegneri preparare i dati per le applicazioni ML tramite un'interfaccia visiva. Data Wrangler riduce il tempo necessario per aggregare e preparare i dati per ML da settimane a minuti.

Un acceleratore chiave per la preparazione delle funzionalità in Data Wrangler è il Rapporto sulla qualità dei dati e sugli approfondimenti. Questo rapporto controlla la qualità dei dati e aiuta a rilevare le anomalie nei tuoi dati, in modo che tu possa eseguire l'ingegneria dei dati richiesta per correggere il tuo set di dati. Puoi utilizzare il rapporto sulla qualità dei dati e le informazioni dettagliate per eseguire un'analisi dei dati per ottenere informazioni dettagliate sul set di dati, ad esempio il numero di valori mancanti e il numero di valori anomali. In caso di problemi con i dati, come perdita o squilibrio dell'obiettivo, il report approfondimenti può portare tali problemi alla tua attenzione e aiutarti a identificare i passaggi di preparazione dei dati che devi eseguire.

Gli utenti di Studio Lab possono trarre vantaggio da Data Wrangler perché la qualità dei dati e l'ingegneria delle funzionalità sono fondamentali per le prestazioni predittive del modello. Data Wrangler aiuta con la qualità dei dati e l'ingegneria delle funzionalità fornendo informazioni dettagliate sui problemi di qualità dei dati e consentendo facilmente l'iterazione e la progettazione delle funzionalità rapide utilizzando un'interfaccia utente a basso codice.

In questo post, ti mostriamo come eseguire analisi esplorative dei dati, preparare e trasformare i dati utilizzando Data Wrangler ed esportare i dati trasformati e preparati in Studio Lab per eseguire la costruzione del modello.

Panoramica della soluzione

La soluzione include i seguenti passaggi di alto livello:

Crea un account AWS e un utente amministratore. Questo è un prerequisito
Scarica il dataset abbandono.csv.
Carica il set di dati in Servizio di archiviazione semplice Amazon (Amazon S3).
Crea un dominio SageMaker Studio e avvia Data Wrangler.
Importa il set di dati nel flusso di Data Wrangler da Amazon S3.
Crea il rapporto sulla qualità dei dati e le informazioni dettagliate e trai conclusioni sulla progettazione delle funzionalità necessarie.
Esegui le trasformazioni dei dati necessarie in Data Wrangler.
Scarica il rapporto sulla qualità dei dati e gli approfondimenti e il set di dati trasformato.
Carica i dati in un progetto Studio Lab per l'addestramento del modello.

Il diagramma seguente illustra questo flusso di lavoro.

Prerequisiti

Per utilizzare Data Wrangler e Studio Lab, sono necessari i seguenti prerequisiti:

Crea un flusso di lavoro di preparazione dei dati con Data Wrangler

Per iniziare, completare i seguenti passi:

Carica il tuo set di dati su Amazon S3.
Sulla console SageMaker, sotto Pannello di controllo nel pannello di navigazione, scegli Studio.
Sulla Avvia l'app menu accanto al tuo profilo utente, scegli Studio.

Dopo aver eseguito correttamente l'accesso a Studio, dovresti vedere un ambiente di sviluppo come lo screenshot seguente.
Per creare un nuovo flusso di lavoro di Data Wrangler, su Compila il menù, scegliere New, Quindi scegliere Flusso di gestione dei dati.

Il primo passo in Data Wrangler è importare i tuoi dati. Puoi importare dati da più origini dati, come Amazon S3, Amazzone Atena, Amazon RedShift, Fiocco di nevee Databricks. In questo esempio, utilizziamo Amazon S3. Se vuoi solo vedere come funziona Data Wrangler, puoi sempre scegliere Usa set di dati di esempio.
Scegli Importa le date.
Scegli Amazon S3.
Scegli il set di dati che hai caricato e scegli Importare.

Data Wrangler ti consente di importare l'intero set di dati o di campionarne una parte.
Per ottenere rapidamente informazioni dettagliate sul set di dati, scegli Primo K per Campionamento e inserisci 50000 per Misura di prova.

Comprendi la qualità dei dati e ottieni informazioni dettagliate

Usiamo il rapporto sulla qualità dei dati e sugli approfondimenti per eseguire un'analisi dei dati che abbiamo importato in Data Wrangler. Puoi utilizzare il rapporto per capire quali passaggi devi eseguire per pulire ed elaborare i tuoi dati. Questo rapporto fornisce informazioni quali il numero di valori mancanti e il numero di valori anomali. In caso di problemi con i dati, come perdita o squilibrio dell'obiettivo, il rapporto approfondimenti può portare tali problemi alla tua attenzione.

Scegli il segno più accanto a Tipi di dati e scegli Ottieni informazioni dettagliate sui dati.
Nel Tipo di analisiscegli Rapporto sulla qualità dei dati e sugli approfondimenti.
Nel Colonna di destinazionescegli Zangola?.
Nel Tipo di problemaSelezionare Classificazione.
Scegli Creare.

Ti viene presentato un rapporto dettagliato che puoi rivedere e scaricare. Il report include diverse sezioni come il modello rapido, il riepilogo delle funzionalità, la correlazione delle funzionalità e le informazioni dettagliate sui dati. Le schermate seguenti forniscono esempi di queste sezioni.

Osservazioni dal rapporto

Dalla relazione possiamo trarre le seguenti osservazioni:

Non sono state trovate righe duplicate.
Il State colonna sembra essere distribuita in modo abbastanza uniforme, quindi i dati sono bilanciati in termini di popolazione statale.
Il Phone la colonna presenta troppi valori univoci per essere di qualsiasi utilità pratica. Troppi valori univoci rendono questa colonna non utile. Possiamo far cadere il Phone colonna nella nostra trasformazione.
Sulla base della sezione di correlazione delle caratteristiche del rapporto, Mins ed Charge sono altamente correlati. Possiamo rimuoverne uno.

Trasformazione

Sulla base delle nostre osservazioni, vogliamo effettuare le seguenti trasformazioni:

Rimuovi il Phone colonna perché ha molti valori univoci.
Vediamo anche diverse caratteristiche che essenzialmente hanno una correlazione del 100% tra loro. L'inclusione di queste coppie di funzionalità in alcuni algoritmi ML può creare problemi indesiderati, mentre in altri introdurrà solo ridondanza e bias minori. Rimuoviamo una caratteristica da ciascuna delle coppie altamente correlate: Day Charge dalla coppia con Day Mins, Night Charge dalla coppia con Night Minse Intl Charge dalla coppia con Intl Mins.
convertire True or False nel Churn colonna deve essere un valore numerico di 1 o 0.

Torna al flusso di dati e scegli il segno più accanto a Tipi di dati.
Scegli Aggiungi trasformazione.
Scegli Aggiungi passaggio.
Puoi cercare la trasformazione che stai cercando (nel nostro caso, gestisci le colonne).
Scegli Gestisci colonne.
Nel Trasformare¸ scegli Colonna di rilascio.
Nel Colonne da eliminare¸ scegli Phone, Day Charge, Eve Charge, Night Chargee Intl Charge.
Scegli Anteprima, Quindi scegliere Aggiornanento.

Aggiungiamo un'altra trasformazione per eseguire una codifica categoriale su Churn? colonna.
Scegli la trasformazione Codifica categoriale.
Nel Trasformarescegli Codifica ordinale.
Nel Colonne di input, scegli il Churn? colonna.
Nel Strategia di gestione non validascegli Sostituire con NaN.
Scegli Anteprima, Quindi scegliere Aggiornanento.

Adesso True ed False vengono convertiti rispettivamente in 1 e 0.

Ora che abbiamo una buona comprensione dei dati e abbiamo preparato e trasformato i dati per la creazione di modelli, possiamo spostare i dati in Studio Lab per la creazione di modelli.

Carica i dati su Studio Lab

Per iniziare a utilizzare i dati in Studio Lab, completare i seguenti passaggi:

Scegli Esporta dati a export a un secchio S3.
Nel Posizione Amazon S3, inserisci il tuo percorso S3.
Specificare il tipo di file.
Scegli Esporta dati.
Dopo aver esportato i dati, puoi scaricare i dati dal bucket S3 sul tuo computer locale.
Ora puoi andare su Studio Lab e caricare il file su Studio Lab.

In alternativa, puoi connetterti ad Amazon S3 da Studio Lab. Per ulteriori informazioni, fare riferimento a Utilizza risorse esterne in Amazon SageMaker Studio Lab.
Installiamo SageMaker e importiamo Panda.
Importa tutte le librerie come richiesto.
Ora possiamo leggere il file CSV.
Stampiamo churn per confermare che il set di dati è corretto.

Ora che hai il set di dati elaborato in Studio Lab, puoi eseguire ulteriori passaggi necessari per la creazione del modello.

Prezzi di Data Wrangler

Puoi eseguire tutti i passaggi in questo post per l'EDA o la preparazione dei dati all'interno di Data Wrangler e pagare per l'istanza semplice, i lavori e il prezzo dello storage in base all'utilizzo o al consumo. Non sono richiesti costi anticipati o di licenza.

ripulire

Quando non utilizzi Data Wrangler, è importante chiudere l'istanza su cui viene eseguito per evitare costi aggiuntivi. Per evitare di perdere il lavoro, salva il flusso di dati prima di spegnere Data Wrangler.

Per salvare il flusso di dati in Studio, scegli Compila il , Quindi scegliere Salva il flusso di Wrangler dei dati.
Data Wrangler salva automaticamente il flusso di dati ogni 60 secondi.
Per chiudere l'istanza di Data Wrangler, in Studio, scegli Esecuzione di istanze e kernel.
Sotto APP IN ESECUZIONE, scegli l'icona di spegnimento accanto a sagemaker-data-wrangler-1.0 app.
Scegli Chiudi tutto per confermare.

Data Wrangler viene eseguito su un'istanza ml.m5.4xlarge. Questa istanza scompare da ISTANZE DI CORSA quando chiudi l'app Data Wrangler.

Dopo aver chiuso l'app Data Wrangler, deve essere riavviata la prossima volta che apri un file di flusso Data Wrangler. Questo può richiedere alcuni minuti.

Conclusione

In questo post, abbiamo visto come puoi ottenere informazioni dettagliate sul tuo set di dati, eseguire analisi esplorative dei dati, preparare e trasformare i dati utilizzando Data Wrangler all'interno di Studio ed esportare i dati trasformati e preparati in Studio Lab ed eseguire la creazione di modelli e altri passaggi.

Con SageMaker Data Wrangler, puoi semplificare il processo di preparazione dei dati e ingegneria delle funzionalità e completare ogni fase del flusso di lavoro di preparazione dei dati, inclusa la selezione, la pulizia, l'esplorazione e la visualizzazione dei dati da un'unica interfaccia visiva.

Circa gli autori

Rajakumar Sampathkumar è un Principal Technical Account Manager presso AWS, che fornisce ai clienti una guida sull'allineamento della tecnologia aziendale e supporta la reinvenzione dei loro modelli e processi operativi cloud. È appassionato di cloud e machine learning. Raj è anche uno specialista dell'apprendimento automatico e collabora con i clienti AWS per progettare, distribuire e gestire i carichi di lavoro e le architetture AWS.

Meenakshisundaram Tandavarayan è uno specialista senior di AI/ML con la passione di progettare, creare e promuovere esperienze di dati e analisi incentrate sull'uomo. Supporta i clienti AWS Strategic nella loro trasformazione verso un'organizzazione basata sui dati.

Giacomo Wu è un Senior AI/ML Specialist Solution Architect presso AWS. aiutare i clienti a progettare e realizzare soluzioni AI/ML. Il lavoro di James copre un'ampia gamma di casi d'uso di ML, con un interesse primario per la visione artificiale, il deep learning e la scalabilità del ML in tutta l'azienda. Prima di entrare in AWS, James è stato architetto, sviluppatore e leader tecnologico per oltre 10 anni, di cui 6 in ingegneria e 4 anni nei settori del marketing e della pubblicità.