Preparazione dei dati economicamente vantaggiosa per il machine learning utilizzando SageMaker Data Wrangler

Ripubblicato da Platone

Seguaci: 0

Gestore di dati di Amazon SageMaker è una capacità di Amazon Sage Maker ciò rende più veloce per data scientist e ingegneri preparare funzionalità di alta qualità per applicazioni di machine learning (ML) tramite un'interfaccia visiva. Data Wrangler riduce il tempo necessario per aggregare e preparare i dati per ML da settimane a minuti. Con Data Wrangler, puoi semplificare il processo di preparazione dei dati e ingegneria delle funzionalità e completare ogni fase del flusso di lavoro di preparazione dei dati, inclusa la selezione, la pulizia, l'esplorazione e la visualizzazione dei dati da un'unica interfaccia visiva.

In questo post, ci addentriamo in diversi aspetti della preparazione dei dati e le caratteristiche associate di Data Wrangler per comprendere le componenti di costo della preparazione dei dati e come Data Wrangler offre un approccio conveniente alla preparazione dei dati. Copriamo anche le migliori pratiche di ottimizzazione dei costi per ridurre ulteriormente i costi di preparazione dei dati in Data Wrangler.

Panoramica dell'analisi esplorativa dei dati (EDA) e della preparazione dei dati in Data Wrangler

Per comprendere l'efficacia in termini di costi di Data Wrangler, è importante esaminare diversi aspetti dell'EDA e la fase di preparazione dei dati del ML. Questo blog non confronterà piattaforme o servizi diversi per EDA, ma comprenderà i diversi passaggi dell'EDA, le loro considerazioni sui costi e come Data Wrangler facilita l'EDA in modo conveniente.

La tipica esperienza EDA di un data scientist consiste nei seguenti passaggi:

Avvia un'istanza notebook Jupyter per eseguire l'EDA.
Importa i pacchetti necessari per l'analisi e la visualizzazione dei dati.
Importa i dati da più origini.
Esegui trasformazioni come la gestione dei valori mancanti e dei valori anomali, la codifica one-hot, il bilanciamento dei dati e altro per pulire i dati e renderli pronti per la modellazione.
Visualizza i dati.
Crea meccanismi per ripetere i passaggi.
Esporta i dati elaborati per analisi a valle o ML.

Questi passaggi sono complessi e richiedono flessibilità nei requisiti di calcolo e memoria in modo da poter eseguire ogni passaggio con il calcolo e la memoria appropriati. Hai anche bisogno di un sistema integrato in grado di importare dati da più origini e meccanismi da ripetere o riutilizzare in modo da poter applicare gli stessi passaggi EDA che hai già creato a set di dati più grandi, simili o diversi, come richiesto dalla pipeline ML a valle.

Considerazioni sui costi dell'EDA

Di seguito sono riportate alcune considerazioni sui costi per EDA:

Calcolare

Alcuni ambienti EDA richiedono dati in un determinato formato. In questi casi, è necessario elaborare i dati nel formato accettato dall'ambiente EDA. Ad esempio, se l'ambiente accetta solo il formato CSV ma hai dati in Parquet o un altro formato, devi convertire il tuo set di dati in formato CSV. La riformattazione dei dati richiede il calcolo.
Non tutti gli ambienti hanno la flessibilità per modificare la configurazione di calcolo o memoria con il semplice clic di un pulsante. Potrebbe essere necessario disporre della capacità di calcolo e dell'ingombro di memoria più elevati applicabili a ciascuna trasformazione che stai eseguendo.

Archiviazione e trasferimento dati

È necessario raccogliere dati da più fonti. Se solo le origini selezionate sono supportate dall'ambiente EDA, potrebbe essere necessario spostare i dati da origini diverse a quella singola origine supportata, il che aumenta i costi di archiviazione e trasferimento dei dati.

Costo del lavoro e competenza

La gestione della piattaforma EDA e dell'infrastruttura di calcolo sottostante comporta esperienza, impegno e costi. Quando gestisci l'infrastruttura, hai l'onere operativo di gestire i sistemi operativi e le applicazioni come il provisioning, l'applicazione di patch e l'aggiornamento. Assicurati di identificare rapidamente i problemi. Se non convalidi i dati prima di creare il modello, hai sprecato molte risorse e tempo di progettazione.
Si noti che l'EDA richiede competenza in data science e data experience.
Inoltre, alcuni ambienti EDA non offrono un'interfaccia point-and-click e richiedono la scrittura di codice per esplorare, visualizzare e trasformare i dati, il che comporta costi di manodopera.

Costo delle operazioni

Per spostare i dati dall'origine per eseguire trasformazioni e quindi alle pipeline ML a valle, potrebbe essere necessario eseguire nuovamente i passaggi EDA ripetitivi dall'inizio del recupero dei dati in ciascuna fase di EDA, il che richiede tempo e comporta un costo del lavoro. Se puoi utilizzare i dati trasformati del passaggio precedente, non aumenta cumulativamente il costo.
Avere un meccanismo semplice per ripetere la stessa serie di passaggi EDA su set di dati simili o incrementali consente di risparmiare tempo e denaro dal punto di vista delle persone e delle risorse di calcolo.

Vediamo come Data Wrangler facilita l'EDA o la preparazione dei dati in modo conveniente rispetto a queste diverse aree.

Calcolare

Quando esegui EDA su un notebook, potresti non avere la flessibilità di scalare il calcolo o la memoria su richiesta, il che potrebbe costringerti a eseguire il trasformazione ed visualizzazioni in un ambiente sovradimensionato. Se si dispone di un ambiente sottodimensionato, è possibile che si verifichino problemi di memoria insufficiente. In Data Wrangler, puoi scegliere un tipo di istanza più piccolo per determinate trasformazioni o analisi, quindi eseguire l'upscaling dell'istanza a un tipo più grande ed eseguire trasformazioni complesse. Al termine della trasformazione complessa, puoi ridimensionare l'istanza di Data Wrangler a un tipo di istanza più piccolo. Ciò ti offre la flessibilità di scalare il tuo calcolo in base ai requisiti di trasformazione.

Data Wrangler supporta a varietà di tipi di istanzae puoi scegliere quello giusto per il tuo carico di lavoro, eliminando così i costi di ambienti sovradimensionati o sottodimensionati.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Archiviazione e trasferimento dati

In questa sezione verranno discusse alcune considerazioni sui costi per l'archiviazione e il trasferimento dei dati.

Importare

I dati per ML sono spesso disponibili da più origini e in diversi formati. Con Data Wrangler puoi farlo importare dati dalle seguenti fonti di dati: Servizio di archiviazione semplice Amazon (Amazon S3), Amazzone Atena, Amazon RedShift, Formazione AWS Lake, Negozio di funzionalità Amazon SageMaker ed Fiocco di neve. I dati possono essere in uno dei seguenti formati: CSV, Parquet, JSON e Optimized Row Columnar (ORC) e altri formati di dati verranno aggiunti in base alla domanda del cliente. Poiché le origini dati importanti sono già supportate in Data Wrangler, i dati possono essere importati direttamente dalle rispettive origini e si paga solo per i GB al mese di archiviazione fornita. Per ulteriori informazioni, fare riferimento a Prezzi di Amazon SageMaker.

Tutta l'esplorazione iterativa dei dati, la trasformazione dei dati e la visualizzazione possono essere eseguite all'interno dello stesso Data Wrangler. Ciò elimina l'ulteriore spostamento dei dati rispetto ad altri ambienti in cui potrebbe essere necessario spostare i dati in posizioni diverse per l'importazione, la trasformazione e l'elaborazione. Dal punto di vista dei costi, ciò elimina la duplicazione dell'archiviazione dei dati e la riduzione dello spostamento dei dati.

Costo della qualità dei dati

Se non identifichi dati errati e non li correggi in anticipo, diventerà un problema costoso da risolvere in seguito. Il Rapporto sulla qualità dei dati e sugli approfondimenti ti aiuta a eliminare questo problema. Puoi utilizzare il rapporto sulla qualità dei dati e le informazioni dettagliate per eseguire un'analisi dei dati per ottenere informazioni dettagliate sul set di dati, ad esempio il numero di valori mancanti e il numero di valori anomali. In caso di problemi con i dati, come perdita o squilibrio dell'obiettivo, il rapporto approfondimenti può portare tali problemi alla tua attenzione. Non appena importi i tuoi dati, puoi eseguire un rapporto sugli approfondimenti con un clic di un pulsante. Ciò riduce lo sforzo di importazione di librerie e scrittura di codice per ottenere le informazioni necessarie sul set di dati, riducendo il costo del lavoro e l'esperienza richiesta.

Quando crei il rapporto sulla qualità dei dati e le informazioni dettagliate, Data Wrangler ti offre la possibilità di selezionare una colonna di destinazione (la colonna che stai cercando di prevedere). Quando scegli una colonna di destinazione, Data Wrangler crea automaticamente un'analisi della colonna di destinazione. Inoltre, classifica le funzionalità in base al loro potere predittivo (vedi lo screenshot seguente). Ciò contribuisce al vantaggio commerciale diretto di funzionalità di alta qualità per il processo di machine learning a valle.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Trasformazione

Se lo strumento EDA supporta solo determinate trasformazioni, potrebbe essere necessario spostare i dati in un ambiente diverso per eseguire le trasformazioni personalizzate come i lavori Spark. Supporta Data Wrangler trasformazioni personalizzate, che può essere scritto in PySpark, Pandas e SQL (vedi lo screenshot seguente per un esempio). Sono facili da usare per gli sviluppatori e sono tutti perfettamente confezionati in un unico posto, riducendo lo spostamento dei dati e risparmiando sui costi associati al trasferimento e all'archiviazione dei dati.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Potrebbe anche essere necessario eseguire operazioni matematiche sui set di dati, ad esempio prendere un valore assoluto di una colonna. Se lo strumento EDA non supporta le operazioni matematiche, potrebbe essere necessario eseguire le operazioni esternamente, il che richiede sforzi e costi aggiuntivi. Alcuni strumenti potrebbero supportare operazioni matematiche sul set di dati ma richiedono l'importazione di librerie, il che comporta uno sforzo aggiuntivo. In Data Wrangler, puoi anche usare a formula personalizzata per definire una nuova colonna utilizzando un'espressione Spark SQL per eseguire query sui dati nel frame di dati corrente senza incorrere in alcun costo aggiuntivo per trasformazioni personalizzate o query personalizzate.

Costo del lavoro e competenza

La gestione della piattaforma EDA e dell'infrastruttura di calcolo sottostante comporta esperienza, impegno e costi. Data Wrangler offre una selezione di oltre 300 trasformazioni di dati preconfigurate scritte in PySpark, in modo da poter elaborare set di dati fino a centinaia di gigabyte in modo efficiente senza doversi preoccupare di scrivere codice per trasformare i dati. È possibile utilizzare trasformazioni come convertire il tipo di colonna, una codifica a caldo, imputare i dati mancanti con media o mediana, ridimensionare le colonne e incorporamenti di dati/tempo per trasformare i dati in formati utilizzabili dai modelli senza nemmeno scrivere una singola riga di codice. Ciò riduce il tempo e lo sforzo, riducendo così il costo del lavoro.

Data Wrangler offre un'interfaccia point-and-click per visualizzare e convalidare i dati (vedi lo screenshot seguente). Non è richiesta alcuna competenza sull'ingegneria dei dati o sull'analisi perché tutta la preparazione dei dati può essere eseguita semplicemente punta e clicca.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Visualizzazione

Data Wrangler ti aiuta a comprendere i tuoi dati e identificare potenziali errori e valori estremi con una serie di robusti modelli di visualizzazione preconfigurati. Non è necessaria familiarità o dedicare tempo aggiuntivo per importare librerie o dipendenze esterne per eseguire le visualizzazioni. Sono disponibili istogrammi, grafici a dispersione, grafici a scatola e baffi, grafici a linee e grafici a barre (per alcuni esempi, vedere le schermate seguenti). Modelli come gli istogrammi semplificano la creazione e la modifica delle proprie visualizzazioni senza scrivere codice.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Convalida

Data Wrangler consente di identificare rapidamente le incoerenze nel flusso di lavoro di preparazione dei dati e di diagnosticare i problemi prima che i modelli vengano distribuiti in produzione (vedere lo screenshot seguente). È possibile identificare rapidamente se i dati preparati si tradurranno in un modello accurato in modo da poter determinare se è necessaria una progettazione aggiuntiva delle funzionalità per migliorare le prestazioni. Tutto ciò si verifica prima della fase di creazione del modello, quindi non vi è alcun costo di manodopera aggiuntivo per la creazione di un modello che non funziona come previsto (metriche di prestazioni basse) che comporterebbe ulteriori trasformazioni dopo la creazione del modello. La convalida si traduce anche nel vantaggio aziendale di funzionalità di qualità migliore.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Crea pipeline di preparazione dei dati scalabili

Quando si esegue l'EDA, è necessario creare pipeline di preparazione dei dati in grado di scalare con i set di dati (vedere lo screenshot seguente). Questo è importante per la ripetizione così come per i processi ML a valle. In genere, i clienti utilizzano Spark per la sua natura di elaborazione distribuita, scalabile e in memoria; tuttavia, ciò richiede molta esperienza su Spark. La configurazione di un ambiente Spark richiede tempo e richiede esperienza per una configurazione ottimale. Con Data Wrangler, puoi creare processi di elaborazione dati ed esportare in Amazon S3 e Amazon feature store esclusivamente tramite l'interfaccia visiva senza dover generare, eseguire o gestire notebook Jupyter, il che facilita pipeline di preparazione dei dati scalabili senza alcuna esperienza Spark. Per ulteriori informazioni, fare riferimento a Avvia processi di elaborazione con pochi clic utilizzando Amazon SageMaker Data Wrangler.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Costo delle operazioni

L'integrazione potrebbe non essere un vantaggio in termini di costi diretti; tuttavia, ci sono vantaggi indiretti in termini di costi quando si lavora in un ambiente integrato come SageMaker. Poiché Data Wrangler è integrato con i servizi AWS, puoi esportare il flusso di lavoro di preparazione dei dati in un quaderno di lavori di Data Wrangler e avviare Pilota automatico Amazon SageMaker esperimento di formazione, Pipeline di Amazon SageMaker notebook o script di codice. Puoi anche creare un processo di elaborazione di Data Wrangler con un clic senza dover configurare e gestire l'infrastruttura per eseguire passaggi ripetitivi o automazione in un flusso di lavoro ML.

Nel flusso di Data Wrangler, puoi export alcune o tutte le trasformazioni che hai apportato alle pipeline di elaborazione dei dati. Quando esporti il flusso di dati, ti vengono addebitate le risorse AWS che utilizzi. Dal punto di vista dei costi, l'esportazione della trasformazione offre la possibilità di ripetere la trasformazione su set di dati aggiuntivi senza alcuno sforzo incrementale.

Con Data Wrangler puoi farlo esporta tutte le trasformazioni apportate a un set di dati in un nodo di destinazione con pochi clic. Ciò ti consente di creare processi di elaborazione dati ed esportarli in Amazon S3 esclusivamente tramite l'interfaccia visiva senza dover generare, eseguire o gestire notebook Jupyter, migliorando così l'esperienza low-code.

Data Wrangler ti consente di esportare i passaggi di preparazione dei dati o il flusso di dati in ambienti diversi. Data Wrangler si integra perfettamente con altri servizi e funzionalità AWS, come i seguenti:

Feature Store di SageMaker – Puoi progettare le caratteristiche del tuo modello usando Data Wrangler e poi ingerire nel tuo negozio di funzionalità, che è un archivio centralizzato per le funzionalità e i relativi metadati
Pipeline SageMaker – È possibile utilizzare il flusso di dati esportato da Data Wrangler nelle pipeline SageMaker, utilizzate per creare e distribuire flussi di lavoro ML su larga scala
Amazon S3 – Puoi esportare i dati in Amazon S3 e utilizzarli per creare lavori di Data Wrangler
Python – Infine, puoi esportare tutti i passaggi del tuo flusso di dati in un file Python, che puoi integrare manualmente in qualsiasi flusso di lavoro di elaborazione dati.

Tale stretta integrazione aiuta a ridurre lo sforzo, il tempo, l'esperienza e i costi.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Best practice per l'ottimizzazione dei costi

In questa sezione, discutiamo delle migliori pratiche per ottimizzare ulteriormente i costi in Data Wrangler.

Aggiorna Data Wrangler all'ultima versione

Quando si aggiorna Data Wrangler all'ultima versione, ottieni tutte le ultime funzionalità, sicurezza e ottimizzazioni generali apportate a Data Wrangler, il che potrebbe migliorarne l'efficacia in termini di costi.

Usa i trasformatori Data Wrangler integrati

Usa i trasformatori Data Wrangler integrati su trasformazioni Panda personalizzate durante l'elaborazione di set di dati sempre più grandi.

Scegli il tipo di istanza giusto per il tuo flusso di Data Wrangler

Esistono due famiglie di tipi di istanza ml supportati per Data Wrangler: m5 e r5. Le istanze m5 sono istanze generiche che forniscono un equilibrio tra elaborazione e memoria, mentre le istanze r5 sono progettate per offrire prestazioni veloci per elaborare grandi set di dati in memoria.

Ti consigliamo di scegliere un'istanza che sia ottimizzata al meglio per i tuoi carichi di lavoro. Ad esempio, r5.8xlarge potrebbe avere un prezzo maggiore rispetto a m5.4xlarge, ma r5.8xlarge potrebbe essere meglio ottimizzato per i tuoi carichi di lavoro. Con istanze meglio ottimizzate, puoi eseguire i tuoi flussi di dati in meno tempo a costi inferiori.

Preparazione dei dati economicamente vantaggiosa per l'apprendimento automatico utilizzando SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Elabora set di dati sempre più grandi

Per set di dati superiori a decine di gigabyte, consigliamo di utilizzare trasformazioni integrate o di campionare i dati durante l'importazione per eseguire trasformazioni Panda personalizzate in modo interattivo. Nel settimana, condividiamo i nostri risultati di due test di benchmark per dimostrare come farlo.

Arresta le istanze inutilizzate

Ti vengono addebitate tutte le istanze in esecuzione. Per evitare costi aggiuntivi, spegni le istanze che non stai utilizzando manualmente. Per arrestare un'istanza in esecuzione, completare i seguenti passaggi:

Nella pagina del flusso di dati, scegli l'icona dell'istanza nel riquadro di navigazione sotto Esecuzione di istanze.
Scegli fermare.

Se chiudi un'istanza utilizzata per eseguire un flusso, non puoi accedere temporaneamente al flusso. Se viene visualizzato un errore durante l'apertura del flusso eseguendo un'istanza precedentemente chiusa, attendere circa 5 minuti e riprovare ad aprirla.

Quando non utilizzi Data Wrangler, è importante chiudere l'istanza su cui viene eseguito per evitare costi aggiuntivi. Per ulteriori informazioni, fare riferimento a Chiudi Data Wrangler.

Per informazioni sull'arresto automatico delle risorse di Data Wrangler, fare riferimento a Risparmia sui costi disattivando automaticamente le risorse inattive in Amazon SageMaker Studio.

Esportare

Quando esporti il flusso o le trasformazioni di Data Wrangler, puoi utilizzare i tag di allocazione dei costi per organizzare e gestire i costi di tali risorse. Crei questi tag per il tuo profilo utente e Data Wrangler li applica automaticamente alle risorse utilizzate per esportare il flusso di dati. Per ulteriori informazioni, vedere Utilizzo dei tag di allocazione dei costi.

Prezzi

I prezzi di Data Wrangler hanno tre componenti: istanze di Data Wrangler, lavori di Data Wrangler e storage ML. Puoi eseguire tutti i passaggi per l'EDA o la preparazione dei dati all'interno di Data Wrangler e pagare l'istanza, i lavori e i prezzi di archiviazione in base all'utilizzo o al consumo, senza costi anticipati o di licenza. Per ulteriori informazioni, fare riferimento a Prezzi su richiesta.

Conclusione

In questo post, abbiamo esaminato diversi aspetti dei costi dell'EDA e della preparazione dei dati per scoprire come Data Wrangler integrato e ricco di funzionalità riduce il tempo necessario per aggregare e preparare i dati per i casi d'uso ML da settimane a minuti, facilitando così una preparazione dei dati conveniente per ML. Abbiamo anche ispezionato i componenti dei prezzi di Data Wrangler e le best practice per l'ottimizzazione dei costi quando si utilizza Data Wrangler per i requisiti di preparazione dei dati ML.

Per ulteriori informazioni, vedere le seguenti risorse:

Informazioni sugli autori

Rajakumar Sampathkumar è un Principal Technical Account Manager presso AWS, che fornisce assistenza ai clienti sull'allineamento della tecnologia aziendale e supporta la reinvenzione dei loro modelli e processi operativi cloud. È appassionato di cloud e machine learning. Raj è anche uno specialista dell'apprendimento automatico e collabora con i clienti AWS per progettare, distribuire e gestire i carichi di lavoro e le architetture AWS.

Raul Nabera è un consulente per l'analisi dei dati in AWS Professional Services. Il suo attuale lavoro si concentra sul consentire ai clienti di creare i propri dati e carichi di lavoro di machine learning su AWS. Nel tempo libero si diverte a giocare a cricket e pallavolo.