Elabora set di dati sempre più ampi con Amazon SageMaker Data Wrangler

Ripubblicato da Platone

Seguaci: 0

Gestore di dati di Amazon SageMaker riduce il tempo necessario per aggregare e preparare i dati per il machine learning (ML) da settimane a pochi minuti Amazon Sage Maker Studio. Data Wrangler può semplificare la preparazione dei dati e i processi di progettazione delle funzionalità e aiutarti nella selezione, pulizia, esplorazione e visualizzazione dei dati. Data Wrangler dispone di oltre 300 trasformazioni integrate scritte in PySpark, quindi puoi elaborare set di dati fino a centinaia di gigabyte in modo efficiente sull'istanza predefinita, ml.m5.4xlarge.

Tuttavia, quando lavori con set di dati fino a terabyte di dati utilizzando le trasformazioni integrate, potresti riscontrare tempi di elaborazione più lunghi o potenziali errori di memoria insufficiente. In base ai tuoi requisiti di dati, ora puoi utilizzarne altri Cloud di calcolo elastico di Amazon (Amazon EC2) Istanze M5 ed Istanze R5. Ad esempio, puoi iniziare con un'istanza predefinita (ml.m5.4xlarge) e poi passare a ml.m5.24xlarge o ml.r5.24xlarge. Hai la possibilità di scegliere diversi tipi di istanze e trovare il miglior compromesso tra costi di gestione e tempi di elaborazione. La prossima volta che lavorerai sulla trasformazione delle serie temporali e utilizzerai pesanti trasformatori per bilanciare i tuoi dati, potrai dimensionare correttamente la tua istanza di Data Wrangler per eseguire questi processi più velocemente.

Quando elabori decine di gigabyte o anche più con una trasformazione Panda personalizzata, potresti riscontrare errori di memoria insufficiente. Puoi passare dall'istanza predefinita (ml.m5.4xlarge) a ml.m5.24xlarge e la trasformazione terminerà senza errori. Abbiamo confrontato approfonditamente e osservato un aumento della velocità lineare man mano che aumentavamo le dimensioni dell'istanza in un portafoglio di set di dati.

In questo post condividiamo i risultati di due test benchmark per dimostrare come è possibile elaborare set di dati sempre più ampi con Data Wrangler.

Test benchmark di Data Wrangler

Esaminiamo due test che abbiamo eseguito, query di aggregazione e codifica one-hot, con diversi tipi di istanze utilizzando trasformatori integrati PySpark e trasformazioni Pandas personalizzate. Le trasformazioni che non richiedono l'aggregazione terminano rapidamente e funzionano bene con il tipo di istanza predefinito, quindi ci siamo concentrati sulle query di aggregazione e sulle trasformazioni con aggregazione. Abbiamo archiviato il nostro set di dati di test su Servizio di archiviazione semplice Amazon (Amazon S3). La dimensione espansa di questo set di dati è di circa 100 GB con 80 milioni di righe e 300 colonne. Abbiamo utilizzato le metriche dell'interfaccia utente per cronometrare i test benchmark e misurare la latenza end-to-end rivolta ai clienti. Quando importiamo il nostro set di dati di test, abbiamo disabilitato il campionamento. Il campionamento è abilitato per impostazione predefinita e Data Wrangler elabora solo le prime 100 righe quando abilitato.x

Aumentando le dimensioni dell'istanza di Data Wrangler, abbiamo osservato un aumento più o meno lineare delle trasformazioni integrate di Data Wrangler e di Spark SQL personalizzato. I test delle query di aggregazione di Panda sono terminati solo quando abbiamo utilizzato istanze più grandi di ml.m5.16xl e Pandas aveva bisogno di 180 GB di memoria per elaborare le query di aggregazione per questo set di dati.

Nella tabella seguente sono riepilogati i risultati del test delle query di aggregazione.

Instance	CPU virtuale	Memoria (GiB)	Tempo di trasformazione Spark integrato di Data Wrangler	Il tempo dei panda (Trasformazione personalizzata)
ml.m5.4xl	16	64	229 secondi	Memoria insufficiente
ml.m5.8xl	32	128	130 secondi	Memoria insufficiente
ml.m5.16xl	64	256	52 secondi	30 minuti

La tabella seguente riassume i risultati del test di codifica one-hot.

Instance	CPU virtuale	Memoria (GiB)	Tempo di trasformazione Spark integrato di Data Wrangler	Il tempo dei panda (Trasformazione personalizzata)
ml.m5.4xl	16	64	228 secondi	Memoria insufficiente
ml.m5.8xl	32	128	130 secondi	Memoria insufficiente
ml.m5.16xl	64	256	52 secondi	Memoria insufficiente

Cambia il tipo di istanza di un flusso di dati

Per cambiare il tipo di istanza del flusso, completa i seguenti passaggi:

Nella console Amazon SageMaker Data Wrangler, vai al flusso di dati che stai attualmente utilizzando.
Scegli il tipo di istanza sulla barra di navigazione.
Seleziona il tipo di istanza che desideri utilizzare.
Scegli Risparmi.

Viene visualizzato un messaggio di avanzamento.

Una volta completato il passaggio, viene visualizzato un messaggio di successo.

Data Wrangler utilizza il tipo di istanza selezionato per l'analisi e la trasformazione dei dati. L'istanza predefinita e l'istanza a cui sei passato (ml.m5.16xlarge) sono entrambe in esecuzione. È possibile modificare il tipo di istanza o tornare all'istanza predefinita prima di eseguire una trasformazione specifica.

Arresta le istanze inutilizzate

Ti vengono addebitate tutte le istanze in esecuzione. Per evitare costi aggiuntivi, spegni le istanze che non stai utilizzando manualmente. Per arrestare un'istanza in esecuzione, completare i seguenti passaggi:

Nella pagina del flusso di dati, scegli l'icona dell'istanza nel riquadro sinistro dell'interfaccia utente sotto Esecuzione di istanze.
Scegli fermare.

Se chiudi un'istanza utilizzata per eseguire un flusso, non puoi accedere temporaneamente al flusso. Se viene visualizzato un errore durante l'apertura del flusso eseguendo un'istanza precedentemente chiusa, attendere circa 5 minuti e riprovare ad aprirla.

Conclusione

In questo post, abbiamo dimostrato come elaborare set di dati sempre più ampi con Data Wrangler passando alle istanze di tipo M5 o R5 più grandi. Istanze M5 offrire un equilibrio tra risorse di elaborazione, memoria e rete. Istanze R5 sono istanze ottimizzate per la memoria. Sia M5 che R5 forniscono tipi di istanze per ottimizzare costi e prestazioni per i tuoi carichi di lavoro.

Per ulteriori informazioni sull'utilizzo dei flussi di dati con Data Wrangler, fare riferimento a Creare e utilizzare un flusso di Data Wrangler ed Prezzi di Amazon SageMaker. Per iniziare con Data Wrangler, vedere Prepara i dati ML con Amazon SageMaker Data Wrangler.

Informazioni sugli autori

Haider Naqvi è un Solutions Architect presso AWS. Ha una vasta esperienza nello sviluppo di software e nell'architettura aziendale. Si concentra sul consentire ai clienti di ottenere risultati di business con AWS. Ha sede a New York.

Huong Nguyen è Sr. Product Manager presso AWS. Sta guidando l'integrazione dell'ecosistema di dati per SageMaker, con 14 anni di esperienza nella creazione di prodotti incentrati sul cliente e basati sui dati per spazi aziendali e consumer.

Meenakshisundaram Tandavarayan è uno specialista senior di AI/ML con AWS. Aiuta gli account strategici hi-tech nel loro viaggio di AI e ML. È molto appassionato di IA basata sui dati.

Sriharsha M Sr è un AI/ML Specialist Solutions Architect nel team Strategic Specialist di Amazon Web Services. Lavora con clienti AWS strategici che sfruttano l'intelligenza artificiale/ML per risolvere problemi aziendali complessi. Fornisce guida tecnica e consulenza di progettazione per implementare applicazioni AI/ML su larga scala. La sua esperienza spazia dall'architettura delle applicazioni, ai big data, all'analisi e al machine learning.