Gestore di dati di Amazon SageMaker riduce il tempo necessario per aggregare e preparare i dati per il machine learning (ML) da settimane a pochi minuti Amazon Sage Maker Studio. Data Wrangler può semplificare la preparazione dei dati e i processi di progettazione delle funzionalità e aiutarti nella selezione, pulizia, esplorazione e visualizzazione dei dati. Data Wrangler dispone di oltre 300 trasformazioni integrate scritte in PySpark, quindi puoi elaborare set di dati fino a centinaia di gigabyte in modo efficiente sull'istanza predefinita, ml.m5.4xlarge.
Tuttavia, quando lavori con set di dati fino a terabyte di dati utilizzando le trasformazioni integrate, potresti riscontrare tempi di elaborazione più lunghi o potenziali errori di memoria insufficiente. In base ai tuoi requisiti di dati, ora puoi utilizzarne altri Cloud di calcolo elastico di Amazon (Amazon EC2) Istanze M5 ed Istanze R5. Ad esempio, puoi iniziare con un'istanza predefinita (ml.m5.4xlarge) e poi passare a ml.m5.24xlarge o ml.r5.24xlarge. Hai la possibilità di scegliere diversi tipi di istanze e trovare il miglior compromesso tra costi di gestione e tempi di elaborazione. La prossima volta che lavorerai sulla trasformazione delle serie temporali e utilizzerai pesanti trasformatori per bilanciare i tuoi dati, potrai dimensionare correttamente la tua istanza di Data Wrangler per eseguire questi processi più velocemente.
Quando elabori decine di gigabyte o anche più con una trasformazione Panda personalizzata, potresti riscontrare errori di memoria insufficiente. Puoi passare dall'istanza predefinita (ml.m5.4xlarge) a ml.m5.24xlarge e la trasformazione terminerà senza errori. Abbiamo confrontato approfonditamente e osservato un aumento della velocità lineare man mano che aumentavamo le dimensioni dell'istanza in un portafoglio di set di dati.
In questo post condividiamo i risultati di due test benchmark per dimostrare come è possibile elaborare set di dati sempre più ampi con Data Wrangler.
Test benchmark di Data Wrangler
Esaminiamo due test che abbiamo eseguito, query di aggregazione e codifica one-hot, con diversi tipi di istanze utilizzando trasformatori integrati PySpark e trasformazioni Pandas personalizzate. Le trasformazioni che non richiedono l'aggregazione terminano rapidamente e funzionano bene con il tipo di istanza predefinito, quindi ci siamo concentrati sulle query di aggregazione e sulle trasformazioni con aggregazione. Abbiamo archiviato il nostro set di dati di test su Servizio di archiviazione semplice Amazon (Amazon S3). La dimensione espansa di questo set di dati è di circa 100 GB con 80 milioni di righe e 300 colonne. Abbiamo utilizzato le metriche dell'interfaccia utente per cronometrare i test benchmark e misurare la latenza end-to-end rivolta ai clienti. Quando importiamo il nostro set di dati di test, abbiamo disabilitato il campionamento. Il campionamento è abilitato per impostazione predefinita e Data Wrangler elabora solo le prime 100 righe quando abilitato.x
Aumentando le dimensioni dell'istanza di Data Wrangler, abbiamo osservato un aumento più o meno lineare delle trasformazioni integrate di Data Wrangler e di Spark SQL personalizzato. I test delle query di aggregazione di Panda sono terminati solo quando abbiamo utilizzato istanze più grandi di ml.m5.16xl e Pandas aveva bisogno di 180 GB di memoria per elaborare le query di aggregazione per questo set di dati.
Nella tabella seguente sono riepilogati i risultati del test delle query di aggregazione.
Instance | CPU virtuale | Memoria (GiB) | Tempo di trasformazione Spark integrato di Data Wrangler | Il tempo dei panda (Trasformazione personalizzata) |
ml.m5.4xl | 16 | 64 | 229 secondi | Memoria insufficiente |
ml.m5.8xl | 32 | 128 | 130 secondi | Memoria insufficiente |
ml.m5.16xl | 64 | 256 | 52 secondi | 30 minuti |
La tabella seguente riassume i risultati del test di codifica one-hot.
Instance | CPU virtuale | Memoria (GiB) | Tempo di trasformazione Spark integrato di Data Wrangler | Il tempo dei panda (Trasformazione personalizzata) |
ml.m5.4xl | 16 | 64 | 228 secondi | Memoria insufficiente |
ml.m5.8xl | 32 | 128 | 130 secondi | Memoria insufficiente |
ml.m5.16xl | 64 | 256 | 52 secondi | Memoria insufficiente |
Cambia il tipo di istanza di un flusso di dati
Per cambiare il tipo di istanza del flusso, completa i seguenti passaggi:
- Nella console Amazon SageMaker Data Wrangler, vai al flusso di dati che stai attualmente utilizzando.
- Scegli il tipo di istanza sulla barra di navigazione.
- Seleziona il tipo di istanza che desideri utilizzare.
- Scegli Risparmi.
Viene visualizzato un messaggio di avanzamento.
Una volta completato il passaggio, viene visualizzato un messaggio di successo.
Data Wrangler utilizza il tipo di istanza selezionato per l'analisi e la trasformazione dei dati. L'istanza predefinita e l'istanza a cui sei passato (ml.m5.16xlarge) sono entrambe in esecuzione. È possibile modificare il tipo di istanza o tornare all'istanza predefinita prima di eseguire una trasformazione specifica.
Arresta le istanze inutilizzate
Ti vengono addebitate tutte le istanze in esecuzione. Per evitare costi aggiuntivi, spegni le istanze che non stai utilizzando manualmente. Per arrestare un'istanza in esecuzione, completare i seguenti passaggi:
- Nella pagina del flusso di dati, scegli l'icona dell'istanza nel riquadro sinistro dell'interfaccia utente sotto Esecuzione di istanze.
- Scegli fermare.
Se chiudi un'istanza utilizzata per eseguire un flusso, non puoi accedere temporaneamente al flusso. Se viene visualizzato un errore durante l'apertura del flusso eseguendo un'istanza precedentemente chiusa, attendere circa 5 minuti e riprovare ad aprirla.
Conclusione
In questo post, abbiamo dimostrato come elaborare set di dati sempre più ampi con Data Wrangler passando alle istanze di tipo M5 o R5 più grandi. Istanze M5 offrire un equilibrio tra risorse di elaborazione, memoria e rete. Istanze R5 sono istanze ottimizzate per la memoria. Sia M5 che R5 forniscono tipi di istanze per ottimizzare costi e prestazioni per i tuoi carichi di lavoro.
Per ulteriori informazioni sull'utilizzo dei flussi di dati con Data Wrangler, fare riferimento a Creare e utilizzare un flusso di Data Wrangler ed Prezzi di Amazon SageMaker. Per iniziare con Data Wrangler, vedere Prepara i dati ML con Amazon SageMaker Data Wrangler.
Informazioni sugli autori
Haider Naqvi è un Solutions Architect presso AWS. Ha una vasta esperienza nello sviluppo di software e nell'architettura aziendale. Si concentra sul consentire ai clienti di ottenere risultati di business con AWS. Ha sede a New York.
Huong Nguyen è Sr. Product Manager presso AWS. Sta guidando l'integrazione dell'ecosistema di dati per SageMaker, con 14 anni di esperienza nella creazione di prodotti incentrati sul cliente e basati sui dati per spazi aziendali e consumer.
Meenakshisundaram Tandavarayan è uno specialista senior di AI/ML con AWS. Aiuta gli account strategici hi-tech nel loro viaggio di AI e ML. È molto appassionato di IA basata sui dati.
Sriharsha M Sr è un AI/ML Specialist Solutions Architect nel team Strategic Specialist di Amazon Web Services. Lavora con clienti AWS strategici che sfruttano l'intelligenza artificiale/ML per risolvere problemi aziendali complessi. Fornisce guida tecnica e consulenza di progettazione per implementare applicazioni AI/ML su larga scala. La sua esperienza spazia dall'architettura delle applicazioni, ai big data, all'analisi e al machine learning.
Nikita Ivkin è uno scienziato applicato, Amazon SageMaker Data Wrangler.
- Coinsmart. Il miglior scambio di bitcoin e criptovalute d'Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. ACCESSO LIBERO.
- Criptofalco. Radar Altcoin. Prova gratuita.
- Fonte: https://aws.amazon.com/blogs/machine-learning/process-larger-and-wider-datasets-with-amazon-sagemaker-data-wrangler/
- "
- 100
- WRI
- accesso
- operanti in
- aggiuntivo
- Vantaggio
- consigli
- AI
- Tutti
- Amazon
- Amazon Web Services
- .
- analitica
- Applicazioni
- applicazioni
- circa
- architettura
- in giro
- AWS
- Segno di riferimento
- MIGLIORE
- Big Data
- Costruzione
- incassato
- affari
- il cambiamento
- carico
- oneri
- Scegli
- Pulizia
- complesso
- Calcolare
- consolle
- Consumer
- Attualmente
- costume
- Clienti
- dati
- analisi dei dati
- dimostrare
- dimostrato
- Design
- Mercato
- diverso
- giù
- ecosistema
- in modo efficiente
- consentendo
- Ingegneria
- Impresa
- esempio
- esperienza
- competenza
- esplorazione
- estensivo
- più veloce
- caratteristica
- ricerca
- Nome
- flusso
- concentrato
- si concentra
- i seguenti
- altezza
- Aiuto
- aiuta
- Come
- Tutorial
- HTTPS
- centinaia
- ICON
- realizzare
- importazione
- è aumentato
- integrazione
- IT
- superiore, se assunto singolarmente.
- principale
- IMPARARE
- apprendimento
- macchina
- machine learning
- direttore
- manualmente
- misurare
- Memorie
- Metrica
- milione
- ML
- Scopri di più
- Navigazione
- internazionale
- New York
- offrire
- apertura
- OTTIMIZZA
- Opzione
- appassionato
- performance
- lavori
- potenziale
- Preparare
- problemi
- processi
- i processi
- lavorazione
- Prodotto
- Prodotti
- fornire
- fornisce
- rapidamente
- richiedere
- Requisiti
- Risorse
- Risultati
- recensioni
- Correre
- running
- Scala
- Scienziato
- selezionato
- Serie
- Servizi
- Condividi
- Un'espansione
- Taglia
- So
- Software
- lo sviluppo del software
- Soluzioni
- RISOLVERE
- spazi
- specialista
- inizia a
- iniziato
- conservazione
- Strategico
- il successo
- Interruttore
- presa
- team
- Consulenza
- test
- test
- a fondo
- tempo
- Trasformare
- Trasformazione
- ui
- uso
- visualizzazione
- aspettare
- sito web
- servizi web
- OMS
- senza
- Lavora
- lavoro
- lavori
- anni