Presentazione delle nuove visualizzazioni integrate di Amazon SageMaker Data Wrangler

Ripubblicato da Platone

Seguaci: 0

L'ispezione manuale della qualità dei dati e la pulizia dei dati è un processo doloroso e dispendioso in termini di tempo che può richiedere gran parte del tempo di un data scientist su un progetto. Secondo un sondaggio del 2020 sui data scientist condotto da Anaconda, i data scientist dedicano circa il 66% del loro tempo alle attività di preparazione e analisi dei dati, tra cui il caricamento (19%), la pulizia (26%) e la visualizzazione dei dati (21%). Amazon Sage Maker offre una gamma di strumenti di preparazione dei dati per soddisfare le diverse esigenze e preferenze dei clienti. Per gli utenti che preferiscono un'interfaccia interattiva basata su GUI, Gestore di dati SageMaker offre oltre 300 visualizzazioni, analisi e trasformazioni integrate per elaborare in modo efficiente i dati supportati da Spark senza scrivere una sola riga di codice.

La visualizzazione dei dati nell'apprendimento automatico (ML) è un processo iterativo e richiede una visualizzazione continua del set di dati per la scoperta, l'indagine e la convalida. Mettere i dati in prospettiva implica vedere ciascuna delle colonne per comprendere possibili errori di dati, valori mancanti, tipi di dati errati, dati fuorvianti/errati, dati anomali e altro ancora.

In questo post, ti mostreremo come Gestore di dati di Amazon SageMaker genera automaticamente visualizzazioni chiave della distribuzione dei dati, rileva i problemi di qualità dei dati e mostra approfondimenti sui dati come i valori anomali per ogni funzionalità senza scrivere una singola riga di codice. Aiuta a migliorare l'esperienza della griglia di dati con avvisi di qualità automatici (ad esempio, valori mancanti o valori non validi). Anche le visualizzazioni generate automaticamente sono interattive. Ad esempio, puoi mostrare una tabulazione dei primi cinque elementi più frequenti ordinati per percentuale e passare il mouse sopra la barra per passare dal conteggio alla percentuale e passare dal conteggio alla percentuale.

Prerequisiti

Amazon SageMaker Data Wrangler è una funzionalità di SageMaker disponibile in SageMaker Studio. Puoi seguire il processo di onboarding di Studio per potenziare l'ambiente Studio e i notebook. Sebbene sia possibile scegliere tra alcuni metodi di autenticazione, il modo più semplice per creare un dominio di Studio è seguire il Istruzioni di avvio rapido. Il Quick start utilizza le stesse impostazioni predefinite della configurazione standard di Studio. Puoi anche scegliere di utilizzare l'onboarding Centro identità AWS Identity and Access Management (IAM). (successore di AWS Single Sign-On) per l'autenticazione (vedi Integrazione nel dominio Amazon SageMaker utilizzando IAM Identity Center).

Procedura dettagliata della soluzione

Inizia con noi Sage Maker Studio Ambiente e creare un nuovo Flusso di Data Wrangler. Puoi importare il tuo set di dati o utilizzare un set di dati di esempio (Titanic) come mostrato nell'immagine seguente. Questi due nodi (il source nodo e il dati type node) sono selezionabili – quando si fa doppio clic su questi due nodi, Data Wrangler visualizzerà la tabella.

Nel nostro caso, clicchiamo con il tasto destro sul file Tipi di dati icona e Aggiungi una trasformazione:

Ora dovresti vedere le visualizzazioni sopra ogni colonna. Si prega di attendere un po' di tempo per il caricamento dei grafici. La latenza dipende dalla dimensione del set di dati (per il set di dati Titanic, dovrebbero essere necessari 1-2 secondi nell'istanza predefinita).

Presentazione delle nuove visualizzazioni integrate PlatoBlockchain Data Intelligence di Amazon SageMaker Data Wrangler. Ricerca verticale. Ai.

Scorri fino alla barra superiore orizzontale passando il mouse sopra il suggerimento. Ora che i grafici sono stati caricati, puoi vedere la distribuzione dei dati, i valori non validi e i valori mancanti. Valori anomali e valori mancanti sono caratteristiche di dati errati ed è fondamentale identificarli perché potrebbero influire sui risultati. Ciò significa che poiché i tuoi dati provengono da un campione non rappresentativo, i tuoi risultati potrebbero non essere generalizzabili a situazioni al di fuori del tuo studio. La classificazione dei valori può essere vista sui grafici in basso dove un valido i valori sono rappresentati in bianco, invalido valori in blu, e mancante valori in viola. Puoi anche guardare il valori anomali rappresentato dai punti blu a sinistra oa destra di un grafico.

Presentazione delle nuove visualizzazioni integrate PlatoBlockchain Data Intelligence di Amazon SageMaker Data Wrangler. Ricerca verticale. Ai.

Tutte le visualizzazioni si presentano sotto forma di istogrammi. Per i dati non categorici, viene definito un set di bucket per ogni bin. Per i dati categoriali, ogni valore univoco viene trattato come bin. In cima all'istogramma, c'è un grafico a barre che mostra i valori non validi e mancanti. Possiamo visualizzare il rapporto dei valori validi per i tipi Numeric, Categorical, Binary, Text e Datetime, nonché il rapporto dei valori mancanti in base al totale delle celle null e vuote e, infine, il rapporto dei valori non validi. Diamo un'occhiata ad alcuni esempi per capire come puoi vederli usando Dataset Titanic campione precaricato di Data Wrangler.

esempio 1 – Possiamo esaminare i valori mancanti del 20% per il ETÀ funzione/colonna. È fondamentale gestire i dati mancanti nel campo della ricerca relativa ai dati/ML, rimuovendoli o imputandoli (gestendo i valori mancanti con una certa stima).

Presentazione delle nuove visualizzazioni integrate PlatoBlockchain Data Intelligence di Amazon SageMaker Data Wrangler. Ricerca verticale. Ai.
È possibile elaborare i valori mancanti utilizzando il file Gestisci i valori mancanti trasformare il gruppo. Utilizzare il Imputazione mancante transform per generare valori imputati in cui sono stati trovati valori mancanti nella colonna di input. La configurazione dipende dal tipo di dati.

In questo esempio, il ETÀ la colonna ha un tipo di dati numerico. Per imputare la strategia, possiamo scegliere di imputare the significare oppure mediana approssimativa sui valori presenti nel set di dati.

Ora che abbiamo aggiunto la trasformazione, possiamo vedere che il file ETÀ colonna non ha più valori mancanti.

esempio 2 – Possiamo esaminare il 27% di valori non validi per il BIGLIETTO caratteristica/colonna che è del STRING genere. I dati non validi possono produrre stime distorte, che possono ridurre l'accuratezza di un modello e portare a conclusioni errate. Esploriamo alcune trasformazioni che possiamo utilizzare per gestire i dati non validi nel file BIGLIETTO colonna.

Guardando lo screenshot, vediamo che alcuni degli input sono scritti in un formato che contiene alfabeti prima dei numeri”PC 17318" e altri sono solo numeri come "11769".

Possiamo scegliere di applicare una trasformazione per cercare e modificare modelli specifici all'interno di stringhe come "pc” e sostituirli. Successivamente, possiamo lanciare il nostro stringa colonna a un nuovo tipo come Lunghi per facilità d'uso.

Questo ci lascia ancora con il 19% di valori mancanti sul BIGLIETTO caratteristica. Analogamente all'esempio 1, ora possiamo imputare i valori mancanti utilizzando la media o la mediana approssimativa. La caratteristica BIGLIETTO non dovrebbe più avere valori non validi o mancanti come nell'immagine qui sotto.

Per assicurarti di non incorrere in addebiti dopo aver seguito questo tutorial, assicurati di chiudi l'app Data Wrangler.

Conclusione

In questo post, abbiamo presentato il nuovo Gestore di dati di Amazon Sagemaker widget che aiuterà a rimuovere il file sollevamento pesante indifferenziato per gli utenti finali durante la preparazione dei dati con visualizzazioni automatiche e approfondimenti sulla profilazione dei dati per ciascuna funzionalità. Questo widget semplifica la visualizzazione dei dati (ad esempio, istogramma categorico/non categorico), il rilevamento di problemi di qualità dei dati (ad esempio, valori mancanti e valori non validi) e le informazioni dettagliate sui dati (ad esempio, valori anomali e primi N elementi).

Puoi iniziare a utilizzare questa funzionalità oggi stesso in tutte le regioni in cui SageMaker Studio è disponibile. Fate una prova, e ci faccia sapere cosa pensa. Non vediamo l'ora di ricevere il tuo feedback, tramite i tuoi abituali contatti di supporto AWS o tramite il Forum AWS per SageMaker.

Informazioni sugli autori

Isha Dua è un Senior Solutions Architect con sede nella San Francisco Bay Area. Aiuta i clienti di AWS Enterprise a crescere comprendendo i loro obiettivi e le loro sfide e li guida su come progettare le loro applicazioni in modo cloud-native, assicurandosi che siano resilienti e scalabili. È appassionata di tecnologie di apprendimento automatico e sostenibilità ambientale.

Parte Patel è Solutions Architect presso AWS nella Bay Area di San Francisco. Parth guida i clienti ad accelerare il loro viaggio verso il cloud e li aiuta ad adottare con successo il cloud AWS. Si concentra sul ML e sulla modernizzazione delle applicazioni.