Rileva modelli nei dati di testo con Amazon SageMaker Data Wrangler

Ripubblicato da Platone

Seguaci: 0

In questo post, introduciamo una nuova analisi nel Rapporto sulla qualità dei dati e sugli approfondimenti of Gestore di dati di Amazon SageMaker. Questa analisi ti aiuta a convalidare la correttezza delle caratteristiche testuali e a scoprire righe non valide per riparazioni o omissioni.

Data Wrangler riduce il tempo necessario per aggregare e preparare i dati per il machine learning (ML) da settimane a minuti. Puoi semplificare il processo di preparazione dei dati e di progettazione delle funzionalità e completare ogni fase del flusso di lavoro di preparazione dei dati, inclusa la selezione, la pulizia, l'esplorazione e la visualizzazione dei dati, da un'unica interfaccia visiva.

Panoramica della soluzione

La preelaborazione dei dati spesso comporta la pulizia di dati testuali come indirizzi e-mail, numeri di telefono e nomi di prodotti. Questi dati possono avere vincoli di integrità sottostanti che possono essere descritti da espressioni regolari. Ad esempio, per essere considerato valido, un numero di telefono locale potrebbe dover seguire uno schema simile [1-9][0-9]{2}-[0-9]{4}, che corrisponderebbe a una cifra diversa da zero, seguita da altre due cifre, seguite da un trattino, seguito da altre quattro cifre.

Scenari comuni che comportano dati non validi possono includere immissione umana incoerente, ad esempio numeri di telefono in vari formati (5551234 anziché 555 1234 anziché 555-1234) o dati imprevisti, come 0, 911 o 411. Per un call center del cliente, è importante omettere numeri come 0, 911 o 411 e convalidare (e potenzialmente correggere) voci come 5551234 o 555 1234.

Purtroppo, nonostante esistano vincoli testuali, è possibile che non vengano forniti insieme ai dati. Pertanto, uno scienziato dei dati che prepara un set di dati deve scoprire manualmente i vincoli esaminando i dati. Questo può essere noioso, soggetto a errori e dispendioso in termini di tempo.

L'apprendimento dei modelli analizza automaticamente i tuoi dati ed evidenzia i vincoli testuali che potrebbero applicarsi al tuo set di dati. Per l'esempio con i numeri di telefono, l'apprendimento dei modelli può analizzare i dati e identificare che la stragrande maggioranza dei numeri di telefono segue il vincolo testuale [1-9][0-9]{2}-[0-9][4]. Può anche avvisarti che ci sono esempi di dati non validi in modo che tu possa escluderli o correggerli.

Nelle sezioni seguenti, dimostriamo come utilizzare l'apprendimento dei modelli in Data Wrangler utilizzando un set di dati fittizio di categorie di prodotto e codici SKU (unità di stoccaggio).

Questo set di dati contiene funzionalità che descrivono i prodotti per azienda, marchio e consumo energetico. In particolare, include uno SKU di funzionalità non formattato correttamente. Tutti i dati in questo set di dati sono fittizi e creati in modo casuale utilizzando marchi e nomi di elettrodomestici casuali.

Prerequisiti

Prima di iniziare a utilizzare Data Wrangler, scaricare il set di dati di esempio e caricarlo in una posizione in Servizio di archiviazione semplice Amazon (Amazon S3). Per istruzioni, fare riferimento a Caricamento di oggetti.

Importa il tuo set di dati

Per importare il set di dati, completa i seguenti passaggi:

In Data Wrangler, scegli Importa ed esplora dati per il machine learning.
Scegli Importare.
Nel Importa le datescegli Amazon S3.
Individua il file in Amazon S3 e scegli Importare.

Dopo l'importazione, possiamo navigare nel flusso di dati.

Ottieni informazioni dettagliate sui dati

In questo passaggio creiamo un report sugli approfondimenti sui dati che include informazioni sulla qualità dei dati. Per ulteriori informazioni, fare riferimento a Ottieni approfondimenti sui dati e sulla qualità dei dati. Completa i seguenti passaggi:

Sulla Flusso di dati scheda, scegli il segno più accanto a Tipi di dati.
Scegli Ottieni informazioni dettagliate sui dati.
Nel Tipo di analisiscegli Rapporto sulla qualità dei dati e sugli approfondimenti.
Per questo post, lascia Colonna di destinazione ed Tipo di problema vuoto.Se prevedi di utilizzare il set di dati per un'attività di regressione o classificazione con una funzionalità di destinazione, puoi selezionare tali opzioni e il report includerà l'analisi su come le funzionalità di input si riferiscono al tuo obiettivo. Ad esempio, può produrre report sulle perdite del target. Per ulteriori informazioni, fare riferimento a Colonna di destinazione.
Scegli Creare.

Ora disponiamo di un rapporto sulla qualità dei dati e sugli approfondimenti sui dati. Se scorriamo verso il basso fino al SKU sezione, possiamo vedere un esempio di pattern learning che descrive lo SKU. Sembra che questa funzionalità contenga alcuni dati non validi ed è necessaria una soluzione correttiva.

Prima di pulire la funzione SKU, scorriamo verso l'alto fino a Protezione del sezione per visualizzare ulteriori approfondimenti. Qui vediamo che sono stati scoperti due modelli, che indicano che la maggior parte dei nomi di marca sono parole singole costituite da caratteri verbali o caratteri alfabetici. UN carattere di parola è un carattere di sottolineatura o un carattere che può apparire in una parola in qualsiasi lingua. Ad esempio, le corde Hello_world ed écoute entrambi sono costituiti da caratteri verbali: H ed é.

Per questo post, non puliamo questa funzionalità.

Visualizza approfondimenti sull'apprendimento dei modelli

Torniamo alla pulizia degli SKU e ingrandiamo il modello e il messaggio di avviso.

Come mostrato nello screenshot seguente, l'apprendimento dei modelli fa emergere un modello ad alta precisione che corrisponde al 97.78% dei dati. Visualizza anche alcuni esempi che corrispondono al modello così come esempi che non corrispondono al modello. Nelle non corrispondenze, vediamo alcuni SKU non validi.

Oltre ai modelli visualizzati, potrebbe essere visualizzato un avviso che indica una potenziale azione per ripulire i dati se è presente un modello ad alta precisione, nonché alcuni dati non conformi al modello.

Possiamo omettere i dati non validi. Se scegliamo (clic con il tasto destro) sull'espressione regolare, possiamo copiare l'espressione [A-Z]{3}-[0-9]{4,5}.

Rimuovi i dati non validi

Creiamo una trasformazione per omettere i dati non conformi che non corrispondono a questo modello.

Sulla Flusso di dati scheda, scegli il segno più accanto a Tipi di dati.
Scegli Aggiungi trasformazione.
Scegli Aggiungi passaggio.
Cercare regex e scegli Cerca e modifica.
Nel Trasformarescegli Converti le non corrispondenze in mancanti.
Nel Colonne di inputscegli SKU.
Nel Cartamodello, inserisci la nostra espressione regolare.
Scegli Anteprima, Quindi scegliere Aggiungi.

Ora i dati estranei sono stati rimossi dalle funzionalità.
Per rimuovere le righe, aggiungi il passaggio Maniglia mancante e scegli la trasformazione Goccia mancante.
Scegli SKU come colonna di input.

Ritorniamo al nostro flusso di dati rimuovendo i dati errati.

Conclusione

In questo post ti abbiamo mostrato come utilizzare la funzionalità di apprendimento dei modelli negli approfondimenti sui dati per trovare dati testuali non validi nel tuo set di dati e come correggere o omettere tali dati.

Ora che hai ripulito una colonna testuale, puoi visualizzare il tuo set di dati utilizzando un file . oppure puoi candidarti trasformazioni integrate per elaborare ulteriormente i tuoi dati. Quando sei soddisfatto dei tuoi dati, puoi addestrare un modello con Pilota automatico Amazon SageMaker, o esporta i tuoi dati a un'origine dati come Amazon S3.

Vorremmo ringraziare Nikita Ivkin per la sua attenta recensione.

Circa gli autori

Vishaal Kapoor è un Senior Applied Scientist con AWS AI. È appassionato di aiutare i clienti a comprendere i loro dati in Data Wrangler. Nel tempo libero va in mountain bike, fa snowboard e trascorre il tempo con la sua famiglia.

Zohar Karnin è uno scienziato principale in Amazon AI. I suoi interessi di ricerca riguardano le aree degli algoritmi di machine learning online e su larga scala. Sviluppa algoritmi di machine learning infinitamente scalabili per Amazon SageMaker.

Ajai Sharma è Principal Product Manager per Amazon SageMaker, dove si concentra su Data Wrangler, uno strumento visivo di preparazione dei dati per i data scientist. Prima di AWS, Ajai è stato un esperto di scienza dei dati presso McKinsey and Company, dove ha guidato impegni incentrati sul ML per le principali società finanziarie e assicurative di tutto il mondo. Ajai è appassionato di scienza dei dati e ama esplorare gli algoritmi e le tecniche di apprendimento automatico più recenti.