Identificare ed evitare problemi comuni relativi ai dati durante la creazione di modelli ML senza codice con Amazon SageMaker Canvas

Ripubblicato da Platone

Seguaci: 0

Gli analisti aziendali lavorano con i dati e amano analizzare, esplorare e comprendere i dati per ottenere risultati aziendali efficaci. Per affrontare i problemi aziendali, spesso si affidano a professionisti dell'apprendimento automatico (ML) come data scientist per assistere con tecniche come l'utilizzo di ML per costruire modelli utilizzando dati esistenti e generare previsioni. Tuttavia, non è sempre possibile, poiché i data scientist sono in genere impegnati con i loro compiti e non hanno la larghezza di banda per aiutare gli analisti.

Per essere indipendente e raggiungere i tuoi obiettivi come analista aziendale, l'ideale sarebbe lavorare con strumenti visivi, intuitivi e facili da usare che utilizzano ML senza la necessità di conoscere i dettagli e utilizzare il codice. L'utilizzo di questi strumenti ti aiuterà a risolvere i tuoi problemi aziendali e a ottenere i risultati desiderati.

Con l'obiettivo di aiutare te e la tua organizzazione a diventare più efficaci e a utilizzare il machine learning senza scrivere codice, noi ha introdotto Amazon SageMaker Canvas. Questa è una soluzione ML senza codice che ti aiuta a creare modelli ML accurati senza la necessità di conoscere dettagli tecnici, come algoritmi ML e metriche di valutazione. SageMaker Canvas offre un'interfaccia visiva e intuitiva che ti consente di importare dati, addestrare modelli ML, eseguire analisi di modelli e generare previsioni ML, il tutto senza scrivere una sola riga di codice.

Quando utilizzi SageMaker Canvas per sperimentare, potresti riscontrare problemi di qualità dei dati come valori mancanti o tipo di problema errato. Questi problemi potrebbero non essere scoperti fino a una fase avanzata del processo dopo l'addestramento di un modello ML. Per alleviare questa sfida, SageMaker Canvas ora supporta la convalida dei dati. Questa funzione verifica in modo proattivo la presenza di problemi nei dati e fornisce indicazioni sulle risoluzioni.

In questo post, dimostreremo come utilizzare la funzionalità di convalida dei dati all'interno di SageMaker Canvas prima della creazione del modello. Come suggerisce il nome, questa funzione convalida il set di dati, segnala i problemi e fornisce indicazioni utili per risolverli. Utilizzando dati di migliore qualità, ti ritroverai con un modello ML con prestazioni migliori.

Convalida i dati in SageMaker Canvas

La convalida dei dati è una nuova funzionalità di SageMaker Canvas per verificare in modo proattivo potenziali problemi di qualità dei dati. Dopo aver importato i dati e selezionato una colonna di destinazione, ti viene data la possibilità di convalidare i dati come mostrato di seguito:

Se scegli di convalidare i tuoi dati, Canvas li analizza per numerose condizioni, tra cui:

Troppe etichette univoche nella colonna di destinazione – per il tipo di modello di previsione della categoria
Troppe etichette univoche nella colonna di destinazione rispetto al numero di righe nei dati – per il tipo di modello di previsione della categoria
Tipo di modello errato per i tuoi dati – il tipo di modello non si adatta ai dati che stai prevedendo nella colonna Target
Troppe righe non valide – valori mancanti nella colonna di destinazione
Tutte le colonne delle caratteristiche sono colonne di testo – verranno eliminati per le build standard
Troppe poche colonne - troppe poche colonne nei tuoi dati
Nessuna riga completa – tutte le righe nei tuoi dati contengono valori mancanti
Uno o più nomi di colonna contengono doppi caratteri di sottolineatura – SageMaker non è in grado di gestire (__) nell'intestazione di colonna

I dettagli per ciascun criterio di convalida verranno forniti nelle sezioni successive di questo post.

Se tutti i controlli vengono superati, riceverai la seguente conferma: "Non sono stati rilevati problemi nel tuo set di dati".

Se viene rilevato un problema, riceverai una notifica per visualizzare e comprendere. Ciò fa emergere tempestivamente i problemi di qualità dei dati e consente di risolverli immediatamente prima di sprecare ulteriormente tempo e risorse nel processo.

Puoi apportare le modifiche e continuare a convalidare il set di dati finché tutti i problemi non vengono risolti.

Convalida la colonna di destinazione e i tipi di modello

Quando crei un modello ML in SageMaker Canvas, diversi problemi di qualità dei dati relativi a colonna di destinazione potrebbe causare il fallimento della creazione del modello. SageMaker Canvas verifica la presenza di diversi tipi di problemi che potrebbero influire sul tuo colonna di destinazione.

Per la tua colonna di destinazione, controlla il file Tipo di modello errato per i tuoi dati. Ad esempio, se viene selezionato un modello di previsione a 2 categorie ma la colonna di destinazione ha più di 2 etichette univoche, SageMaker Canvas fornirà il seguente avviso di convalida.
Se il tipo di modello è una previsione di categoria 2 o 3+, è necessario eseguire la convalida troppe etichette univoche per la colonna di destinazione. Il numero massimo di classi univoche è 2000. Se selezioni una colonna con più di 2000 valori univoci nella colonna Target, Canvas fornirà il seguente avviso di convalida.
Oltre a troppe etichette di destinazione uniche, dovresti anche stare attento molte etichette di destinazione univoche per il numero di righe nei dati. SageMaker Canvas applica un rapporto tra l'etichetta di destinazione e il numero di righe totali inferiore al 10%. Questo assicura di avere una rappresentazione sufficiente per ogni categoria per un modello di alta qualità e riduce il potenziale di overfitting. Il tuo modello è considerato overfitting quando prevede bene sui dati di addestramento ma non su nuovi dati che non ha visto prima. Fare riferimento qui per saperne di più.
Infine, l'ultimo controllo per la colonna di destinazione è troppe righe non valide. Se la colonna di destinazione ha più del 10% dei dati mancanti o non validi, ciò influirà sulle prestazioni del modello e in alcuni casi causerà il fallimento della creazione del modello. L'esempio seguente presenta molti valori mancanti (>90% mancante) nella colonna di destinazione e viene visualizzato il seguente avviso di convalida.

Se ricevi uno degli avvisi di cui sopra per la tua colonna di destinazione, utilizza i seguenti passaggi per mitigare i problemi:

Stai utilizzando la colonna di destinazione corretta?
Hai selezionato il tipo di modello corretto?
Puoi aumentare il numero di righe nel tuo set di dati per etichetta di destinazione?
Potete consolidare/raggruppare etichette simili insieme?
Puoi inserire i valori mancanti/non validi?
Disponi di dati sufficienti per eliminare i valori mancanti/non validi?
Se tutte le opzioni precedenti non eliminano l'avviso, dovresti prendere in considerazione l'utilizzo di un set di dati diverso.

Fare riferimento a Documentazione sulla trasformazione dei dati di SageMaker Canvas per eseguire le fasi di imputazione sopra menzionate.

Convalida tutte le colonne

Oltre alla colonna di destinazione, potresti riscontrare problemi di qualità dei dati anche con altre colonne di dati (colonne di funzionalità). Le colonne delle caratteristiche sono dati di input usati per fare una previsione ML.

Ogni set di dati deve avere almeno 1 colonna di funzionalità e 1 colonna di destinazione (2 colonne in totale). Altrimenti, SageMaker Canvas ti darà un file Troppe poche colonne nei tuoi dati avvertimento. È necessario soddisfare questo requisito prima di poter procedere con la creazione di un modello.
Successivamente, devi assicurarti che i tuoi dati contengano almeno 1 colonna numerica. In caso contrario, otterrai il tutte le colonne delle caratteristiche sono colonne di testo avvertimento. Questo perché le colonne di testo vengono solitamente eliminate durante le compilazioni standard, lasciando così il modello senza funzionalità da addestrare. Pertanto, ciò causerà il fallimento della creazione del modello. Puoi utilizzare SageMaker Canvas per codificare alcune delle colonne di testo in numeri o utilizzare la creazione rapida anziché la creazione standard.
Il terzo tipo di avviso che potresti ricevere per le colonne delle caratteristiche è Nessuna riga completa. Questa convalida controlla se hai almeno una riga senza valori mancanti. SageMaker Canvas richiede almeno una riga completa, altrimenti la tua costruzione veloce avrà esito negativo. Prova a inserire i valori mancanti prima di costruire il modello.
L'ultimo tipo di convalida è Uno o più nomi di colonna contengono doppi caratteri di sottolineatura. Questo è un requisito specifico di SageMaker Canvas. Se hai doppi trattini bassi (__) nelle intestazioni di colonna, questo causerà il tuo costruzione veloce fallire. Rinominare le colonne per rimuovere eventuali doppi caratteri di sottolineatura e quindi riprovare.

ripulire

Per evitare di incorrere in futuro spese di sessione, esci da SageMaker Canvas.

Conclusione

SageMaker Canvas è una soluzione ML senza codice che consente agli analisti aziendali di creare modelli ML accurati e generare previsioni attraverso un'interfaccia visiva point-and-click. Ti abbiamo mostrato in che modo SageMaker Canvas ti aiuta a garantire la qualità dei dati e a mitigare i problemi dei dati convalidando in modo proattivo il set di dati. Identificando tempestivamente i problemi, SageMaker Canvas ti aiuta a creare modelli ML di qualità e a ridurre le iterazioni di costruzione senza competenze in data science e programmazione. Per saperne di più su questa nuova funzionalità, fare riferimento al Documentazione di SageMaker Canvas.

Per iniziare e saperne di più su SageMaker Canvas, fai riferimento alle seguenti risorse:

Circa gli autori

Hariharan Suresh è Senior Solutions Architect presso AWS. È appassionato di database, machine learning e progettazione di soluzioni innovative. Prima di entrare in AWS, Hariharan è stato architetto di prodotti, specialista dell'implementazione di core banking e sviluppatore e ha lavorato con organizzazioni BFSI per oltre 11 anni. Al di fuori della tecnologia, ama il parapendio e il ciclismo.

Sainath Miriyala è un Senior Technical Account Manager presso AWS che lavora per clienti automobilistici negli Stati Uniti. Sainath è appassionato di progettazione e creazione di applicazioni distribuite su larga scala utilizzando AI/ML. Nel tempo libero Sainath trascorre del tempo con la famiglia e gli amici.

Giacomo Wu è un Senior AI/ML Specialist Solution Architect presso AWS. aiutare i clienti a progettare e realizzare soluzioni AI/ML. Il lavoro di James copre un'ampia gamma di casi d'uso di ML, con un interesse primario per la visione artificiale, il deep learning e la scalabilità del ML in tutta l'azienda. Prima di entrare in AWS, James è stato architetto, sviluppatore e leader tecnologico per oltre 10 anni, di cui 6 in ingegneria e 4 anni nei settori del marketing e della pubblicità.