Riadatta i parametri addestrati su set di dati di grandi dimensioni utilizzando Amazon SageMaker Data Wrangler

Ripubblicato da Platone

Seguaci: 0

Gestore di dati di Amazon SageMaker ti aiuta a comprendere, aggregare, trasformare e preparare i dati per il machine learning (ML) da un'unica interfaccia visiva. Contiene oltre 300 trasformazioni di dati integrate in modo da poter normalizzare, trasformare e combinare rapidamente le funzionalità senza dover scrivere alcun codice.

I professionisti della scienza dei dati generano, osservano ed elaborano i dati per risolvere i problemi aziendali in cui devono trasformare ed estrarre funzionalità dai set di dati. Le trasformazioni come la codifica ordinale o la codifica one-hot apprendono le codifiche nel set di dati. Questi output codificati sono indicati come parametri addestrati. Poiché i set di dati cambiano nel tempo, potrebbe essere necessario riadattare le codifiche su dati mai visti prima per mantenere il flusso di trasformazione pertinente ai tuoi dati.

Siamo lieti di annunciare la funzione di riadattamento dei parametri addestrati, che consente di utilizzare i parametri precedentemente addestrati e riadattarli come desiderato. In questo post, dimostriamo come utilizzare questa funzione.

Panoramica della funzione di ripristino di Data Wrangler

Illustriamo come funziona questa funzione con l'esempio seguente, prima di approfondire le specifiche della funzione dei parametri addestrati per il refit.

Supponiamo che il set di dati del cliente abbia una caratteristica categorica per country rappresentato come stringhe come Australia ed Singapore. Gli algoritmi ML richiedono input numerici; pertanto, questi valori categorici devono essere codificati in valori numerici. La codifica dei dati categorici è il processo di creazione di una rappresentazione numerica per le categorie. Ad esempio, se la tua categoria country ha dei valori Australia ed Singapore, puoi codificare queste informazioni in due vettori: [1, 0] da rappresentare Australia e [0, 1] per rappresentare Singapore. La trasformazione utilizzata qui è la codifica one-hot e il nuovo output codificato riflette i parametri addestrati.

Dopo aver addestrato il modello, nel tempo i tuoi clienti potrebbero aumentare e avrai valori più distinti nell'elenco dei paesi. Il nuovo set di dati potrebbe contenere un'altra categoria, India, che non faceva parte del set di dati originale, il che può influire sulla precisione del modello. Pertanto, è necessario riqualificare il proprio modello con i nuovi dati che sono stati raccolti nel tempo.

Per superare questo problema, è necessario aggiornare la codifica per includere la nuova categoria e aggiornare la rappresentazione vettoriale in base all'ultimo set di dati. Nel nostro esempio, la codifica dovrebbe riflettere la nuova categoria per il country, Che ha India. Ci riferiamo comunemente a questo processo di aggiornamento di una codifica come a un'operazione di refit. Dopo aver eseguito l'operazione di refit, ottieni la nuova codifica: Australia: [1, 0, 0], Singapore: [0, 1, 0] e India: [0, 0, 1]. Il riadattamento della codifica one-hot e quindi il riaddestramento del modello sul nuovo set di dati si traduce in previsioni di qualità migliore.

La funzione di refit dei parametri addestrati di Data Wrangler è utile nei seguenti casi:

Nuovi dati vengono aggiunti al set di dati – La riqualificazione del modello ML è necessaria quando il set di dati viene arricchito con nuovi dati. Per ottenere risultati ottimali, dobbiamo riadattare i parametri addestrati sul nuovo set di dati.
Addestramento su un set di dati completo dopo aver eseguito la progettazione delle funzionalità sui dati di esempio – Per un set di dati di grandi dimensioni, viene preso in considerazione un campione del set di dati per l'apprendimento dei parametri addestrati, che potrebbero non rappresentare l'intero set di dati. Abbiamo bisogno di imparare di nuovo i parametri addestrati sul set di dati completo.

Di seguito sono elencate alcune delle trasformazioni di Data Wrangler più comuni eseguite sul set di dati che traggono vantaggio dall'opzione del parametro addestrato refit:

Per ulteriori informazioni sulle trasformazioni in Data Wrangler, fare riferimento a Trasforma i dati.

In questo post, mostriamo come elaborare questi parametri addestrati su set di dati utilizzando Data Wrangler. Puoi utilizzare i flussi di Data Wrangler nei processi di produzione per rielaborare i tuoi dati man mano che crescono e cambiano.

Panoramica della soluzione

Per questo post, dimostriamo come utilizzare la funzione dei parametri addestrati per il refit di Data Wrangler con il set di dati pubblicamente disponibile su Kaggle: Dati sugli alloggi negli Stati Uniti da Zillow, proprietà in vendita negli Stati Uniti. Ha i prezzi di vendita delle case in varie distribuzioni geografiche delle case.

Il diagramma seguente illustra l'architettura di alto livello di Data Wrangler utilizzando la funzione di refit del parametro addestrato. Mostriamo anche l'effetto sulla qualità dei dati senza il parametro addestrato di refit e contrapponiamo i risultati alla fine.

Il flusso di lavoro include i seguenti passaggi:

Eseguire analisi esplorative dei dati – Creare un nuovo flusso su Data Wrangler per avviare l'analisi esplorativa dei dati (EDA). Importa i dati aziendali per comprendere, pulire, aggregare, trasformare e preparare i tuoi dati per l'addestramento. Fare riferimento a Esplora le funzionalità di Amazon SageMaker Data Wrangler con set di dati di esempio per maggiori dettagli sull'esecuzione di EDA con Data Wrangler.
Creare un processo di elaborazione dati – Questo passaggio esporta tutte le trasformazioni apportate al set di dati come file di flusso archiviato nel file configurato Servizio di archiviazione semplice Amazon (Amazon S3) posizione. Il processo di elaborazione dei dati con il file di flusso generato da Data Wrangler applica le trasformazioni e i parametri addestrati appresi nel set di dati. Al termine del processo di elaborazione dei dati, i file di output vengono caricati nella posizione Amazon S3 configurata nel nodo di destinazione. Si noti che l'opzione di riadattamento è disattivata per impostazione predefinita. In alternativa all'esecuzione istantanea del lavoro di elaborazione, puoi anche pianificare un lavoro di elaborazione in pochi clic utilizzando Data Wrangler – Create Job da eseguire in orari specifici.
Creare un processo di elaborazione dati con la funzione di riadattamento dei parametri addestrati – Selezionare la nuova funzione di riadattamento dei parametri addestrati durante la creazione del lavoro per imporre il riapprendimento dei parametri addestrati sul set di dati completo o rinforzato. In base alla configurazione della posizione Amazon S3 per l'archiviazione del file di flusso, il processo di elaborazione dati crea o aggiorna il nuovo file di flusso. Se configuri la stessa posizione Amazon S3 come nel passaggio 2, il processo di elaborazione dei dati aggiorna il file di flusso generato nel passaggio 2, che può essere utilizzato per mantenere il flusso pertinente ai tuoi dati. Al termine del processo di elaborazione, i file di output vengono caricati nel bucket S3 configurato per il nodo di destinazione. Puoi utilizzare il flusso aggiornato sull'intero set di dati per un flusso di lavoro di produzione.

Prerequisiti

Prima di iniziare, carica il set di dati in un bucket S3, quindi importalo in Data Wrangler. Per istruzioni, fare riferimento a Importa dati da Amazon S3.

Esaminiamo ora i passaggi menzionati nel diagramma dell'architettura.

Esegui EDA in Data Wrangler

Per provare la funzione di riadattamento dei parametri addestrati, impostare la seguente analisi e trasformazione in Data Wrangler. Al termine della configurazione di EDA, Data Wrangler crea un file di flusso acquisito con parametri addestrati dal set di dati.

Crea un nuovo flusso in Amazon SageMaker Data Wrangler per l'analisi esplorativa dei dati.
Importa i dati aziendali che hai caricato su Amazon S3.
È possibile visualizzare in anteprima i dati e le opzioni per la scelta del tipo di file, del delimitatore, del campionamento e così via. Per questo esempio, utilizziamo il Primo K opzione di campionamento fornita da Data Wrangler per importare i primi 50,000 record dal set di dati.
Scegli Importare.