Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice

Ripubblicato da Platone

Seguaci: 0

Dalla crisi finanziaria globale, la gestione del rischio ha assunto un ruolo importante nel plasmare il processo decisionale per le banche, inclusa la previsione dello stato del prestito per i potenziali clienti. Questo è spesso un esercizio ad alta intensità di dati che richiede l'apprendimento automatico (ML). Tuttavia, non tutte le organizzazioni dispongono delle risorse e delle competenze di data science per creare un flusso di lavoro ML di gestione del rischio.

Amazon Sage Maker è una piattaforma ML completamente gestita che consente ai data engineer e agli analisti aziendali di creare, addestrare e distribuire modelli ML in modo rapido e semplice. I data engineer e gli analisti aziendali possono collaborare utilizzando le funzionalità no-code/low-code di SageMaker. Gli ingegneri dei dati possono usare Gestore di dati di Amazon SageMaker per aggregare e preparare rapidamente i dati per la creazione di modelli senza scrivere codice. Quindi gli analisti aziendali possono utilizzare l'interfaccia visiva point-and-click di Tela di Amazon SageMaker per generare autonomamente previsioni ML accurate.

In questo post, mostriamo quanto sia semplice per ingegneri di dati e analisti aziendali collaborare per creare un flusso di lavoro ML che comprenda la preparazione dei dati, la creazione di modelli e l'inferenza senza scrivere codice.

Panoramica della soluzione

Sebbene lo sviluppo di ML sia un processo complesso e iterativo, è possibile generalizzare un flusso di lavoro di ML nelle fasi di preparazione dei dati, sviluppo del modello e distribuzione del modello.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Data Wrangler e Canvas astraggono le complessità della preparazione dei dati e dello sviluppo del modello, così puoi concentrarti sulla fornitura di valore per la tua azienda traendo informazioni dai tuoi dati senza essere un esperto nello sviluppo di codice. Il diagramma dell'architettura seguente evidenzia i componenti in una soluzione no-code/low-code.

Servizio di archiviazione semplice Amazon (Amazon S3) funge da nostro repository di dati per dati grezzi, dati ingegnerizzati e artefatti del modello. Puoi anche scegliere di importare i dati da Amazon RedShift, Amazzone Atena, Databricks e Fiocco di neve.

In qualità di data scientist, utilizziamo quindi Data Wrangler per l'analisi esplorativa dei dati e l'ingegneria delle funzionalità. Sebbene Canvas possa eseguire attività di ingegneria delle funzionalità, l'ingegneria delle funzionalità in genere richiede alcune conoscenze statistiche e di dominio per arricchire un set di dati nella forma corretta per lo sviluppo del modello. Pertanto, diamo questa responsabilità ai data engineer in modo che possano trasformare i dati senza scrivere codice con Data Wrangler.

Dopo la preparazione dei dati, passiamo le responsabilità di creazione del modello agli analisti di dati, che possono utilizzare Canvas per addestrare un modello senza dover scrivere codice.

Infine, eseguiamo previsioni singole e in batch direttamente all'interno di Canvas dal modello risultante senza dover distribuire noi stessi gli endpoint del modello.

Panoramica del set di dati

Utilizziamo le funzionalità di SageMaker per prevedere lo stato di un prestito utilizzando una versione modificata di Lending Club's set di dati di analisi del prestito pubblicamente disponibile. Il set di dati contiene i dati sui prestiti emessi nel periodo 2007–2011. Le colonne che descrivono il prestito e il mutuatario sono le nostre caratteristiche. La colonna loan_status è la variabile target, che è ciò che stiamo cercando di prevedere.

Per dimostrare in Data Wrangler, abbiamo diviso il set di dati in due file CSV: prima parte ed seconda parte. Abbiamo rimosso alcune colonne dal set di dati originale di Lending Club per semplificare la demo. Il nostro set di dati contiene oltre 37,000 righe e 21 colonne di funzionalità, come descritto nella tabella seguente.

Nome della colonna	Descrizione
`loan_status`	Stato attuale del prestito (variabile target).
`loan_amount`	L'importo indicato del prestito richiesto dal mutuatario. Se il reparto crediti riduce l'importo del prestito, questo si riflette in questo valore.
`funded_amount_by_investors`	L'importo totale impegnato dagli investitori per quel prestito in quel momento.
`term`	Il numero di pagamenti sul prestito. I valori sono in mesi e possono essere 36 o 60.
`interest_rate`	Tasso di interesse sul prestito.
`installment`	La rata mensile dovuta dal mutuatario se il prestito ha origine.
`grade`	Grado di prestito assegnato da LC.
`sub_grade`	Sottoclasse di prestito assegnata da LC.
`employment_length`	Durata dell'occupazione in anni. I valori possibili sono compresi tra 0 e 10, dove 0 significa meno di un anno e 10 significa dieci o più anni.
`home_ownership`	Lo stato di proprietà della casa fornito dal mutuatario durante la registrazione. I nostri valori sono AFFITTO, PROPRIO, MUTUO e ALTRO.
`annual_income`	Il reddito annuo autodichiarato fornito dal mutuatario durante la registrazione.
`verification_status`	Indica se il reddito è stato verificato o meno dalla LC.
`issued_amount`	Il mese in cui è stato finanziato il prestito.
`purpose`	Una categoria fornita dal mutuatario per la richiesta di prestito.
`dti`	Un rapporto calcolato utilizzando i pagamenti mensili totali del debitore del mutuatario sul totale delle obbligazioni di debito, escluse le ipoteche e il prestito LC richiesto, diviso per il reddito mensile autodichiarato del mutuatario.
`earliest_credit_line`	Il mese in cui è stata aperta la prima linea di credito segnalata dal mutuatario.
`inquiries_last_6_months`	Il numero di richieste negli ultimi 6 mesi (escluse le richieste di auto e mutui).
`open_credit_lines`	Il numero di linee di credito aperte nel file di credito del mutuatario.
`derogatory_public_records`	Il numero di registri pubblici dispregiativi.
`revolving_line_utilization_rate`	Tasso di utilizzo della linea revolving o l'importo del credito utilizzato dal mutuatario rispetto a tutto il credito revolving disponibile.
`total_credit_lines`	Il numero totale di linee di credito attualmente presenti nel file di credito del mutuatario.

Utilizziamo questo set di dati per la nostra preparazione dei dati e il training del modello.

Prerequisiti

Completa i seguenti passaggi prerequisiti:

Carica entrambi i file di prestito a un secchio S3 a tua scelta.
Assicurati di avere le autorizzazioni necessarie. Per ulteriori informazioni, fare riferimento a Inizia con Data Wrangler.
Configura un dominio SageMaker configurato per utilizzare Data Wrangler. Per istruzioni, fare riferimento a Integrazione nel dominio Amazon SageMaker.

Importa i dati

Crea un nuovo flusso di dati di Data Wrangler dal Interfaccia utente di Amazon SageMaker Studio.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Importa i dati da Amazon S3 selezionando i file CSV dal bucket S3 in cui hai posizionato il set di dati. Dopo aver importato entrambi i file, puoi vedere due flussi di lavoro separati nel file Flusso di dati vista.

Puoi scegliere diverse opzioni di campionamento durante l'importazione dei dati in un flusso di Data Wrangler. Il campionamento può essere utile quando si dispone di un set di dati troppo grande per essere preparato in modo interattivo o quando si desidera preservare la proporzione di eventi rari nel set di dati campionato. Poiché il nostro set di dati è piccolo, non utilizziamo il campionamento.

Prepara i dati

Per il nostro caso d'uso, abbiamo due set di dati con una colonna comune: id. Come primo passo nella preparazione dei dati, vogliamo unire questi file unendoli. Per istruzioni, fare riferimento a Trasforma i dati.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Usiamo il Registrati passaggio di trasformazione dei dati e utilizzare il Interno unisciti al id colonna.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Come risultato della nostra trasformazione di join, Data Wrangler crea due colonne aggiuntive: id_0 ed id_1. Tuttavia, queste colonne non sono necessarie per i nostri scopi di costruzione del modello. Eliminiamo queste colonne ridondanti usando il Gestisci colonne passaggio di trasformazione.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Abbiamo importato i nostri set di dati, li abbiamo uniti e rimosso le colonne non necessarie. Ora siamo pronti per arricchire i nostri dati attraverso l'ingegneria delle funzionalità e prepararci per la costruzione del modello.

Eseguire l'ingegneria delle funzionalità

Abbiamo utilizzato Data Wrangler per la preparazione dei dati. Puoi anche usare il Funzionalità di rapporto sulla qualità dei dati e sugli approfondimenti all'interno di Data Wrangler per verificare la qualità dei tuoi dati e rilevare anomalie nei tuoi dati. I data scientist spesso devono utilizzare queste informazioni dettagliate sui dati per applicare in modo efficiente la giusta conoscenza del dominio alle funzionalità di progettazione. Per questo post, presumiamo di aver completato queste valutazioni della qualità e di poter passare all'ingegneria delle funzionalità.

In questo passaggio, applichiamo alcune trasformazioni alle colonne numeriche, categoriali e di testo.

Per prima cosa normalizziamo il tasso di interesse per scalare i valori tra 0–1. Lo facciamo usando il Processo numerico trasformare per ridimensionare il interest_rate colonna utilizzando uno scaler min-max. Lo scopo della normalizzazione (o standardizzazione) è eliminare i pregiudizi dal nostro modello. Le variabili misurate su scale diverse non contribuiranno allo stesso modo al processo di apprendimento del modello. Pertanto, una funzione di trasformazione come una trasformazione scaler min-max aiuta a normalizzare le funzionalità.

Per convertire una variabile categoriale in un valore numerico, utilizziamo la codifica one-hot. Scegliamo il Codifica categoriale trasforma, quindi scegli Codifica a caldo. La codifica one-hot migliora la capacità predittiva di un modello ML. Questo processo converte un valore di categoria in una nuova funzionalità assegnando un valore binario di 1 o 0 alla funzionalità. Come semplice esempio, se avevi una colonna che conteneva un valore di yes or no, la codifica one-hot converte quella colonna in due colonne: a Yes colonna e a No colonna. Un valore sì avrebbe 1 nel Yes colonna e uno 0 nella No colonna. La codifica one-hot rende i nostri dati più utili perché i valori numerici possono determinare più facilmente una probabilità per le nostre previsioni.

Infine, presentiamo il employer_title colonna per trasformare i suoi valori di stringa in un vettore numerico. Applichiamo il Conta vettorizzatore e un tokenizzatore standard all'interno di Vettorializzare trasformare. La tokenizzazione scompone una frase o una serie di testo in parole, mentre un vettorizzatore converte i dati di testo in una forma leggibile dalla macchina. Queste parole sono rappresentate come vettori.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Una volta completate tutte le fasi di progettazione delle funzionalità, possiamo esportare i dati e produrre i risultati nel nostro bucket S3. In alternativa, puoi esportare il flusso come codice Python o un notebook Jupyter per creare una pipeline con la tua vista Pipeline di Amazon SageMaker. Tienilo in considerazione quando desideri eseguire i passaggi di progettazione delle funzionalità su larga scala o come parte di una pipeline ML.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Ora possiamo utilizzare il file di output di Data Wrangler come input per Canvas. Facciamo riferimento a questo come set di dati in Canvas per costruire il nostro modello ML.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Nel nostro caso, abbiamo esportato il nostro set di dati preparato nel bucket Studio predefinito con un output prefisso. Facciamo riferimento a questa posizione del set di dati durante il caricamento successivo dei dati in Canvas per la creazione del modello.

Costruisci e addestra il tuo modello ML con Canvas

Sulla console SageMaker, avviare l'applicazione Canvas. Per costruire un modello ML dai dati preparati nella sezione precedente, eseguiamo i seguenti passaggi:

Importa il set di dati preparato in Canvas dal bucket S3.

Facciamo riferimento allo stesso percorso S3 in cui abbiamo esportato i risultati di Data Wrangler dalla sezione precedente.

Crea un nuovo modello in Canvas e assegnagli un nome loan_prediction_model.
Selezionare il dataset importato e aggiungerlo all'oggetto del modello.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Per fare in modo che Canvas crei un modello, dobbiamo selezionare la colonna di destinazione.

Poiché il nostro obiettivo è prevedere la probabilità della capacità di un prestatore di rimborsare un prestito, scegliamo il loan_status colonna.

Canvas identifica automaticamente il tipo di istruzione del problema ML. Al momento della stesura, Canvas supporta problemi di regressione, classificazione e previsione di serie temporali. Puoi specificare il tipo di problema o fare in modo che Canvas deduca automaticamente il problema dai tuoi dati.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Scegli la tua opzione per avviare il processo di costruzione del modello: Costruzione rapida or Costruzione standard.

I Costruzione rapida l'opzione usa il tuo set di dati per addestrare un modello entro 2–15 minuti. Ciò è utile quando stai sperimentando un nuovo set di dati per determinare se il set di dati di cui disponi sarà sufficiente per fare previsioni. Usiamo questa opzione per questo post.

I Costruzione standard l'opzione sceglie la precisione rispetto alla velocità e utilizza circa 250 modelli candidati per addestrare il modello. Il processo richiede solitamente 1-2 ore.

Dopo aver creato il modello, è possibile rivedere i risultati del modello. Canvas stima che il tuo modello sia in grado di prevedere il risultato corretto l'82.9% delle volte. I tuoi risultati possono variare a causa della variabilità dei modelli di allenamento.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Inoltre, puoi approfondire l'analisi dei dettagli del modello per saperne di più sul modello.

L'importanza della caratteristica rappresenta l'importanza stimata di ciascuna caratteristica nella previsione della colonna di destinazione. In questo caso, la colonna della linea di credito ha l'impatto più significativo nel prevedere se un cliente rimborserà l'importo del prestito, seguito dal tasso di interesse e dal reddito annuo.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

La matrice di confusione nel Metriche avanzate contiene informazioni per gli utenti che desiderano una comprensione più approfondita delle prestazioni del proprio modello.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Prima di poter distribuire il modello per i carichi di lavoro di produzione, utilizzare Canvas per testare il modello. Canvas gestisce l'endpoint del nostro modello e ci consente di fare previsioni direttamente nell'interfaccia utente di Canvas.

Scegli Prevedere e rivedere i risultati su entrambi Previsione in lotti or Pronostico unico scheda.

Nell'esempio seguente, eseguiamo una singola previsione modificando i valori per prevedere la nostra variabile di destinazione loan_status in tempo reale

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Possiamo anche selezionare un set di dati più ampio e fare in modo che Canvas generi previsioni batch per nostro conto.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Conclusione

L'apprendimento automatico end-to-end è complesso e iterativo e spesso coinvolge più persone, tecnologie e processi. Data Wrangler e Canvas consentono la collaborazione tra i team senza richiedere a questi team di scrivere codice.

Un ingegnere dei dati può facilmente preparare i dati utilizzando Data Wrangler senza scrivere alcun codice e passare il set di dati preparato a un analista aziendale. Un analista aziendale può quindi creare facilmente modelli ML accurati con pochi clic utilizzando Canvas e ottenere previsioni accurate in tempo reale o in batch.

Inizia con Data Wrangler utilizzando questi strumenti senza dover gestire alcuna infrastruttura. Puoi impostare la tela inizia rapidamente e immediatamente a creare modelli ML per supportare le tue esigenze aziendali.

Informazioni sugli autori

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Pietro Chung è un Solutions Architect per AWS ed è appassionato di aiutare i clienti a scoprire informazioni dettagliate dai loro dati. Ha sviluppato soluzioni per aiutare le organizzazioni a prendere decisioni basate sui dati sia nel settore pubblico che in quello privato. Possiede tutte le certificazioni AWS e due certificazioni GCP.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Meenakshisundaram Tandavarayan è uno specialista senior di AI/ML con AWS. Aiuta gli account strategici hi-tech nel loro viaggio di AI e ML. È molto appassionato di IA basata sui dati.

Crea un flusso di lavoro di machine learning per la gestione del rischio su Amazon SageMaker senza codice PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Dan Ferguson è un Solutions Architect presso AWS, con sede a New York, USA. In qualità di esperto di servizi di machine learning, Dan lavora per supportare i clienti nel loro viaggio verso l'integrazione dei flussi di lavoro ML in modo efficiente, efficace e sostenibile.