Dalla crisi finanziaria globale, la gestione del rischio ha assunto un ruolo importante nel plasmare il processo decisionale per le banche, inclusa la previsione dello stato del prestito per i potenziali clienti. Questo è spesso un esercizio ad alta intensità di dati che richiede l'apprendimento automatico (ML). Tuttavia, non tutte le organizzazioni dispongono delle risorse e delle competenze di data science per creare un flusso di lavoro ML di gestione del rischio.
Amazon Sage Maker è una piattaforma ML completamente gestita che consente ai data engineer e agli analisti aziendali di creare, addestrare e distribuire modelli ML in modo rapido e semplice. I data engineer e gli analisti aziendali possono collaborare utilizzando le funzionalità no-code/low-code di SageMaker. Gli ingegneri dei dati possono usare Gestore di dati di Amazon SageMaker per aggregare e preparare rapidamente i dati per la creazione di modelli senza scrivere codice. Quindi gli analisti aziendali possono utilizzare l'interfaccia visiva point-and-click di Tela di Amazon SageMaker per generare autonomamente previsioni ML accurate.
In questo post, mostriamo quanto sia semplice per ingegneri di dati e analisti aziendali collaborare per creare un flusso di lavoro ML che comprenda la preparazione dei dati, la creazione di modelli e l'inferenza senza scrivere codice.
Panoramica della soluzione
Sebbene lo sviluppo di ML sia un processo complesso e iterativo, è possibile generalizzare un flusso di lavoro di ML nelle fasi di preparazione dei dati, sviluppo del modello e distribuzione del modello.
Data Wrangler e Canvas astraggono le complessità della preparazione dei dati e dello sviluppo del modello, così puoi concentrarti sulla fornitura di valore per la tua azienda traendo informazioni dai tuoi dati senza essere un esperto nello sviluppo di codice. Il diagramma dell'architettura seguente evidenzia i componenti in una soluzione no-code/low-code.
Servizio di archiviazione semplice Amazon (Amazon S3) funge da nostro repository di dati per dati grezzi, dati ingegnerizzati e artefatti del modello. Puoi anche scegliere di importare i dati da Amazon RedShift, Amazzone Atena, Databricks e Fiocco di neve.
In qualità di data scientist, utilizziamo quindi Data Wrangler per l'analisi esplorativa dei dati e l'ingegneria delle funzionalità. Sebbene Canvas possa eseguire attività di ingegneria delle funzionalità, l'ingegneria delle funzionalità in genere richiede alcune conoscenze statistiche e di dominio per arricchire un set di dati nella forma corretta per lo sviluppo del modello. Pertanto, diamo questa responsabilità ai data engineer in modo che possano trasformare i dati senza scrivere codice con Data Wrangler.
Dopo la preparazione dei dati, passiamo le responsabilità di creazione del modello agli analisti di dati, che possono utilizzare Canvas per addestrare un modello senza dover scrivere codice.
Infine, eseguiamo previsioni singole e in batch direttamente all'interno di Canvas dal modello risultante senza dover distribuire noi stessi gli endpoint del modello.
Panoramica del set di dati
Utilizziamo le funzionalità di SageMaker per prevedere lo stato di un prestito utilizzando una versione modificata di Lending Club's set di dati di analisi del prestito pubblicamente disponibile. Il set di dati contiene i dati sui prestiti emessi nel periodo 2007–2011. Le colonne che descrivono il prestito e il mutuatario sono le nostre caratteristiche. La colonna loan_status è la variabile target, che è ciò che stiamo cercando di prevedere.
Per dimostrare in Data Wrangler, abbiamo diviso il set di dati in due file CSV: prima parte ed seconda parte. Abbiamo rimosso alcune colonne dal set di dati originale di Lending Club per semplificare la demo. Il nostro set di dati contiene oltre 37,000 righe e 21 colonne di funzionalità, come descritto nella tabella seguente.
Nome della colonna | Descrizione |
loan_status |
Stato attuale del prestito (variabile target). |
loan_amount |
L'importo indicato del prestito richiesto dal mutuatario. Se il reparto crediti riduce l'importo del prestito, questo si riflette in questo valore. |
funded_amount_by_investors |
L'importo totale impegnato dagli investitori per quel prestito in quel momento. |
term |
Il numero di pagamenti sul prestito. I valori sono in mesi e possono essere 36 o 60. |
interest_rate |
Tasso di interesse sul prestito. |
installment |
La rata mensile dovuta dal mutuatario se il prestito ha origine. |
grade |
Grado di prestito assegnato da LC. |
sub_grade |
Sottoclasse di prestito assegnata da LC. |
employment_length |
Durata dell'occupazione in anni. I valori possibili sono compresi tra 0 e 10, dove 0 significa meno di un anno e 10 significa dieci o più anni. |
home_ownership |
Lo stato di proprietà della casa fornito dal mutuatario durante la registrazione. I nostri valori sono AFFITTO, PROPRIO, MUTUO e ALTRO. |
annual_income |
Il reddito annuo autodichiarato fornito dal mutuatario durante la registrazione. |
verification_status |
Indica se il reddito è stato verificato o meno dalla LC. |
issued_amount |
Il mese in cui è stato finanziato il prestito. |
purpose |
Una categoria fornita dal mutuatario per la richiesta di prestito. |
dti |
Un rapporto calcolato utilizzando i pagamenti mensili totali del debitore del mutuatario sul totale delle obbligazioni di debito, escluse le ipoteche e il prestito LC richiesto, diviso per il reddito mensile autodichiarato del mutuatario. |
earliest_credit_line |
Il mese in cui è stata aperta la prima linea di credito segnalata dal mutuatario. |
inquiries_last_6_months |
Il numero di richieste negli ultimi 6 mesi (escluse le richieste di auto e mutui). |
open_credit_lines |
Il numero di linee di credito aperte nel file di credito del mutuatario. |
derogatory_public_records |
Il numero di registri pubblici dispregiativi. |
revolving_line_utilization_rate |
Tasso di utilizzo della linea revolving o l'importo del credito utilizzato dal mutuatario rispetto a tutto il credito revolving disponibile. |
total_credit_lines |
Il numero totale di linee di credito attualmente presenti nel file di credito del mutuatario. |
Utilizziamo questo set di dati per la nostra preparazione dei dati e il training del modello.
Prerequisiti
Completa i seguenti passaggi prerequisiti:
- Carica entrambi i file di prestito a un secchio S3 a tua scelta.
- Assicurati di avere le autorizzazioni necessarie. Per ulteriori informazioni, fare riferimento a Inizia con Data Wrangler.
- Configura un dominio SageMaker configurato per utilizzare Data Wrangler. Per istruzioni, fare riferimento a Integrazione nel dominio Amazon SageMaker.
Importa i dati
Crea un nuovo flusso di dati di Data Wrangler dal Interfaccia utente di Amazon SageMaker Studio.
Importa i dati da Amazon S3 selezionando i file CSV dal bucket S3 in cui hai posizionato il set di dati. Dopo aver importato entrambi i file, puoi vedere due flussi di lavoro separati nel file Flusso di dati vista.
Puoi scegliere diverse opzioni di campionamento durante l'importazione dei dati in un flusso di Data Wrangler. Il campionamento può essere utile quando si dispone di un set di dati troppo grande per essere preparato in modo interattivo o quando si desidera preservare la proporzione di eventi rari nel set di dati campionato. Poiché il nostro set di dati è piccolo, non utilizziamo il campionamento.
Prepara i dati
Per il nostro caso d'uso, abbiamo due set di dati con una colonna comune: id
. Come primo passo nella preparazione dei dati, vogliamo unire questi file unendoli. Per istruzioni, fare riferimento a Trasforma i dati.
Usiamo il Registrati passaggio di trasformazione dei dati e utilizzare il Interno unisciti al id
colonna.
Come risultato della nostra trasformazione di join, Data Wrangler crea due colonne aggiuntive: id_0
ed id_1
. Tuttavia, queste colonne non sono necessarie per i nostri scopi di costruzione del modello. Eliminiamo queste colonne ridondanti usando il Gestisci colonne passaggio di trasformazione.
Abbiamo importato i nostri set di dati, li abbiamo uniti e rimosso le colonne non necessarie. Ora siamo pronti per arricchire i nostri dati attraverso l'ingegneria delle funzionalità e prepararci per la costruzione del modello.
Eseguire l'ingegneria delle funzionalità
Abbiamo utilizzato Data Wrangler per la preparazione dei dati. Puoi anche usare il Funzionalità di rapporto sulla qualità dei dati e sugli approfondimenti all'interno di Data Wrangler per verificare la qualità dei tuoi dati e rilevare anomalie nei tuoi dati. I data scientist spesso devono utilizzare queste informazioni dettagliate sui dati per applicare in modo efficiente la giusta conoscenza del dominio alle funzionalità di progettazione. Per questo post, presumiamo di aver completato queste valutazioni della qualità e di poter passare all'ingegneria delle funzionalità.
In questo passaggio, applichiamo alcune trasformazioni alle colonne numeriche, categoriali e di testo.
Per prima cosa normalizziamo il tasso di interesse per scalare i valori tra 0–1. Lo facciamo usando il Processo numerico trasformare per ridimensionare il interest_rate
colonna utilizzando uno scaler min-max. Lo scopo della normalizzazione (o standardizzazione) è eliminare i pregiudizi dal nostro modello. Le variabili misurate su scale diverse non contribuiranno allo stesso modo al processo di apprendimento del modello. Pertanto, una funzione di trasformazione come una trasformazione scaler min-max aiuta a normalizzare le funzionalità.
Per convertire una variabile categoriale in un valore numerico, utilizziamo la codifica one-hot. Scegliamo il Codifica categoriale trasforma, quindi scegli Codifica a caldo. La codifica one-hot migliora la capacità predittiva di un modello ML. Questo processo converte un valore di categoria in una nuova funzionalità assegnando un valore binario di 1 o 0 alla funzionalità. Come semplice esempio, se avevi una colonna che conteneva un valore di yes
or no
, la codifica one-hot converte quella colonna in due colonne: a Yes
colonna e a No
colonna. Un valore sì avrebbe 1 nel Yes
colonna e uno 0 nella No
colonna. La codifica one-hot rende i nostri dati più utili perché i valori numerici possono determinare più facilmente una probabilità per le nostre previsioni.
Infine, presentiamo il employer_title
colonna per trasformare i suoi valori di stringa in un vettore numerico. Applichiamo il Conta vettorizzatore e un tokenizzatore standard all'interno di Vettorializzare trasformare. La tokenizzazione scompone una frase o una serie di testo in parole, mentre un vettorizzatore converte i dati di testo in una forma leggibile dalla macchina. Queste parole sono rappresentate come vettori.
Una volta completate tutte le fasi di progettazione delle funzionalità, possiamo esportare i dati e produrre i risultati nel nostro bucket S3. In alternativa, puoi esportare il flusso come codice Python o un notebook Jupyter per creare una pipeline con la tua vista Pipeline di Amazon SageMaker. Tienilo in considerazione quando desideri eseguire i passaggi di progettazione delle funzionalità su larga scala o come parte di una pipeline ML.
Ora possiamo utilizzare il file di output di Data Wrangler come input per Canvas. Facciamo riferimento a questo come set di dati in Canvas per costruire il nostro modello ML.
Nel nostro caso, abbiamo esportato il nostro set di dati preparato nel bucket Studio predefinito con un output
prefisso. Facciamo riferimento a questa posizione del set di dati durante il caricamento successivo dei dati in Canvas per la creazione del modello.
Costruisci e addestra il tuo modello ML con Canvas
Sulla console SageMaker, avviare l'applicazione Canvas. Per costruire un modello ML dai dati preparati nella sezione precedente, eseguiamo i seguenti passaggi:
- Importa il set di dati preparato in Canvas dal bucket S3.
Facciamo riferimento allo stesso percorso S3 in cui abbiamo esportato i risultati di Data Wrangler dalla sezione precedente.
- Crea un nuovo modello in Canvas e assegnagli un nome
loan_prediction_model
. - Selezionare il dataset importato e aggiungerlo all'oggetto del modello.
Per fare in modo che Canvas crei un modello, dobbiamo selezionare la colonna di destinazione.
- Poiché il nostro obiettivo è prevedere la probabilità della capacità di un prestatore di rimborsare un prestito, scegliamo il
loan_status
colonna.
Canvas identifica automaticamente il tipo di istruzione del problema ML. Al momento della stesura, Canvas supporta problemi di regressione, classificazione e previsione di serie temporali. Puoi specificare il tipo di problema o fare in modo che Canvas deduca automaticamente il problema dai tuoi dati.
- Scegli la tua opzione per avviare il processo di costruzione del modello: Costruzione rapida or Costruzione standard.
I Costruzione rapida l'opzione usa il tuo set di dati per addestrare un modello entro 2–15 minuti. Ciò è utile quando stai sperimentando un nuovo set di dati per determinare se il set di dati di cui disponi sarà sufficiente per fare previsioni. Usiamo questa opzione per questo post.
I Costruzione standard l'opzione sceglie la precisione rispetto alla velocità e utilizza circa 250 modelli candidati per addestrare il modello. Il processo richiede solitamente 1-2 ore.
Dopo aver creato il modello, è possibile rivedere i risultati del modello. Canvas stima che il tuo modello sia in grado di prevedere il risultato corretto l'82.9% delle volte. I tuoi risultati possono variare a causa della variabilità dei modelli di allenamento.
Inoltre, puoi approfondire l'analisi dei dettagli del modello per saperne di più sul modello.
L'importanza della caratteristica rappresenta l'importanza stimata di ciascuna caratteristica nella previsione della colonna di destinazione. In questo caso, la colonna della linea di credito ha l'impatto più significativo nel prevedere se un cliente rimborserà l'importo del prestito, seguito dal tasso di interesse e dal reddito annuo.
La matrice di confusione nel Metriche avanzate contiene informazioni per gli utenti che desiderano una comprensione più approfondita delle prestazioni del proprio modello.
Prima di poter distribuire il modello per i carichi di lavoro di produzione, utilizzare Canvas per testare il modello. Canvas gestisce l'endpoint del nostro modello e ci consente di fare previsioni direttamente nell'interfaccia utente di Canvas.
- Scegli Prevedere e rivedere i risultati su entrambi Previsione in lotti or Pronostico unico scheda.
Nell'esempio seguente, eseguiamo una singola previsione modificando i valori per prevedere la nostra variabile di destinazione loan_status
in tempo reale
Possiamo anche selezionare un set di dati più ampio e fare in modo che Canvas generi previsioni batch per nostro conto.
Conclusione
L'apprendimento automatico end-to-end è complesso e iterativo e spesso coinvolge più persone, tecnologie e processi. Data Wrangler e Canvas consentono la collaborazione tra i team senza richiedere a questi team di scrivere codice.
Un ingegnere dei dati può facilmente preparare i dati utilizzando Data Wrangler senza scrivere alcun codice e passare il set di dati preparato a un analista aziendale. Un analista aziendale può quindi creare facilmente modelli ML accurati con pochi clic utilizzando Canvas e ottenere previsioni accurate in tempo reale o in batch.
Inizia con Data Wrangler utilizzando questi strumenti senza dover gestire alcuna infrastruttura. Puoi impostare la tela inizia rapidamente e immediatamente a creare modelli ML per supportare le tue esigenze aziendali.
Informazioni sugli autori
Pietro Chung è un Solutions Architect per AWS ed è appassionato di aiutare i clienti a scoprire informazioni dettagliate dai loro dati. Ha sviluppato soluzioni per aiutare le organizzazioni a prendere decisioni basate sui dati sia nel settore pubblico che in quello privato. Possiede tutte le certificazioni AWS e due certificazioni GCP.
Meenakshisundaram Tandavarayan è uno specialista senior di AI/ML con AWS. Aiuta gli account strategici hi-tech nel loro viaggio di AI e ML. È molto appassionato di IA basata sui dati.
Dan Ferguson è un Solutions Architect presso AWS, con sede a New York, USA. In qualità di esperto di servizi di machine learning, Dan lavora per supportare i clienti nel loro viaggio verso l'integrazione dei flussi di lavoro ML in modo efficiente, efficace e sostenibile.
- Coinsmart. Il miglior scambio di bitcoin e criptovalute d'Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. ACCESSO LIBERO.
- Criptofalco. Radar Altcoin. Prova gratuita.
- Fonte: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- Chi siamo
- ABSTRACT
- preciso
- aggiunta
- aggiuntivo
- AI
- Tutti
- Sebbene il
- Amazon
- quantità
- .
- analista
- annuale
- Applicazioni
- APPLICA
- circa
- architettura
- addetto
- auto
- disponibile
- AWS
- Banche
- essendo
- sistema
- pause
- costruire
- Costruzione
- affari
- i candidati
- tela
- funzionalità
- Categoria
- scegliere
- Scegli
- classificazione
- codice
- collaboreranno
- collaborazione
- Colonna
- impegnata
- Uncommon
- complesso
- complessità
- confusione
- consolle
- contiene
- contribuire
- creare
- crea
- Creazione
- credito
- crisi
- Attualmente
- cliente
- Clienti
- dati
- analisi dei dati
- scienza dei dati
- Debito
- decisioni
- più profondo
- consegna
- dimostrare
- schierare
- deployment
- descritta
- dettagli
- Determinare
- Mercato
- diverso
- direttamente
- dominio
- giù
- disegno
- Cadere
- durante
- facilmente
- in modo efficiente
- eliminato
- enable
- endpoint
- ingegnere
- Ingegneria
- Ingegneri
- stimato
- stime
- eventi
- esempio
- Esercitare
- esperto
- competenza
- caratteristica
- Caratteristiche
- finanziario
- crisi finanziaria
- Nome
- flusso
- Focus
- i seguenti
- modulo
- function
- finanziati
- generare
- globali
- scopo
- avendo
- altezza
- Aiuto
- aiutare
- aiuta
- detiene
- Casa
- Come
- Tuttavia
- HTTPS
- Impact
- importanza
- importazione
- Compreso
- Reddito
- informazioni
- Infrastruttura
- ingresso
- intuizioni
- interesse
- Interfaccia
- Investitori
- IT
- join
- congiunto
- viaggio
- conoscenze
- grandi
- superiore, se assunto singolarmente.
- lanciare
- IMPARARE
- apprendimento
- prestito
- linea
- elencati
- Caricamento in corso
- Prestiti e finanziamenti
- località
- macchina
- machine learning
- maggiore
- FA
- gestire
- gestito
- gestione
- Matrice
- si intende
- ML
- modello
- modelli
- Mese
- mese
- Scopri di più
- maggior parte
- cambiano
- multiplo
- necessaria
- esigenze
- New York
- taccuino
- numero
- obblighi
- aprire
- Opzione
- Opzioni
- organizzazioni
- Altro
- proprio
- proprietà
- parte
- appassionato
- Paga le
- Pagamento
- pagamenti
- performance
- piattaforma
- possibile
- potenziale
- predire
- predizione
- Previsioni
- Preparare
- precedente
- un bagno
- Problema
- problemi
- processi
- i processi
- Produzione
- la percezione
- scopo
- fini
- qualità
- Presto
- rapidamente
- Crudo
- record
- Iscrizione
- Affitta
- rapporto
- deposito
- rappresentato
- rappresenta
- richiesta
- richiede
- Risorse
- responsabilità
- responsabilità
- Risultati
- recensioni
- Rischio
- gestione del rischio
- Correre
- Scala
- Scienze
- scienziati
- Settori
- Serie
- Servizi
- alcuni
- significativa
- Un'espansione
- piccole
- So
- solido
- soluzione
- Soluzioni
- alcuni
- specialista
- velocità
- dividere
- tappe
- Standard
- inizia a
- iniziato
- dichiarazione
- statistiche
- Stato dei servizi
- conservazione
- Strategico
- studio
- supporto
- supporti
- Target
- task
- Tecnologie
- test
- perciò
- Attraverso
- tempo
- tokenizzazione
- strumenti
- Training
- Trasformare
- Trasformazione
- e una comprensione reciproca
- us
- USA
- uso
- utenti
- generalmente
- APPREZZIAMO
- verificare
- versione
- Visualizza
- Che
- OMS
- entro
- senza
- parole
- lavori
- sarebbe
- scrittura
- anno
- anni