De la criza financiară globală, managementul riscului a jucat un rol major în modelarea procesului decizional pentru bănci, inclusiv în prezicerea stării împrumutului pentru potențialii clienți. Acesta este adesea un exercițiu intensiv de date care necesită învățarea automată (ML). Cu toate acestea, nu toate organizațiile au resursele și expertiza în știința datelor pentru a construi un flux de lucru ML de management al riscului.
Amazon SageMaker este o platformă ML gestionată complet care permite inginerilor de date și analiștilor de afaceri să construiască, să antreneze și să implementeze rapid și ușor modele ML. Inginerii de date și analiștii de afaceri pot colabora folosind capabilitățile fără cod/low-code ale SageMaker. Inginerii de date pot folosi Amazon SageMaker Data Wrangler pentru a agrega și pregăti rapid datele pentru construirea modelului fără a scrie cod. Apoi analiștii de afaceri pot folosi interfața vizuală point-and-click a Amazon SageMaker Canvas pentru a genera singure predicții ML precise.
În această postare, arătăm cât de simplu este pentru inginerii de date și analiștii de afaceri să colaboreze pentru a construi un flux de lucru ML care implică pregătirea datelor, construirea modelelor și inferența fără a scrie cod.
Prezentare generală a soluțiilor
Deși dezvoltarea ML este un proces complex și iterativ, puteți generaliza un flux de lucru ML în etapele de pregătire a datelor, dezvoltarea modelului și implementarea modelului.
Data Wrangler și Canvas retrag complexitățile pregătirii datelor și dezvoltării modelelor, astfel încât să vă puteți concentra pe oferirea de valoare afacerii dvs. prin extragerea de informații din datele dvs. fără a fi un expert în dezvoltarea de coduri. Următoarea diagramă de arhitectură evidențiază componentele dintr-o soluție fără cod/low-code.
Serviciul Amazon de stocare simplă (Amazon S3) acționează ca depozitul nostru de date pentru date brute, date proiectate și artefacte de model. De asemenea, puteți alege să importați date din Amazon RedShift, Amazon Atena, Databricks și Snowflake.
Ca oameni de știință ai datelor, folosim apoi Data Wrangler pentru analiza exploratorie a datelor și ingineria caracteristicilor. Deși Canvas poate rula sarcini de inginerie de caracteristici, ingineria de caracteristici necesită de obicei anumite cunoștințe statistice și de domeniu pentru a îmbogăți un set de date în forma potrivită pentru dezvoltarea modelului. Prin urmare, dăm această responsabilitate inginerilor de date, astfel încât să poată transforma datele fără a scrie cod cu Data Wrangler.
După pregătirea datelor, transmitem responsabilitățile de construire a modelelor analiștilor de date, care pot folosi Canvas pentru a antrena un model fără a fi nevoie să scrie niciun cod.
În cele din urmă, facem predicții unice și în lot direct în Canvas din modelul rezultat, fără a fi nevoie să implementăm noi înșine punctele finale ale modelului.
Prezentare generală a setului de date
Folosim funcțiile SageMaker pentru a prezice starea unui împrumut folosind o versiune modificată a Lending Club's set de date de analiză a împrumuturilor disponibile public. Setul de date conține date despre împrumuturi pentru împrumuturile acordate în perioada 2007–2011. Coloanele care descriu împrumutul și împrumutatul sunt caracteristicile noastre. Coloana loan_status este variabila țintă, ceea ce încercăm să prevedem.
Pentru a demonstra în Data Wrangler, împărțim setul de date în două fișiere CSV: prima parte și Partea a doua. Am eliminat câteva coloane din setul de date original al Lending Club pentru a simplifica demonstrația. Setul nostru de date conține peste 37,000 de rânduri și 21 de coloane de caracteristici, așa cum este descris în tabelul următor.
Numele coloanei | Descriere |
loan_status |
Starea actuală a împrumutului (variabila țintă). |
loan_amount |
Suma indicată a împrumutului solicitat de către împrumutat. Dacă departamentul de credit reduce suma împrumutului, aceasta se reflectă în această valoare. |
funded_amount_by_investors |
Suma totală angajată de investitori pentru acel împrumut la acel moment. |
term |
Numărul de plăți la împrumut. Valorile sunt exprimate în luni și pot fi fie 36, fie 60. |
interest_rate |
Rata dobânzii la împrumut. |
installment |
Plata lunară datorată de împrumutat dacă împrumutul provine. |
grade |
LC a atribuit gradul de împrumut. |
sub_grade |
LC a atribuit subclasamentul împrumutului. |
employment_length |
Durata angajării în ani. Valorile posibile sunt între 0-10, unde 0 înseamnă mai puțin de un an și 10 înseamnă zece sau mai mulți ani. |
home_ownership |
Statutul de proprietate a locuinței furnizat de împrumutat în timpul înregistrării. Valorile noastre sunt ÎNCHIRIAT, PROPRIU, IPOTECĂ și ALTELE. |
annual_income |
Venitul anual auto-declarat furnizat de împrumutat în timpul înregistrării. |
verification_status |
Indică dacă venitul a fost verificat sau nu de către LC. |
issued_amount |
Luna în care a fost finanțat împrumutul. |
purpose |
O categorie furnizată de împrumutat pentru cererea de împrumut. |
dti |
Un raport calculat utilizând plățile lunare totale ale datoriei împrumutatului asupra totalului obligațiilor de datorie, excluzând ipoteca și împrumutul LC solicitat, împărțit la venitul lunar auto-raportat al împrumutatului. |
earliest_credit_line |
Luna în care a fost deschisă cea mai devreme linie de credit raportată a împrumutatului. |
inquiries_last_6_months |
Numărul de solicitări din ultimele 6 luni (excluzând cererile auto și ipotecare). |
open_credit_lines |
Numărul de linii de credit deschise din dosarul de credit al împrumutatului. |
derogatory_public_records |
Numărul de înregistrări publice derogatorii. |
revolving_line_utilization_rate |
Rata de utilizare a liniei revolving sau valoarea creditului pe care o folosește debitorul în raport cu toate creditele revolving disponibile. |
total_credit_lines |
Numărul total de linii de credit aflate în prezent în dosarul de credit al împrumutatului. |
Folosim acest set de date pentru pregătirea datelor și formarea modelului.
Cerințe preliminare
Parcurgeți următorii pași prealabil:
- Încărcați ambele fișiere de împrumut la o găleată S3 la alegere.
- Asigurați-vă că aveți permisiunile necesare. Pentru mai multe informații, consultați Începeți cu Data Wrangler.
- Configurați un domeniu SageMaker configurat să utilizeze Data Wrangler. Pentru instrucțiuni, consultați Integrat la domeniul Amazon SageMaker.
Importă datele
Creați un nou flux de date Data Wrangler de la Interfața de utilizare Amazon SageMaker Studio.
Importați date din Amazon S3 selectând fișierele CSV din compartimentul S3 în care ați plasat setul de date. După ce importați ambele fișiere, puteți vedea două fluxuri de lucru separate în Flux de date vedere.
Puteți alege mai multe opțiuni de eșantionare atunci când importați datele într-un flux Data Wrangler. Eșantionarea poate ajuta atunci când aveți un set de date prea mare pentru a fi pregătit interactiv sau când doriți să păstrați proporția de evenimente rare din setul de date eșantionat. Deoarece setul nostru de date este mic, nu folosim eșantionarea.
Pregătiți datele
Pentru cazul nostru de utilizare, avem două seturi de date cu o coloană comună: id
. Ca prim pas în pregătirea datelor, dorim să combinăm aceste fișiere prin alăturarea lor. Pentru instrucțiuni, consultați Transformarea datelor.
Noi folosim Alatura-te pasul de transformare a datelor și utilizați Interior tip de alăturare pe id
coloana.
Ca rezultat al transformării noastre de unire, Data Wrangler creează două coloane suplimentare: id_0
și id_1
. Cu toate acestea, aceste coloane nu sunt necesare pentru realizarea modelelor noastre. Aruncăm aceste coloane redundante folosind Gestionați coloanele pas de transformare.
Ne-am importat seturile de date, le-am alăturat și am eliminat coloanele inutile. Acum suntem pregătiți să ne îmbogățim datele prin inginerie de caracteristici și să ne pregătim pentru construirea modelelor.
Efectuați ingineria caracteristicilor
Am folosit Data Wrangler pentru pregătirea datelor. De asemenea, puteți utiliza Funcția Raport privind calitatea datelor și statistici în Data Wrangler pentru a verifica calitatea datelor și a detecta anomalii în datele dvs. Oamenii de știință de date trebuie adesea să folosească aceste informații despre date pentru a aplica eficient cunoștințele de domeniu potrivite pentru funcțiile de inginerie. Pentru această postare, presupunem că am finalizat aceste evaluări ale calității și că putem trece la ingineria caracteristicilor.
În acest pas, aplicăm câteva transformări coloanelor numerice, categoriale și text.
Mai întâi normalizăm rata dobânzii pentru a scala valorile între 0-1. Facem acest lucru folosind Proces numeric transforma pentru a scala interest_rate
coloană folosind un scaler min-max. Scopul normalizării (sau standardizării) este de a elimina părtinirea modelului nostru. Variabilele care sunt măsurate la diferite scări nu vor contribui în mod egal la procesul de învățare a modelului. Prin urmare, o funcție de transformare precum o transformare de scalare min-max ajută la normalizarea caracteristicilor.
Pentru a converti o variabilă categorială într-o valoare numerică, folosim codificarea one-hot. Noi alegem Codificați categoric transforma, apoi alege One-hot codificare. Codificarea one-hot îmbunătățește capacitatea de predicție a unui model ML. Acest proces convertește o valoare categorică într-o nouă caracteristică prin atribuirea unei valori binare de 1 sau 0 caracteristicii. Ca exemplu simplu, dacă ați avut o coloană care conținea fie valoarea yes
or no
, codificarea one-hot ar converti acea coloană în două coloane: a Yes
coloană și a No
coloană. O valoare da ar avea 1 în Yes
coloană și un 0 în No
coloană. Codificarea one-hot face datele noastre mai utile, deoarece valorile numerice pot determina mai ușor o probabilitate pentru predicțiile noastre.
În cele din urmă, prezentăm employer_title
coloană pentru a-și transforma valorile șirurilor într-un vector numeric. Aplicam Vectorizator de numărare și un tokenizer standard în cadrul Vectorizează transforma. Tokenizarea descompune o propoziție sau o serie de text în cuvinte, în timp ce un vectorizator convertește datele text într-o formă care poate fi citită de mașină. Aceste cuvinte sunt reprezentate ca vectori.
Cu toți pașii de inginerie a caracteristicilor finalizați, putem exporta datele și scoatem rezultatele în compartimentul nostru S3. Alternativ, vă puteți exporta fluxul ca cod Python sau ca notebook Jupyter pentru a crea o conductă cu vizualizarea dvs. folosind Pipelines Amazon SageMaker. Luați în considerare acest lucru atunci când doriți să executați pașii de inginerie a caracteristicilor la scară sau ca parte a unei conducte ML.
Acum putem folosi fișierul de ieșire Data Wrangler ca intrare pentru Canvas. Facem referire la aceasta ca un set de date în Canvas pentru a construi modelul nostru ML.
În cazul nostru, am exportat setul de date pregătit în grupul Studio implicit cu un output
prefix. Facem referire la această locație a setului de date atunci când încărcăm datele în Canvas pentru construirea modelului.
Construiește și antrenează-ți modelul ML cu Canvas
Pe consola SageMaker, lansați aplicația Canvas. Pentru a construi un model ML din datele pregătite în secțiunea anterioară, parcurgem următorii pași:
- Importați setul de date pregătit în Canvas din compartimentul S3.
Facem referire la aceeași cale S3 în care am exportat rezultatele Data Wrangler din secțiunea anterioară.
- Creați un model nou în Canvas și denumiți-l
loan_prediction_model
. - Selectați setul de date importat și adăugați-l la obiectul model.
Pentru ca Canvas să construiască un model, trebuie să selectăm coloana țintă.
- Deoarece scopul nostru este de a prezice probabilitatea capacității unui creditor de a rambursa un împrumut, alegem
loan_status
coloana.
Canvas identifică automat tipul de declarație de problemă ML. La momentul scrierii, Canvas acceptă probleme de regresie, clasificare și prognoză în serie de timp. Puteți specifica tipul de problemă sau puteți solicita ca Canvas să deducă automat problema din datele dvs.
- Alegeți opțiunea pentru a începe procesul de construire a modelului: Construire rapidă or Construcție standard.
Construire rapidă Opțiunea utilizează setul de date pentru a antrena un model în 2-15 minute. Acest lucru este util atunci când experimentați cu un nou set de date pentru a determina dacă setul de date pe care îl aveți va fi suficient pentru a face predicții. Folosim această opțiune pentru această postare.
Construcție standard opțiunea alege precizia în detrimentul vitezei și folosește aproximativ 250 de candidați model pentru a antrena modelul. Procesul durează de obicei 1-2 ore.
După ce modelul este construit, puteți revizui rezultatele modelului. Canvas estimează că modelul dvs. este capabil să prezică rezultatul corect în 82.9% din timp. Rezultatele proprii pot varia din cauza variabilității modelelor de antrenament.
În plus, puteți aprofunda analiza detaliilor modelului pentru a afla mai multe despre model.
Importanța caracteristicii reprezintă importanța estimată a fiecărei caracteristici în estimarea coloanei țintă. În acest caz, coloana de linie de credit are cel mai semnificativ impact în estimarea dacă un client va rambursa suma împrumutului, urmată de rata dobânzii și venitul anual.
Matricea de confuzie în Valori avansate secțiunea conține informații pentru utilizatorii care doresc o înțelegere mai profundă a performanței modelului lor.
Înainte de a vă putea implementa modelul pentru încărcături de lucru de producție, utilizați Canvas pentru a testa modelul. Canvas gestionează punctul final al modelului nostru și ne permite să facem predicții direct în interfața de utilizator Canvas.
- Alege prezice și revizuiți constatările fie asupra Predicția lotului or Pronostic unic tab.
În exemplul următor, facem o singură predicție modificând valorile pentru a prezice variabila țintă loan_status
in timp real
De asemenea, putem selecta un set de date mai mare și putem avea Canvas să genereze predicții pe lot în numele nostru.
Concluzie
Învățarea automată de la capăt la capăt este complexă și iterativă și implică adesea mai multe persoane, tehnologii și procese. Data Wrangler și Canvas permit colaborarea între echipe fără a solicita ca aceste echipe să scrie vreun cod.
Un inginer de date poate pregăti cu ușurință datele folosind Data Wrangler fără a scrie niciun cod și poate transmite setul de date pregătit unui analist de afaceri. Un analist de afaceri poate construi cu ușurință modele ML precise cu doar câteva clicuri folosind Canvas și poate obține predicții precise în timp real sau în lot.
Începeți cu Data Wrangler folosind aceste instrumente fără a fi nevoie să gestioneze nicio infrastructură. Poti configurați Canvas începeți rapid și imediat să creați modele ML pentru a vă sprijini nevoile afacerii.
Despre Autori
Peter Chung este arhitect de soluții pentru AWS și este pasionat de a ajuta clienții să descopere informații din datele lor. El a construit soluții pentru a ajuta organizațiile să ia decizii bazate pe date atât în sectorul public, cât și în cel privat. El deține toate certificările AWS, precum și două certificări GCP.
Meenakshisundaram Thandavarayan este un specialist senior AI/ML cu AWS. El ajută conturile strategice de înaltă tehnologie în călătoria lor AI și ML. Este foarte pasionat de IA bazată pe date.
Dan Ferguson este arhitect de soluții la AWS, cu sediul în New York, SUA. În calitate de expert în servicii de învățare automată, Dan lucrează pentru a sprijini clienții în călătoria lor către integrarea fluxurilor de lucru ML în mod eficient, eficient și durabil.
- Coinsmart. Cel mai bun schimb de Bitcoin și Crypto din Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. ACCES LIBER.
- CryptoHawk. Radar Altcoin. Încercare gratuită.
- Sursa: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- Despre Noi
- REZUMAT
- precis
- plus
- Suplimentar
- AI
- TOATE
- Cu toate ca
- Amazon
- sumă
- analiză
- analist
- anual
- aplicație
- Aplică
- aproximativ
- arhitectură
- alocate
- Auto
- disponibil
- AWS
- Băncile
- fiind
- frontieră
- pauze
- construi
- Clădire
- afaceri
- candidaţilor
- pânză
- capacități
- Categorii
- alegere
- Alege
- clasificare
- cod
- colabora
- colaborare
- Coloană
- comise
- Comun
- complex
- complexități
- confuzie
- Consoleze
- conține
- a contribui
- crea
- creează
- Crearea
- credit
- criză
- În prezent
- client
- clienţii care
- de date
- analiza datelor
- știința datelor
- Datorie
- Deciziile
- Mai adânc
- livrarea
- demonstra
- implementa
- desfășurarea
- descris
- detalii
- Determina
- Dezvoltare
- diferit
- direct
- domeniu
- jos
- desen
- Picătură
- în timpul
- cu ușurință
- eficient
- elimina
- permite
- Punct final
- inginer
- Inginerie
- inginerii
- estimativ
- estimări
- evenimente
- exemplu
- Exercita
- expert
- expertiză
- Caracteristică
- DESCRIERE
- financiar
- Criza financiară
- First
- debit
- Concentra
- următor
- formă
- funcţie
- finanțate
- genera
- Caritate
- scop
- având în
- înălțime
- ajutor
- ajutor
- ajută
- deține
- Acasă
- Cum
- Totuși
- HTTPS
- Impactul
- importanță
- importatoare
- Inclusiv
- Venituri
- informații
- Infrastructură
- intrare
- perspective
- interes
- interfaţă
- Investitori
- IT
- alătura
- alăturat
- călătorie
- cunoştinţe
- mare
- mai mare
- lansa
- AFLAȚI
- învăţare
- împrumut
- Linie
- listat
- încărcare
- Credite
- locaţie
- maşină
- masina de învățare
- major
- FACE
- administra
- gestionate
- administrare
- Matrice
- mijloace
- ML
- model
- Modele
- Lună
- luni
- mai mult
- cele mai multe
- muta
- multiplu
- necesar
- nevoilor
- New York
- caiet
- număr
- obligațiuni
- deschide
- Opțiune
- Opţiuni
- organizații
- Altele
- propriu
- proprietate
- parte
- pasionat
- Plătește
- plată
- plăți
- performanță
- platformă
- posibil
- potenţial
- prezice
- prezicere
- Predictii
- Pregăti
- precedent
- privat
- Problemă
- probleme
- proces
- procese
- producere
- public
- scop
- scopuri
- calitate
- Rapid
- repede
- Crud
- înregistrări
- Înscriere
- Închiria
- raportează
- depozit
- reprezentate
- reprezintă
- solicita
- Necesită
- Resurse
- responsabilităţi
- responsabilitate
- REZULTATE
- revizuiască
- Risc
- de gestionare a riscurilor
- Alerga
- Scară
- Ştiinţă
- oamenii de stiinta
- sectoare
- serie
- Servicii
- câteva
- semnificativ
- simplu
- mic
- So
- solid
- soluţie
- soluţii
- unele
- specialist
- viteză
- împărţi
- Stadiile
- standard
- Începe
- început
- Declarație
- statistic
- Stare
- depozitare
- Strategic
- studio
- a sustine
- Sprijină
- Ţintă
- sarcini
- Tehnologii
- test
- prin urmare
- Prin
- timp
- tokenizarea
- Unelte
- Pregătire
- Transforma
- Transformare
- înţelegere
- us
- Statele Unite ale Americii
- utilizare
- utilizatorii
- obișnuit
- valoare
- verifica
- versiune
- Vizualizare
- Ce
- OMS
- în
- fără
- cuvinte
- fabrică
- ar
- scris
- an
- ani