Alates ülemaailmsest finantskriisist on riskijuhtimine võtnud olulist rolli pankade otsuste tegemisel, sealhulgas potentsiaalsete klientide laenuseisundi ennustamisel. See on sageli andmemahukas harjutus, mis nõuab masinõpet (ML). Siiski ei ole kõigil organisatsioonidel andmeteaduse ressursse ja teadmisi riskijuhtimise ML-töövoo loomiseks.
Amazon SageMaker on täielikult hallatav ML-platvorm, mis võimaldab andmeinseneridel ja ärianalüütikutel kiiresti ja lihtsalt luua, koolitada ja juurutada ML-mudeleid. Andmeinsenerid ja ärianalüütikud saavad teha koostööd, kasutades SageMakeri koodivaba/madala koodiga võimalusi. Andmeinsenerid saavad kasutada Amazon SageMaker Data Wrangler andmete kiireks koondamiseks ja ettevalmistamiseks mudelite loomiseks ilma koodi kirjutamata. Seejärel saavad ärianalüütikud kasutada visuaalset point-and-click liidest Amazon SageMakeri lõuend et luua iseseisvalt täpseid ML-ennustusi.
Selles postituses näitame, kui lihtne on andmeinseneridel ja ärianalüütikutel teha koostööd, et luua ML-i töövoog, mis hõlmab andmete ettevalmistamist, mudelite loomist ja järeldusi ilma koodi kirjutamata.
Lahenduse ülevaade
Kuigi ML-i arendamine on keeruline ja korduv protsess, saate ML-i töövoo üldistada andmete ettevalmistamise, mudeli arendamise ja mudeli juurutamise etappideks.
Data Wrangler ja Canvas võtavad kokku andmete ettevalmistamise ja mudeli väljatöötamise keerukusest, nii et saate keskenduda oma ettevõtte väärtuse pakkumisele, ammutades oma andmetest teadmisi, olemata koodiarenduse ekspert. Järgmine arhitektuuriskeem tõstab esile komponendid koodita/madala koodiga lahenduses.
Amazoni lihtne salvestusteenus (Amazon S3) toimib meie andmehoidlana toorandmete, konstrueeritud andmete ja mudeliartefaktide jaoks. Saate valida ka andmete importimise Amazoni punane nihe, Amazonase Athena, Databricks ja Snowflake.
Andmeteadlastena kasutame seejärel Data Wranglerit uurimuslikuks andmete analüüsiks ja funktsioonide kavandamiseks. Kuigi Canvas saab käivitada funktsioonide projekteerimise ülesandeid, nõuab funktsioonide projekteerimine tavaliselt mõningaid statistilisi ja domeeniteadmisi, et rikastada andmekogumit mudeli arendamiseks õigesse vormi. Seetõttu anname selle vastutuse andmeinseneridele, et nad saaksid andmeid teisendada ilma Data Wrangleriga koodi kirjutamata.
Pärast andmete ettevalmistamist anname mudeli loomise kohustused üle andmeanalüütikutele, kes saavad Canvase abil mudelit koolitada ilma koodi kirjutamata.
Lõpuks teeme ühe- ja partiiprognoosid otse Canvasis saadud mudeli põhjal, ilma et peaksime ise mudeli lõpp-punkte juurutama.
Andmestiku ülevaade
Kasutame SageMakeri funktsioone laenu oleku ennustamiseks, kasutades Lending Clubi muudetud versiooni avalikult kättesaadav laenuanalüüsi andmestik. Andmekogum sisaldab laenuandmeid aastatel 2007–2011 välja antud laenude kohta. Laenu ja laenuvõtjat kirjeldavad veerud on meie omadused. Veerg laenu_status on sihtmuutuja, mida me püüame ennustada.
Data Wrangleris demonstreerimiseks jagasime andmestiku kaheks CSV-failiks: esimene osa ja teine osa. Demo lihtsustamiseks eemaldasime Lending Clubi algsest andmekogumist mõned veerud. Meie andmestik sisaldab üle 37,000 21 rea ja XNUMX funktsiooniveergu, nagu on kirjeldatud järgmises tabelis.
Veeru nimi | Kirjeldus |
loan_status |
Laenu hetkeseis (sihtmuutuja). |
loan_amount |
Loetletud laenusumma, mida laenuvõtja taotleb. Kui krediidiosakond vähendab laenusummat, kajastub see selles väärtuses. |
funded_amount_by_investors |
Kogusumma, mille investorid sel ajal selle laenu eest maksid. |
term |
Laenu maksete arv. Väärtused on kuudes ja võivad olla kas 36 või 60. |
interest_rate |
Laenu intressimäär. |
installment |
Igakuine makse, mida laenuvõtja võlgneb laenu tekkimisel. |
grade |
LC määras laenu reitingu. |
sub_grade |
LC määratud laenu alamkategooria. |
employment_length |
Tööaeg aastates. Võimalikud väärtused on vahemikus 0–10, kus 0 tähendab vähem kui ühte aastat ja 10 tähendab kümmet või enamat aastat. |
home_ownership |
Laenuvõtja poolt registreerimisel antud koduomandi staatus. Meie väärtused on RENT, OMA, HÜPOTEEK ja MUU. |
annual_income |
Laenuvõtja poolt registreerimisel esitatud enda poolt deklareeritud aastatulu. |
verification_status |
Näitab, kas sissetulekud on akreditiiviga kinnitatud või mitte. |
issued_amount |
Kuu, mil laenu rahastati. |
purpose |
Kategooria, mille laenusaaja on laenutaotlusele esitanud. |
dti |
Suhtarv, mis arvutatakse laenuvõtja igakuiste võlamaksete kogusumma põhjal võlakohustuste kogusummast, välja arvatud hüpoteek ja taotletud LC-laen, jagatuna laenuvõtja enda teatatud igakuise sissetulekuga. |
earliest_credit_line |
Kuu, mil laenuvõtja varaseim teatatud krediidiliin avati. |
inquiries_last_6_months |
Päringute arv viimase 6 kuu jooksul (v.a auto- ja hüpoteeklaenupäringud). |
open_credit_lines |
Avatud krediidiliinide arv laenuvõtja krediidifailis. |
derogatory_public_records |
Halvustavate avalike registrite arv. |
revolving_line_utilization_rate |
Uuendusrea kasutusmäär või laenuvõtja poolt kasutatav krediidisumma kogu saadaoleva uueneva krediidi suhtes. |
total_credit_lines |
Hetkel laenusaaja krediidifailis olevate krediidiliinide koguarv. |
Kasutame seda andmekogumit andmete ettevalmistamiseks ja mudelikoolituseks.
Eeldused
Täitke järgmised eeltingimusetapid:
- Laadige mõlemad laenufailid üles teie valitud S3 ämbrisse.
- Veenduge, et teil oleks vajalikud õigused. Lisateabe saamiseks vaadake Alustage Data Wrangleriga.
- Seadistage Data Wrangleri kasutamiseks konfigureeritud SageMakeri domeen. Juhiste saamiseks vaadake Sisseehitatud Amazon SageMakeri domeeniga.
Importige andmed
Looge uus Data Wrangleri andmevoog alates Amazon SageMaker Studio kasutajaliides.
Importige andmeid Amazon S3-st, valides CSV-failid S3 ämbrist, kuhu oma andmestiku paigutasite. Pärast mõlema faili importimist näete failis kahte eraldi töövoogu Andmevoog vaade
Andmete Data Wrangleri voogu importimisel saate valida mitu proovivõtuvalikut. Valimi võtmine võib aidata, kui teil on andmestik, mis on interaktiivseks ettevalmistamiseks liiga suur, või kui soovite säilitada haruldaste sündmuste osakaalu valimi andmekogus. Kuna meie andmestik on väike, ei kasuta me valimit.
Valmistage andmed ette
Meie kasutusjuhtumi jaoks on meil kaks ühise veeruga andmekogumit: id
. Andmete ettevalmistamise esimese sammuna tahame need failid omavahel ühendada. Juhiste saamiseks vaadake Andmete teisendamine.
Me kasutame Liitu andmete teisendamise samm ja kasutage Sisemine liitumistüüp id
kolonni.
Meie liitumise teisenduse tulemusena loob Data Wrangler kaks täiendavat veergu: id_0
ja id_1
. Need veerud pole aga meie mudeli ehitamiseks vajalikud. Loobume need üleliigsed veerud, kasutades Veergude haldamine teisendamise samm.
Oleme oma andmestikud importinud, ühendanud need ja eemaldanud mittevajalikud veerud. Oleme nüüd valmis rikastama oma andmeid funktsioonide projekteerimise kaudu ja valmistuma mudelite ehitamiseks.
Tehke funktsioonide projekteerimine
Andmete ettevalmistamiseks kasutasime Data Wranglerit. Võite kasutada ka Andmekvaliteedi ja ülevaate aruanne Data Wrangleris, et kontrollida teie andmete kvaliteeti ja tuvastada teie andmetes esinevaid kõrvalekaldeid. Andmeteadlased peavad sageli kasutama neid andmeid, et tõhusalt rakendada õigeid teadmisi insenerifunktsioonide jaoks. Selle postituse puhul eeldame, et oleme need kvaliteedihinnangud lõpetanud ja saame edasi liikuda funktsioonide projekteerimise juurde.
Selles etapis rakendame arvulistele, kategooria- ja tekstiveergudele mõned teisendused.
Esmalt normaliseerime intressimäära, et skaleerida väärtused vahemikus 0–1. Teeme seda kasutades Protsessi numbriline teisendada, et skaleerida interest_rate
veerus min-max skalerit kasutades. Normaliseerimise (või standardimise) eesmärk on kõrvaldada meie mudeli eelarvamus. Muutujad, mida mõõdetakse erinevatel skaaladel, ei aita võrdselt kaasa mudeli õppeprotsessile. Seetõttu aitab selline teisendusfunktsioon nagu min-max skaleri teisendus funktsioone normaliseerida.
Kategoorialise muutuja arvväärtuseks teisendamiseks kasutame ühekuumkodeeringut. Me valime Kodeeri kategooriline teisendada, seejärel valida Ühe kuuma kodeering. Ühekordne kodeerimine parandab ML-mudeli ennustamisvõimet. See protsess teisendab kategoorilise väärtuse uueks tunnuseks, määrates funktsioonile kahendväärtuse 1 või 0. Lihtsa näitena, kui teil oleks üks veerg, mis sisaldas kas väärtust yes
or no
, teisendab ühekuumkodeering selle veeru kaheks veeruks: a Yes
veerg ja a No
veerg. Jah väärtus oleks 1 Yes
veerus ja 0 No
veerg. Ühe kuuma kodeering muudab meie andmed kasulikumaks, kuna arvväärtused võimaldavad meie ennustuste tõenäosust hõlpsamini määrata.
Lõpuks tutvustame employer_title
veerus, et muuta selle stringi väärtused arvvektoriks. Me rakendame Count Vectorizer ja standardne tokeniseerija Vektoriseerida teisendada. Tokeniseerimine jagab lause või tekstiseeria sõnadeks, samas kui vektoriseerija teisendab tekstiandmed masinloetavasse vormi. Need sõnad on esitatud vektoritena.
Kui kõik funktsioonide kavandamise etapid on lõpule viidud, saame andmed eksportida ja tulemused oma S3 ämbrisse väljastada. Teise võimalusena saate eksportida oma voo Pythoni koodina või Jupyteri märkmikuna, et luua oma vaatega konveier, kasutades Amazon SageMakeri torujuhtmed. Mõelge sellele, kui soovite funktsioonide projekteerimisetappe mastaapselt või ML-konveieri osana käivitada.
Nüüd saame kasutada Data Wrangleri väljundfaili Canvase sisendina. Oma ML-mudeli koostamiseks viitame sellele kui Canvas'i andmestikule.
Meie puhul eksportisime oma ettevalmistatud andmestiku Stuudio vaikeämbrisse koos a output
eesliide. Järgmisena mudeli koostamiseks andmete laadimisel Canvasisse viitame sellele andmestiku asukohale.
Ehitage ja treenige oma ML-mudelit Canvase abil
Käivitage SageMakeri konsoolis rakendus Canvas. Eelmises jaotises ettevalmistatud andmete põhjal ML-mudeli koostamiseks teeme järgmised sammud:
- Importige ettevalmistatud andmestik S3 ämbrist Canvasesse.
Viitame samale S3 teele, kuhu eksportisime eelmise jaotise Data Wrangleri tulemused.
- Looge rakenduses Canvas uus mudel ja andke sellele nimi
loan_prediction_model
. - Valige imporditud andmestik ja lisage see mudeliobjektile.
Et Canvas mudelit koostaks, peame valima sihtveeru.
- Kuna meie eesmärk on ennustada laenuandja suutlikkust laenu tagasi maksta, valime
loan_status
kolonni.
Canvas tuvastab automaatselt ML-i probleemiavalduse tüübi. Kirjutamise ajal toetab Canvas regressiooni, klassifitseerimise ja aegridade prognoosimise probleeme. Saate määrata probleemi tüübi või lasta Canvasil probleem teie andmete põhjal automaatselt järeldada.
- Valige mudeli loomise protsessi alustamiseks oma valik: Kiire ehitus or Standardne ehitus.
. Kiire ehitus valik kasutab teie andmekogumit mudeli koolitamiseks 2–15 minuti jooksul. See on kasulik, kui katsetate uut andmekogumit, et teha kindlaks, kas teie olemasolevast andmekogumist piisab prognooside tegemiseks. Me kasutame seda valikut selle postituse jaoks.
. Standardne ehitus valik valib kiiruse asemel täpsuse ja kasutab mudeli koolitamiseks ligikaudu 250 mudelikandidaati. Protsess kestab tavaliselt 1-2 tundi.
Pärast mudeli koostamist saate vaadata mudeli tulemusi. Canvas hindab, et teie mudel suudab ennustada õiget tulemust 82.9% juhtudest. Teie enda tulemused võivad treeningmudelite varieeruvuse tõttu erineda.
Lisaks saate mudeli kohta lisateabe saamiseks sukelduda sügavale mudeli üksikasjade analüüsi.
Funktsiooni tähtsus näitab iga funktsiooni hinnangulist tähtsust sihtveeru ennustamisel. Sel juhul on krediidilimiidi veerus kõige olulisem mõju prognoosimisel, kas klient maksab laenusumma tagasi, millele järgneb intressimäär ja aastatulu.
Segadusmaatriks Täpsemad mõõdikud jaotis sisaldab teavet kasutajatele, kes soovivad oma mudeli jõudlust sügavamalt mõista.
Enne kui saate oma mudelit tootmiskoormuse jaoks juurutada, testige mudelit Canvasiga. Canvas haldab meie mudeli lõpp-punkti ja võimaldab meil teha ennustusi otse Canvase kasutajaliideses.
- Vali Ennusta ja vaadake üle kas kohta tehtud leiud Partii ennustus or Üksik ennustus Tab.
Järgmises näites teeme ühe ennustuse, muutes väärtusi, et ennustada meie sihtmuutujat loan_status
reaalajas
Saame valida ka suurema andmestiku ja lasta Canvasil meie nimel pakettprognoose genereerida.
Järeldus
Täielik masinõpe on keeruline ja iteratiivne ning hõlmab sageli mitut isikut, tehnoloogiat ja protsessi. Data Wrangler ja Canvas võimaldavad meeskondade vahelist koostööd ilma, et need meeskonnad peaksid koodi kirjutama.
Andmeinsener saab Data Wrangleri abil hõlpsalt andmeid ette valmistada ilma koodi kirjutamata ja edastada ettevalmistatud andmekogumi ärianalüütikule. Ärianalüütik saab seejärel lihtsalt luua täpseid ML-mudeleid vaid mõne klõpsuga kasutades Canvas ja saada täpseid ennustusi reaalajas või partiidena.
Alustage Data Wrangleriga kasutades neid tööriistu ilma infrastruktuuri haldamata. Sa saad seadistage lõuend alustage kiiresti ja koheselt oma ärivajaduste toetamiseks ML-mudelite loomist.
Autoritest
Peter Chung on AWS-i lahenduste arhitekt ja soovib kirglikult aidata klientidel oma andmetest teavet leida. Ta on loonud lahendusi, mis aitavad organisatsioonidel teha andmepõhiseid otsuseid nii avalikus kui ka erasektoris. Tal on kõik AWS-i sertifikaadid ja kaks GCP-sertifikaati.
Meenakshisundaram Thandavarayan on AWS-iga AI/ML vanemspetsialist. Ta aitab kõrgtehnoloogilisi strateegilisi kontosid nende AI ja ML teekonnal. Ta on väga kirglik andmepõhise AI vastu.
Dan Ferguson on lahenduste arhitekt AWS-is, mis asub USA-s New Yorgis. Masinõppeteenuste eksperdina töötab Dan selle nimel, et toetada kliente nende teekonnal ML töövoogude tõhusa, tulemusliku ja jätkusuutliku integreerimise poole.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- MEIST
- ABSTRACT
- täpne
- lisamine
- Täiendavad lisad
- AI
- Materjal: BPA ja flataatide vaba plastik
- Kuigi
- Amazon
- summa
- analüüs
- analüütik
- aastane
- taotlus
- kehtima
- umbes
- arhitektuur
- määratud
- auto
- saadaval
- AWS
- Pangad
- on
- piir
- puruneb
- ehitama
- Ehitus
- äri
- kandidaadid
- lõuend
- võimeid
- Kategooria
- valik
- Vali
- klassifikatsioon
- kood
- Teevad koostööd
- koostöö
- Veerg
- toime pandud
- ühine
- keeruline
- keerukust
- segadus
- konsool
- sisaldab
- aitama kaasa
- looma
- loob
- loomine
- krediit
- kriis
- Praegu
- klient
- Kliendid
- andmed
- andmete analüüs
- andmeteadus
- Võlg
- otsused
- sügavam
- edastamine
- näitama
- juurutada
- kasutuselevõtu
- kirjeldatud
- detailid
- Määrama
- & Tarkvaraarendus
- erinev
- otse
- domeen
- alla
- joonistus
- Drop
- ajal
- kergesti
- tõhusalt
- kõrvaldama
- võimaldama
- Lõpp-punkt
- insener
- Inseneriteadus
- Inseneride
- Hinnanguliselt
- hinnangul
- sündmused
- näide
- Teostama
- ekspert
- teadmised
- tunnusjoon
- FUNKTSIOONID
- finants-
- finantskriisi
- esimene
- voog
- Keskenduma
- Järel
- vorm
- funktsioon
- kogumispensioni
- tekitama
- Globaalne
- eesmärk
- võttes
- kõrgus
- aitama
- aidates
- aitab
- omab
- Avaleht
- Kuidas
- aga
- HTTPS
- mõju
- tähtsus
- importivate
- Kaasa arvatud
- tulu
- info
- Infrastruktuur
- sisend
- teadmisi
- huvi
- Interface
- Investorid
- IT
- liituma
- liitunud
- teekond
- teadmised
- suur
- suurem
- algatama
- Õppida
- õppimine
- laenud
- joon
- Loetletud
- laadimine
- Laenud
- liising
- masin
- masinõpe
- peamine
- TEEB
- juhtima
- juhitud
- juhtimine
- maatriks
- vahendid
- ML
- mudel
- mudelid
- kuu
- kuu
- rohkem
- kõige
- liikuma
- mitmekordne
- vajalik
- vajadustele
- New York
- märkmik
- number
- kohustusi
- avatud
- valik
- Valikud
- organisatsioonid
- Muu
- enda
- omandiõigus
- osa
- kirglik
- Maksma
- makse
- maksed
- jõudlus
- inimesele
- võimalik
- potentsiaal
- ennustada
- ennustus
- Ennustused
- Valmistama
- eelmine
- era-
- Probleem
- probleeme
- protsess
- Protsessid
- Produktsioon
- avalik
- eesmärk
- eesmärkidel
- kvaliteet
- Kiire
- kiiresti
- Töötlemata
- andmed
- Registreerimine
- Rent
- aru
- Hoidla
- esindatud
- esindab
- taotleda
- Vajab
- Vahendid
- kohustused
- vastutus
- Tulemused
- läbi
- Oht
- riskijuhtimise
- jooks
- Skaala
- teadus
- teadlased
- Sektorid
- Seeria
- Teenused
- mitu
- märkimisväärne
- lihtne
- väike
- So
- tahke
- lahendus
- Lahendused
- mõned
- spetsialist
- kiirus
- jagada
- etappidel
- standard
- algus
- alustatud
- väljavõte
- statistiline
- olek
- ladustamine
- Strateegiline
- stuudio
- toetama
- Toetab
- sihtmärk
- ülesanded
- Tehnoloogiad
- test
- seetõttu
- Läbi
- aeg
- Tokeniseerimine
- töövahendid
- koolitus
- Muutma
- Transformation
- mõistmine
- us
- USA
- kasutama
- Kasutajad
- tavaliselt
- väärtus
- kontrollima
- versioon
- vaade
- M
- WHO
- jooksul
- ilma
- sõnad
- töötab
- oleks
- kirjutamine
- aasta
- aastat