Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Looge Amazon SageMakeris ilma koodita riskijuhtimise masinõppe töövoog

Alates ülemaailmsest finantskriisist on riskijuhtimine võtnud olulist rolli pankade otsuste tegemisel, sealhulgas potentsiaalsete klientide laenuseisundi ennustamisel. See on sageli andmemahukas harjutus, mis nõuab masinõpet (ML). Siiski ei ole kõigil organisatsioonidel andmeteaduse ressursse ja teadmisi riskijuhtimise ML-töövoo loomiseks.

Amazon SageMaker on täielikult hallatav ML-platvorm, mis võimaldab andmeinseneridel ja ärianalüütikutel kiiresti ja lihtsalt luua, koolitada ja juurutada ML-mudeleid. Andmeinsenerid ja ärianalüütikud saavad teha koostööd, kasutades SageMakeri koodivaba/madala koodiga võimalusi. Andmeinsenerid saavad kasutada Amazon SageMaker Data Wrangler andmete kiireks koondamiseks ja ettevalmistamiseks mudelite loomiseks ilma koodi kirjutamata. Seejärel saavad ärianalüütikud kasutada visuaalset point-and-click liidest Amazon SageMakeri lõuend et luua iseseisvalt täpseid ML-ennustusi.

Selles postituses näitame, kui lihtne on andmeinseneridel ja ärianalüütikutel teha koostööd, et luua ML-i töövoog, mis hõlmab andmete ettevalmistamist, mudelite loomist ja järeldusi ilma koodi kirjutamata.

Lahenduse ülevaade

Kuigi ML-i arendamine on keeruline ja korduv protsess, saate ML-i töövoo üldistada andmete ettevalmistamise, mudeli arendamise ja mudeli juurutamise etappideks.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Data Wrangler ja Canvas võtavad kokku andmete ettevalmistamise ja mudeli väljatöötamise keerukusest, nii et saate keskenduda oma ettevõtte väärtuse pakkumisele, ammutades oma andmetest teadmisi, olemata koodiarenduse ekspert. Järgmine arhitektuuriskeem tõstab esile komponendid koodita/madala koodiga lahenduses.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Amazoni lihtne salvestusteenus (Amazon S3) toimib meie andmehoidlana toorandmete, konstrueeritud andmete ja mudeliartefaktide jaoks. Saate valida ka andmete importimise Amazoni punane nihe, Amazonase Athena, Databricks ja Snowflake.

Andmeteadlastena kasutame seejärel Data Wranglerit uurimuslikuks andmete analüüsiks ja funktsioonide kavandamiseks. Kuigi Canvas saab käivitada funktsioonide projekteerimise ülesandeid, nõuab funktsioonide projekteerimine tavaliselt mõningaid statistilisi ja domeeniteadmisi, et rikastada andmekogumit mudeli arendamiseks õigesse vormi. Seetõttu anname selle vastutuse andmeinseneridele, et nad saaksid andmeid teisendada ilma Data Wrangleriga koodi kirjutamata.

Pärast andmete ettevalmistamist anname mudeli loomise kohustused üle andmeanalüütikutele, kes saavad Canvase abil mudelit koolitada ilma koodi kirjutamata.

Lõpuks teeme ühe- ja partiiprognoosid otse Canvasis saadud mudeli põhjal, ilma et peaksime ise mudeli lõpp-punkte juurutama.

Andmestiku ülevaade

Kasutame SageMakeri funktsioone laenu oleku ennustamiseks, kasutades Lending Clubi muudetud versiooni avalikult kättesaadav laenuanalüüsi andmestik. Andmekogum sisaldab laenuandmeid aastatel 2007–2011 välja antud laenude kohta. Laenu ja laenuvõtjat kirjeldavad veerud on meie omadused. Veerg laenu_status on sihtmuutuja, mida me püüame ennustada.

Data Wrangleris demonstreerimiseks jagasime andmestiku kaheks CSV-failiks: esimene osa ja teine ​​osa. Demo lihtsustamiseks eemaldasime Lending Clubi algsest andmekogumist mõned veerud. Meie andmestik sisaldab üle 37,000 21 rea ja XNUMX funktsiooniveergu, nagu on kirjeldatud järgmises tabelis.

Veeru nimi Kirjeldus
loan_status Laenu hetkeseis (sihtmuutuja).
loan_amount Loetletud laenusumma, mida laenuvõtja taotleb. Kui krediidiosakond vähendab laenusummat, kajastub see selles väärtuses.
funded_amount_by_investors Kogusumma, mille investorid sel ajal selle laenu eest maksid.
term Laenu maksete arv. Väärtused on kuudes ja võivad olla kas 36 või 60.
interest_rate Laenu intressimäär.
installment Igakuine makse, mida laenuvõtja võlgneb laenu tekkimisel.
grade LC määras laenu reitingu.
sub_grade LC määratud laenu alamkategooria.
employment_length Tööaeg aastates. Võimalikud väärtused on vahemikus 0–10, kus 0 tähendab vähem kui ühte aastat ja 10 tähendab kümmet või enamat aastat.
home_ownership Laenuvõtja poolt registreerimisel antud koduomandi staatus. Meie väärtused on RENT, OMA, HÜPOTEEK ja MUU.
annual_income Laenuvõtja poolt registreerimisel esitatud enda poolt deklareeritud aastatulu.
verification_status Näitab, kas sissetulekud on akreditiiviga kinnitatud või mitte.
issued_amount Kuu, mil laenu rahastati.
purpose Kategooria, mille laenusaaja on laenutaotlusele esitanud.
dti Suhtarv, mis arvutatakse laenuvõtja igakuiste võlamaksete kogusumma põhjal võlakohustuste kogusummast, välja arvatud hüpoteek ja taotletud LC-laen, jagatuna laenuvõtja enda teatatud igakuise sissetulekuga.
earliest_credit_line Kuu, mil laenuvõtja varaseim teatatud krediidiliin avati.
inquiries_last_6_months Päringute arv viimase 6 kuu jooksul (v.a auto- ja hüpoteeklaenupäringud).
open_credit_lines Avatud krediidiliinide arv laenuvõtja krediidifailis.
derogatory_public_records Halvustavate avalike registrite arv.
revolving_line_utilization_rate Uuendusrea kasutusmäär või laenuvõtja poolt kasutatav krediidisumma kogu saadaoleva uueneva krediidi suhtes.
total_credit_lines Hetkel laenusaaja krediidifailis olevate krediidiliinide koguarv.

Kasutame seda andmekogumit andmete ettevalmistamiseks ja mudelikoolituseks.

Eeldused

Täitke järgmised eeltingimusetapid:

  1. Laadige mõlemad laenufailid üles teie valitud S3 ämbrisse.
  2. Veenduge, et teil oleks vajalikud õigused. Lisateabe saamiseks vaadake Alustage Data Wrangleriga.
  3. Seadistage Data Wrangleri kasutamiseks konfigureeritud SageMakeri domeen. Juhiste saamiseks vaadake Sisseehitatud Amazon SageMakeri domeeniga.

Importige andmed

Looge uus Data Wrangleri andmevoog alates Amazon SageMaker Studio kasutajaliides.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Importige andmeid Amazon S3-st, valides CSV-failid S3 ämbrist, kuhu oma andmestiku paigutasite. Pärast mõlema faili importimist näete failis kahte eraldi töövoogu Andmevoog vaade

Andmete Data Wrangleri voogu importimisel saate valida mitu proovivõtuvalikut. Valimi võtmine võib aidata, kui teil on andmestik, mis on interaktiivseks ettevalmistamiseks liiga suur, või kui soovite säilitada haruldaste sündmuste osakaalu valimi andmekogus. Kuna meie andmestik on väike, ei kasuta me valimit.

Valmistage andmed ette

Meie kasutusjuhtumi jaoks on meil kaks ühise veeruga andmekogumit: id. Andmete ettevalmistamise esimese sammuna tahame need failid omavahel ühendada. Juhiste saamiseks vaadake Andmete teisendamine.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Me kasutame Liitu andmete teisendamise samm ja kasutage Sisemine liitumistüüp id kolonni.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Meie liitumise teisenduse tulemusena loob Data Wrangler kaks täiendavat veergu: id_0 ja id_1. Need veerud pole aga meie mudeli ehitamiseks vajalikud. Loobume need üleliigsed veerud, kasutades Veergude haldamine teisendamise samm.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.
Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Oleme oma andmestikud importinud, ühendanud need ja eemaldanud mittevajalikud veerud. Oleme nüüd valmis rikastama oma andmeid funktsioonide projekteerimise kaudu ja valmistuma mudelite ehitamiseks.

Tehke funktsioonide projekteerimine

Andmete ettevalmistamiseks kasutasime Data Wranglerit. Võite kasutada ka Andmekvaliteedi ja ülevaate aruanne Data Wrangleris, et kontrollida teie andmete kvaliteeti ja tuvastada teie andmetes esinevaid kõrvalekaldeid. Andmeteadlased peavad sageli kasutama neid andmeid, et tõhusalt rakendada õigeid teadmisi insenerifunktsioonide jaoks. Selle postituse puhul eeldame, et oleme need kvaliteedihinnangud lõpetanud ja saame edasi liikuda funktsioonide projekteerimise juurde.

Selles etapis rakendame arvulistele, kategooria- ja tekstiveergudele mõned teisendused.

Esmalt normaliseerime intressimäära, et skaleerida väärtused vahemikus 0–1. Teeme seda kasutades Protsessi numbriline teisendada, et skaleerida interest_rate veerus min-max skalerit kasutades. Normaliseerimise (või standardimise) eesmärk on kõrvaldada meie mudeli eelarvamus. Muutujad, mida mõõdetakse erinevatel skaaladel, ei aita võrdselt kaasa mudeli õppeprotsessile. Seetõttu aitab selline teisendusfunktsioon nagu min-max skaleri teisendus funktsioone normaliseerida.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Kategoorialise muutuja arvväärtuseks teisendamiseks kasutame ühekuumkodeeringut. Me valime Kodeeri kategooriline teisendada, seejärel valida Ühe kuuma kodeering. Ühekordne kodeerimine parandab ML-mudeli ennustamisvõimet. See protsess teisendab kategoorilise väärtuse uueks tunnuseks, määrates funktsioonile kahendväärtuse 1 või 0. Lihtsa näitena, kui teil oleks üks veerg, mis sisaldas kas väärtust yes or no, teisendab ühekuumkodeering selle veeru kaheks veeruks: a Yes veerg ja a No veerg. Jah väärtus oleks 1 Yes veerus ja 0 No veerg. Ühe kuuma kodeering muudab meie andmed kasulikumaks, kuna arvväärtused võimaldavad meie ennustuste tõenäosust hõlpsamini määrata.

Lõpuks tutvustame employer_title veerus, et muuta selle stringi väärtused arvvektoriks. Me rakendame Count Vectorizer ja standardne tokeniseerija Vektoriseerida teisendada. Tokeniseerimine jagab lause või tekstiseeria sõnadeks, samas kui vektoriseerija teisendab tekstiandmed masinloetavasse vormi. Need sõnad on esitatud vektoritena.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Kui kõik funktsioonide kavandamise etapid on lõpule viidud, saame andmed eksportida ja tulemused oma S3 ämbrisse väljastada. Teise võimalusena saate eksportida oma voo Pythoni koodina või Jupyteri märkmikuna, et luua oma vaatega konveier, kasutades Amazon SageMakeri torujuhtmed. Mõelge sellele, kui soovite funktsioonide projekteerimisetappe mastaapselt või ML-konveieri osana käivitada.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Nüüd saame kasutada Data Wrangleri väljundfaili Canvase sisendina. Oma ML-mudeli koostamiseks viitame sellele kui Canvas'i andmestikule.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Meie puhul eksportisime oma ettevalmistatud andmestiku Stuudio vaikeämbrisse koos a output eesliide. Järgmisena mudeli koostamiseks andmete laadimisel Canvasisse viitame sellele andmestiku asukohale.

Ehitage ja treenige oma ML-mudelit Canvase abil

Käivitage SageMakeri konsoolis rakendus Canvas. Eelmises jaotises ettevalmistatud andmete põhjal ML-mudeli koostamiseks teeme järgmised sammud:

  1. Importige ettevalmistatud andmestik S3 ämbrist Canvasesse.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Viitame samale S3 teele, kuhu eksportisime eelmise jaotise Data Wrangleri tulemused.

  1. Looge rakenduses Canvas uus mudel ja andke sellele nimi loan_prediction_model.
  2. Valige imporditud andmestik ja lisage see mudeliobjektile.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Et Canvas mudelit koostaks, peame valima sihtveeru.

  1. Kuna meie eesmärk on ennustada laenuandja suutlikkust laenu tagasi maksta, valime loan_status kolonni.

Canvas tuvastab automaatselt ML-i probleemiavalduse tüübi. Kirjutamise ajal toetab Canvas regressiooni, klassifitseerimise ja aegridade prognoosimise probleeme. Saate määrata probleemi tüübi või lasta Canvasil probleem teie andmete põhjal automaatselt järeldada.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

  1. Valige mudeli loomise protsessi alustamiseks oma valik: Kiire ehitus or Standardne ehitus.

. Kiire ehitus valik kasutab teie andmekogumit mudeli koolitamiseks 2–15 minuti jooksul. See on kasulik, kui katsetate uut andmekogumit, et teha kindlaks, kas teie olemasolevast andmekogumist piisab prognooside tegemiseks. Me kasutame seda valikut selle postituse jaoks.

. Standardne ehitus valik valib kiiruse asemel täpsuse ja kasutab mudeli koolitamiseks ligikaudu 250 mudelikandidaati. Protsess kestab tavaliselt 1-2 tundi.

Pärast mudeli koostamist saate vaadata mudeli tulemusi. Canvas hindab, et teie mudel suudab ennustada õiget tulemust 82.9% juhtudest. Teie enda tulemused võivad treeningmudelite varieeruvuse tõttu erineda.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Lisaks saate mudeli kohta lisateabe saamiseks sukelduda sügavale mudeli üksikasjade analüüsi.

Funktsiooni tähtsus näitab iga funktsiooni hinnangulist tähtsust sihtveeru ennustamisel. Sel juhul on krediidilimiidi veerus kõige olulisem mõju prognoosimisel, kas klient maksab laenusumma tagasi, millele järgneb intressimäär ja aastatulu.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Segadusmaatriks Täpsemad mõõdikud jaotis sisaldab teavet kasutajatele, kes soovivad oma mudeli jõudlust sügavamalt mõista.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Enne kui saate oma mudelit tootmiskoormuse jaoks juurutada, testige mudelit Canvasiga. Canvas haldab meie mudeli lõpp-punkti ja võimaldab meil teha ennustusi otse Canvase kasutajaliideses.

  1. Vali Ennusta ja vaadake üle kas kohta tehtud leiud Partii ennustus or Üksik ennustus Tab.

Järgmises näites teeme ühe ennustuse, muutes väärtusi, et ennustada meie sihtmuutujat loan_status reaalajas

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Saame valida ka suurema andmestiku ja lasta Canvasil meie nimel pakettprognoose genereerida.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.

Järeldus

Täielik masinõpe on keeruline ja iteratiivne ning hõlmab sageli mitut isikut, tehnoloogiat ja protsessi. Data Wrangler ja Canvas võimaldavad meeskondade vahelist koostööd ilma, et need meeskonnad peaksid koodi kirjutama.

Andmeinsener saab Data Wrangleri abil hõlpsalt andmeid ette valmistada ilma koodi kirjutamata ja edastada ettevalmistatud andmekogumi ärianalüütikule. Ärianalüütik saab seejärel lihtsalt luua täpseid ML-mudeleid vaid mõne klõpsuga kasutades Canvas ja saada täpseid ennustusi reaalajas või partiidena.

Alustage Data Wrangleriga kasutades neid tööriistu ilma infrastruktuuri haldamata. Sa saad seadistage lõuend alustage kiiresti ja koheselt oma ärivajaduste toetamiseks ML-mudelite loomist.


Autoritest

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.Peter Chung on AWS-i lahenduste arhitekt ja soovib kirglikult aidata klientidel oma andmetest teavet leida. Ta on loonud lahendusi, mis aitavad organisatsioonidel teha andmepõhiseid otsuseid nii avalikus kui ka erasektoris. Tal on kõik AWS-i sertifikaadid ja kaks GCP-sertifikaati.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai. Meenakshisundaram Thandavarayan on AWS-iga AI/ML vanemspetsialist. Ta aitab kõrgtehnoloogilisi strateegilisi kontosid nende AI ja ML teekonnal. Ta on väga kirglik andmepõhise AI vastu.

Looge Amazon SageMakeris riskijuhtimise masinõppe töövoog ilma PlatoBlockchain Data Intelligence'i koodita. Vertikaalne otsing. Ai.Dan Ferguson on lahenduste arhitekt AWS-is, mis asub USA-s New Yorgis. Masinõppeteenuste eksperdina töötab Dan selle nimel, et toetada kliente nende teekonnal ML töövoogude tõhusa, tulemusliku ja jätkusuutliku integreerimise poole.

Ajatempel:

Veel alates AWS-i masinõpe