Build A Risk Management Machine Learning Workflow On Amazon SageMaker With No Code

Ponovno objavil Platon

Spremljevalci: 0

Od svetovne finančne krize je obvladovanje tveganj prevzelo pomembno vlogo pri oblikovanju odločanja bank, vključno z napovedovanjem stanja posojil za potencialne stranke. To je pogosto podatkovno intenzivna vaja, ki zahteva strojno učenje (ML). Vendar pa nimajo vse organizacije podatkovnih virov in strokovnega znanja za izgradnjo delovnega toka strojnega upravljanja tveganj.

Amazon SageMaker je popolnoma upravljana platforma ML, ki podatkovnim inženirjem in poslovnim analitikom omogoča hitro in enostavno gradnjo, usposabljanje in uvajanje modelov ML. Podatkovni inženirji in poslovni analitiki lahko sodelujejo z uporabo zmogljivosti SageMaker brez kode/nizke kode. Podatkovni inženirji lahko uporabljajo Amazon SageMaker Data Wrangler za hitro združevanje in pripravo podatkov za izdelavo modela brez pisanja kode. Nato lahko poslovni analitiki uporabljajo vizualni vmesnik pokaži in klikni Amazon SageMaker Canvas da sami ustvarijo natančne napovedi ML.

V tej objavi prikazujemo, kako preprosto je sodelovanje podatkovnih inženirjev in poslovnih analitikov pri izdelavi delovnega toka ML, ki vključuje pripravo podatkov, gradnjo modela in sklepanje brez pisanja kode.

Pregled rešitev

Čeprav je razvoj ML kompleksen in ponavljajoč se proces, lahko potek dela ML posplošite na faze priprave podatkov, razvoja modela in uvajanja modela.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Data Wrangler in Canvas abstraktirata zapletenost priprave podatkov in razvoja modela, tako da se lahko osredotočite na zagotavljanje vrednosti svojemu podjetju tako, da črpate vpoglede iz svojih podatkov, ne da bi bili strokovnjak za razvoj kode. Naslednji diagram arhitekture poudarja komponente v rešitvi brez kode/nizko kodo.

Preprosta storitev shranjevanja Amazon (Amazon S3) deluje kot naše skladišče podatkov za neobdelane podatke, inženirske podatke in artefakte modela. Izberete lahko tudi uvoz podatkov iz Amazon RedShift, Amazonska Atena, Databricks in Snowflake.

Kot podatkovni znanstveniki nato uporabljamo Data Wrangler za raziskovalno analizo podatkov in inženiring funkcij. Čeprav Canvas lahko izvaja naloge inženiringa funkcij, inženiring funkcij običajno zahteva nekaj statističnega in domenskega znanja, da nabor podatkov obogati v pravo obliko za razvoj modela. Zato to odgovornost prepuščamo podatkovnim inženirjem, da lahko podatke preoblikujejo brez pisanja kode z Data Wranglerjem.

Po pripravi podatkov prenesemo odgovornosti za gradnjo modela na podatkovne analitike, ki lahko uporabljajo Canvas za usposabljanje modela, ne da bi morali napisati kodo.

Nenazadnje naredimo posamezne in paketne napovedi neposredno v Canvasu iz nastalega modela, ne da bi morali sami uvesti končne točke modela.

Pregled nabora podatkov

Funkcije SageMaker uporabljamo za napovedovanje statusa posojila z uporabo spremenjene različice Lending Club's javno dostopen nabor podatkov o analizi posojil. Nabor podatkov vsebuje podatke o posojilih za posojila, izdana v obdobju 2007–2011. Stolpci, ki opisujejo posojilo in posojilojemalca, so naše značilnosti. Stolpec loan_status je ciljna spremenljivka, kar poskušamo predvideti.

Za predstavitev v Data Wranglerju smo nabor podatkov razdelili v dve datoteki CSV: prvi del in drugi del. Iz izvirnega nabora podatkov Lending Cluba smo odstranili nekaj stolpcev, da bi poenostavili predstavitev. Naš nabor podatkov vsebuje več kot 37,000 vrstic in 21 stolpcev funkcij, kot je opisano v naslednji tabeli.

Ime stolpca	Opis
`loan_status`	Trenutno stanje posojila (ciljna spremenljivka).
`loan_amount`	Navedeni znesek posojila, za katerega zaprosi posojilojemalec. Če kreditni oddelek zmanjša znesek posojila, se to odraža v tej vrednosti.
`funded_amount_by_investors`	Skupni znesek, ki so ga vlagatelji takrat namenili za to posojilo.
`term`	Število plačil posojila. Vrednosti so v mesecih in so lahko 36 ali 60.
`interest_rate`	Obrestna mera za posojilo.
`installment`	Mesečno plačilo, ki ga dolguje posojilojemalec, če posojilo izvira.
`grade`	LC dodeljeni posojilni razred.
`sub_grade`	LC dodeljen podrazred posojila.
`employment_length`	Delovna doba v letih. Možne vrednosti so med 0–10, pri čemer 0 pomeni manj kot eno leto, 10 pa deset ali več let.
`home_ownership`	Status lastništva stanovanja, ki ga posojilojemalec navede med registracijo. Naše vrednote so NAJEM, LASTNO, HIPOTEKA IN DRUGO.
`annual_income`	Samoprijavljen letni dohodek, ki ga je posojilojemalec navedel ob registraciji.
`verification_status`	Označuje, ali je LC potrdil dohodek ali ne.
`issued_amount`	Mesec, v katerem je bilo posojilo financirano.
`purpose`	Kategorija, ki jo zagotovi posojilojemalec za zahtevo za posojilo.
`dti`	Razmerje, izračunano z uporabo skupnih mesečnih plačil dolga posojilojemalca na skupne dolžniške obveznosti, brez hipoteke in zahtevanega posojila LC, deljeno z mesečnim dohodkom posojilojemalca, ki ga je sam prijavil.
`earliest_credit_line`	Mesec, ko je bila posojilojemalčeva prva prijavljena kreditna linija odprta.
`inquiries_last_6_months`	Število poizvedb v zadnjih 6 mesecih (brez poizvedb o avtomobilih in hipotekarnih posojilih).
`open_credit_lines`	Število odprtih kreditnih linij v kreditni datoteki posojilojemalca.
`derogatory_public_records`	Število slabšalnih javnih evidenc.
`revolving_line_utilization_rate`	Stopnja izkoriščenosti revolving linije ali znesek kredita, ki ga uporablja posojilojemalec glede na vse razpoložljive revolving kredite.
`total_credit_lines`	Skupno število kreditnih linij, ki so trenutno v kreditni datoteki posojilojemalca.

Ta nabor podatkov uporabljamo za pripravo podatkov in usposabljanje modelov.

Predpogoji

Izpolnite naslednje predpogojne korake:

Naložite obe izposojni datoteki v vedro S3 po vaši izbiri.
Preverite, ali imate potrebna dovoljenja. Za več informacij glejte Začnite z Data Wrangler.
Nastavite domeno SageMaker, konfigurirano za uporabo Data Wranglerja. Za navodila glejte Vkrcajte se na domeno Amazon SageMaker.

Uvozite podatke

Ustvarite nov tok podatkov Data Wrangler Iz Uporabniški vmesnik Amazon SageMaker Studio.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Uvozite podatke iz Amazon S3 tako, da izberete datoteke CSV iz vedra S3, kamor ste postavili nabor podatkov. Ko uvozite obe datoteki, lahko vidite dva ločena delovna toka v Pretok podatkov pogled.

Pri uvozu podatkov v tok Data Wrangler lahko izberete več možnosti vzorčenja. Vzorčenje lahko pomaga, ko imate nabor podatkov, ki je prevelik za interaktivno pripravo, ali ko želite ohraniti delež redkih dogodkov v naboru vzorčenih podatkov. Ker je naš nabor podatkov majhen, ne uporabljamo vzorčenja.

Pripravite podatke

Za naš primer uporabe imamo dva nabora podatkov s skupnim stolpcem: id. Kot prvi korak pri pripravi podatkov želimo te datoteke združiti tako, da jih združimo. Za navodila glejte Pretvori podatke.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Mi uporabljamo pridruži se korak pretvorbe podatkov in uporabite Notranja pridruži se vrsti na id stolpec.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Kot rezultat naše pretvorbe združevanja Data Wrangler ustvari dva dodatna stolpca: id_0 in id_1. Vendar so ti stolpci nepotrebni za naše namene gradnje modela. Te odvečne stolpce izpustimo z uporabo Upravljanje stolpcev korak transformacije.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Uvozili smo svoje nabore podatkov, jih združili in odstranili nepotrebne stolpce. Zdaj smo pripravljeni obogatiti svoje podatke z inženiringom funkcij in se pripraviti na izdelavo modela.

Izvedite inženiring funkcij

Za pripravo podatkov smo uporabili Data Wrangler. Uporabite lahko tudi Funkcija poročila o kakovosti podatkov in vpogledih znotraj Data Wranglerja za preverjanje kakovosti vaših podatkov in odkrivanje nepravilnosti v vaših podatkih. Podatkovni znanstveniki morajo pogosto uporabiti te vpoglede v podatke, da učinkovito uporabijo pravo znanje domene za inženirske funkcije. Za to objavo predvidevamo, da smo zaključili te ocene kakovosti in lahko nadaljujemo z inženiringom funkcij.

V tem koraku uporabimo nekaj transformacij za številske, kategorične in besedilne stolpce.

Najprej normaliziramo obrestno mero na lestvico vrednosti med 0–1. To naredimo z uporabo Številčni proces preoblikovati v obsegu interest_rate stolpec z uporabo lestvice min-max. Namen normalizacije (ali standardizacije) je odpraviti pristranskost iz našega modela. Spremenljivke, ki se merijo na različnih lestvicah, ne bodo enako prispevale k procesu učenja modela. Zato transformacijska funkcija, kot je najmanj-max skalirna transformacija, pomaga normalizirati funkcije.

Za pretvorbo kategorialne spremenljivke v številsko vrednost uporabimo kodiranje one-hot. Izberemo Kodiraj kategorično transformirajte, nato izberite Enkratno kodiranje. Enkratno kodiranje izboljša napovedovalno sposobnost modela ML. Ta postopek pretvori kategorično vrednost v novo funkcijo tako, da funkciji dodeli binarno vrednost 1 ali 0. Kot preprost primer, če bi imeli en stolpec, ki bi vseboval bodisi vrednost yes or no, bi enkratno kodiranje ta stolpec pretvorilo v dva stolpca: a Yes stolpec in a No stolpec. Vrednost yes bi imela 1 v Yes in 0 v No stolpec. Enkratno kodiranje naredi naše podatke uporabnejše, saj lahko številske vrednosti lažje določijo verjetnost za naše napovedi.

Na koncu predstavljamo employer_title stolpec, da svoje vrednosti niza pretvori v numerični vektor. Uporabljamo Vektorizator štetja in standardni tokenizer znotraj Vektorizirajte transformirati. Tokenizacija razdeli stavek ali niz besedila v besede, medtem ko vektorizator pretvori besedilne podatke v strojno berljivo obliko. Te besede so predstavljene kot vektorji.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ko so vsi inženirski koraki končani, lahko izvozimo podatke in izpišemo rezultate v naše vedro S3. Druga možnost je, da izvozite svoj tok kot kodo Python ali prenosni računalnik Jupyter, da ustvarite cevovod s svojim pogledom z uporabo Amazonski cevovodi SageMaker. Upoštevajte to, ko želite zagnati korake inženiringa funkcij v velikem obsegu ali kot del cevovoda ML.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Zdaj lahko uporabimo izhodno datoteko Data Wrangler kot naš vhod za Canvas. Na to se sklicujemo kot nabor podatkov v Canvasu za izdelavo našega modela ML.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

V našem primeru smo naš pripravljen nabor podatkov izvozili v privzeto vedro Studio z datoteko output predpono. Na to lokacijo nabora podatkov se sklicujemo pri naslednjem nalaganju podatkov v Canvas za izdelavo modela.

Zgradite in usposobite svoj model ML s Canvasom

Na konzoli SageMaker zaženite aplikacijo Canvas. Za izdelavo modela ML iz pripravljenih podatkov v prejšnjem razdelku izvedemo naslednje korake:

Uvozite pripravljen nabor podatkov v Canvas iz vedra S3.

Sklicujemo se na isto pot S3, kamor smo izvozili rezultate Data Wrangler iz prejšnjega razdelka.

Ustvarite nov model v Canvas in ga poimenujte loan_prediction_model.
Izberite uvoženi nabor podatkov in ga dodajte objektu modela.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Da lahko Canvas zgradi model, moramo izbrati ciljni stolpec.

Ker je naš cilj napovedati verjetnost posojilodajalčeve sposobnosti odplačila posojila, izberemo loan_status stolpec.

Canvas samodejno prepozna vrsto izjave o problemu ML. V času pisanja Canvas podpira težave z regresijo, klasifikacijo in napovedovanjem časovnih vrst. Določite lahko vrsto težave ali pa nastavite, da Canvas samodejno ugotovi težavo iz vaših podatkov.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Izberite svojo možnost za začetek postopka gradnje modela: Hitra izdelava or Standardna izdelava.

O Hitra izdelava možnost uporablja vaš nabor podatkov za usposabljanje modela v 2–15 minutah. To je uporabno, ko eksperimentirate z novim naborom podatkov, da ugotovite, ali bo nabor podatkov, ki ga imate, zadosten za napovedi. To možnost uporabljamo za to objavo.

O Standardna izdelava možnost izbere natančnost namesto hitrosti in za usposabljanje modela uporabi približno 250 kandidatov za modele. Postopek običajno traja 1–2 uri.

Ko je model izdelan, lahko pregledate rezultate modela. Canvas ocenjuje, da lahko vaš model v 82.9 % primerov napove pravi rezultat. Vaši rezultati se lahko razlikujejo zaradi spremenljivosti modelov usposabljanja.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Poleg tega se lahko poglobite v podrobno analizo modela, da izveste več o modelu.

Pomembnost značilnosti predstavlja ocenjeno pomembnost vsake lastnosti pri napovedovanju ciljnega stolpca. V tem primeru ima stolpec kreditne linije najpomembnejši vpliv pri napovedovanju, ali bo stranka vrnila znesek posojila, sledita mu obrestna mera in letni prihodek.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Matrika zmede v Napredne meritve razdelek vsebuje informacije za uporabnike, ki želijo globlje razumevanje delovanja svojega modela.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Preden lahko uvedete svoj model za produkcijske delovne obremenitve, uporabite Canvas za testiranje modela. Canvas upravlja našo končno točko modela in nam omogoča, da naredimo napovedi neposredno v uporabniškem vmesniku Canvas.

Izberite Predvidite in pregledati ugotovitve bodisi na Paketna napoved or Enotna napoved tab.

V naslednjem primeru naredimo eno napoved tako, da spremenimo vrednosti za napoved naše ciljne spremenljivke loan_status v realnem času

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Izberemo lahko tudi večji nabor podatkov in Canvas ustvari paketne napovedi v našem imenu.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

zaključek

Strojno učenje od konca do konca je kompleksno in ponavljajoče se ter pogosto vključuje več oseb, tehnologij in procesov. Data Wrangler in Canvas omogočata sodelovanje med ekipami, ne da bi te ekipe morale napisati kodo.

Podatkovni inženir lahko preprosto pripravi podatke z uporabo Data Wranglerja, ne da bi napisal kodo, in pripravljen nabor podatkov posreduje poslovnemu analitiku. Poslovni analitik lahko nato preprosto zgradi natančne modele ML z le nekaj kliki z uporabo Canvasa in pridobi natančne napovedi v realnem času ali v paketu.

Začnite uporabljati Data Wrangler uporabo teh orodij, ne da bi morali upravljati kakršno koli infrastrukturo. Ti lahko nastavite Canvas hitro in takoj začnite ustvarjati modele ML za podporo vašim poslovnim potrebam.

O avtorjih

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Peter Chung je arhitekt rešitev za AWS in strastno pomaga strankam pri odkrivanju vpogledov iz njihovih podatkov. Gradil je rešitve za pomoč organizacijam pri sprejemanju odločitev na podlagi podatkov v javnem in zasebnem sektorju. Ima vse certifikate AWS in dva certifikata GCP.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Meenakshisundaram Thandavarayan je višji strokovnjak za AI/ML pri AWS. Pomaga visokotehnološkim strateškim računom na njihovi poti AI in ML. Zelo je navdušen nad AI, ki temelji na podatkih.

Zgradite potek dela strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Dan Ferguson je arhitekt rešitev pri AWS s sedežem v New Yorku, ZDA. Dan kot strokovnjak za storitve strojnega učenja podpira stranke na njihovi poti do učinkovite, uspešne in trajnostne integracije delovnih tokov ML.

Časovni žig: Maj 19, 2022

Časovni žig: Maj 4, 2022

Zgradite delovni tok strojnega učenja za upravljanje tveganja na Amazon SageMaker brez kode

Ponovno objavil Platon

Pregled rešitev

Pregled nabora podatkov

Predpogoji

Uvozite podatke

Pripravite podatke

Izvedite inženiring funkcij

Zgradite in usposobite svoj model ML s Canvasom

zaključek

O avtorjih

Več od Strojno učenje AWS

Promote feature discovery and reuse across your organization using Amazon SageMaker Feature Store and its feature-level metadata capability

Z AWS Graviton zmanjšajte stroške sklepanja Amazon SageMaker

Razmestite in upravljajte cevovode strojnega učenja s Terraform z uporabo Amazon SageMaker

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun