Od svetovne finančne krize je obvladovanje tveganj prevzelo pomembno vlogo pri oblikovanju odločanja bank, vključno z napovedovanjem stanja posojil za potencialne stranke. To je pogosto podatkovno intenzivna vaja, ki zahteva strojno učenje (ML). Vendar pa nimajo vse organizacije podatkovnih virov in strokovnega znanja za izgradnjo delovnega toka strojnega upravljanja tveganj.
Amazon SageMaker je popolnoma upravljana platforma ML, ki podatkovnim inženirjem in poslovnim analitikom omogoča hitro in enostavno gradnjo, usposabljanje in uvajanje modelov ML. Podatkovni inženirji in poslovni analitiki lahko sodelujejo z uporabo zmogljivosti SageMaker brez kode/nizke kode. Podatkovni inženirji lahko uporabljajo Amazon SageMaker Data Wrangler za hitro združevanje in pripravo podatkov za izdelavo modela brez pisanja kode. Nato lahko poslovni analitiki uporabljajo vizualni vmesnik pokaži in klikni Amazon SageMaker Canvas da sami ustvarijo natančne napovedi ML.
V tej objavi prikazujemo, kako preprosto je sodelovanje podatkovnih inženirjev in poslovnih analitikov pri izdelavi delovnega toka ML, ki vključuje pripravo podatkov, gradnjo modela in sklepanje brez pisanja kode.
Pregled rešitev
Čeprav je razvoj ML kompleksen in ponavljajoč se proces, lahko potek dela ML posplošite na faze priprave podatkov, razvoja modela in uvajanja modela.
Data Wrangler in Canvas abstraktirata zapletenost priprave podatkov in razvoja modela, tako da se lahko osredotočite na zagotavljanje vrednosti svojemu podjetju tako, da črpate vpoglede iz svojih podatkov, ne da bi bili strokovnjak za razvoj kode. Naslednji diagram arhitekture poudarja komponente v rešitvi brez kode/nizko kodo.
Preprosta storitev shranjevanja Amazon (Amazon S3) deluje kot naše skladišče podatkov za neobdelane podatke, inženirske podatke in artefakte modela. Izberete lahko tudi uvoz podatkov iz Amazon RedShift, Amazonska Atena, Databricks in Snowflake.
Kot podatkovni znanstveniki nato uporabljamo Data Wrangler za raziskovalno analizo podatkov in inženiring funkcij. Čeprav Canvas lahko izvaja naloge inženiringa funkcij, inženiring funkcij običajno zahteva nekaj statističnega in domenskega znanja, da nabor podatkov obogati v pravo obliko za razvoj modela. Zato to odgovornost prepuščamo podatkovnim inženirjem, da lahko podatke preoblikujejo brez pisanja kode z Data Wranglerjem.
Po pripravi podatkov prenesemo odgovornosti za gradnjo modela na podatkovne analitike, ki lahko uporabljajo Canvas za usposabljanje modela, ne da bi morali napisati kodo.
Nenazadnje naredimo posamezne in paketne napovedi neposredno v Canvasu iz nastalega modela, ne da bi morali sami uvesti končne točke modela.
Pregled nabora podatkov
Funkcije SageMaker uporabljamo za napovedovanje statusa posojila z uporabo spremenjene različice Lending Club's javno dostopen nabor podatkov o analizi posojil. Nabor podatkov vsebuje podatke o posojilih za posojila, izdana v obdobju 2007–2011. Stolpci, ki opisujejo posojilo in posojilojemalca, so naše značilnosti. Stolpec loan_status je ciljna spremenljivka, kar poskušamo predvideti.
Za predstavitev v Data Wranglerju smo nabor podatkov razdelili v dve datoteki CSV: prvi del in drugi del. Iz izvirnega nabora podatkov Lending Cluba smo odstranili nekaj stolpcev, da bi poenostavili predstavitev. Naš nabor podatkov vsebuje več kot 37,000 vrstic in 21 stolpcev funkcij, kot je opisano v naslednji tabeli.
Ime stolpca | Opis |
loan_status |
Trenutno stanje posojila (ciljna spremenljivka). |
loan_amount |
Navedeni znesek posojila, za katerega zaprosi posojilojemalec. Če kreditni oddelek zmanjša znesek posojila, se to odraža v tej vrednosti. |
funded_amount_by_investors |
Skupni znesek, ki so ga vlagatelji takrat namenili za to posojilo. |
term |
Število plačil posojila. Vrednosti so v mesecih in so lahko 36 ali 60. |
interest_rate |
Obrestna mera za posojilo. |
installment |
Mesečno plačilo, ki ga dolguje posojilojemalec, če posojilo izvira. |
grade |
LC dodeljeni posojilni razred. |
sub_grade |
LC dodeljen podrazred posojila. |
employment_length |
Delovna doba v letih. Možne vrednosti so med 0–10, pri čemer 0 pomeni manj kot eno leto, 10 pa deset ali več let. |
home_ownership |
Status lastništva stanovanja, ki ga posojilojemalec navede med registracijo. Naše vrednote so NAJEM, LASTNO, HIPOTEKA IN DRUGO. |
annual_income |
Samoprijavljen letni dohodek, ki ga je posojilojemalec navedel ob registraciji. |
verification_status |
Označuje, ali je LC potrdil dohodek ali ne. |
issued_amount |
Mesec, v katerem je bilo posojilo financirano. |
purpose |
Kategorija, ki jo zagotovi posojilojemalec za zahtevo za posojilo. |
dti |
Razmerje, izračunano z uporabo skupnih mesečnih plačil dolga posojilojemalca na skupne dolžniške obveznosti, brez hipoteke in zahtevanega posojila LC, deljeno z mesečnim dohodkom posojilojemalca, ki ga je sam prijavil. |
earliest_credit_line |
Mesec, ko je bila posojilojemalčeva prva prijavljena kreditna linija odprta. |
inquiries_last_6_months |
Število poizvedb v zadnjih 6 mesecih (brez poizvedb o avtomobilih in hipotekarnih posojilih). |
open_credit_lines |
Število odprtih kreditnih linij v kreditni datoteki posojilojemalca. |
derogatory_public_records |
Število slabšalnih javnih evidenc. |
revolving_line_utilization_rate |
Stopnja izkoriščenosti revolving linije ali znesek kredita, ki ga uporablja posojilojemalec glede na vse razpoložljive revolving kredite. |
total_credit_lines |
Skupno število kreditnih linij, ki so trenutno v kreditni datoteki posojilojemalca. |
Ta nabor podatkov uporabljamo za pripravo podatkov in usposabljanje modelov.
Predpogoji
Izpolnite naslednje predpogojne korake:
- Naložite obe izposojni datoteki v vedro S3 po vaši izbiri.
- Preverite, ali imate potrebna dovoljenja. Za več informacij glejte Začnite z Data Wrangler.
- Nastavite domeno SageMaker, konfigurirano za uporabo Data Wranglerja. Za navodila glejte Vkrcajte se na domeno Amazon SageMaker.
Uvozite podatke
Ustvarite nov tok podatkov Data Wrangler Iz Uporabniški vmesnik Amazon SageMaker Studio.
Uvozite podatke iz Amazon S3 tako, da izberete datoteke CSV iz vedra S3, kamor ste postavili nabor podatkov. Ko uvozite obe datoteki, lahko vidite dva ločena delovna toka v Pretok podatkov pogled.
Pri uvozu podatkov v tok Data Wrangler lahko izberete več možnosti vzorčenja. Vzorčenje lahko pomaga, ko imate nabor podatkov, ki je prevelik za interaktivno pripravo, ali ko želite ohraniti delež redkih dogodkov v naboru vzorčenih podatkov. Ker je naš nabor podatkov majhen, ne uporabljamo vzorčenja.
Pripravite podatke
Za naš primer uporabe imamo dva nabora podatkov s skupnim stolpcem: id
. Kot prvi korak pri pripravi podatkov želimo te datoteke združiti tako, da jih združimo. Za navodila glejte Pretvori podatke.
Mi uporabljamo pridruži se korak pretvorbe podatkov in uporabite Notranja pridruži se vrsti na id
stolpec.
Kot rezultat naše pretvorbe združevanja Data Wrangler ustvari dva dodatna stolpca: id_0
in id_1
. Vendar so ti stolpci nepotrebni za naše namene gradnje modela. Te odvečne stolpce izpustimo z uporabo Upravljanje stolpcev korak transformacije.
Uvozili smo svoje nabore podatkov, jih združili in odstranili nepotrebne stolpce. Zdaj smo pripravljeni obogatiti svoje podatke z inženiringom funkcij in se pripraviti na izdelavo modela.
Izvedite inženiring funkcij
Za pripravo podatkov smo uporabili Data Wrangler. Uporabite lahko tudi Funkcija poročila o kakovosti podatkov in vpogledih znotraj Data Wranglerja za preverjanje kakovosti vaših podatkov in odkrivanje nepravilnosti v vaših podatkih. Podatkovni znanstveniki morajo pogosto uporabiti te vpoglede v podatke, da učinkovito uporabijo pravo znanje domene za inženirske funkcije. Za to objavo predvidevamo, da smo zaključili te ocene kakovosti in lahko nadaljujemo z inženiringom funkcij.
V tem koraku uporabimo nekaj transformacij za številske, kategorične in besedilne stolpce.
Najprej normaliziramo obrestno mero na lestvico vrednosti med 0–1. To naredimo z uporabo Številčni proces preoblikovati v obsegu interest_rate
stolpec z uporabo lestvice min-max. Namen normalizacije (ali standardizacije) je odpraviti pristranskost iz našega modela. Spremenljivke, ki se merijo na različnih lestvicah, ne bodo enako prispevale k procesu učenja modela. Zato transformacijska funkcija, kot je najmanj-max skalirna transformacija, pomaga normalizirati funkcije.
Za pretvorbo kategorialne spremenljivke v številsko vrednost uporabimo kodiranje one-hot. Izberemo Kodiraj kategorično transformirajte, nato izberite Enkratno kodiranje. Enkratno kodiranje izboljša napovedovalno sposobnost modela ML. Ta postopek pretvori kategorično vrednost v novo funkcijo tako, da funkciji dodeli binarno vrednost 1 ali 0. Kot preprost primer, če bi imeli en stolpec, ki bi vseboval bodisi vrednost yes
or no
, bi enkratno kodiranje ta stolpec pretvorilo v dva stolpca: a Yes
stolpec in a No
stolpec. Vrednost yes bi imela 1 v Yes
in 0 v No
stolpec. Enkratno kodiranje naredi naše podatke uporabnejše, saj lahko številske vrednosti lažje določijo verjetnost za naše napovedi.
Na koncu predstavljamo employer_title
stolpec, da svoje vrednosti niza pretvori v numerični vektor. Uporabljamo Vektorizator štetja in standardni tokenizer znotraj Vektorizirajte transformirati. Tokenizacija razdeli stavek ali niz besedila v besede, medtem ko vektorizator pretvori besedilne podatke v strojno berljivo obliko. Te besede so predstavljene kot vektorji.
Ko so vsi inženirski koraki končani, lahko izvozimo podatke in izpišemo rezultate v naše vedro S3. Druga možnost je, da izvozite svoj tok kot kodo Python ali prenosni računalnik Jupyter, da ustvarite cevovod s svojim pogledom z uporabo Amazonski cevovodi SageMaker. Upoštevajte to, ko želite zagnati korake inženiringa funkcij v velikem obsegu ali kot del cevovoda ML.
Zdaj lahko uporabimo izhodno datoteko Data Wrangler kot naš vhod za Canvas. Na to se sklicujemo kot nabor podatkov v Canvasu za izdelavo našega modela ML.
V našem primeru smo naš pripravljen nabor podatkov izvozili v privzeto vedro Studio z datoteko output
predpono. Na to lokacijo nabora podatkov se sklicujemo pri naslednjem nalaganju podatkov v Canvas za izdelavo modela.
Zgradite in usposobite svoj model ML s Canvasom
Na konzoli SageMaker zaženite aplikacijo Canvas. Za izdelavo modela ML iz pripravljenih podatkov v prejšnjem razdelku izvedemo naslednje korake:
- Uvozite pripravljen nabor podatkov v Canvas iz vedra S3.
Sklicujemo se na isto pot S3, kamor smo izvozili rezultate Data Wrangler iz prejšnjega razdelka.
- Ustvarite nov model v Canvas in ga poimenujte
loan_prediction_model
. - Izberite uvoženi nabor podatkov in ga dodajte objektu modela.
Da lahko Canvas zgradi model, moramo izbrati ciljni stolpec.
- Ker je naš cilj napovedati verjetnost posojilodajalčeve sposobnosti odplačila posojila, izberemo
loan_status
stolpec.
Canvas samodejno prepozna vrsto izjave o problemu ML. V času pisanja Canvas podpira težave z regresijo, klasifikacijo in napovedovanjem časovnih vrst. Določite lahko vrsto težave ali pa nastavite, da Canvas samodejno ugotovi težavo iz vaših podatkov.
- Izberite svojo možnost za začetek postopka gradnje modela: Hitra izdelava or Standardna izdelava.
O Hitra izdelava možnost uporablja vaš nabor podatkov za usposabljanje modela v 2–15 minutah. To je uporabno, ko eksperimentirate z novim naborom podatkov, da ugotovite, ali bo nabor podatkov, ki ga imate, zadosten za napovedi. To možnost uporabljamo za to objavo.
O Standardna izdelava možnost izbere natančnost namesto hitrosti in za usposabljanje modela uporabi približno 250 kandidatov za modele. Postopek običajno traja 1–2 uri.
Ko je model izdelan, lahko pregledate rezultate modela. Canvas ocenjuje, da lahko vaš model v 82.9 % primerov napove pravi rezultat. Vaši rezultati se lahko razlikujejo zaradi spremenljivosti modelov usposabljanja.
Poleg tega se lahko poglobite v podrobno analizo modela, da izveste več o modelu.
Pomembnost značilnosti predstavlja ocenjeno pomembnost vsake lastnosti pri napovedovanju ciljnega stolpca. V tem primeru ima stolpec kreditne linije najpomembnejši vpliv pri napovedovanju, ali bo stranka vrnila znesek posojila, sledita mu obrestna mera in letni prihodek.
Matrika zmede v Napredne meritve razdelek vsebuje informacije za uporabnike, ki želijo globlje razumevanje delovanja svojega modela.
Preden lahko uvedete svoj model za produkcijske delovne obremenitve, uporabite Canvas za testiranje modela. Canvas upravlja našo končno točko modela in nam omogoča, da naredimo napovedi neposredno v uporabniškem vmesniku Canvas.
- Izberite Predvidite in pregledati ugotovitve bodisi na Paketna napoved or Enotna napoved tab.
V naslednjem primeru naredimo eno napoved tako, da spremenimo vrednosti za napoved naše ciljne spremenljivke loan_status
v realnem času
Izberemo lahko tudi večji nabor podatkov in Canvas ustvari paketne napovedi v našem imenu.
zaključek
Strojno učenje od konca do konca je kompleksno in ponavljajoče se ter pogosto vključuje več oseb, tehnologij in procesov. Data Wrangler in Canvas omogočata sodelovanje med ekipami, ne da bi te ekipe morale napisati kodo.
Podatkovni inženir lahko preprosto pripravi podatke z uporabo Data Wranglerja, ne da bi napisal kodo, in pripravljen nabor podatkov posreduje poslovnemu analitiku. Poslovni analitik lahko nato preprosto zgradi natančne modele ML z le nekaj kliki z uporabo Canvasa in pridobi natančne napovedi v realnem času ali v paketu.
Začnite uporabljati Data Wrangler uporabo teh orodij, ne da bi morali upravljati kakršno koli infrastrukturo. Ti lahko nastavite Canvas hitro in takoj začnite ustvarjati modele ML za podporo vašim poslovnim potrebam.
O avtorjih
Peter Chung je arhitekt rešitev za AWS in strastno pomaga strankam pri odkrivanju vpogledov iz njihovih podatkov. Gradil je rešitve za pomoč organizacijam pri sprejemanju odločitev na podlagi podatkov v javnem in zasebnem sektorju. Ima vse certifikate AWS in dva certifikata GCP.
Meenakshisundaram Thandavarayan je višji strokovnjak za AI/ML pri AWS. Pomaga visokotehnološkim strateškim računom na njihovi poti AI in ML. Zelo je navdušen nad AI, ki temelji na podatkih.
Dan Ferguson je arhitekt rešitev pri AWS s sedežem v New Yorku, ZDA. Dan kot strokovnjak za storitve strojnega učenja podpira stranke na njihovi poti do učinkovite, uspešne in trajnostne integracije delovnih tokov ML.
- Coinsmart. Najboljša evropska borza bitcoinov in kriptovalut.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. PROST DOSTOP.
- CryptoHawk. Altcoin radar. Brezplačen preizkus.
- Vir: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- O meni
- POVZETEK
- natančna
- Poleg tega
- Dodatne
- AI
- vsi
- Čeprav
- Amazon
- znesek
- Analiza
- Analitik
- letno
- uporaba
- Uporabi
- približno
- Arhitektura
- dodeljena
- avto
- Na voljo
- AWS
- Banke
- počutje
- meja
- odmori
- izgradnjo
- Building
- poslovni
- kandidati
- platno
- Zmogljivosti
- Kategorija
- izbira
- Izberite
- Razvrstitev
- Koda
- sodelovati
- sodelovanje
- Stolpec
- storjeno
- Skupno
- kompleksna
- zapletenosti
- zmeda
- Konzole
- Vsebuje
- prispevajo
- ustvarjajo
- ustvari
- Ustvarjanje
- kredit
- kriza
- Trenutno
- stranka
- Stranke, ki so
- datum
- Analiza podatkov
- znanost o podatkih
- Dolg
- odločitve
- globlje
- dostavo
- izkazati
- razporedi
- uvajanje
- opisano
- Podrobnosti
- Ugotovite,
- Razvoj
- drugačen
- neposredno
- domena
- navzdol
- risanje
- Drop
- med
- enostavno
- učinkovito
- odpravo
- omogočajo
- Končna točka
- inženir
- Inženiring
- Inženirji
- ocenjeni
- ocene
- dogodki
- Primer
- Vaja
- strokovnjak
- strokovno znanje
- Feature
- Lastnosti
- finančna
- finančna kriza
- prva
- Pretok
- Osredotočite
- po
- obrazec
- funkcija
- stvarno
- ustvarjajo
- Globalno
- Cilj
- ob
- višina
- pomoč
- pomoč
- Pomaga
- drži
- Domov
- Kako
- Vendar
- HTTPS
- vpliv
- Pomembnost
- uvoz
- Vključno
- prihodki
- Podatki
- Infrastruktura
- vhod
- vpogledi
- obresti
- vmesnik
- Vlagatelji
- IT
- pridružite
- pridružil
- Potovanje
- znanje
- velika
- večja
- kosilo
- UČITE
- učenje
- posojanje
- vrstica
- Navedeno
- nalaganje
- Posojila
- kraj aktivnosti
- stroj
- strojno učenje
- velika
- IZDELA
- upravljanje
- upravlja
- upravljanje
- Matrix
- pomeni
- ML
- Model
- modeli
- mesec
- mesecev
- več
- Najbolj
- premikanje
- več
- potrebno
- potrebe
- NY
- prenosnik
- Številka
- obveznice
- odprite
- Možnost
- možnosti
- organizacije
- Ostalo
- lastne
- lastništvo
- del
- strastno
- Plačajte
- Plačilo
- Plačila
- performance
- platforma
- mogoče
- potencial
- napovedati
- napoved
- Napovedi
- Pripravimo
- prejšnja
- zasebna
- problem
- Težave
- Postopek
- Procesi
- proizvodnja
- javnega
- Namen
- namene
- kakovost
- Hitro
- hitro
- Surovi
- evidence
- registracija
- Najem
- poročilo
- Skladišče
- zastopan
- predstavlja
- zahteva
- zahteva
- viri
- odgovornosti
- Odgovornost
- Rezultati
- pregleda
- Tveganje
- upravljanje s tveganji
- Run
- Lestvica
- Znanost
- Znanstveniki
- Sektorji
- Serija
- Storitve
- več
- pomemben
- Enostavno
- majhna
- So
- trdna
- Rešitev
- rešitve
- nekaj
- specialist
- hitrost
- po delih
- postopka
- standardna
- Začetek
- začel
- Izjava
- Statistično
- Status
- shranjevanje
- Strateško
- studio
- podpora
- Podpira
- ciljna
- Naloge
- Tehnologije
- Test
- zato
- skozi
- čas
- Tokenizacija
- orodja
- usposabljanje
- Transform
- Preoblikovanje
- razumevanje
- us
- ZDA
- uporaba
- Uporabniki
- navadno
- vrednost
- preverjanje
- različica
- Poglej
- Kaj
- WHO
- v
- brez
- besede
- deluje
- bi
- pisanje
- leto
- let