Maailmanlaajuisen finanssikriisin jälkeen riskienhallinta on ottanut merkittävän roolin pankkien päätöksenteossa, mukaan lukien potentiaalisten asiakkaiden lainatilan ennustaminen. Tämä on usein dataintensiivinen harjoitus, joka vaatii koneoppimista (ML). Kaikilla organisaatioilla ei kuitenkaan ole datatieteen resursseja ja asiantuntemusta riskienhallinnan ML-työnkulun rakentamiseen.
Amazon Sage Maker on täysin hallittu ML-alusta, jonka avulla tietoinsinöörit ja yritysanalyytikot voivat nopeasti ja helposti rakentaa, kouluttaa ja ottaa käyttöön ML-malleja. Tietosuunnittelijat ja yritysanalyytikot voivat tehdä yhteistyötä käyttämällä SageMakerin no-code/low-code ominaisuuksia. Tietosuunnittelijat voivat käyttää Amazon SageMaker Data Wrangler tietojen nopeaan kokoamiseen ja valmistelemiseen mallin rakentamista varten ilman koodin kirjoittamista. Sitten yritysanalyytikot voivat käyttää visuaalista osoita ja napsauta -käyttöliittymää Amazon SageMaker Canvas luodakseen tarkkoja ML-ennusteita itsekseen.
Tässä viestissä näytämme, kuinka helppoa datainsinöörien ja yritysanalyytikoiden on tehdä yhteistyötä rakentaakseen ML-työnkulun, joka sisältää tietojen valmistelun, mallin rakentamisen ja päättelyn ilman koodin kirjoittamista.
Ratkaisun yleiskatsaus
Vaikka ML-kehitys on monimutkainen ja iteratiivinen prosessi, voit yleistää ML-työnkulun tietojen valmistelu-, mallikehitys- ja mallin käyttöönottovaiheisiin.
Data Wrangler ja Canvas tekevät tiedon valmistelun ja mallikehityksen monimutkaisuudesta abstraktin, joten voit keskittyä tuottamaan lisäarvoa yrityksellesi ottamalla näkemyksiä tiedoistasi olematta koodikehityksen asiantuntija. Seuraavassa arkkitehtuurikaaviossa korostetaan no-code/low-code-ratkaisun komponentteja.
Amazonin yksinkertainen tallennuspalvelu (Amazon S3) toimii raakadatan, suunniteltujen tietojen ja malliartefaktien tietovarastona. Voit myös valita, haluatko tuoda tietoja Amazonin punainen siirto, Amazon Athena, Databricks ja Snowflake.
Datatieteilijöinä käytämme sitten Data Wrangleria tutkivaan data-analyysiin ja ominaisuussuunnitteluun. Vaikka Canvas voi suorittaa ominaisuussuunnittelutehtäviä, ominaisuussuunnittelu vaatii yleensä jonkin verran tilasto- ja aluetietoa rikastaakseen tietojoukon oikeaan muotoon mallin kehittämistä varten. Siksi annamme tämän vastuun tietosuunnittelijoille, jotta he voivat muuntaa tietoja kirjoittamatta koodia Data Wranglerilla.
Tietojen valmistelun jälkeen siirrämme mallinrakennusvastuut data-analyytikoille, jotka voivat kouluttaa mallin Canvasilla ilman koodin kirjoittamista.
Lopuksi teemme yksittäis- ja eräennusteita suoraan Canvasissa tuloksena olevasta mallista ilman, että meidän tarvitsee ottaa mallin päätepisteitä käyttöön itse.
Tietojoukon yleiskatsaus
Käytämme SageMaker-ominaisuuksia lainan tilan ennustamiseen käyttämällä Lending Clubin muokattua versiota julkisesti saatavilla oleva laina-analyysitietoaineisto. Aineisto sisältää lainatiedot vuosille 2007–2011 myönnetyistä lainoista. Lainaa ja lainanottajaa kuvaavat sarakkeet ovat ominaisuuksiamme. Sarake laina_tila on kohdemuuttuja, jota yritämme ennustaa.
Havainnollistaaksemme Data Wranglerissa olemme jakaneet tietojoukon kahteen CSV-tiedostoon: osa yksi ja osa kaksi. Olemme poistaneet joitain sarakkeita Lending Clubin alkuperäisestä tietojoukosta esittelyn yksinkertaistamiseksi. Tietojoukkomme sisältää yli 37,000 21 riviä ja XNUMX ominaisuussaraketta, kuten seuraavassa taulukossa on kuvattu.
Sarakkeen nimi | Kuvaus |
loan_status |
Lainan nykytila (tavoitemuuttuja). |
loan_amount |
Luettelo lainanottajan hakemasta lainasta. Jos luottoosasto pienentää lainasummaa, se näkyy tässä arvossa. |
funded_amount_by_investors |
Sijoittajien kyseiseen lainaan tuolloin sitoutunut kokonaismäärä. |
term |
Lainan maksujen määrä. Arvot ovat kuukausia ja voivat olla joko 36 tai 60. |
interest_rate |
Lainan korko. |
installment |
Lainaajan kuukausierä, jos laina on peräisin. |
grade |
LC:lle määrätty lainaluokka. |
sub_grade |
LC:lle määrätty laina-alaluokitus. |
employment_length |
Työsuhteen pituus vuosina. Mahdolliset arvot ovat välillä 0-10, jossa 0 tarkoittaa alle vuotta ja 10 tarkoittaa kymmentä tai enemmän. |
home_ownership |
Asunnon omistusoikeus, jonka lainanottaja ilmoittaa rekisteröinnin yhteydessä. Arvomme ovat VUOKRA, OMA, ASUNTOLAINA ja MUUT. |
annual_income |
Lainaajan ilmoittamat vuositulot rekisteröinnin yhteydessä. |
verification_status |
Osoittaa, onko tulot varmentanut LC vai ei. |
issued_amount |
Kuukausi, jolloin laina rahoitettiin. |
purpose |
Luokka, jonka lainanottaja on antanut lainapyynnölle. |
dti |
Suhde, joka lasketaan käyttämällä lainanottajan kuukausittaisten velkojen kokonaismäärää velkasitoumusten kokonaismäärästä, pois lukien asuntolaina ja haettu LC-laina, jaettuna lainanottajan itsensä ilmoittamilla kuukausituloilla. |
earliest_credit_line |
Kuukausi, jolloin lainanottajan aikaisin ilmoitettu luottoraja avattiin. |
inquiries_last_6_months |
Tiedustelujen määrä viimeisen 6 kuukauden aikana (pois lukien auto- ja asuntolainakyselyt). |
open_credit_lines |
Avointen luottolimiittien määrä lainanottajan luottotiedostossa. |
derogatory_public_records |
Halvenneiden julkisten tietueiden määrä. |
revolving_line_utilization_rate |
Revolving line -käyttöaste tai lainanottajan käyttämä luoton määrä suhteessa kaikkeen käytettävissä olevaan valmiusluottoon. |
total_credit_lines |
Lainanottajan luottotiedostossa tällä hetkellä olevien luottorajojen kokonaismäärä. |
Käytämme tätä tietojoukkoa tietojen valmisteluun ja mallikoulutukseen.
Edellytykset
Suorita seuraavat edellytysvaiheet:
- Lataa molemmat lainatiedostot valitsemaasi S3-kauhaan.
- Varmista, että sinulla on tarvittavat käyttöoikeudet. Lisätietoja on kohdassa Aloita Data Wranglerin käyttö.
- Määritä SageMaker-toimialue, joka on määritetty käyttämään Data Wrangleria. Katso ohjeet kohdasta Sisääntulo Amazon SageMaker -verkkotunnukseen.
Tuo tiedot
Luo uusi Data Wrangler -tietovirta mistä Amazon SageMaker Studion käyttöliittymä.
Tuo tiedot Amazon S3:sta valitsemalla CSV-tiedostot S3-säilystä, johon asetit tietojoukon. Kun olet tuonut molemmat tiedostot, näet kaksi erillistä työnkulkua tiedostossa Tietovirta näkymä.
Voit valita useita otantavaihtoehtoja, kun tuot tietojasi Data Wrangler -kulkuun. Otanta voi auttaa, kun tietojoukkosi on liian suuri vuorovaikutteiseen valmisteluun tai kun haluat säilyttää harvinaisten tapahtumien osuuden otantatietojoukossasi. Koska tietojoukkomme on pieni, emme käytä otantaa.
Valmistele tiedot
Meidän käyttötapauksessamme meillä on kaksi tietojoukkoa, joissa on yhteinen sarake: id
. Ensimmäisenä vaiheena tietojen valmistelussa haluamme yhdistää nämä tiedostot yhdistämällä ne. Katso ohjeet kohdasta Muuta tietoja.
Käytämme Liity tietojen muunnosvaihe ja käytä Sisempi liitä tyyppiä id
sarake.
Liitosmuunnoksen tuloksena Data Wrangler luo kaksi lisäsaraketta: id_0
ja id_1
. Nämä sarakkeet ovat kuitenkin tarpeettomia mallinrakennustarkoituksiin. Pudotamme nämä ylimääräiset sarakkeet käyttämällä Hallitse sarakkeita muunnosvaihe.
Olemme tuoneet tietojoukkomme, yhdistäneet ne ja poistaneet tarpeettomat sarakkeet. Olemme nyt valmiita rikastuttamaan tietojamme ominaisuussuunnittelun avulla ja valmistautumaan mallin rakentamiseen.
Suorita ominaisuussuunnittelu
Käytimme Data Wrangleria tietojen valmisteluun. Voit myös käyttää Data Quality and Insights Report -ominaisuus Data Wranglerissa varmistaaksesi tietojesi laadun ja havaitaksesi poikkeavuuksia tiedoissasi. Datatieteilijöiden on usein käytettävä näitä tietonäkemyksiä soveltaakseen tehokkaasti oikeaa aluetietoa suunnitteluominaisuuksiin. Tässä viestissä oletamme, että olemme suorittaneet nämä laatuarvioinnit ja voimme siirtyä ominaisuuksien suunnitteluun.
Tässä vaiheessa käytämme muutamia muunnoksia numeerisiin, kategoriallisiin ja tekstisarakkeisiin.
Normalisoimme ensin koron skaalaamaan arvot välillä 0–1. Teemme tämän käyttämällä Prosessi numeerinen muuntaa mittakaavassa interest_rate
sarakkeessa käyttämällä min-max-skaalauslaitetta. Normalisoinnin (tai standardoinnin) tarkoitus on eliminoida harha mallistamme. Muuttujat, joita mitataan eri asteikoilla, eivät vaikuta tasaisesti mallin oppimisprosessiin. Siksi muunnosfunktio, kuten min-max-skaalausmuunnos, auttaa normalisoimaan ominaisuuksia.
Kategoriaalisen muuttujan muuttamiseksi numeeriseksi arvoksi käytämme one-hot-koodausta. Me valitsemme Koodaa kategorinen muunna ja valitse sitten Yksi kuuma koodaus. One-hot-koodaus parantaa ML-mallin ennustuskykyä. Tämä prosessi muuntaa kategorisen arvon uudeksi ominaisuudeksi määrittämällä ominaisuudelle binääriarvon 1 tai 0. Yksinkertaisena esimerkkinä, jos sinulla olisi yksi sarake, jossa oli jompikumpi arvo yes
or no
, one-hot-koodaus muuntaa sarakkeen kahdeksi sarakkeeksi: a Yes
sarake ja a No
sarakkeessa. Kyllä-arvolla olisi 1 Yes
sarakkeessa ja 0 No
sarakkeessa. One-hot-koodaus tekee tiedoistamme hyödyllisempiä, koska numeeriset arvot voivat määrittää ennusteidemme todennäköisyyden helpommin.
Lopuksi esittelemme employer_title
sarakkeessa muuttaaksesi sen merkkijonoarvot numeerisiksi vektoriksi. Sovellamme Laske Vectorizer ja vakio tokenizer sisällä Vektorisoida muuttaa. Tokenisointi hajottaa lauseen tai tekstisarjan sanoiksi, kun taas vektorointi muuntaa tekstitiedot koneellisesti luettavaan muotoon. Nämä sanat esitetään vektoreina.
Kun kaikki ominaisuuksien suunnitteluvaiheet on suoritettu, voimme viedä tiedot ja tulostaa tulokset S3-säihösimme. Vaihtoehtoisesti voit viedä kulkusi Python-koodina tai Jupyter-muistikirjana luodaksesi liukuhihnan näkymästäsi käyttämällä Amazon SageMaker -putkistot. Harkitse tätä, kun haluat suorittaa ominaisuuden suunnitteluvaiheita mittakaavassa tai osana ML-liukuhihnaa.
Voimme nyt käyttää Data Wrangler -tulostustiedostoa syötteenä Canvasille. Käytämme tätä tietojoukkona Canvasissa ML-mallimme rakentamiseksi.
Meidän tapauksessamme vietimme valmistetut tietojoukot Studion oletussäilöyn an output
etuliite. Viittaamme tähän tietojoukon sijaintiin, kun lataamme tietoja Canvasiin seuraavan mallin rakentamista varten.
Rakenna ja harjoittele ML-malliasi Canvasilla
Käynnistä Canvas-sovellus SageMaker-konsolissa. ML-mallin rakentamiseksi edellisessä osiossa valmistetuista tiedoista suoritamme seuraavat vaiheet:
- Tuo valmis tietojoukko Canvasiin S3-alueesta.
Viitataan samaan S3-polkuun, johon vietimme Data Wrangler -tulokset edellisestä osasta.
- Luo uusi malli Canvasissa ja nimeä se
loan_prediction_model
. - Valitse tuotu tietojoukko ja lisää se malliobjektiin.
Jotta Canvas rakentaa mallin, meidän on valittava kohdesarake.
- Koska tavoitteemme on ennustaa lainanantajan kykyä maksaa laina takaisin, valitsemme
loan_status
sarake.
Canvas tunnistaa automaattisesti ML-ongelmalauseen tyypin. Kirjoitushetkellä Canvas tukee regressio-, luokittelu- ja aikasarjaennustusongelmia. Voit määrittää ongelman tyypin tai määrittää Canvasin päättelemään ongelman automaattisesti tiedoistasi.
- Valitse vaihtoehto mallinrakennusprosessin aloittamiseksi: Nopea rakentaa or Vakiorakenne.
- Nopea rakentaa vaihtoehto käyttää tietojoukkoasi mallin kouluttamiseen 2–15 minuutissa. Tästä on hyötyä, kun kokeilet uutta tietojoukkoa määrittääksesi, riittääkö olemassa oleva tietojoukko ennusteiden tekemiseen. Käytämme tätä vaihtoehtoa tässä viestissä.
- Vakiorakenne vaihtoehto valitsee tarkkuuden nopeuden sijaan ja käyttää noin 250 mallikandidaattia mallin kouluttamiseen. Prosessi kestää yleensä 1-2 tuntia.
Kun malli on rakennettu, voit tarkastella mallin tuloksia. Canvas arvioi, että mallisi pystyy ennustamaan oikean lopputuloksen 82.9 % ajasta. Omat tulokset voivat vaihdella harjoitusmallien vaihtelevuuden vuoksi.
Lisäksi voit sukeltaa syvälle mallin yksityiskohtien analyysiin saadaksesi lisätietoja mallista.
Ominaisuuden tärkeys edustaa kunkin ominaisuuden arvioitua merkitystä kohdesarakkeen ennustamisessa. Tässä tapauksessa luottoraja-sarakkeella on merkittävin vaikutus ennustettaessa, maksaako asiakas takaisin lainan, jonka jälkeen tulevat korko ja vuositulot.
Hämmennysmatriisi Kehittyneet mittarit -osio sisältää tietoa käyttäjille, jotka haluavat syvemmän ymmärryksen mallinsa suorituskyvystä.
Ennen kuin voit ottaa mallin käyttöön tuotantokuormituksissa, testaa malli Canvasilla. Canvas hallitsee mallin päätepistettä ja antaa meille mahdollisuuden tehdä ennusteita suoraan Canvas-käyttöliittymässä.
- Valita Ennustaa ja tarkista havainnot joko Eräennustus or Yksittäinen ennuste Tab.
Seuraavassa esimerkissä teemme yhden ennusteen muokkaamalla arvoja ennustaaksemme kohdemuuttujamme loan_status
oikeassa ajassa
Voimme myös valita suuremman tietojoukon ja antaa Canvasin luoda eräennusteita puolestamme.
Yhteenveto
Päästä päähän koneoppiminen on monimutkaista ja iteratiivista, ja siihen liittyy usein useita henkilöitä, teknologioita ja prosesseja. Data Wrangler ja Canvas mahdollistavat tiimien välisen yhteistyön ilman, että näiden tiimien tarvitsee kirjoittaa mitään koodia.
Tietosuunnittelija voi helposti valmistella tiedot Data Wranglerin avulla ilman koodia ja välittää valmistetut tietojoukot yritysanalyytikolle. Yritysanalyytikko voi sitten helposti rakentaa tarkkoja ML-malleja vain muutamalla napsautuksella Canvasin avulla ja saada tarkkoja ennusteita reaaliajassa tai erässä.
Aloita Data Wranglerin käyttö käyttää näitä työkaluja ilman infrastruktuurin hallintaa. Sinä pystyt perustaa Canvasin nopeasti ja välittömästi ala luoda ML-malleja tukemaan yrityksesi tarpeita.
Tietoja Tekijät
Peter Chung on AWS:n ratkaisuarkkitehti ja haluaa intohimoisesti auttaa asiakkaita löytämään oivalluksia tiedoistaan. Hän on rakentanut ratkaisuja, jotka auttavat organisaatioita tekemään datalähtöisiä päätöksiä sekä julkisella että yksityisellä sektorilla. Hänellä on kaikki AWS-sertifikaatit sekä kaksi GCP-sertifikaattia.
Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.
Dan Ferguson on ratkaisuarkkitehti AWS:ssä New Yorkissa, Yhdysvalloissa. Koneoppimispalvelujen asiantuntijana Dan työskentelee tukeakseen asiakkaita heidän matkallaan integroidakseen ML-työnkulkuja tehokkaasti, tehokkaasti ja kestävästi.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- Meistä
- TIIVISTELMÄ
- tarkka
- Lisäksi
- lisä-
- AI
- Kaikki
- Vaikka
- Amazon
- määrä
- analyysi
- analyytikko
- vuotuinen
- Hakemus
- käyttää
- suunnilleen
- arkkitehtuuri
- osoitettu
- auto
- saatavissa
- AWS
- Pankit
- ovat
- reunus
- taukoja
- rakentaa
- Rakentaminen
- liiketoiminta
- ehdokkaat
- kangas
- kyvyt
- Kategoria
- valinta
- Valita
- luokittelu
- koodi
- tehdä yhteistyötä
- yhteistyö
- Sarake
- sitoutunut
- Yhteinen
- monimutkainen
- monimutkaisuus
- sekaannus
- Console
- sisältää
- edistävät
- luoda
- luo
- Luominen
- pisteitä
- kriisi
- Tällä hetkellä
- asiakas
- Asiakkaat
- tiedot
- tietojen analysointi
- tietojenkäsittely
- Velka
- päätökset
- syvempää
- tuottaa
- osoittaa
- sijoittaa
- käyttöönotto
- on kuvattu
- yksityiskohdat
- Määrittää
- Kehitys
- eri
- suoraan
- verkkotunnuksen
- alas
- piirustus
- Pudota
- aikana
- helposti
- tehokkaasti
- poistaa
- mahdollistaa
- päätepiste
- insinööri
- Tekniikka
- Engineers
- arvioidaan
- arviot
- Tapahtumat
- esimerkki
- Käyttää
- asiantuntija
- asiantuntemus
- Ominaisuus
- Ominaisuudet
- taloudellinen
- finanssikriisi
- Etunimi
- virtaus
- Keskittää
- jälkeen
- muoto
- toiminto
- rahastoiva
- tuottaa
- Global
- tavoite
- ottaa
- korkeus
- auttaa
- auttaa
- auttaa
- pitää
- Koti
- Miten
- Kuitenkin
- HTTPS
- Vaikutus
- merkitys
- tuovan
- Mukaan lukien
- Tulo
- tiedot
- Infrastruktuuri
- panos
- oivalluksia
- korko
- liitäntä
- Sijoittajat
- IT
- yhdistää
- liittyi
- matka
- tuntemus
- suuri
- suurempi
- käynnistää
- OPPIA
- oppiminen
- luotonanto
- linja
- lueteltu
- lastaus
- Lainat
- sijainti
- kone
- koneoppiminen
- merkittävä
- TEE
- hoitaa
- onnistui
- johto
- Matriisi
- välineet
- ML
- malli
- mallit
- Kuukausi
- kk
- lisää
- eniten
- liikkua
- moninkertainen
- välttämätön
- tarpeet
- New York
- muistikirja
- numero
- joukkovelkakirjat
- avata
- Vaihtoehto
- Vaihtoehdot
- organisaatioiden
- Muut
- oma
- omistus
- osa
- intohimoinen
- Maksaa
- maksu
- maksut
- suorituskyky
- foorumi
- mahdollinen
- mahdollinen
- ennustaa
- ennustus
- Ennusteet
- Valmistella
- edellinen
- yksityinen
- Ongelma
- ongelmia
- prosessi
- Prosessit
- tuotanto
- julkinen
- tarkoitus
- tarkoituksiin
- laatu
- nopea
- nopeasti
- raaka
- asiakirjat
- Rekisteröinti
- Vuokrata
- raportti
- säilytyspaikka
- edustettuina
- edustaa
- pyyntö
- Vaatii
- Esittelymateriaalit
- vastuut
- vastuu
- tulokset
- arviot
- Riski
- riskienhallinta
- ajaa
- Asteikko
- tiede
- tutkijat
- sektorit
- Sarjat
- Palvelut
- useat
- merkittävä
- Yksinkertainen
- pieni
- So
- vankka
- ratkaisu
- Ratkaisumme
- jonkin verran
- asiantuntija
- nopeus
- jakaa
- vaiheissa
- standardi
- Alkaa
- alkoi
- Lausunto
- tilastollinen
- Tila
- Levytila
- Strateginen
- studio
- tuki
- Tukee
- Kohde
- tehtävät
- Technologies
- testi
- siksi
- Kautta
- aika
- tokenization
- työkalut
- koulutus
- Muuttaa
- Muutos
- ymmärtäminen
- us
- USA
- käyttää
- Käyttäjät
- yleensä
- arvo
- todentaa
- versio
- Näytä
- Mitä
- KUKA
- sisällä
- ilman
- sanoja
- toimii
- olisi
- kirjoittaminen
- vuosi
- vuotta