Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakeriin ilman koodia

Julkaissut Platon

seuraajia: 0

Maailmanlaajuisen finanssikriisin jälkeen riskienhallinta on ottanut merkittävän roolin pankkien päätöksenteossa, mukaan lukien potentiaalisten asiakkaiden lainatilan ennustaminen. Tämä on usein dataintensiivinen harjoitus, joka vaatii koneoppimista (ML). Kaikilla organisaatioilla ei kuitenkaan ole datatieteen resursseja ja asiantuntemusta riskienhallinnan ML-työnkulun rakentamiseen.

Amazon Sage Maker on täysin hallittu ML-alusta, jonka avulla tietoinsinöörit ja yritysanalyytikot voivat nopeasti ja helposti rakentaa, kouluttaa ja ottaa käyttöön ML-malleja. Tietosuunnittelijat ja yritysanalyytikot voivat tehdä yhteistyötä käyttämällä SageMakerin no-code/low-code ominaisuuksia. Tietosuunnittelijat voivat käyttää Amazon SageMaker Data Wrangler tietojen nopeaan kokoamiseen ja valmistelemiseen mallin rakentamista varten ilman koodin kirjoittamista. Sitten yritysanalyytikot voivat käyttää visuaalista osoita ja napsauta -käyttöliittymää Amazon SageMaker Canvas luodakseen tarkkoja ML-ennusteita itsekseen.

Tässä viestissä näytämme, kuinka helppoa datainsinöörien ja yritysanalyytikoiden on tehdä yhteistyötä rakentaakseen ML-työnkulun, joka sisältää tietojen valmistelun, mallin rakentamisen ja päättelyn ilman koodin kirjoittamista.

Ratkaisun yleiskatsaus

Vaikka ML-kehitys on monimutkainen ja iteratiivinen prosessi, voit yleistää ML-työnkulun tietojen valmistelu-, mallikehitys- ja mallin käyttöönottovaiheisiin.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Data Wrangler ja Canvas tekevät tiedon valmistelun ja mallikehityksen monimutkaisuudesta abstraktin, joten voit keskittyä tuottamaan lisäarvoa yrityksellesi ottamalla näkemyksiä tiedoistasi olematta koodikehityksen asiantuntija. Seuraavassa arkkitehtuurikaaviossa korostetaan no-code/low-code-ratkaisun komponentteja.

Amazonin yksinkertainen tallennuspalvelu (Amazon S3) toimii raakadatan, suunniteltujen tietojen ja malliartefaktien tietovarastona. Voit myös valita, haluatko tuoda tietoja Amazonin punainen siirto, Amazon Athena, Databricks ja Snowflake.

Datatieteilijöinä käytämme sitten Data Wrangleria tutkivaan data-analyysiin ja ominaisuussuunnitteluun. Vaikka Canvas voi suorittaa ominaisuussuunnittelutehtäviä, ominaisuussuunnittelu vaatii yleensä jonkin verran tilasto- ja aluetietoa rikastaakseen tietojoukon oikeaan muotoon mallin kehittämistä varten. Siksi annamme tämän vastuun tietosuunnittelijoille, jotta he voivat muuntaa tietoja kirjoittamatta koodia Data Wranglerilla.

Tietojen valmistelun jälkeen siirrämme mallinrakennusvastuut data-analyytikoille, jotka voivat kouluttaa mallin Canvasilla ilman koodin kirjoittamista.

Lopuksi teemme yksittäis- ja eräennusteita suoraan Canvasissa tuloksena olevasta mallista ilman, että meidän tarvitsee ottaa mallin päätepisteitä käyttöön itse.

Tietojoukon yleiskatsaus

Käytämme SageMaker-ominaisuuksia lainan tilan ennustamiseen käyttämällä Lending Clubin muokattua versiota julkisesti saatavilla oleva laina-analyysitietoaineisto. Aineisto sisältää lainatiedot vuosille 2007–2011 myönnetyistä lainoista. Lainaa ja lainanottajaa kuvaavat sarakkeet ovat ominaisuuksiamme. Sarake laina_tila on kohdemuuttuja, jota yritämme ennustaa.

Havainnollistaaksemme Data Wranglerissa olemme jakaneet tietojoukon kahteen CSV-tiedostoon: osa yksi ja osa kaksi. Olemme poistaneet joitain sarakkeita Lending Clubin alkuperäisestä tietojoukosta esittelyn yksinkertaistamiseksi. Tietojoukkomme sisältää yli 37,000 21 riviä ja XNUMX ominaisuussaraketta, kuten seuraavassa taulukossa on kuvattu.

Sarakkeen nimi	Kuvaus
`loan_status`	Lainan nykytila (tavoitemuuttuja).
`loan_amount`	Luettelo lainanottajan hakemasta lainasta. Jos luottoosasto pienentää lainasummaa, se näkyy tässä arvossa.
`funded_amount_by_investors`	Sijoittajien kyseiseen lainaan tuolloin sitoutunut kokonaismäärä.
`term`	Lainan maksujen määrä. Arvot ovat kuukausia ja voivat olla joko 36 tai 60.
`interest_rate`	Lainan korko.
`installment`	Lainaajan kuukausierä, jos laina on peräisin.
`grade`	LC:lle määrätty lainaluokka.
`sub_grade`	LC:lle määrätty laina-alaluokitus.
`employment_length`	Työsuhteen pituus vuosina. Mahdolliset arvot ovat välillä 0-10, jossa 0 tarkoittaa alle vuotta ja 10 tarkoittaa kymmentä tai enemmän.
`home_ownership`	Asunnon omistusoikeus, jonka lainanottaja ilmoittaa rekisteröinnin yhteydessä. Arvomme ovat VUOKRA, OMA, ASUNTOLAINA ja MUUT.
`annual_income`	Lainaajan ilmoittamat vuositulot rekisteröinnin yhteydessä.
`verification_status`	Osoittaa, onko tulot varmentanut LC vai ei.
`issued_amount`	Kuukausi, jolloin laina rahoitettiin.
`purpose`	Luokka, jonka lainanottaja on antanut lainapyynnölle.
`dti`	Suhde, joka lasketaan käyttämällä lainanottajan kuukausittaisten velkojen kokonaismäärää velkasitoumusten kokonaismäärästä, pois lukien asuntolaina ja haettu LC-laina, jaettuna lainanottajan itsensä ilmoittamilla kuukausituloilla.
`earliest_credit_line`	Kuukausi, jolloin lainanottajan aikaisin ilmoitettu luottoraja avattiin.
`inquiries_last_6_months`	Tiedustelujen määrä viimeisen 6 kuukauden aikana (pois lukien auto- ja asuntolainakyselyt).
`open_credit_lines`	Avointen luottolimiittien määrä lainanottajan luottotiedostossa.
`derogatory_public_records`	Halvenneiden julkisten tietueiden määrä.
`revolving_line_utilization_rate`	Revolving line -käyttöaste tai lainanottajan käyttämä luoton määrä suhteessa kaikkeen käytettävissä olevaan valmiusluottoon.
`total_credit_lines`	Lainanottajan luottotiedostossa tällä hetkellä olevien luottorajojen kokonaismäärä.

Käytämme tätä tietojoukkoa tietojen valmisteluun ja mallikoulutukseen.

Edellytykset

Suorita seuraavat edellytysvaiheet:

Lataa molemmat lainatiedostot valitsemaasi S3-kauhaan.
Varmista, että sinulla on tarvittavat käyttöoikeudet. Lisätietoja on kohdassa Aloita Data Wranglerin käyttö.
Määritä SageMaker-toimialue, joka on määritetty käyttämään Data Wrangleria. Katso ohjeet kohdasta Sisääntulo Amazon SageMaker -verkkotunnukseen.

Tuo tiedot

Luo uusi Data Wrangler -tietovirta mistä Amazon SageMaker Studion käyttöliittymä.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tuo tiedot Amazon S3:sta valitsemalla CSV-tiedostot S3-säilystä, johon asetit tietojoukon. Kun olet tuonut molemmat tiedostot, näet kaksi erillistä työnkulkua tiedostossa Tietovirta näkymä.

Voit valita useita otantavaihtoehtoja, kun tuot tietojasi Data Wrangler -kulkuun. Otanta voi auttaa, kun tietojoukkosi on liian suuri vuorovaikutteiseen valmisteluun tai kun haluat säilyttää harvinaisten tapahtumien osuuden otantatietojoukossasi. Koska tietojoukkomme on pieni, emme käytä otantaa.

Valmistele tiedot

Meidän käyttötapauksessamme meillä on kaksi tietojoukkoa, joissa on yhteinen sarake: id. Ensimmäisenä vaiheena tietojen valmistelussa haluamme yhdistää nämä tiedostot yhdistämällä ne. Katso ohjeet kohdasta Muuta tietoja.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Käytämme Liity tietojen muunnosvaihe ja käytä Sisempi liitä tyyppiä id sarake.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Liitosmuunnoksen tuloksena Data Wrangler luo kaksi lisäsaraketta: id_0 ja id_1. Nämä sarakkeet ovat kuitenkin tarpeettomia mallinrakennustarkoituksiin. Pudotamme nämä ylimääräiset sarakkeet käyttämällä Hallitse sarakkeita muunnosvaihe.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Olemme tuoneet tietojoukkomme, yhdistäneet ne ja poistaneet tarpeettomat sarakkeet. Olemme nyt valmiita rikastuttamaan tietojamme ominaisuussuunnittelun avulla ja valmistautumaan mallin rakentamiseen.

Suorita ominaisuussuunnittelu

Käytimme Data Wrangleria tietojen valmisteluun. Voit myös käyttää Data Quality and Insights Report -ominaisuus Data Wranglerissa varmistaaksesi tietojesi laadun ja havaitaksesi poikkeavuuksia tiedoissasi. Datatieteilijöiden on usein käytettävä näitä tietonäkemyksiä soveltaakseen tehokkaasti oikeaa aluetietoa suunnitteluominaisuuksiin. Tässä viestissä oletamme, että olemme suorittaneet nämä laatuarvioinnit ja voimme siirtyä ominaisuuksien suunnitteluun.

Tässä vaiheessa käytämme muutamia muunnoksia numeerisiin, kategoriallisiin ja tekstisarakkeisiin.

Normalisoimme ensin koron skaalaamaan arvot välillä 0–1. Teemme tämän käyttämällä Prosessi numeerinen muuntaa mittakaavassa interest_rate sarakkeessa käyttämällä min-max-skaalauslaitetta. Normalisoinnin (tai standardoinnin) tarkoitus on eliminoida harha mallistamme. Muuttujat, joita mitataan eri asteikoilla, eivät vaikuta tasaisesti mallin oppimisprosessiin. Siksi muunnosfunktio, kuten min-max-skaalausmuunnos, auttaa normalisoimaan ominaisuuksia.

Kategoriaalisen muuttujan muuttamiseksi numeeriseksi arvoksi käytämme one-hot-koodausta. Me valitsemme Koodaa kategorinen muunna ja valitse sitten Yksi kuuma koodaus. One-hot-koodaus parantaa ML-mallin ennustuskykyä. Tämä prosessi muuntaa kategorisen arvon uudeksi ominaisuudeksi määrittämällä ominaisuudelle binääriarvon 1 tai 0. Yksinkertaisena esimerkkinä, jos sinulla olisi yksi sarake, jossa oli jompikumpi arvo yes or no, one-hot-koodaus muuntaa sarakkeen kahdeksi sarakkeeksi: a Yes sarake ja a No sarakkeessa. Kyllä-arvolla olisi 1 Yes sarakkeessa ja 0 No sarakkeessa. One-hot-koodaus tekee tiedoistamme hyödyllisempiä, koska numeeriset arvot voivat määrittää ennusteidemme todennäköisyyden helpommin.

Lopuksi esittelemme employer_title sarakkeessa muuttaaksesi sen merkkijonoarvot numeerisiksi vektoriksi. Sovellamme Laske Vectorizer ja vakio tokenizer sisällä Vektorisoida muuttaa. Tokenisointi hajottaa lauseen tai tekstisarjan sanoiksi, kun taas vektorointi muuntaa tekstitiedot koneellisesti luettavaan muotoon. Nämä sanat esitetään vektoreina.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kun kaikki ominaisuuksien suunnitteluvaiheet on suoritettu, voimme viedä tiedot ja tulostaa tulokset S3-säihösimme. Vaihtoehtoisesti voit viedä kulkusi Python-koodina tai Jupyter-muistikirjana luodaksesi liukuhihnan näkymästäsi käyttämällä Amazon SageMaker -putkistot. Harkitse tätä, kun haluat suorittaa ominaisuuden suunnitteluvaiheita mittakaavassa tai osana ML-liukuhihnaa.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme nyt käyttää Data Wrangler -tulostustiedostoa syötteenä Canvasille. Käytämme tätä tietojoukkona Canvasissa ML-mallimme rakentamiseksi.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Meidän tapauksessamme vietimme valmistetut tietojoukot Studion oletussäilöyn an output etuliite. Viittaamme tähän tietojoukon sijaintiin, kun lataamme tietoja Canvasiin seuraavan mallin rakentamista varten.

Rakenna ja harjoittele ML-malliasi Canvasilla

Käynnistä Canvas-sovellus SageMaker-konsolissa. ML-mallin rakentamiseksi edellisessä osiossa valmistetuista tiedoista suoritamme seuraavat vaiheet:

Tuo valmis tietojoukko Canvasiin S3-alueesta.

Viitataan samaan S3-polkuun, johon vietimme Data Wrangler -tulokset edellisestä osasta.

Luo uusi malli Canvasissa ja nimeä se loan_prediction_model.
Valitse tuotu tietojoukko ja lisää se malliobjektiin.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Jotta Canvas rakentaa mallin, meidän on valittava kohdesarake.

Koska tavoitteemme on ennustaa lainanantajan kykyä maksaa laina takaisin, valitsemme loan_status sarake.

Canvas tunnistaa automaattisesti ML-ongelmalauseen tyypin. Kirjoitushetkellä Canvas tukee regressio-, luokittelu- ja aikasarjaennustusongelmia. Voit määrittää ongelman tyypin tai määrittää Canvasin päättelemään ongelman automaattisesti tiedoistasi.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Valitse vaihtoehto mallinrakennusprosessin aloittamiseksi: Nopea rakentaa or Vakiorakenne.

- Nopea rakentaa vaihtoehto käyttää tietojoukkoasi mallin kouluttamiseen 2–15 minuutissa. Tästä on hyötyä, kun kokeilet uutta tietojoukkoa määrittääksesi, riittääkö olemassa oleva tietojoukko ennusteiden tekemiseen. Käytämme tätä vaihtoehtoa tässä viestissä.

- Vakiorakenne vaihtoehto valitsee tarkkuuden nopeuden sijaan ja käyttää noin 250 mallikandidaattia mallin kouluttamiseen. Prosessi kestää yleensä 1-2 tuntia.

Kun malli on rakennettu, voit tarkastella mallin tuloksia. Canvas arvioi, että mallisi pystyy ennustamaan oikean lopputuloksen 82.9 % ajasta. Omat tulokset voivat vaihdella harjoitusmallien vaihtelevuuden vuoksi.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Lisäksi voit sukeltaa syvälle mallin yksityiskohtien analyysiin saadaksesi lisätietoja mallista.

Ominaisuuden tärkeys edustaa kunkin ominaisuuden arvioitua merkitystä kohdesarakkeen ennustamisessa. Tässä tapauksessa luottoraja-sarakkeella on merkittävin vaikutus ennustettaessa, maksaako asiakas takaisin lainan, jonka jälkeen tulevat korko ja vuositulot.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Hämmennysmatriisi Kehittyneet mittarit -osio sisältää tietoa käyttäjille, jotka haluavat syvemmän ymmärryksen mallinsa suorituskyvystä.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Ennen kuin voit ottaa mallin käyttöön tuotantokuormituksissa, testaa malli Canvasilla. Canvas hallitsee mallin päätepistettä ja antaa meille mahdollisuuden tehdä ennusteita suoraan Canvas-käyttöliittymässä.

Valita Ennustaa ja tarkista havainnot joko Eräennustus or Yksittäinen ennuste Tab.

Seuraavassa esimerkissä teemme yhden ennusteen muokkaamalla arvoja ennustaaksemme kohdemuuttujamme loan_status oikeassa ajassa

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme myös valita suuremman tietojoukon ja antaa Canvasin luoda eräennusteita puolestamme.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yhteenveto

Päästä päähän koneoppiminen on monimutkaista ja iteratiivista, ja siihen liittyy usein useita henkilöitä, teknologioita ja prosesseja. Data Wrangler ja Canvas mahdollistavat tiimien välisen yhteistyön ilman, että näiden tiimien tarvitsee kirjoittaa mitään koodia.

Tietosuunnittelija voi helposti valmistella tiedot Data Wranglerin avulla ilman koodia ja välittää valmistetut tietojoukot yritysanalyytikolle. Yritysanalyytikko voi sitten helposti rakentaa tarkkoja ML-malleja vain muutamalla napsautuksella Canvasin avulla ja saada tarkkoja ennusteita reaaliajassa tai erässä.

Aloita Data Wranglerin käyttö käyttää näitä työkaluja ilman infrastruktuurin hallintaa. Sinä pystyt perustaa Canvasin nopeasti ja välittömästi ala luoda ML-malleja tukemaan yrityksesi tarpeita.

Tietoja Tekijät

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. Peter Chung on AWS:n ratkaisuarkkitehti ja haluaa intohimoisesti auttaa asiakkaita löytämään oivalluksia tiedoistaan. Hän on rakentanut ratkaisuja, jotka auttavat organisaatioita tekemään datalähtöisiä päätöksiä sekä julkisella että yksityisellä sektorilla. Hänellä on kaikki AWS-sertifikaatit sekä kaksi GCP-sertifikaattia.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. Dan Ferguson on ratkaisuarkkitehti AWS:ssä New Yorkissa, Yhdysvalloissa. Koneoppimispalvelujen asiantuntijana Dan työskentelee tukeakseen asiakkaita heidän matkallaan integroidakseen ML-työnkulkuja tehokkaasti, tehokkaasti ja kestävästi.

Aikaleima: Voi 19, 2022

Aikaleima: Voi 4, 2022

Rakenna riskienhallinnan koneoppimisen työnkulku Amazon SageMakerissa ilman koodia

Julkaissut Platon

Ratkaisun yleiskatsaus

Tietojoukon yleiskatsaus

Edellytykset

Tuo tiedot

Valmistele tiedot

Suorita ominaisuussuunnittelu

Rakenna ja harjoittele ML-malliasi Canvasilla

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Edistä ominaisuuksien löytämistä ja uudelleenkäyttöä organisaatiossasi käyttämällä Amazon SageMaker Feature Storea ja sen ominaisuustason metatietoominaisuuksia

Vähennä Amazon SageMakerin päättelykustannuksia AWS Gravitonin avulla

Ota käyttöön ja hallitse koneoppimisputkia Terraformin avulla Amazon SageMakerin avulla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili