Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode

Publisert av Platon

Følgere: 0

Siden den globale finanskrisen har risikostyring tatt en stor rolle i utformingen av beslutningstaking for banker, inkludert å forutsi lånestatus for potensielle kunder. Dette er ofte en dataintensiv øvelse som krever maskinlæring (ML). Imidlertid har ikke alle organisasjoner datavitenskapelige ressurser og ekspertise til å bygge en ML-arbeidsflyt for risikostyring.

Amazon SageMaker er en fullt administrert ML-plattform som lar dataingeniører og forretningsanalytikere raskt og enkelt bygge, trene og distribuere ML-modeller. Dataingeniører og forretningsanalytikere kan samarbeide ved å bruke funksjonene uten kode/lav kode til SageMaker. Dataingeniører kan bruke Amazon SageMaker Data Wrangler for raskt å samle og klargjøre data for modellbygging uten å skrive kode. Da kan forretningsanalytikere bruke det visuelle pek-og-klikk-grensesnittet til Amazon SageMaker Canvas å generere nøyaktige ML-spådommer på egenhånd.

I dette innlegget viser vi hvor enkelt det er for dataingeniører og forretningsanalytikere å samarbeide for å bygge en ML-arbeidsflyt som involverer dataforberedelse, modellbygging og inferens uten å skrive kode.

Løsningsoversikt

Selv om ML-utvikling er en kompleks og iterativ prosess, kan du generalisere en ML-arbeidsflyt til dataforberedelse, modellutvikling og modelldistribusjon.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Data Wrangler og Canvas abstraherer kompleksiteten ved dataforberedelse og modellutvikling, slik at du kan fokusere på å levere verdi til virksomheten din ved å hente innsikt fra dataene dine uten å være ekspert på kodeutvikling. Følgende arkitekturdiagram fremhever komponentene i en løsning uten kode/lav kode.

Amazon enkel lagringstjeneste (Amazon S3) fungerer som vårt datalager for rådata, konstruerte data og modellartefakter. Du kan også velge å importere data fra Amazon RedShift, Amazonas Athena, Databricks og Snowflake.

Som dataforskere bruker vi deretter Data Wrangler for utforskende dataanalyse og funksjonsutvikling. Selv om Canvas kan kjøre funksjonsingeniøroppgaver, krever funksjonsteknikk vanligvis litt statistisk kunnskap og domenekunnskap for å berike et datasett til riktig form for modellutvikling. Derfor gir vi dette ansvaret til dataingeniører slik at de kan transformere data uten å skrive kode med Data Wrangler.

Etter dataforberedelse overfører vi modellbyggingsansvaret til dataanalytikere, som kan bruke Canvas til å trene en modell uten å måtte skrive noen kode.

Til slutt lager vi enkelt- og batch-prediksjoner direkte i Canvas fra den resulterende modellen uten å måtte distribuere modellendepunkter selv.

Datasettoversikt

Vi bruker SageMaker-funksjoner for å forutsi statusen til et lån ved å bruke en modifisert versjon av Lending Clubs offentlig tilgjengelig låneanalysedatasett. Datasettet inneholder lånedata for lån utstedt gjennom 2007–2011. Kolonnene som beskriver lånet og låntakeren er våre funksjoner. Kolonnen loan_status er målvariabelen, som er det vi prøver å forutsi.

For å demonstrere i Data Wrangler deler vi datasettet i to CSV-filer: del en og Andre del. Vi har fjernet noen kolonner fra Lending Clubs originale datasett for å forenkle demoen. Datasettet vårt inneholder over 37,000 21 rader og XNUMX funksjonskolonner, som beskrevet i følgende tabell.

Kolonne navn	Beskrivelse
`loan_status`	Nåværende status på lånet (målvariabel).
`loan_amount`	Det oppførte lånebeløpet låntaker har søkt om. Hvis kredittavdelingen reduserer lånebeløpet, gjenspeiles det i denne verdien.
`funded_amount_by_investors`	Det totale beløpet investorer forpliktet til det lånet på det tidspunktet.
`term`	Antall betalinger på lånet. Verdiene er i måneder og kan være enten 36 eller 60.
`interest_rate`	Rente på lånet.
`installment`	Den månedlige betalingen som låntakeren skylder dersom lånet oppstår.
`grade`	LC tildelt lånekarakter.
`sub_grade`	LC tildelt låneundergrad.
`employment_length`	Ansettelseslengde i år. Mulige verdier er mellom 0–10, der 0 betyr mindre enn ett år og 10 betyr ti eller flere år.
`home_ownership`	Boligeierskapsstatus oppgitt av låntaker under registrering. Våre verdier er LEIE, EGEN, PANT, og ANNET.
`annual_income`	Den egenrapporterte årsinntekten gitt av låntakeren ved registrering.
`verification_status`	Indikerer om inntekten ble bekreftet eller ikke av LC.
`issued_amount`	Måneden lånet ble finansiert.
`purpose`	En kategori oppgitt av låntakeren for låneforespørselen.
`dti`	Et forhold som beregnes ved hjelp av låntakers totale månedlige gjeldsbetalinger på de totale gjeldsforpliktelsene, eksklusiv boliglån og det forespurte LC-lånet, delt på låntakerens egenrapporterte månedlige inntekt.
`earliest_credit_line`	Måneden låntakerens tidligst rapporterte kredittgrense ble åpnet.
`inquiries_last_6_months`	Antall henvendelser de siste 6 månedene (ekskludert bil- og boliglånsforespørsler).
`open_credit_lines`	Antall åpne kredittlinjer i låntakerens kredittfil.
`derogatory_public_records`	Antall nedsettende offentlige registre.
`revolving_line_utilization_rate`	Utnyttelsesgrad for rullerende linjer, eller mengden kreditt låntakeren bruker i forhold til all tilgjengelig rullerende kreditt.
`total_credit_lines`	Det totale antallet kredittlinjer som for øyeblikket er i låntakerens kredittfil.

Vi bruker dette datasettet til vår dataforberedelse og modelltrening.

Forutsetninger

Fullfør følgende forutsetningstrinn:

Last opp begge lånefilene til en S3-bøtte etter eget valg.
Sørg for at du har de nødvendige tillatelsene. For mer informasjon, se Kom i gang med Data Wrangler.
Sett opp et SageMaker-domene konfigurert til å bruke Data Wrangler. For instruksjoner, se Ombord på Amazon SageMaker Domain.

Importer dataene

Opprett en ny Data Wrangler-dataflyt fra Amazon SageMaker Studio UI.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Importer data fra Amazon S3 ved å velge CSV-filene fra S3-bøtten der du plasserte datasettet. Etter at du har importert begge filene, kan du se to separate arbeidsflyter i Dataflyt utsikt.

Du kan velge flere samplingsalternativer når du importerer dataene dine i en Data Wrangler-flyt. Prøvetaking kan hjelpe når du har et datasett som er for stort til å forberedes interaktivt, eller når du ønsker å bevare andelen sjeldne hendelser i det samplede datasettet. Siden datasettet vårt er lite, bruker vi ikke prøvetaking.

Forbered dataene

For vårt bruksområde har vi to datasett med en felles kolonne: id. Som et første skritt i dataforberedelsen ønsker vi å kombinere disse filene ved å slå dem sammen. For instruksjoner, se Transformer data.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi bruker Bli med datatransformasjonstrinn og bruk Indre bli med skriv på id kolonne.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Som et resultat av vår sammenføyningstransformasjon, oppretter Data Wrangler ytterligere to kolonner: id_0 og id_1. Disse søylene er imidlertid unødvendige for våre modellbyggeformål. Vi slipper disse overflødige kolonnene ved å bruke Administrer kolonner transformere trinn.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi har importert datasettene våre, lagt dem sammen og fjernet unødvendige kolonner. Vi er nå klare til å berike dataene våre gjennom funksjonsutvikling og forberede modellbygging.

Utfør funksjonsteknikk

Vi brukte Data Wrangler for å utarbeide data. Du kan også bruke Datakvalitets- og innsiktsrapportfunksjon i Data Wrangler for å verifisere datakvaliteten og oppdage avvik i dataene dine. Dataforskere må ofte bruke denne datainnsikten for å effektivt bruke riktig domenekunnskap til tekniske funksjoner. For dette innlegget antar vi at vi har fullført disse kvalitetsvurderingene og kan gå videre til funksjonsteknikk.

I dette trinnet bruker vi noen få transformasjoner til numeriske, kategoriske og tekstkolonner.

Vi normaliserer først renten for å skalere verdiene mellom 0–1. Vi gjør dette ved å bruke Prosess numerisk transformere for å skalere interest_rate kolonne ved hjelp av en min-max scaler. Hensikten med normalisering (eller standardisering) er å eliminere skjevhet fra modellen vår. Variabler som måles på forskjellige skalaer vil ikke bidra like mye til modelllæringsprosessen. Derfor hjelper en transformasjonsfunksjon som en min-maks skaleringstransformasjon med å normalisere funksjoner.

For å konvertere en kategorivariabel til en numerisk verdi, bruker vi one-hot-koding. Vi velger Kode kategorisk transformere, og velg deretter En-varm koding. One-hot-koding forbedrer en ML-modells prediksjonsevne. Denne prosessen konverterer en kategorisk verdi til en ny funksjon ved å tilordne en binær verdi på 1 eller 0 til funksjonen. Som et enkelt eksempel, hvis du hadde en kolonne som inneholdt enten en verdi på yes or no, vil en-hot-koding konvertere den kolonnen til to kolonner: a Yes kolonne og en No kolonne. En ja-verdi ville ha 1 i Yes kolonne og en 0 i No kolonne. One-hot-koding gjør dataene våre mer nyttige fordi numeriske verdier lettere kan bestemme en sannsynlighet for våre spådommer.

Til slutt presenterer vi employer_title kolonne for å transformere strengverdiene til en numerisk vektor. Vi anvender Count Vectorizer og en standard tokenizer i Vektorer forvandle. Tokenisering bryter ned en setning eller serie med tekst til ord, mens en vektorisering konverterer tekstdata til en maskinlesbar form. Disse ordene er representert som vektorer.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når alle funksjonstrinn er fullført, kan vi eksportere dataene og sende ut resultatene til S3-bøtten vår. Alternativt kan du eksportere flyten din som Python-kode, eller en Jupyter-notisbok for å lage en pipeline med visningen din ved å bruke Amazon SageMaker-rørledninger. Vurder dette når du ønsker å kjøre funksjonsingeniørtrinnene dine i stor skala eller som en del av en ML-pipeline.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi kan nå bruke Data Wrangler-utdatafilen som vår input for Canvas. Vi refererer til dette som et datasett i Canvas for å bygge vår ML-modell.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I vårt tilfelle eksporterte vi vårt forberedte datasett til standard Studio-bøtte med en output prefiks. Vi refererer til denne datasettplasseringen når vi laster dataene inn i Canvas for neste modellbygging.

Bygg og tren ML-modellen din med Canvas

Start Canvas-applikasjonen på SageMaker-konsollen. For å bygge en ML-modell fra de forberedte dataene i forrige seksjon, utfører vi følgende trinn:

Importer det forberedte datasettet til Canvas fra S3-bøtten.

Vi refererer til den samme S3-banen der vi eksporterte Data Wrangler-resultatene fra forrige seksjon.

Lag ny modell i Canvas og navngi den loan_prediction_model.
Velg det importerte datasettet og legg det til modellobjektet.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

For å få Canvas til å bygge en modell, må vi velge målkolonnen.

Fordi målet vårt er å forutsi sannsynligheten for en långivers evne til å betale tilbake et lån, velger vi loan_status kolonne.

Canvas identifiserer automatisk typen ML-problemsetning. I skrivende stund støtter Canvas problemer med regresjon, klassifisering og tidsserieprognose. Du kan spesifisere typen problem eller la Canvas automatisk utlede problemet fra dataene dine.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Velg alternativet for å starte modellbyggingsprosessen: Rask bygging or Standard konstruksjon.

De Rask bygging alternativet bruker datasettet ditt til å trene en modell innen 2–15 minutter. Dette er nyttig når du eksperimenterer med et nytt datasett for å finne ut om datasettet du har vil være tilstrekkelig til å lage spådommer. Vi bruker dette alternativet for dette innlegget.

De Standard konstruksjon alternativet velger nøyaktighet fremfor hastighet og bruker omtrent 250 modellkandidater til å trene modellen. Prosessen tar vanligvis 1–2 timer.

Etter at modellen er bygget, kan du se gjennom resultatene av modellen. Canvas anslår at modellen din er i stand til å forutsi det riktige resultatet 82.9 % av tiden. Dine egne resultater kan variere på grunn av variasjonen i treningsmodeller.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I tillegg kan du dykke dypt ned i detaljanalyse av modellen for å lære mer om modellen.

Funksjonsviktighet representerer den estimerte betydningen av hver funksjon for å forutsi målkolonnen. I dette tilfellet har kolonnen kredittgrense den mest betydelige innvirkningen når det gjelder å forutsi om en kunde vil betale tilbake lånebeløpet, etterfulgt av rente og årsinntekt.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Forvirringsmatrisen i Avanserte beregninger delen inneholder informasjon for brukere som ønsker en dypere forståelse av modellens ytelse.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Før du kan distribuere modellen din for produksjonsarbeidsbelastninger, bruk Canvas til å teste modellen. Canvas administrerer modellendepunktet vårt og lar oss lage spådommer direkte i Canvas brukergrensesnitt.

Velg forutsi og gjennomgå funnene på enten Batch prediksjon or Enkel prediksjon fanen.

I det følgende eksempelet gjør vi en enkelt prediksjon ved å modifisere verdier for å forutsi målvariabelen vår loan_status i virkeligheten

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi kan også velge et større datasett og la Canvas generere batch-prediksjoner på våre vegne.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

konklusjonen

Ende-til-ende maskinlæring er kompleks og iterativ, og involverer ofte flere personas, teknologier og prosesser. Data Wrangler og Canvas muliggjør samarbeid mellom team uten å kreve at disse teamene skriver noen kode.

En dataingeniør kan enkelt forberede data ved hjelp av Data Wrangler uten å skrive noen kode og sende det forberedte datasettet til en forretningsanalytiker. En forretningsanalytiker kan deretter enkelt bygge nøyaktige ML-modeller med bare noen få klikk ved å bruke Canvas og få nøyaktige spådommer i sanntid eller i batch.

Kom i gang med Data Wrangler bruke disse verktøyene uten å måtte administrere noen infrastruktur. Du kan sette opp Canvas raskt og umiddelbart begynne å lage ML-modeller for å støtte dine forretningsbehov.

Om forfatterne

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Peter Chung er en løsningsarkitekt for AWS, og brenner for å hjelpe kunder med å avdekke innsikt fra dataene deres. Han har bygget løsninger for å hjelpe organisasjoner med å ta datadrevne beslutninger i både offentlig og privat sektor. Han innehar alle AWS-sertifiseringer samt to GCP-sertifiseringer.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med AWS. Han hjelper høyteknologiske strategiske kontoer på deres AI- og ML-reise. Han er veldig lidenskapelig opptatt av datadrevet AI.

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Dan Ferguson er løsningsarkitekt ved AWS, basert i New York, USA. Som ekspert på maskinlæringstjenester jobber Dan for å støtte kunder på deres reise for å integrere ML-arbeidsflyter effektivt, effektivt og bærekraftig.

Tidstempel: Kan 19, 2022

Tidstempel: Kan 4, 2022

Bygg en arbeidsflyt for maskinlæring for risikostyring på Amazon SageMaker uten kode

Publisert av Platon

Løsningsoversikt

Datasettoversikt

Forutsetninger

Importer dataene

Forbered dataene

Utfør funksjonsteknikk

Bygg og tren ML-modellen din med Canvas

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Fremme funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens metadatafunksjon på funksjonsnivå

Reduser Amazon SageMaker-slutningskostnadene med AWS Graviton

Distribuer og administrer pipelines for maskinlæring med Terraform ved å bruke Amazon SageMaker

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn