Siden den globale finanskrisen har risikostyring tatt en stor rolle i utformingen av beslutningstaking for banker, inkludert å forutsi lånestatus for potensielle kunder. Dette er ofte en dataintensiv øvelse som krever maskinlæring (ML). Imidlertid har ikke alle organisasjoner datavitenskapelige ressurser og ekspertise til å bygge en ML-arbeidsflyt for risikostyring.
Amazon SageMaker er en fullt administrert ML-plattform som lar dataingeniører og forretningsanalytikere raskt og enkelt bygge, trene og distribuere ML-modeller. Dataingeniører og forretningsanalytikere kan samarbeide ved å bruke funksjonene uten kode/lav kode til SageMaker. Dataingeniører kan bruke Amazon SageMaker Data Wrangler for raskt å samle og klargjøre data for modellbygging uten å skrive kode. Da kan forretningsanalytikere bruke det visuelle pek-og-klikk-grensesnittet til Amazon SageMaker Canvas å generere nøyaktige ML-spådommer på egenhånd.
I dette innlegget viser vi hvor enkelt det er for dataingeniører og forretningsanalytikere å samarbeide for å bygge en ML-arbeidsflyt som involverer dataforberedelse, modellbygging og inferens uten å skrive kode.
Løsningsoversikt
Selv om ML-utvikling er en kompleks og iterativ prosess, kan du generalisere en ML-arbeidsflyt til dataforberedelse, modellutvikling og modelldistribusjon.
Data Wrangler og Canvas abstraherer kompleksiteten ved dataforberedelse og modellutvikling, slik at du kan fokusere på å levere verdi til virksomheten din ved å hente innsikt fra dataene dine uten å være ekspert på kodeutvikling. Følgende arkitekturdiagram fremhever komponentene i en løsning uten kode/lav kode.
Amazon enkel lagringstjeneste (Amazon S3) fungerer som vårt datalager for rådata, konstruerte data og modellartefakter. Du kan også velge å importere data fra Amazon RedShift, Amazonas Athena, Databricks og Snowflake.
Som dataforskere bruker vi deretter Data Wrangler for utforskende dataanalyse og funksjonsutvikling. Selv om Canvas kan kjøre funksjonsingeniøroppgaver, krever funksjonsteknikk vanligvis litt statistisk kunnskap og domenekunnskap for å berike et datasett til riktig form for modellutvikling. Derfor gir vi dette ansvaret til dataingeniører slik at de kan transformere data uten å skrive kode med Data Wrangler.
Etter dataforberedelse overfører vi modellbyggingsansvaret til dataanalytikere, som kan bruke Canvas til å trene en modell uten å måtte skrive noen kode.
Til slutt lager vi enkelt- og batch-prediksjoner direkte i Canvas fra den resulterende modellen uten å måtte distribuere modellendepunkter selv.
Datasettoversikt
Vi bruker SageMaker-funksjoner for å forutsi statusen til et lån ved å bruke en modifisert versjon av Lending Clubs offentlig tilgjengelig låneanalysedatasett. Datasettet inneholder lånedata for lån utstedt gjennom 2007–2011. Kolonnene som beskriver lånet og låntakeren er våre funksjoner. Kolonnen loan_status er målvariabelen, som er det vi prøver å forutsi.
For å demonstrere i Data Wrangler deler vi datasettet i to CSV-filer: del en og Andre del. Vi har fjernet noen kolonner fra Lending Clubs originale datasett for å forenkle demoen. Datasettet vårt inneholder over 37,000 21 rader og XNUMX funksjonskolonner, som beskrevet i følgende tabell.
Kolonne navn | Beskrivelse |
loan_status |
Nåværende status på lånet (målvariabel). |
loan_amount |
Det oppførte lånebeløpet låntaker har søkt om. Hvis kredittavdelingen reduserer lånebeløpet, gjenspeiles det i denne verdien. |
funded_amount_by_investors |
Det totale beløpet investorer forpliktet til det lånet på det tidspunktet. |
term |
Antall betalinger på lånet. Verdiene er i måneder og kan være enten 36 eller 60. |
interest_rate |
Rente på lånet. |
installment |
Den månedlige betalingen som låntakeren skylder dersom lånet oppstår. |
grade |
LC tildelt lånekarakter. |
sub_grade |
LC tildelt låneundergrad. |
employment_length |
Ansettelseslengde i år. Mulige verdier er mellom 0–10, der 0 betyr mindre enn ett år og 10 betyr ti eller flere år. |
home_ownership |
Boligeierskapsstatus oppgitt av låntaker under registrering. Våre verdier er LEIE, EGEN, PANT, og ANNET. |
annual_income |
Den egenrapporterte årsinntekten gitt av låntakeren ved registrering. |
verification_status |
Indikerer om inntekten ble bekreftet eller ikke av LC. |
issued_amount |
Måneden lånet ble finansiert. |
purpose |
En kategori oppgitt av låntakeren for låneforespørselen. |
dti |
Et forhold som beregnes ved hjelp av låntakers totale månedlige gjeldsbetalinger på de totale gjeldsforpliktelsene, eksklusiv boliglån og det forespurte LC-lånet, delt på låntakerens egenrapporterte månedlige inntekt. |
earliest_credit_line |
Måneden låntakerens tidligst rapporterte kredittgrense ble åpnet. |
inquiries_last_6_months |
Antall henvendelser de siste 6 månedene (ekskludert bil- og boliglånsforespørsler). |
open_credit_lines |
Antall åpne kredittlinjer i låntakerens kredittfil. |
derogatory_public_records |
Antall nedsettende offentlige registre. |
revolving_line_utilization_rate |
Utnyttelsesgrad for rullerende linjer, eller mengden kreditt låntakeren bruker i forhold til all tilgjengelig rullerende kreditt. |
total_credit_lines |
Det totale antallet kredittlinjer som for øyeblikket er i låntakerens kredittfil. |
Vi bruker dette datasettet til vår dataforberedelse og modelltrening.
Forutsetninger
Fullfør følgende forutsetningstrinn:
- Last opp begge lånefilene til en S3-bøtte etter eget valg.
- Sørg for at du har de nødvendige tillatelsene. For mer informasjon, se Kom i gang med Data Wrangler.
- Sett opp et SageMaker-domene konfigurert til å bruke Data Wrangler. For instruksjoner, se Ombord på Amazon SageMaker Domain.
Importer dataene
Opprett en ny Data Wrangler-dataflyt fra Amazon SageMaker Studio UI.
Importer data fra Amazon S3 ved å velge CSV-filene fra S3-bøtten der du plasserte datasettet. Etter at du har importert begge filene, kan du se to separate arbeidsflyter i Dataflyt utsikt.
Du kan velge flere samplingsalternativer når du importerer dataene dine i en Data Wrangler-flyt. Prøvetaking kan hjelpe når du har et datasett som er for stort til å forberedes interaktivt, eller når du ønsker å bevare andelen sjeldne hendelser i det samplede datasettet. Siden datasettet vårt er lite, bruker vi ikke prøvetaking.
Forbered dataene
For vårt bruksområde har vi to datasett med en felles kolonne: id
. Som et første skritt i dataforberedelsen ønsker vi å kombinere disse filene ved å slå dem sammen. For instruksjoner, se Transformer data.
Vi bruker Bli med datatransformasjonstrinn og bruk Indre bli med skriv på id
kolonne.
Som et resultat av vår sammenføyningstransformasjon, oppretter Data Wrangler ytterligere to kolonner: id_0
og id_1
. Disse søylene er imidlertid unødvendige for våre modellbyggeformål. Vi slipper disse overflødige kolonnene ved å bruke Administrer kolonner transformere trinn.
Vi har importert datasettene våre, lagt dem sammen og fjernet unødvendige kolonner. Vi er nå klare til å berike dataene våre gjennom funksjonsutvikling og forberede modellbygging.
Utfør funksjonsteknikk
Vi brukte Data Wrangler for å utarbeide data. Du kan også bruke Datakvalitets- og innsiktsrapportfunksjon i Data Wrangler for å verifisere datakvaliteten og oppdage avvik i dataene dine. Dataforskere må ofte bruke denne datainnsikten for å effektivt bruke riktig domenekunnskap til tekniske funksjoner. For dette innlegget antar vi at vi har fullført disse kvalitetsvurderingene og kan gå videre til funksjonsteknikk.
I dette trinnet bruker vi noen få transformasjoner til numeriske, kategoriske og tekstkolonner.
Vi normaliserer først renten for å skalere verdiene mellom 0–1. Vi gjør dette ved å bruke Prosess numerisk transformere for å skalere interest_rate
kolonne ved hjelp av en min-max scaler. Hensikten med normalisering (eller standardisering) er å eliminere skjevhet fra modellen vår. Variabler som måles på forskjellige skalaer vil ikke bidra like mye til modelllæringsprosessen. Derfor hjelper en transformasjonsfunksjon som en min-maks skaleringstransformasjon med å normalisere funksjoner.
For å konvertere en kategorivariabel til en numerisk verdi, bruker vi one-hot-koding. Vi velger Kode kategorisk transformere, og velg deretter En-varm koding. One-hot-koding forbedrer en ML-modells prediksjonsevne. Denne prosessen konverterer en kategorisk verdi til en ny funksjon ved å tilordne en binær verdi på 1 eller 0 til funksjonen. Som et enkelt eksempel, hvis du hadde en kolonne som inneholdt enten en verdi på yes
or no
, vil en-hot-koding konvertere den kolonnen til to kolonner: a Yes
kolonne og en No
kolonne. En ja-verdi ville ha 1 i Yes
kolonne og en 0 i No
kolonne. One-hot-koding gjør dataene våre mer nyttige fordi numeriske verdier lettere kan bestemme en sannsynlighet for våre spådommer.
Til slutt presenterer vi employer_title
kolonne for å transformere strengverdiene til en numerisk vektor. Vi anvender Count Vectorizer og en standard tokenizer i Vektorer forvandle. Tokenisering bryter ned en setning eller serie med tekst til ord, mens en vektorisering konverterer tekstdata til en maskinlesbar form. Disse ordene er representert som vektorer.
Når alle funksjonstrinn er fullført, kan vi eksportere dataene og sende ut resultatene til S3-bøtten vår. Alternativt kan du eksportere flyten din som Python-kode, eller en Jupyter-notisbok for å lage en pipeline med visningen din ved å bruke Amazon SageMaker-rørledninger. Vurder dette når du ønsker å kjøre funksjonsingeniørtrinnene dine i stor skala eller som en del av en ML-pipeline.
Vi kan nå bruke Data Wrangler-utdatafilen som vår input for Canvas. Vi refererer til dette som et datasett i Canvas for å bygge vår ML-modell.
I vårt tilfelle eksporterte vi vårt forberedte datasett til standard Studio-bøtte med en output
prefiks. Vi refererer til denne datasettplasseringen når vi laster dataene inn i Canvas for neste modellbygging.
Bygg og tren ML-modellen din med Canvas
Start Canvas-applikasjonen på SageMaker-konsollen. For å bygge en ML-modell fra de forberedte dataene i forrige seksjon, utfører vi følgende trinn:
- Importer det forberedte datasettet til Canvas fra S3-bøtten.
Vi refererer til den samme S3-banen der vi eksporterte Data Wrangler-resultatene fra forrige seksjon.
- Lag ny modell i Canvas og navngi den
loan_prediction_model
. - Velg det importerte datasettet og legg det til modellobjektet.
For å få Canvas til å bygge en modell, må vi velge målkolonnen.
- Fordi målet vårt er å forutsi sannsynligheten for en långivers evne til å betale tilbake et lån, velger vi
loan_status
kolonne.
Canvas identifiserer automatisk typen ML-problemsetning. I skrivende stund støtter Canvas problemer med regresjon, klassifisering og tidsserieprognose. Du kan spesifisere typen problem eller la Canvas automatisk utlede problemet fra dataene dine.
- Velg alternativet for å starte modellbyggingsprosessen: Rask bygging or Standard konstruksjon.
De Rask bygging alternativet bruker datasettet ditt til å trene en modell innen 2–15 minutter. Dette er nyttig når du eksperimenterer med et nytt datasett for å finne ut om datasettet du har vil være tilstrekkelig til å lage spådommer. Vi bruker dette alternativet for dette innlegget.
De Standard konstruksjon alternativet velger nøyaktighet fremfor hastighet og bruker omtrent 250 modellkandidater til å trene modellen. Prosessen tar vanligvis 1–2 timer.
Etter at modellen er bygget, kan du se gjennom resultatene av modellen. Canvas anslår at modellen din er i stand til å forutsi det riktige resultatet 82.9 % av tiden. Dine egne resultater kan variere på grunn av variasjonen i treningsmodeller.
I tillegg kan du dykke dypt ned i detaljanalyse av modellen for å lære mer om modellen.
Funksjonsviktighet representerer den estimerte betydningen av hver funksjon for å forutsi målkolonnen. I dette tilfellet har kolonnen kredittgrense den mest betydelige innvirkningen når det gjelder å forutsi om en kunde vil betale tilbake lånebeløpet, etterfulgt av rente og årsinntekt.
Forvirringsmatrisen i Avanserte beregninger delen inneholder informasjon for brukere som ønsker en dypere forståelse av modellens ytelse.
Før du kan distribuere modellen din for produksjonsarbeidsbelastninger, bruk Canvas til å teste modellen. Canvas administrerer modellendepunktet vårt og lar oss lage spådommer direkte i Canvas brukergrensesnitt.
- Velg forutsi og gjennomgå funnene på enten Batch prediksjon or Enkel prediksjon fanen.
I det følgende eksempelet gjør vi en enkelt prediksjon ved å modifisere verdier for å forutsi målvariabelen vår loan_status
i virkeligheten
Vi kan også velge et større datasett og la Canvas generere batch-prediksjoner på våre vegne.
konklusjonen
Ende-til-ende maskinlæring er kompleks og iterativ, og involverer ofte flere personas, teknologier og prosesser. Data Wrangler og Canvas muliggjør samarbeid mellom team uten å kreve at disse teamene skriver noen kode.
En dataingeniør kan enkelt forberede data ved hjelp av Data Wrangler uten å skrive noen kode og sende det forberedte datasettet til en forretningsanalytiker. En forretningsanalytiker kan deretter enkelt bygge nøyaktige ML-modeller med bare noen få klikk ved å bruke Canvas og få nøyaktige spådommer i sanntid eller i batch.
Kom i gang med Data Wrangler bruke disse verktøyene uten å måtte administrere noen infrastruktur. Du kan sette opp Canvas raskt og umiddelbart begynne å lage ML-modeller for å støtte dine forretningsbehov.
Om forfatterne
Peter Chung er en løsningsarkitekt for AWS, og brenner for å hjelpe kunder med å avdekke innsikt fra dataene deres. Han har bygget løsninger for å hjelpe organisasjoner med å ta datadrevne beslutninger i både offentlig og privat sektor. Han innehar alle AWS-sertifiseringer samt to GCP-sertifiseringer.
Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med AWS. Han hjelper høyteknologiske strategiske kontoer på deres AI- og ML-reise. Han er veldig lidenskapelig opptatt av datadrevet AI.
Dan Ferguson er løsningsarkitekt ved AWS, basert i New York, USA. Som ekspert på maskinlæringstjenester jobber Dan for å støtte kunder på deres reise for å integrere ML-arbeidsflyter effektivt, effektivt og bærekraftig.
- Myntsmart. Europas beste Bitcoin og Crypto Exchange.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. FRI TILGANG.
- CryptoHawk. Altcoin Radar. Gratis prøveperiode.
- Kilde: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- Om oss
- ABSTRACT
- nøyaktig
- tillegg
- Ytterligere
- AI
- Alle
- Selv
- Amazon
- beløp
- analyse
- analytiker
- årlig
- Søknad
- Påfør
- ca
- arkitektur
- tildelt
- auto
- tilgjengelig
- AWS
- Banker
- være
- grensen
- pauser
- bygge
- Bygning
- virksomhet
- kandidater
- lerret
- evner
- Kategori
- valg
- Velg
- klassifisering
- kode
- samarbeide
- samarbeid
- Kolonne
- forpliktet
- Felles
- komplekse
- kompleksiteten
- forvirring
- Konsoll
- inneholder
- bidra
- skape
- skaper
- Opprette
- kreditt
- krise
- I dag
- kunde
- Kunder
- dato
- dataanalyse
- datavitenskap
- Gjeld
- avgjørelser
- dypere
- levere
- demonstrere
- utplassere
- distribusjon
- beskrevet
- detaljer
- Bestem
- Utvikling
- forskjellig
- direkte
- domene
- ned
- tegning
- Drop
- under
- lett
- effektivt
- eliminere
- muliggjøre
- Endpoint
- ingeniør
- Ingeniørarbeid
- Ingeniører
- anslått
- estimater
- hendelser
- eksempel
- Øvelse
- Expert
- ekspertise
- Trekk
- Egenskaper
- finansiell
- finanskrise
- Først
- flyten
- Fokus
- etter
- skjema
- funksjon
- finansierte
- generere
- Global
- mål
- å ha
- høyde
- hjelpe
- hjelpe
- hjelper
- holder
- Hjemprodukt
- Hvordan
- Men
- HTTPS
- Påvirkning
- betydning
- importere
- Inkludert
- Inntekt
- informasjon
- Infrastruktur
- inngang
- innsikt
- interesse
- Interface
- Investorer
- IT
- bli medlem
- ble med
- reise
- kunnskap
- stor
- større
- lansere
- LÆRE
- læring
- utlån
- linje
- oppført
- lasting
- Lån
- plassering
- maskin
- maskinlæring
- større
- GJØR AT
- administrer
- fikk til
- ledelse
- Matrix
- midler
- ML
- modell
- modeller
- Måned
- måneder
- mer
- mest
- flytte
- flere
- nødvendig
- behov
- New York
- bærbare
- Antall
- bindinger
- åpen
- Alternativ
- alternativer
- organisasjoner
- Annen
- egen
- eierskap
- del
- lidenskapelig
- Betale
- betaling
- betalinger
- ytelse
- plattform
- mulig
- potensiell
- forutsi
- prediksjon
- Spådommer
- Forbered
- forrige
- privat
- Problem
- problemer
- prosess
- Prosesser
- Produksjon
- offentlig
- formål
- formål
- kvalitet
- Rask
- raskt
- Raw
- poster
- Registrering
- Leie
- rapporterer
- Repository
- representert
- representerer
- anmode
- Krever
- Ressurser
- ansvar
- ansvar
- Resultater
- anmeldelse
- Risiko
- risikostyring
- Kjør
- Skala
- Vitenskap
- forskere
- sektorer
- Serien
- Tjenester
- flere
- signifikant
- Enkelt
- liten
- So
- solid
- løsning
- Solutions
- noen
- spesialist
- fart
- splittet
- stadier
- Standard
- Begynn
- startet
- Uttalelse
- statistisk
- status
- lagring
- Strategisk
- studio
- støtte
- Støtter
- Target
- oppgaver
- Technologies
- test
- derfor
- Gjennom
- tid
- tokenization
- verktøy
- Kurs
- Transform
- Transformation
- forståelse
- us
- USA
- bruke
- Brukere
- vanligvis
- verdi
- verifisere
- versjon
- Se
- Hva
- HVEM
- innenfor
- uten
- ord
- virker
- ville
- skriving
- år
- år