Byg et maskinlæringsworkflow for risikostyring på Amazon SageMaker uden kode

Genudgivet af Platon

Abonnenter: 0

Siden den globale finanskrise har risikostyring spillet en stor rolle i udformningen af beslutningstagning for banker, herunder forudsigelse af lånestatus for potentielle kunder. Dette er ofte en dataintensiv øvelse, der kræver maskinlæring (ML). Det er dog ikke alle organisationer, der har de datavidenskabelige ressourcer og ekspertise til at opbygge en risikostyrings-ML-arbejdsgang.

Amazon SageMaker er en fuldt administreret ML-platform, der giver dataingeniører og forretningsanalytikere mulighed for hurtigt og nemt at bygge, træne og implementere ML-modeller. Dataingeniører og forretningsanalytikere kan samarbejde ved at bruge SageMakers no-code/low-code-funktioner. Dataingeniører kan bruge Amazon SageMaker Data Wrangler til hurtigt at aggregere og forberede data til modelbygning uden at skrive kode. Så kan forretningsanalytikere bruge den visuelle peg-og-klik-grænseflade af Amazon SageMaker lærred at generere nøjagtige ML-forudsigelser på egen hånd.

I dette indlæg viser vi, hvor nemt det er for dataingeniører og forretningsanalytikere at samarbejde om at opbygge en ML-workflow, der involverer dataforberedelse, modelbygning og inferens uden at skrive kode.

Løsningsoversigt

Selvom ML-udvikling er en kompleks og iterativ proces, kan du generalisere en ML-arbejdsgang til dataforberedelse, modeludvikling og modelimplementering.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Data Wrangler og Canvas abstraherer kompleksiteten af dataforberedelse og modeludvikling, så du kan fokusere på at levere værdi til din virksomhed ved at trække indsigt fra dine data uden at være ekspert i kodeudvikling. Det følgende arkitekturdiagram fremhæver komponenterne i en no-code/low-code-løsning.

Amazon Simple Storage Service (Amazon S3) fungerer som vores datalager for rådata, konstruerede data og modelartefakter. Du kan også vælge at importere data fra Amazon rødforskydning, Amazonas Athena, Databricks og Snowflake.

Som data scientists bruger vi derefter Data Wrangler til udforskende dataanalyse og feature engineering. Selvom Canvas kan køre feature engineering opgaver, kræver feature engineering normalt noget statistisk og domæneviden for at berige et datasæt til den rigtige form til modeludvikling. Derfor giver vi dette ansvar til dataingeniører, så de kan transformere data uden at skrive kode med Data Wrangler.

Efter dataforberedelse videregiver vi modelopbygningsansvaret til dataanalytikere, som kan bruge Canvas til at træne en model uden at skulle skrive nogen kode.

Endelig laver vi enkelt- og batch-forudsigelser direkte i Canvas fra den resulterende model uden selv at skulle implementere modelendepunkter.

Datasæt oversigt

Vi bruger SageMaker-funktioner til at forudsige status for et lån ved hjælp af en modificeret version af Lending Club's offentligt tilgængeligt låneanalysedatasæt. Datasættet indeholder lånedata for lån udstedt gennem 2007-2011. Kolonnerne, der beskriver lånet og låntageren, er vores funktioner. Kolonnen loan_status er målvariablen, hvilket er det, vi forsøger at forudsige.

For at demonstrere i Data Wrangler opdeler vi datasættet i to CSV-filer: del et , del to. Vi har fjernet nogle kolonner fra Lending Clubs originale datasæt for at forenkle demoen. Vores datasæt indeholder over 37,000 rækker og 21 funktionskolonner, som beskrevet i følgende tabel.

Kolonnenavn	Beskrivelse
`loan_status`	Lånets aktuelle status (målvariabel).
`loan_amount`	Det anførte beløb for det lån, som låntageren har ansøgt om. Hvis kreditafdelingen reducerer lånebeløbet, afspejles det i denne værdi.
`funded_amount_by_investors`	Det samlede beløb, som investorerne har forpligtet til det pågældende lån på det tidspunkt.
`term`	Antallet af betalinger på lånet. Værdier er i måneder og kan være enten 36 eller 60.
`interest_rate`	Rente på lånet.
`installment`	Den månedlige betaling, som låntager skylder, hvis lånet stammer fra.
`grade`	LC tildelt lånegrad.
`sub_grade`	LC tildelt låneundergrad.
`employment_length`	Ansættelseslængde i år. Mulige værdier er mellem 0-10, hvor 0 betyder mindre end et år og 10 betyder ti eller flere år.
`home_ownership`	Boligejerstatus oplyst af låntager under registreringen. Vores værdier er LEJE, EGEN, realkreditlån og ANDET.
`annual_income`	Den selvopgivne årsindkomst, som låneren har opgivet under registreringen.
`verification_status`	Angiver, om indkomsten blev verificeret eller ej af LC.
`issued_amount`	Den måned, hvor lånet blev finansieret.
`purpose`	En kategori angivet af låntageren til låneanmodningen.
`dti`	Et forhold beregnet ved hjælp af låntagers samlede månedlige gældsbetalinger på de samlede gældsforpligtelser, eksklusive realkreditlån og det anmodede LC-lån, divideret med låntagers selvrapporterede månedlige indkomst.
`earliest_credit_line`	Den måned, hvor låntagers tidligst indberettede kreditgrænse blev åbnet.
`inquiries_last_6_months`	Antallet af henvendelser inden for de seneste 6 måneder (ekskl. auto- og realkreditforespørgsler).
`open_credit_lines`	Antallet af åbne kreditlinjer i låntagers kreditfil.
`derogatory_public_records`	Antallet af nedsættende offentlige registre.
`revolving_line_utilization_rate`	Udnyttelsesgrad for revolverende linjer eller mængden af kredit, som låntageren bruger i forhold til al tilgængelig revolverende kredit.
`total_credit_lines`	Det samlede antal kreditlinjer i øjeblikket i låntagers kreditfil.

Vi bruger dette datasæt til vores dataforberedelse og modeltræning.

Forudsætninger

Udfør følgende forudsætningstrin:

Upload begge lånefiler til en S3-spand efter eget valg.
Sørg for, at du har de nødvendige tilladelser. For mere information, se Kom godt i gang med Data Wrangler.
Konfigurer et SageMaker-domæne, der er konfigureret til at bruge Data Wrangler. For instruktioner, se Ombord på Amazon SageMaker Domain.

Importer dataene

Opret et nyt Data Wrangler-dataflow fra Amazon SageMaker Studio UI.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Importer data fra Amazon S3 ved at vælge CSV-filerne fra den S3-bøtte, hvor du placerede dit datasæt. Når du har importeret begge filer, kan du se to separate arbejdsgange i Dataflow udsigt.

Du kan vælge flere samplingsmuligheder, når du importerer dine data i et Data Wrangler-flow. Prøvetagning kan hjælpe, når du har et datasæt, der er for stort til at forberede interaktivt, eller når du vil bevare andelen af sjældne hændelser i dit stikprøvedatasæt. Da vores datasæt er lille, bruger vi ikke sampling.

Forbered dataene

Til vores brugssag har vi to datasæt med en fælles kolonne: id. Som et første trin i dataforberedelsen ønsker vi at kombinere disse filer ved at tilslutte dem. For instruktioner, se Transform data.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi bruger Bliv Medlem datatransformationstrin og brug Inner join type på id kolonne.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Som et resultat af vores jointransformation opretter Data Wrangler to yderligere kolonner: id_0 , id_1. Disse søjler er dog unødvendige til vores modelbygningsformål. Vi dropper disse overflødige kolonner ved hjælp af Administrer kolonner transformere trin.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi har importeret vores datasæt, sammenføjet dem og fjernet unødvendige kolonner. Vi er nu klar til at berige vores data gennem feature engineering og forberede modelbygning.

Udfør feature engineering

Vi brugte Data Wrangler til at forberede data. Du kan også bruge Funktion for datakvalitet og indsigtsrapport i Data Wrangler for at verificere din datakvalitet og opdage abnormiteter i dine data. Dataforskere skal ofte bruge disse dataindsigter til effektivt at anvende den rigtige domæneviden til tekniske funktioner. For dette indlæg antager vi, at vi har gennemført disse kvalitetsvurderinger og kan gå videre til feature engineering.

I dette trin anvender vi nogle få transformationer til numeriske, kategoriske og tekstkolonner.

Vi normaliserer først renten for at skalere værdierne mellem 0-1. Det gør vi ved hjælp af Proces numerisk transformere for at skalere interest_rate kolonne ved hjælp af en min-max scaler. Formålet med normalisering (eller standardisering) er at eliminere bias fra vores model. Variabler, der måles på forskellige skalaer, bidrager ikke lige meget til modellæringsprocessen. Derfor hjælper en transformationsfunktion som en min-max scaler transformation med at normalisere funktioner.

For at konvertere en kategorivariabel til en numerisk værdi bruger vi one-hot encoding. Vi vælger Indkode kategorisk transformer, og vælg derefter One-hot encode. One-hot-kodning forbedrer en ML-models forudsigelsesevne. Denne proces konverterer en kategorisk værdi til en ny funktion ved at tildele en binær værdi på 1 eller 0 til funktionen. Som et simpelt eksempel, hvis du havde en kolonne, der havde enten en værdi på yes or no, ville one-hot-kodning konvertere denne kolonne til to kolonner: a Yes kolonne og en No kolonne. En ja-værdi ville have 1 i Yes kolonne og et 0 i No kolonne. One-hot-kodning gør vores data mere nyttige, fordi numeriske værdier lettere kan bestemme en sandsynlighed for vores forudsigelser.

Til sidst præsenterer vi employer_title kolonne for at transformere dens strengværdier til en numerisk vektor. Vi anvender Count Vectorizer og en standard tokenizer inden for Vektorer transformere. Tokenisering nedbryder en sætning eller en række tekst til ord, hvorimod en vektoriseringsmaskine konverterer tekstdata til en maskinlæsbar form. Disse ord er repræsenteret som vektorer.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Med alle funktionsingeniørtrin gennemført, kan vi eksportere dataene og udlæse resultaterne i vores S3-bøtte. Alternativt kan du eksportere dit flow som Python-kode eller en Jupyter-notesbog for at oprette en pipeline med din visning vha. Amazon SageMaker Pipelines. Overvej dette, når du vil køre dine feature engineering-trin i skala eller som en del af en ML-pipeline.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi kan nu bruge Data Wrangler-outputfilen som vores input til Canvas. Vi henviser til dette som et datasæt i Canvas for at bygge vores ML-model.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

I vores tilfælde eksporterede vi vores forberedte datasæt til standard Studio-bøtten med en output præfiks. Vi henviser til denne datasætplacering, når vi indlæser dataene i Canvas til næste modelbygning.

Byg og træne din ML-model med Canvas

Start Canvas-applikationen på SageMaker-konsollen. For at bygge en ML-model ud fra de forberedte data i det foregående afsnit, udfører vi følgende trin:

Importer det forberedte datasæt til Canvas fra S3-bøtten.

Vi henviser til den samme S3-sti, hvor vi eksporterede Data Wrangler-resultaterne fra det forrige afsnit.

Opret ny model i Canvas og navngiv den loan_prediction_model.
Vælg det importerede datasæt, og føj det til modelobjektet.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

For at få Canvas til at bygge en model, skal vi vælge målkolonnen.

Fordi vores mål er at forudsige sandsynligheden for en långivers evne til at tilbagebetale et lån, vælger vi loan_status kolonne.

Canvas identificerer automatisk typen af ML-problemformulering. I skrivende stund understøtter Canvas problemer med regression, klassificering og tidsserieprognose. Du kan angive typen af problem eller få Canvas til automatisk at udlede problemet ud fra dine data.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vælg din mulighed for at starte modelbygningsprocessen: Hurtig opbygning or Standard opbygning.

Hurtig opbygning option bruger dit datasæt til at træne en model inden for 2-15 minutter. Dette er nyttigt, når du eksperimenterer med et nyt datasæt for at afgøre, om det datasæt, du har, vil være tilstrækkeligt til at lave forudsigelser. Vi bruger denne mulighed til dette indlæg.

Standard opbygning option vælger nøjagtighed frem for hastighed og bruger cirka 250 modelkandidater til at træne modellen. Processen tager normalt 1-2 timer.

Når modellen er bygget, kan du gennemgå resultaterne af modellen. Canvas vurderer, at din model er i stand til at forudsige det rigtige resultat 82.9 % af tiden. Dine egne resultater kan variere på grund af variationen i træningsmodeller.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Derudover kan du dykke dybt ned i detaljeanalyse af modellen for at lære mere om modellen.

Funktionens betydning repræsenterer den estimerede betydning af hver funktion i forudsigelse af målkolonnen. I dette tilfælde har kreditgrænsekolonnen den mest markante indflydelse på forudsigelsen af, om en kunde vil betale lånebeløbet tilbage, efterfulgt af rente og årlig indkomst.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Forvirringsmatricen i Avancerede målinger afsnittet indeholder oplysninger til brugere, der ønsker en dybere forståelse af deres modelydelse.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Før du kan implementere din model til produktionsarbejdsbelastninger, skal du bruge Canvas til at teste modellen. Canvas administrerer vores modelslutpunkt og giver os mulighed for at lave forudsigelser direkte i Canvas brugergrænseflade.

Vælg Forudsige og gennemgå resultaterne på enten Batch forudsigelse or Enkelt forudsigelse fane.

I det følgende eksempel laver vi en enkelt forudsigelse ved at ændre værdier for at forudsige vores målvariabel loan_status i realtid

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi kan også vælge et større datasæt og lade Canvas generere batch-forudsigelser på vores vegne.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konklusion

End-to-end maskinlæring er kompleks og iterativ og involverer ofte flere personas, teknologier og processer. Data Wrangler og Canvas muliggør samarbejde mellem teams uden at kræve, at disse teams skriver nogen kode.

En dataingeniør kan nemt forberede data ved hjælp af Data Wrangler uden at skrive nogen kode og videregive det forberedte datasæt til en forretningsanalytiker. En forretningsanalytiker kan derefter nemt bygge nøjagtige ML-modeller med blot et par klik ved hjælp af Canvas og få præcise forudsigelser i realtid eller i batch.

Kom godt i gang med Data Wrangler bruge disse værktøjer uden at skulle administrere nogen infrastruktur. Du kan opsætte Canvas hurtigt og straks begynde at skabe ML-modeller til at understøtte dine forretningsbehov.

Om forfatterne

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Peter Chung er Solutions Architect for AWS, og brænder for at hjælpe kunder med at afdække indsigt fra deres data. Han har bygget løsninger til at hjælpe organisationer med at træffe datadrevne beslutninger i både den offentlige og private sektor. Han har alle AWS-certificeringer samt to GCP-certificeringer.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Meenakshisundaram Thandavarayan er senior AI/ML specialist med AWS. Han hjælper hi-tech strategiske konti på deres AI og ML rejse. Han er meget passioneret omkring datadrevet AI.

Byg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Dan Ferguson er Solutions Architect hos AWS med base i New York, USA. Som ekspert i maskinlæringstjenester arbejder Dan på at støtte kunderne på deres rejse til at integrere ML-arbejdsgange effektivt, effektivt og bæredygtigt.

Tidsstempel: Maj 19, 2022

Tidsstempel: Maj 4, 2022

Opbyg et maskinlærings-workflow for risikostyring på Amazon SageMaker uden kode

Genudgivet af Platon

Løsningsoversigt

Datasæt oversigt

Forudsætninger

Importer dataene

Forbered dataene

Udfør feature engineering

Byg og træne din ML-model med Canvas

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatafunktion på funktionsniveau

Reducer Amazon SageMaker-udledningsomkostningerne med AWS Graviton

Implementer og administrer pipelines for maskinlæring med Terraform ved hjælp af Amazon SageMaker

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto