Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code

Sinds de wereldwijde financiële crisis heeft risicobeheer een belangrijke rol gespeeld bij het vormgeven van de besluitvorming voor banken, inclusief het voorspellen van de kredietstatus voor potentiële klanten. Dit is vaak een data-intensieve oefening waarvoor machine learning (ML) nodig is. Niet alle organisaties beschikken echter over de datawetenschapsbronnen en -expertise om een ​​ML-workflow voor risicobeheer te bouwen.

Amazon Sage Maker is een volledig beheerd ML-platform waarmee data-engineers en bedrijfsanalisten snel en eenvoudig ML-modellen kunnen bouwen, trainen en implementeren. Data-engineers en bedrijfsanalisten kunnen samenwerken met behulp van de no-code/low-code-mogelijkheden van SageMaker. Data-engineers kunnen gebruiken Amazon SageMaker-gegevens Wrangler om snel gegevens te verzamelen en voor te bereiden voor modelbouw zonder code te schrijven. Dan kunnen bedrijfsanalisten de visuele aanwijs-en-klik-interface van Amazon SageMaker-canvas om zelf nauwkeurige ML-voorspellingen te genereren.

In dit bericht laten we zien hoe eenvoudig het is voor data-ingenieurs en bedrijfsanalisten om samen te werken aan het bouwen van een ML-workflow met gegevensvoorbereiding, modelbouw en gevolgtrekking zonder code te schrijven.

Overzicht oplossingen

Hoewel ML-ontwikkeling een complex en iteratief proces is, kunt u een ML-workflow generaliseren naar de fasen van gegevensvoorbereiding, modelontwikkeling en modelimplementatie.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Data Wrangler en Canvas abstraheren de complexiteit van gegevensvoorbereiding en modelontwikkeling, zodat u zich kunt concentreren op het leveren van waarde aan uw bedrijf door inzichten uit uw gegevens te halen zonder een expert te zijn in codeontwikkeling. Het volgende architectuurdiagram belicht de componenten in een no-code/low-code oplossing.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Amazon eenvoudige opslagservice (Amazon S3) fungeert als onze gegevensopslagplaats voor onbewerkte gegevens, technische gegevens en modelartefacten. U kunt er ook voor kiezen om gegevens te importeren uit: Amazon roodverschuiving, Amazone Athene, Databricks en Sneeuwvlok.

Als datawetenschappers gebruiken we vervolgens Data Wrangler voor verkennende data-analyse en feature-engineering. Hoewel Canvas feature-engineeringtaken kan uitvoeren, vereist feature-engineering meestal enige statistische en domeinkennis om een ​​dataset te verrijken in de juiste vorm voor modelontwikkeling. Daarom geven we deze verantwoordelijkheid aan data-engineers, zodat ze data kunnen transformeren zonder code te schrijven met Data Wrangler.

Na de datavoorbereiding geven we modelbouwverantwoordelijkheden door aan data-analisten, die Canvas kunnen gebruiken om een ​​model te trainen zonder code te hoeven schrijven.

Ten slotte maken we enkelvoudige en batchvoorspellingen rechtstreeks binnen Canvas vanuit het resulterende model zonder dat we zelf modeleindpunten hoeven te implementeren.

Gegevenssetoverzicht

We gebruiken SageMaker-functies om de status van een lening te voorspellen met behulp van een aangepaste versie van Lending Club's openbaar beschikbare dataset voor leninganalyse. De dataset bevat leninggegevens voor leningen die zijn verstrekt in de periode 2007-2011. De kolommen die de lening en de lener beschrijven, zijn onze kenmerken. De kolom lening_status is de doelvariabele, en dat is wat we proberen te voorspellen.

Om in Data Wrangler te demonstreren, splitsen we de dataset in twee CSV-bestanden: deel een en deel twee. We hebben enkele kolommen uit de oorspronkelijke dataset van Lending Club verwijderd om de demo te vereenvoudigen. Onze dataset bevat meer dan 37,000 rijen en 21 functiekolommen, zoals beschreven in de volgende tabel.

Kolomnaam Omschrijving
loan_status Huidige status van de lening (doelvariabele).
loan_amount Het vermelde bedrag van de lening die door de kredietnemer is aangevraagd. Als de kredietafdeling het geleende bedrag verlaagt, wordt dit weerspiegeld in deze waarde.
funded_amount_by_investors Het totale bedrag dat op dat moment door investeerders voor die lening is vastgelegd.
term Het aantal betalingen op de lening. Waarden zijn in maanden en kunnen 36 of 60 zijn.
interest_rate Rente op de lening.
installment De maandelijkse betaling die de lener verschuldigd is als de lening ingaat.
grade LC toegewezen lening rang.
sub_grade LC toegewezen lening subgrade.
employment_length Arbeidsduur in jaren. Mogelijke waarden liggen tussen 0-10, waarbij 0 staat voor minder dan één jaar en 10 voor tien of meer jaar.
home_ownership De status van het eigenwoningbezit die door de lener is opgegeven tijdens de registratie. Onze waarden zijn HUUR, EIGEN, HYPOTHEEK, en ANDERE.
annual_income Het zelfgerapporteerde jaarinkomen dat de lener verstrekt tijdens de registratie.
verification_status Geeft aan of het inkomen al dan niet is geverifieerd door de LC.
issued_amount De maand waarin de lening is gefinancierd.
purpose Een categorie die door de lener is opgegeven voor het uitleenverzoek.
dti Een ratio berekend op basis van de totale maandelijkse schuldbetalingen van de lener op de totale schuldverplichtingen, exclusief hypotheek en de aangevraagde LC-lening, gedeeld door het zelfgerapporteerde maandinkomen van de lener.
earliest_credit_line De maand waarin de vroegst gerapporteerde kredietlimiet van de lener werd geopend.
inquiries_last_6_months Het aantal aanvragen in de afgelopen 6 maanden (exclusief auto- en hypotheekaanvragen).
open_credit_lines Het aantal openstaande kredietlijnen in het kredietdossier van de lener.
derogatory_public_records Het aantal afwijkende openbare registers.
revolving_line_utilization_rate Doorlopende bezettingsgraad, of het kredietbedrag dat de lener gebruikt in verhouding tot al het beschikbare doorlopend krediet.
total_credit_lines Het totale aantal kredietlijnen dat zich momenteel in het kredietdossier van de kredietnemer bevindt.

We gebruiken deze dataset voor onze datavoorbereiding en modeltraining.

Voorwaarden

Voer de volgende vereiste stappen uit:

  1. Upload beide leenbestanden naar een S3-emmer naar keuze.
  2. Zorg ervoor dat u over de benodigde machtigingen beschikt. Voor meer informatie, zie: Aan de slag met Data Wrangler.
  3. Stel een SageMaker-domein in dat is geconfigureerd om Data Wrangler te gebruiken. Raadpleeg voor instructies: Aan boord van Amazon SageMaker Domain.

Importeer de gegevens

Een nieuwe Data Wrangler-gegevensstroom maken van het Amazon SageMaker Studio-gebruikersinterface.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Importeer gegevens uit Amazon S3 door de CSV-bestanden te selecteren uit de S3-bucket waar je je dataset hebt geplaatst. Nadat u beide bestanden hebt geïmporteerd, ziet u twee afzonderlijke workflows in de Informatiestroom uitzicht.

U kunt verschillende steekproefopties kiezen bij het importeren van uw gegevens in een Data Wrangler-stroom. Steekproeven kunnen helpen wanneer u een dataset hebt die te groot is om interactief voor te bereiden, of wanneer u het aandeel zeldzame gebeurtenissen in uw gesamplede dataset wilt behouden. Omdat onze dataset klein is, gebruiken we geen steekproeven.

Bereid de gegevens voor

Voor ons gebruik hebben we twee datasets met een gemeenschappelijke kolom: id. Als eerste stap in de gegevensvoorbereiding willen we deze bestanden combineren door ze samen te voegen. Raadpleeg voor instructies: Transformeer gegevens.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We maken gebruik van de Aanmelden data transformatie stap en gebruik de Binnenste voeg toe op de id kolom.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Als resultaat van onze join-transformatie maakt Data Wrangler twee extra kolommen: id_0 en id_1. Deze kolommen zijn echter niet nodig voor onze modelbouwdoeleinden. We laten deze overbodige kolommen vallen met de Beheer kolommen stap transformeren.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We hebben onze datasets geïmporteerd, samengevoegd en onnodige kolommen verwijderd. We zijn nu klaar om onze gegevens te verrijken door middel van feature-engineering en ons voor te bereiden op het bouwen van modellen.

Functie-engineering uitvoeren

We gebruikten Data Wrangler voor het voorbereiden van gegevens. U kunt ook de Functie voor gegevenskwaliteit en inzichtenrapport binnen Data Wrangler om uw gegevenskwaliteit te verifiëren en afwijkingen in uw gegevens op te sporen. Datawetenschappers moeten deze data-inzichten vaak gebruiken om de juiste domeinkennis efficiënt toe te passen op technische functies. Voor dit bericht gaan we ervan uit dat we deze kwaliteitsbeoordelingen hebben voltooid en kunnen doorgaan met feature-engineering.

In deze stap passen we enkele transformaties toe op numerieke, categorische en tekstkolommen.

We normaliseren eerst de rente om de waarden tussen 0-1 te schalen. Dit doen we met behulp van de Proces numeriek transformeren om de te schalen interest_rate kolom met behulp van een min-max scaler. Het doel van normalisatie (of standaardisatie) is om vooroordelen uit ons model te elimineren. Variabelen die op verschillende schalen worden gemeten, dragen niet in gelijke mate bij aan het leerproces van het model. Daarom helpt een transformatiefunctie zoals een min-max scalertransformatie om functies te normaliseren.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Om een ​​categoriale variabele om te zetten in een numerieke waarde, gebruiken we one-hot-codering. We kiezen voor de Codeer categorisch transformeren, kies dan One-hot coderen. One-hot codering verbetert het voorspellend vermogen van een ML-model. Dit proces zet een categorische waarde om in een nieuwe feature door een binaire waarde van 1 of 0 toe te kennen aan de feature. Als een eenvoudig voorbeeld, als u één kolom had met de waarde yes or no, zou one-hot codering die kolom naar twee kolommen converteren: a Yes kolom en a No kolom. Een ja-waarde zou 1 hebben in de Yes kolom en een 0 in de No kolom. One-hot codering maakt onze gegevens nuttiger omdat numerieke waarden gemakkelijker een waarschijnlijkheid voor onze voorspellingen kunnen bepalen.

Tot slot maken we gebruik van de employer_title kolom om de tekenreekswaarden om te zetten in een numerieke vector. Wij passen de Tellen Vectorizer en een standaard tokenizer binnen de Vectoriseren transformeren. Tokenization splitst een zin of reeks tekst op in woorden, terwijl een vectorizer tekstgegevens omzet in een machineleesbare vorm. Deze woorden worden weergegeven als vectoren.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nu alle feature-engineeringstappen zijn voltooid, kunnen we de gegevens exporteren en de resultaten naar onze S3-bucket uitvoeren. Als alternatief kunt u uw stroom exporteren als Python-code, of een Jupyter-notebook om een ​​pijplijn te maken met uw weergave met behulp van Amazon SageMaker-pijpleidingen. Houd hier rekening mee wanneer u uw functie-engineeringstappen op schaal of als onderdeel van een ML-pijplijn wilt uitvoeren.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We kunnen nu het Data Wrangler-uitvoerbestand gebruiken als invoer voor Canvas. We verwijzen hiernaar als een dataset in Canvas om ons ML-model te bouwen.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

In ons geval hebben we onze voorbereide dataset geëxporteerd naar de standaard Studio-bucket met een output voorvoegsel. We verwijzen naar deze locatie van de dataset bij het laden van de data in Canvas voor het bouwen van modellen.

Bouw en train je ML-model met Canvas

Start de Canvas-toepassing op de SageMaker-console. Om een ​​ML-model te bouwen op basis van de voorbereide gegevens in de vorige sectie, voeren we de volgende stappen uit:

  1. Importeer de voorbereide dataset naar Canvas vanuit de S3-bucket.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We verwijzen naar hetzelfde S3-pad waar we de Data Wrangler-resultaten uit de vorige sectie hebben geëxporteerd.

  1. Maak een nieuw model in Canvas en geef het een naam loan_prediction_model.
  2. Selecteer de geïmporteerde dataset en voeg deze toe aan het modelobject.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Om Canvas een model te laten bouwen, moeten we de doelkolom selecteren.

  1. Omdat het ons doel is om de waarschijnlijkheid van het vermogen van een geldschieter om een ​​lening terug te betalen, te voorspellen, kiezen we voor de loan_status kolom.

Canvas identificeert automatisch het type ML-probleemstelling. Op het moment van schrijven ondersteunt Canvas problemen met regressie-, classificatie- en tijdreeksprognoses. Je kunt het type probleem specificeren of Canvas automatisch het probleem laten afleiden uit je gegevens.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  1. Kies uw optie om het modelbouwproces te starten: Snel gebouwd or Standaard gebouwd.

De Snel gebouwd optie gebruikt uw dataset om binnen 2-15 minuten een model te trainen. Dit is handig wanneer u experimenteert met een nieuwe dataset om te bepalen of de dataset die u heeft voldoende is om voorspellingen te doen. We gebruiken deze optie voor dit bericht.

De Standaard gebouwd optie kiest nauwkeurigheid boven snelheid en gebruikt ongeveer 250 modelkandidaten om het model te trainen. Het proces duurt meestal 1-2 uur.

Nadat het model is gebouwd, kunt u de resultaten van het model bekijken. Canvas schat dat uw model 82.9% van de tijd de juiste uitkomst kan voorspellen. Uw eigen resultaten kunnen variëren vanwege de variabiliteit in trainingsmodellen.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bovendien kunt u diep in de detailanalyse van het model duiken om meer over het model te weten te komen.

Het belang van een kenmerk vertegenwoordigt het geschatte belang van elk kenmerk bij het voorspellen van de doelkolom. In dit geval heeft de kredietlijnkolom de grootste impact bij het voorspellen of een klant het geleende bedrag zal terugbetalen, gevolgd door de rentevoet en het jaarinkomen.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De verwarringsmatrix in de Geavanceerde statistieken sectie bevat informatie voor gebruikers die meer inzicht willen in de prestaties van hun model.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Voordat u uw model voor productieworkloads kunt implementeren, moet u Canvas gebruiken om het model te testen. Canvas beheert ons modeleindpunt en stelt ons in staat om voorspellingen rechtstreeks in de Canvas-gebruikersinterface te doen.

  1. Kies Voorspellen en bekijk de bevindingen op ofwel de Batchvoorspelling or Enkele voorspelling Tab.

In het volgende voorbeeld maken we een enkele voorspelling door waarden aan te passen om onze doelvariabele te voorspellen loan_status in real time

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We kunnen ook een grotere dataset selecteren en Canvas namens ons batchvoorspellingen laten genereren.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Conclusie

End-to-end machine learning is complex en iteratief en omvat vaak meerdere persona's, technologieën en processen. Data Wrangler en Canvas maken samenwerking tussen teams mogelijk zonder dat deze teams code hoeven te schrijven.

Een data-engineer kan eenvoudig gegevens voorbereiden met Data Wrangler zonder code te schrijven en de voorbereide dataset doorgeven aan een bedrijfsanalist. Een bedrijfsanalist kan vervolgens eenvoudig nauwkeurige ML-modellen bouwen met slechts een paar klikken met Canvas en nauwkeurige voorspellingen krijgen in realtime of in batch.

Aan de slag met Data Wrangler het gebruik van deze tools zonder enige infrastructuur te hoeven beheren. Jij kan opzetten van Canvas begin snel en onmiddellijk met het maken van ML-modellen om uw zakelijke behoeften te ondersteunen.


Over de auteurs

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Peter Chung is Solutions Architect voor AWS en heeft een passie voor het helpen van klanten om inzichten uit hun data te halen. Hij heeft oplossingen ontwikkeld om organisaties te helpen bij het nemen van datagedreven beslissingen in zowel de publieke als de private sector. Hij heeft alle AWS-certificeringen en twee GCP-certificeringen.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Meenakshisundaram Thandavarayan is een Senior AI/ML-specialist bij AWS. Hij helpt hi-tech strategische accounts op hun AI- en ML-reis. Hij heeft een grote passie voor datagedreven AI.

Bouw een machine learning-workflow voor risicobeheer op Amazon SageMaker zonder code PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Dan Ferguson is Solutions Architect bij AWS, gevestigd in New York, VS. Als expert op het gebied van machine learning-services ondersteunt Dan klanten bij hun zoektocht naar efficiënte, effectieve en duurzame integratie van ML-workflows.

Tijdstempel:

Meer van AWS-machine learning