Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code

Neuauflage von Plato

Verfolger: 0

Seit der globalen Finanzkrise spielt das Risikomanagement eine wichtige Rolle bei der Gestaltung der Entscheidungsfindung für Banken, einschließlich der Vorhersage des Kreditstatus für potenzielle Kunden. Dies ist oft eine datenintensive Übung, die maschinelles Lernen (ML) erfordert. Allerdings verfügen nicht alle Organisationen über die Data-Science-Ressourcen und das Fachwissen, um einen ML-Workflow für das Risikomanagement aufzubauen.

Amazon Sage Maker ist eine vollständig verwaltete ML-Plattform, die es Dateningenieuren und Geschäftsanalysten ermöglicht, ML-Modelle schnell und einfach zu erstellen, zu trainieren und bereitzustellen. Data Engineers und Business Analysts können mithilfe der No-Code/Low-Code-Funktionen von SageMaker zusammenarbeiten. Dateningenieure verwenden können Amazon SageMaker Data Wrangler um Daten schnell zu aggregieren und für die Modellerstellung vorzubereiten, ohne Code schreiben zu müssen. Dann können Geschäftsanalysten die visuelle Point-and-Click-Oberfläche von verwenden Amazon SageMaker-Leinwand genaue ML-Vorhersagen selbst zu generieren.

In diesem Beitrag zeigen wir, wie einfach es für Data Engineers und Business Analysts ist, zusammenzuarbeiten, um einen ML-Workflow zu erstellen, der Datenvorbereitung, Modellerstellung und Inferenz umfasst, ohne Code schreiben zu müssen.

Lösungsüberblick

Obwohl die ML-Entwicklung ein komplexer und iterativer Prozess ist, können Sie einen ML-Workflow in die Datenvorbereitungs-, Modellentwicklungs- und Modellbereitstellungsphasen verallgemeinern.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Data Wrangler und Canvas abstrahieren die Komplexität der Datenvorbereitung und Modellentwicklung, sodass Sie sich darauf konzentrieren können, Mehrwert für Ihr Unternehmen zu schaffen, indem Sie Erkenntnisse aus Ihren Daten ziehen, ohne ein Experte in der Codeentwicklung zu sein. Das folgende Architekturdiagramm hebt die Komponenten in einer No-Code/Low-Code-Lösung hervor.

Amazon Simple Storage-Service (Amazon S3) fungiert als unser Datenrepository für Rohdaten, konstruierte Daten und Modellartefakte. Sie können auch auswählen, Daten aus zu importieren Amazon RedShift, Amazonas Athena, Databricks und Schneeflocke.

Als Datenwissenschaftler verwenden wir dann Data Wrangler für die explorative Datenanalyse und das Feature-Engineering. Obwohl Canvas Feature-Engineering-Aufgaben ausführen kann, erfordert das Feature-Engineering normalerweise einige statistische und Domänenkenntnisse, um einen Datensatz in die richtige Form für die Modellentwicklung zu bringen. Daher übertragen wir diese Verantwortung an Data Engineers, damit sie mit Data Wrangler Daten transformieren können, ohne Code schreiben zu müssen.

Nach der Datenvorbereitung übergeben wir die Verantwortung für die Modellerstellung an Datenanalysten, die Canvas verwenden können, um ein Modell zu trainieren, ohne Code schreiben zu müssen.

Schließlich erstellen wir Einzel- und Stapelvorhersagen direkt in Canvas aus dem resultierenden Modell, ohne selbst Modellendpunkte bereitstellen zu müssen.

Datensatzübersicht

Wir verwenden SageMaker-Funktionen, um den Status eines Darlehens mithilfe einer modifizierten Version von Lending Club vorherzusagen öffentlich zugänglicher Kreditanalysedatensatz. Der Datensatz enthält Kreditdaten für Kredite, die zwischen 2007 und 2011 vergeben wurden. Die Spalten, die den Kredit und den Kreditnehmer beschreiben, sind unsere Besonderheiten. Die Spalte „loan_status“ ist die Zielvariable, die wir vorherzusagen versuchen.

Zur Demonstration in Data Wrangler teilen wir den Datensatz in zwei CSV-Dateien auf: Teil eins und Zweiter Teil. Wir haben einige Spalten aus dem ursprünglichen Datensatz von Lending Club entfernt, um die Demo zu vereinfachen. Unser Dataset enthält über 37,000 Zeilen und 21 Feature-Spalten, wie in der folgenden Tabelle beschrieben.

Spaltenname	Beschreibung
`loan_status`	Aktueller Status des Darlehens (Zielvariable).
`loan_amount`	Der aufgeführte Betrag des vom Kreditnehmer beantragten Kredits. Reduziert die Kreditabteilung den Kreditbetrag, spiegelt sich dies in diesem Wert wider.
`funded_amount_by_investors`	Der Gesamtbetrag, der zu diesem Zeitpunkt von Investoren für dieses Darlehen zugesagt wurde.
`term`	Die Anzahl der Zahlungen für das Darlehen. Die Werte werden in Monaten angegeben und können entweder 36 oder 60 sein.
`interest_rate`	Zinssatz für das Darlehen.
`installment`	Die vom Kreditnehmer geschuldete monatliche Zahlung, wenn das Darlehen entsteht.
`grade`	LC zugewiesene Kreditnote.
`sub_grade`	LC zugewiesene Darlehensunterstufe.
`employment_length`	Beschäftigungsdauer in Jahren. Mögliche Werte liegen zwischen 0 und 10, wobei 0 weniger als ein Jahr und 10 zehn oder mehr Jahre bedeutet.
`home_ownership`	Der Wohneigentumsstatus, den der Kreditnehmer bei der Registrierung angegeben hat. Unsere Werte sind MIETE, EIGENES, HYPOTHEKEN und ANDERES.
`annual_income`	Das vom Kreditnehmer bei der Registrierung selbst gemeldete Jahreseinkommen.
`verification_status`	Gibt an, ob das Einkommen vom LC überprüft wurde oder nicht.
`issued_amount`	Der Monat, in dem das Darlehen finanziert wurde.
`purpose`	Eine vom Kreditnehmer für die Kreditanfrage bereitgestellte Kategorie.
`dti`	Ein Verhältnis, das anhand der gesamten monatlichen Schuldenzahlungen des Kreditnehmers zu den gesamten Schuldenverpflichtungen berechnet wird, ohne Hypothek und das beantragte LC-Darlehen, dividiert durch das selbst gemeldete monatliche Einkommen des Kreditnehmers.
`earliest_credit_line`	Der Monat, in dem die früheste gemeldete Kreditlinie des Kreditnehmers eröffnet wurde.
`inquiries_last_6_months`	Die Anzahl der Anfragen in den letzten 6 Monaten (ohne Auto- und Hypothekenanfragen).
`open_credit_lines`	Die Anzahl offener Kreditlinien in der Kreditdatei des Kreditnehmers.
`derogatory_public_records`	Die Anzahl der abfälligen öffentlichen Aufzeichnungen.
`revolving_line_utilization_rate`	Auslastungsrate der revolvierenden Kreditlinie oder der Kreditbetrag, den der Kreditnehmer im Verhältnis zu allen verfügbaren revolvierenden Krediten verwendet.
`total_credit_lines`	Die Gesamtzahl der Kreditlinien, die sich derzeit in der Kreditdatei des Kreditnehmers befinden.

Wir verwenden diesen Datensatz für unsere Datenaufbereitung und das Modelltraining.

Voraussetzungen:

Führen Sie die folgenden erforderlichen Schritte aus:

Laden Sie beide Kreditdateien hoch zu einem S3-Bucket Ihrer Wahl.
Stellen Sie sicher, dass Sie über die erforderlichen Berechtigungen verfügen. Weitere Informationen finden Sie unter Erste Schritte mit Data Wrangler.
Richten Sie eine SageMaker-Domäne ein, die für die Verwendung von Data Wrangler konfiguriert ist. Anweisungen finden Sie unter Integrieren in die Amazon SageMaker-Domäne.

Importieren Sie die Daten

Erstellen Sie einen neuen Data Wrangler-Datenfluss von dem Benutzeroberfläche von Amazon SageMaker Studio.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Importieren Sie Daten aus Amazon S3, indem Sie die CSV-Dateien aus dem S3-Bucket auswählen, in dem Sie Ihren Datensatz abgelegt haben. Nachdem Sie beide Dateien importiert haben, können Sie zwei separate Workflows in der sehen Datenfluss Aussicht.

Sie können mehrere Stichprobenoptionen auswählen, wenn Sie Ihre Daten in einen Data Wrangler-Flow importieren. Stichproben können hilfreich sein, wenn Sie einen Datensatz haben, der zu groß ist, um ihn interaktiv vorzubereiten, oder wenn Sie den Anteil seltener Ereignisse in Ihrem Stichprobendatensatz beibehalten möchten. Da unser Datensatz klein ist, verwenden wir keine Stichproben.

Bereiten Sie die Daten vor

Für unseren Anwendungsfall haben wir zwei Datensätze mit einer gemeinsamen Spalte: id. Als ersten Schritt in der Datenaufbereitung wollen wir diese Dateien kombinieren, indem wir sie zusammenführen. Anweisungen finden Sie unter Daten transformieren.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir nutzen die Registrieren Datentransformationsschritt und verwenden Sie die Innere Join-Typ auf der id Spalte.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Als Ergebnis unserer Join-Transformation erstellt Data Wrangler zwei zusätzliche Spalten: id_0 und id_1. Für unsere Modellbauzwecke sind diese Säulen jedoch unnötig. Wir löschen diese redundanten Spalten mit dem Spalten verwalten Schritt transformieren.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir haben unsere Datensätze importiert, sie verbunden und unnötige Spalten entfernt. Wir sind jetzt bereit, unsere Daten durch Feature-Engineering anzureichern und uns auf die Modellerstellung vorzubereiten.

Feature-Engineering durchführen

Für die Aufbereitung der Daten haben wir Data Wrangler verwendet. Sie können auch die verwenden Datenqualitäts- und Insights-Berichtsfunktion innerhalb von Data Wrangler, um Ihre Datenqualität zu überprüfen und Anomalien in Ihren Daten zu erkennen. Data Scientists müssen diese Datenerkenntnisse häufig nutzen, um das richtige Domänenwissen effizient auf technische Funktionen anzuwenden. Für diesen Beitrag gehen wir davon aus, dass wir diese Qualitätsbewertungen abgeschlossen haben und mit der Funktionsentwicklung fortfahren können.

In diesem Schritt wenden wir einige Transformationen auf numerische, kategoriale und Textspalten an.

Wir normalisieren zuerst den Zinssatz, um die Werte zwischen 0 und 1 zu skalieren. Wir machen das mit der Prozess numerisch transformieren, um die zu skalieren interest_rate Spalte mit einem Min-Max-Scaler. Der Zweck der Normalisierung (oder Standardisierung) besteht darin, Verzerrungen aus unserem Modell zu eliminieren. Variablen, die auf unterschiedlichen Skalen gemessen werden, tragen nicht gleichermaßen zum Lernprozess des Modells bei. Daher hilft eine Transformationsfunktion wie eine Min-Max-Skalierertransformation bei der Normalisierung von Merkmalen.

Um eine kategoriale Variable in einen numerischen Wert umzuwandeln, verwenden wir One-Hot-Codierung. Wir wählen die Kategorial kodieren transformieren, dann wählen One-Hot-Codierung. One-Hot-Codierung verbessert die Vorhersagefähigkeit eines ML-Modells. Dieser Prozess wandelt einen kategorialen Wert in ein neues Merkmal um, indem dem Merkmal ein Binärwert von 1 oder 0 zugewiesen wird. Als einfaches Beispiel, wenn Sie eine Spalte hätten, die entweder einen Wert von enthält yes or no, würde One-Hot-Codierung diese Spalte in zwei Spalten konvertieren: a Yes Spalte und a No Säule. Ein Ja-Wert hätte 1 in der Yes Spalte und eine 0 in der No Säule. One-Hot-Codierung macht unsere Daten nützlicher, da numerische Werte leichter eine Wahrscheinlichkeit für unsere Vorhersagen bestimmen können.

Abschließend stellen wir die vor employer_title -Spalte, um ihre Zeichenfolgenwerte in einen numerischen Vektor umzuwandeln. Wir wenden die an Zählvektorisierer und ein Standard-Tokenizer innerhalb der Vektorisieren verwandeln. Die Tokenisierung zerlegt einen Satz oder eine Textreihe in Wörter, während ein Vektorisierer Textdaten in eine maschinenlesbare Form umwandelt. Diese Wörter werden als Vektoren dargestellt.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Nachdem alle Schritte des Feature-Engineerings abgeschlossen sind, können wir die Daten exportieren und die Ergebnisse in unseren S3-Bucket ausgeben. Alternativ können Sie Ihren Flow als Python-Code oder als Jupyter-Notebook exportieren, um eine Pipeline mit Ihrer Ansicht zu erstellen Amazon SageMaker-Pipelines. Berücksichtigen Sie dies, wenn Sie Ihre Feature-Engineering-Schritte in großem Maßstab oder als Teil einer ML-Pipeline ausführen möchten.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir können jetzt die Ausgabedatei von Data Wrangler als Eingabe für Canvas verwenden. Wir referenzieren dies als Datensatz in Canvas, um unser ML-Modell zu erstellen.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

In unserem Fall haben wir unser vorbereitetes Dataset mit einem in den standardmäßigen Studio-Bucket exportiert output Präfix. Wir verweisen auf diesen Datensatzspeicherort, wenn wir die Daten als Nächstes für die Modellerstellung in Canvas laden.

Erstellen und trainieren Sie Ihr ML-Modell mit Canvas

Starten Sie in der SageMaker-Konsole die Canvas-Anwendung. Um ein ML-Modell aus den vorbereiteten Daten im vorherigen Abschnitt zu erstellen, führen wir die folgenden Schritte aus:

Importieren Sie das vorbereitete Dataset aus dem S3-Bucket in Canvas.

Wir verweisen auf denselben S3-Pfad, in den wir die Data Wrangler-Ergebnisse aus dem vorherigen Abschnitt exportiert haben.

Erstellen Sie ein neues Modell in Canvas und benennen Sie es loan_prediction_model.
Wählen Sie das importierte Dataset aus und fügen Sie es dem Modellobjekt hinzu.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Damit Canvas ein Modell erstellt, müssen wir die Zielspalte auswählen.

Da es unser Ziel ist, die Wahrscheinlichkeit der Rückzahlungsfähigkeit eines Kreditgebers vorherzusagen, wählen wir die loan_status Spalte.

Canvas identifiziert automatisch die Art der ML-Problemstellung. Zum Zeitpunkt der Erstellung dieses Artikels unterstützt Canvas Regressions-, Klassifizierungs- und Zeitreihenprognoseprobleme. Sie können die Art des Problems angeben oder Canvas das Problem automatisch aus Ihren Daten ableiten lassen.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wählen Sie Ihre Option, um den Modellerstellungsprozess zu starten: Schneller Aufbau or Standardaufbau.

Das Schneller Aufbau Option verwendet Ihr Dataset, um ein Modell innerhalb von 2–15 Minuten zu trainieren. Dies ist nützlich, wenn Sie mit einem neuen Dataset experimentieren, um festzustellen, ob das vorhandene Dataset ausreicht, um Vorhersagen zu treffen. Wir verwenden diese Option für diesen Beitrag.

Das Standardaufbau Option wählt Genauigkeit statt Geschwindigkeit und verwendet ungefähr 250 Modellkandidaten, um das Modell zu trainieren. Der Vorgang dauert in der Regel 1–2 Stunden.

Nachdem das Modell erstellt wurde, können Sie die Ergebnisse des Modells überprüfen. Canvas schätzt, dass Ihr Modell in 82.9 % der Fälle das richtige Ergebnis vorhersagen kann. Ihre eigenen Ergebnisse können aufgrund der Variabilität der Trainingsmodelle variieren.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Darüber hinaus können Sie tief in die Detailanalyse des Modells eintauchen, um mehr über das Modell zu erfahren.

Die Featurewichtigkeit stellt die geschätzte Wichtigkeit jedes Features bei der Vorhersage der Zielspalte dar. In diesem Fall hat die Spalte Kreditlinie den größten Einfluss auf die Vorhersage, ob ein Kunde den Kreditbetrag zurückzahlen wird, gefolgt von Zinssatz und Jahreseinkommen.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die Verwirrungsmatrix in der Erweiterte Messwerte Abschnitt enthält Informationen für Benutzer, die ein tieferes Verständnis der Leistung ihres Modells wünschen.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Bevor Sie Ihr Modell für Produktionsworkloads bereitstellen können, verwenden Sie Canvas, um das Modell zu testen. Canvas verwaltet unseren Modellendpunkt und ermöglicht es uns, Vorhersagen direkt in der Canvas-Benutzeroberfläche zu treffen.

Auswählen Vorhersagen und überprüfen Sie die Ergebnisse auf entweder der Batch-Vorhersage or Einzelne Vorhersage Tab.

Im folgenden Beispiel treffen wir eine einzelne Vorhersage, indem wir Werte ändern, um unsere Zielvariable vorherzusagen loan_status in Echtzeit

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir können auch einen größeren Datensatz auswählen und Canvas in unserem Namen Stapelvorhersagen erstellen lassen.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Zusammenfassung

End-to-End Machine Learning ist komplex und iterativ und umfasst oft mehrere Personas, Technologien und Prozesse. Data Wrangler und Canvas ermöglichen die Zusammenarbeit zwischen Teams, ohne dass diese Teams Code schreiben müssen.

Ein Datentechniker kann Daten mit Data Wrangler einfach vorbereiten, ohne Code schreiben zu müssen, und den vorbereiteten Datensatz an einen Geschäftsanalysten weitergeben. Ein Geschäftsanalyst kann dann mit Canvas mit nur wenigen Klicks genaue ML-Modelle erstellen und genaue Vorhersagen in Echtzeit oder im Batch erhalten.

Beginnen Sie mit Data Wrangler diese Tools verwenden, ohne eine Infrastruktur verwalten zu müssen. Sie können Leinwand einrichten Beginnen Sie schnell und sofort mit der Erstellung von ML-Modellen zur Unterstützung Ihrer Geschäftsanforderungen.

Über die Autoren

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Peter Chung ist ein Lösungsarchitekt für AWS und hilft Kunden leidenschaftlich dabei, Erkenntnisse aus ihren Daten zu gewinnen. Er hat Lösungen entwickelt, die Organisationen dabei helfen, datengesteuerte Entscheidungen sowohl im öffentlichen als auch im privaten Sektor zu treffen. Er besitzt alle AWS-Zertifizierungen sowie zwei GCP-Zertifizierungen.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Meenakshisundaram Thandavarayan ist Senior AI/ML-Spezialist bei AWS. Er hilft strategischen High-Tech-Accounts auf ihrer KI- und ML-Reise. Er interessiert sich sehr für datengetriebene KI.

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Dan Ferguson ist Lösungsarchitekt bei AWS mit Sitz in New York, USA. Als Experte für maschinelles Lernen arbeitet Dan daran, Kunden auf ihrem Weg zur effizienten, effektiven und nachhaltigen Integration von ML-Workflows zu unterstützen.

Zeitstempel: 19. Mai 2022

Zeitstempel: 4. Mai 2022

Erstellen Sie einen Risikomanagement-Workflow für maschinelles Lernen auf Amazon SageMaker ohne Code

Neuauflage von Plato

Lösungsüberblick

Datensatzübersicht

Voraussetzungen:

Importieren Sie die Daten

Bereiten Sie die Daten vor

Feature-Engineering durchführen

Erstellen und trainieren Sie Ihr ML-Modell mit Canvas

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Fördern Sie die Erkennung und Wiederverwendung von Funktionen in Ihrer gesamten Organisation mit dem Amazon SageMaker Feature Store und seiner Metadatenfunktion auf Funktionsebene

Reduzieren Sie die Inferenzkosten für Amazon SageMaker mit AWS Graviton

Bereitstellen und Verwalten von Pipelines für maschinelles Lernen mit Terraform unter Verwendung von Amazon SageMaker

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto