Erkennen Sie betrügerische Transaktionen mithilfe von maschinellem Lernen mit Amazon SageMaker

Neuauflage von Plato

Verfolger: 0

Unternehmen können durch böswillige Benutzer und betrügerische Transaktionen jedes Jahr Milliarden von Dollar verlieren. Da sich immer mehr Geschäftsabläufe online verlagern, nehmen auch Betrug und Missbrauch in Online-Systemen zu. Um Online-Betrug zu bekämpfen, verwenden viele Unternehmen regelbasierte Betrugserkennungssysteme.

Herkömmliche Betrugserkennungssysteme stützen sich jedoch auf eine Reihe von Regeln und Filtern, die von menschlichen Spezialisten handgefertigt wurden. Die Filter können oft spröde sein und die Regeln erfassen möglicherweise nicht das gesamte Spektrum betrügerischer Signale. Während sich betrügerische Verhaltensweisen ständig weiterentwickeln, macht es die statische Natur vordefinierter Regeln und Filter außerdem schwierig, traditionelle Betrugserkennungssysteme effektiv zu warten und zu verbessern.

In diesem Beitrag zeigen wir Ihnen, wie Sie mithilfe von maschinellem Lernen (ML) ein dynamisches, sich selbst verbesserndes und wartbares System zur Erkennung von Kreditkartenbetrug aufbauen Amazon Sage Maker.

Wenn Sie alternativ nach einem vollständig verwalteten Dienst suchen, um benutzerdefinierte Modelle zur Betrugserkennung zu erstellen, ohne Code schreiben zu müssen, empfehlen wir Ihnen, sich anzumelden Amazon Fraud Detector. Amazon Fraud Detector ermöglicht es Kunden ohne ML-Erfahrung, Betrugserkennungsmodelle zu automatisieren, die auf ihre Daten zugeschnitten sind, und dabei mehr als 20 Jahre Erfahrung in der Betrugserkennung von AWS und Amazon.com zu nutzen.

Lösungsüberblick

Diese Lösung bildet den Kern eines Kreditkartenbetrugserkennungssystems mit SageMaker. Wir beginnen mit dem Training eines unüberwachten Anomalieerkennungsmodells unter Verwendung des Algorithmus Zufällig geschnittener Wald (RCF). Dann trainieren wir zwei überwachte Klassifikationsmodelle mit dem Algorithmus XGBoost, eines als Basismodell und das andere für Vorhersagen, wobei verschiedene Strategien verwendet werden, um das extreme Klassenungleichgewicht in den Daten anzugehen. Zuletzt trainieren wir ein optimales XGBoost-Modell mit Hyperparameteroptimierung (HPO) um die Modellleistung weiter zu verbessern.

Für den Beispieldatensatz verwenden wir die öffentlichen, anonymisierten Kreditkartentransaktionen Datensatz das ursprünglich als Teil von a veröffentlicht wurde Forschungsprojekte Zusammenarbeit von Worldline und der Machine Learning Group der ULB (Freie Universität Brüssel). In der exemplarischen Vorgehensweise besprechen wir auch, wie Sie die Lösung anpassen können, um Ihre eigenen Daten zu verwenden.

Die Ergebnisse der Lösung sind wie folgt:

Ein unbeaufsichtigtes SageMaker-RCF Modell. Das Modell gibt für jede Transaktion einen Anomalie-Score aus. Ein niedriger Score-Wert zeigt an, dass die Transaktion als normal (nicht betrügerisch) angesehen wird. Ein hoher Wert zeigt an, dass die Transaktion betrügerisch ist. Die Definitionen von niedrig und hoch hängen von der Anwendung ab, aber die gängige Praxis legt nahe, dass Werte über drei Standardabweichungen vom Mittelwert als anomal betrachtet werden.
Ein überwacht SageMaker XGBoost Modell, das mit seinem integrierten Gewichtungsschema trainiert wurde, um das Problem der stark unausgewogenen Daten zu lösen.
Ein überwachtes SageMaker XGBoost-Modell, das mit dem trainiert wurde Synthetische Minority Oversampling-Technik (SCHLACHTEN).
Ein trainiertes SageMaker XGBoost-Modell mit HPO.
Vorhersagen über die Wahrscheinlichkeit, dass jede Transaktion betrügerisch ist. Wenn die geschätzte Wahrscheinlichkeit einer Transaktion über einem Schwellenwert liegt, wird sie als betrügerisch eingestuft.

Um zu demonstrieren, wie Sie diese Lösung in Ihren vorhandenen Geschäftsinfrastrukturen verwenden können, fügen wir auch ein Beispiel für REST-API-Aufrufe an den bereitgestellten Modellendpunkt bei, indem Sie verwenden AWS Lambda um sowohl das RCF- als auch das XGBoost-Modell auszulösen.

Das folgende Diagramm zeigt die Lösungsarchitektur.

Voraussetzungen:

Um die Lösung in Ihrem eigenen Konto auszuprobieren, stellen Sie sicher, dass Sie Folgendes eingerichtet haben:

Wenn die Studio-Instanz bereit ist, können Sie Studio starten und auf JumpStart zugreifen. JumpStart-Lösungen sind in SageMaker-Notebook-Instances nicht verfügbar, und Sie können nicht über SageMaker-APIs oder die darauf zugreifen AWS-Befehlszeilenschnittstelle (AWS-CLI).

Starten Sie die Lösung

Führen Sie die folgenden Schritte aus, um die Lösung zu starten:

Öffnen Sie JumpStart mithilfe des JumpStart-Launchers in der Loslegen Abschnitt oder durch Auswahl des JumpStart-Symbols in der linken Seitenleiste.
Der Lösungen, wählen Erkennen Sie böswillige Benutzer und Transaktionen , um die Lösung in einem anderen Studio-Tab zu öffnen.
Wählen Sie auf der Registerkarte Lösung aus Einführung um die Lösung zu starten.

Die Lösungsressourcen werden bereitgestellt und eine weitere Registerkarte wird geöffnet, die den Bereitstellungsfortschritt anzeigt. Wenn die Bereitstellung abgeschlossen ist, wird eine Notizbuch öffnen Schaltfläche erscheint.
Auswählen Notizbuch öffnen um das Lösungsnotizbuch in Studio zu öffnen.

Untersuchen und verarbeiten Sie die Daten

Der Standarddatensatz enthält nur numerische Features, da die ursprünglichen Features mit transformiert wurden Hauptkomponentenanalyse (PCA), um die Privatsphäre der Benutzer zu schützen. Als Ergebnis enthält das Dataset 28 PCA-Komponenten, V1–V28, und zwei Features, die nicht transformiert wurden, Betrag und Zeit. Betrag bezieht sich auf den Transaktionsbetrag und Zeit sind die Sekunden, die zwischen einer Transaktion in den Daten und der ersten Transaktion verstrichen sind.

Die Klasse-Spalte entspricht, ob eine Transaktion betrügerisch ist oder nicht.

Wir können sehen, dass die Mehrheit nicht betrügerisch ist, da von den insgesamt 284,807 Beispielen nur 492 (0.173 %) betrügerisch sind. Dies ist ein Fall von extremem Klassenungleichgewicht, das in Betrugserkennungsszenarien üblich ist.

Anschließend bereiten wir unsere Daten zum Laden und Trainieren vor. Wir teilen die Daten in einen Zugsatz und einen Testsatz auf, wobei ersterer zum Trainieren und letzterer zum Bewerten der Leistung unseres Modells verwendet wird. Es ist wichtig, die Daten aufzuteilen, bevor Techniken angewendet werden, um das Klassenungleichgewicht zu verringern. Andernfalls könnten wir Informationen aus dem Testset in das Zugset lecken und die Leistung des Modells beeinträchtigen.

Wenn Sie Ihre eigenen Trainingsdaten einbringen möchten, stellen Sie sicher, dass es sich um tabellarische Daten im CSV-Format handelt, laden Sie die Daten in eine Amazon Simple Storage-Service (Amazon S3)-Bucket und bearbeiten Sie den S3-Objektpfad im Notebook-Code.

Wenn Ihre Daten kategoriale Spalten mit nicht numerischen Werten enthalten, müssen Sie diese Werte One-Hot-Codierung (z. B. mit sklearns OneHotEncoder), da der XGBoost-Algorithmus nur numerische Daten unterstützt.

Trainieren Sie ein unbeaufsichtigtes Random Cut Forest-Modell

In einem Betrugserkennungsszenario haben wir normalerweise nur sehr wenige gekennzeichnete Beispiele, und die Kennzeichnung von Betrug kann viel Zeit und Mühe kosten. Daher wollen wir auch Informationen aus den vorliegenden unbeschrifteten Daten extrahieren. Wir tun dies mithilfe eines Anomalieerkennungsalgorithmus und nutzen das hohe Datenungleichgewicht, das in Datensätzen zur Betrugserkennung üblich ist.

Anomalieerkennung ist eine Form des unüberwachten Lernens, bei der wir versuchen, anomale Beispiele ausschließlich anhand ihrer Merkmalsmerkmale zu identifizieren. Random Cut Forest ist ein hochmoderner Anomalieerkennungsalgorithmus, der sowohl genau als auch skalierbar ist. Jedem Datenbeispiel ordnet RCF einen Anomalie-Score zu.

Wir verwenden den in SageMaker integrierten RCF-Algorithmus, um ein Anomalieerkennungsmodell auf unserem Trainingsdatensatz zu trainieren und dann Vorhersagen auf unserem Testdatensatz zu treffen.

Zunächst untersuchen und zeichnen wir die vorhergesagten Anomaliewerte für positive (betrügerische) und negative (nicht betrügerische) Beispiele separat auf, da sich die Anzahl positiver und negativer Beispiele erheblich unterscheidet. Wir erwarten, dass die positiven (betrügerischen) Beispiele relativ hohe Anomaliewerte haben und die negativen (nicht betrügerischen) niedrige Anomaliewerte. Aus den Histogrammen können wir die folgenden Muster erkennen:

Fast die Hälfte der positiven Beispiele (linkes Histogramm) hat Anomalie-Scores von mehr als 0.9, während die meisten negativen Beispiele (rechtes Histogramm) Anomalie-Scores von weniger als 0.85 haben.
Der unüberwachte Lernalgorithmus RCF hat Einschränkungen, um betrügerische und nicht betrügerische Beispiele genau zu identifizieren. Dies liegt daran, dass keine Etiketteninformationen verwendet werden. Wir gehen dieses Problem an, indem wir Etiketteninformationen sammeln und in späteren Schritten einen überwachten Lernalgorithmus verwenden.

Dann gehen wir von einem realistischeren Szenario aus, in dem wir jedes Testbeispiel basierend auf seinem Anomaliewert entweder als positiv (betrügerisch) oder negativ (nicht betrügerisch) klassifizieren. Wir zeichnen das Score-Histogramm für alle Testbeispiele wie folgt, wobei wir einen Cutoff-Score von 1.0 (basierend auf dem im Histogramm gezeigten Muster) für die Klassifizierung wählen. Insbesondere wenn der Anomaliewert eines Beispiels kleiner oder gleich 1.0 ist, wird es als negativ (nicht betrügerisch) eingestuft. Andernfalls wird das Beispiel als positiv (betrügerisch) eingestuft.

Zuletzt vergleichen wir das Klassifizierungsergebnis mit den Ground-Truth-Labels und berechnen die Bewertungsmetriken. Da unser Datensatz unausgewogen ist, verwenden wir die Bewertungsmetriken ausgewogene Genauigkeit, Cohens Kappa-Score, F1-Punktzahl und ROC-AUC, weil sie die Häufigkeit jeder Klasse in den Daten berücksichtigen. Bei all diesen Metriken weist ein größerer Wert auf eine bessere Vorhersageleistung hin. Beachten Sie, dass wir in diesem Schritt die ROC-AUC noch nicht berechnen können, da es keine geschätzte Wahrscheinlichkeit für positive und negative Klassen aus dem RCF-Modell für jedes Beispiel gibt. Wir berechnen diese Metrik in späteren Schritten mithilfe von überwachten Lernalgorithmen.

.	RCF
Ausgewogene Genauigkeit	0.560023
Cohens Kappa	0.003917
F1	0.007082
ROC-AUC	-

Aus diesem Schritt können wir erkennen, dass das unüberwachte Modell bereits eine gewisse Trennung zwischen den Klassen erreichen kann, wobei höhere Anomaliewerte mit betrügerischen Beispielen korrelieren.

Trainieren Sie ein XGBoost-Modell mit dem integrierten Gewichtungsschema

Nachdem wir eine ausreichende Menge gekennzeichneter Trainingsdaten gesammelt haben, können wir einen überwachten Lernalgorithmus verwenden, um Beziehungen zwischen den Funktionen und den Klassen zu entdecken. Wir haben uns für den XGBoost-Algorithmus entschieden, weil er sich bewährt hat, hochgradig skalierbar ist und mit fehlenden Daten umgehen kann. Wir müssen dieses Mal mit dem Datenungleichgewicht umgehen, sonst dominiert die Mehrheitsklasse (die nicht betrügerischen oder negativen Beispiele) das Lernen.

Wir trainieren und implementieren unser erstes überwachtes Modell mit dem in SageMaker integrierten XGBoost-Algorithmus-Container. Dies ist unser Basismodell. Um das Datenungleichgewicht zu behandeln, verwenden wir den Hyperparameter scale_pos_weight, das die Gewichtungen der positiven Klassenbeispiele gegenüber den negativen Klassenbeispielen skaliert. Da der Datensatz stark verzerrt ist, setzen wir diesen Hyperparameter auf einen konservativen Wert: sqrt(num_nonfraud/num_fraud).

Wir trainieren und implementieren das Modell wie folgt:

Rufen Sie den SageMaker XGBoost-Container-URI ab.
Legen Sie die Hyperparameter fest, die wir für das Modelltraining verwenden möchten, einschließlich des von uns erwähnten, der das Datenungleichgewicht behandelt. scale_pos_weight.
Erstellen Sie einen XGBoost-Schätzer und trainieren Sie ihn mit unserem Zugdatensatz.
Stellen Sie das trainierte XGBoost-Modell auf einem von SageMaker verwalteten Endpunkt bereit.
Evaluieren Sie dieses Basismodell mit unserem Testdatensatz.

Dann evaluieren wir unser Modell mit denselben vier Metriken wie im letzten Schritt erwähnt. Diesmal können wir auch die ROC-AUC-Metrik berechnen.

.	RCF	XGBoost
Ausgewogene Genauigkeit	0.560023	0.847685
Cohens Kappa	0.003917	0.743801
F1	0.007082	0.744186
ROC-AUC	-	0.983515

Wir können sehen, dass eine überwachte Lernmethode XGBoost mit dem Gewichtungsschema (unter Verwendung des hyperparameter scale_pos_weight) erzielt eine deutlich bessere Performance als das unüberwachte Lernverfahren RCF. Es gibt jedoch noch Luft nach oben, um die Leistung zu verbessern. Insbesondere eine Anhebung des Cohen-Kappa-Scores über 0.8 wäre generell sehr günstig.

Abgesehen von Einzelwertmetriken ist es auch nützlich, sich Metriken anzusehen, die die Leistung pro Klasse angeben. Beispielsweise können die Verwirrungsmatrix, die Präzision pro Klasse, die Erinnerung und der F1-Score weitere Informationen über die Leistung unseres Modells liefern.

.	Präzision	erinnern	f1-Ergebnis	Support
Nichtbetrug	1.00	1.00	1.00	28435
Betrug	0.80	0.70	0.74	46

Senden Sie weiterhin Testdatenverkehr über Lambda an den Endpunkt

Um zu demonstrieren, wie unsere Modelle in einem Produktionssystem verwendet werden, haben wir eine REST-API mit erstellt Amazon API-Gateway und eine Lambda-Funktion. Wenn Clientanwendungen HTTP-Inferenzanforderungen an die REST-API senden, löst diese die Lambda-Funktion aus, die wiederum die RCF- und XGBoost-Modellendpunkte aufruft und die Vorhersagen von den Modellen zurückgibt. Sie können den Lambda-Funktionscode lesen und die Aufrufe auf der Lambda-Konsole überwachen.

Wir haben auch ein Python-Skript erstellt, das HTTP-Inferenzanforderungen an die REST-API sendet, mit unseren Testdaten als Eingabedaten. Um zu sehen, wie dies gemacht wurde, überprüfen Sie die generate_endpoint_traffic.py Datei im Quellcode der Lösung. Die Vorhersageausgaben werden über eine in einem S3-Bucket protokolliert Amazon Kinesis Data Firehose Lieferstrom. Sie können den S3-Bucket-Namen des Ziels in der Kinesis Data Firehose-Konsole finden und die Vorhersageergebnisse im S3-Bucket überprüfen.

Trainieren Sie ein XGBoost-Modell mit der Oversampling-Technik SMOTE

Jetzt, da wir ein Basismodell mit XGBoost haben, können wir sehen, ob Sampling-Techniken, die speziell für unausgeglichene Probleme entwickelt wurden, die Leistung des Modells verbessern können. Wir gebrauchen Synthetisches Oversampling von Minderheiten (SMOTE), das die Minderheitsklasse überabtastet, indem neue Datenpunkte zwischen vorhandenen interpoliert werden.

Die Schritte sind wie folgt:

Verwenden Sie SMOTE, um die Minderheitsklasse (die betrügerische Klasse) unseres Zugdatensatzes zu überabtasten. SMOTE überabtastet die Minderheitsklasse von etwa 0.17–50 %. Beachten Sie, dass dies ein Fall von extremem Oversampling der Minderheitsklasse ist. Eine Alternative wäre die Verwendung eines kleineren Resampling-Verhältnisses, z. B. eine Stichprobe für jede Minderheitsklasse sqrt(non_fraud/fraud) Mehrheitsabtastung oder mit fortgeschritteneren Resampling-Techniken. Weitere Oversampling-Optionen finden Sie unter Vergleichen Sie Oversampling-Sampler.
Definieren Sie die Hyperparameter für das Training des zweiten XGBoost so, dass scale_pos_weight entfernt wird und die anderen Hyperparameter dieselben bleiben wie beim Training des Basis-XGBoost-Modells. Wir müssen mit diesem Hyperparameter kein Datenungleichgewicht mehr behandeln, weil wir das bereits mit SMOTE gemacht haben.
Trainieren Sie das zweite XGBoost-Modell mit den neuen Hyperparametern auf dem SMOTE-verarbeiteten Zugdatensatz.
Stellen Sie das neue XGBoost-Modell auf einem von SageMaker verwalteten Endpunkt bereit.
Evaluieren Sie das neue Modell mit dem Testdatensatz.

Bei der Bewertung des neuen Modells können wir sehen, dass XGBoost mit SMOTE eine bessere Leistung bei ausgewogener Genauigkeit erzielt, jedoch nicht bei Cohens Kappa- und F1-Ergebnissen. Der Grund dafür ist, dass SMOTE die Fraud-Klasse so stark überabgetastet hat, dass sie ihre Überlappung im Funktionsraum mit den Nicht-Fraud-Fällen vergrößert hat. Da Cohens Kappa Fehlalarmen mehr Gewicht beimisst als die ausgewogene Genauigkeit, sinkt die Metrik erheblich, ebenso wie die Genauigkeit und der F1-Score für Betrugsfälle.

.	RCF	XGBoost	XGBoost SMOTE
Ausgewogene Genauigkeit	0.560023	0.847685	0.912657
Cohens Kappa	0.003917	0.743801	0.716463
F1	0.007082	0.744186	0.716981
ROC-AUC	-	0.983515	0.967497

Wir können jedoch das Gleichgewicht zwischen den Metriken wiederherstellen, indem wir den Klassifizierungsschwellenwert anpassen. Bisher haben wir 0.5 als Schwellenwert verwendet, um zu kennzeichnen, ob ein Datenpunkt betrügerisch ist oder nicht. Nach dem Experimentieren mit verschiedenen Schwellenwerten von 0.1 bis 0.9 können wir sehen, dass Cohens Kappa zusammen mit dem Schwellenwert weiter zunimmt, ohne dass die ausgewogene Genauigkeit erheblich verloren geht.

Dies fügt unserem Modell eine nützliche Kalibrierung hinzu. Wir können einen niedrigen Schwellenwert verwenden, wenn es unsere Priorität ist, keine betrügerischen Fälle (falsch negative) zu übersehen, oder wir können den Schwellenwert erhöhen, um die Anzahl der falsch positiven Ergebnisse zu minimieren.

Trainieren Sie mit HPO ein optimales XGBoost-Modell

In diesem Schritt demonstrieren wir, wie Sie die Modellleistung verbessern können, indem Sie unser drittes XGBoost-Modell mit Hyperparameter-Optimierung trainieren. Beim Erstellen komplexer ML-Systeme ist es unpraktisch, alle möglichen Kombinationen von Hyperparameterwerten manuell zu untersuchen. Die HPO-Funktion in SageMaker kann Ihre Produktivität steigern, indem viele Varianten eines Modells in Ihrem Namen ausprobiert werden. Es sucht automatisch nach dem besten Modell, indem es sich auf die vielversprechendsten Kombinationen von Hyperparameterwerten innerhalb der von Ihnen angegebenen Bereiche konzentriert.

Der HPO-Prozess benötigt einen Validierungsdatensatz, daher teilen wir unsere Trainingsdaten zunächst weiter in Trainings- und Validierungsdatensätze auf geschichtete Stichprobe. Um das Problem des Datenungleichgewichts anzugehen, verwenden wir erneut das Gewichtungsschema von XGBoost und setzen die scale_pos_weight Hyperparameter zu sqrt(num_nonfraud/num_fraud).

Wir erstellen einen XGBoost-Schätzer mithilfe des in SageMaker integrierten XGBoost-Algorithmus-Containers und geben die objektive Bewertungsmetrik und die Hyperparameterbereiche an, in denen wir experimentieren möchten. Mit diesen erstellen wir dann eine HyperparameterTuner und starten Sie den HPO-Tuning-Job, der mehrere Modelle parallel trainiert und nach optimalen Hyperparameter-Kombinationen sucht.

Wenn der Tuning-Job abgeschlossen ist, können wir seinen Analysebericht sehen und die Hyperparameter jedes Modells, Informationen zum Trainingsjob und seine Leistung anhand der objektiven Bewertungsmetrik überprüfen.

Dann setzen wir das beste Modell ein und evaluieren es mit unserem Testdatensatz.

Bewerten und vergleichen Sie die gesamte Modellleistung anhand derselben Testdaten

Jetzt haben wir die Bewertungsergebnisse von allen vier Modellen: RCF, XGBoost Baseline, XGBoost mit SMOTE und XGBoost mit HPO. Vergleichen wir ihre Leistung.

.	RCF	XGBoost	XGBoost mit SMOTE	XGBoost mit HPO
Ausgewogene Genauigkeit	0.560023	0.847685	0.912657	0.902156
Cohens Kappa	0.003917	0.743801	0.716463	0.880778
F1	0.007082	0.744186	0.716981	0.880952
ROC-AUC	-	0.983515	0.967497	0.981564

Wir können sehen, dass XGBoost mit HPO eine noch bessere Leistung erzielt als mit der SMOTE-Methode. Insbesondere liegen Cohens Kappa-Werte und F1 über 0.8, was auf eine optimale Modellleistung hinweist.

Aufräumen

Wenn Sie mit dieser Lösung fertig sind, stellen Sie sicher, dass Sie alle unerwünschten AWS-Ressourcen löschen, um unbeabsichtigte Gebühren zu vermeiden. In dem Lösung löschen Abschnitt auf Ihrer Lösungsregisterkarte, wählen Sie Löschen Sie alle Ressourcen zum Löschen von Ressourcen, die beim Starten dieser Lösung automatisch erstellt wurden.

Alternativ können Sie auch verwenden AWS CloudFormation um alle automatisch von der Lösung und dem Notebook erstellten Standardressourcen zu löschen. Um diesen Ansatz zu verwenden, suchen Sie in der AWS CloudFormation-Konsole den CloudFormation-Stack, dessen Beschreibung Fraud-Detection-Using-Machine-Learning enthält, und löschen Sie ihn. Dies ist ein übergeordneter Stack, und wenn Sie diesen Stack löschen, werden automatisch die verschachtelten Stacks gelöscht.

Bei beiden Ansätzen müssen Sie weiterhin alle zusätzlichen Ressourcen, die Sie möglicherweise in diesem Notizbuch erstellt haben, manuell löschen. Einige Beispiele umfassen zusätzliche S3-Buckets (zusätzlich zum Standard-Bucket der Lösung), zusätzliche SageMaker-Endpunkte (unter Verwendung eines benutzerdefinierten Namens) und mehr Amazon Elastic Container-Registrierung (Amazon ECR)-Repositories.

Zusammenfassung

In diesem Beitrag haben wir Ihnen gezeigt, wie Sie den Kern eines dynamischen, sich selbst verbessernden und wartbaren Systems zur Erkennung von Kreditkartenbetrug mithilfe von ML mit SageMaker aufbauen können. Wir haben ein unüberwachtes RCF-Anomalieerkennungsmodell, ein überwachtes XGBoost-Modell als Basislinie, ein weiteres überwachtes XGBoost-Modell mit SMOTE zur Bewältigung des Datenungleichgewichtsproblems und ein endgültiges XGBoost-Modell, das mit HPO optimiert wurde, erstellt, trainiert und bereitgestellt. Wir haben besprochen, wie Sie mit Datenungleichgewichten umgehen und Ihre eigenen Daten in der Lösung verwenden können. Wir haben auch eine beispielhafte REST-API-Implementierung mit API Gateway und Lambda beigefügt, um zu demonstrieren, wie Sie das System in Ihrer bestehenden Geschäftsinfrastruktur verwenden können.

Um es selbst auszuprobieren, öffnen SageMaker-Studio und starten Sie die JumpStart-Lösung. Um mehr über die Lösung zu erfahren, schauen Sie sich die an GitHub-Repository.

Über die Autoren

Xiaoli Shen ist Solutions Architect und Mitglied der Machine Learning Technical Field Community (TFC) bei Amazon Web Services. Sie konzentriert sich darauf, Kunden bei der Cloud-Architektur zu unterstützen und AWS-Services zu nutzen, um geschäftlichen Nutzen zu erzielen. Bevor sie zu AWS kam, war sie technische Leiterin und Senior Full-Stack-Ingenieurin und baute datenintensive verteilte Systeme in der Cloud auf.

Xin Huang ist ein angewandter Wissenschaftler für Amazon SageMaker JumpStart und die integrierten Algorithmen von Amazon SageMaker. Er konzentriert sich auf die Entwicklung skalierbarer Algorithmen für maschinelles Lernen. Seine Forschungsinteressen liegen im Bereich der Verarbeitung natürlicher Sprache, erklärbares Deep Learning auf tabellarischen Daten und robuste Analyse von nichtparametrischem Raum-Zeit-Clustering. Er hat viele Artikel in ACL-, ICDM-, KDD-Konferenzen und in der Zeitschrift Royal Statistical Society: Series A veröffentlicht.

Vedant Jain ist ein Sr. AI/ML Specialist Solutions Architect, der Kunden dabei hilft, Wert aus dem Machine Learning-Ökosystem bei AWS zu ziehen. Vor seinem Eintritt bei AWS hatte Vedant Positionen im Bereich ML/Data Science Specialty bei verschiedenen Unternehmen wie Databricks, Hortonworks (jetzt Cloudera) und JP Morgan Chase inne. Außerhalb seiner Arbeit macht Vedant leidenschaftlich gerne Musik, nutzt die Wissenschaft, um ein sinnvolles Leben zu führen, und erforscht köstliche vegetarische Gerichte aus der ganzen Welt.

Zeitstempel: 19. Oktober 202219. Oktober 2022

Zeitstempel: 20. September 2022

Erkennen Sie betrügerische Transaktionen durch maschinelles Lernen mit Amazon SageMaker

Neuauflage von Plato

Lösungsüberblick

Voraussetzungen:

Starten Sie die Lösung

Untersuchen und verarbeiten Sie die Daten

Trainieren Sie ein unbeaufsichtigtes Random Cut Forest-Modell

Trainieren Sie ein XGBoost-Modell mit dem integrierten Gewichtungsschema

Senden Sie weiterhin Testdatenverkehr über Lambda an den Endpunkt

Trainieren Sie ein XGBoost-Modell mit der Oversampling-Technik SMOTE

Trainieren Sie mit HPO ein optimales XGBoost-Modell

Bewerten und vergleichen Sie die gesamte Modellleistung anhand derselben Testdaten

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Fehlererkennung in hochauflösenden Bildern mit zweistufigen Amazon Rekognition Custom Labels-Modellen | Amazon Web Services

Optimieren Sie Hyperparameter mit Amazon SageMaker Automatic Model Tuning

Optimale Preise für maximalen Gewinn mit Amazon SageMaker

Amazon SageMaker Automatic Model Tuning unterstützt jetzt SageMaker-Trainingsinstanz-Fallbacks

Wie The Chefz mit Amazon Personalize das perfekte Essen serviert

Operationalisieren Sie Ihre Amazon SageMaker Studio-Notebooks als geplante Notebook-Jobs

Erstellen Sie Kaltstartprognosen für Produkte ohne historische Daten mit Amazon Forecast, jetzt bis zu 45 % genauer

Abwanderungsvorhersage mit den in Amazon SageMaker integrierten tabellarischen Algorithmen LightGBM, CatBoost, TabTransformer und AutoGluon-Tabular

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto