Diagnostizieren Sie die Modellleistung vor der Bereitstellung für Amazon Fraud Detector

Neuauflage von Plato

Verfolger: 0

Mit der zunehmenden Akzeptanz von Online-Anwendungen und der steigenden Zahl von Internetnutzern nimmt der digitale Betrug Jahr für Jahr zu. Amazon Fraud Detector bietet einen vollständig verwalteten Service, der Ihnen hilft, potenziell betrügerische Online-Aktivitäten mithilfe fortschrittlicher Techniken des maschinellen Lernens (ML) und mehr als 20 Jahren Betrugserkennungsexpertise von Amazon besser zu identifizieren.

Damit Sie Betrug in mehreren Anwendungsfällen schneller aufdecken können, bietet Amazon Fraud Detector spezifische Modelle mit maßgeschneiderten Algorithmen, Anreicherungen und Funktionstransformationen. Das Modelltraining ist vollautomatisch und problemlos, und Sie können den Anweisungen im folgen Benutzerhandbuch Oder verwandt Blog-Beiträge um anzufangen. Bei trainierten Modellen müssen Sie jedoch entscheiden, ob das Modell bereit für die Bereitstellung ist. Dies erfordert gewisse Kenntnisse in ML, Statistik und Betrugserkennung, und es kann hilfreich sein, einige typische Ansätze zu kennen.

Dieser Beitrag hilft Ihnen bei der Diagnose der Modellleistung und der Auswahl des richtigen Modells für die Bereitstellung. Wir gehen die von Amazon Fraud Detector bereitgestellten Metriken durch, helfen Ihnen bei der Diagnose potenzieller Probleme und machen Vorschläge zur Verbesserung der Modellleistung. Die Ansätze gelten sowohl für Modellvorlagen für Online Fraud Insights (OFI) als auch für Transaction Fraud Insights (TFI).

Lösungsüberblick

Dieser Beitrag bietet einen End-to-End-Prozess zur Diagnose Ihrer Modellleistung. Zunächst werden alle Modellmetriken vorgestellt, die auf der Amazon Fraud Detector-Konsole angezeigt werden, einschließlich AUC, Score-Verteilung, Konfusionsmatrix, ROC-Kurve und Wichtigkeit der Modellvariablen. Anschließend stellen wir einen dreistufigen Ansatz zur Diagnose der Modellleistung anhand verschiedener Metriken vor. Abschließend bieten wir Vorschläge zur Verbesserung der Modellleistung für typische Probleme.

Voraussetzungen:

Bevor Sie tief in Ihr Amazon Fraud Detector-Modell eintauchen, müssen Sie die folgenden Voraussetzungen erfüllen:

Erstellen Sie ein AWS-Konto.
Erstellen Sie einen Ereignisdatensatz für die Modellausbildung.
Laden Sie Ihre Daten hoch zu Amazon Simple Storage-Service (Amazon S3) oder Nehmen Sie Ihre Ereignisdaten in Amazon Fraud Detector auf.
Erstellen Sie ein Amazon Fraud Detector-Modell.

Modellmetriken interpretieren

Nachdem das Modelltraining abgeschlossen ist, wertet Amazon Fraud Detector Ihr Modell anhand eines Teils der Modellierungsdaten aus, der nicht im Modelltraining verwendet wurde. Es gibt die Bewertungsmetriken auf der zurück Modellversion Seite für dieses Modell. Diese Metriken spiegeln die Modellleistung wider, die Sie nach der Bereitstellung in der Produktion für echte Daten erwarten können.

Der folgende Screenshot zeigt ein Beispiel für die von Amazon Fraud Detector zurückgegebene Modellleistung. Sie können verschiedene Schwellenwerte für die Score-Verteilung auswählen (links), und die Konfusionsmatrix (rechts) wird entsprechend aktualisiert.

Sie können die folgenden Erkenntnisse verwenden, um die Leistung zu überprüfen und über Strategieregeln zu entscheiden:

AUC (Fläche unter der Kurve) – Die Gesamtleistung dieses Modells. Ein Modell mit einer AUC von 0.50 ist nicht besser als ein Münzwurf, da es einen zufälligen Zufall darstellt, während ein „perfektes“ Modell eine Punktzahl von 1.0 hat. Je höher die AUC, desto besser kann Ihr Modell zwischen Betrug und Legitimität unterscheiden.
Punkteverteilung – Ein Histogramm der Modellpunktzahlverteilungen unter der Annahme einer Beispielpopulation von 100,000 Ereignissen. Amazon Fraud Detector generiert Modellwerte zwischen 0 und 1000, wobei das Betrugsrisiko umso geringer ist, je niedriger der Wert ist. Eine bessere Trennung zwischen legitimen (grün) und betrügerischen (blau) Populationen weist typischerweise auf ein besseres Modell hin. Weitere Einzelheiten finden Sie unter Modellergebnisse.
Verwirrung Matrix – Eine Tabelle, die die Modellleistung für den ausgewählten gegebenen Score-Schwellenwert beschreibt, einschließlich Richtig-Positiv, Richtig-Negativ, Falsch-Positiv, Falsch-Negativ, Richtig-Positiv-Rate (TPR) und Falsch-Positiv-Rate (FPR). Die Anzahl in der Tabelle geht von einer Beispielpopulation von 100,0000 Ereignissen aus. Weitere Einzelheiten finden Sie unter Modellleistungsmetriken.
ROC-Kurve (Receiver Operator Characteristic). – Ein Diagramm, das die Diagnosefähigkeit des Modells veranschaulicht, wie im folgenden Screenshot gezeigt. Es zeichnet die Richtig-Positiv-Rate als Funktion der Falsch-Positiv-Rate über alle möglichen Modellbewertungsschwellenwerte auf. Zeigen Sie dieses Diagramm an, indem Sie auswählen Erweiterte Metriken. Wenn Sie mehrere Versionen eines Modells trainiert haben, können Sie verschiedene FPR-Schwellenwerte auswählen, um die Leistungsänderung zu überprüfen.
Bedeutung der Modellvariablen – Der Rang der Modellvariablen basierend auf ihrem Beitrag zum generierten Modell, wie im folgenden Screenshot gezeigt. Die Modellvariable mit dem höchsten Wert ist für das Modell wichtiger als die anderen Modellvariablen im Datensatz für diese Modellversion und wird standardmäßig ganz oben aufgeführt. Weitere Einzelheiten finden Sie unter Bedeutung der Modellvariablen.

Modellleistung diagnostizieren

Bevor Sie Ihr Modell in der Produktion bereitstellen, sollten Sie die von Amazon Fraud Detect zurückgegebenen Metriken verwenden, um die Modellleistung zu verstehen und mögliche Probleme zu diagnostizieren. Die allgemeinen Probleme von ML-Modellen können in zwei Hauptkategorien unterteilt werden: datenbezogene Probleme und modellbezogene Probleme. Amazon Fraud Detector hat sich um die modellbezogenen Probleme gekümmert, indem es Validierungs- und Testsätze sorgfältig verwendet, um Ihr Modell im Backend zu bewerten und zu optimieren. Sie können die folgenden Schritte ausführen, um zu überprüfen, ob Ihr Modell bereit für die Bereitstellung ist oder mögliche datenbezogene Probleme aufweist:

Überprüfen Sie die Gesamtleistung des Modells (AUC und Score-Verteilung).
Überprüfen Sie die Geschäftsanforderungen (Verwirrungsmatrix und Tabelle).
Überprüfen Sie die Wichtigkeit der Modellvariablen.

Überprüfen Sie die Gesamtleistung des Modells: AUC und Score-Verteilung

Eine genauere Vorhersage zukünftiger Ereignisse ist immer das primäre Ziel eines Vorhersagemodells. Die von Amazon Fraud Detector zurückgegebene AUC wird anhand eines ordnungsgemäß abgetasteten Testsatzes berechnet, der nicht im Training verwendet wird. Im Allgemeinen gilt ein Modell mit einer AUC größer als 0.9 als gutes Modell.

Wenn Sie ein Modell mit einer Leistung von weniger als 0.8 beobachten, bedeutet dies normalerweise, dass das Modell Raum für Verbesserungen hat (wir diskutieren allgemeine Probleme bei niedriger Modellleistung später in diesem Beitrag). Beachten Sie, dass die Definition einer „guten“ Leistung stark von Ihrem Unternehmen und dem Basismodell abhängt. Sie können trotzdem den Schritten in diesem Beitrag folgen, um Ihr Amazon Fraud Detector-Modell zu verbessern, auch wenn seine AUC größer als 0.8 ist.

Wenn die AUC andererseits über 0.99 liegt, bedeutet dies, dass das Modell die betrügerischen und legitimen Ereignisse auf dem Testset fast perfekt trennen kann. Dies ist manchmal ein „zu schön, um wahr zu sein“-Szenario (wir diskutieren allgemeine Probleme bei sehr hoher Modellleistung später in diesem Beitrag).

Neben der Gesamt-AUC kann Ihnen die Score-Verteilung auch Aufschluss darüber geben, wie gut das Modell angepasst ist. Idealerweise sollten Sie den Großteil der legitimen und betrügerischen Ereignisse an den beiden Enden der Skala sehen, was darauf hinweist, dass die Modellpunktzahl die Ereignisse im Testsatz genau einordnen kann.

Im folgenden Beispiel hat die Punkteverteilung eine AUC von 0.96.

Wenn sich die legitime und die betrügerische Verteilung überlappten oder in der Mitte konzentrierten, bedeutet dies wahrscheinlich, dass das Modell bei der Unterscheidung von betrügerischen Ereignissen und legitimen Ereignissen nicht gut funktioniert, was darauf hindeuten könnte, dass sich die historische Datenverteilung geändert hat oder dass Sie mehr Daten oder Funktionen benötigen.

Das Folgende ist ein Beispiel für eine Punkteverteilung mit einer AUC von 0.64.

Wenn Sie einen Aufteilungspunkt finden, der betrügerische und legitime Ereignisse nahezu perfekt aufteilen kann, besteht eine hohe Wahrscheinlichkeit, dass das Modell ein Label-Leckage-Problem hat oder die Betrugsmuster zu leicht zu erkennen sind, was Ihre Aufmerksamkeit erregen sollte.

Im folgenden Beispiel hat die Punkteverteilung eine AUC von 1.0.

Überprüfen Sie die Geschäftsanforderungen: Verwirrungsmatrix und -tabelle

Obwohl die AUC ein praktischer Indikator für die Modellleistung ist, lässt sie sich möglicherweise nicht direkt auf Ihre Geschäftsanforderungen übertragen. Amazon Fraud Detector bietet auch Metriken wie Betrugserkennungsrate (True-Positive-Rate), Prozentsatz legitimer Ereignisse, die fälschlicherweise als Betrug vorhergesagt werden (False-Positive-Rate) und mehr, die häufiger als Geschäftsanforderungen verwendet werden. Nachdem Sie ein Modell mit einer einigermaßen guten AUC trainiert haben, müssen Sie das Modell mit Ihren Geschäftsanforderungen mit diesen Metriken vergleichen.

Die Konfusionsmatrix und -tabelle bieten Ihnen eine Schnittstelle, um die Auswirkungen zu überprüfen und zu prüfen, ob sie Ihren Geschäftsanforderungen entsprechen. Beachten Sie, dass die Zahlen vom Schwellenwert des Modells abhängen, wobei Ereignisse mit Werten über dem Schwellenwert als Betrug und Ereignisse mit Werten unter dem Schwellenwert als legitim eingestuft werden. Sie können je nach Ihren Geschäftsanforderungen auswählen, welcher Schwellenwert verwendet werden soll.

Wenn Ihr Ziel beispielsweise darin besteht, 73 % aller Betrugsfälle zu erfassen, können Sie (wie im Beispiel unten gezeigt) einen Schwellenwert wie 855 auswählen, mit dem Sie 73 % aller Betrugsfälle erfassen können. Das Modell wird jedoch auch 3 % legitime Ereignisse fälschlicherweise als betrügerisch einstufen. Wenn dieser FPR für Ihr Unternehmen akzeptabel ist, eignet sich das Modell für die Bereitstellung. Andernfalls müssen Sie die Modellleistung verbessern.

Ein weiteres Beispiel ist, wenn die Kosten für das Blockieren oder Anfechten eines legitimen Kunden extrem hoch sind, dann möchten Sie einen niedrigen FPR und eine hohe Präzision. In diesem Fall können Sie einen Schwellenwert von 950 wählen, wie im folgenden Beispiel gezeigt, wodurch 1 % der legitimen Kunden fälschlicherweise als Betrug eingestuft werden und 80 % des identifizierten Betrugs tatsächlich betrügerisch sind.

Darüber hinaus können Sie mehrere Schwellenwerte auswählen und verschiedene Ergebnisse zuweisen, z. B. blockieren, untersuchen, bestehen. Wenn Sie keine geeigneten Schwellenwerte und Regeln finden können, die alle Ihre Geschäftsanforderungen erfüllen, sollten Sie erwägen, Ihr Modell mit mehr Daten und Attributen zu trainieren.

Überprüfen Sie die Wichtigkeit der Modellvariablen

Das Bedeutung der Modellvariablen Bereich zeigt an, wie jede Variable zu Ihrem Modell beiträgt. Wenn eine Variable einen deutlich höheren Wichtigkeitswert hat als die anderen, kann dies auf ein Label-Leaking hinweisen oder darauf, dass die Betrugsmuster zu leicht zu erkennen sind. Beachten Sie, dass die Variablenwichtigkeit wieder zu Ihren Eingabevariablen aggregiert wird. Wenn Sie eine etwas höhere Bedeutung von beobachten IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIP, oder SHIPPING_ZIP, es könnte wegen der Macht der Bereicherung sein.

Das folgende Beispiel zeigt die Wichtigkeit der Modellvariablen mit einem potenziellen Label-Leaking using investigation_status.

Die Wichtigkeit der Modellvariablen gibt Ihnen auch Hinweise darauf, welche zusätzlichen Variablen dem Modell potenziell Auftrieb verleihen könnten. Wenn Sie zum Beispiel eine niedrige AUC beobachten und verkäuferbezogene Merkmale von hoher Bedeutung sind, könnten Sie in Betracht ziehen, mehr Bestellmerkmale zu sammeln, wie z SELLER_CATEGORY, SELLER_ADDRESS und SELLER_ACTIVE_YEARS, und fügen Sie diese Variablen Ihrem Modell hinzu.

Häufige Probleme bei niedriger Modellleistung

In diesem Abschnitt besprechen wir allgemeine Probleme, auf die Sie in Bezug auf eine geringe Modellleistung stoßen können.

Historische Datenverteilung geändert

Die Verteilung historischer Daten tritt auf, wenn Sie eine große geschäftliche Änderung oder ein Problem mit der Datenerfassung haben. Wenn Sie Ihr Produkt beispielsweise kürzlich auf einem neuen Markt eingeführt haben, wird die IP_ADDRESS, EMAIL und ADDRESS damit verbundene Merkmale könnten völlig unterschiedlich sein, und auch die Betrugsmethode könnte sich ändern. Amazon Fraud Detector verwendet EVENT_TIMESTAMP um Daten aufzuteilen und Ihr Modell für die entsprechende Teilmenge von Ereignissen in Ihrem Datensatz auszuwerten. Wenn sich Ihre Verlaufsdatenverteilung erheblich ändert, kann sich der Bewertungssatz stark von den Trainingsdaten unterscheiden und die gemeldete Modellleistung kann niedrig sein.

Sie können das potenzielle Problem der Änderung der Datenverteilung überprüfen, indem Sie Ihre Verlaufsdaten untersuchen:

Verwenden Sie das Amazon Fraud Detector Daten-Profiler Werkzeug, um zu überprüfen, ob sich die Betrugsrate und die fehlende Rate des Etiketts im Laufe der Zeit verändert haben.
Überprüfen Sie, ob sich die Variablenverteilung im Laufe der Zeit signifikant geändert hat, insbesondere bei Merkmalen mit hoher Variablenwichtigkeit.
Überprüfen Sie die Variablenverteilung im Zeitverlauf nach Zielvariablen. Wenn Sie in den letzten Daten deutlich mehr Betrugsfälle aus einer Kategorie beobachten, sollten Sie anhand Ihrer geschäftlichen Einschätzungen prüfen, ob die Änderung angemessen ist.

Wenn Sie feststellen, dass die fehlende Rate des Etiketts sehr hoch ist oder die Betrugsrate in den letzten Tagen kontinuierlich gesunken ist, kann dies ein Indikator für Etiketten sein, die nicht vollständig ausgereift sind. Sie sollten die neuesten Daten ausschließen oder länger warten, um die genauen Beschriftungen zu erfassen, und dann Ihr Modell neu trainieren.

Wenn Sie an bestimmten Daten einen starken Anstieg der Betrugsrate und der Variablen beobachten, sollten Sie überprüfen, ob es sich um einen Ausreißer oder ein Problem mit der Datenerfassung handelt. In diesem Fall sollten Sie diese Ereignisse löschen und das Modell neu trainieren.

Wenn Sie der Meinung sind, dass die veralteten Daten Ihr aktuelles und zukünftiges Geschäft nicht darstellen können, sollten Sie den alten Datenzeitraum von der Schulung ausschließen. Wenn Sie gespeicherte Ereignisse in Amazon Fraud Detector verwenden, können Sie einfach eine neue Version neu trainieren und den richtigen Datumsbereich auswählen, während Sie den Trainingsauftrag konfigurieren. Dies kann auch darauf hindeuten, dass sich die Betrugsmethode in Ihrem Unternehmen im Laufe der Zeit relativ schnell ändert. Nach der Modellbereitstellung müssen Sie Ihr Modell möglicherweise häufig neu trainieren.

Falsche Zuordnung des Variablentyps

Amazon Fraud Detector bereichert und transformiert die Daten basierend auf den Variablentypen. Es ist wichtig, dass Sie Ihre Variablen dem richtigen Typ zuordnen, damit das Amazon Fraud Detector-Modell den maximalen Wert Ihrer Daten aufnehmen kann. Zum Beispiel, wenn Sie eine Karte erstellen IP zu den CATEGORICAL tippe statt IP_ADDRESS, du verstehst das nicht IP-zugehörige Anreicherungen im Backend.

Im Allgemeinen schlägt Amazon Fraud Detector die folgenden Aktionen vor:

Ordnen Sie Ihre Variablen bestimmten Typen zu, z IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN und PHONE_NUMBER, damit Amazon Fraud Detector zusätzliche Informationen extrahieren und anreichern kann.
Wenn Sie den spezifischen Variablentyp nicht finden können, ordnen Sie ihn einem der drei generischen Typen zu: NUMERIC, CATEGORICAL, oder FREE_FORM_TEXT.
Wenn eine Variable in Textform vorliegt und eine hohe Kardinalität aufweist, z. B. eine Kundenrezension oder eine Produktbeschreibung, sollten Sie sie der zuordnen FREE_FORM_TEXT Variablentyp, damit Amazon Fraud Detector Textmerkmale und Einbettungen im Backend für Sie extrahiert. Zum Beispiel, wenn Sie eine Karte erstellen url_string zu FREE_FORM_TEXT, ist es in der Lage, die URL zu tokenisieren und Informationen zu extrahieren, die in das nachgelagerte Modell eingespeist werden, wodurch es mehr verborgene Muster aus der URL lernen kann.

Wenn Sie feststellen, dass einer Ihrer Variablentypen in der Variablenkonfiguration falsch zugeordnet ist, können Sie Ihren Variablentyp ändern und dann das Modell neu trainieren.

Unzureichende Daten oder Funktionen

Amazon Fraud Detector benötigt mindestens 10,000 Datensätze, um ein Online Fraud Insights (OFI)- oder Transaction Fraud Insights (TFI)-Modell zu trainieren, wobei mindestens 400 dieser Datensätze als betrügerisch identifiziert werden. TFI verlangt außerdem, dass sowohl betrügerische Aufzeichnungen als auch legitime Aufzeichnungen von jeweils mindestens 100 verschiedenen Einheiten stammen, um die Vielfalt des Datensatzes sicherzustellen. Darüber hinaus erfordert Amazon Fraud Detector, dass die Modellierungsdaten mindestens zwei Variablen haben. Dies sind die Mindestdatenanforderungen, um ein nützliches Amazon Fraud Detector-Modell zu erstellen. Die Verwendung von mehr Datensätzen und Variablen hilft den ML-Modellen jedoch normalerweise dabei, die zugrunde liegenden Muster aus Ihren Daten besser zu lernen. Wenn Sie eine niedrige AUC beobachten oder keine Schwellenwerte finden, die Ihren Geschäftsanforderungen entsprechen, sollten Sie Ihr Modell mit mehr Daten neu trainieren oder Ihrem Modell neue Funktionen hinzufügen. Normalerweise finden wir EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS und DEVICE verwandte Variablen sind wichtig für die Betrugserkennung.

Eine weitere mögliche Ursache ist, dass einige Ihrer Variablen zu viele fehlende Werte enthalten. Um festzustellen, ob dies der Fall ist, überprüfen Sie die Modelltrainingsmeldungen und beziehen Sie sich auf Probleme mit Trainingsdaten beheben für Vorschläge.

Häufige Probleme bei sehr hoher Modellleistung

In diesem Abschnitt diskutieren wir allgemeine Probleme im Zusammenhang mit sehr hoher Modellleistung.

Leckage des Etiketts

Label-Leaking tritt auf, wenn die Trainingsdatensätze Informationen verwenden, von denen nicht erwartet wird, dass sie zum Vorhersagezeitpunkt verfügbar sind. Es überschätzt den Nutzen des Modells, wenn es in einer Produktionsumgebung ausgeführt wird.

Eine hohe AUC (nahe 1), eine perfekt getrennte Score-Verteilung und eine signifikant höhere Variablenbedeutung einer Variablen könnten Indikatoren für potenzielle Label-Leakage-Probleme sein. Sie können die Korrelation zwischen den Merkmalen und dem Etikett auch mithilfe von überprüfen Datenprofilerdem „Vermischten Geschmack“. Seine Merkmals- und Labelkorrelation Diagramm zeigt die Korrelation zwischen jedem Feature und dem Label. Wenn eine Funktion eine Korrelation von über 0.99 mit dem Label aufweist, sollten Sie prüfen, ob die Funktion auf der Grundlage geschäftlicher Beurteilungen ordnungsgemäß verwendet wird. Um beispielsweise ein Risikomodell zu erstellen, um einen Kreditantrag zu genehmigen oder abzulehnen, sollten Sie die Funktionen wie nicht verwenden AMOUNT_PAID, weil die Zahlungen nach dem Underwriting-Prozess erfolgen. Wenn eine Variable zum Zeitpunkt der Vorhersage nicht verfügbar ist, sollten Sie diese Variable aus der Modellkonfiguration entfernen und ein neues Modell neu trainieren.

Das folgende Beispiel zeigt die Korrelation zwischen jeder Variablen und Bezeichnung. investigation_status hat eine hohe Korrelation (nahe 1) mit dem Etikett, daher sollten Sie überprüfen, ob es ein Problem mit dem Etikett gibt.

Einfache Betrugsmuster

Wenn die Betrugsmuster in Ihren Daten einfach sind, beobachten Sie möglicherweise auch eine sehr hohe Modellleistung. Angenommen, alle Betrugsereignisse in den Modellierungsdaten kommen von demselben internen Dienstanbieter; Es ist einfach für das Modell, die auszuwählen IP-verwandten Variablen und geben ein „perfektes“ Modell mit hoher Wichtigkeit zurück IP.

Einfache Betrugsmuster weisen nicht immer auf ein Datenproblem hin. Es könnte wahr sein, dass der Betrugsmodus Operandi in Ihrem Unternehmen leicht zu erfassen ist. Bevor Sie jedoch eine Schlussfolgerung ziehen, müssen Sie sicherstellen, dass die beim Modelltraining verwendeten Labels korrekt sind und die Modelldaten so viele Betrugsmuster wie möglich abdecken. Zum Beispiel, wenn Sie Ihre Betrugsereignisse basierend auf Regeln kennzeichnen, wie z. B. das Kennzeichnen aller Anwendungen von einem bestimmten BILLING_ZIP erfahren PRODUCT_CATEGORY als Betrug kann das Modell diese Betrugsfälle leicht erkennen, indem es die Regeln simuliert und eine hohe AUC erreicht.

Sie können die Beschriftungsverteilung über verschiedene Kategorien oder Behälter jedes Merkmals mithilfe von überprüfen Datenprofiler. Wenn Sie beispielsweise beobachten, dass die meisten Betrugsfälle aus einer oder wenigen Produktkategorien stammen, kann dies ein Indikator für einfache Betrugsmuster sein, und Sie müssen bestätigen, dass es sich nicht um einen Datenerfassungs- oder Verarbeitungsfehler handelt. Wenn die Funktion gefällt CUSTOMER_ID, sollten Sie das Feature im Modelltraining ausschließen.

Das folgende Beispiel zeigt die Bezeichnungsverteilung über verschiedene Kategorien von product_category. Alle Betrugsfälle stammen aus zwei Produktkategorien.

Unsachgemäße Datenerfassung

Unsachgemäße Datenstichproben können auftreten, wenn Sie Stichproben genommen und nur einen Teil Ihrer Daten an Amazon Fraud Detector gesendet haben. Wenn die Daten nicht ordnungsgemäß erfasst werden und nicht repräsentativ für den Datenverkehr in der Produktion sind, ist die gemeldete Modellleistung ungenau und das Modell könnte für die Produktionsvorhersage unbrauchbar sein. Wenn beispielsweise alle Betrugsereignisse in den Modellierungsdaten aus Asien und alle legitimen Ereignisse aus den USA erfasst werden, lernt das Modell möglicherweise, basierend auf Betrug und legitim zu trennen BILLING_COUNTRY. In diesem Fall ist das Modell nicht generisch, um es auf andere Populationen anzuwenden.

Normalerweise empfehlen wir, die neuesten Ereignisse ohne Sampling zu senden. Basierend auf der Datengröße und der Betrugsrate führt Amazon Fraud Detector vor dem Modelltraining Stichproben für Sie durch. Wenn Ihre Daten zu groß sind (über 100 GB) und Sie sich entscheiden, nur eine Teilmenge zu prüfen und zu senden, sollten Sie Ihre Daten nach dem Zufallsprinzip prüfen und sicherstellen, dass die Stichprobe für die gesamte Population repräsentativ ist. Für TFI sollten Sie Ihre Daten nach Entität abtasten, d. h. wenn eine Entität abgetastet wird, sollten Sie ihre gesamte Historie einbeziehen, damit die Aggregate auf Entitätsebene korrekt berechnet werden. Beachten Sie, dass, wenn Sie nur eine Teilmenge von Daten an Amazon Fraud Detector senden, die Echtzeit-Aggregate während der Inferenz möglicherweise ungenau sind, wenn die vorherigen Ereignisse der Entitäten nicht gesendet werden.

Eine weitere unzulässige Datenstichprobe könnte darin bestehen, dass nur ein kurzer Datenzeitraum, wie z. B. die Daten eines Tages, zum Erstellen des Modells verwendet wird. Die Daten können verzerrt sein, insbesondere wenn Ihre Geschäfts- oder Betrugsangriffe saisonabhängig sind. Wir empfehlen normalerweise, Daten aus mindestens zwei Zyklen (z. B. 2 Wochen oder 2 Monate) in die Modellierung einzubeziehen, um die Vielfalt der Betrugsarten sicherzustellen.

Zusammenfassung

Nachdem Sie alle potenziellen Probleme diagnostiziert und behoben haben, sollten Sie sich ein nützliches Amazon Fraud Detector-Modell besorgen und sich auf seine Leistung verlassen können. Für den nächsten Schritt, Sie kann einen Detektor mit dem Modell und Ihren Geschäftsregeln erstellen, und seien Sie bereit, es für eine Shadow-Modus-Evaluierung in der Produktion bereitzustellen.

Anhang

So schließen Sie Variablen für das Modelltraining aus

Nach dem Deep Dive identifizieren Sie möglicherweise Zielinformationen für ein variables Leck und möchten sie aus dem Modelltraining ausschließen. Sie können eine Modellversion neu trainieren, indem Sie die nicht gewünschten Variablen ausschließen, indem Sie die folgenden Schritte ausführen:

Wählen Sie in der Amazon Fraud Detector-Konsole im Navigationsbereich Modelle.
Auf dem Modelle Seite, wählen Sie das Modell aus, das Sie neu trainieren möchten.
Auf dem Aktionen Menü, wählen Sie Neue Version trainieren.
Wählen Sie den Datumsbereich aus, den Sie verwenden möchten, und wählen Sie aus Weiter.
Auf dem Training konfigurieren Deaktivieren Sie auf der Seite die Variable, die Sie beim Modelltraining nicht verwenden möchten.
Geben Sie Ihre Betrugsetiketten und legitimen Etiketten an und wie Sie möchten, dass Amazon Fraud Detect nicht gekennzeichnete Ereignisse verwendet, und wählen Sie dann aus Weiter.
Überprüfen Sie die Modellkonfiguration und wählen Sie aus Modell erstellen und trainieren.

So ändern Sie den Ereignisvariablentyp

Variablen stellen Datenelemente dar, die zur Betrugsprävention verwendet werden. In Amazon Fraud Detector sind alle Variablen global und werden von allen Ereignissen und Modellen gemeinsam genutzt, was bedeutet, dass eine Variable in mehreren Ereignissen verwendet werden kann. Beispielsweise könnte IP Anmeldeereignissen zugeordnet werden, und es könnte auch Transaktionsereignissen zugeordnet werden. Natürlich sperrt Amazon Fraud Detector den Variablentyp und den Datentyp, sobald eine Variable erstellt wurde. Um eine vorhandene Variable zu löschen, müssen Sie zuerst alle zugehörigen Ereignistypen und Modelle löschen. Sie können die mit der spezifischen Variablen verknüpften Ressourcen überprüfen, indem Sie zu Amazon Fraud Detector navigieren und auswählen Variablen im Navigationsbereich und wählen Sie den Variablennamen und aus Zugehörige Ressourcen.

Löschen Sie die Variable und alle zugehörigen Ereignistypen

Führen Sie die folgenden Schritte aus, um die Variable zu löschen:

Wählen Sie in der Amazon Fraud Detector-Konsole im Navigationsbereich Variablen.
Wählen Sie die Variable aus, die Sie löschen möchten.
Auswählen Zugehörige Ressourcen , um eine Liste aller Ereignistypen anzuzeigen, die diese Variable verwendet haben.
Sie müssen diese zugeordneten Ereignistypen löschen, bevor Sie die Variable löschen.
Wählen Sie die Ereignistypen in der Liste aus, um zur zugehörigen Ereignistypseite zu gelangen.
Auswählen Gespeicherte Ereignisse um zu prüfen, ob Daten unter diesem Ereignistyp gespeichert sind.
Wenn in Amazon Fraud Detector Ereignisse gespeichert sind, wählen Sie Gespeicherte Ereignisse löschen um die gespeicherten Ereignisse zu löschen.
Wenn der Löschauftrag abgeschlossen ist, wird die Meldung „Die gespeicherten Ereignisse für diesen Ereignistyp wurden erfolgreich gelöscht“ angezeigt.
Auswählen Zugehörige Ressourcen.
Wenn diesem Ereignistyp Detektoren und Modelle zugeordnet sind, müssen Sie diese Ressourcen zuerst löschen.
Wenn Detektoren zugeordnet sind, führen Sie die folgenden Schritte aus, um alle zugeordneten Detektoren zu löschen:
1. Wählen Sie den Detektor aus, zu dem Sie gehen möchten Detektordetails
2. Im Modellversionen Wählen Sie im Fensterbereich die Version des Detektors aus.
3. Wählen Sie auf der Seite Detektorversion aus Aktionen.
4. Wenn die Detektorversion aktiv ist, wählen Sie Deaktivieren, wählen Deaktivieren Sie diese Detektorversion, ohne sie durch eine andere Version zu ersetzen, und wähle Melderversion deaktivieren.
5. Nachdem die Detektorversion deaktiviert ist, wählen Sie Aktionen und dann Löschen.
6. Wiederholen Sie diese Schritte, um alle Detektorversionen zu löschen.
7. Auf dem Detektordetails Seite wählen Zugehörige Regeln.
8. Wählen Sie die zu löschende Regel aus.
9. Auswählen Aktionen und Regelversion löschen.
10. Geben Sie den Regelnamen zur Bestätigung ein und wählen Sie ihn aus Version löschen.
11. Wiederholen Sie diese Schritte, um alle zugehörigen Regeln zu löschen.
12. Nachdem alle Detektorversionen und zugehörigen Regeln gelöscht wurden, gehen Sie zu Detektordetails Seite wählen Aktionen, und wähle Detektor löschen.
13. Geben Sie den Namen des Detektors ein und wählen Sie Detektor löschen.
14. Wiederholen Sie diese Schritte, um den nächsten Detektor zu löschen.
Wenn dem Ereignistyp Modelle zugeordnet sind, führen Sie die folgenden Schritte aus, um sie zu löschen:
1. Wählen Sie den Namen des Modells.
2. Im Modellversionen Wählen Sie im Bereich die Version aus.
3. Wenn der Modellstatus ist Active, wählen Aktionen und Bereitstellung der Modellversion aufheben.
4. Enter undeploy zu bestätigen und auszuwählen Bereitstellung der Modellversion aufheben.
  Der Status ändert sich zu Undeploying. Der Vorgang dauert einige Minuten.
5. Nachdem der Status wird Ready to deploy, wählen Sie Aktionen und Löschen.
6. Wiederholen Sie diese Schritte, um alle Modellversionen zu löschen.
7. Wählen Sie auf der Seite Modelldetails Aktionen und Modell löschen aus.
8. Geben Sie den Namen des Modells ein und wählen Sie Modell löschen.
9. Wiederholen Sie diese Schritte, um das nächste Modell zu löschen.
Nachdem alle zugeordneten Detektoren und Modelle gelöscht wurden, wählen Sie Aktionen und Ereignistyp löschen auf die Event-Details
Geben Sie den Namen des Ereignistyps ein und wählen Sie Ereignistyp löschen.
Wählen Sie im Navigationsbereich Variablen, und wählen Sie die Variable aus, die Sie löschen möchten.
Wiederholen Sie die vorherigen Schritte, um alle Ereignistypen zu löschen, die der Variablen zugeordnet sind.
Auf dem Variable Angaben Seite wählen Aktionen und Löschen.
Geben Sie den Namen der Variablen ein und wählen Sie Variable löschen.

Erstellen Sie eine neue Variable mit dem richtigen Variablentyp

Nachdem Sie die Variable und alle zugehörigen Ereignistypen, gespeicherten Ereignisse, Modelle und Detektoren aus Amazon Fraud Detector gelöscht haben, können Sie eine neue Variable mit demselben Namen erstellen und sie dem richtigen Variablentyp zuordnen.

Wählen Sie in der Amazon Fraud Detector-Konsole im Navigationsbereich Variablen.
Auswählen Erstellen.
Geben Sie den Variablennamen ein, den Sie ändern möchten (den Sie zuvor gelöscht haben).
Wählen Sie den richtigen Variablentyp aus, zu dem Sie wechseln möchten.
Auswählen Variable erstellen.

Laden Sie Daten hoch und trainieren Sie das Modell neu

Nachdem Sie den Variablentyp aktualisiert haben, können Sie die Daten erneut hochladen und ein neues Modell trainieren. Anweisungen finden Sie unter Erkennen Sie Online-Transaktionsbetrug mit den neuen Amazon Fraud Detector-Funktionen.

So fügen Sie einem vorhandenen Ereignistyp neue Variablen hinzu

Führen Sie die folgenden Schritte aus, um dem vorhandenen Ereignistyp neue Variablen hinzuzufügen:

Fügen Sie die neuen Variablen zur vorherigen Trainings-CVS-Datei hinzu.
Laden Sie die neue Trainingsdatendatei in einen S3-Bucket hoch. Notieren Sie sich den Amazon S3-Speicherort Ihrer Trainingsdatei (z. B. s3://bucketname/path/to/some/object.csv) und Ihren Rollennamen.
Wählen Sie in der Amazon Fraud Detector-Konsole im Navigationsbereich Veranstaltungen.
Auf dem Ereignistypen Wählen Sie auf der Seite den Namen des Ereignistyps aus, dem Sie Variablen hinzufügen möchten.
Auf dem Ereignistyp Detailseite wählen Aktionen und dann Variablen hinzufügen.
Der Wählen Sie aus, wie die Variablen dieses Ereignisses definiert werden sollen, wählen Wählen Sie Variablen aus einem Trainingsdatensatz aus.
Wählen Sie für die IAM-Rolle eine vorhandene IAM-Rolle aus oder erstellen Sie eine neue Rolle, um auf Daten in Amazon S3 zuzugreifen.
Aussichten für Datenort, geben Sie den S3-Speicherort der neuen Trainingsdatei ein und wählen Sie Laden.
Die neuen Variablen, die im vorhandenen Ereignistyp nicht vorhanden sind, sollten in der Liste angezeigt werden.
Auswählen Variablen hinzufügen.

Nun wurden die neuen Variablen zum bestehenden Ereignistyp hinzugefügt. Wenn Sie gespeicherte Ereignisse in Amazon Fraud Detector verwenden, fehlen noch die neuen Variablen der gespeicherten Ereignisse. Sie müssen die Trainingsdaten mit den neuen Variablen in Amazon Fraud Detector importieren und dann eine neue Modellversion neu trainieren. Beim Hochladen der neuen Trainingsdaten gleich mit EVENT_ID und EVENT_TIMESTAMP, überschreiben die neuen Ereignisvariablen die vorherigen in Amazon Fraud Detector gespeicherten Ereignisvariablen.

Über die Autoren

Julia Xu ist ein Research Scientist bei Amazon Fraud Detector. Sie ist leidenschaftlich daran interessiert, Kundenherausforderungen mithilfe von Techniken des maschinellen Lernens zu lösen. In ihrer Freizeit wandert sie gerne, malt und erkundet neue Cafés.

Ha Zhou ist wissenschaftlicher Mitarbeiter bei Amazon Fraud Detector. Er promovierte in Elektrotechnik an der Northwestern University, USA. Seine Leidenschaft gilt der Anwendung maschineller Lerntechniken zur Bekämpfung von Betrug und Missbrauch.

Abhishek Ravi ist Senior Product Manager bei Amazon Fraud Detector. Er setzt sich leidenschaftlich dafür ein, technische Fähigkeiten zu nutzen, um Produkte zu entwickeln, die Kunden begeistern.

Zeitstempel: 29. Juni 2022

Zeitstempel: 29. Februar 2024

Neuauflage von Plato

Erstellen Sie eine agronomische Datenplattform mit den raumbezogenen Funktionen von Amazon SageMaker

Wie man die Qualität der synthetischen Daten bewertet – gemessen aus der Perspektive von Treue, Nützlichkeit und Datenschutz

Verwenden Sie Amazon Lex, um Straßenadressen zu erfassen

Beschleunigung des groß angelegten neuronalen Netzwerktrainings auf CPUs mit ThirdAI und AWS Graviton | Amazon Web Services

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto