Diagnose van modelprestaties vóór implementatie voor Amazon Fraud Detector

Heruitgegeven door Plato

volgers: 0

Met de groei in acceptatie van online applicaties en het stijgende aantal internetgebruikers, neemt digitale fraude jaar na jaar toe. Amazone fraude detector biedt een volledig beheerde service om u te helpen potentieel frauduleuze online activiteiten beter te identificeren met behulp van geavanceerde machine learning (ML)-technieken en meer dan 20 jaar expertise op het gebied van fraudedetectie van Amazon.

Om u te helpen fraude sneller op te sporen bij meerdere gebruiksscenario's, biedt Amazon Fraud Detector specifieke modellen met op maat gemaakte algoritmen, verrijkingen en functietransformaties. De modeltraining is volledig geautomatiseerd en probleemloos, en u kunt de instructies volgen in de gebruikershandleiding of gerelateerd blogberichten starten. Bij getrainde modellen moet u echter beslissen of het model klaar is voor implementatie. Dit vereist bepaalde kennis op het gebied van ML, statistieken en fraudedetectie, en het kan handig zijn om enkele typische benaderingen te kennen.

Dit bericht helpt u bij het diagnosticeren van modelprestaties en het kiezen van het juiste model voor implementatie. We doorlopen de statistieken van Amazon Fraud Detector, helpen u bij het diagnosticeren van mogelijke problemen en geven suggesties om de modelprestaties te verbeteren. De benaderingen zijn van toepassing op zowel Online Fraud Insights (OFI) als Transaction Fraud Insights (TFI) modelsjablonen.

Overzicht oplossingen

Dit bericht biedt een end-to-end proces om de prestaties van uw model te diagnosticeren. Het introduceert eerst alle modelstatistieken die worden weergegeven op de Amazon Fraud Detector-console, inclusief AUC, scoredistributie, verwarringsmatrix, ROC-curve en belangrijkheid van modelvariabelen. Vervolgens presenteren we een benadering in drie stappen om modelprestaties te diagnosticeren met behulp van verschillende statistieken. Ten slotte bieden we suggesties om de modelprestaties voor typische problemen te verbeteren.

Voorwaarden

Voordat u diep in uw Amazon Fraud Detector-model duikt, moet u aan de volgende vereisten voldoen:

Maak een AWS-account aan.
Een gebeurtenisgegevensset maken voor modeltraining.
Upload uw gegevens naar Amazon eenvoudige opslagservice (Amazon S3) of neem uw gebeurtenisgegevens op in Amazon Fraud Detector.
Bouw een Amazon Fraud Detector-model.

Modelstatistieken interpreteren

Nadat de modeltraining is voltooid, evalueert Amazon Fraud Detector uw model met behulp van een deel van de modelleringsgegevens die niet zijn gebruikt in de modeltraining. Het retourneert de evaluatiestatistieken op de Modelversie pagina voor dat model. Die metrische gegevens weerspiegelen de modelprestaties die u op echte gegevens kunt verwachten na implementatie in productie.

De volgende schermafbeelding toont voorbeeldmodelprestaties die zijn geretourneerd door Amazon Fraud Detector. U kunt verschillende drempels kiezen voor scoreverdeling (links), en de verwarringsmatrix (rechts) wordt dienovereenkomstig bijgewerkt.

U kunt de volgende bevindingen gebruiken om de prestaties te controleren en te beslissen over strategieregels:

AUC (oppervlakte onder de curve) – De algehele prestaties van dit model. Een model met een AUC van 0.50 is niet beter dan een coinflip omdat het een willekeurige kans vertegenwoordigt, terwijl een "perfect" model een score van 1.0 zal hebben. Hoe hoger de AUC, hoe beter uw model onderscheid kan maken tussen fraude en legitiemen.
Scoreverdeling – Een histogram van modelscoreverdelingen uitgaande van een voorbeeldpopulatie van 100,000 gebeurtenissen. Amazon Fraud Detector genereert modelscores tussen 0 en 1000, waarbij hoe lager de score, hoe lager het frauderisico. Een betere scheiding tussen legitieme (groene) en frauduleuze (blauwe) populaties duidt doorgaans op een beter model. Voor meer details, zie Modelscores.
Verwarring matrix – Een tabel die de modelprestaties beschrijft voor de geselecteerde gegeven scoredrempel, inclusief true positive, true negatieve, false positive, false negative, true positive rate (TPR) en false positive rate (FPR). De telling in de tabel gaat uit van een voorbeeldpopulatie van 100,0000 gebeurtenissen. Voor meer details, zie Model prestatiestatistieken.
ROC (Receiver Operator Characteristic)-curve – Een plot dat het diagnostische vermogen van het model illustreert, zoals weergegeven in de volgende schermafbeelding. Het plot de werkelijke positieve frequentie als een functie van de fout-positieve frequentie over alle mogelijke modelscoredrempels. Bekijk deze grafiek door te kiezen voor Geavanceerde statistieken. Als u meerdere versies van één model hebt getraind, kunt u verschillende FPR-drempels selecteren om de prestatieverandering te controleren.
Belang van modelvariabele – De rangorde van modelvariabelen op basis van hun bijdrage aan het gegenereerde model, zoals weergegeven in de volgende schermafbeelding. De modelvariabele met de hoogste waarde is belangrijker voor het model dan de andere modelvariabelen in de dataset voor die modelversie en wordt standaard bovenaan weergegeven. Voor meer details, zie Belang van modelvariabele.

Modelprestaties diagnosticeren

Voordat u uw model in productie gaat nemen, moet u de door Amazon Fraud Detector geretourneerde statistieken gebruiken om inzicht te krijgen in de prestaties van het model en de mogelijke problemen te diagnosticeren. De veelvoorkomende problemen van ML-modellen kunnen worden onderverdeeld in twee hoofdcategorieën: gegevensgerelateerde problemen en modelgerelateerde problemen. Amazon Fraud Detector heeft de modelgerelateerde problemen opgelost door zorgvuldig gebruik te maken van validatie- en testsets om uw model op de backend te evalueren en af te stemmen. U kunt de volgende stappen uitvoeren om te valideren of uw model klaar is voor implementatie of mogelijke gegevensgerelateerde problemen heeft:

Controleer de algehele modelprestaties (AUC en scoreverdeling).
Bekijk de zakelijke vereisten (verwarringsmatrix en tabel).
Controleer het belang van de modelvariabele.

Controleer de algehele modelprestaties: AUC en scoreverdeling

Een nauwkeurigere voorspelling van toekomstige gebeurtenissen is altijd het primaire doel van een voorspellend model. De AUC die door Amazon Fraud Detector wordt geretourneerd, wordt berekend op een correct gesamplede testset die niet tijdens de training wordt gebruikt. Over het algemeen wordt een model met een AUC groter dan 0.9 als een goed model beschouwd.

Als je een model ziet met prestaties van minder dan 0.8, betekent dit meestal dat het model ruimte heeft voor verbetering (we bespreken veelvoorkomende problemen voor lage modelprestaties later in dit bericht). Houd er rekening mee dat de definitie van "goede" prestaties sterk afhangt van uw bedrijf en het basismodel. Je kunt nog steeds de stappen in dit bericht volgen om je Amazon Fraud Detector-model te verbeteren, ook al is de AUC groter dan 0.8.

Aan de andere kant, als de AUC hoger is dan 0.99, betekent dit dat het model de fraude en legitieme gebeurtenissen op de testset bijna perfect kan scheiden. Dit is soms een 'te mooi om waar te zijn'-scenario (we bespreken veelvoorkomende problemen voor zeer hoge modelprestaties later in dit bericht).

Naast de totale AUC kan de scoreverdeling u ook vertellen hoe goed het model is gemonteerd. Idealiter zou je het grootste deel van de legitieme en fraude aan de twee uiteinden van de schaal moeten zien, wat aangeeft dat de modelscore de gebeurtenissen op de testset nauwkeurig kan rangschikken.

In het volgende voorbeeld heeft de scoreverdeling een AUC van 0.96.

Als de legitieme en fraudedistributie overlapt of geconcentreerd is in het centrum, betekent dit waarschijnlijk dat het model niet goed presteert bij het onderscheiden van fraudegebeurtenissen van legitieme gebeurtenissen, wat erop kan wijzen dat de historische gegevensdistributie is gewijzigd of dat u meer gegevens of functies nodig hebt.

Het volgende is een voorbeeld van scoreverdeling met een AUC van 0.64.

Als u een splitpunt kunt vinden dat fraude en legitieme gebeurtenissen bijna perfect kan splitsen, is de kans groot dat het model een labellekprobleem heeft of dat de fraudepatronen te gemakkelijk te detecteren zijn, wat uw aandacht zou moeten trekken.

In het volgende voorbeeld heeft de scoreverdeling een AUC van 1.0.

Bedrijfsvereisten bekijken: verwarringsmatrix en tabel

Hoewel AUC een handige indicator is voor de prestaties van een model, kan het niet direct worden vertaald naar uw zakelijke vereisten. Amazon Fraud Detector biedt ook statistieken zoals fraudedetectiepercentage (true positive rate), percentage legitieme gebeurtenissen die onjuist worden voorspeld als fraude (false positive rate) en meer, die vaker worden gebruikt als zakelijke vereisten. Nadat u een model met een redelijk goede AUC hebt getraind, moet u het model met uw zakelijke vereisten vergelijken met die statistieken.

De verwarringsmatrix en -tabel bieden u een interface om de impact te beoordelen en te controleren of deze voldoet aan uw zakelijke behoeften. Merk op dat de aantallen afhankelijk zijn van de modeldrempel, waarbij gebeurtenissen met scores die hoger zijn dan de drempelwaarde worden geclassificeerd als fraude en gebeurtenissen met scores die lager zijn dan de drempelwaarde worden geclassificeerd als legitiem. U kunt kiezen welke drempel u wilt gebruiken, afhankelijk van uw zakelijke vereisten.

Als het bijvoorbeeld uw doel is om 73% van alle fraude vast te leggen, kunt u (zoals weergegeven in het onderstaande voorbeeld) een drempel zoals 855 kiezen, waarmee u 73% van alle fraude kunt opvangen. Het model zal echter ook 3% legitieme gebeurtenissen verkeerd classificeren als frauduleus. Als deze FPR acceptabel is voor uw bedrijf, is het model geschikt voor implementatie. Anders moet u de modelprestaties verbeteren.

Een ander voorbeeld is dat als de kosten voor het blokkeren of uitdagen van een legitieme klant extreem hoog zijn, je een lage FPR en hoge precisie wilt. In dat geval kunt u een drempel van 950 kiezen, zoals weergegeven in het volgende voorbeeld, waardoor 1% van de legitieme klanten verkeerd wordt geclassificeerd als fraude en 80% van de geïdentificeerde fraude daadwerkelijk frauduleus is.

Daarnaast kun je meerdere drempels kiezen en verschillende uitkomsten toewijzen, zoals blokkeren, onderzoeken, slagen. Als u geen juiste drempels en regels kunt vinden die aan al uw zakelijke vereisten voldoen, kunt u overwegen uw model te trainen met meer gegevens en kenmerken.

Belang van modelvariabele controleren

De Belang van modelvariabele deelvenster geeft weer hoe elke variabele bijdraagt aan uw model. Als een variabele een significant hogere belangrijkheidswaarde heeft dan de andere, kan dit duiden op lekken van etiketten of dat de fraudepatronen te gemakkelijk te detecteren zijn. Merk op dat het belang van de variabele wordt teruggeaggregeerd naar uw invoervariabelen. Als u een iets hoger belang van IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIPof SHIPPING_ZIP, misschien vanwege de kracht van verrijking.

Het volgende voorbeeld toont het belang van een modelvariabele met een mogelijke labellekkage met behulp van: investigation_status.

Het belang van modelvariabelen geeft u ook hints over welke extra variabelen het model mogelijk kunnen verbeteren. Als u bijvoorbeeld merkt dat een lage AUC en verkopergerelateerde kenmerken van groot belang zijn, kunt u overwegen meer bestelkenmerken te verzamelen, zoals: SELLER_CATEGORY, SELLER_ADDRESS en SELLER_ACTIVE_YEARSen voeg die variabelen toe aan uw model.

Veelvoorkomende problemen voor lage modelprestaties

In dit gedeelte bespreken we veelvoorkomende problemen die u kunt tegenkomen met betrekking tot lage modelprestaties.

Historische gegevensdistributie gewijzigd

Historische afwijking van gegevensdistributie vindt plaats wanneer u een grote zakelijke wijziging of een probleem met het verzamelen van gegevens heeft. Als u uw product bijvoorbeeld onlangs op een nieuwe markt heeft gelanceerd, IP_ADDRESS, EMAIL en ADDRESS gerelateerde kenmerken kunnen compleet anders zijn, en de fraudemodus operandi kan ook veranderen. Amazon Fraud Detector gebruikt EVENT_TIMESTAMP om gegevens te splitsen en uw model te evalueren op de juiste subset van gebeurtenissen in uw gegevensset. Als uw historische gegevensdistributie aanzienlijk verandert, kan de evaluatieset sterk verschillen van de trainingsgegevens en kunnen de gerapporteerde modelprestaties laag zijn.

U kunt het mogelijke probleem met de wijziging van de gegevensdistributie controleren door uw historische gegevens te onderzoeken:

Gebruik de Gegevensprofiler voor Amazon-fraudedetector tool om te controleren of het fraudepercentage en het ontbrekende percentage van het label in de loop van de tijd zijn veranderd.
Controleer of de variabele distributie in de loop van de tijd significant is veranderd, vooral voor kenmerken met een hoog variabel belang.
Controleer de variabele distributie in de tijd door doelvariabelen. Als u in recente gegevens aanzienlijk meer fraudegebeurtenissen van één categorie waarneemt, wilt u misschien controleren of de wijziging redelijk is op basis van uw zakelijke oordeel.

Als u merkt dat het percentage ontbrekende labels erg hoog is of dat het fraudepercentage tijdens de meest recente datums consequent is gedaald, kan dit een indicatie zijn dat labels nog niet volledig zijn uitgerijpt. U moet de meest recente gegevens uitsluiten of langer wachten om de juiste labels te verzamelen en uw model opnieuw trainen.

Als u een scherpe piek in het fraudepercentage en variabelen op specifieke datums waarneemt, wilt u misschien nog een keer controleren of het een uitbijter is of een probleem met het verzamelen van gegevens. In dat geval moet u die gebeurtenissen verwijderen en het model opnieuw trainen.

Als u merkt dat de verouderde gegevens uw huidige en toekomstige bedrijf niet kunnen vertegenwoordigen, moet u de oude gegevensperiode uitsluiten van de training. Als u opgeslagen gebeurtenissen in Amazon Fraud Detector gebruikt, kunt u eenvoudig een nieuwe versie opnieuw trainen en het juiste datumbereik selecteren tijdens het configureren van de trainingstaak. Dat kan er ook op wijzen dat de fraudemodus in uw bedrijf in de loop van de tijd relatief snel verandert. Na de implementatie van het model moet u uw model mogelijk regelmatig opnieuw trainen.

Onjuiste toewijzing van variabelentype

Amazon Fraud Detector verrijkt en transformeert de gegevens op basis van de variabele typen. Het is belangrijk dat u uw variabelen aan het juiste type toewijst, zodat het Amazon Fraud Detector-model de maximale waarde van uw gegevens kan aannemen. Als u bijvoorbeeld in kaart brengt IP aan de CATEGORICAL typ in plaats van IP_ADDRESS, je snapt het niet IP-gerelateerde verrijkingen in de backend.

In het algemeen stelt Amazon Fraud Detector de volgende acties voor:

Wijs uw variabelen toe aan specifieke typen, zoals: IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN en PHONE_NUMBER, zodat Amazon Fraud Detector aanvullende informatie kan extraheren en verrijken.
Als u het specifieke type variabele niet kunt vinden, wijst u het toe aan een van de drie generieke typen: NUMERIC, CATEGORICALof FREE_FORM_TEXT.
Als een variabele in tekstvorm is en een hoge kardinaliteit heeft, zoals een klantrecensie of productbeschrijving, moet u deze toewijzen aan de FREE_FORM_TEXT variabel type zodat Amazon Fraud Detector tekstkenmerken en inbeddingen op de backend voor u extraheert. Als u bijvoorbeeld in kaart brengt url_string naar FREE_FORM_TEXT, kan het de URL tokeniseren en informatie extraheren om in het downstream-model te verwerken, waardoor het meer verborgen patronen uit de URL kan leren.

Als u merkt dat een van uw variabeletypen onjuist is toegewezen in de variabeleconfiguratie, kunt u uw variabeletype wijzigen en het model vervolgens opnieuw trainen.

Onvoldoende gegevens of functies

Amazon Fraud Detector vereist ten minste 10,000 records om een Online Fraud Insights (OFI) of Transaction Fraud Insights (TFI)-model te trainen, waarbij ten minste 400 van die records als frauduleus zijn geïdentificeerd. TFI vereist ook dat zowel frauduleuze records als legitieme records afkomstig zijn van ten minste 100 verschillende entiteiten, elk om de diversiteit van de dataset te waarborgen. Bovendien vereist Amazon Fraud Detector dat de modelgegevens ten minste twee variabelen hebben. Dat zijn de minimale gegevensvereisten om een bruikbaar Amazon Fraud Detector-model te bouwen. Het gebruik van meer records en variabelen helpt de ML-modellen echter meestal om de onderliggende patronen uit uw gegevens beter te leren. Wanneer u een lage AUC waarneemt of geen drempelwaarden kunt vinden die voldoen aan uw zakelijke vereisten, kunt u overwegen uw model opnieuw te trainen met meer gegevens of nieuwe functies aan uw model toe te voegen. Meestal vinden we EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS en DEVICE gerelateerde variabelen zijn belangrijk bij het opsporen van fraude.

Een andere mogelijke oorzaak is dat sommige van uw variabelen te veel ontbrekende waarden bevatten. Om te zien of dat gebeurt, controleert u de modeltrainingsberichten en raadpleegt u: Problemen met trainingsgegevens oplossen voor suggesties.

Veelvoorkomende problemen voor zeer hoge modelprestaties

In deze sectie bespreken we veelvoorkomende problemen met betrekking tot zeer hoge modelprestaties.

Etiket lekkage

Labellekkage treedt op wanneer de trainingsgegevenssets informatie gebruiken die naar verwachting niet beschikbaar zou zijn op het moment van de voorspelling. Het overschat het nut van het model wanneer het in een productieomgeving wordt uitgevoerd.

Hoge AUC (bijna 1), perfect gescheiden scoreverdeling en een significant hoger variabele belang van één variabele kunnen indicatoren zijn van mogelijke problemen met labellekkage. U kunt de correlatie tussen de kenmerken en het label ook controleren met behulp van de Gegevensprofiler. De Functie- en labelcorrelatie plot toont de correlatie tussen elk kenmerk en het label. Als een functie een correlatie van meer dan 0.99 met het label heeft, moet u controleren of de functie correct wordt gebruikt op basis van zakelijke beoordelingen. Als u bijvoorbeeld een risicomodel wilt bouwen om een leningaanvraag goed te keuren of af te wijzen, moet u de functies zoals: AMOUNT_PAID, omdat de betalingen plaatsvinden na het acceptatieproces. Als een variabele niet beschikbaar is op het moment dat u een voorspelling doet, moet u die variabele uit de modelconfiguratie verwijderen en een nieuw model opnieuw trainen.

Het volgende voorbeeld toont de correlatie tussen elke variabele en label. investigation_status heeft een hoge correlatie (bijna 1) met het label, dus u moet dubbel controleren of er een probleem is met het lekken van een label.

Eenvoudige fraudepatronen

Wanneer de fraudepatronen in uw gegevens eenvoudig zijn, kunt u ook zeer hoge modelprestaties waarnemen. Stel bijvoorbeeld dat alle fraudegebeurtenissen in de modelgegevens via dezelfde interne serviceprovider komen; het is eenvoudig voor het model om de te kiezen IP-gerelateerde variabelen en retourneert een "perfect" model met een hoog belang van IP.

Eenvoudige fraudepatronen duiden niet altijd op een gegevensprobleem. Het kan waar zijn dat de fraudemodus in uw bedrijf gemakkelijk te achterhalen is. Voordat u echter een conclusie trekt, moet u ervoor zorgen dat de labels die worden gebruikt in modeltraining nauwkeurig zijn en dat de modelgegevens zoveel mogelijk fraudepatronen dekken. Als u bijvoorbeeld uw fraudegebeurtenissen labelt op basis van regels, zoals het labelen van alle toepassingen van een specifieke BILLING_ZIP plus PRODUCT_CATEGORY als fraude kan het model die fraude gemakkelijk opvangen door de regels te simuleren en een hoge AUC te behalen.

U kunt de labelverdeling over verschillende categorieën of bakken van elke functie controleren met behulp van de Gegevensprofiler. Als u bijvoorbeeld merkt dat de meeste fraudegebeurtenissen afkomstig zijn uit een of enkele productcategorieën, kan dit een indicatie zijn van eenvoudige fraudepatronen en moet u bevestigen dat het geen gegevensverzameling of procesfout is. Als de functie is zoals CUSTOMER_ID, moet u de functie uitsluiten in modeltraining.

Het volgende voorbeeld toont de labeldistributie over verschillende categorieën van: product_category. Alle fraude is afkomstig uit twee productcategorieën.

Onjuiste gegevensbemonstering

Onjuiste gegevensbemonstering kan gebeuren wanneer u een steekproef hebt genomen en slechts een deel van uw gegevens naar Amazon Fraud Detector hebt verzonden. Als de gegevens niet correct worden gesampled en niet representatief zijn voor het verkeer in productie, zijn de gerapporteerde modelprestaties onnauwkeurig en kan het model nutteloos zijn voor productievoorspelling. Als bijvoorbeeld alle fraudegebeurtenissen in de modelgegevens worden bemonsterd uit Azië en alle legitieme gebeurtenissen uit de VS, kan het model leren om fraude en legitiem te scheiden op basis van BILLING_COUNTRY. In dat geval is het model niet generiek om op andere populaties toe te passen.

Meestal raden we aan om de nieuwste evenementen zonder steekproef te verzenden. Op basis van de gegevensomvang en het fraudepercentage voert Amazon Fraud Detector steekproeven uit voordat de modeltraining voor u wordt uitgevoerd. Als uw gegevens te groot zijn (meer dan 100 GB) en u besluit een steekproef te nemen en slechts een subset te verzenden, moet u een willekeurige steekproef van uw gegevens nemen en ervoor zorgen dat de steekproef representatief is voor de gehele populatie. Voor TFI moet u uw gegevens per entiteit bemonsteren, wat betekent dat als één entiteit wordt bemonsterd, u de hele geschiedenis ervan moet opnemen, zodat de aggregaten op entiteitsniveau correct worden berekend. Houd er rekening mee dat als u alleen een subset van gegevens naar Amazon Fraud Detector stuurt, de realtime-aggregaties tijdens de inferentie mogelijk onnauwkeurig zijn als de eerdere gebeurtenissen van de entiteiten niet worden verzonden.

Een andere onjuiste gegevenssteekproef zou kunnen zijn dat slechts een korte periode aan gegevens, zoals gegevens van één dag, wordt gebruikt om het model te bouwen. De gegevens kunnen bevooroordeeld zijn, vooral als uw bedrijf of fraudeaanvallen seizoensgebonden zijn. We raden gewoonlijk aan om ten minste twee cycli (zoals 2 weken of 2 maanden) aan gegevens op te nemen in de modellering om de diversiteit aan fraudetypes te garanderen.

Conclusie

Na het diagnosticeren en oplossen van alle mogelijke problemen, zou u een handig Amazon Fraud Detector-model moeten krijgen en vertrouwen moeten hebben in de prestaties ervan. Voor de volgende stap, jij kan een detector maken met het model en uw bedrijfsregels, en wees klaar om het in productie te nemen voor een evaluatie van de schaduwmodus.

Bijlage

Variabelen uitsluiten voor modeltraining

Na de diepe duik kunt u een variabele informatie over het lekdoel identificeren en deze uitsluiten van modeltraining. U kunt een modelversie opnieuw trainen met uitzondering van de variabelen die u niet wilt door de volgende stappen uit te voeren:

Kies op de Amazon Fraud Detector-console in het navigatievenster: Modellen.
Op de Modellen pagina, kies het model dat je wilt omscholen.
Op de Acties menu, kies Nieuwe versie trainen.
Selecteer het datumbereik dat u wilt gebruiken en kies Volgende.
Op de Configureer training pagina, deselecteert u de variabele die u niet wilt gebruiken in modeltraining.
Specificeer uw fraudelabels en legitieme labels en hoe u wilt dat Amazon Fraud Detector niet-gelabelde gebeurtenissen gebruikt, en kies vervolgens: Volgende.
Bekijk de modelconfiguratie en kies Model maken en trainen.

Het type gebeurtenisvariabele wijzigen

Variabelen vertegenwoordigen gegevenselementen die worden gebruikt bij fraudepreventie. In Amazon Fraud Detector zijn alle variabelen globaal en worden ze gedeeld door alle gebeurtenissen en modellen, wat betekent dat één variabele in meerdere gebeurtenissen kan worden gebruikt. IP kan bijvoorbeeld worden gekoppeld aan aanmeldingsgebeurtenissen en het kan ook worden gekoppeld aan transactiegebeurtenissen. Natuurlijk heeft Amazon Fraud Detector het type variabele en het gegevenstype vergrendeld zodra een variabele is gemaakt. Om een bestaande variabele te verwijderen, moet u eerst alle bijbehorende gebeurtenistypen en modellen verwijderen. U kunt de bronnen controleren die aan de specifieke variabele zijn gekoppeld door naar Amazon Fraud Detector te gaan en te kiezen voor Variabelen in het navigatievenster en kies de variabelenaam en Bijbehorende bronnen.

De variabele en alle bijbehorende gebeurtenistypen verwijderen

Voer de volgende stappen uit om de variabele te verwijderen:

Kies op de Amazon Fraud Detector-console in het navigatievenster: Variabelen.
Kies de variabele die u wilt verwijderen.
Kies Bijbehorende bronnen om een lijst weer te geven van alle gebeurtenistypen die deze variabele hebben gebruikt.
U moet die gekoppelde gebeurtenistypen verwijderen voordat u de variabele verwijdert.
Kies de gebeurtenistypen in de lijst om naar de bijbehorende gebeurtenistypepagina te gaan.
Kies Opgeslagen gebeurtenissen om te controleren of er gegevens zijn opgeslagen onder dit gebeurtenistype.
Als er gebeurtenissen zijn opgeslagen in Amazon Fraud Detector, kies dan: Opgeslagen gebeurtenissen verwijderen om de opgeslagen gebeurtenissen te verwijderen.
Wanneer de verwijdertaak is voltooid, verschijnt het bericht "De opgeslagen gebeurtenissen voor dit gebeurtenistype zijn met succes verwijderd".
Kies Bijbehorende bronnen.
Als detectoren en modellen aan dit gebeurtenistype zijn gekoppeld, moet u die bronnen eerst verwijderen.
Als er detectoren zijn gekoppeld, voert u de volgende stappen uit om alle gekoppelde detectoren te verwijderen:
1. Kies de detector om naar de . te gaan Detectordetails pagina.
2. In het Modelversies paneel, kies de versie van de detector.
3. Kies op de detectorversiepagina: Acties.
4. Als de detectorversie actief is, kies dan: deactiveren, kiezen Deactiveer deze detectorversie zonder deze te vervangen door een andere versieen kies Deactiveer de detectorversie.
5. Nadat de detectorversie is gedeactiveerd, kiest u: Acties en Verwijder.
6. Herhaal deze stappen om alle detectorversies te verwijderen.
7. Op de Detectordetails pagina, kies Bijbehorende regels.
8. Kies de regel die u wilt verwijderen.
9. Kies Acties en Regelversie verwijderen.
10. Voer de regelnaam in om te bevestigen en kies Versie verwijderen.
11. Herhaal deze stappen om alle gekoppelde regels te verwijderen.
12. Nadat alle detectorversies en bijbehorende regels zijn verwijderd, gaat u naar de Detectordetails pagina, kies Actiesen kies Detector verwijderen.
13. Voer de naam van de detector in en kies Detector verwijderen.
14. Herhaal deze stappen om de volgende detector te verwijderen.
Als er modellen zijn gekoppeld aan het gebeurtenistype, voert u de volgende stappen uit om ze te verwijderen:
1. Kies de naam van het model.
2. In het Modelversies paneel, kies de versie.
3. Als de modelstatus is Active, kiezen Acties en Implementatie van modelversie ongedaan maken.
4. Enter undeploy om te bevestigen en te kiezen Implementatie van modelversie ongedaan maken.
  De status verandert in Undeploying. Het proces duurt enkele minuten om te voltooien.
5. Nadat de status wordt Ready to deploy, kies Acties en Verwijderen.
6. Herhaal deze stappen om alle modelversies te verwijderen.
7. Kies op de pagina Modeldetails de optie Acties en Model verwijderen.
8. Voer de naam van het model in en kies Model verwijderen.
9. Herhaal deze stappen om het volgende model te verwijderen.
Nadat alle gekoppelde detectoren en modellen zijn verwijderd, kiest u: Acties en Gebeurtenistype verwijderen op de Details van het evenement pagina.
Voer de naam van het gebeurtenistype in en kies Gebeurtenistype verwijderen.
Kies in het navigatievenster Variabelenen kies de variabele die u wilt verwijderen.
Herhaal de eerdere stappen om alle gebeurtenistypen te verwijderen die aan de variabele zijn gekoppeld.
Op de Variabele details pagina, kies Acties en Verwijderen.
Voer de naam van de variabele in en kies Variabele verwijderen.

Maak een nieuwe variabele met het juiste type variabele

Nadat u de variabele en alle bijbehorende gebeurtenistypen, opgeslagen gebeurtenissen, modellen en detectoren uit Amazon Fraud Detector hebt verwijderd, kunt u een nieuwe variabele met dezelfde naam maken en deze toewijzen aan het juiste variabeletype.

Kies op de Amazon Fraud Detector-console in het navigatievenster: Variabelen.
Kies creëren.
Voer de variabelenaam in die u wilt wijzigen (de naam die u eerder hebt verwijderd).
Selecteer het juiste type variabele waarnaar u wilt wijzigen.
Kies Variabele maken.

Gegevens uploaden en het model opnieuw trainen

Nadat u het variabeletype hebt bijgewerkt, kunt u de gegevens opnieuw uploaden en een nieuw model trainen. Raadpleeg voor instructies: Detecteer online transactiefraude met nieuwe Amazon Fraud Detector-functies.

Nieuwe variabelen toevoegen aan een bestaand gebeurtenistype

Voer de volgende stappen uit om nieuwe variabelen toe te voegen aan het bestaande gebeurtenistype:

Voeg de nieuwe variabelen toe aan het vorige trainings-CVS-bestand.
Upload het nieuwe trainingsgegevensbestand naar een S3-bucket. Noteer de Amazon S3-locatie van uw trainingsbestand (bijvoorbeeld s3://bucketname/path/to/some/object.csv) en uw rolnaam.
Kies op de Amazon Fraud Detector-console in het navigatievenster: Events.
Op de Soorten evenementen pagina, kies de naam van het gebeurtenistype waaraan u variabelen wilt toevoegen.
Op de Type evenement detailpagina, kies Actiesdan Variabelen toevoegen.
Onder Kies hoe u de variabelen van deze gebeurtenis wilt definiëren, kiezen Selecteer variabelen uit een trainingsgegevensset.
Selecteer voor IAM-rol een bestaande IAM-rol of maak een nieuwe rol om toegang te krijgen tot gegevens in Amazon S3.
Voor Gegevenslocatie, voer de S3-locatie van het nieuwe trainingsbestand in en kies Uploaden.
De nieuwe variabelen die niet aanwezig zijn in het bestaande gebeurtenistype zouden in de lijst moeten verschijnen.
Kies Variabelen toevoegen.

Nu zijn de nieuwe variabelen toegevoegd aan het bestaande gebeurtenistype. Als je opgeslagen gebeurtenissen in Amazon Fraud Detector gebruikt, ontbreken de nieuwe variabelen van de opgeslagen gebeurtenissen nog steeds. U moet de trainingsgegevens met de nieuwe variabelen importeren in Amazon Fraud Detector en vervolgens een nieuwe modelversie opnieuw trainen. Bij het uploaden van de nieuwe trainingsgegevens met dezelfde EVENT_ID en EVENT_TIMESTAMP, overschrijven de nieuwe gebeurtenisvariabelen de vorige gebeurtenisvariabelen die zijn opgeslagen in Amazon Fraud Detector.

Over de auteurs

Julia Xu is een onderzoekswetenschapper bij Amazon Fraud Detector. Ze heeft een passie voor het oplossen van klantuitdagingen met behulp van Machine Learning-technieken. In haar vrije tijd houdt ze van wandelen, schilderen en het ontdekken van nieuwe coffeeshops.

Hao Zhou is een onderzoekswetenschapper bij Amazon Fraud Detector. Hij is gepromoveerd in elektrotechniek aan de Northwestern University, VS. Hij is gepassioneerd door het toepassen van machine learning-technieken om fraude en misbruik te bestrijden.

Abishek Ravi is een Senior Product Manager bij Amazon Fraud Detector. Hij heeft een passie voor het benutten van technische mogelijkheden om producten te bouwen waar klanten blij van worden.

Tijdstempel: 29 June 2022

Tijdstempel: Februari 29, 2024

Heruitgegeven door Plato

Bouw een agronomisch gegevensplatform met georuimtelijke mogelijkheden van Amazon SageMaker

Hoe de kwaliteit van de synthetische gegevens te evalueren - meten vanuit het perspectief van betrouwbaarheid, bruikbaarheid en privacy

Gebruik Amazon Lex om straatadressen vast te leggen

Versnel grootschalige neurale netwerktraining op CPU's met ThirdAI en AWS Graviton | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account