Diagnose Model Performance Before Deployment For Amazon Fraud Detector

Republicat de Platon

Urmaritori: 0

Odată cu creșterea gradului de adoptare a aplicațiilor online și numărul tot mai mare de utilizatori de internet, frauda digitală este în creștere de la an la an. Detector de fraude Amazon oferă un serviciu complet gestionat pentru a vă ajuta să identificați mai bine activitățile online potențial frauduloase folosind tehnici avansate de învățare automată (ML) și peste 20 de ani de experiență în detectarea fraudelor de la Amazon.

Pentru a vă ajuta să detectați frauda mai rapid în mai multe cazuri de utilizare, Amazon Fraud Detector oferă modele specifice cu algoritmi personalizați, îmbogățiri și transformări de caracteristici. Instruirea modelului este complet automatizată și fără probleme și puteți urma instrucțiunile din manualul utilizatorului sau înrudite postări de blog pentru a incepe. Cu toate acestea, cu modele instruite, trebuie să decideți dacă modelul este pregătit pentru implementare. Acest lucru necesită anumite cunoștințe în ML, statistici și detectarea fraudelor și poate fi util să cunoașteți câteva abordări tipice.

Această postare vă va ajuta să diagnosticați performanța modelului și să alegeți modelul potrivit pentru implementare. Analizăm valorile furnizate de Amazon Fraud Detector, vă ajutăm să diagnosticați potențialele probleme și vă oferim sugestii pentru îmbunătățirea performanței modelului. Abordările sunt aplicabile atât pentru șabloanele de model Online Fraud Insights (OFI) cât și Transaction Fraud Insights (TFI).

Prezentare generală a soluțiilor

Această postare oferă un proces de la capăt la capăt pentru a diagnostica performanța modelului dvs. Mai întâi, introduce toate valorile modelului afișate pe consola Amazon Fraud Detector, inclusiv AUC, distribuția scorului, matricea de confuzie, curba ROC și importanța variabilei modelului. Apoi, prezentăm o abordare în trei pași pentru a diagnostica performanța modelului folosind diferite metrici. În cele din urmă, oferim sugestii pentru îmbunătățirea performanței modelului pentru probleme tipice.

Cerințe preliminare

Înainte de a vă scufunda adânc în modelul dvs. Amazon Fraud Detector, trebuie să îndepliniți următoarele cerințe preliminare:

Creați un cont AWS.
Creați un set de date pentru evenimente pentru antrenamentul modelului.
Încărcați datele dvs la Serviciul Amazon de stocare simplă (Amazon S3) sau ingerați datele despre eveniment în Amazon Fraud Detector.
Creați un model Amazon Fraud Detector.

Interpretați valorile modelului

După finalizarea instruirii modelului, Amazon Fraud Detector vă evaluează modelul utilizând o parte din datele de modelare care nu au fost utilizate în instruirea modelului. Acesta returnează valorile de evaluare pe Versiune model pagina pentru acel model. Aceste valori reflectă performanța modelului la care vă puteți aștepta pe datele reale după implementarea în producție.

Următoarea captură de ecran arată un exemplu de performanță a modelului returnat de Amazon Fraud Detector. Puteți alege diferite praguri pentru distribuția scorului (stânga), iar matricea de confuzie (dreapta) este actualizată în consecință.

Puteți utiliza următoarele constatări pentru a verifica performanța și a decide regulile strategiei:

AUC (aria de sub curbă) – Performanța generală a acestui model. Un model cu AUC de 0.50 nu este mai bun decât o monedă, deoarece reprezintă o șansă aleatorie, în timp ce un model „perfect” va avea un scor de 1.0. Cu cât AUC este mai mare, cu atât modelul dvs. poate distinge mai bine între fraude și legitime.
Distribuția scorului – O histogramă a distribuțiilor de scor model presupunând un exemplu de populație de 100,000 de evenimente. Amazon Fraud Detector generează scoruri de model între 0-1000, unde cu cât scorul este mai mic, cu atât riscul de fraudă este mai mic. O mai bună separare între populațiile legitime (verzi) și cele frauduloase (albastre) indică de obicei un model mai bun. Pentru mai multe detalii, vezi Scoruri de model.
Matricea confuziei – Un tabel care descrie performanța modelului pentru pragul de scor dat selectat, inclusiv adevărat pozitiv, adevărat negativ, fals pozitiv, fals negativ, rata adevărată pozitivă (TPR) și rata fals pozitivă (FPR). Numărarea de pe tabel presupune un exemplu de populație de 100,0000 de evenimente. Pentru mai multe detalii, vezi Valori de performanță a modelului.
Curba ROC (Receiver Operator Characteristic). – Un grafic care ilustrează capacitatea de diagnosticare a modelului, așa cum se arată în următoarea captură de ecran. Acesta prezintă rata pozitivă adevărată ca o funcție a ratei pozitive false peste toate pragurile de scor posibile ale modelului. Vizualizați această diagramă alegând Valori avansate. Dacă ați antrenat mai multe versiuni ale unui model, puteți selecta diferite praguri FPR pentru a verifica modificarea performanței.
Importanța variabilei modelului – Rangul variabilelor modelului pe baza contribuției acestora la modelul generat, așa cum se arată în următoarea captură de ecran. Variabila de model cu cea mai mare valoare este mai importantă pentru model decât celelalte variabile de model din setul de date pentru versiunea respectivă a modelului și este listată în partea de sus în mod implicit. Pentru mai multe detalii, vezi Importanța variabilei modelului.

Diagnosticați performanța modelului

Înainte de a vă implementa modelul în producție, ar trebui să utilizați valorile returnate de Amazon Fraud Detector pentru a înțelege performanța modelului și a diagnostica posibilele probleme. Problemele comune ale modelelor ML pot fi împărțite în două categorii principale: probleme legate de date și probleme legate de model. Amazon Fraud Detector s-a ocupat de problemele legate de model utilizând cu atenție seturi de validare și testare pentru a evalua și ajusta modelul dvs. pe backend. Puteți parcurge următorii pași pentru a valida dacă modelul dvs. este pregătit pentru implementare sau are posibile probleme legate de date:

Verificați performanța generală a modelului (AUC și distribuția scorului).
Examinați cerințele de afaceri (matricea de confuzie și tabelul).
Verificați importanța variabilei modelului.

Verificați performanța generală a modelului: AUC și distribuția scorului

Predicția mai precisă a evenimentelor viitoare este întotdeauna scopul principal al unui model predictiv. AUC returnat de Amazon Fraud Detector este calculat pe un set de teste eșantionat corespunzător, care nu este utilizat la antrenament. În general, un model cu un AUC mai mare de 0.9 este considerat a fi un model bun.

Dacă observați un model cu performanță mai mică de 0.8, înseamnă de obicei că modelul are loc de îmbunătățire (discutăm probleme comune pentru performanța scăzută a modelului mai târziu în această postare). Rețineți că definiția performanței „bune” depinde în mare măsură de afacerea dvs. și de modelul de bază. Puteți urma în continuare pașii din această postare pentru a vă îmbunătăți modelul Amazon Fraud Detector, chiar dacă AUC-ul său este mai mare de 0.8.

Pe de altă parte, dacă AUC este peste 0.99, înseamnă că modelul poate separa aproape perfect frauda și evenimentele legitime de pe setul de testare. Acesta este uneori un scenariu „prea bun pentru a fi adevărat” (discutăm probleme comune pentru performanța foarte ridicată a modelului mai târziu în această postare).

Pe lângă AUC general, distribuția scorului vă poate spune și cât de bine este adaptat modelul. În mod ideal, ar trebui să vedeți cea mai mare parte a fraudei și legitime situate la cele două capete ale scalei, ceea ce indică faptul că scorul modelului poate clasifica cu exactitate evenimentele pe setul de testare.

În exemplul următor, distribuția scorului are un AUC de 0.96.

Dacă distribuția legitimă și a fraudei s-au suprapus sau s-au concentrat în centru, înseamnă probabil că modelul nu funcționează bine la distingerea evenimentelor de fraudă de evenimentele legitime, ceea ce ar putea indica faptul că distribuția datelor istorice s-a schimbat sau că aveți nevoie de mai multe date sau caracteristici.

Următorul este un exemplu de distribuție a scorurilor cu un AUC de 0.64.

Dacă puteți găsi un punct de împărțire care poate împărți aproape perfect frauda și evenimentele legitime, există șanse mari ca modelul să aibă o problemă de scurgere a etichetei sau modelele de fraudă să fie prea ușor de detectat, ceea ce ar trebui să vă atragă atenția.

În exemplul următor, distribuția scorului are un AUC de 1.0.

Examinați cerințele de afaceri: matricea și tabelul de confuzie

Deși AUC este un indicator convenabil al performanței modelului, este posibil să nu se traducă direct în cerințele dvs. de afaceri. Amazon Fraud Detector oferă, de asemenea, valori precum rata de captare a fraudei (rata pozitivă adevărată), procentul de evenimente legitime care sunt prezise incorect ca fraudă (rata fals pozitivă) și altele, care sunt utilizate mai frecvent ca cerințe de afaceri. După ce antrenați un model cu un AUC rezonabil de bun, trebuie să comparați modelul cu cerințele dvs. de afaceri cu acele valori.

Matricea și tabelul de confuzie vă oferă o interfață pentru a analiza impactul și a verifica dacă acesta corespunde nevoilor dvs. de afaceri. Rețineți că numerele depind de pragul modelului, unde evenimentele cu scoruri mai mari decât pragul sunt clasificate drept fraude, iar evenimentele cu scoruri mai mici decât pragul sunt clasificate drept legitime. Puteți alege ce prag să utilizați în funcție de cerințele dvs. de afaceri.

De exemplu, dacă obiectivul tău este să captezi 73% din fraude, atunci (după cum se arată în exemplul de mai jos) poți alege un prag, cum ar fi 855, care vă permite să capturați 73% din toate fraudele. Cu toate acestea, modelul va clasifica greșit 3% evenimente legitime ca fiind frauduloase. Dacă acest FPR este acceptabil pentru afacerea dvs., atunci modelul este bun pentru implementare. În caz contrar, trebuie să îmbunătățiți performanța modelului.

Un alt exemplu este dacă costul pentru blocarea sau contestarea unui client legitim este extrem de mare, atunci doriți un FPR scăzut și o precizie ridicată. În acest caz, puteți alege un prag de 950, așa cum se arată în exemplul următor, care va clasifica greșit 1% dintre clienții legitimi ca fraudă, iar 80% dintre fraudele identificate vor fi de fapt frauduloase.

În plus, puteți alege mai multe praguri și puteți atribui diferite rezultate, cum ar fi blocarea, investigarea, trecerea. Dacă nu puteți găsi praguri și reguli adecvate care să satisfacă toate cerințele dvs. de afaceri, ar trebui să vă gândiți să vă antrenați modelul cu mai multe date și atribute.

Verificați importanța variabilei modelului

Importanța variabilei modelului panoul afișează modul în care fiecare variabilă contribuie la modelul dvs. Dacă o variabilă are o valoare semnificativ mai mare de importanță decât celelalte, ar putea indica scurgeri de etichete sau că modelele de fraudă sunt prea ușor de detectat. Rețineți că importanța variabilei este agregată înapoi la variabilele dvs. de intrare. Dacă observați o importanță puțin mai mare a IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIP, Sau SHIPPING_ZIP, s-ar putea din cauza puterii de îmbogățire.

Următorul exemplu arată importanța variabilei modelului cu o potențială scurgere de etichetă folosind investigation_status.

Importanța variabilei modelului vă oferă, de asemenea, indicii despre variabilele suplimentare care ar putea aduce un plus model. De exemplu, dacă observați că AUC scăzut și caracteristicile legate de vânzător prezintă o importanță ridicată, ați putea lua în considerare colectarea mai multor funcții de comandă, cum ar fi SELLER_CATEGORY, SELLER_ADDRESS, și SELLER_ACTIVE_YEARS, și adăugați acele variabile la modelul dvs.

Probleme comune pentru performanța scăzută a modelului

În această secțiune, discutăm problemele comune pe care le puteți întâlni cu privire la performanța scăzută a modelului.

Distribuția datelor istorice s-a schimbat

Deviația istorică a distribuției datelor are loc atunci când aveți o schimbare majoră în afaceri sau o problemă de colectare a datelor. De exemplu, dacă ați lansat recent produsul pe o nouă piață, IP_ADDRESS, EMAIL, și ADDRESS caracteristicile aferente ar putea fi complet diferite, iar modul de operare al fraudei s-ar putea schimba, de asemenea. Utilizează Amazon Fraud Detector EVENT_TIMESTAMP pentru a împărți datele și a evalua modelul pe subsetul corespunzător de evenimente din setul de date. Dacă distribuția datelor dvs. istorice se modifică semnificativ, setul de evaluare ar putea fi foarte diferit de datele de antrenament, iar performanța raportată a modelului ar putea fi scăzută.

Puteți verifica potențiala problemă privind modificarea distribuției datelor explorând datele istorice:

Folosește Amazon Fraud Detector Data Profiler instrument pentru a verifica dacă rata de fraudă și rata lipsă a etichetei s-au modificat în timp.
Verificați dacă distribuția variabilelor de-a lungul timpului s-a schimbat semnificativ, în special pentru caracteristicile cu importanță variabilă mare.
Verificați distribuția variabilelor în timp după variabilele țintă. Dacă observați semnificativ mai multe evenimente de fraudă dintr-o categorie în datele recente, este posibil să doriți să verificați dacă modificarea este rezonabilă utilizând raționamentele dvs. de afaceri.

Dacă găsiți că rata lipsă a etichetei este foarte mare sau rata de fraudă a scăzut constant în timpul celor mai recente date, ar putea fi un indicator al etichetelor care nu s-au maturizat complet. Ar trebui să excludeți datele cele mai recente sau să așteptați mai mult pentru a colecta etichetele exacte, apoi să vă antrenați din nou modelul.

Dacă observați o creștere bruscă a ratei de fraudă și a variabilelor la anumite date, este posibil să doriți să verificați din nou dacă este o problemă anormală sau de colectare a datelor. În acest caz, ar trebui să ștergeți acele evenimente și să reantrenați modelul.

Dacă descoperiți că datele învechite nu pot reprezenta afacerea dvs. actuală și viitoare, ar trebui să excludeți perioada veche de date din instruire. Dacă utilizați evenimente stocate în Amazon Fraud Detector, puteți pur și simplu să reantrenați o nouă versiune și să selectați intervalul de date adecvat în timp ce configurați jobul de formare. Acest lucru poate indica, de asemenea, că modul de operare al fraudei în afacerea dvs. se schimbă relativ rapid în timp. După implementarea modelului, este posibil să fie nevoie să vă reantrenați modelul frecvent.

Maparea necorespunzătoare a tipului de variabilă

Amazon Fraud Detector îmbogățește și transformă datele în funcție de tipurile de variabile. Este important să vă mapați variabilele la tipul corect, astfel încât modelul Amazon Fraud Detector să poată prelua valoarea maximă a datelor dvs. De exemplu, dacă cartografiezi IP la CATEGORICAL tastați în loc de IP_ADDRESS, nu înțelegi IP-îmbogățiri aferente în backend.

În general, Amazon Fraud Detector sugerează următoarele acțiuni:

Mapați variabilele dvs. la tipuri specifice, cum ar fi IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN, și PHONE_NUMBER, astfel încât Amazon Fraud Detector să poată extrage și îmbogăți informații suplimentare.
Dacă nu puteți găsi tipul de variabilă specific, mapați-l la unul dintre cele trei tipuri generice: NUMERIC, CATEGORICAL, Sau FREE_FORM_TEXT.
Dacă o variabilă este sub formă de text și are cardinalitate ridicată, cum ar fi o recenzie a unui client sau descrierea produsului, ar trebui să o mapați la FREE_FORM_TEXT tip variabil, astfel încât Amazon Fraud Detector să extragă funcții de text și înglobări pe backend pentru dvs. De exemplu, dacă cartografiezi url_string la FREE_FORM_TEXT, este capabil să tokenizeze adresa URL și să extragă informații pentru a le alimenta în modelul din aval, ceea ce îl va ajuta să învețe mai multe modele ascunse din URL.

Dacă descoperiți că oricare dintre tipurile dvs. de variabile sunt mapate incorect în configurația variabilă, puteți modifica tipul de variabilă și apoi reeduca modelul.

Date sau caracteristici insuficiente

Amazon Fraud Detector necesită cel puțin 10,000 de înregistrări pentru a instrui un model Online Fraud Insights (OFI) sau Transaction Fraud Insights (TFI), cu cel puțin 400 dintre aceste înregistrări identificate ca fiind frauduloase. De asemenea, TFI cere ca atât înregistrările frauduloase, cât și înregistrările legitime să provină de la cel puțin 100 de entități diferite fiecare pentru a asigura diversitatea setului de date. În plus, Amazon Fraud Detector necesită ca datele de modelare să aibă cel puțin două variabile. Acestea sunt cerințele minime de date pentru a construi un model util Amazon Fraud Detector. Cu toate acestea, utilizarea mai multor înregistrări și variabile ajută, de obicei, modelele ML să învețe mai bine tiparele de bază din datele dvs. Când observați un AUC scăzut sau nu puteți găsi praguri care să îndeplinească cerințele dvs. de afaceri, ar trebui să vă gândiți să vă reinstruiți modelul cu mai multe date sau să adăugați noi funcții modelului dvs. De obicei, găsim EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS, și DEVICE variabilele aferente sunt importante în detectarea fraudelor.

O altă cauză posibilă este că unele dintre variabilele dvs. conțin prea multe valori lipsă. Pentru a vedea dacă acest lucru se întâmplă, verificați mesajele de antrenament model și consultați Rezolvați problemele legate de datele de antrenament pentru sugestii.

Probleme comune pentru performanțe foarte ridicate ale modelului

În această secțiune, discutăm probleme comune legate de performanța foarte ridicată a modelului.

Scurgerea etichetei

Scurgerea etichetelor apare atunci când seturile de date de antrenament utilizează informații care nu ar fi de așteptat să fie disponibile la momentul predicției. Supraestimează utilitatea modelului atunci când este rulat într-un mediu de producție.

AUC ridicat (aproape de 1), distribuția scorurilor perfect separată și importanța variabilă semnificativ mai mare a unei variabile ar putea fi indicatori ai potențialelor probleme de scurgere a etichetei. De asemenea, puteți verifica corelația dintre caracteristici și etichetă folosind Data Profiler. Corelația caracteristică și etichetă graficul arată corelația dintre fiecare caracteristică și etichetă. Dacă o caracteristică are o corelație de peste 0.99 cu eticheta, ar trebui să verificați dacă caracteristica este utilizată corect pe baza judecăților de afaceri. De exemplu, pentru a construi un model de risc pentru a aproba sau a refuza o cerere de împrumut, nu ar trebui să utilizați funcții precum AMOUNT_PAID, deoarece plățile au loc după procesul de subscriere. Dacă o variabilă nu este disponibilă în momentul în care faceți predicția, ar trebui să eliminați acea variabilă din configurația modelului și să reinstruiți un model nou.

Următorul exemplu arată corelația dintre fiecare variabilă și etichetă. investigation_status are o corelație ridicată (aproape de 1) cu eticheta, așa că ar trebui să verificați din nou dacă există o problemă de scurgere a etichetei.

Modele simple de fraudă

Atunci când modelele de fraudă din datele dvs. sunt simple, este posibil să observați și performanțe foarte ridicate ale modelului. De exemplu, să presupunem că toate evenimentele de fraudă din datele de modelare vin prin același Furnizor Intern de Servicii; este simplu pentru model să aleagă IP-variabilele aferente și returnează un model „perfect” cu o importanță ridicată a IP.

Modelele simple de fraudă nu indică întotdeauna o problemă de date. Ar putea fi adevărat că modus operandi fraudul din afacerea dvs. este ușor de surprins. Cu toate acestea, înainte de a trage o concluzie, trebuie să vă asigurați că etichetele utilizate în instruirea modelului sunt corecte, iar datele de modelare acoperă cât mai multe modele de fraudă posibil. De exemplu, dacă etichetați evenimentele de fraudă pe baza unor reguli, cum ar fi etichetarea tuturor aplicațiilor dintr-un anumit BILLING_ZIP la care se adauga PRODUCT_CATEGORY ca fraudă, modelul poate prinde cu ușurință acele fraude prin simularea regulilor și realizarea unui AUC ridicat.

Puteți verifica distribuția etichetelor în diferite categorii sau compartimente ale fiecărei caracteristici folosind Data Profiler. De exemplu, dacă observați că majoritatea evenimentelor de fraudă provin din una sau mai multe categorii de produse, ar putea fi un indicator al tiparelor simple de fraudă și trebuie să confirmați că nu este vorba de o greșeală de colectare a datelor sau de proces. Dacă caracteristica este ca CUSTOMER_ID, ar trebui să excludeți caracteristica din antrenamentul modelului.

Următorul exemplu arată distribuția etichetelor în diferite categorii de product_category. Toate fraudele provin din două categorii de produse.

Eșantionarea necorespunzătoare a datelor

Eșantionarea necorespunzătoare a datelor se poate întâmpla atunci când ați eșantionat și ați trimis doar o parte a datelor către Amazon Fraud Detector. Dacă datele nu sunt eșantionate corespunzător și nu sunt reprezentative pentru traficul în producție, performanța raportată a modelului va fi inexactă și modelul ar putea fi inutil pentru predicția producției. De exemplu, dacă toate evenimentele de fraudă din datele de modelare sunt eșantionate din Asia și toate evenimentele legitime sunt eșantionate din SUA, modelul ar putea învăța să separe frauda și legitimitatea pe baza BILLING_COUNTRY. În acest caz, modelul nu este generic pentru a fi aplicat altor populații.

De obicei, vă sugerăm să trimiteți toate cele mai recente evenimente fără eșantionare. Pe baza dimensiunii datelor și a ratei de fraudă, Amazon Fraud Detector efectuează eșantionări înainte de formarea modelului pentru dvs. Dacă datele dvs. sunt prea mari (peste 100 GB) și decideți să eșantionați și să trimiteți doar un subset, ar trebui să eșantionați aleatoriu datele și să vă asigurați că eșantionul este reprezentativ pentru întreaga populație. Pentru TFI, ar trebui să eșantionați datele dvs. în funcție de entitate, ceea ce înseamnă că, dacă o entitate este eșantionată, ar trebui să includeți tot istoricul acesteia, astfel încât agregatele la nivel de entitate să fie calculate corect. Rețineți că, dacă trimiteți doar un subset de date către Amazon Fraud Detector, agregatele în timp real în timpul inferenței pot fi inexacte dacă evenimentele anterioare ale entităților nu sunt trimise.

O altă eșantionare necorespunzătoare a datelor ar putea fi utilizarea unei perioade scurte de date, cum ar fi datele unei zile, pentru a construi modelul. Datele pot fi părtinitoare, mai ales dacă afacerile sau atacurile de fraudă au caracter sezonier. De obicei, recomandăm includerea în modelare a datelor în valoare de cel puțin două cicluri (cum ar fi 2 săptămâni sau 2 luni), pentru a asigura diversitatea tipurilor de fraudă.

Concluzie

După diagnosticarea și rezolvarea tuturor problemelor potențiale, ar trebui să obțineți un model util Amazon Fraud Detector și să aveți încredere în performanța acestuia. Pentru pasul următor, tu puteți crea un detector cu modelul și regulile dvs. de afaceri, și fiți gata să-l implementați în producție pentru o evaluare a modului umbră.

Apendice

Cum să excludeți variabile pentru antrenamentul modelului

După scufundarea profundă, este posibil să identificați o informație variabilă despre ținta scurgerii și să doriți să o excludeți din antrenamentul modelului. Puteți reeduca o versiune de model, excluzând variabilele pe care nu le doriți, parcurgând următorii pași:

Pe consola Amazon Fraud Detector, în panoul de navigare, alegeți modele.
Pe modele pagina, alegeți modelul pe care doriți să îl reeducați.
Pe Acţiuni meniu, alegeți Antrenează noua versiune.
Selectați intervalul de date pe care doriți să îl utilizați și alegeți Pagina Următoare →.
Pe Configurați instruirea pagina, deselectați variabila pe care nu doriți să o utilizați în antrenamentul modelului.
Specificați etichetele dvs. de fraudă și etichetele legitime și modul în care doriți ca Amazon Fraud Detector să folosească evenimentele neetichetate, apoi alegeți Pagina Următoare →.
Examinați configurația modelului și alegeți Creați și instruiți modelul.

Cum se schimbă tipul de variabilă de eveniment

Variabilele reprezintă elemente de date utilizate în prevenirea fraudei. În Amazon Fraud Detector, toate variabilele sunt globale și sunt partajate între toate evenimentele și modelele, ceea ce înseamnă că o variabilă poate fi utilizată în mai multe evenimente. De exemplu, IP-ul poate fi asociat cu evenimente de conectare și ar putea fi, de asemenea, asociat cu evenimente de tranzacție. Desigur, Amazon Fraud Detector a blocat tipul de variabilă și tipul de date odată ce o variabilă a fost creată. Pentru a șterge o variabilă existentă, trebuie să ștergeți mai întâi toate tipurile și modelele de evenimente asociate. Puteți verifica resursele asociate cu variabila specifică navigând la Amazon Fraud Detector, alegând Variabile în panoul de navigare și alegând numele variabilei și Resurse asociate.

Ștergeți variabila și toate tipurile de evenimente asociate

Pentru a șterge variabila, parcurgeți următorii pași:

Pe consola Amazon Fraud Detector, în panoul de navigare, alegeți Variabile.
Alegeți variabila pe care doriți să o ștergeți.
Alege Resurse asociate pentru a vizualiza o listă cu toate tipurile de evenimente utilizate această variabilă.
Trebuie să ștergeți acele tipuri de evenimente asociate înainte de a șterge variabila.
Alegeți tipurile de evenimente din listă pentru a accesa pagina tip de eveniment asociată.
Alege Evenimente stocate pentru a verifica dacă sunt stocate date sub acest tip de eveniment.
Dacă există evenimente stocate în Amazon Fraud Detector, alegeți Ștergeți evenimentele stocate pentru a șterge evenimentele stocate.
Când lucrarea de ștergere este finalizată, apare mesajul „Evenimentele stocate pentru acest tip de eveniment au fost șterse cu succes”.
Alege Resurse asociate.
Dacă detectoarele și modelele sunt asociate cu acest tip de eveniment, trebuie să ștergeți mai întâi acele resurse.
Dacă detectorii sunt asociați, parcurgeți următorii pași pentru a șterge toți detectorii asociați:
1. Alegeți detectorul pentru a merge la Detalii detector .
2. În Versiuni de model panoul, alegeți versiunea detectorului.
3. Pe pagina versiunii detectorului, alegeți Acţiuni.
4. Dacă versiunea detectorului este activă, alegeți dezactivare, alege Dezactivați această versiune de detector fără a o înlocui cu o altă versiuneși alegeți Dezactivați versiunea detectorului.
5. După ce versiunea detectorului este dezactivată, alegeți Acţiuni și apoi Șterge.
6. Repetați acești pași pentru a șterge toate versiunile de detector.
7. Pe Detalii detector pagina, alege Reguli asociate.
8. Alegeți regula de șters.
9. Alege Acţiuni și Ștergeți versiunea regulii.
10. Introduceți numele regulii pentru a confirma și alegeți Șterge versiunea.
11. Repetați acești pași pentru a șterge toate regulile asociate.
12. După ce toate versiunile de detector și regulile asociate sunt șterse, accesați Detalii detector pagina, alege Acţiuniși alegeți Șterge detectorul.
13. Introduceți numele detectorului și alegeți Șterge detectorul.
14. Repetați acești pași pentru a șterge următorul detector.
Dacă vreun model este asociat cu tipul de eveniment, parcurgeți următorii pași pentru a le șterge:
1. Alegeți numele modelului.
2. În Versiuni de model panoul, alegeți versiunea.
3. Dacă starea modelului este Active, alege Acţiuni și Anulați implementarea versiunii modelului.
4. Intrați undeploy pentru a confirma și a alege Anulați implementarea versiunii modelului.
  Starea se schimbă în Undeploying. Procesul durează câteva minute.
5. După ce statutul devine Ready to deploy, alegeți Acțiuni și Ștergeți.
6. Repetați acești pași pentru a șterge toate versiunile de model.
7. Pe pagina Detalii model, alegeți Acțiuni și Ștergeți modelul.
8. Introduceți numele modelului și alegeți Șterge model.
9. Repetați acești pași pentru a șterge următorul model.
După ce toți detectoarele și modelele asociate sunt șterse, alegeți Acţiuni și Ștergeți tipul de eveniment pe Detaliile evenimentului .
Introduceți numele tipului de eveniment și alegeți Ștergeți tipul de eveniment.
În panoul de navigare, alegeți Variabileși alegeți variabila pe care doriți să o ștergeți.
Repetați pașii anteriori pentru a șterge toate tipurile de evenimente asociate cu variabila.
Pe Detalii variabile pagina, alege Acţiuni și Șterge.
Introduceți numele variabilei și alegeți Ștergeți variabila.

Creați o nouă variabilă cu tipul de variabilă corect

După ce ați șters variabila și toate tipurile de evenimente asociate, evenimentele stocate, modelele și detectorii din Amazon Fraud Detector, puteți crea o nouă variabilă cu același nume și o puteți mapa la tipul de variabilă corect.

Pe consola Amazon Fraud Detector, în panoul de navigare, alegeți Variabile.
Alege Crea.
Introduceți numele variabilei pe care doriți să o modificați (cel pe care l-ați șters mai devreme).
Selectați tipul corect de variabilă la care doriți să schimbați.
Alege Creați variabilă.

Încărcați date și reîncărcați modelul

După ce actualizați tipul de variabilă, puteți încărca din nou datele și puteți antrena un nou model. Pentru instrucțiuni, consultați Detectează frauda tranzacțiilor online cu noile funcții Amazon Fraud Detector.

Cum să adăugați variabile noi la un tip de eveniment existent

Pentru a adăuga variabile noi la tipul de eveniment existent, parcurgeți următorii pași:

Adăugați noile variabile la fișierul CVS de antrenament anterior.
Încărcați noul fișier de date de antrenament într-o găleată S3. Notați locația Amazon S3 a fișierului dvs. de antrenament (de exemplu, s3://bucketname/path/to/some/object.csv) și numele rolului dvs.
Pe consola Amazon Fraud Detector, în panoul de navigare, alegeți Evenimente.
Pe Tipuri de evenimente pagina, alegeți numele tipului de eveniment la care doriți să adăugați variabile.
Pe Tip de eveniment pagina de detalii, alegeți Acţiuni, Apoi Adăugați variabile.
În Alegeți cum să definiți variabilele acestui eveniment, alege Selectați variabile dintr-un set de date de antrenament.
Pentru rolul IAM, selectați un rol IAM existent sau creați un rol nou pentru a accesa datele în Amazon S3.
Pentru Locația datelor, introduceți locația S3 a noului fișier de antrenament și alegeți Încărcare.
Noile variabile care nu sunt prezente în tipul de eveniment existent ar trebui să apară în listă.
Alege Adăugați variabile.

Acum, noile variabile au fost adăugate tipului de eveniment existent. Dacă utilizați evenimente stocate în Amazon Fraud Detector, noile variabile ale evenimentelor stocate încă lipsesc. Trebuie să importați datele de antrenament cu noile variabile în Amazon Fraud Detector și apoi să reeducați o nouă versiune de model. La încărcarea noilor date de antrenament cu aceleași EVENT_ID și EVENT_TIMESTAMP, noile variabile de eveniment suprascriu variabilele de eveniment anterioare stocate în Amazon Fraud Detector.

Despre Autori

Julia Xu este cercetător de știință cu Amazon Fraud Detector. Este pasionată de rezolvarea provocărilor clienților folosind tehnici de învățare automată. În timpul liber, îi place să facă drumeții, să picteze și să exploreze noi cafenele.

Hao Zhou este cercetător de știință cu Amazon Fraud Detector. El deține un doctorat în inginerie electrică la Universitatea Northwestern, SUA. Este pasionat de aplicarea tehnicilor de învățare automată pentru a combate frauda și abuzul.

Abhishek Ravi este Senior Product Manager cu Amazon Fraud Detector. Este pasionat de valorificarea capacităților tehnice pentru a construi produse care să încânte clienții.

Timestamp-ul: 29 Iunie, 2022

Timestamp-ul: Februarie 29, 2024

Republicat de Platon

Construiți o platformă de date agronomice cu capabilitățile geospațiale Amazon SageMaker

Cum se evaluează calitatea datelor sintetice - măsurând din perspectiva fidelității, utilității și confidențialității

Utilizați Amazon Lex pentru a captura adresele străzilor

Accelerarea antrenamentului la scară largă în rețelele neuronale pe procesoare cu ThirdAI și AWS Graviton | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont