Zdiagnozuj wydajność modelu przed wdrożeniem dla narzędzia Amazon Fraud Detector

Opublikowane ponownie przez Plato

Obserwuje: 0

Wraz ze wzrostem popularności aplikacji internetowych i rosnącą liczbą użytkowników Internetu, liczba oszustw cyfrowych rośnie z roku na rok. Wykrywacz oszustw Amazon zapewnia w pełni zarządzaną usługę, która pomaga lepiej identyfikować potencjalnie nieuczciwe działania online przy użyciu zaawansowanych technik uczenia maszynowego (ML) i ponad 20-letniej wiedzy firmy Amazon w zakresie wykrywania oszustw.

Aby pomóc Ci szybciej wykrywać oszustwa w wielu przypadkach użycia, Amazon Fraud Detector oferuje określone modele z dostosowanymi algorytmami, wzbogaceniami i przekształceniami funkcji. Szkolenie modelowe jest w pełni zautomatyzowane i bezproblemowe, a możesz postępować zgodnie z instrukcjami w podręcznik użytkownika lub powiązane blogach rozpocząć. Jednak w przypadku wytrenowanych modeli musisz zdecydować, czy model jest gotowy do wdrożenia. Wymaga to pewnej wiedzy na temat uczenia maszynowego, statystyk i wykrywania oszustw, a znajomość niektórych typowych podejść może być pomocna.

Ten post pomoże Ci zdiagnozować wydajność modelu i wybrać odpowiedni model do wdrożenia. Przechodzimy przez metryki dostarczane przez Amazon Fraud Detector, pomagamy w diagnozowaniu potencjalnych problemów i przedstawiamy sugestie dotyczące poprawy wydajności modelu. Podejścia te mają zastosowanie zarówno do szablonów modeli Online Fraud Insights (OFI), jak i Transaction Fraud Insights (TFI).

Omówienie rozwiązania

Ten post zawiera kompleksowy proces diagnozowania wydajności modelu. Najpierw wprowadza wszystkie metryki modelu wyświetlane w konsoli Amazon Fraud Detector, w tym AUC, rozkład wyników, macierz pomyłek, krzywą ROC i ważność zmiennej modelu. Następnie przedstawiamy trzyetapowe podejście do diagnozowania wydajności modelu przy użyciu różnych metryk. Na koniec przedstawiamy sugestie dotyczące poprawy wydajności modelu w przypadku typowych problemów.

Wymagania wstępne

Zanim zagłębisz się w swój model Amazon Fraud Detector, musisz spełnić następujące wymagania wstępne:

Utwórz konto AWS.
Utwórz zbiór danych o wydarzeniu do szkolenia modeli.
Prześlij swoje dane do Usługa Amazon Simple Storage (Amazonka S3) lub pozyskiwać dane o wydarzeniach w Amazon Fraud Detector.
Zbuduj model Amazon Fraud Detector.

Interpretuj metryki modelu

Po zakończeniu uczenia modelu, Amazon Fraud Detector ocenia Twój model, korzystając z części danych modelowania, które nie zostały użyte w uczeniu modelu. Zwraca metryki oceny na Wersja modelu stronę dla tego modelu. Te metryki odzwierciedlają wydajność modelu, której można oczekiwać na rzeczywistych danych po wdrożeniu do produkcji.

Poniższy zrzut ekranu przedstawia przykładową wydajność modelu zwróconą przez Amazon Fraud Detector. Możesz wybrać różne progi rozkładu punktów (po lewej), a macierz pomyłek (po prawej) zostanie odpowiednio zaktualizowana.

Możesz wykorzystać następujące wyniki, aby sprawdzić skuteczność i zdecydować o zasadach strategii:

AUC (obszar pod krzywą) – Ogólna wydajność tego modelu. Model z AUC 0.50 nie jest lepszy niż rzut monetą, ponieważ reprezentuje losową szansę, podczas gdy „idealny” model będzie miał wynik 1.0. Im wyższe AUC, tym lepiej Twój model może odróżnić oszustwa od legalnych.
Rozkład punktacji – Histogram rozkładów wyników modelu przy założeniu przykładowej populacji 100,000 0 zdarzeń. Amazon Fraud Detector generuje wyniki modeli w zakresie od 1000 do XNUMX, gdzie im niższy wynik, tym mniejsze ryzyko oszustwa. Lepsza separacja między legalnymi (zielonymi) i oszustami (niebieskimi) populacjami zazwyczaj wskazuje na lepszy model. Aby uzyskać więcej informacji, zobacz Wyniki modelek.
Macierz pomyłek – Tabela opisująca wydajność modelu dla wybranego progu punktacji, w tym odsetek prawdziwie pozytywnych, prawdziwie negatywnych, fałszywie pozytywnych, fałszywie negatywnych, prawdziwie pozytywnych (TPR) i fałszywie pozytywnych (FPR). Licznik w tabeli zakłada przykładową populację 100,0000 XNUMX zdarzeń. Aby uzyskać więcej informacji, zobacz Modeluj wskaźniki wydajności.
Krzywa ROC (charakterystyka operatora odbiornika) – Wykres ilustrujący zdolność diagnostyczną modelu, jak pokazano na poniższym zrzucie ekranu. Wykreśla rzeczywisty wskaźnik pozytywnych wyników jako funkcję wskaźnika wyników fałszywie pozytywnych dla wszystkich możliwych progów punktacji modelu. Zobacz ten wykres, wybierając Zaawansowane dane. Jeśli przeszkolono wiele wersji jednego modelu, można wybrać różne progi FPR, aby sprawdzić zmianę wydajności.
Ważność zmiennej modelu – Ranga zmiennych modelu na podstawie ich wkładu w wygenerowany model, jak pokazano na poniższym zrzucie ekranu. Zmienna modelu o najwyższej wartości jest ważniejsza dla modelu niż inne zmienne modelu w zestawie danych dla tej wersji modelu i domyślnie jest wyświetlana u góry. Aby uzyskać więcej informacji, zobacz Ważność zmiennej modelu.

Zdiagnozuj wydajność modelu

Przed wdrożeniem modelu w środowisku produkcyjnym należy skorzystać z metryk zwróconych przez Amazon Fraud Detector, aby zrozumieć wydajność modelu i zdiagnozować możliwe problemy. Typowe problemy modeli ML można podzielić na dwie główne kategorie: kwestie związane z danymi oraz kwestie związane z modelem. Amazon Fraud Detector zajął się problemami związanymi z modelem, starannie wykorzystując zestawy do walidacji i testów, aby ocenić i dostroić model na zapleczu. Możesz wykonać następujące kroki, aby sprawdzić, czy model jest gotowy do wdrożenia lub ma możliwe problemy związane z danymi:

Sprawdź ogólną wydajność modelu (AUC i rozkład punktacji).
Przejrzyj wymagania biznesowe (matryca i tabela nieporozumień).
Sprawdź ważność zmiennej modelu.

Sprawdź ogólną wydajność modelu: AUC i rozkład punktacji

Dokładniejsze przewidywanie przyszłych zdarzeń jest zawsze głównym celem modelu predykcyjnego. Wartość AUC zwrócona przez Amazon Fraud Detector jest obliczana na odpowiednio dobranym zestawie testowym, który nie jest używany podczas szkolenia. Ogólnie rzecz biorąc, model z AUC większym niż 0.9 jest uważany za dobry model.

Jeśli zaobserwujesz model z wydajnością mniejszą niż 0.8, zwykle oznacza to, że model ma miejsce na ulepszenia (omówimy typowe problemy związane z niską wydajnością modelu w dalszej części tego postu). Pamiętaj, że definicja „dobrej” wydajności w dużym stopniu zależy od Twojej firmy i modelu bazowego. Nadal możesz wykonać kroki opisane w tym poście, aby ulepszyć swój model Amazon Fraud Detector, mimo że jego AUC jest większe niż 0.8.

Z drugiej strony, jeśli AUC wynosi ponad 0.99, oznacza to, że model może prawie idealnie oddzielić oszustwa od uzasadnionych zdarzeń na zestawie testowym. Czasami jest to scenariusz „zbyt piękny, aby mógł być prawdziwy” (w dalszej części tego postu omawiamy typowe problemy związane z bardzo wysoką wydajnością modelu).

Oprócz ogólnego AUC, rozkład punktacji może również wskazywać, jak dobrze model jest dopasowany. Najlepiej byłoby, gdyby większość legalnych i oszustw znajdowała się na dwóch końcach skali, co wskazuje, że wynik modelu może dokładnie uszeregować zdarzenia w zestawie testowym.

W poniższym przykładzie rozkład punktacji ma AUC 0.96.

Jeśli dystrybucja legalna i oszustwa nakładają się lub są skoncentrowane w centrum, prawdopodobnie oznacza to, że model nie radzi sobie dobrze z odróżnianiem zdarzeń oszustwa od uzasadnionych zdarzeń, co może wskazywać na zmianę dystrybucji danych historycznych lub że potrzebujesz więcej danych lub funkcji.

Poniżej znajduje się przykład rozkładu punktacji z AUC 0.64.

Jeśli znajdziesz punkt podziału, który może prawie idealnie rozdzielić oszustwa i uzasadnione zdarzenia, istnieje duże prawdopodobieństwo, że model ma problem z wyciekiem etykiet lub wzorce oszustw są zbyt łatwe do wykrycia, co powinno przyciągnąć twoją uwagę.

W poniższym przykładzie rozkład punktacji ma AUC 1.0.

Przejrzyj wymagania biznesowe: macierz i tabela nieporozumień

Chociaż AUC jest wygodnym wskaźnikiem wydajności modelu, może nie przekładać się bezpośrednio na wymagania biznesowe. Amazon Fraud Detector zapewnia również wskaźniki, takie jak wskaźnik wychwytywania oszustw (wskaźnik prawdziwie pozytywnych), odsetek uzasadnionych zdarzeń, które są błędnie przewidywane jako oszustwo (wskaźnik fałszywie pozytywnych) i inne, które są częściej wykorzystywane jako wymagania biznesowe. Po wytrenowaniu modelu z dość dobrym AUC musisz porównać model z wymaganiami biznesowymi z tymi metrykami.

Macierz pomyłek i tabela zapewniają interfejs do przeglądu wpływu i sprawdzenia, czy spełnia on Twoje potrzeby biznesowe. Należy zauważyć, że liczby zależą od progu modelu, w którym zdarzenia z punktacją wyższą niż próg są klasyfikowane jako oszustwo, a zdarzenia z punktacją niższą niż próg są klasyfikowane jako legalne. Możesz wybrać, którego progu użyć w zależności od wymagań biznesowych.

Na przykład, jeśli Twoim celem jest uchwycenie 73% oszustw, wtedy (jak pokazano w poniższym przykładzie) możesz wybrać próg taki jak 855, który pozwala na uchwycenie 73% wszystkich oszustw. Jednak model błędnie zaklasyfikuje 3% uzasadnionych zdarzeń jako fałszywe. Jeśli ten FPR jest akceptowalny dla Twojej firmy, model jest dobry do wdrożenia. W przeciwnym razie musisz poprawić wydajność modelu.

Innym przykładem jest to, że jeśli koszt zablokowania lub zakwestionowania legalnego klienta jest bardzo wysoki, wtedy potrzebujesz niskiego FPR i wysokiej precyzji. W takim przypadku możesz wybrać próg 950, jak pokazano w poniższym przykładzie, który błędnie zaklasyfikuje 1% legalnych klientów jako oszustów, a 80% zidentyfikowanych oszustw będzie faktycznie oszustwem.

Ponadto możesz wybrać wiele progów i przypisać różne wyniki, takie jak blokowanie, badanie, zaliczenie. Jeśli nie możesz znaleźć odpowiednich progów i reguł, które spełniają wszystkie wymagania biznesowe, rozważ wytrenowanie modelu przy użyciu większej ilości danych i atrybutów.

Sprawdź ważność zmiennej modelu

Połączenia Ważność zmiennej modelu Panel wyświetla, w jaki sposób każda zmienna wpływa na model. Jeśli jedna zmienna ma znacznie wyższą wartość niż inne, może to wskazywać na wyciek etykiety lub, że wzorce oszustw są zbyt łatwe do wykrycia. Pamiętaj, że ważność zmiennej jest agregowana z powrotem do zmiennych wejściowych. Jeśli zauważysz nieco większe znaczenie IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIPlub SHIPPING_ZIP, może ze względu na moc wzbogacania.

Poniższy przykład pokazuje zmienne znaczenie modelu z potencjalnym wyciekiem etykiety przy użyciu investigation_status.

Ważność zmiennych modelu daje również wskazówki, jakie dodatkowe zmienne mogą potencjalnie podnieść model. Na przykład, jeśli zauważysz niskie AUC, a funkcje związane ze sprzedawcą mają duże znaczenie, możesz rozważyć zebranie większej liczby funkcji dotyczących zamówień, takich jak SELLER_CATEGORY, SELLER_ADDRESS, SELLER_ACTIVE_YEARSi dodaj te zmienne do swojego modelu.

Typowe problemy z niską wydajnością modelu

W tej sekcji omówimy typowe problemy, które możesz napotkać w związku z niską wydajnością modelu.

Zmieniono rozkład danych historycznych

Dryf dystrybucji danych historycznych ma miejsce w przypadku dużych zmian biznesowych lub problemów z gromadzeniem danych. Na przykład, jeśli niedawno wprowadziłeś swój produkt na nowy rynek, IP_ADDRESS, EMAIL, ADDRESS powiązane funkcje mogą być zupełnie inne, a sposób działania oszustwa może również ulec zmianie. Używa narzędzia Amazon Fraud Detector EVENT_TIMESTAMP do podziału danych i oceny modelu na odpowiednim podzbiorze zdarzeń w zestawie danych. Jeśli rozkład danych historycznych ulegnie znacznej zmianie, zestaw ewaluacyjny może bardzo różnić się od danych uczących, a raportowana wydajność modelu może być niska.

Możesz sprawdzić potencjalny problem ze zmianą dystrybucji danych, przeglądając dane historyczne:

Użyj Profiler danych Amazon Fraud Detector narzędzie do sprawdzania, czy wskaźnik oszustw i brakujący wskaźnik etykiety zmieniał się w czasie.
Sprawdź, czy rozkład zmiennych w czasie zmienił się znacząco, szczególnie w przypadku cech o dużym zmiennym znaczeniu.
Sprawdź rozkład zmiennych w czasie według zmiennych docelowych. Jeśli zauważysz znacznie więcej zdarzeń oszustw z jednej kategorii w ostatnich danych, możesz chcieć sprawdzić, czy zmiana jest uzasadniona, korzystając z osądów biznesowych.

Jeśli okaże się, że brakujący wskaźnik etykiety jest bardzo wysoki lub wskaźnik oszustw stale spadał w ostatnich dniach, może to wskazywać, że etykiety nie są w pełni dojrzałe. Należy wykluczyć najnowsze dane lub poczekać dłużej na zebranie dokładnych etykiet, a następnie ponownie nauczyć model.

Jeśli zauważysz gwałtowny wzrost wskaźnika oszustw i zmiennych w określonych dniach, możesz chcieć dwukrotnie sprawdzić, czy jest to problem odstający lub związany z gromadzeniem danych. W takim przypadku należy usunąć te zdarzenia i ponownie nauczyć model.

Jeśli okaże się, że nieaktualne dane nie mogą reprezentować Twojej obecnej i przyszłej firmy, należy wykluczyć ze szkolenia stary okres danych. Jeśli korzystasz z zapisanych zdarzeń w Amazon Fraud Detector, możesz po prostu przeszkolić nową wersję i wybrać odpowiedni zakres dat podczas konfigurowania zadania szkoleniowego. Może to również wskazywać, że sposób działania oszustwa w Twojej firmie zmienia się stosunkowo szybko w czasie. Po wdrożeniu modelu może być konieczne częste ponowne trenowanie modelu.

Nieprawidłowe mapowanie typu zmiennej

Amazon Fraud Detector wzbogaca i przekształca dane w oparciu o typy zmiennych. Ważne jest, aby zmapować zmienne do właściwego typu, aby model Amazon Fraud Detector mógł przyjąć maksymalną wartość Twoich danych. Na przykład, jeśli mapujesz IP do CATEGORICAL wpisz zamiast IP_ADDRESS, nie rozumiesz IP-powiązane wzbogacenia w backendzie.

Ogólnie rzecz biorąc, Amazon Fraud Detector sugeruje następujące działania:

Przypisz zmienne do określonych typów, takich jak IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN, PHONE_NUMBER, dzięki czemu Amazon Fraud Detector może wydobywać i wzbogacać dodatkowe informacje.
Jeśli nie możesz znaleźć określonego typu zmiennej, zamapuj go na jeden z trzech typów ogólnych: NUMERIC, CATEGORICALlub FREE_FORM_TEXT.
Jeśli zmienna ma postać tekstową i ma wysoką liczność, taką jak opinia klienta lub opis produktu, należy ją zmapować do zmiennej FREE_FORM_TEXT typ zmiennej, dzięki czemu Amazon Fraud Detector wyodrębni dla Ciebie funkcje tekstowe i osadzania na zapleczu. Na przykład, jeśli mapujesz url_string do FREE_FORM_TEXT, jest w stanie tokenizować adres URL i wyodrębniać informacje, które są przesyłane do modelu podrzędnego, co pomoże mu poznać więcej ukrytych wzorców z adresu URL.

Jeśli zauważysz, że któryś z typów zmiennych jest nieprawidłowo mapowany w konfiguracji zmiennej, możesz zmienić typ zmiennej, a następnie ponownie nauczyć model.

Niewystarczająca ilość danych lub funkcji

Amazon Fraud Detector wymaga co najmniej 10,000 400 rekordów, aby wyszkolić model Online Fraud Insights (OFI) lub Transaction Fraud Insights (TFI), przy czym co najmniej 100 z tych rekordów zostało zidentyfikowanych jako fałszywe. TFI wymaga również, aby zarówno fałszywe zapisy, jak i legalne zapisy pochodziły od co najmniej XNUMX różnych podmiotów, aby zapewnić różnorodność zbioru danych. Ponadto Amazon Fraud Detector wymaga, aby dane modelowania zawierały co najmniej dwie zmienne. To są minimalne wymagania dotyczące danych do zbudowania użytecznego modelu Amazon Fraud Detector. Jednak użycie większej liczby rekordów i zmiennych zwykle pomaga modelom ML lepiej poznać wzorce bazowe na podstawie danych. Gdy obserwujesz niską wartość AUC lub nie możesz znaleźć progów spełniających wymagania biznesowe, rozważ ponowne szkolenie modelu z większą ilością danych lub dodanie nowych funkcji do modelu. Zwykle znajdujemy EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS, DEVICE powiązane zmienne są ważne w wykrywaniu oszustw.

Inną możliwą przyczyną jest to, że niektóre zmienne zawierają zbyt wiele braków danych. Aby sprawdzić, czy tak się dzieje, sprawdź komunikaty treningowe modelu i zapoznaj się z Rozwiązywanie problemów z danymi treningowymi o sugestie.

Typowe problemy z bardzo wysoką wydajnością modelu

W tej sekcji omawiamy typowe problemy związane z bardzo wysoką wydajnością modelu.

Wyciek etykiety

Wyciek etykiet występuje, gdy treningowe zestawy danych wykorzystują informacje, które nie powinny być dostępne w czasie prognozy. Przeszacowuje użyteczność modelu, gdy jest uruchamiany w środowisku produkcyjnym.

Wysokie AUC (bliskie 1), doskonale oddzielony rozkład punktów i znacznie wyższe zmienne znaczenie jednej zmiennej mogą być wskaźnikami potencjalnych problemów z wyciekiem etykiet. Możesz również sprawdzić korelację między cechami a etykietą za pomocą Profiler danych, Korelacja cech i etykiet wykres pokazuje korelację między każdą cechą a etykietą. Jeśli jedna funkcja ma ponad 0.99 korelacji z etykietą, powinieneś sprawdzić, czy jest ona prawidłowo używana w oparciu o oceny biznesowe. Na przykład, aby zbudować model ryzyka w celu zatwierdzenia lub odrzucenia wniosku o pożyczkę, nie należy używać funkcji takich jak AMOUNT_PAID, ponieważ płatności następują po zakończeniu procesu ubezpieczeniowego. Jeśli zmienna nie jest dostępna w momencie dokonywania prognozy, należy usunąć tę zmienną z konfiguracji modelu i ponownie przeszkolić nowy model.

Poniższy przykład pokazuje korelację między każdą zmienną a etykietą. investigation_status ma wysoką korelację (bliską 1) z etykietą, więc powinieneś dokładnie sprawdzić, czy nie ma problemu z wyciekiem etykiety.

Proste wzorce oszustw

Gdy wzorce oszustw w Twoich danych są proste, możesz również zaobserwować bardzo wysoką wydajność modelu. Załóżmy na przykład, że wszystkie zdarzenia oszustwa w danych modelowania pochodzą od tego samego wewnętrznego dostawcy usług; model może łatwo wybrać IP-powiązanych zmiennych i zwracają „doskonały” model o dużym znaczeniu IP.

Proste wzorce oszustw nie zawsze wskazują na problem z danymi. Może być prawdą, że sposób działania oszustwa w Twojej firmie jest łatwy do uchwycenia. Jednak przed wyciągnięciem wniosków należy upewnić się, że etykiety używane w szkoleniu modeli są dokładne, a dane modelowania obejmują jak najwięcej wzorców oszustw. Na przykład, jeśli oznaczysz zdarzenia oszustwa na podstawie reguł, takich jak oznaczanie wszystkich aplikacji z określonego BILLING_ZIP plus PRODUCT_CATEGORY jako oszustwo, model może łatwo wykryć te oszustwa, symulując zasady i osiągając wysoki AUC.

Możesz sprawdzić rozkład etykiet w różnych kategoriach lub pojemnikach każdej funkcji za pomocą Profiler danych. Na przykład, jeśli zauważysz, że większość zdarzeń oszustwa pochodzi z jednej lub kilku kategorii produktów, może to wskazywać na proste wzorce oszustw i musisz potwierdzić, że nie jest to błąd w gromadzeniu danych lub przetwarzaniu. Jeśli funkcja jest podobna CUSTOMER_ID, należy wykluczyć tę funkcję z trenowania modelu.

Poniższy przykład przedstawia rozkład etykiet w różnych kategoriach product_category. Wszystkie oszustwa pochodzą z dwóch kategorii produktów.

Niewłaściwe próbkowanie danych

Niewłaściwe próbkowanie danych może się zdarzyć, gdy pobrałeś próbkę i wysłałeś tylko część swoich danych do Amazon Fraud Detector. Jeśli dane nie są prawidłowo próbkowane i nie są reprezentatywne dla ruchu w środowisku produkcyjnym, zgłoszona wydajność modelu będzie niedokładna, a model może być bezużyteczny do prognozowania produkcji. Na przykład, jeśli wszystkie zdarzenia oszustwa w danych modelowania są próbkowane z Azji, a wszystkie uzasadnione zdarzenia są próbkowane z USA, model może nauczyć się oddzielać oszustwo od legalnego na podstawie BILLING_COUNTRY. W takim przypadku model nie jest ogólny, aby można go było zastosować do innych populacji.

Zazwyczaj sugerujemy wysyłanie wszystkich najnowszych wydarzeń bez samplowania. W oparciu o rozmiar danych i wskaźnik oszustw, Amazon Fraud Detector pobiera dla Ciebie próbkowanie przed szkoleniem modelu. Jeśli twoje dane są zbyt duże (ponad 100 GB) i zdecydujesz się na próbkowanie i wysłanie tylko podzbioru, powinieneś losowo próbkować swoje dane i upewnić się, że próbka jest reprezentatywna dla całej populacji. W przypadku TFI należy próbkować dane według podmiotów, co oznacza, że jeśli próbkowany jest jeden podmiot, należy uwzględnić całą jego historię, aby agregaty na poziomie podmiotu były obliczane poprawnie. Pamiętaj, że jeśli wyślesz tylko podzbiór danych do Amazon Fraud Detector, agregacje w czasie rzeczywistym podczas wnioskowania mogą być niedokładne, jeśli poprzednie zdarzenia jednostek nie zostaną wysłane.

Innym niewłaściwym próbkowaniem danych może być wykorzystanie do budowy modelu tylko krótkiego okresu danych, na przykład danych z jednego dnia. Dane mogą być stronnicze, zwłaszcza jeśli ataki na Twoją firmę lub oszustwa mają sezonowość. Zazwyczaj zalecamy uwzględnienie w modelowaniu danych z co najmniej dwóch cykli (np. 2 tygodnie lub 2 miesiące), aby zapewnić różnorodność typów oszustw.

Wnioski

Po zdiagnozowaniu i rozwiązaniu wszystkich potencjalnych problemów powinieneś otrzymać przydatny model Amazon Fraud Detector i mieć pewność co do jego wydajności. W następnym kroku ty może stworzyć detektor z modelem i regułami biznesowymii przygotuj się do wdrożenia w środowisku produkcyjnym do oceny w trybie cienia.

dodatek

Jak wykluczyć zmienne do uczenia modelu

Po głębokim nurkowaniu możesz zidentyfikować informacje o zmiennym celu wycieku i chcieć wykluczyć je ze szkolenia modelu. Możesz ponownie przeszkolić wersję modelu z wyłączeniem zmiennych, których nie chcesz, wykonując następujące czynności:

W konsoli Amazon Fraud Detector w okienku nawigacji wybierz modele.
Na modele strony, wybierz model, który chcesz ponownie przeszkolić.
Na Akcje menu, wybierz Trenuj nową wersję.
Wybierz zakres dat, którego chcesz użyć i wybierz Następna.
Na Skonfiguruj szkolenie stronie, usuń zaznaczenie zmiennej, której nie chcesz używać podczas uczenia modelu.
Określ swoje etykiety oszustw i legalne etykiety oraz określ, w jaki sposób Amazon Fraud Detector ma wykorzystywać zdarzenia bez etykiet, a następnie wybierz Następna.
Przejrzyj konfigurację modelu i wybierz Utwórz i wytrenuj model.

Jak zmienić typ zmiennej zdarzenia

Zmienne reprezentują elementy danych wykorzystywane w zapobieganiu oszustwom. W Amazon Fraud Detector wszystkie zmienne są globalne i są wspólne dla wszystkich zdarzeń i modeli, co oznacza, że jedna zmienna może być używana w wielu zdarzeniach. Na przykład adres IP może być powiązany ze zdarzeniami logowania, a także może być powiązany ze zdarzeniami transakcji. Oczywiście Amazon Fraud Detector zablokował typ zmiennej i typ danych po utworzeniu zmiennej. Aby usunąć istniejącą zmienną, musisz najpierw usunąć wszystkie powiązane typy i modele zdarzeń. Możesz sprawdzić zasoby powiązane z konkretną zmienną, przechodząc do Amazon Fraud Detector, wybierając Zmienne w panelu nawigacji i wybierając nazwę zmiennej i Powiązane zasoby.

Usuń zmienną i wszystkie powiązane typy zdarzeń

Aby usunąć zmienną, wykonaj następujące czynności:

W konsoli Amazon Fraud Detector w okienku nawigacji wybierz Zmienne.
Wybierz zmienną, którą chcesz usunąć.
Dodaj Powiązane zasoby aby wyświetlić listę wszystkich typów zdarzeń używanych przez tę zmienną.
Musisz usunąć te powiązane typy zdarzeń przed usunięciem zmiennej.
Wybierz typy wydarzeń z listy, aby przejść do powiązanej strony typu wydarzenia.
Dodaj Przechowywane wydarzenia aby sprawdzić, czy jakieś dane są przechowywane w tym typie zdarzenia.
Jeśli w Amazon Fraud Detector są zapisane zdarzenia, wybierz Usuń zapisane wydarzenia aby usunąć zapisane zdarzenia.
Po zakończeniu usuwania zadania pojawi się komunikat „Zapisane zdarzenia dla tego typu zdarzenia zostały pomyślnie usunięte”.
Dodaj Powiązane zasoby.
Jeśli detektory i modele są powiązane z tym typem zdarzenia, musisz najpierw usunąć te zasoby.
Jeśli detektory są powiązane, wykonaj następujące czynności, aby usunąć wszystkie powiązane detektory:
1. Wybierz detektor, aby przejść do Szczegóły detektora strona.
2. W Wersje modelu okienku wybierz wersję czujki.
3. Na stronie wersji detektora wybierz Akcje.
4. Jeśli wersja czujki jest aktywna, wybierz Dezaktywowaćwybierz Dezaktywuj tę wersję detektora bez zastępowania jej inną wersjąi wybierz Dezaktywuj wersję czujki.
5. Po dezaktywacji wersji czujki wybierz Akcje , a następnie Usuń.
6. Powtórz te czynności, aby usunąć wszystkie wersje detektora.
7. Na Szczegóły detektora wybierz stronę Powiązane zasady.
8. Wybierz regułę do usunięcia.
9. Dodaj Akcje i Usuń wersję reguły.
10. Wprowadź nazwę reguły, aby potwierdzić i wybrać Usuń wersję.
11. Powtórz te kroki, aby usunąć wszystkie powiązane reguły.
12. Po usunięciu wszystkich wersji detektora i powiązanych reguł przejdź do Szczegóły detektora wybierz stronę Akcjei wybierz Usuń detektor.
13. Wprowadź nazwę detektora i wybierz Usuń detektor.
14. Powtórz te kroki, aby usunąć następny detektor.
Jeśli jakiekolwiek modele są powiązane z typem zdarzenia, wykonaj następujące czynności, aby je usunąć:
1. Wybierz nazwę modelu.
2. W Wersje modelu okienku wybierz wersję.
3. Jeśli status modelu to Activewybierz Akcje i Cofnij wdrożenie wersji modelu.
4. Wchodzę undeploy aby potwierdzić i wybrać Cofnij wdrożenie wersji modelu.
  Status zmieni się na Undeploying. Proces trwa kilka minut.
5. Gdy status zmieni się na Ready to deploy, wybierz Akcje i Usuń.
6. Powtórz te kroki, aby usunąć wszystkie wersje modeli.
7. Na stronie Szczegóły modelu wybierz Akcje i Usuń model.
8. Wprowadź nazwę modelu i wybierz Usuń model.
9. Powtórz te czynności, aby usunąć następny model.
Po usunięciu wszystkich powiązanych detektorów i modeli wybierz Akcje i Usuń typ wydarzenia na Szczegóły wydarzenia strona.
Wpisz nazwę typu zdarzenia i wybierz Usuń typ wydarzenia.
W okienku nawigacji wybierz Zmiennei wybierz zmienną, którą chcesz usunąć.
Powtórz poprzednie kroki, aby usunąć wszystkie typy zdarzeń powiązane ze zmienną.
Na Zmienne szczegóły wybierz stronę Akcje i Usuń.
Wpisz nazwę zmiennej i wybierz Usuń zmienną.

Utwórz nową zmienną z prawidłowym typem zmiennej

Po usunięciu zmiennej i wszystkich powiązanych typów zdarzeń, przechowywanych zdarzeń, modeli i detektorów z programu Amazon Fraud Detector można utworzyć nową zmienną o tej samej nazwie i przyporządkować ją do właściwego typu zmiennej.

W konsoli Amazon Fraud Detector w okienku nawigacji wybierz Zmienne.
Dodaj Stwórz.
Wpisz nazwę zmiennej, którą chcesz zmodyfikować (tę, którą wcześniej usunąłeś).
Wybierz poprawny typ zmiennej, na który chcesz zmienić.
Dodaj Utwórz zmienną.

Prześlij dane i przeszkol model ponownie

Po zaktualizowaniu typu zmiennej możesz ponownie przesłać dane i wytrenować nowy model. Aby uzyskać instrukcje, zobacz Wykrywaj oszustwa związane z transakcjami online dzięki nowym funkcjom Amazon Fraud Detector.

Jak dodać nowe zmienne do istniejącego typu zdarzenia

Aby dodać nowe zmienne do istniejącego typu zdarzenia, wykonaj następujące czynności:

Dodaj nowe zmienne do poprzedniego szkoleniowego pliku CVS.
Prześlij nowy plik danych treningowych do zasobnika S3. Zanotuj lokalizację Amazon S3 pliku szkoleniowego (na przykład s3://bucketname/path/to/some/object.csv) i nazwę Twojej roli.
W konsoli Amazon Fraud Detector w okienku nawigacji wybierz Wydarzenia.
Na Rodzaje wydarzeń strony, wybierz nazwę typu zdarzenia, do którego chcesz dodać zmienne.
Na Typ wydarzenia strona szczegółów, wybierz Akcje, następnie Dodaj zmienne.
Pod Wybierz sposób definiowania zmiennych tego zdarzeniawybierz Wybierz zmienne z treningowego zestawu danych.
W przypadku roli uprawnień wybierz istniejącą rolę uprawnień lub utwórz nową rolę, aby uzyskać dostęp do danych w Amazon S3.
W razie zamówieenia projektu Lokalizacja danych, wprowadź lokalizację S3 nowego pliku szkoleniowego i wybierz Prześlij.
Na liście powinny pojawić się nowe zmienne nieobecne w istniejącym typie zdarzenia.
Dodaj Dodaj zmienne.

Teraz nowe zmienne zostały dodane do istniejącego typu zdarzenia. Jeśli używasz przechowywanych zdarzeń w Amazon Fraud Detector, nadal brakuje nowych zmiennych przechowywanych zdarzeń. Musisz zaimportować dane uczące z nowymi zmiennymi do Amazon Fraud Detector, a następnie ponownie przeszkolić nową wersję modelu. Podczas przesyłania nowych danych treningowych z tymi samymi EVENT_ID i EVENT_TIMESTAMP, nowe zmienne zdarzenia zastępują poprzednie zmienne zdarzenia przechowywane w module Amazon Fraud Detector.

O autorach

Julia Xu jest naukowcem z Amazon Fraud Detector. Pasjonuje się rozwiązywaniem wyzwań klientów z wykorzystaniem technik Machine Learning. W wolnym czasie lubi wędrować, malować i odkrywać nowe kawiarnie.

Hao Zhou jest naukowcem z Amazon Fraud Detector. Posiada doktorat z elektrotechniki na Northwestern University w USA. Pasjonuje go stosowanie technik uczenia maszynowego do zwalczania oszustw i nadużyć.

Abhiszek Ravi jest starszym menedżerem produktu w firmie Amazon Fraud Detector. Pasjonuje go wykorzystywanie możliwości technicznych do tworzenia produktów, które zachwycają klientów.

Znak czasu: 29 czerwca 2022 r.

Znak czasu: Luty 29, 2024

Opublikowane ponownie przez Plato

Zbuduj platformę danych agronomicznych z możliwościami geoprzestrzennymi Amazon SageMaker

Jak ocenić jakość danych syntetycznych – pomiar z perspektywy wierności, użyteczności i prywatności

Użyj Amazon Lex do przechwytywania adresów ulicznych

Przyspieszenie szkolenia sieci neuronowych na dużą skalę na procesorach z ThirdAI i AWS Graviton | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto