Wykrywaj fałszywe transakcje za pomocą uczenia maszynowego z Amazon SageMaker

Opublikowane ponownie przez Plato

Obserwuje: 0

Firmy mogą co roku stracić miliardy dolarów z powodu złośliwych użytkowników i nieuczciwych transakcji. W miarę jak coraz więcej operacji biznesowych przenosi się do sieci, rośnie liczba oszustw i nadużyć w systemach internetowych. W celu zwalczania oszustw internetowych wiele firm korzysta z systemów wykrywania oszustw opartych na regułach.

Jednak tradycyjne systemy wykrywania oszustw opierają się na zestawie reguł i filtrów stworzonych ręcznie przez specjalistów. Filtry mogą być często kruche, a reguły mogą nie wychwytywać pełnego spektrum fałszywych sygnałów. Ponadto, mimo że nieuczciwe zachowania stale ewoluują, statyczny charakter predefiniowanych reguł i filtrów utrudnia utrzymanie i skuteczne ulepszenie tradycyjnych systemów wykrywania oszustw.

W tym poście pokazujemy, jak zbudować dynamiczny, samodoskonalący się i łatwy w utrzymaniu system wykrywania oszustw związanych z kartami kredytowymi z uczeniem maszynowym (ML) przy użyciu Amazon Sage Maker.

Alternatywnie, jeśli szukasz w pełni zarządzanej usługi do tworzenia niestandardowych modeli wykrywania oszustw bez pisania kodu, zalecamy sprawdzenie Wykrywacz oszustw Amazon. Amazon Fraud Detector umożliwia klientom bez doświadczenia w ML automatyzację budowania modeli wykrywania oszustw dostosowanych do ich danych, wykorzystując ponad 20-letnie doświadczenie w wykrywaniu oszustw z AWS i Amazon.com.

Omówienie rozwiązania

To rozwiązanie stanowi podstawę systemu wykrywania oszustw związanych z kartami kredytowymi przy użyciu SageMaker. Zaczynamy od trenowania nienadzorowanego modelu wykrywania anomalii za pomocą algorytmu Losowo cięty las (RCF). Następnie szkolimy dwa nadzorowane modele klasyfikacyjne za pomocą algorytmu XGBoost, jeden jako model bazowy, a drugi do tworzenia prognoz, przy użyciu różnych strategii w celu rozwiązania skrajnej nierównowagi klas w danych. Na koniec trenujemy optymalny model XGBoost z optymalizacja hiperparametrów (HPO) w celu dalszej poprawy wydajności modelu.

W przypadku przykładowego zbioru danych korzystamy z publicznych, anonimowych transakcji kartą kredytową zestaw danych który został pierwotnie wydany jako część Badania naukowe współpraca Worldline i Grupa uczenia maszynowego ULB (Université Libre de Bruxelles). W przewodniku omówimy również, w jaki sposób można dostosować rozwiązanie do korzystania z własnych danych.

Wyniki rozwiązania są następujące:

Nienadzorowany SageMaker RCF Model. Model generuje wynik anomalii dla każdej transakcji. Niska wartość wyniku wskazuje, że transakcja jest uważana za normalną (bez oszustwa). Wysoka wartość wskazuje, że transakcja jest fałszywa. Definicje niskiego i wysokiego zależą od zastosowania, ale powszechna praktyka sugeruje, że wyniki przekraczające trzy standardowe odchylenia od średniego wyniku są uważane za anomalne.
Nadzorowany SageMaker XGBoost model przeszkolony przy użyciu wbudowanego schematu ważenia w celu rozwiązania problemu z wysoce niezrównoważonymi danymi.
Nadzorowany model SageMaker XGBoost wyszkolony przy użyciu Technika nadpróbkowania w mniejszościach syntetycznych (POGŁADZENIE).
Wyszkolony model SageMaker XGBoost z HPO.
Prognozy prawdopodobieństwa oszukania każdej transakcji. Jeśli szacowane prawdopodobieństwo transakcji przekracza próg, jest ona klasyfikowana jako oszukańcza.

Aby zademonstrować, w jaki sposób można wykorzystać to rozwiązanie w istniejącej infrastrukturze biznesowej, podajemy również przykład wykonywania wywołań REST API do wdrożonego punktu końcowego modelu przy użyciu AWS Lambda do wyzwalania modeli RCF i XGBoost.

Poniższy schemat ilustruje architekturę rozwiązania.

Wymagania wstępne

Aby wypróbować rozwiązanie na własnym koncie, upewnij się, że masz następujące elementy:

Gdy instancja Studio jest gotowa, możesz uruchomić Studio i uzyskać dostęp do JumpStart. Rozwiązania JumpStart nie są dostępne w instancjach notatników SageMaker i nie można uzyskać do nich dostępu za pośrednictwem interfejsów API SageMaker lub Interfejs wiersza poleceń AWS (interfejs wiersza poleceń AWS).

Uruchom rozwiązanie

Aby uruchomić rozwiązanie, wykonaj następujące czynności:

Otwórz JumpStart za pomocą programu uruchamiającego JumpStart w Rozpocznij sekcji lub wybierając ikonę JumpStart na lewym pasku bocznym.
Pod Rozwiązaniawybierz Wykryj złośliwych użytkowników i transakcje aby otworzyć rozwiązanie w innej karcie Studio.
Na karcie rozwiązania wybierz Premiera aby uruchomić rozwiązanie.

Zasoby rozwiązania są udostępniane i otwiera się kolejna karta przedstawiająca postęp wdrażania. Po zakończeniu wdrażania Otwórz notatnik pojawi się przycisk.
Dodaj Otwórz notatnik aby otworzyć notes rozwiązania w programie Studio.

Zbadaj i przetwórz dane

Domyślny zbiór danych zawiera tylko cechy liczbowe, ponieważ oryginalne cechy zostały przekształcone przy użyciu Analiza głównych składowych (PCA) w celu ochrony prywatności użytkownika. W rezultacie zestaw danych zawiera 28 komponentów PCA, V1–V28, oraz dwie funkcje, które nie zostały przekształcone, ilość i czas. Kwota odnosi się do kwoty transakcji, a Czas to sekundy, które upłynęły między jakąkolwiek transakcją w danych a pierwszą transakcją.

Kolumna Klasa odpowiada temu, czy transakcja jest fałszywa.

Widzimy, że większość nie jest oszustwami, ponieważ z całkowitej liczby 284,807 przykładów tylko 492 (0.173%) to oszustwa. Jest to przypadek skrajnej nierównowagi klas, która jest powszechna w scenariuszach wykrywania oszustw.

Następnie przygotowujemy nasze dane do załadowania i szkolenia. Podzieliliśmy dane na zestaw pociągowy i zestaw testowy, używając tego pierwszego do trenowania, a drugiego do oceny wydajności naszego modelu. Ważne jest, aby podzielić dane przed zastosowaniem jakichkolwiek technik w celu złagodzenia nierównowagi klas. W przeciwnym razie możemy ujawnić informacje z zestawu testowego do zestawu pociągów i zaszkodzić wydajności modelu.

Jeśli chcesz wprowadzić własne dane treningowe, upewnij się, że są to dane tabelaryczne w formacie CSV, prześlij dane do Usługa Amazon Simple Storage (Amazon S3) i edytuj ścieżkę obiektu S3 w kodzie notatnika.

Jeśli Twoje dane zawierają kolumny kategorialne z wartościami nienumerycznymi, musisz zakodować te wartości na gorąco (używając na przykład OneHotEncoder sklearna), ponieważ algorytm XGBoost obsługuje tylko dane liczbowe.

Wytrenuj nienadzorowany model Losowo Ciętego Lasu

W scenariuszu wykrywania oszustw zwykle mamy bardzo mało przykładów oznaczonych etykietami, a oszustwo oznaczające etykietę może zająć dużo czasu i wysiłku. Dlatego chcemy również wydobyć informacje z nieoznakowanych danych, które mamy pod ręką. Robimy to za pomocą algorytmu wykrywania anomalii, wykorzystując dużą nierównowagę danych, która jest powszechna w zestawach danych wykrywania oszustw.

Wykrywanie anomalii to forma nienadzorowanej nauki, w której staramy się identyfikować przykłady anomalii wyłącznie na podstawie ich cech charakterystycznych. Random Cut Forest to najnowocześniejszy algorytm wykrywania anomalii, który jest zarówno dokładny, jak i skalowalny. Z każdym przykładem danych RCF wiąże wynik anomalii.

Używamy wbudowanego algorytmu RCF w programie SageMaker do trenowania modelu wykrywania anomalii w naszym uczącym zestawie danych, a następnie dokonujemy prognoz na naszym testowym zestawie danych.

Najpierw badamy i wykreślamy przewidywane wyniki anomalii dla pozytywnych (oszukańczych) i negatywnych (nieoszukańczych) przykładów oddzielnie, ponieważ liczby pozytywnych i negatywnych przykładów znacznie się różnią. Spodziewamy się, że pozytywne (oszukańcze) przykłady będą miały stosunkowo wysokie wyniki anomalii, a negatywne (nieoszukane) będą miały niskie wyniki anomalii. Z histogramów możemy zobaczyć następujące wzorce:

Prawie połowa pozytywnych przykładów (lewy histogram) ma wynik anomalii wyższy niż 0.9, podczas gdy większość negatywnych przykładów (prawy histogram) ma wynik anomalii niższy niż 0.85.
Algorytm uczenia nienadzorowanego RCF ma ograniczenia w dokładnej identyfikacji fałszywych i nieoszukańczych przykładów. Dzieje się tak, ponieważ nie są używane żadne informacje na etykiecie. Rozwiązujemy ten problem, zbierając informacje o etykiecie i używając w późniejszych krokach algorytmu uczenia nadzorowanego.

Następnie zakładamy bardziej rzeczywisty scenariusz, w którym klasyfikujemy każdy przykład testowy jako pozytywny (oszukańczy) lub negatywny (nie będący oszustwem) na podstawie jego wyniku anomalii. Histogram punktacji wykreślamy dla wszystkich przykładów testowych w następujący sposób, wybierając punkt odcięcia 1.0 (na podstawie wzoru pokazanego na histogramie) do klasyfikacji. W szczególności, jeśli wynik anomalii przykładu jest mniejszy lub równy 1.0, jest on klasyfikowany jako ujemny (nieoszukańczy). W przeciwnym razie przykład jest klasyfikowany jako pozytywny (oszukańczy).

Na koniec porównujemy wynik klasyfikacji z etykietami prawdy podstawowej i obliczamy metryki oceny. Ponieważ nasz zbiór danych jest niezrównoważony, używamy metryk oceny zrównoważona dokładność, Wynik Kappa Cohena, Wynik F1, AUC ROC, ponieważ uwzględniają częstotliwość każdej klasy w danych. W przypadku wszystkich tych wskaźników większa wartość wskazuje na lepszą skuteczność predykcyjną. Zauważ, że w tym kroku nie możemy jeszcze obliczyć ROC AUC, ponieważ nie ma szacowanego prawdopodobieństwa dla dodatnich i ujemnych klas z modelu RCF w każdym przykładzie. Obliczamy tę metrykę w późniejszych krokach przy użyciu algorytmów uczenia nadzorowanego.

.	RCF
Zrównoważona dokładność	0.560023
Cohena Kappa	0.003917
F1	0.007082
AUC ROC	-

Na tym etapie widzimy, że model nienadzorowany może już osiągnąć pewien rozdział między klasami, z wyższymi wynikami anomalii skorelowanymi z fałszywymi przykładami.

Trenuj model XGBoost za pomocą wbudowanego schematu ważenia

Po zebraniu odpowiedniej ilości oznaczonych danych treningowych możemy użyć nadzorowanego algorytmu uczenia się, aby odkryć relacje między funkcjami a klasami. Wybraliśmy algorytm XGBoost, ponieważ ma on udokumentowane osiągnięcia, jest wysoce skalowalny i może poradzić sobie z brakującymi danymi. Tym razem musimy poradzić sobie z brakiem równowagi danych, w przeciwnym razie klasa większości (nieoszukańcze lub negatywne przykłady) zdominuje proces uczenia się.

Szkolimy i wdrażamy nasz pierwszy nadzorowany model przy użyciu wbudowanego w SageMaker kontenera algorytmu XGBoost. To jest nasz model podstawowy. Aby poradzić sobie z brakiem równowagi danych, używamy hiperparametru scale_pos_weight, który skaluje wagi przykładów klas pozytywnych względem przykładów klas negatywnych. Ponieważ zestaw danych jest mocno przekrzywiony, ustawiamy ten hiperparametr na konserwatywną wartość: sqrt(num_nonfraud/num_fraud).

Szkolimy i wdrażamy model w następujący sposób:

Pobierz identyfikator URI kontenera SageMaker XGBoost.
Ustaw hiperparametry, których chcemy użyć do uczenia modelu, w tym ten, o którym wspomnieliśmy, który obsługuje nierównowagę danych, scale_pos_weight.
Utwórz estymator XGBoost i wytrenuj go za pomocą naszego zestawu danych pociągów.
Wdróż wytrenowany model XGBoost w zarządzanym punkcie końcowym programu SageMaker.
Oceń ten model podstawowy za pomocą naszego testowego zestawu danych.

Następnie oceniamy nasz model za pomocą tych samych czterech metryk, o których wspomniano w ostatnim kroku. Tym razem możemy również obliczyć metrykę ROC AUC.

.	RCF	XGBoost
Zrównoważona dokładność	0.560023	0.847685
Cohena Kappa	0.003917	0.743801
F1	0.007082	0.744186
AUC ROC	-	0.983515

Widzimy, że nadzorowana metoda uczenia XGBoost ze schematem ważenia (za pomocą hiperparametru) scale_pos_weight) osiąga znacznie lepsze wyniki niż metoda uczenia się nienadzorowanego RCF. Jednak wciąż jest miejsce na poprawę wydajności. W szczególności podniesienie wyniku Kappa Cohena powyżej 0.8 byłoby ogólnie bardzo korzystne.

Oprócz metryk jednowartościowych warto również przyjrzeć się metrykom wskazującym wydajność na klasę. Na przykład macierz pomyłek, precyzja według klasy, przywołanie i wynik F1 mogą dostarczyć więcej informacji o wydajności naszego modelu.

.	precyzja	odwołanie	wynik f1	wsparcie
brak oszustw	1.00	1.00	1.00	28435
oszustwo	0.80	0.70	0.74	46

Wysyłaj ruch testowy do punktu końcowego przez Lambda

Aby zademonstrować, jak korzystać z naszych modeli w systemie produkcyjnym, zbudowaliśmy REST API z Brama Amazon API i funkcja Lambda. Gdy aplikacje klienckie wysyłają żądania wnioskowania HTTP do interfejsu API REST, który wyzwala funkcję Lambda, która z kolei wywołuje punkty końcowe modeli RCF i XGBoost i zwraca prognozy z modeli. Możesz odczytać kod funkcji Lambda i monitorować wywołania na konsoli Lambda.

Stworzyliśmy również skrypt w języku Python, który wysyła żądania wnioskowania HTTP do interfejsu API REST, używając naszych danych testowych jako danych wejściowych. Aby zobaczyć, jak to zostało zrobione, sprawdź generate_endpoint_traffic.py plik w kodzie źródłowym rozwiązania. Dane wyjściowe prognozowania są rejestrowane w zasobniku S3 za pośrednictwem Wąż strażacki Amazon Kinesis Data strumień dostawy. Możesz znaleźć nazwę docelowego zasobnika S3 w konsoli Kinesis Data Firehose i sprawdzić wyniki prognozy w zasobniku S3.

Trenuj model XGBoost za pomocą techniki nadpróbkowania SMOTE

Teraz, gdy mamy już model bazowy korzystający z XGBoost, możemy sprawdzić, czy techniki próbkowania zaprojektowane specjalnie dla problemów z niezrównoważeniem mogą poprawić wydajność modelu. Używamy Nadpróbkowanie z mniejszości syntetycznej (SMOTE), która nadpróbkuje klasę mniejszościową, interpolując nowe punkty danych między istniejącymi.

Kroki są następujące:

Użyj SMOTE, aby nadpróbkować klasę mniejszościową (klasę oszukańczą) naszego zestawu danych pociągu. SMOTE nadpróbkowuje klasę mniejszościową z około 0.17–50%. Zauważ, że jest to przypadek skrajnego nadpróbkowania klasy mniejszości. Alternatywą byłoby użycie mniejszego współczynnika resamplingu, na przykład posiadanie jednej próbki klasy mniejszościowej na każde sqrt(non_fraud/fraud) próbka większościowa lub przy użyciu bardziej zaawansowanych technik resamplingu. Aby uzyskać więcej opcji nadpróbkowania, zobacz Porównaj samplery z nadpróbkowaniem.
Zdefiniuj hiperparametry do uczenia drugiego XGBoost, tak aby scale_pos_weight zostało usunięte, a inne hiperparametry pozostały takie same, jak podczas uczenia modelu bazowego XGBoost. Nie musimy już obsługiwać braku równowagi danych za pomocą tego hiperparametru, ponieważ zrobiliśmy to już z SMOTE.
Trenuj drugi model XGBoost za pomocą nowych hiperparametrów w przetworzonym przez SMOTE zestawie danych pociągu.
Wdróż nowy model XGBoost w zarządzanym punkcie końcowym programu SageMaker.
Oceń nowy model za pomocą testowego zestawu danych.

Oceniając nowy model, widzimy, że dzięki SMOTE XGBoost osiąga lepszą wydajność przy zrównoważonej dokładności, ale nie w wynikach Kappa Cohena i F1. Powodem tego jest to, że SMOTE tak bardzo nadpróbkował klasę oszustw, że zwiększyło jej nakładanie się w przestrzeni funkcji z przypadkami niebędącymi oszustwami. Ponieważ Kappa Cohena przywiązuje większą wagę do fałszywych trafień niż zrównoważona dokładność, metryka znacznie spada, podobnie jak precyzja i wynik F1 w przypadku oszustw.

.	RCF	XGBoost	XGBoost SMOTE
Zrównoważona dokładność	0.560023	0.847685	0.912657
Cohena Kappa	0.003917	0.743801	0.716463
F1	0.007082	0.744186	0.716981
AUC ROC	-	0.983515	0.967497

Możemy jednak przywrócić równowagę między metrykami, dostosowując próg klasyfikacji. Do tej pory używaliśmy 0.5 jako progu do oznaczania, czy punkt danych jest fałszywy, czy nie. Po eksperymentowaniu z różnymi progami od 0.1-0.9 widzimy, że Kappa Cohena rośnie wraz z progiem, bez znaczącej utraty zbalansowanej dokładności.

Dodaje to użyteczną kalibrację do naszego modelu. Możemy zastosować niski próg, jeśli nie pominięcie żadnych fałszywych przypadków (fałszywych wyników negatywnych) jest naszym priorytetem, lub możemy zwiększyć próg, aby zminimalizować liczbę fałszywych alarmów.

Trenuj optymalny model XGBoost z HPO

W tym kroku pokazujemy, jak poprawić wydajność modelu, trenując nasz trzeci model XGBoost z optymalizacją hiperparametrów. Podczas budowania złożonych systemów ML ręczne eksplorowanie wszystkich możliwych kombinacji wartości hiperparametrów jest niepraktyczne. Funkcja HPO w programie SageMaker może przyspieszyć Twoją produktywność, próbując w Twoim imieniu wielu wariantów modelu. Automatycznie wyszukuje najlepszy model, skupiając się na najbardziej obiecujących kombinacjach wartości hiperparametrów w określonych zakresach.

Proces HPO wymaga zestawu danych walidacyjnych, więc najpierw podzieliliśmy nasze dane szkoleniowe na zestawy danych uczących i walidacyjnych, używając próbkowanie warstwowe. Aby rozwiązać problem nierównowagi danych, ponownie używamy schematu ważenia XGBoost, ustawiając scale_pos_weight hiperparametr do sqrt(num_nonfraud/num_fraud).

Tworzymy estymator XGBoost za pomocą wbudowanego kontenera algorytmu XGBoost w programie SageMaker i określamy obiektywną metrykę oceny oraz zakresy hiperparametrów, w których chcielibyśmy eksperymentować. Dzięki nim tworzymy następnie HyperparametrTuner i rozpocznij zadanie dostrajania HPO, które trenuje wiele modeli równolegle, szukając optymalnych kombinacji hiperparametrów.

Po zakończeniu zadania dostrajania możemy wyświetlić jego raport analityczny i sprawdzić hiperparametry każdego modelu, informacje dotyczące zadania szkoleniowego i jego wydajność względem obiektywnej metryki oceny.

Następnie wdrażamy najlepszy model i oceniamy go za pomocą naszego testowego zestawu danych.

Oceń i porównaj wydajność wszystkich modeli na tych samych danych testowych

Teraz mamy wyniki oceny wszystkich czterech modeli: RCF, XGBoost baseline, XGBoost z SMOTE i XGBoost z HPO. Porównajmy ich wydajność.

.	RCF	XGBoost	XGBoost z SMOTE	XGBoost z HPO
Zrównoważona dokładność	0.560023	0.847685	0.912657	0.902156
Cohena Kappa	0.003917	0.743801	0.716463	0.880778
F1	0.007082	0.744186	0.716981	0.880952
AUC ROC	-	0.983515	0.967497	0.981564

Widzimy, że XGBoost z HPO osiąga jeszcze lepszą wydajność niż przy metodzie SMOTE. W szczególności wyniki Kappa Cohena i F1 wynoszą ponad 0.8, co wskazuje na optymalną wydajność modelu.

Sprzątać

Po zakończeniu korzystania z tego rozwiązania upewnij się, że usuniesz wszystkie niechciane zasoby AWS, aby uniknąć niezamierzonych opłat. w Usuń rozwiązanie sekcji na karcie rozwiązania, wybierz Usuń wszystkie zasoby aby usunąć zasoby utworzone automatycznie podczas uruchamiania tego rozwiązania.

Alternatywnie można użyć Tworzenie chmury AWS aby usunąć wszystkie standardowe zasoby utworzone automatycznie przez rozwiązanie i notes. Aby skorzystać z tego podejścia, w konsoli AWS CloudFormation znajdź stos CloudFormation, którego opis zawiera wykrywanie oszustw przy użyciu uczenia maszynowego, i usuń go. To jest stos nadrzędny, a wybranie tego stosu spowoduje automatyczne usunięcie stosów zagnieżdżonych.

W obu przypadkach nadal musisz ręcznie usunąć wszelkie dodatkowe zasoby, które mogłeś utworzyć w tym notatniku. Niektóre przykłady obejmują dodatkowe zasobniki S3 (oprócz zasobnika domyślnego rozwiązania), dodatkowe punkty końcowe SageMaker (przy użyciu niestandardowej nazwy) i dodatkowe Rejestr elastycznego pojemnika Amazon (Amazon ECR).

Wnioski

W tym poście pokazaliśmy, jak zbudować rdzeń dynamicznego, samodoskonalącego się i łatwego w utrzymaniu systemu wykrywania oszustw związanych z kartami kredytowymi przy użyciu ML z SageMaker. Zbudowaliśmy, przeszkoliliśmy i wdrożyliśmy nienadzorowany model wykrywania anomalii RCF, nadzorowany model XGBoost jako punkt odniesienia, kolejny nadzorowany model XGBoost z SMOTE w celu rozwiązania problemu braku równowagi danych oraz ostateczny model XGBoost zoptymalizowany za pomocą HPO. Omówiliśmy, jak poradzić sobie z brakiem równowagi danych i wykorzystać w rozwiązaniu własne dane. Zamieściliśmy również przykładowe wdrożenie REST API z API Gateway i Lambda, aby zademonstrować, jak wykorzystać system w istniejącej infrastrukturze biznesowej.

Aby samemu wypróbować, otwórz Studio SageMaker i uruchom rozwiązanie JumpStart. Aby dowiedzieć się więcej o rozwiązaniu, sprawdź jego Repozytorium GitHub.

O autorach

Xiaoli Shen jest członkiem społeczności rozwiązań technicznych i uczenia maszynowego (TFC) w Amazon Web Services. Koncentruje się na pomaganiu klientom projektującym architekturę w chmurze i wykorzystywaniu usług AWS do czerpania wartości biznesowej. Przed dołączeniem do AWS była kierownikiem technicznym i starszym inżynierem pełnego stosu budującym systemy rozproszone intensywnie korzystające z danych w chmurze.

Dr Xin Huang jest naukowcem w zakresie wbudowanych algorytmów Amazon SageMaker JumpStart i Amazon SageMaker. Koncentruje się na tworzeniu skalowalnych algorytmów uczenia maszynowego. Jego zainteresowania badawcze dotyczą przetwarzania języka naturalnego, wyjaśnialnego głębokiego uczenia się na danych tabelarycznych oraz solidnej analizy nieparametrycznego klastrowania przestrzenno-czasowego. Opublikował wiele artykułów na konferencjach ACL, ICDM, KDD oraz Royal Statistical Society: Series A.

Wedant Jain jest starszym architektem rozwiązań AI/ML, pomagającym klientom czerpać korzyści z ekosystemu uczenia maszynowego w AWS. Przed dołączeniem do AWS Vedant zajmował stanowiska ML/Data Science Specialty w różnych firmach, takich jak Databricks, Hortonworks (obecnie Cloudera) i JP Morgan Chase. Poza swoją pracą Vedant jest pasjonatem tworzenia muzyki, wykorzystywania nauki do prowadzenia sensownego życia i odkrywania pysznej kuchni wegetariańskiej z całego świata.

Znak czasu: 19 października 2022 r.19 października 2022 r.

Znak czasu: Września 20, 2022

Wykrywaj nieuczciwe transakcje za pomocą uczenia maszynowego z Amazon SageMaker

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Wymagania wstępne

Uruchom rozwiązanie

Zbadaj i przetwórz dane

Wytrenuj nienadzorowany model Losowo Ciętego Lasu

Trenuj model XGBoost za pomocą wbudowanego schematu ważenia

Wysyłaj ruch testowy do punktu końcowego przez Lambda

Trenuj model XGBoost za pomocą techniki nadpróbkowania SMOTE

Trenuj optymalny model XGBoost z HPO

Oceń i porównaj wydajność wszystkich modeli na tych samych danych testowych

Sprzątać

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Wykrywanie defektów na zdjęciach w wysokiej rozdzielczości przy użyciu dwuetapowych modeli Amazon Rekognition Custom Labels | Usługi internetowe Amazona

Zoptymalizuj hiperparametry za pomocą automatycznego dostrajania modelu Amazon SageMaker

Optymalna cena dla maksymalnego zysku dzięki Amazon SageMaker

Automatyczne dostrajanie modeli Amazon SageMaker obsługuje teraz awaryjne awaryjne instancje szkoleniowe SageMaker

Jak The Chefz serwuje idealny posiłek dzięki Amazon Personalizuj

Operacjonalizuj swoje notebooki Amazon SageMaker Studio jako zaplanowane zadania notebooków

Generuj prognozy zimnego startu dla produktów bez danych historycznych za pomocą Amazon Forecast, teraz nawet o 45% dokładniejsze

Przewidywanie rezygnacji przy użyciu wbudowanych algorytmów tabelarycznych Amazon SageMaker LightGBM, CatBoost, TabTransformer i AutoGluon-Tabular

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto