Detect Fraudulent Transactions Using Machine Learning With Amazon SageMaker

Újra kiadta Platón

Követő: 0

A vállalkozások évente több milliárd dollárt veszíthetnek a rosszindulatú felhasználók és a csalárd tranzakciók miatt. Ahogy egyre több üzleti tevékenység költözik az internetre, az online rendszerekben elkövetett csalások és visszaélések is nőnek. Az online csalások leküzdésére számos vállalkozás alkalmaz szabályalapú csalásészlelő rendszereket.

A hagyományos csalásfelderítő rendszerek azonban emberi szakemberek által kézzel készített szabályokon és szűrőkön alapulnak. A szűrők gyakran törékenyek lehetnek, és előfordulhat, hogy a szabályok nem rögzítik a csaló jelek teljes spektrumát. Továbbá, miközben a csaló magatartás folyamatosan fejlődik, az előre meghatározott szabályok és szűrők statikus természete megnehezíti a hagyományos csalásfelderítő rendszerek hatékony karbantartását és fejlesztését.

Ebben a bejegyzésben megmutatjuk, hogyan építhetsz dinamikus, önfejlesztő és karbantartható hitelkártya-csalás-észlelő rendszert gépi tanulással (ML) Amazon SageMaker.

Alternatív megoldásként, ha egy teljesen felügyelt szolgáltatást keres, amellyel testreszabott csalásészlelési modelleket készíthet kód írása nélkül, javasoljuk, hogy nézze meg Amazon csalásészlelő. Az Amazon Fraud Detector lehetővé teszi az ML tapasztalattal nem rendelkező ügyfelek számára, hogy automatizálják az adataikra szabott csalásészlelési modelleket, kihasználva az AWS és az Amazon.com több mint 20 éves csalásészlelési szakértelmét.

Megoldás áttekintése

Ez a megoldás a SageMaker segítségével építi fel a hitelkártya-csalás-észlelő rendszer magját. Kezdjük egy felügyelet nélküli anomália-észlelési modell betanításával az algoritmus segítségével Véletlenszerűen kivágott erdő (RCF). Ezután két felügyelt osztályozási modellt tanítunk az algoritmus segítségével XGBoost, az egyik alapmodell, a másik pedig előrejelzések készítéséhez, különböző stratégiákat használva az adatok szélsőséges osztályegyensúlyának kezelésére. Végül egy optimális XGBoost modellt tanítunk hiperparaméter optimalizálás (HPO) a modell teljesítményének további javítása érdekében.

A mintaadatkészlethez a nyilvános, anonimizált hitelkártya-tranzakciókat használjuk adatbázisba amely eredetileg a. részeként jelent meg kutatás a Worldline és a Az ULB gépi tanulási csoportja (Université Libre de Bruxelles). Az áttekintésben azt is megbeszéljük, hogyan szabhatja testre a megoldást saját adatainak használatára.

A megoldás kimenetei a következők:

Egy felügyelet nélküli SageMaker RCF modell. A modell minden tranzakcióhoz anomália pontszámot ad ki. Az alacsony pontszám azt jelzi, hogy a tranzakció normálisnak minősül (nem csalárd). A magas érték azt jelzi, hogy a tranzakció csaló. Az alacsony és magas definíciók az alkalmazástól függenek, de a bevett gyakorlat azt sugallja, hogy az átlagos pontszámtól három standard eltérést meghaladó pontszámok anomáliának minősülnek.
Egy felügyelt SageMaker XGBoost modellt a beépített súlyozási sémájával képezték ki a rendkívül kiegyensúlyozatlan adatprobléma megoldására.
Egy felügyelt SageMaker XGBoost modell, amelyet a Szintetikus kisebbségi túlmintavételi technika (SMOTE).
Egy betanított SageMaker XGBoost modell HPO-val.
Előrejelzések az egyes tranzakciók csalárdságának valószínűségére. Ha egy tranzakció becsült valószínűsége meghaladja a küszöbértéket, az csalónak minősül.

Annak bemutatására, hogyan használhatja ezt a megoldást meglévő üzleti infrastruktúráiban, egy példát is mellékelünk a telepített modellvégpont REST API-hívásaira, a AWS Lambda az RCF és az XGBoost modellek elindításához.

A következő ábra a megoldás architektúráját mutatja be.

Előfeltételek

Ha saját fiókjában szeretné kipróbálni a megoldást, győződjön meg arról, hogy a következőket teljesítette:

Amikor a Studio-példány készen áll, elindíthatja a Studio-t, és hozzáférhet a JumpStarthoz. A JumpStart megoldások nem érhetők el a SageMaker notebook példányokban, és nem érheti el őket a SageMaker API-kon vagy a AWS parancssori interfész (AWS CLI).

Indítsa el a megoldást

A megoldás elindításához hajtsa végre a következő lépéseket:

Nyissa meg a JumpStartot a JumpStart indító segítségével Első lépések szakaszban, vagy válassza a JumpStart ikont a bal oldalsávon.
Alatt Megoldások, választ Rosszindulatú felhasználók és tranzakciók észlelése a megoldás megnyitásához egy másik Studio lapon.
A megoldás lapon válassza a lehetőséget Indít a megoldás elindításához.

A megoldás erőforrásai ki vannak osztva, és megnyílik egy másik lap, amely a telepítés előrehaladását mutatja. Amikor a telepítés befejeződött, egy Nyissa meg a Jegyzetfüzetet gomb jelenik meg.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Nyissa meg a Jegyzetfüzetet a megoldás jegyzetfüzetének megnyitásához a Studio alkalmazásban.

Vizsgálja meg és dolgozza fel az adatokat

Az alapértelmezett adatkészlet csak numerikus jellemzőket tartalmaz, mivel az eredeti jellemzők a használatával lettek átalakítva Főkomponens-elemzés (PCA) a felhasználók adatainak védelme érdekében. Ennek eredményeként az adatkészlet 28 PCA-összetevőt (V1–V28) és két olyan szolgáltatást tartalmaz, amelyeket nem alakítottak át, a mennyiséget és az időt. Az összeg a tranzakció összegére vonatkozik, az idő pedig az adatokban szereplő bármely tranzakció és az első tranzakció között eltelt másodperc.

Az Osztály oszlop azt mutatja, hogy egy tranzakció csaló-e vagy sem.

Láthatjuk, hogy a többség nem csaló, mert az összesen 284,807 492 példából csak 0.173 (XNUMX%) csalás. Ez a szélsőséges osztálykiegyensúlyozatlanság esete, ami gyakori a csalásfelderítési forgatókönyvekben.

Ezután előkészítjük adatainkat a betöltéshez és a betanításhoz. Az adatokat egy vonatkészletre és egy teszthalmazra bontjuk, az előbbit a betanításra, az utóbbit pedig a modellünk teljesítményének értékelésére használjuk. Fontos az adatok felosztása, mielőtt bármilyen technikát alkalmazna az osztálykiegyensúlyozatlanság enyhítésére. Ellenkező esetben a tesztkészletből információkat szivároghatunk a vonatkészletbe, és ronthatjuk a modell teljesítményét.

Ha saját edzésadatait szeretné bevinni, győződjön meg róla, hogy táblázatos adatok CSV formátumban, töltse fel az adatokat egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) tárolót, és szerkessze az S3 objektum elérési útját a notebook kódjában.

Ha az adatok nem numerikus értékeket tartalmazó kategorikus oszlopokat tartalmaznak, ezeket az értékeket egyenként kell kódolnia (pl. sklearn OneHotEncoder), mert az XGBoost algoritmus csak numerikus adatokat támogat.

Taníts egy felügyelet nélküli Random Cut Forest modellt

Csalásfelderítési forgatókönyv esetén általában nagyon kevés címkézett példánk van, és a csalás felcímkézése sok időt és erőfeszítést igényel. Ezért szeretnénk információt kinyerni a rendelkezésre álló címkézetlen adatokból is. Ezt egy anomália-észlelő algoritmus segítségével tesszük, kihasználva a csalásészlelési adatkészletekben gyakori magas adategyensúlytalanságot.

Az anomália-detektálás a felügyelet nélküli tanulás egyik formája, ahol az anomáliás példákat kizárólag azok jellemzői alapján próbáljuk azonosítani. A Random Cut Forest egy korszerű anomália-észlelő algoritmus, amely egyszerre pontos és méretezhető. Az RCF minden adatpéldához rendel egy anomália pontszámot.

A SageMaker beépített RCF algoritmusát használjuk egy anomália-észlelési modell betanításához a betanítási adatkészletünkön, majd előrejelzéseket készítünk a tesztadatkészletünkön.

Először külön vizsgáljuk meg és ábrázoljuk a pozitív (csalásos) és negatív (nem csaló) példák előre jelzett anomália pontszámait, mivel a pozitív és negatív példák száma jelentősen eltér. A pozitív (csalásos) példáktól viszonylag magas, a negatív (nem csaló) példáknál alacsony anomália pontszámot várunk. A hisztogramokból a következő mintákat láthatjuk:

A pozitív példák csaknem fele (bal oldali hisztogram) 0.9-nél magasabb anomália pontszámot mutat, míg a legtöbb negatív példában (jobb oldali hisztogram) az anomália pontszáma 0.85-nél alacsonyabb.
A felügyelet nélküli RCF tanulási algoritmusnak korlátai vannak a csaló és nem csaló példák pontos azonosítására. Ennek az az oka, hogy nem használnak címkére vonatkozó információkat. Ezt a problémát úgy kezeljük, hogy összegyűjtjük a címkeinformációkat, és a későbbi lépésekben felügyelt tanulási algoritmust használunk.

Ezután feltételezünk egy valósabb forgatókönyvet, ahol minden tesztpéldát pozitív (csalás) vagy negatív (nem csaló) kategóriába sorolunk az anomália pontszáma alapján. Az összes tesztpélda pontszám-hisztogramját az alábbiak szerint ábrázoljuk, és az osztályozáshoz 1.0-es határértéket választunk (a hisztogramon látható minta alapján). Pontosabban, ha egy példa anomália pontszáma kisebb vagy egyenlő, mint 1.0, akkor negatívnak (nem csalárdnak) minősül. Ellenkező esetben a példa pozitívnak (csalásnak) minősül.

Végül összehasonlítjuk az osztályozás eredményét az alapigazság-címkékkel, és kiszámítjuk az értékelési mérőszámokat. Mivel adatkészletünk kiegyensúlyozatlan, az értékelési mérőszámokat használjuk kiegyensúlyozott pontosság, Cohen Kappa-pontszáma, F1 pontszámés ROC AUC, mert figyelembe veszik az egyes osztályok gyakoriságát az adatokban. Mindezen mérőszámok esetében a nagyobb érték jobb előrejelző teljesítményt jelez. Vegye figyelembe, hogy ebben a lépésben még nem tudjuk kiszámítani a ROC AUC értékét, mert nincs becsült valószínűsége a pozitív és negatív osztályoknak az RCF modellből az egyes példákban. Ezt a mérőszámot későbbi lépésekben, felügyelt tanulási algoritmusok segítségével számítjuk ki.

.	RCF
Kiegyensúlyozott pontosság	0.560023
Cohen Kappa	0.003917
F1	0.007082
ROC AUC	-

Ebből a lépésből láthatjuk, hogy a felügyelet nélküli modell már el tud érni bizonyos elkülönülést az osztályok között, magasabb anomália pontszámokkal korrelálva a csaló példákkal.

Tanítson egy XGBoost modellt a beépített súlyozási sémával

Miután összegyűjtöttünk megfelelő mennyiségű címkézett képzési adatot, egy felügyelt tanulási algoritmus segítségével felfedezhetjük a funkciók és az osztályok közötti kapcsolatokat. Azért választottuk az XGBoost algoritmust, mert bevált, jól skálázható, és képes kezelni a hiányzó adatokat. Ezúttal az adatkiegyensúlyozatlanságot kell kezelnünk, különben a többségi osztály (a nem csaló, vagy negatív példák) uralja a tanulást.

Az első felügyelt modellünket a SageMaker beépített XGBoost algoritmustárolójával betanítjuk és telepítjük. Ez az alapmodellünk. Az adatkiegyensúlyozatlanság kezelésére a hiperparamétert használjuk scale_pos_weight, amely skálázza a pozitív osztálypéldák súlyát a negatív osztálypéldákhoz képest. Mivel az adatkészlet erősen torz, ezt a hiperparamétert konzervatív értékre állítjuk be: sqrt(num_nonfraud/num_fraud).

A modellt az alábbiak szerint képezzük ki és alkalmazzuk:

A SageMaker XGBoost tároló URI lekérése.
Állítsa be a modellképzéshez használni kívánt hiperparamétereket, beleértve az általunk említettet, amely az adatkiegyensúlyozatlanságot kezeli, scale_pos_weight.
Hozzon létre egy XGBoost becslőt, és képezze be vonatadatkészletünkkel.
Telepítse a betanított XGBoost modellt egy SageMaker által felügyelt végponton.
Értékelje ezt az alapmodellt tesztadatkészletünkkel.

Ezután a modellünket ugyanazzal a négy mérőszámmal értékeljük ki, mint az utolsó lépésben. Ezúttal a ROC AUC mérőszámát is kiszámíthatjuk.

.	RCF	XGBoost
Kiegyensúlyozott pontosság	0.560023	0.847685
Cohen Kappa	0.003917	0.743801
F1	0.007082	0.744186
ROC AUC	-	0.983515

Láthatjuk, hogy egy felügyelt XGBoost tanulási módszer a súlyozási sémával (a hiperparaméter használatával scale_pos_weight) lényegesen jobb teljesítményt ér el, mint a felügyelet nélküli RCF tanulási módszer. A teljesítményen azonban még van mit javítani. Különösen a Cohen-féle Kappa-pontszám 0.8 fölé emelése lenne általában nagyon kedvező.

Az egyértékű mérőszámok mellett hasznos az osztályonkénti teljesítményt jelző mérőszámok megtekintése is. Például a zavaros mátrix, az osztályonkénti precizitás, a visszahívás és az F1-pontszám több információt nyújthat modellünk teljesítményéről.

.	pontosság	visszahívás	f1-pontszám	támogatás
nem csalás	1.00	1.00	1.00	28435
csalás	0.80	0.70	0.74	46

Továbbra is küldje a tesztforgalmat a végpontra a Lambdán keresztül

A modellek éles rendszerben való használatának bemutatására egy REST API-t építettünk Amazon API átjáró és egy lambda funkciót. Amikor az ügyfélalkalmazások HTTP-következtetési kéréseket küldenek a REST API-nak, ami elindítja a Lambda függvényt, amely viszont meghívja az RCF és XGBoost modell végpontjait, és visszaadja a modellek előrejelzéseit. A Lambda-konzolon olvashatja a Lambda funkciókódot és figyelheti a hívásokat.

Létrehoztunk egy Python-szkriptet is, amely HTTP-következtetési kéréseket küld a REST API-nak, a tesztadatokkal bemeneti adatként. Ha látni szeretné, hogyan történt ez, ellenőrizze a generate_endpoint_traffic.py fájlt a megoldás forráskódjában. Az előrejelzési kimenetek egy S3 tárolóba kerülnek naplózásra egy Amazon Kinesis Data Firehose szállítási folyam. A cél S3 vödör nevét megtalálhatja a Kinesis Data Firehose konzolon, és ellenőrizheti az előrejelzés eredményeit az S3 tárolóban.

Tanítson egy XGBoost modellt a SMOTE túlmintavételezési technikával

Most, hogy van egy alapmodellünk az XGBoost használatával, láthatjuk, hogy a kifejezetten a kiegyensúlyozatlan problémákra tervezett mintavételi technikák javíthatják-e a modell teljesítményét. Mi használjuk Szintetikus kisebbségi túlmintavétel (SMOTE), amely túlmintázza a kisebbségi osztályt azáltal, hogy új adatpontokat interpolál a meglévők közé.

A lépések a következők:

Használja a SMOTE-ot a vonatadatkészletünk kisebbségi osztályának (a csaló osztálynak) túlmintázásához. A SMOTE mintegy 0.17–50%-ról túlmintázza a kisebbségi osztályt. Ne feledje, hogy ez a kisebbségi osztály szélsőséges túlmintavételének esete. Alternatív megoldásként kisebb újramintavételi arányt használunk, például minden egyes kisebbségi osztályhoz tartozó mintát sqrt(non_fraud/fraud) többségi minta, vagy fejlettebb újramintavételi technikák használatával. További túlzott mintavételi lehetőségekért lásd: Hasonlítsa össze a túlzott mintavételezésű mintavevőket.
Határozza meg a második XGBoost betanításának hiperparamétereit úgy, hogy a scale_pos_weight eltávolításra kerüljön, és a többi hiperparaméter ugyanaz maradjon, mint az XGBoost alapmodell betanításakor. Ezzel a hiperparaméterrel már nem kell kezelnünk az adatkiegyensúlyozatlanságot, mert ezt már megtettük a SMOTE-val.
Tanítsa meg a második XGBoost modellt az új hiperparaméterekkel a SMOTE feldolgozott vonatadatkészleten.
Telepítse az új XGBoost modellt egy SageMaker által felügyelt végponton.
Értékelje az új modellt a tesztadatkészlettel.

Az új modell értékelésekor láthatjuk, hogy a SMOTE-val az XGBoost jobb teljesítményt ér el kiegyensúlyozott pontosságon, de nem Cohen Kappa és F1 pontszámainál. Ennek az az oka, hogy a SMOTE annyira túlmintázta a csalási osztályt, hogy megnövelte az átfedést a szolgáltatásterében a nem csalási esetekkel. Mivel a Cohen-féle Kappa nagyobb súlyt ad a hamis pozitívnak, mint a kiegyensúlyozott pontosság, a mérőszám jelentősen csökken, csakúgy, mint a csalási esetek pontossága és F1-pontszáma.

.	RCF	XGBoost	XGBoost SMOTE
Kiegyensúlyozott pontosság	0.560023	0.847685	0.912657
Cohen Kappa	0.003917	0.743801	0.716463
F1	0.007082	0.744186	0.716981
ROC AUC	-	0.983515	0.967497

Az osztályozási küszöb módosításával azonban visszahozhatjuk a mérőszámok közötti egyensúlyt. Eddig 0.5-öt használtunk küszöbként annak címkézésére, hogy egy adatpont csaló-e vagy sem. Különböző 0.1 és 0.9 közötti küszöbértékek kísérletezése után láthatjuk, hogy a Cohen-féle kappa folyamatosan növekszik a küszöbértékkel együtt, anélkül, hogy a kiegyensúlyozott pontosság jelentős veszteséget szenvedne.

Ez hasznos kalibrációt ad a modellünkhöz. Használhatunk alacsony küszöböt, ha a csalárd esetek (hamis negatívok) hiánya a prioritásunk, vagy növelhetjük a küszöböt, hogy minimalizáljuk a hamis pozitív esetek számát.

Tanítson egy optimális XGBoost modellt a HPO-val

Ebben a lépésben bemutatjuk, hogyan javítható a modell teljesítménye a harmadik XGBoost modellünk hiperparaméter-optimalizálással történő betanításával. Összetett ML-rendszerek felépítésekor a hiperparaméterértékek összes lehetséges kombinációjának manuális feltárása nem praktikus. A SageMaker HPO funkciója felgyorsíthatja a termelékenységet azáltal, hogy egy modell számos változatát kipróbálja az Ön nevében. Automatikusan megkeresi a legjobb modellt azáltal, hogy a hiperparaméterértékek legígéretesebb kombinációira összpontosít az Ön által megadott tartományokon belül.

A HPO folyamatnak szüksége van egy érvényesítési adatkészletre, ezért először tovább bontjuk képzési adatainkat képzési és érvényesítési adatkészletekre. rétegelt mintavétel. Az adatkiegyensúlyozatlanság problémájának megoldásához ismét az XGBoost súlyozási sémáját használjuk, és beállítjuk a scale_pos_weight hiperparaméter ahhoz sqrt(num_nonfraud/num_fraud).

Létrehozunk egy XGBoost becslőt a SageMaker beépített XGBoost algoritmus tárolójával, és megadjuk az objektív értékelési metrikát és a hiperparaméter-tartományokat, amelyeken belül kísérletezni szeretnénk. Ezekkel aztán létrehozzuk a HyperparameterTuner és indítsa el a HPO tuning munkát, amely több modellt tanít párhuzamosan, optimális hiperparaméter-kombinációkat keresve.

Amikor a hangolási feladat befejeződött, láthatjuk annak analitikai jelentését, és megvizsgálhatjuk az egyes modellek hiperparamétereit, a betanítási feladat információit és teljesítményét az objektív értékelési mutatóhoz képest.

Ezután telepítjük a legjobb modellt, és kiértékeljük a tesztadatkészletünkkel.

Értékelje és hasonlítsa össze az összes modell teljesítményét ugyanazon tesztadatokon

Most mind a négy modell értékelési eredményei megvannak: RCF, XGBoost alapvonal, XGBoost SMOTE-val és XGBoost HPO-val. Hasonlítsuk össze a teljesítményüket.

.	RCF	XGBoost	XGBoost SMOTE-val	XGBoost HPO-val
Kiegyensúlyozott pontosság	0.560023	0.847685	0.912657	0.902156
Cohen Kappa	0.003917	0.743801	0.716463	0.880778
F1	0.007082	0.744186	0.716981	0.880952
ROC AUC	-	0.983515	0.967497	0.981564

Láthatjuk, hogy az XGBoost a HPO-val még jobb teljesítményt ér el, mint a SMOTE módszerrel. Különösen Cohen Kappa-pontszámai és az F1 0.8 feletti, ami a modell optimális teljesítményét jelzi.

Tisztítsuk meg

Ha végzett ezzel a megoldással, győződjön meg arról, hogy törölt minden nem kívánt AWS-erőforrást, hogy elkerülje a nem kívánt költségeket. Ban,-ben Megoldás törlése szakaszt a Megoldás lapon, válassza ki Törölje az összes erőforrást a megoldás indításakor automatikusan létrehozott erőforrások törléséhez.

Alternatív megoldásként használhatja AWS felhőképződés a megoldás és a notebook által automatikusan létrehozott összes szabványos erőforrás törléséhez. Ennek a megközelítésnek a használatához az AWS CloudFormation konzolon keresse meg a CloudFormation-vermet, amelynek leírása csalásészlelést használó gépi tanulást tartalmaz, és törölje azt. Ez egy szülő verem, és a verem törlése automatikusan törli a beágyazott veremeket.

Mindkét megközelítés esetén továbbra is kézzel kell törölnie a jegyzetfüzetben esetleg létrehozott extra erőforrásokat. Néhány példa: extra S3 tárolók (a megoldás alapértelmezett tárolóján kívül), extra SageMaker végpontok (egyéni név használatával) és extra. Amazon Elastic Container Registry (Amazon ECR) adattárak.

Következtetés

Ebben a bejegyzésben megmutattuk, hogyan építheti fel egy dinamikus, önfejlesztő és karbantartható hitelkártya-csalás-észlelő rendszer magját az ML és a SageMaker használatával. Felépítettünk, betanítottunk és telepítettünk egy felügyelt RCF anomália-észlelési modellt, egy felügyelt XGBoost-modellt alapként, egy másik felügyelt XGBoost-modellt a SMOTE-val az adatkiegyensúlyozatlansági probléma megoldására, valamint egy végső XGBoost-modellt, amelyet HPO-val optimalizáltak. Megbeszéltük, hogyan lehet kezelni az adatkiegyensúlyozatlanságot, és hogyan használhatja fel saját adatait a megoldásban. Egy példa REST API-megvalósítást is mellékeltünk az API Gateway és a Lambda segítségével, hogy bemutassuk, hogyan kell használni a rendszert a meglévő üzleti infrastruktúrában.

Ha magad szeretnéd kipróbálni, nyissa meg SageMaker Stúdió és indítsa el a JumpStart megoldást. Ha többet szeretne megtudni a megoldásról, nézze meg azt GitHub tárház.

A szerzőkről

Xiaoli Shen az Amazon Web Services Solutions Architect and Machine Learning Technical Field Community (TFC) tagja. Arra összpontosít, hogy segítse a felhőben építkező ügyfeleket, és az AWS-szolgáltatásokat kihasználva üzleti értéket teremtsen. Mielőtt csatlakozott az AWS-hez, műszaki vezető és vezető full-stack mérnök volt, aki adatintenzív elosztott rendszereket épített fel a felhőn.

Dr. Xin Huang az Amazon SageMaker JumpStart és az Amazon SageMaker beépített algoritmusainak alkalmazott tudósa. A skálázható gépi tanulási algoritmusok fejlesztésére összpontosít. Kutatási területe a természetes nyelvi feldolgozás, a táblázatos adatok magyarázható mély tanulása és a nem-paraméteres tér-idő klaszterezés robusztus elemzése. Számos közleményt publikált az ACL, ICDM, KDD konferenciákon és a Royal Statistical Society: Series A folyóiratban.

Vedant Jain Sr. AI/ML Specialist Solutions Architect, aki segít az ügyfeleknek, hogy az AWS gépi tanulási ökoszisztémájából értéket merítsenek ki. Mielőtt csatlakozott az AWS-hez, Vedant ML/Data Science Specialty pozíciókat töltött be különböző cégeknél, mint például a Databricks, a Hortonworks (jelenleg Cloudera) és a JP Morgan Chase. Munkásságán kívül Vedant szenvedélyesen zenél, a Science segítségével értelmes életet él, és ízletes vegetáriánus konyhát fedez fel a világ minden tájáról.

Időbélyeg: Október 19, 2022Október 19, 2022

Időbélyeg: 20. szeptember 2022.

Észlelje a csaló tranzakciókat gépi tanulással az Amazon SageMaker segítségével

Újra kiadta Platón

Megoldás áttekintése

Előfeltételek

Indítsa el a megoldást

Vizsgálja meg és dolgozza fel az adatokat

Taníts egy felügyelet nélküli Random Cut Forest modellt

Tanítson egy XGBoost modellt a beépített súlyozási sémával

Továbbra is küldje a tesztforgalmat a végpontra a Lambdán keresztül

Tanítson egy XGBoost modellt a SMOTE túlmintavételezési technikával

Tanítson egy optimális XGBoost modellt a HPO-val

Értékelje és hasonlítsa össze az összes modell teljesítményét ugyanazon tesztadatokon

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Hibaészlelés a nagy felbontású képeken a kétlépcsős Amazon Rekognition egyedi címkék segítségével | Amazon webszolgáltatások

Optimalizálja a hiperparamétereket az Amazon SageMaker automatikus modellhangolásával

Optimális árképzés a maximális profit érdekében az Amazon SageMaker használatával

Az Amazon SageMaker Automatic Model Tuning mostantól támogatja a SageMaker Training Instance Fallback-eket

Hogyan szolgálja fel a The Chefz a tökéletes ételt az Amazon Personalize segítségével

Működtesse Amazon SageMaker Studio notebookjait ütemezett notebook munkákként

Hidegindítási előrejelzések generálása előzményadatok nélküli termékekhez az Amazon Forecast segítségével, most akár 45%-kal pontosabb

Lemorzsolódás előrejelzése az Amazon SageMaker beépített táblázatos algoritmusaival: LightGBM, CatBoost, TabTransformer és AutoGluon-Tabular

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók