Tunnista vilpilliset tapahtumat koneoppimisen avulla Amazon SageMaker PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Tunnista vilpilliset tapahtumat koneoppimisen avulla Amazon SageMakerin avulla

Yritykset voivat menettää miljardeja dollareita vuosittain haitallisten käyttäjien ja vilpillisten tapahtumien vuoksi. Yhä useamman liiketoiminnan siirtyessä verkkoon, myös petokset ja väärinkäytökset verkkojärjestelmissä ovat lisääntymässä. Verkkopetosten torjumiseksi monet yritykset ovat käyttäneet sääntöihin perustuvia petosten havaitsemisjärjestelmiä.

Perinteiset petosten havaitsemisjärjestelmät perustuvat kuitenkin ihmisasiantuntijoiden käsin laatimiin sääntöihin ja suodattimiin. Suodattimet voivat usein olla hauraita, eivätkä säännöt välttämättä kaappaa kaikkia vilpillisiä signaaleja. Lisäksi, vaikka petollinen käyttäytyminen kehittyy jatkuvasti, ennalta määritettyjen sääntöjen ja suodattimien staattinen luonne vaikeuttaa perinteisten petosten havaitsemisjärjestelmien tehokasta ylläpitoa ja parantamista.

Tässä viestissä näytämme, kuinka voit rakentaa dynaamisen, itseään kehittyvän ja ylläpidettävän luottokorttipetosten havaitsemisjärjestelmän koneoppimisen (ML) avulla. Amazon Sage Maker.

Vaihtoehtoisesti, jos etsit täysin hallittua palvelua räätälöityjen petosten havaitsemismallien rakentamiseen ilman koodin kirjoittamista, suosittelemme tutustumaan Amazonin petosilmaisin. Amazon Fraud Detectorin avulla asiakkaat, joilla ei ole kokemusta ML:stä, voivat automatisoida tietoihinsa räätälöityjen petosten havaitsemismallien rakentamisen hyödyntäen AWS:n ja Amazon.comin yli 20 vuoden petosten havaitsemisen asiantuntemusta.

Ratkaisun yleiskatsaus

Tämä ratkaisu rakentaa SageMakerin avulla toimivan luottokorttipetosten havaitsemisjärjestelmän ytimen. Aloitamme harjoittelemalla valvomatonta poikkeamien havaitsemismallia algoritmilla Random Cut Forest (RCF). Sitten harjoittelemme kaksi valvottua luokittelumallia algoritmilla XGBoost, yksi perusmallina ja toinen ennusteiden tekemiseen käyttämällä erilaisia ​​strategioita tietojen äärimmäisen luokkaepätasapainon korjaamiseksi. Lopuksi koulutamme optimaalisen XGBoost-mallin hyperparametrien optimointi (HPO) parantaakseen mallin suorituskykyä entisestään.

Esimerkkitietojoukossa käytämme julkisia, anonymisoituja luottokorttitapahtumia aineisto joka julkaistiin alun perin osana a tutkimus Worldlinen ja The ULB:n koneoppimisryhmä (Université Libre de Bruxelles). Esittelyssä keskustelemme myös siitä, kuinka voit mukauttaa ratkaisun käyttämään omia tietojasi.

Ratkaisun tulokset ovat seuraavat:

  • Valvomaton SageMaker RCF malli. Malli tulostaa poikkeamapisteet jokaiselle tapahtumalle. Matala pistemäärä tarkoittaa, että tapahtumaa pidetään normaalina (ei vilpillinen). Korkea arvo tarkoittaa, että tapahtuma on vilpillinen. Matalan ja korkean määritelmät riippuvat sovelluksesta, mutta yleinen käytäntö viittaa siihen, että pisteet, jotka ylittävät kolme standardipoikkeamaa keskimääräisestä pistemäärästä, katsotaan epänormaaliksi.
  • Valvottu SageMaker XGBoost malli, joka on koulutettu käyttämällä sen sisäänrakennettua painotusmallia ratkaisemaan erittäin epätasapainoisen dataongelman.
  • Valvottu SageMaker XGBoost -malli, joka on koulutettu käyttämällä Synteettisen vähemmistön ylinäytteenottotekniikka (SMOTE).
  • Koulutettu SageMaker XGBoost -malli HPO:lla.
  • Ennusteet kunkin tapahtuman todennäköisyydestä vilpillisesti. Jos tapahtuman arvioitu todennäköisyys ylittää kynnyksen, se luokitellaan vilpilliseksi.

Osoittaaksemme, kuinka voit käyttää tätä ratkaisua olemassa olevissa yritysinfrastruktuureissasi, sisällytämme myös esimerkin REST API -kutsujen tekemisestä käyttöönotetun mallin päätepisteeseen käyttämällä AWS Lambda käynnistää sekä RCF- että XGBoost-mallit.

Seuraava kaavio kuvaa ratkaisuarkkitehtuuria.

Edellytykset

Jos haluat kokeilla ratkaisua omalla tililläsi, varmista, että sinulla on seuraavat:

Kun Studio-instanssi on valmis, voit käynnistää Studion ja käyttää JumpStartia. JumpStart-ratkaisut eivät ole saatavilla SageMaker-muistikirjan esiintymissä, etkä voi käyttää niitä SageMaker-sovellusliittymien tai AWS-komentoriviliitäntä (AWS CLI).

Käynnistä ratkaisu

Voit käynnistää ratkaisun suorittamalla seuraavat vaiheet:

  1. Avaa JumpStart käyttämällä JumpStart-käynnistysohjelmaa Aloita -osiossa tai valitsemalla JumpStart-kuvake vasemmasta sivupalkista.
  2. Alle Ratkaisumme, valitse Tunnista haitalliset käyttäjät ja tapahtumat avataksesi ratkaisun toisella Studio-välilehdellä.
    Etsi ratkaisu
  3. Valitse Ratkaisu-välilehdeltä Käynnistää käynnistää ratkaisu.
    Käynnistä ratkaisu
    Ratkaisuresurssit on varattu ja toinen välilehti avautuu, joka näyttää käyttöönoton edistymisen. Kun käyttöönotto on valmis, an Avaa Muistikirja -painike tulee näkyviin.
  4. Valita Avaa Muistikirja avataksesi ratkaisumuistikirjan Studiossa.
    Avaa muistikirja

Tutki ja käsittele tietoja

Oletustietojoukko sisältää vain numeerisia ominaisuuksia, koska alkuperäiset ominaisuudet on muunnettu käyttämällä Pääkomponenttianalyysi (PCA) käyttäjien yksityisyyden suojaamiseksi. Tämän seurauksena tietojoukko sisältää 28 PCA-komponenttia, V1–V28, ja kaksi ominaisuutta, joita ei ole muunnettu, määrä ja aika. Summa viittaa tapahtuman summaan, ja aika on sekunnit, jotka ovat kuluneet tiedoissa olevan tapahtuman ja ensimmäisen tapahtuman välillä.

Luokka-sarake vastaa, onko tapahtuma vilpillinen vai ei.

Esimerkkitiedot

Näemme, että suurin osa on ei-petollisia, koska kaikkiaan 284,807 492 esimerkistä vain 0.173 (XNUMX %) on petollisia. Tämä on äärimmäisen luokan epätasapaino, joka on yleistä petosten havaitsemisskenaarioissa.

Tietoluokan epätasapaino

Valmistelemme sitten tietomme lastausta ja harjoittelua varten. Jaoimme tiedot junasarjaksi ja testisarjaksi, käyttämällä ensimmäistä harjoitteluun ja jälkimmäistä mallin suorituskyvyn arvioimiseen. On tärkeää jakaa tiedot ennen kuin käytät mitään tekniikoita luokan epätasapainon lievittämiseksi. Muuten saatamme vuotaa tietoja testijoukosta junasarjaan ja heikentää mallin suorituskykyä.

Jos haluat tuoda omat harjoitustietosi, varmista, että ne ovat taulukkotietoja CSV-muodossa, lataa tiedot Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri ja muokkaa S3-objektin polkua muistikirjan koodissa.

Tietopolku S3:ssa

Jos tiedoissasi on kategoriallisia sarakkeita, joissa on ei-numeerisia arvoja, sinun on koodattava nämä arvot (esim. sklearnin OneHotEncoder), koska XGBoost-algoritmi tukee vain numeerista dataa.

Harjoittele valvomatonta Random Cut Forest -mallia

Petosten havaitsemisskenaariossa meillä on yleensä hyvin vähän merkittyjä esimerkkejä, ja petoksen merkitseminen voi viedä paljon aikaa ja vaivaa. Siksi haluamme myös poimia tietoa käsillä olevista merkitsemättömistä tiedoista. Teemme tämän käyttämällä poikkeamien havaitsemisalgoritmia ja hyödynnämme suurta tietojen epätasapainoa, joka on yleinen petosten havaitsemistietosarjoissa.

Poikkeamien havaitseminen on ohjaamattoman oppimisen muoto, jossa yritämme tunnistaa poikkeavia esimerkkejä pelkästään niiden ominaisuuksien perusteella. Random Cut Forest on huippuluokan poikkeamien havaitsemisalgoritmi, joka on sekä tarkka että skaalautuva. Jokaiseen dataesimerkkiin RCF liittää poikkeavuuspisteen.

Käytämme SageMakerin sisäänrakennettua RCF-algoritmia kouluttaaksemme poikkeamien havaitsemismallin harjoitustietojoukossamme ja tehdä sitten ennusteita testitietojoukossamme.

Ensin tarkastelemme ja piirrämme positiivisten (vilpillisten) ja negatiivisten (ei-petollisten) esimerkkien ennustetut poikkeavuuspisteet erikseen, koska positiivisten ja negatiivisten esimerkkien määrät eroavat merkittävästi. Odotamme, että positiivisilla (petollisilla) esimerkeillä on suhteellisen korkeat poikkeavuuspisteet ja negatiivisilla (ei-petollisilla) esimerkeillä alhainen poikkeamapistemäärä. Histogrammeista voimme nähdä seuraavat kuviot:

  • Lähes puolet positiivisista esimerkeistä (vasemman histogrammin) poikkeavuuspisteet ovat korkeammat kuin 0.9, kun taas suurimman osan negatiivisista esimerkeistä (oikea histogrammi) poikkeavuuspisteet ovat alle 0.85.
  • Valvomattomalla oppimisalgoritmilla RCF on rajoituksia vilpillisten ja ei-petollisten esimerkkien tarkkaan tunnistamiseen. Tämä johtuu siitä, että etikettitietoja ei käytetä. Ratkaisemme tämän ongelman keräämällä tunnistetietoja ja käyttämällä valvottua oppimisalgoritmia myöhemmissä vaiheissa.

Ennustetut poikkeavuuspisteet

Sitten oletetaan todellisempi skenaario, jossa luokittelemme jokaisen testiesimerkin joko positiiviseksi (vilpillinen) tai negatiiviseksi (ei vilpillinen) sen poikkeavuuspisteiden perusteella. Piirrämme kaikkien testiesimerkkien pistemäärän histogrammin seuraavasti ja valitsemme luokitusta varten rajapistemäärän 1.0 (histogrammissa esitetyn mallin perusteella). Erityisesti, jos esimerkin poikkeamapistemäärä on pienempi tai yhtä suuri kuin 1.0, se luokitellaan negatiiviseksi (ei vilpillinen). Muussa tapauksessa esimerkki luokitellaan positiiviseksi (vilpillinen).

Testinäytteiden pisteiden histogrammi

Lopuksi vertaamme luokittelutulosta perustotuusmerkintöihin ja laskemme arviointimetriikot. Koska tietojoukkomme on epätasapainoinen, käytämme arviointimittareita tasapainoinen tarkkuus, Cohenin Kappan tulos, F1 pisteetja ROC AUC, koska ne ottavat huomioon kunkin luokan tiheyden tiedoissa. Kaikkien näiden mittareiden suurempi arvo tarkoittaa parempaa ennakoivaa suorituskykyä. Huomaa, että tässä vaiheessa emme voi vielä laskea ROC AUC:ta, koska jokaisessa esimerkissä ei ole arvioitua todennäköisyyttä positiivisille ja negatiivisille luokille RCF-mallista. Laskemme tämän mittarin myöhemmissä vaiheissa käyttämällä valvottuja oppimisalgoritmeja.

. RCF
Tasapainoinen tarkkuus 0.560023
Cohenin Kappa 0.003917
F1 0.007082
ROC AUC -

Tästä vaiheesta voimme nähdä, että valvomattomalla mallilla voidaan jo saavuttaa jonkinlainen ero luokkien välillä, jolloin korkeammat poikkeamapisteet korreloivat vilpillisten esimerkkien kanssa.

Harjoittele XGBoost-malli sisäänrakennetulla painotusskeemalla

Kun olemme keränneet riittävän määrän merkittyjä harjoitustietoja, voimme käyttää valvottua oppimisalgoritmia löytääksemme suhteita ominaisuuksien ja luokkien välillä. Valitsemme XGBoost-algoritmin, koska sillä on todistettu historia, se on erittäin skaalautuva ja pystyy käsittelemään puuttuvia tietoja. Tietojen epätasapainoa on käsiteltävä tällä kertaa, muuten enemmistöluokka (ei-petolliset tai negatiiviset esimerkit) hallitsee oppimista.

Koulutamme ja otamme käyttöön ensimmäisen valvotun mallimme käyttämällä SageMakerin sisäänrakennettua XGBoost-algoritmisäiliötä. Tämä on perusmallimme. Tietojen epätasapainon käsittelemiseksi käytämme hyperparametria scale_pos_weight, joka skaalaa positiivisten luokkaesimerkkien painot negatiivisiin luokkaesimerkkeihin. Koska tietojoukko on erittäin vino, asetamme tälle hyperparametrille konservatiivisen arvon: sqrt(num_nonfraud/num_fraud).

Koulutamme ja otamme mallin käyttöön seuraavasti:

  1. Hae SageMaker XGBoost -säiliön URI.
  2. Aseta hyperparametrit, joita haluamme käyttää mallikoulutuksessa, mukaan lukien mainitsemamme, joka käsittelee tietojen epätasapainoa, scale_pos_weight.
  3. Luo XGBoost-estimaattori ja harjoittele sitä junatietojoukollamme.
  4. Ota koulutettu XGBoost-malli käyttöön SageMaker-hallittuun päätepisteeseen.
  5. Arvioi tämä perusmalli testitietojoukollamme.

Sitten arvioimme mallimme samoilla neljällä mittarilla, jotka mainittiin viimeisessä vaiheessa. Tällä kertaa voimme myös laskea ROC AUC -mittarin.

. RCF XGBoost
Tasapainoinen tarkkuus 0.560023 0.847685
Cohenin Kappa 0.003917 0.743801
F1 0.007082 0.744186
ROC AUC - 0.983515

Näemme, että valvottu oppimismenetelmä XGBoost painotusskeemalla (käyttäen hyperparametria scale_pos_weight) saavuttaa huomattavasti paremman suorituskyvyn kuin ohjaamaton oppimismenetelmä RCF. Suorituksessa on kuitenkin vielä parantamisen varaa. Erityisesti Cohenin Kappa-pisteen nostaminen yli 0.8:n olisi yleensä erittäin suotuisaa.

Yksiarvoisten mittareiden lisäksi on hyödyllistä tarkastella mittareita, jotka osoittavat luokkakohtaisen suorituskyvyn. Esimerkiksi hämmennysmatriisi, luokkakohtainen tarkkuus, palautus ja F1-pisteet voivat antaa lisätietoja mallimme suorituskyvystä.

XGBoost-mallin hämmennysmatriisi

. tarkkuus muistaa f1-pisteet tuki
Ei-petos 1.00 1.00 1.00 28435
petos 0.80 0.70 0.74 46

Jatka testiliikenteen lähettämistä päätepisteeseen Lambdan kautta

Havainnollistaaksemme malliemme käyttöä tuotantojärjestelmässä rakensimme REST API:n Amazon API -yhdyskäytävä ja lambda-toiminto. Kun asiakassovellukset lähettävät HTTP-johtopäätöspyyntöjä REST API:lle, joka laukaisee Lambda-toiminnon, joka puolestaan ​​kutsuu RCF- ja XGBoost-mallin päätepisteet ja palauttaa ennusteet malleista. Voit lukea Lambda-toimintokoodin ja seurata kutsuja Lambda-konsolista.

Loimme myös Python-komentosarjan, joka tekee HTTP-johtopäätöspyyntöjä REST API:lle käyttämällä testitietomme syöttötietoina. Jos haluat nähdä, kuinka tämä tehtiin, tarkista generate_endpoint_traffic.py tiedosto ratkaisun lähdekoodissa. Ennusteulostulot kirjataan S3-alueelle an Amazon Kinesis Data Firehose toimitusvirta. Löydät kohteen S3-ämpäri nimen Kinesis Data Firehose -konsolista ja voit tarkistaa ennustustulokset S3-ämpäristä.

Harjoittele XGBoost-mallia ylinäytteenottotekniikalla SMOTE

Nyt kun meillä on XGBoostia käyttävä perusmalli, voimme nähdä, voivatko näytteenottotekniikat, jotka on suunniteltu erityisesti epätasapainoisiin ongelmiin, parantaa mallin suorituskykyä. Käytämme Synteettisten vähemmistöjen ylinäytteenotto (SMOTE), joka ylinäytteittää vähemmistöluokan interpoloimalla uusia datapisteitä olemassa olevien väliin.

Vaiheet ovat seuraavat:

  1. Käytä SMOTEa junatietojoukon vähemmistöluokan (vilpillisen luokan) ylinäytteenottoon. SMOTE yliotoksuttaa vähemmistöluokan noin 0.17–50 %. Huomaa, että kyseessä on vähemmistöluokan äärimmäinen yliotostus. Vaihtoehtona olisi käyttää pienempää uudelleennäytteenottosuhdetta, kuten yksi vähemmistöluokan näyte jokaista kohden sqrt(non_fraud/fraud) enemmistönäytteestä tai käyttämällä kehittyneempiä uudelleennäytteenottotekniikoita. Katso lisää ylinäytteenottovaihtoehtoja kohdasta Vertaa ylinäytteenottimia.
  2. Määritä hyperparametrit toisen XGBoost-harjoitteluun niin, että scale_pos_weight poistetaan ja muut hyperparametrit pysyvät samoina kuin perustason XGBoost-mallia harjoitellessa. Meidän ei enää tarvitse käsitellä tietojen epätasapainoa tällä hyperparametrilla, koska olemme jo tehneet sen SMOTElla.
  3. Harjoittele toinen XGBoost-malli uusilla hyperparametreillä SMOTE-käsitellyssä junatietojoukossa.
  4. Ota uusi XGBoost-malli käyttöön SageMaker-hallittuun päätepisteeseen.
  5. Arvioi uusi malli testitietojoukon avulla.

Kun arvioimme uutta mallia, voimme nähdä, että SMOTE:lla XGBoost saavuttaa paremman suorituskyvyn tasapainoisella tarkkuudella, mutta ei Cohenin Kappa- ja F1-pisteillä. Syynä tähän on se, että SMOTE on ylisampoinut petosluokan niin paljon, että se on lisännyt ominaisuustilan päällekkäisyyttä ei-petostapausten kanssa. Koska Cohenin Kappa antaa enemmän painoa väärille positiivisille kuin tasapainoinen tarkkuus, mittari laskee merkittävästi, samoin kuin petostapausten tarkkuus ja F1-pisteet.

. RCF XGBoost XGBoost SMOTE
Tasapainoinen tarkkuus 0.560023 0.847685 0.912657
Cohenin Kappa 0.003917 0.743801 0.716463
F1 0.007082 0.744186 0.716981
ROC AUC - 0.983515 0.967497

Voimme kuitenkin palauttaa mittareiden välisen tasapainon säätämällä luokituskynnystä. Toistaiseksi olemme käyttäneet kynnysarvoa 0.5, jotta voimme merkitä, onko tietopiste vilpillinen vai ei. Kokeiltuamme erilaisia ​​kynnysarvoja 0.1–0.9, voimme nähdä, että Cohenin Kappa kasvaa jatkuvasti kynnyksen mukana ilman, että tasapainoinen tarkkuus heikkenee merkittävästi.

Kokeile erilaisia ​​kynnysarvoja palauttaaksesi mittareiden välisen tasapainon

Tämä lisää malliimme hyödyllisen kalibroinnin. Voimme käyttää matalaa kynnystä, jos et halua jättää huomiotta yhtään vilpillistä tapausta (vääriä negatiivisia), tai voimme nostaa kynnystä minimoidaksemme väärien positiivisten tulosten määrän.

Harjoittele optimaalinen XGBoost-malli HPO:lla

Tässä vaiheessa näytämme kuinka parantaa mallin suorituskykyä kouluttamalla kolmas XGBoost-mallimme hyperparametrien optimoinnilla. Kun rakennetaan monimutkaisia ​​ML-järjestelmiä, kaikkien mahdollisten hyperparametriarvojen yhdistelmien manuaalinen tutkiminen on epäkäytännöllistä. SageMakerin HPO-ominaisuus voi nopeuttaa tuottavuuttasi kokeilemalla useita mallin muunnelmia puolestasi. Se etsii automaattisesti parhaan mallin keskittymällä lupaavimpiin hyperparametriarvojen yhdistelmiin määrittämiesi alueiden sisällä.

HPO-prosessi tarvitsee validointitietojoukon, joten jaoimme ensin harjoitustietomme edelleen koulutus- ja validointitietojoukoiksi käyttämällä ositettu näytteenotto. Tietojen epätasapainoongelman ratkaisemiseksi käytämme uudelleen XGBoostin painotusskeemaa asettamalla scale_pos_weight hyperparametriin sqrt(num_nonfraud/num_fraud).

Luomme XGBoost-estimaattorin käyttämällä SageMakerin sisäänrakennettua XGBoost-algoritmisäiliötä ja määritämme objektiivisen arviointimetriikan ja hyperparametrialueet, joilla haluamme kokeilla. Näiden avulla luomme sitten a Hyperparametri Viritin ja aloita HPO-viritystyö, joka kouluttaa useita malleja rinnakkain etsien optimaalisia hyperparametriyhdistelmiä.

Kun viritystyö on valmis, voimme nähdä sen analytiikkaraportin ja tarkastaa kunkin mallin hyperparametrit, koulutustyötiedot ja sen suorituskyvyn objektiiviseen arviointimittariin verrattuna.

Luettelo kunkin mallin tiedoista viritystyöstä

Sitten otamme käyttöön parhaan mallin ja arvioimme sen testitietojoukollamme.

Arvioi ja vertaa kaikkien mallien suorituskykyä samoilla testitiedoilla

Nyt meillä on arviointitulokset kaikista neljästä mallista: RCF, XGBoost baseline, XGBoost SMOTElla ja XGBoost HPO:lla. Verrataanpa heidän suorituskykyään.

. RCF XGBoost XGBoost SMOTElla XGBoost HPO:n kanssa
Tasapainoinen tarkkuus 0.560023 0.847685 0.912657 0.902156
Cohenin Kappa 0.003917 0.743801 0.716463 0.880778
F1 0.007082 0.744186 0.716981 0.880952
ROC AUC - 0.983515 0.967497 0.981564

Voimme nähdä, että XGBoost HPO:lla saavuttaa jopa paremman suorituskyvyn kuin SMOTE-menetelmällä. Erityisesti Cohenin Kappa-pisteet ja F1 ovat yli 0.8, mikä osoittaa optimaalisen mallin suorituskyvyn.

Puhdistaa

Kun olet valmis käyttämään tätä ratkaisua, varmista, että poistat kaikki ei-toivotut AWS-resurssit, jotta et aiheuta tahattomia kuluja. Vuonna Poista ratkaisu -osio ratkaisuvälilehdelläsi, valitse Poista kaikki resurssit poistaaksesi tämän ratkaisun käynnistämisen yhteydessä automaattisesti luodut resurssit.

Puhdista poistamalla ratkaisu

Vaihtoehtoisesti voit käyttää AWS-pilven muodostuminen poistaaksesi kaikki ratkaisun ja muistikirjan automaattisesti luomat vakioresurssit. Jos haluat käyttää tätä lähestymistapaa, etsi AWS CloudFormation -konsolista CloudFormation-pino, jonka kuvaus sisältää petosten havaitsemisen koneoppimisen avulla, ja poista se. Tämä on pääpino, ja tämän pinon poistaminen poistaa automaattisesti sisäkkäiset pinot.

Puhdista CloudFormationin kautta

Kummallakin tavalla sinun on silti poistettava manuaalisesti kaikki ylimääräiset resurssit, jotka olet luonut tähän muistikirjaan. Joitakin esimerkkejä ovat ylimääräiset S3-säilöt (ratkaisun oletussäilön lisäksi), ylimääräiset SageMaker-päätepisteet (käyttäen mukautettua nimeä) ja ylimääräiset Amazonin elastisten säiliörekisteri (Amazon ECR) arkistot.

Yhteenveto

Tässä viestissä näytimme sinulle, kuinka voit rakentaa dynaamisen, itseään kehittyvän ja ylläpidettävän luottokorttipetosten havaitsemisjärjestelmän ytimen käyttämällä ML:ää SageMakerin kanssa. Rakensimme, koulutimme ja otimme käyttöön valvomattoman RCF-poikkeamien havaitsemismallin, valvotun XGBoost-mallin lähtötilanteena, toisen valvotun XGBoost-mallin SMOTElla tietojen epätasapainoongelman ratkaisemiseksi sekä lopullisen XGBoost-mallin, joka on optimoitu HPO:lla. Keskustelimme kuinka käsitellä datan epätasapainoa ja käyttää omia tietojasi ratkaisussa. Lisäsimme myös esimerkin REST API -toteutuksesta API Gatewayn ja Lambdan kanssa osoittaaksemme, kuinka järjestelmää käytetään olemassa olevassa yritysinfrastruktuurissasi.

Voit kokeilla sitä itse avaamalla SageMaker Studio ja käynnistä JumpStart-ratkaisu. Saat lisätietoja ratkaisusta tutustumalla siihen GitHub-arkisto.


Tietoja Tekijät

Xiaoli ShenXiaoli Shen on Solutions Architect and Machine Learning Technical Field Community (TFC) -jäsen Amazon Web Servicesissä. Hän on keskittynyt auttamaan asiakkaita, jotka suunnittelevat pilvipalveluja ja hyödyntävät AWS-palveluita liiketoiminnan arvon saamiseksi. Ennen AWS:lle tuloaan hän oli tekninen johtaja ja vanhempi full-stack-insinööri, joka rakensi tietointensiivisiä hajautettuja järjestelmiä pilveen.

Tunnista vilpilliset tapahtumat koneoppimisen avulla Amazon SageMaker PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Tohtori Xin Huang on Amazon SageMaker JumpStartin ja Amazon SageMakerin sisäänrakennettujen algoritmien soveltava tutkija. Hän keskittyy skaalautuvien koneoppimisalgoritmien kehittämiseen. Hänen tutkimusintressiään ovat luonnollisen kielen prosessointi, selitettävissä oleva syvä oppiminen taulukkotiedoista ja ei-parametrisen aika-avaruusklusteroinnin robusti analyysi. Hän on julkaissut monia artikkeleita ACL-, ICDM-, KDD-konferensseissa ja Royal Statistical Society: Series A -lehdessä.

Tunnista vilpilliset tapahtumat koneoppimisen avulla Amazon SageMaker PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Vedant Jain on Sr. AI/ML Specialist Solutions Architect, joka auttaa asiakkaita saamaan arvoa AWS:n koneoppimisekosysteemistä. Ennen AWS:ään liittymistään Vedant on toiminut ML/Data Science Specialty -tehtävissä useissa yrityksissä, kuten Databricksissa, Hortonworksissa (nykyisin Cloudera) ja JP Morgan Chasessa. Työnsä ulkopuolella Vedant on intohimoinen musiikin tekemiseen, Tieteen avulla merkitykselliseen elämään ja herkullisten kasvisruokien tutkimiseen ympäri maailmaa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen