Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services

Roskapostit, jotka tunnetaan myös roskapostina, lähetetään suurelle määrälle käyttäjiä kerralla ja sisältävät usein huijauksia, tietojenkalastelusisältöä tai salaperäisiä viestejä. Joskus ihmiset lähettävät roskapostit manuaalisesti, mutta useimmiten ne lähetetään botin avulla. Esimerkkejä roskapostiviesteistä ovat väärennetyt mainokset, ketjusähköpostit ja toisena henkilönä esiintymisyritykset. On olemassa vaara, että erityisen hyvin naamioitu roskaposti saattaa päätyä postilaatikkoosi, mikä voi olla vaarallista, jos sitä napsautetaan. On tärkeää ryhtyä ylimääräisiin varotoimiin laitteesi ja arkaluonteisten tietojen suojaamiseksi.

Tekniikan kehittyessä roskapostien tunnistamisesta tulee haastava tehtävä sen muuttuvan luonteen vuoksi. Roskaposti on aivan erilaista kuin muun tyyppiset tietoturvauhat. Se voi aluksi näyttää ärsyttävältä viestiltä eikä a uhkaus, mutta sillä on välitön vaikutus. Myös roskapostittajat soveltavat usein uusia tekniikoita. Sähköpostipalveluita tarjoavat organisaatiot haluavat minimoida roskapostin mahdollisimman paljon välttääkseen vahingot loppuasiakkailleen.

Tässä viestissä näytämme, kuinka yksinkertaista on rakentaa sähköpostin roskapostin tunnistin Amazon Sage Maker. Sisäänrakennettu BlazingText-algoritmi tarjoaa optimoituja Word2vec- ja tekstiluokittelualgoritmien toteutuksia. Word2vec on hyödyllinen erilaisissa luonnollisen kielen prosessointitehtävissä (NLP), kuten tunneanalyysissä, nimettyjen entiteettien tunnistamisessa ja konekääntämisessä. Tekstin luokittelu on välttämätöntä sovelluksissa, kuten verkkohauissa, tiedonhaussa, luokittelussa ja dokumenttien luokittelussa.

Ratkaisun yleiskatsaus

Tämä viesti osoittaa, kuinka voit määrittää sähköpostin roskapostitunnistimen ja suodattaa roskapostit SageMakerin avulla. Katsotaanpa, kuinka roskapostin tunnistin tyypillisesti toimii seuraavan kaavion mukaisesti.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Sähköpostit lähetetään roskapostitunnistimen kautta. Sähköposti lähetetään roskapostikansioon, jos roskapostin tunnistin havaitsee sen roskapostiksi. Muussa tapauksessa se lähetetään asiakkaan postilaatikkoon.

Ohjaamme sinut seuraavien vaiheiden avulla määrittämään roskapostintunnistinmallimme:

  1. Lataa näytetietojoukko GitHub-reposta.
  2. Lataa tiedot an Amazon SageMaker Studio muistikirja.
  3. Valmistele tiedot mallia varten.
  4. Kouluta, ota käyttöön ja testaa mallia.

Edellytykset

Ennen kuin sukellat tähän käyttötapaukseen, täytä seuraavat edellytykset:

  1. Määritä AWS-tili.
  2. Aseta a SageMaker-verkkotunnus.
  3. Luo Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri. Katso ohjeet Luo ensimmäinen S3-ämpärisi.

Lataa tietojoukko

Lataa email_dataset.csv osoitteesta GitHub ja lataa tiedosto S3-ämpäriin.

BlazingText-algoritmi odottaa yhden esikäsitellyn tekstitiedoston, jossa on välilyönnillä erotetut tunnukset. Jokaisen tiedoston rivin tulee sisältää yksi lause. Jos sinun on harjoitettava useita tekstitiedostoja, yhdistä ne yhdeksi tiedostoksi ja lataa tiedosto vastaavaan kanavaan.

Lataa tiedot SageMaker Studiossa

Suorita tietojen lataus suorittamalla seuraavat vaiheet:

  1. Lataa spam_detector.ipynb Tiedosto GitHub ja lataa tiedosto SageMaker Studioon.
  2. Avaa Studio-muistikirjassasi spam_detector.ipynb muistikirja.
  3. Jos sinua kehotetaan valitsemaan ydin, valitse Python 3 (Data Science 3.0) -ydin ja valitse valita. Jos ei, varmista, että oikea ydin on valittu automaattisesti.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Tuo vaadittu Python-kirjasto ja aseta roolit ja S3-säihöt. Määritä S3-säilö ja etuliite, johon lähetit email_dataset.csv-tiedoston.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Suorita tietojen latausvaihe muistikirjassa.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Tarkista, onko tietojoukko tasapainoinen vai ei perustu luokkamerkintöihin.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme nähdä, että tietojoukkomme on tasapainossa.

Valmistele tiedot

BlazingText-algoritmi odottaa tiedot seuraavassa muodossa:

__label__<label> "<features>"

Tässä esimerkki:

__label__0 “This is HAM"
__label__1 "This is SPAM"

Tarkistaa BlazingText-algoritmin koulutus- ja validointitietomuoto.

Suoritat nyt tietojen valmisteluvaiheen muistikirjassa.

  1. Ensin sinun on muutettava Luokka-sarake kokonaisluvuksi. Seuraava solu korvaa SPAM-arvon 1:llä ja HAM-arvon 0:lla.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Seuraava solu lisää etuliitteen __label__ jokaiseen luokka-arvoon ja tokenisoi Viesti-sarakkeen.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Seuraava vaihe on jakaa tietojoukko juna- ja validointitietosarjoiksi ja ladata tiedostot S3-ämpäriin.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Harjoittele mallia

Voit kouluttaa mallin suorittamalla seuraavat vaiheet muistikirjassa:

  1. Määritä BlazingText-estimaattori ja luo estimaattoriinstanssi, joka välittää säilön kuvan.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Aseta oppimistilan hyperparametriksi valvottu.

BlazingTextissä on sekä valvomaton että valvottu oppimistila. Käyttötapamme on tekstiluokittelu, joka on ohjattua oppimista.

  1. Luo juna- ja validointitietokanavat.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Aloita mallin koulutus.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Hanki juna- ja validointitietojoukon tarkkuus.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Ota käyttöön malli

Tässä vaiheessa otamme käyttöön koulutetun mallin päätepisteenä. Valitse haluamasi esiintymä

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Testaa malli

Otetaan esimerkki kolmesta sähköpostiviestistä, joille haluamme saada ennusteita:

  • Napsauta alla olevaa linkkiä, anna tietosi ja voita tämä palkinto
  • Paras kesätarjous täällä
  • Nähdään perjantaina toimistolla.

Tokenoi sähköpostiviesti ja määritä hyötykuorma, jota käytetään kutsuttaessa REST API:ta.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Nyt voimme ennustaa kunkin sähköpostin sähköpostiluokituksen. Kutsu tekstin luokittelijan ennustusmenetelmää, joka välittää tokenoidut lauseet (hyötykuorma) data-argumenttiin.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Puhdistaa

Lopuksi voit poistaa päätepisteen odottamattomien kustannusten välttämiseksi.

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Poista myös datatiedosto S3-ämpäristä.

Yhteenveto

Tässä viestissä opastimme sinut sähköpostin roskapostitunnistimen luomiseen käyttämällä SageMaker BlazingText -algoritmi. BlazingText-algoritmin avulla voit skaalata suuria tietojoukkoja. BlazingTextiä käytetään tekstianalyysiin ja tekstin luokitteluongelmiin, ja siinä on sekä valvomaton että valvottu oppimistila. Voit käyttää algoritmia käyttötapauksiin, kuten asiakkaiden mielipideanalyysiin ja tekstin luokitteluun.

Jos haluat lisätietoja BlazingText-algoritmista, tutustu BlazingText-algoritmi.


kirjailijasta

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Dhiraj Thakur on ratkaisuarkkitehti Amazon Web Services -palvelun kanssa. Hän tarjoaa AWS-asiakkaiden ja -kumppaneiden kanssa neuvoja yrityksen pilvipalvelujen käyttöönotosta, siirtymisestä ja strategiasta. Hän on intohimoinen tekniikkaan ja nauttii rakentamisesta ja kokeilemisesta analytiikan ja tekoälyn / ML-avaruudessa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen