Roskapostit, jotka tunnetaan myös roskapostina, lähetetään suurelle määrälle käyttäjiä kerralla ja sisältävät usein huijauksia, tietojenkalastelusisältöä tai salaperäisiä viestejä. Joskus ihmiset lähettävät roskapostit manuaalisesti, mutta useimmiten ne lähetetään botin avulla. Esimerkkejä roskapostiviesteistä ovat väärennetyt mainokset, ketjusähköpostit ja toisena henkilönä esiintymisyritykset. On olemassa vaara, että erityisen hyvin naamioitu roskaposti saattaa päätyä postilaatikkoosi, mikä voi olla vaarallista, jos sitä napsautetaan. On tärkeää ryhtyä ylimääräisiin varotoimiin laitteesi ja arkaluonteisten tietojen suojaamiseksi.
Tekniikan kehittyessä roskapostien tunnistamisesta tulee haastava tehtävä sen muuttuvan luonteen vuoksi. Roskaposti on aivan erilaista kuin muun tyyppiset tietoturvauhat. Se voi aluksi näyttää ärsyttävältä viestiltä eikä a uhkaus, mutta sillä on välitön vaikutus. Myös roskapostittajat soveltavat usein uusia tekniikoita. Sähköpostipalveluita tarjoavat organisaatiot haluavat minimoida roskapostin mahdollisimman paljon välttääkseen vahingot loppuasiakkailleen.
Tässä viestissä näytämme, kuinka yksinkertaista on rakentaa sähköpostin roskapostin tunnistin Amazon Sage Maker. Sisäänrakennettu BlazingText-algoritmi tarjoaa optimoituja Word2vec- ja tekstiluokittelualgoritmien toteutuksia. Word2vec on hyödyllinen erilaisissa luonnollisen kielen prosessointitehtävissä (NLP), kuten tunneanalyysissä, nimettyjen entiteettien tunnistamisessa ja konekääntämisessä. Tekstin luokittelu on välttämätöntä sovelluksissa, kuten verkkohauissa, tiedonhaussa, luokittelussa ja dokumenttien luokittelussa.
Ratkaisun yleiskatsaus
Tämä viesti osoittaa, kuinka voit määrittää sähköpostin roskapostitunnistimen ja suodattaa roskapostit SageMakerin avulla. Katsotaanpa, kuinka roskapostin tunnistin tyypillisesti toimii seuraavan kaavion mukaisesti.
Sähköpostit lähetetään roskapostitunnistimen kautta. Sähköposti lähetetään roskapostikansioon, jos roskapostin tunnistin havaitsee sen roskapostiksi. Muussa tapauksessa se lähetetään asiakkaan postilaatikkoon.
Ohjaamme sinut seuraavien vaiheiden avulla määrittämään roskapostintunnistinmallimme:
- Lataa näytetietojoukko GitHub-reposta.
- Lataa tiedot an Amazon SageMaker Studio muistikirja.
- Valmistele tiedot mallia varten.
- Kouluta, ota käyttöön ja testaa mallia.
Edellytykset
Ennen kuin sukellat tähän käyttötapaukseen, täytä seuraavat edellytykset:
- Määritä AWS-tili.
- Aseta a SageMaker-verkkotunnus.
- Luo Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri. Katso ohjeet Luo ensimmäinen S3-ämpärisi.
Lataa tietojoukko
Lataa email_dataset.csv osoitteesta GitHub ja lataa tiedosto S3-ämpäriin.
BlazingText-algoritmi odottaa yhden esikäsitellyn tekstitiedoston, jossa on välilyönnillä erotetut tunnukset. Jokaisen tiedoston rivin tulee sisältää yksi lause. Jos sinun on harjoitettava useita tekstitiedostoja, yhdistä ne yhdeksi tiedostoksi ja lataa tiedosto vastaavaan kanavaan.
Lataa tiedot SageMaker Studiossa
Suorita tietojen lataus suorittamalla seuraavat vaiheet:
- Lataa
spam_detector.ipynb
Tiedosto GitHub ja lataa tiedosto SageMaker Studioon. - Avaa Studio-muistikirjassasi
spam_detector.ipynb
muistikirja. - Jos sinua kehotetaan valitsemaan ydin, valitse Python 3 (Data Science 3.0) -ydin ja valitse valita. Jos ei, varmista, että oikea ydin on valittu automaattisesti.
- Tuo vaadittu Python-kirjasto ja aseta roolit ja S3-säihöt. Määritä S3-säilö ja etuliite, johon lähetit email_dataset.csv-tiedoston.
- Suorita tietojen latausvaihe muistikirjassa.
- Tarkista, onko tietojoukko tasapainoinen vai ei perustu luokkamerkintöihin.
Voimme nähdä, että tietojoukkomme on tasapainossa.
Valmistele tiedot
BlazingText-algoritmi odottaa tiedot seuraavassa muodossa:
Tässä esimerkki:
Tarkistaa BlazingText-algoritmin koulutus- ja validointitietomuoto.
Suoritat nyt tietojen valmisteluvaiheen muistikirjassa.
- Ensin sinun on muutettava Luokka-sarake kokonaisluvuksi. Seuraava solu korvaa SPAM-arvon 1:llä ja HAM-arvon 0:lla.
- Seuraava solu lisää etuliitteen
__label__
jokaiseen luokka-arvoon ja tokenisoi Viesti-sarakkeen.
- Seuraava vaihe on jakaa tietojoukko juna- ja validointitietosarjoiksi ja ladata tiedostot S3-ämpäriin.
Harjoittele mallia
Voit kouluttaa mallin suorittamalla seuraavat vaiheet muistikirjassa:
- Määritä BlazingText-estimaattori ja luo estimaattoriinstanssi, joka välittää säilön kuvan.
- Aseta oppimistilan hyperparametriksi valvottu.
BlazingTextissä on sekä valvomaton että valvottu oppimistila. Käyttötapamme on tekstiluokittelu, joka on ohjattua oppimista.
- Luo juna- ja validointitietokanavat.
- Aloita mallin koulutus.
- Hanki juna- ja validointitietojoukon tarkkuus.
Ota käyttöön malli
Tässä vaiheessa otamme käyttöön koulutetun mallin päätepisteenä. Valitse haluamasi esiintymä
Testaa malli
Otetaan esimerkki kolmesta sähköpostiviestistä, joille haluamme saada ennusteita:
- Napsauta alla olevaa linkkiä, anna tietosi ja voita tämä palkinto
- Paras kesätarjous täällä
- Nähdään perjantaina toimistolla.
Tokenoi sähköpostiviesti ja määritä hyötykuorma, jota käytetään kutsuttaessa REST API:ta.
Nyt voimme ennustaa kunkin sähköpostin sähköpostiluokituksen. Kutsu tekstin luokittelijan ennustusmenetelmää, joka välittää tokenoidut lauseet (hyötykuorma) data-argumenttiin.
Puhdistaa
Lopuksi voit poistaa päätepisteen odottamattomien kustannusten välttämiseksi.
Poista myös datatiedosto S3-ämpäristä.
Yhteenveto
Tässä viestissä opastimme sinut sähköpostin roskapostitunnistimen luomiseen käyttämällä SageMaker BlazingText -algoritmi. BlazingText-algoritmin avulla voit skaalata suuria tietojoukkoja. BlazingTextiä käytetään tekstianalyysiin ja tekstin luokitteluongelmiin, ja siinä on sekä valvomaton että valvottu oppimistila. Voit käyttää algoritmia käyttötapauksiin, kuten asiakkaiden mielipideanalyysiin ja tekstin luokitteluun.
Jos haluat lisätietoja BlazingText-algoritmista, tutustu BlazingText-algoritmi.
kirjailijasta
Dhiraj Thakur on ratkaisuarkkitehti Amazon Web Services -palvelun kanssa. Hän tarjoaa AWS-asiakkaiden ja -kumppaneiden kanssa neuvoja yrityksen pilvipalvelujen käyttöönotosta, siirtymisestä ja strategiasta. Hän on intohimoinen tekniikkaan ja nauttii rakentamisesta ja kokeilemisesta analytiikan ja tekoälyn / ML-avaruudessa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. Autot / sähköautot, hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- BlockOffsets. Ympäristövastuun omistuksen nykyaikaistaminen. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :on
- :On
- :ei
- :missä
- $ YLÖS
- 1
- 7
- a
- Meistä
- tarkkuus
- sopeuttaa
- Lisää
- Hyväksyminen
- mainokset
- AI / ML
- algoritmi
- algoritmit
- Myös
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- an
- analyysi
- Analytics
- ja
- Kaikki
- api
- näyttää
- sovellukset
- OVAT
- perustelu
- AS
- At
- yrityksiä
- automaattisesti
- välttää
- AWS
- perustua
- BE
- tulee
- ollut
- alle
- Bot
- sekä
- rakentaa
- Rakentaminen
- sisäänrakennettu
- mutta
- by
- soittaa
- soittamalla
- CAN
- tapaus
- tapauksissa
- Kategoria
- ketju
- haastava
- muuttuviin
- Kanava
- kanavat
- tarkastaa
- Valita
- luokittelu
- pilvi
- pilvien hyväksyminen
- Sarake
- täydellinen
- sisältää
- Kontti
- pitoisuus
- muuntaa
- Hinta
- luoda
- asiakas
- Asiakkaat
- Vaarallinen
- tiedot
- Tietojen valmistelu
- tietojenkäsittely
- aineistot
- sopimus
- osoittaa
- sijoittaa
- yksityiskohdat
- Detection
- laite
- eri
- asiakirja
- kaksi
- kukin
- vaikutus
- sähköpostit
- loppu
- päätepiste
- yritys
- kokonaisuus
- olennainen
- esimerkki
- Esimerkit
- odottaa
- lisää
- väärennös
- vääriä mainoksia
- filee
- Asiakirjat
- suodattaa
- Etunimi
- jälkeen
- varten
- muoto
- Perjantai
- alkaen
- saada
- GitHub
- ohjaus
- he
- Miten
- HTML
- HTTPS
- ihmisen
- if
- kuva
- Välitön
- tärkeä
- parantaminen
- in
- sisältää
- tiedot
- esimerkki
- ohjeet
- tulee
- IT
- SEN
- jpg
- tunnettu
- tarrat
- Maa
- Kieli
- suuri
- OPPIA
- oppiminen
- Kirjasto
- pitää
- linja
- LINK
- kuormitus
- kone
- käsin
- Saattaa..
- viesti
- viestien
- menetelmä
- muutto
- tila
- malli
- tilat
- lisää
- eniten
- paljon
- moninkertainen
- nimetty
- Luonnollinen
- Luonnollinen kielen käsittely
- luonto
- Tarve
- Uusi
- seuraava
- NLP
- muistikirja
- nyt
- numero
- of
- Tarjoukset
- Office
- usein
- on
- kerran
- ONE
- avata
- optimoitu
- or
- organisaatioiden
- Muut
- muuten
- meidän
- ulos
- erityisesti
- kumppani
- Ohimenevä
- intohimoinen
- Suorittaa
- Phishing
- Platon
- Platonin tietotieto
- PlatonData
- mahdollinen
- Kirje
- ennustaa
- Ennusteet
- Suositut
- valmistelu
- edellytyksiä
- ongelmia
- käsittely
- suojella
- toimittaa
- Python
- Sijoitus
- tunnustaminen
- tarvitaan
- ne
- REST
- oikein
- Riski
- roolit
- ajaa
- sagemaker
- Esimerkkitietojoukko
- Asteikko
- huijauksia
- tiede
- turvallisuus
- Turvallisuusuhkia
- nähdä
- valittu
- sensible
- lähetetty
- tuomita
- näkemys
- Palvelut
- setti
- shouldnt
- näyttää
- esitetty
- Yksinkertainen
- single
- Ratkaisumme
- Tila
- spam
- jakaa
- Vaihe
- Askeleet
- Levytila
- suora
- Strategia
- studio
- niin
- kesä
- ottaa
- Tehtävä
- tehtävät
- tekniikat
- Elektroniikka
- testi
- Tekstiluokitus
- että
- -
- heidän
- Niitä
- Siellä.
- ne
- tätä
- uhat
- kolmella
- Kautta
- että
- tokenized
- tokens
- Juna
- koulutettu
- koulutus
- Kääntäminen
- tyypit
- tyypillisesti
- Odottamaton
- ladattu
- käyttää
- käyttölaukku
- käytetty
- Käyttäjät
- käyttämällä
- validointi
- arvo
- eri
- todentaa
- käveli
- haluta
- we
- verkko
- verkkopalvelut
- kun
- joka
- KUKA
- voittaa
- with
- toimii
- Voit
- Sinun
- zephyrnet