Neželena pošta, znana tudi kot neželena pošta, je poslana velikemu številu uporabnikov hkrati in pogosto vsebuje goljufije, vsebino z lažnim predstavljanjem ali skrivnostna sporočila. Neželeno e-pošto včasih ročno pošlje človek, najpogosteje pa jih pošlje bot. Primeri vsiljene e-pošte vključujejo lažne oglase, verižna e-poštna sporočila in poskuse lažnega predstavljanja. Obstaja nevarnost, da v vašo mapo »Prejeto« pristane še posebej dobro prikrita neželena pošta, kar je lahko nevarno, če kliknete nanjo. Pomembno je, da sprejmete dodatne varnostne ukrepe za zaščito vaše naprave in občutljivih podatkov.
Ker se tehnologija izboljšuje, postane odkrivanje neželene e-pošte zahtevna naloga zaradi spreminjajoče se narave. Neželena pošta se precej razlikuje od drugih vrst varnostnih groženj. Morda se sprva zdi kot nadležno sporočilo in ne kot Grožnja, vendar ima takojšen učinek. Tudi pošiljatelji neželene pošte pogosto prilagajajo nove tehnike. Organizacije, ki ponujajo e-poštne storitve, želijo čim bolj zmanjšati neželeno pošto, da se izognejo škodi svojim končnim strankam.
V tej objavi prikazujemo, kako preprosto je zgraditi detektor vsiljene e-pošte z uporabo Amazon SageMaker. Vgrajen BlazingText algoritem ponuja optimizirane izvedbe Word2vec in algoritmov za klasifikacijo besedil. Word2vec je uporaben za različne naloge obdelave naravnega jezika (NLP), kot so analiza čustev, prepoznavanje poimenovanih entitet in strojno prevajanje. Klasifikacija besedila je bistvena za aplikacije, kot so spletno iskanje, iskanje informacij, razvrščanje in klasifikacija dokumentov.
Pregled rešitev
Ta objava prikazuje, kako lahko s SageMakerjem nastavite detektor neželene e-pošte in filtrirate neželeno pošto. Oglejmo si, kako običajno deluje detektor neželene pošte, kot je prikazano v naslednjem diagramu.
E-poštna sporočila se pošiljajo prek detektorja neželene pošte. E-poštno sporočilo se pošlje v mapo z neželeno pošto, če ga detektor neželene pošte zazna kot neželeno pošto. V nasprotnem primeru se pošlje v nabiralnik stranke.
Vodimo vas skozi naslednje korake za nastavitev našega modela detektorja vsiljene pošte:
- Prenesite vzorčni nabor podatkov iz skladišča GitHub.
- Naložite podatke v an Amazon SageMaker Studio zvezek.
- Pripravite podatke za model.
- Usposobite, uvedite in preizkusite model.
Predpogoji
Preden se poglobite v ta primer uporabe, izpolnite naslednje predpogoje:
- Nastavite AWS račun.
- Nastavite a Domena SageMaker.
- Ustvari Preprosta storitev shranjevanja Amazon (Amazon S3) vedro. Za navodila glejte Ustvarite svoje prvo vedro S3.
Prenesite nabor podatkov
Prenesite email_dataset.csv iz GitHub in naložite datoteko v vedro S3.
Algoritem BlazingText pričakuje eno vnaprej obdelano besedilno datoteko z žetoni, ločenimi s presledki. Vsaka vrstica v datoteki mora vsebovati en stavek. Če se morate učiti na več besedilnih datotekah, jih združite v eno datoteko in naložite datoteko v ustrezen kanal.
Naložite podatke v SageMaker Studio
Za izvedbo nalaganja podatkov izvedite naslednje korake:
- Prenos
spam_detector.ipynb
datoteka od GitHub in naložite datoteko v SageMaker Studio. - V zvezku Studio odprite
spam_detector.ipynb
zvezek. - Če ste pozvani, da izberete jedro, izberite jedro Python 3 (Data Science 3.0) in izberite Izberite. Če ni, preverite, ali je bilo samodejno izbrano pravo jedro.
- Uvozite zahtevano knjižnico Python in nastavite vloge in vedra S3. Določite vedro S3 in predpono, kamor ste naložili email_dataset.csv.
- Zaženite korak nalaganja podatkov v zvezku.
- Preverite, ali je nabor podatkov uravnotežen ali ne temelji na oznakah kategorije.
Vidimo lahko, da je naš nabor podatkov uravnotežen.
Pripravite podatke
Algoritem BlazingText pričakuje podatke v naslednji obliki:
Tukaj je primer:
Preveri Format podatkov za usposabljanje in validacijo za algoritem BlazingText.
Zdaj izvajate korak priprave podatkov v zvezku.
- Najprej morate stolpec Kategorija pretvoriti v celo število. Naslednja celica nadomesti vrednost SPAM z 1 in vrednost HAM z 0.
- Naslednja celica doda predpono
__label__
na vsako vrednost kategorije in tokenizira stolpec Sporočilo.
- Naslednji korak je razdelitev nabora podatkov na nabore podatkov o usposabljanju in preverjanju ter nalaganje datotek v vedro S3.
Trenirajte model
Če želite usposobiti model, dokončajte naslednje korake v zvezku:
- Nastavite ocenjevalnik BlazingText in ustvarite primerek ocenjevalnika, ki posreduje sliko vsebnika.
- Nastavite hiperparameter načina učenja na nadzorovano.
BlazingText ima tako nenadzorovan kot nadzorovan način učenja. Naš primer uporabe je klasifikacija besedil, ki je nadzorovano učenje.
- Ustvarite vlakovne in validacijske podatkovne kanale.
- Začnite trenirati model.
- Pridobite natančnost nabora podatkov o vlaku in validaciji.
Namestite model
V tem koraku uvedemo usposobljeni model kot končno točko. Izberite želeni primerek
Preizkusite model
Vzemimo primer treh e-poštnih sporočil, za katera želimo pridobiti napovedi:
- Kliknite spodnjo povezavo, vnesite svoje podatke in osvojite to nagrado
- Najboljša poletna ponudba tukaj
- Se vidimo v pisarni v petek.
Tokenizirajte e-poštno sporočilo in določite obremenitev, ki bo uporabljena pri klicu API-ja REST.
Zdaj lahko predvidimo klasifikacijo e-pošte za vsako e-pošto. Pokličite metodo napovedi klasifikatorja besedila, tako da primerke stavkov s tokeniziranimi stavki (tovor) posredujete v podatkovni argument.
Čiščenje
Končno lahko izbrišete končno točko, da se izognete morebitnim nepričakovanim stroškom.
Prav tako izbrišite podatkovna datoteka iz vedra S3.
zaključek
V tej objavi smo vas vodili skozi korake za ustvarjanje detektorja vsiljene e-pošte z uporabo SageMaker BlazingText algoritem. Z algoritmom BlazingText lahko razširite na velike nabore podatkov. BlazingText se uporablja za analizo besedil in težave s klasifikacijo besedil ter ima tako nenadzorovan kot nadzorovan način učenja. Algoritem lahko uporabite za primere uporabe, kot sta analiza razpoloženja strank in klasifikacija besedila.
Če želite izvedeti več o algoritmu BlazingText, si oglejte BlazingText algoritem.
O Author
Dhiraj Thakur je arhitekt rešitev pri Amazon Web Services. Sodeluje s strankami in partnerji AWS, da bi zagotovil smernice o sprejemanju oblaka v podjetju, migraciji in strategiji. Navdušen je nad tehnologijo in uživa v gradnji in eksperimentiranju na področju analitike in AI/ML.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Avtomobili/EV, Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- BlockOffsets. Posodobitev okoljskega offset lastništva. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :ima
- : je
- :ne
- :kje
- $GOR
- 1
- 7
- a
- O meni
- natančnost
- prilagodijo
- Dodaja
- Sprejetje
- oglasi
- AI / ML
- algoritem
- algoritmi
- Prav tako
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- Analiza
- analitika
- in
- kaj
- API
- zdi
- aplikacije
- SE
- Argument
- AS
- At
- Poskusi
- samodejno
- izogniti
- AWS
- temeljijo
- BE
- postane
- bilo
- spodaj
- Bot
- tako
- izgradnjo
- Building
- vgrajeno
- vendar
- by
- klic
- kliče
- CAN
- primeru
- primeri
- Kategorija
- verige
- izziv
- spreminjanje
- Channel
- kanali
- preveriti
- Izberite
- Razvrstitev
- Cloud
- sprejem v oblak
- Stolpec
- dokončanje
- vsebujejo
- Posoda
- vsebina
- pretvorbo
- strošek
- ustvarjajo
- stranka
- Stranke, ki so
- Nevarno
- datum
- Priprava podatkov
- znanost o podatkih
- nabor podatkov
- ponudba
- dokazuje,
- razporedi
- Podrobnosti
- Odkrivanje
- naprava
- drugačen
- dokument
- 2
- vsak
- učinek
- E-naslov
- e-pošta
- konec
- Končna točka
- Podjetje
- entiteta
- bistvena
- Primer
- Primeri
- pričakuje
- dodatna
- ponaredek
- ponarejeni oglasi
- file
- datoteke
- filter
- prva
- po
- za
- format
- Petek
- iz
- dobili
- GitHub
- Navodila
- he
- Kako
- HTML
- HTTPS
- človeškega
- if
- slika
- Takojšen
- Pomembno
- izboljšanju
- in
- vključujejo
- Podatki
- primer
- Navodila
- v
- IT
- ITS
- jpg
- znano
- Oznake
- Država
- jezik
- velika
- UČITE
- učenje
- Knjižnica
- kot
- vrstica
- LINK
- obremenitev
- stroj
- ročno
- Maj ..
- Sporočilo
- sporočil
- Metoda
- migracije
- način
- Model
- načini
- več
- Najbolj
- veliko
- več
- Imenovan
- naravna
- Obdelava Natural Language
- Narava
- Nimate
- Novo
- Naslednja
- nlp
- prenosnik
- zdaj
- Številka
- of
- Ponudbe
- Office
- pogosto
- on
- enkrat
- ONE
- odprite
- optimizirana
- or
- organizacije
- Ostalo
- drugače
- naši
- ven
- zlasti
- partnerji
- Podaje
- strastno
- Izvedite
- Ribarjenje
- platon
- Platonova podatkovna inteligenca
- PlatoData
- mogoče
- Prispevek
- napovedati
- Napovedi
- prednostno
- Priprava
- predpogoji
- Težave
- obravnavati
- zaščito
- zagotavljajo
- Python
- Lestvica
- Priznanje
- obvezna
- tisti,
- REST
- Pravica
- Tveganje
- vloge
- Run
- sagemaker
- Vzorčni niz podatkov
- Lestvica
- prevare
- Znanost
- varnost
- Varnostne grožnje
- glej
- izbran
- občutljiva
- poslan
- stavek
- sentiment
- Storitve
- nastavite
- shouldnt
- Prikaži
- pokazale
- Enostavno
- sam
- rešitve
- Vesolje
- spam
- po delih
- Korak
- Koraki
- shranjevanje
- naravnost
- Strategija
- studio
- taka
- poletje
- Bodite
- Naloga
- Naloge
- tehnike
- Tehnologija
- Test
- Razvrstitev besedil
- da
- O
- njihove
- Njih
- Tukaj.
- jih
- ta
- grožnje
- 3
- skozi
- do
- tokenizirano
- Boni
- Vlak
- usposobljeni
- usposabljanje
- prevod
- Vrste
- tipično
- Nepričakovana
- naložili
- uporaba
- primeru uporabe
- Rabljeni
- Uporabniki
- uporabo
- potrjevanje
- vrednost
- različnih
- preverjanje
- hodil
- želeli
- we
- web
- spletne storitve
- kdaj
- ki
- WHO
- zmago
- z
- deluje
- Vi
- Vaša rutina za
- zefirnet