Skräppost, även känd som skräppost, skickas till ett stort antal användare samtidigt och innehåller ofta bedrägerier, nätfiskeinnehåll eller kryptiska meddelanden. Spam-e-postmeddelanden skickas ibland manuellt av en människa, men oftast skickas de med hjälp av en bot. Exempel på skräppost är falska annonser, kedjee-postmeddelanden och försök till identitetsstöld. Det finns en risk att ett särskilt väl förtäckt skräppostmeddelande kan landa i din inkorg, vilket kan vara farligt om du klickar på det. Det är viktigt att vidta extra försiktighetsåtgärder för att skydda din enhet och känslig information.
I takt med att tekniken förbättras blir det en utmanande uppgift att upptäcka skräppost på grund av dess föränderliga karaktär. Spam skiljer sig ganska mycket från andra typer av säkerhetshot. Det kan till en början verka som ett irriterande meddelande och inte ett hot, men det har en omedelbar effekt. Även spammare anpassar ofta nya tekniker. Organisationer som tillhandahåller e-posttjänster vill minimera spam så mycket som möjligt för att undvika skador på sina slutkunder.
I det här inlägget visar vi hur enkelt det är att bygga en skräppostdetektor för e-post med hjälp av Amazon SageMaker. Den inbyggda BlazingText-algoritm erbjuder optimerade implementeringar av Word2vec och textklassificeringsalgoritmer. Word2vec är användbart för olika NLP-uppgifter (natural language processing), såsom sentimentanalys, namngiven enhetsigenkänning och maskinöversättning. Textklassificering är avgörande för applikationer som webbsökningar, informationssökning, rangordning och dokumentklassificering.
Lösningsöversikt
Det här inlägget visar hur du kan ställa in skräppostdetektor och filtrera skräppost med SageMaker. Låt oss se hur en skräppostdetektor vanligtvis fungerar, som visas i följande diagram.
E-postmeddelanden skickas genom en skräppostdetektor. Ett e-postmeddelande skickas till skräppostmappen om skräppostdetektorn upptäcker det som skräppost. Annars skickas det till kundens inkorg.
Vi leder dig genom följande steg för att ställa in vår modell för skräppostdetektor:
- Ladda ner exempeldataset från GitHub-repo.
- Ladda data i en Amazon SageMaker Studio anteckningsbok.
- Förbered data för modellen.
- Träna, distribuera och testa modellen.
Förutsättningar
Innan du dyker in i detta användningsfall måste du uppfylla följande förutsättningar:
- Ställ in en AWS-konto.
- Ställ in en SageMaker-domän.
- Skapa ett Amazon enkel lagringstjänst (Amazon S3) hink. För instruktioner, se Skapa din första S3-skopa.
Ladda ner datasetet
Ladda ner email_dataset.csv från GitHub och ladda upp filen till S3-bucket.
BlazingText-algoritmen förväntar sig en enda förbehandlad textfil med mellanslagsseparerade tokens. Varje rad i filen bör innehålla en enda mening. Om du behöver träna på flera textfiler, sammanfoga dem till en fil och ladda upp filen i respektive kanal.
Ladda data i SageMaker Studio
Utför följande steg för att utföra dataladdningen:
- ladda ner
spam_detector.ipynb
fil från GitHub och ladda upp filen i SageMaker Studio. - Öppna din Studio-anteckningsbok
spam_detector.ipynb
anteckningsbok. - Om du uppmanas att välja en kärna, välj Python 3 (Data Science 3.0) kärnan och välj Välja. Om inte, verifiera att rätt kärna har valts automatiskt.
- Importera det nödvändiga Python-biblioteket och ställ in rollerna och S3-hinkarna. Ange S3-bucket och prefix där du laddade upp email_dataset.csv.
- Kör dataladdningssteget i notebook-datorn.
- Kontrollera om datasetet är balanserat eller inte baserat på kategorietiketterna.
Vi kan se att vår datauppsättning är balanserad.
Förbered data
BlazingText-algoritmen förväntar sig data i följande format:
Här är ett exempel:
Kolla upp Utbildnings- och valideringsdataformat för BlazingText-algoritmen.
Du kör nu dataförberedelsesteget i den bärbara datorn.
- Först måste du konvertera kategorikolumnen till ett heltal. Följande cell ersätter SPAM-värdet med 1 och HAM-värdet med 0.
- Nästa cell lägger till prefixet
__label__
till varje kategorivärde och tokeniserar meddelandekolumnen.
- Nästa steg är att dela upp datasetet i tåg- och valideringsdatauppsättningar och ladda upp filerna till S3-bucket.
Träna modellen
Utför följande steg i anteckningsboken för att träna modellen:
- Ställ in BlazingText estimator och skapa en estimator instans som skickar behållarbilden.
- Ställ in inlärningslägets hyperparameter till övervakad.
BlazingText har både oövervakade och övervakade inlärningslägen. Vårt användningsfall är textklassificering, vilket är övervakat lärande.
- Skapa tåg- och valideringsdatakanalerna.
- Börja träna modellen.
- Få noggrannheten i tåget och valideringsdataset.
Distribuera modellen
I det här steget använder vi den utbildade modellen som en slutpunkt. Välj din föredragna instans
Testa modellen
Låt oss ge ett exempel på tre e-postmeddelanden som vi vill få prognoser för:
- Klicka på länken nedan, ange dina uppgifter och vinn denna utmärkelse
- Bästa sommarerbjudandet här
- Vi ses på kontoret på fredag.
Tokenisera e-postmeddelandet och ange nyttolasten som ska användas när du anropar REST API.
Nu kan vi förutsäga e-postklassificeringen för varje e-postmeddelande. Anropa förutsägningsmetoden för textklassificeraren och skicka de tokeniserade meningsinstanserna (nyttolasten) till dataargumentet.
Städa upp
Slutligen kan du ta bort slutpunkten för att undvika oväntade kostnader.
Ta också bort datafil från S3 bucket.
Slutsats
I det här inlägget ledde vi dig genom stegen för att skapa en skräppostdetektor för e-post med hjälp av SageMaker BlazingText-algoritm. Med BlazingText-algoritmen kan du skala till stora datamängder. BlazingText används för textanalys och textklassificeringsproblem och har både oövervakade och övervakade inlärningslägen. Du kan använda algoritmen för användningsfall som analys av kundsentiment och textklassificering.
För att lära dig mer om BlazingText-algoritmen, kolla in BlazingText-algoritm.
Om författaren
Dhiraj Thakur är en lösningsarkitekt med Amazon Web Services. Han samarbetar med AWS-kunder och -partners för att ge vägledning om införande, migrering och strategi för företagsmoln. Han brinner för teknik och tycker om att bygga och experimentera inom analys- och AI/ML-området.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Fordon / elbilar, Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- BlockOffsets. Modernisera miljökompensation ägande. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- : har
- :är
- :inte
- :var
- $UPP
- 1
- 7
- a
- Om oss
- noggrannhet
- anpassa
- Lägger
- Antagande
- annonser
- AI / ML
- algoritm
- algoritmer
- också
- amason
- Amazon SageMaker
- Amazon Web Services
- an
- analys
- analytics
- och
- vilken som helst
- api
- visas
- tillämpningar
- ÄR
- Argumentet
- AS
- At
- Försök
- automatiskt
- undvika
- AWS
- baserat
- BE
- blir
- varit
- nedan
- Bot
- båda
- SLUTRESULTAT
- Byggnad
- inbyggd
- men
- by
- Ring
- anropande
- KAN
- Vid
- fall
- Kategori
- kedja
- utmanande
- byte
- Kanal
- kanaler
- ta
- Välja
- klassificering
- cloud
- moln adoption
- Kolumn
- fullborda
- innehålla
- Behållare
- innehåll
- konvertera
- Pris
- skapa
- kund
- Kunder
- Dangerous
- datum
- Förberedelse av data
- datavetenskap
- datauppsättningar
- behandla
- demonstrerar
- distribuera
- detaljer
- Detektering
- anordning
- olika
- dokumentera
- grund
- varje
- effekt
- e
- änden
- Slutpunkt
- Företag
- enhet
- väsentlig
- exempel
- exempel
- förväntar
- extra
- fejka
- falska annonser
- Fil
- Filer
- filtrera
- Förnamn
- efter
- För
- format
- Fredag
- från
- skaffa sig
- GitHub
- vägleda
- he
- Hur ser din drömresa ut
- html
- HTTPS
- humant
- if
- bild
- omedelbar
- med Esport
- förbättra
- in
- innefattar
- informationen
- exempel
- instruktioner
- in
- IT
- DESS
- jpg
- känd
- Etiketter
- land
- språk
- Large
- LÄRA SIG
- inlärning
- Bibliotek
- tycka om
- linje
- LINK
- läsa in
- Maskinen
- manuellt
- Maj..
- meddelande
- meddelanden
- metod
- migration
- Mode
- modell
- lägen
- mer
- mest
- mycket
- multipel
- Som heter
- Natural
- Naturlig språkbehandling
- Natur
- Behöver
- Nya
- Nästa
- nlp
- anteckningsbok
- nu
- antal
- of
- Erbjudanden
- Office
- Ofta
- on
- gång
- ONE
- öppet
- optimerad
- or
- organisationer
- Övriga
- annat
- vår
- ut
- särskilt
- partner
- Förbi
- brinner
- Utföra
- Nätfiske
- plato
- Platon Data Intelligence
- PlatonData
- möjlig
- Inlägg
- förutse
- Förutsägelser
- föredragen
- beredning
- förutsättningar
- problem
- bearbetning
- skydda
- ge
- Python
- Rankning
- erkännande
- Obligatorisk
- att
- REST
- höger
- Risk
- roller
- Körning
- sagemaker
- Exempeldatauppsättning
- Skala
- bedrägerier
- Vetenskap
- säkerhet
- Säkerhetshot
- se
- vald
- känslig
- skickas
- mening
- känsla
- Tjänster
- in
- skall
- show
- visas
- Enkelt
- enda
- Lösningar
- Utrymme
- skräppost
- delas
- Steg
- Steg
- förvaring
- okomplicerad
- Strategi
- studio
- sådana
- sommar
- Ta
- uppgift
- uppgifter
- tekniker
- Teknologi
- testa
- Textklassificering
- den där
- Smakämnen
- deras
- Dem
- Där.
- de
- detta
- hot
- tre
- Genom
- till
- befogenhetsbeskrivas
- tokens
- Tåg
- tränad
- Utbildning
- Översättning
- typer
- typiskt
- Oväntat
- uppladdad
- användning
- användningsfall
- Begagnade
- användare
- med hjälp av
- godkännande
- värde
- olika
- verifiera
- promenerade
- vill
- we
- webb
- webbservice
- när
- som
- VEM
- vinna
- med
- fungerar
- Om er
- Din
- zephyrnet