Wiadomości spamowe, zwane także wiadomościami-śmieciami, są wysyłane jednocześnie do dużej liczby użytkowników i często zawierają oszustwa, treści typu phishing lub tajemnicze wiadomości. Wiadomości spamowe są czasami wysyłane ręcznie przez człowieka, ale najczęściej są wysyłane za pomocą bota. Przykładami wiadomości spamowych są fałszywe reklamy, łańcuszki e-maili i próby podszywania się pod inne osoby. Istnieje ryzyko, że szczególnie dobrze zamaskowana wiadomość spamowa może wylądować w Twojej skrzynce odbiorczej, a kliknięcie może być niebezpieczne. Ważne jest, aby podjąć dodatkowe środki ostrożności w celu ochrony urządzenia i poufnych informacji.
W miarę ulepszania się technologii wykrywanie wiadomości e-mail zawierających spam staje się trudnym zadaniem ze względu na jego zmieniający się charakter. Spam różni się znacznie od innych rodzajów zagrożeń bezpieczeństwa. Na pierwszy rzut oka może się to wydawać irytującą wiadomością, a nie wiadomością groźba, ale ma natychmiastowy efekt. Również spamerzy często adaptują nowe techniki. Organizacje świadczące usługi poczty e-mail chcą w jak największym stopniu minimalizować spam, aby uniknąć szkód dla klientów końcowych.
W tym poście pokazujemy, jak proste jest zbudowanie detektora spamu e-mailowego Amazon Sage Maker. Wbudowany Algorytm BlazingText oferuje zoptymalizowane implementacje algorytmów klasyfikacji Word2vec i tekstu. Word2vec jest przydatny do różnych zadań związanych z przetwarzaniem języka naturalnego (NLP), takich jak analiza tonacji, rozpoznawanie nazwanych jednostek i tłumaczenie maszynowe. Klasyfikacja tekstu jest niezbędna w zastosowaniach takich jak wyszukiwanie w Internecie, wyszukiwanie informacji, rankingowanie i klasyfikacja dokumentów.
Omówienie rozwiązania
W tym poście pokazano, jak skonfigurować wykrywacz spamu e-mailowego i filtrować wiadomości spamowe za pomocą programu SageMaker. Zobaczmy, jak zazwyczaj działa wykrywacz spamu, jak pokazano na poniższym diagramie.
Wiadomości e-mail są wysyłane za pośrednictwem detektora spamu. Wiadomość e-mail zostanie wysłana do folderu ze spamem, jeśli wykrywacz spamu wykryje ją jako spam. W przeciwnym razie jest wysyłany na skrzynkę odbiorczą klienta.
Przeprowadzimy Cię przez następujące kroki, aby skonfigurować nasz model detektora spamu:
- Pobierz przykładowy zestaw danych z repozytorium GitHub.
- Załaduj dane do pliku Studio Amazon SageMaker notatnik.
- Przygotuj dane do modelu.
- Trenuj, wdrażaj i testuj model.
Wymagania wstępne
Zanim zagłębisz się w ten przypadek użycia, spełnij następujące wymagania wstępne:
- Skonfiguruj Konto AWS.
- Ustawić Domena SageMakera.
- Tworzenie Usługa Amazon Simple Storage Łyżka (Amazon S3). Aby uzyskać instrukcje, zobacz Utwórz swój pierwszy zasobnik S3.
Pobierz zbiór danych
Pobierz plik email_dataset.csv z GitHub i prześlij plik do segmentu S3.
Algorytm BlazingText oczekuje pojedynczego, wstępnie przetworzonego pliku tekstowego z tokenami oddzielonymi spacjami. Każda linia pliku powinna zawierać jedno zdanie. Jeśli chcesz trenować na wielu plikach tekstowych, połącz je w jeden plik i prześlij go na odpowiedni kanał.
Załaduj dane do SageMaker Studio
Aby wykonać ładowanie danych, wykonaj następujące czynności:
- Pobierz
spam_detector.ipynb
plik z GitHub i prześlij plik do SageMaker Studio. - W notatniku Studio otwórz plik
spam_detector.ipynb
notatnik. - Jeśli pojawi się monit o wybranie jądra, wybierz jądro Python 3 (Data Science 3.0) i wybierz Wybierz. Jeśli nie, sprawdź, czy automatycznie zostało wybrane właściwe jądro.
- Zaimportuj wymaganą bibliotekę Pythona i ustaw role oraz segmenty S3. Określ segment S3 i prefiks, do którego przesłano plik email_dataset.csv.
- Uruchom krok ładowania danych w notatniku.
- Sprawdź, czy zestaw danych jest zrównoważony, czy nie, na podstawie etykiet kategorii.
Widzimy, że nasz zbiór danych jest zrównoważony.
Przygotuj dane
Algorytm BlazingText oczekuje danych w następującym formacie:
Oto przykład:
Kontrola Format danych szkoleniowych i walidacyjnych dla algorytmu BlazingText.
Uruchom teraz w notatniku etap przygotowania danych.
- Najpierw musisz przekonwertować kolumnę Kategoria na liczbę całkowitą. Następująca komórka zastępuje wartość SPAM wartością 1 i wartością HAM wartością 0.
- Następna komórka dodaje przedrostek
__label__
do każdej wartości kategorii i tokenizuje kolumnę Wiadomość.
- Następnym krokiem jest podzielenie zestawu danych na zestawy danych pociągowych i walidacyjnych oraz przesłanie plików do segmentu S3.
Trenuj model
Aby wytrenować model, wykonaj następujące kroki w notatniku:
- Skonfiguruj estymator BlazingText i utwórz instancję estymatora przekazującą obraz kontenera.
- Ustaw hiperparametr trybu uczenia się na nadzorowany.
BlazingText ma zarówno tryby uczenia się bez nadzoru, jak i nadzorowanego. Naszym przypadkiem użycia jest klasyfikacja tekstu, czyli uczenie się nadzorowane.
- Utwórz kanały danych pociągowych i walidacyjnych.
- Rozpocznij trenowanie modelu.
- Uzyskaj dokładność zestawu danych pociągu i walidacji.
Wdróż model
W tym kroku wdrażamy przeszkolony model jako punkt końcowy. Wybierz preferowaną instancję
Przetestuj model
Podajmy przykład trzech wiadomości e-mail, dla których chcemy uzyskać prognozy:
- Kliknij poniższy link, podaj swoje dane i wygraj tę nagrodę
- Najlepsza oferta letnia tutaj
- Do zobaczenia w piątek w biurze.
Tokenizuj wiadomość e-mail i określ ładunek, który będzie używany podczas wywoływania interfejsu API REST.
Teraz możemy przewidzieć klasyfikację każdego e-maila. Wywołaj metodę przewidywania klasyfikatora tekstu, przekazując tokenizowane instancje zdań (ładunek) do argumentu danych.
Sprzątać
Na koniec możesz usunąć punkt końcowy, aby uniknąć nieoczekiwanych kosztów.
Usuń także plik danych z segmentu S3.
Wnioski
W tym poście przeprowadziliśmy Cię przez kroki tworzenia detektora spamu e-mailowego za pomocą Algorytm SageMaker BlazingText. Dzięki algorytmowi BlazingText możesz skalować do dużych zbiorów danych. BlazingText jest używany do rozwiązywania problemów związanych z analizą i klasyfikacją tekstu oraz posiada zarówno tryb uczenia się bez nadzoru, jak i z nadzorem. Algorytmu można używać do przypadków użycia, takich jak analiza nastrojów klientów i klasyfikacja tekstu.
Aby dowiedzieć się więcej o algorytmie BlazingText, sprawdź Algorytm BlazingText.
O autorze
Dhiraj Thakura jest architektem rozwiązań w Amazon Web Services. Współpracuje z klientami i partnerami AWS, aby zapewnić wskazówki dotyczące wdrażania chmury korporacyjnej, migracji i strategii. Pasjonuje się technologią, lubi budować i eksperymentować w przestrzeni analitycznej i AI / ML.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Motoryzacja / pojazdy elektryczne, Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Przesunięcia bloków. Modernizacja własności offsetu środowiskowego. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :ma
- :Jest
- :nie
- :Gdzie
- $W GÓRĘ
- 1
- 7
- a
- O nas
- precyzja
- przystosować
- Dodaje
- Przyjęcie
- Reklamy
- AI / ML
- algorytm
- Algorytmy
- również
- Amazonka
- Amazon Sage Maker
- Amazon Web Services
- an
- analiza
- analityka
- i
- każdy
- api
- zjawić się
- aplikacje
- SĄ
- argument
- AS
- At
- Próby
- automatycznie
- uniknąć
- AWS
- na podstawie
- BE
- staje się
- być
- poniżej
- Bot
- obie
- budować
- Budowanie
- wbudowany
- ale
- by
- wezwanie
- powołanie
- CAN
- walizka
- Etui
- Kategoria
- łańcuch
- wyzwanie
- wymiana pieniędzy
- Kanał
- kanały
- ZOBACZ
- Dodaj
- klasyfikacja
- Chmura
- adopcja chmury
- Kolumna
- kompletny
- zawierać
- Pojemnik
- zawartość
- konwertować
- Koszty:
- Stwórz
- klient
- Klientów
- Niebezpieczny
- dane
- Przygotowywanie danych
- nauka danych
- zbiory danych
- sprawa
- demonstruje
- rozwijać
- detale
- Wykrywanie
- urządzenie
- różne
- dokument
- z powodu
- każdy
- efekt
- e-maile
- zakończenia
- Punkt końcowy
- Enterprise
- jednostka
- niezbędny
- przykład
- przykłady
- oczekuje
- dodatkowy
- imitacja
- fałszywe reklamy
- filet
- Akta
- filtrować
- i terminów, a
- następujący
- W razie zamówieenia projektu
- format
- Piątek
- od
- otrzymać
- GitHub
- poradnictwo
- he
- W jaki sposób
- HTML
- HTTPS
- człowiek
- if
- obraz
- Natychmiastowy
- ważny
- poprawy
- in
- zawierać
- Informacja
- przykład
- instrukcje
- najnowszych
- IT
- JEGO
- jpg
- znany
- Etykiety
- Kraj
- język
- duży
- UCZYĆ SIĘ
- nauka
- Biblioteka
- lubić
- Linia
- LINK
- załadować
- maszyna
- ręcznie
- Może..
- wiadomość
- wiadomości
- metoda
- migracja
- Moda
- model
- Tryby
- jeszcze
- większość
- dużo
- wielokrotność
- O imieniu
- Naturalny
- Przetwarzanie języka naturalnego
- Natura
- Potrzebować
- Nowości
- Następny
- nlp
- notatnik
- już dziś
- numer
- of
- Oferty
- Biurowe
- często
- on
- pewnego razu
- ONE
- koncepcja
- zoptymalizowane
- or
- organizacji
- Inne
- Inaczej
- ludzkiej,
- na zewnątrz
- szczególnie
- wzmacniacz
- Przechodzący
- namiętny
- wykonać
- phishing
- plato
- Analiza danych Platona
- PlatoDane
- możliwy
- Post
- przewidzieć
- Przewidywania
- Korzystny
- przygotowanie
- warunki wstępne
- problemy
- przetwarzanie
- chronić
- zapewniać
- Python
- Ranking
- uznanie
- wymagany
- osób
- REST
- prawo
- Ryzyko
- role
- run
- sagemaker
- Przykładowy zbiór danych
- Skala
- oszustwa
- nauka
- bezpieczeństwo
- Zagrożenia bezpieczeństwa
- widzieć
- wybrany
- wrażliwy
- wysłany
- wyrok
- sentyment
- Usługi
- zestaw
- powinien
- pokazać
- pokazane
- Prosty
- pojedynczy
- Rozwiązania
- Typ przestrzeni
- spam
- dzielić
- Ewolucja krok po kroku
- Cel
- przechowywanie
- bezpośredni
- Strategia
- studio
- taki
- lato
- Brać
- Zadanie
- zadania
- Techniki
- Technologia
- test
- Klasyfikacja tekstu
- że
- Połączenia
- ich
- Im
- Tam.
- one
- to
- zagrożenia
- trzy
- Przez
- do
- tokenizowany
- Żetony
- Pociąg
- przeszkolony
- Trening
- Tłumaczenie
- typy
- zazwyczaj
- Nieoczekiwany
- przesłanych
- posługiwać się
- przypadek użycia
- używany
- Użytkownicy
- za pomocą
- uprawomocnienie
- wartość
- różnorodny
- zweryfikować
- chodził
- chcieć
- we
- sieć
- usługi internetowe
- jeśli chodzi o komunikację i motywację
- który
- KIM
- wygrać
- w
- działa
- You
- Twój
- zefirnet