Δημιουργήστε έναν ανιχνευτή ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου χρησιμοποιώντας το Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Τα ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου, γνωστά και ως ανεπιθύμητη αλληλογραφία, αποστέλλονται σε μεγάλο αριθμό χρηστών ταυτόχρονα και συχνά περιέχουν απάτες, περιεχόμενο phishing ή κρυπτικά μηνύματα. Τα ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου μερικές φορές αποστέλλονται χειροκίνητα από έναν άνθρωπο, αλλά τις περισσότερες φορές αποστέλλονται χρησιμοποιώντας ένα bot. Παραδείγματα ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου περιλαμβάνουν ψεύτικες διαφημίσεις, αλυσιδωτά μηνύματα ηλεκτρονικού ταχυδρομείου και απόπειρες πλαστοπροσωπίας. Υπάρχει κίνδυνος ένα ιδιαίτερα καλυμμένο spam email να φτάσει στα εισερχόμενά σας, κάτι που μπορεί να είναι επικίνδυνο εάν κάνετε κλικ. Είναι σημαντικό να λαμβάνετε επιπλέον προφυλάξεις για την προστασία της συσκευής και των ευαίσθητων πληροφοριών σας.

Καθώς η τεχνολογία βελτιώνεται, ο εντοπισμός των ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου γίνεται μια πρόκληση λόγω της μεταβαλλόμενης φύσης του. Τα ανεπιθύμητα μηνύματα διαφέρουν αρκετά από άλλα είδη απειλών ασφαλείας. Μπορεί στην αρχή να φαίνεται σαν ενοχλητικό μήνυμα και όχι α απειλή, αλλά έχει άμεσο αποτέλεσμα. Επίσης, οι spammers προσαρμόζουν συχνά νέες τεχνικές. Οι οργανισμοί που παρέχουν υπηρεσίες email θέλουν να ελαχιστοποιήσουν τα ανεπιθύμητα μηνύματα όσο το δυνατόν περισσότερο για να αποφύγουν οποιαδήποτε ζημιά στους τελικούς πελάτες τους.

Σε αυτήν την ανάρτηση, δείχνουμε πόσο απλό είναι να δημιουργήσετε έναν ανιχνευτή spam email χρησιμοποιώντας Amazon Sage Maker. Το ενσωματωμένο Αλγόριθμος BlazingText προσφέρει βελτιστοποιημένες υλοποιήσεις του Word2vec και αλγορίθμων ταξινόμησης κειμένου. Το Word2vec είναι χρήσιμο για διάφορες εργασίες επεξεργασίας φυσικής γλώσσας (NLP), όπως η ανάλυση συναισθήματος, η αναγνώριση ονομαστικών οντοτήτων και η αυτόματη μετάφραση. Η ταξινόμηση κειμένων είναι απαραίτητη για εφαρμογές όπως οι αναζητήσεις ιστού, η ανάκτηση πληροφοριών, η κατάταξη και η ταξινόμηση εγγράφων.

Επισκόπηση λύσεων

Αυτή η ανάρτηση δείχνει πώς μπορείτε να ρυθμίσετε τον ανιχνευτή ανεπιθύμητης αλληλογραφίας και να φιλτράρετε τα ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου χρησιμοποιώντας το SageMaker. Ας δούμε πώς λειτουργεί συνήθως ένας ανιχνευτής ανεπιθύμητης αλληλογραφίας, όπως φαίνεται στο παρακάτω διάγραμμα.

Δημιουργήστε έναν ανιχνευτή ανεπιθύμητης αλληλογραφίας χρησιμοποιώντας το Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα email αποστέλλονται μέσω ανιχνευτή ανεπιθύμητων μηνυμάτων. Ένα email αποστέλλεται στον φάκελο ανεπιθύμητης αλληλογραφίας εάν ο ανιχνευτής ανεπιθύμητης αλληλογραφίας το εντοπίσει ως ανεπιθύμητο. Διαφορετικά, αποστέλλεται στα εισερχόμενα του πελάτη.

Σας καθοδηγούμε στα ακόλουθα βήματα για να ρυθμίσετε το μοντέλο ανιχνευτή ανεπιθύμητης αλληλογραφίας:

Κάντε λήψη του δείγματος δεδομένων από το αποθετήριο GitHub.
Φορτώστε τα δεδομένα σε ένα Στούντιο Amazon SageMaker σημειωματάριο.
Προετοιμάστε τα δεδομένα για το μοντέλο.
Εκπαιδεύστε, αναπτύξτε και δοκιμάστε το μοντέλο.

Προϋποθέσεις

Πριν βουτήξετε σε αυτήν την περίπτωση χρήσης, συμπληρώστε τις ακόλουθες προϋποθέσεις:

Δημιουργήστε ένα Λογαριασμός AWS.
Ρύθμιση a Τομέας SageMaker.
Δημιουργία ενός Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος. Για οδηγίες, βλ Δημιουργήστε τον πρώτο σας κάδο S3.

Κατεβάστε το σύνολο δεδομένων

Κατεβάστε το email_dataset.csv από GitHub και μεταφορτώστε το αρχείο στον κάδο S3.

Ο αλγόριθμος BlazingText αναμένει ένα μόνο προεπεξεργασμένο αρχείο κειμένου με διακριτικά διαχωρισμένα σε διάστημα. Κάθε γραμμή στο αρχείο θα πρέπει να περιέχει μία μόνο πρόταση. Εάν χρειάζεται να εκπαιδεύσετε πολλά αρχεία κειμένου, συνδέστε τα σε ένα αρχείο και μεταφορτώστε το αρχείο στο αντίστοιχο κανάλι.

Φορτώστε τα δεδομένα στο SageMaker Studio

Για να εκτελέσετε τη φόρτωση δεδομένων, ολοκληρώστε τα παρακάτω βήματα:

Κατεβάστε το spam_detector.ipynb αρχείο από GitHub και μεταφορτώστε το αρχείο στο SageMaker Studio.
Στο σημειωματάριό σας στο Studio, ανοίξτε το spam_detector.ipynb σημειωματάριο.
Εάν σας ζητηθεί να επιλέξετε έναν πυρήνα, επιλέξτε τον πυρήνα Python 3 (Data Science 3.0) και επιλέξτε Αγορά. Εάν όχι, επαληθεύστε ότι ο σωστός πυρήνας έχει επιλεγεί αυτόματα.

Εισαγάγετε την απαιτούμενη βιβλιοθήκη Python και ορίστε τους ρόλους και τους κάδους S3. Καθορίστε τον κάδο S3 και το πρόθεμα όπου ανεβάσατε το email_dataset.csv.

Εκτελέστε το βήμα φόρτωσης δεδομένων στο σημειωματάριο.

Ελέγξτε εάν το σύνολο δεδομένων είναι ισορροπημένο ή όχι με βάση τις ετικέτες κατηγορίας.

Μπορούμε να δούμε ότι το σύνολο δεδομένων μας είναι ισορροπημένο.

Προετοιμάστε τα δεδομένα

Ο αλγόριθμος BlazingText αναμένει τα δεδομένα στην ακόλουθη μορφή:

__label__<label> "<features>"

Εδώ είναι ένα παράδειγμα:

__label__0 “This is HAM"
__label__1 "This is SPAM"

Έλεγχος Μορφή δεδομένων εκπαίδευσης και επικύρωσης για τον αλγόριθμο BlazingText.

Τώρα εκτελείτε το βήμα προετοιμασίας δεδομένων στο σημειωματάριο.

Αρχικά, πρέπει να μετατρέψετε τη στήλη Κατηγορία σε ακέραιο. Το παρακάτω κελί αντικαθιστά την τιμή SPAM με 1 και την τιμή HAM με 0.

Το επόμενο κελί προσθέτει το πρόθεμα __label__ σε κάθε τιμή Κατηγορίας και προσαρμόζει τη στήλη Μήνυμα.

Το επόμενο βήμα είναι να χωρίσετε το σύνολο δεδομένων σε σύνολα δεδομένων εκπαίδευσης και επικύρωσης και να ανεβάσετε τα αρχεία στον κάδο S3.

Εκπαιδεύστε το μοντέλο

Για να εκπαιδεύσετε το μοντέλο, ολοκληρώστε τα ακόλουθα βήματα στο σημειωματάριο:

Ρυθμίστε τον εκτιμητή BlazingText και δημιουργήστε ένα παράδειγμα εκτιμητή περνώντας την εικόνα του κοντέινερ.

Ρυθμίστε την υπερπαράμετρο τρόπου εκμάθησης σε εποπτευόμενη.

Το BlazingText διαθέτει τρόπους εκμάθησης τόσο χωρίς επίβλεψη όσο και με επίβλεψη. Η περίπτωση χρήσης μας είναι η ταξινόμηση κειμένου, η οποία είναι η εποπτευόμενη μάθηση.

Δημιουργήστε το τρένο και τα κανάλια δεδομένων επικύρωσης.

Ξεκινήστε την εκπαίδευση του μοντέλου.

Λάβετε την ακρίβεια του συρμού και των δεδομένων επικύρωσης.

Αναπτύξτε το μοντέλο

Σε αυτό το βήμα, αναπτύσσουμε το εκπαιδευμένο μοντέλο ως τελικό σημείο. Επιλέξτε το προτιμώμενο παράδειγμα

Δοκιμάστε το μοντέλο

Ας δώσουμε ένα παράδειγμα τριών μηνυμάτων ηλεκτρονικού ταχυδρομείου για τα οποία θέλουμε να λαμβάνουμε προβλέψεις:

Κάντε κλικ στον παρακάτω σύνδεσμο, δώστε τα στοιχεία σας και κερδίστε αυτό το βραβείο
Η καλύτερη καλοκαιρινή προσφορά εδώ
Τα λέμε στο γραφείο την Παρασκευή.

Προσαρμόστε το μήνυμα ηλεκτρονικού ταχυδρομείου και καθορίστε το ωφέλιμο φορτίο που θα χρησιμοποιηθεί κατά την κλήση του REST API.

Τώρα μπορούμε να προβλέψουμε την ταξινόμηση email για κάθε email. Καλέστε τη μέθοδο πρόβλεψης του ταξινομητή κειμένου, περνώντας τις παρουσίες προτάσεων με διακριτικό (ωφέλιμο φορτίο) στο όρισμα δεδομένων.

εκκαθάριση

Τέλος, μπορείτε να διαγράψετε το τελικό σημείο για να αποφύγετε οποιοδήποτε απροσδόκητο κόστος.

Επίσης, διαγράψτε το αρχείο δεδομένων από τον κάδο S3.

Συμπέρασμα

Σε αυτήν την ανάρτηση, σας καθοδηγήσαμε στα βήματα για να δημιουργήσετε έναν ανιχνευτή ανεπιθύμητης αλληλογραφίας χρησιμοποιώντας το Αλγόριθμος SageMaker BlazingText. Με τον αλγόριθμο BlazingText, μπορείτε να κλιμακώσετε σε μεγάλα σύνολα δεδομένων. Το BlazingText χρησιμοποιείται για προβλήματα ανάλυσης κειμένου και ταξινόμησης κειμένου και έχει τρόπους μάθησης χωρίς επίβλεψη και επίβλεψη. Μπορείτε να χρησιμοποιήσετε τον αλγόριθμο για περιπτώσεις χρήσης όπως ανάλυση συναισθήματος πελατών και ταξινόμηση κειμένου.

Για να μάθετε περισσότερα σχετικά με τον αλγόριθμο BlazingText, ρίξτε μια ματιά Αλγόριθμος BlazingText.

Σχετικά με το Συγγραφέας

Dhiraj Thakur είναι αρχιτέκτονας λύσεων με τις υπηρεσίες Web της Amazon. Συνεργάζεται με πελάτες και συνεργάτες της AWS για να παρέχει καθοδήγηση σχετικά με την υιοθέτηση, τη μετανάστευση και τη στρατηγική εταιρικού cloud. Είναι παθιασμένος με την τεχνολογία και του αρέσει να χτίζει και να πειραματίζεται στον χώρο ανάλυσης και AI/ML.