Τα ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου, γνωστά και ως ανεπιθύμητη αλληλογραφία, αποστέλλονται σε μεγάλο αριθμό χρηστών ταυτόχρονα και συχνά περιέχουν απάτες, περιεχόμενο phishing ή κρυπτικά μηνύματα. Τα ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου μερικές φορές αποστέλλονται χειροκίνητα από έναν άνθρωπο, αλλά τις περισσότερες φορές αποστέλλονται χρησιμοποιώντας ένα bot. Παραδείγματα ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου περιλαμβάνουν ψεύτικες διαφημίσεις, αλυσιδωτά μηνύματα ηλεκτρονικού ταχυδρομείου και απόπειρες πλαστοπροσωπίας. Υπάρχει κίνδυνος ένα ιδιαίτερα καλυμμένο spam email να φτάσει στα εισερχόμενά σας, κάτι που μπορεί να είναι επικίνδυνο εάν κάνετε κλικ. Είναι σημαντικό να λαμβάνετε επιπλέον προφυλάξεις για την προστασία της συσκευής και των ευαίσθητων πληροφοριών σας.
Καθώς η τεχνολογία βελτιώνεται, ο εντοπισμός των ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου γίνεται μια πρόκληση λόγω της μεταβαλλόμενης φύσης του. Τα ανεπιθύμητα μηνύματα διαφέρουν αρκετά από άλλα είδη απειλών ασφαλείας. Μπορεί στην αρχή να φαίνεται σαν ενοχλητικό μήνυμα και όχι α απειλή, αλλά έχει άμεσο αποτέλεσμα. Επίσης, οι spammers προσαρμόζουν συχνά νέες τεχνικές. Οι οργανισμοί που παρέχουν υπηρεσίες email θέλουν να ελαχιστοποιήσουν τα ανεπιθύμητα μηνύματα όσο το δυνατόν περισσότερο για να αποφύγουν οποιαδήποτε ζημιά στους τελικούς πελάτες τους.
Σε αυτήν την ανάρτηση, δείχνουμε πόσο απλό είναι να δημιουργήσετε έναν ανιχνευτή spam email χρησιμοποιώντας Amazon Sage Maker. Το ενσωματωμένο Αλγόριθμος BlazingText προσφέρει βελτιστοποιημένες υλοποιήσεις του Word2vec και αλγορίθμων ταξινόμησης κειμένου. Το Word2vec είναι χρήσιμο για διάφορες εργασίες επεξεργασίας φυσικής γλώσσας (NLP), όπως η ανάλυση συναισθήματος, η αναγνώριση ονομαστικών οντοτήτων και η αυτόματη μετάφραση. Η ταξινόμηση κειμένων είναι απαραίτητη για εφαρμογές όπως οι αναζητήσεις ιστού, η ανάκτηση πληροφοριών, η κατάταξη και η ταξινόμηση εγγράφων.
Επισκόπηση λύσεων
Αυτή η ανάρτηση δείχνει πώς μπορείτε να ρυθμίσετε τον ανιχνευτή ανεπιθύμητης αλληλογραφίας και να φιλτράρετε τα ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου χρησιμοποιώντας το SageMaker. Ας δούμε πώς λειτουργεί συνήθως ένας ανιχνευτής ανεπιθύμητης αλληλογραφίας, όπως φαίνεται στο παρακάτω διάγραμμα.
Τα email αποστέλλονται μέσω ανιχνευτή ανεπιθύμητων μηνυμάτων. Ένα email αποστέλλεται στον φάκελο ανεπιθύμητης αλληλογραφίας εάν ο ανιχνευτής ανεπιθύμητης αλληλογραφίας το εντοπίσει ως ανεπιθύμητο. Διαφορετικά, αποστέλλεται στα εισερχόμενα του πελάτη.
Σας καθοδηγούμε στα ακόλουθα βήματα για να ρυθμίσετε το μοντέλο ανιχνευτή ανεπιθύμητης αλληλογραφίας:
- Κάντε λήψη του δείγματος δεδομένων από το αποθετήριο GitHub.
- Φορτώστε τα δεδομένα σε ένα Στούντιο Amazon SageMaker σημειωματάριο.
- Προετοιμάστε τα δεδομένα για το μοντέλο.
- Εκπαιδεύστε, αναπτύξτε και δοκιμάστε το μοντέλο.
Προϋποθέσεις
Πριν βουτήξετε σε αυτήν την περίπτωση χρήσης, συμπληρώστε τις ακόλουθες προϋποθέσεις:
- Δημιουργήστε ένα Λογαριασμός AWS.
- Ρύθμιση a Τομέας SageMaker.
- Δημιουργία ενός Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος. Για οδηγίες, βλ Δημιουργήστε τον πρώτο σας κάδο S3.
Κατεβάστε το σύνολο δεδομένων
Κατεβάστε το email_dataset.csv από GitHub και μεταφορτώστε το αρχείο στον κάδο S3.
Ο αλγόριθμος BlazingText αναμένει ένα μόνο προεπεξεργασμένο αρχείο κειμένου με διακριτικά διαχωρισμένα σε διάστημα. Κάθε γραμμή στο αρχείο θα πρέπει να περιέχει μία μόνο πρόταση. Εάν χρειάζεται να εκπαιδεύσετε πολλά αρχεία κειμένου, συνδέστε τα σε ένα αρχείο και μεταφορτώστε το αρχείο στο αντίστοιχο κανάλι.
Φορτώστε τα δεδομένα στο SageMaker Studio
Για να εκτελέσετε τη φόρτωση δεδομένων, ολοκληρώστε τα παρακάτω βήματα:
- Κατεβάστε το
spam_detector.ipynb
αρχείο από GitHub και μεταφορτώστε το αρχείο στο SageMaker Studio. - Στο σημειωματάριό σας στο Studio, ανοίξτε το
spam_detector.ipynb
σημειωματάριο. - Εάν σας ζητηθεί να επιλέξετε έναν πυρήνα, επιλέξτε τον πυρήνα Python 3 (Data Science 3.0) και επιλέξτε Αγορά. Εάν όχι, επαληθεύστε ότι ο σωστός πυρήνας έχει επιλεγεί αυτόματα.
- Εισαγάγετε την απαιτούμενη βιβλιοθήκη Python και ορίστε τους ρόλους και τους κάδους S3. Καθορίστε τον κάδο S3 και το πρόθεμα όπου ανεβάσατε το email_dataset.csv.
- Εκτελέστε το βήμα φόρτωσης δεδομένων στο σημειωματάριο.
- Ελέγξτε εάν το σύνολο δεδομένων είναι ισορροπημένο ή όχι με βάση τις ετικέτες κατηγορίας.
Μπορούμε να δούμε ότι το σύνολο δεδομένων μας είναι ισορροπημένο.
Προετοιμάστε τα δεδομένα
Ο αλγόριθμος BlazingText αναμένει τα δεδομένα στην ακόλουθη μορφή:
Εδώ είναι ένα παράδειγμα:
Έλεγχος Μορφή δεδομένων εκπαίδευσης και επικύρωσης για τον αλγόριθμο BlazingText.
Τώρα εκτελείτε το βήμα προετοιμασίας δεδομένων στο σημειωματάριο.
- Αρχικά, πρέπει να μετατρέψετε τη στήλη Κατηγορία σε ακέραιο. Το παρακάτω κελί αντικαθιστά την τιμή SPAM με 1 και την τιμή HAM με 0.
- Το επόμενο κελί προσθέτει το πρόθεμα
__label__
σε κάθε τιμή Κατηγορίας και προσαρμόζει τη στήλη Μήνυμα.
- Το επόμενο βήμα είναι να χωρίσετε το σύνολο δεδομένων σε σύνολα δεδομένων εκπαίδευσης και επικύρωσης και να ανεβάσετε τα αρχεία στον κάδο S3.
Εκπαιδεύστε το μοντέλο
Για να εκπαιδεύσετε το μοντέλο, ολοκληρώστε τα ακόλουθα βήματα στο σημειωματάριο:
- Ρυθμίστε τον εκτιμητή BlazingText και δημιουργήστε ένα παράδειγμα εκτιμητή περνώντας την εικόνα του κοντέινερ.
- Ρυθμίστε την υπερπαράμετρο τρόπου εκμάθησης σε εποπτευόμενη.
Το BlazingText διαθέτει τρόπους εκμάθησης τόσο χωρίς επίβλεψη όσο και με επίβλεψη. Η περίπτωση χρήσης μας είναι η ταξινόμηση κειμένου, η οποία είναι η εποπτευόμενη μάθηση.
- Δημιουργήστε το τρένο και τα κανάλια δεδομένων επικύρωσης.
- Ξεκινήστε την εκπαίδευση του μοντέλου.
- Λάβετε την ακρίβεια του συρμού και των δεδομένων επικύρωσης.
Αναπτύξτε το μοντέλο
Σε αυτό το βήμα, αναπτύσσουμε το εκπαιδευμένο μοντέλο ως τελικό σημείο. Επιλέξτε το προτιμώμενο παράδειγμα
Δοκιμάστε το μοντέλο
Ας δώσουμε ένα παράδειγμα τριών μηνυμάτων ηλεκτρονικού ταχυδρομείου για τα οποία θέλουμε να λαμβάνουμε προβλέψεις:
- Κάντε κλικ στον παρακάτω σύνδεσμο, δώστε τα στοιχεία σας και κερδίστε αυτό το βραβείο
- Η καλύτερη καλοκαιρινή προσφορά εδώ
- Τα λέμε στο γραφείο την Παρασκευή.
Προσαρμόστε το μήνυμα ηλεκτρονικού ταχυδρομείου και καθορίστε το ωφέλιμο φορτίο που θα χρησιμοποιηθεί κατά την κλήση του REST API.
Τώρα μπορούμε να προβλέψουμε την ταξινόμηση email για κάθε email. Καλέστε τη μέθοδο πρόβλεψης του ταξινομητή κειμένου, περνώντας τις παρουσίες προτάσεων με διακριτικό (ωφέλιμο φορτίο) στο όρισμα δεδομένων.
εκκαθάριση
Τέλος, μπορείτε να διαγράψετε το τελικό σημείο για να αποφύγετε οποιοδήποτε απροσδόκητο κόστος.
Επίσης, διαγράψτε το αρχείο δεδομένων από τον κάδο S3.
Συμπέρασμα
Σε αυτήν την ανάρτηση, σας καθοδηγήσαμε στα βήματα για να δημιουργήσετε έναν ανιχνευτή ανεπιθύμητης αλληλογραφίας χρησιμοποιώντας το Αλγόριθμος SageMaker BlazingText. Με τον αλγόριθμο BlazingText, μπορείτε να κλιμακώσετε σε μεγάλα σύνολα δεδομένων. Το BlazingText χρησιμοποιείται για προβλήματα ανάλυσης κειμένου και ταξινόμησης κειμένου και έχει τρόπους μάθησης χωρίς επίβλεψη και επίβλεψη. Μπορείτε να χρησιμοποιήσετε τον αλγόριθμο για περιπτώσεις χρήσης όπως ανάλυση συναισθήματος πελατών και ταξινόμηση κειμένου.
Για να μάθετε περισσότερα σχετικά με τον αλγόριθμο BlazingText, ρίξτε μια ματιά Αλγόριθμος BlazingText.
Σχετικά με το Συγγραφέας
Dhiraj Thakur είναι αρχιτέκτονας λύσεων με τις υπηρεσίες Web της Amazon. Συνεργάζεται με πελάτες και συνεργάτες της AWS για να παρέχει καθοδήγηση σχετικά με την υιοθέτηση, τη μετανάστευση και τη στρατηγική εταιρικού cloud. Είναι παθιασμένος με την τεχνολογία και του αρέσει να χτίζει και να πειραματίζεται στον χώρο ανάλυσης και AI/ML.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Αυτοκίνητο / EVs, Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- BlockOffsets. Εκσυγχρονισμός της περιβαλλοντικής αντιστάθμισης ιδιοκτησίας. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 1
- 7
- a
- Σχετικα
- ακρίβεια
- προσαρμόσει
- Προσθέτει
- Υιοθεσία
- διαφημίσεις
- AI / ML
- αλγόριθμος
- αλγόριθμοι
- Επίσης
- Amazon
- Amazon Sage Maker
- Amazon υπηρεσίες Web
- an
- ανάλυση
- analytics
- και
- κάθε
- api
- εμφανίζομαι
- εφαρμογές
- ΕΙΝΑΙ
- επιχείρημα
- AS
- At
- Προσπάθειες
- αυτομάτως
- αποφύγετε
- AWS
- βασίζονται
- BE
- γίνεται
- ήταν
- παρακάτω
- Bot
- και οι δύο
- χτίζω
- Κτίριο
- ενσωματωμένο
- αλλά
- by
- κλήση
- κλήση
- CAN
- περίπτωση
- περιπτώσεις
- κατηγορία
- αλυσίδα
- πρόκληση
- αλλαγή
- Κανάλι
- κανάλια
- έλεγχος
- Επιλέξτε
- ταξινόμηση
- Backup
- υιοθέτηση νέφους
- Στήλη
- πλήρης
- περιέχουν
- Δοχείο
- περιεχόμενο
- μετατρέψετε
- Κόστος
- δημιουργία
- πελάτης
- Πελάτες
- Επικίνδυνες
- ημερομηνία
- Προετοιμασία δεδομένων
- επιστημονικά δεδομένα
- σύνολα δεδομένων
- συμφωνία
- καταδεικνύει
- παρατάσσω
- καθέκαστα
- Ανίχνευση
- συσκευή
- διαφορετικές
- έγγραφο
- δυο
- κάθε
- αποτέλεσμα
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- τέλος
- Τελικό σημείο
- Εταιρεία
- οντότητα
- ουσιώδης
- παράδειγμα
- παραδείγματα
- αναμένει
- επιπλέον
- απομίμηση
- ψεύτικες διαφημίσεις
- Αρχεία
- Αρχεία
- φιλτράρισμα
- Όνομα
- Εξής
- Για
- μορφή
- Παρασκευή
- από
- παίρνω
- GitHub
- καθοδήγηση
- he
- Πως
- HTML
- HTTPS
- ανθρώπινος
- if
- εικόνα
- άμεσος
- σημαντικό
- βελτίωση
- in
- περιλαμβάνουν
- πληροφορίες
- παράδειγμα
- οδηγίες
- σε
- IT
- ΤΟΥ
- jpg
- γνωστός
- Ετικέτες
- Οικόπεδο
- Γλώσσα
- large
- ΜΑΘΑΊΝΩ
- μάθηση
- Βιβλιοθήκη
- Μου αρέσει
- γραμμή
- LINK
- φορτίο
- μηχανή
- χειροκίνητα
- Ενδέχεται..
- μήνυμα
- μηνύματα
- μέθοδος
- μετανάστευση
- Τρόπος
- μοντέλο
- τρόπων
- περισσότερο
- πλέον
- πολύ
- πολλαπλούς
- Ονομάστηκε
- Φυσικό
- Επεξεργασία φυσικής γλώσσας
- Φύση
- Ανάγκη
- Νέα
- επόμενη
- nlp
- σημειωματάριο
- τώρα
- αριθμός
- of
- προσφορές
- Office
- συχνά
- on
- μια φορά
- ONE
- ανοίξτε
- βελτιστοποιημένη
- or
- οργανώσεις
- ΑΛΛΑ
- αλλιώς
- δικός μας
- έξω
- ιδιαίτερα
- Συνεργάτες
- Πέρασμα
- παθιασμένος
- Εκτελέστε
- Phishing
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- δυνατός
- Θέση
- προβλέψει
- Προβλέψεις
- προτιμάται
- προετοιμασία
- προαπαιτούμενα
- προβλήματα
- μεταποίηση
- προστασία
- παρέχουν
- Python
- Κατάταξη
- αναγνώριση
- απαιτείται
- εκείνοι
- ΠΕΡΙΦΕΡΕΙΑ
- δεξιά
- Κίνδυνος
- ρόλους
- τρέξιμο
- σοφός
- Δείγμα δεδομένων
- Κλίμακα
- απάτες
- Επιστήμη
- ασφάλεια
- Απειλές ασφαλείας
- δείτε
- επιλέγονται
- ευαίσθητος
- αποστέλλονται
- ποινή
- συναίσθημα
- Υπηρεσίες
- σειρά
- θα πρέπει να
- δείχνουν
- παρουσιάζεται
- Απλούς
- ενιαίας
- Λύσεις
- Χώρος
- το spam
- διαίρεση
- Βήμα
- Βήματα
- χώρος στο δίσκο
- ειλικρινής
- Στρατηγική
- στούντιο
- τέτοιος
- καλοκαίρι
- Πάρτε
- Έργο
- εργασίες
- τεχνικές
- Τεχνολογία
- δοκιμή
- Ταξινόμηση κειμένου
- ότι
- Η
- τους
- Τους
- Εκεί.
- αυτοί
- αυτό
- απειλές
- τρία
- Μέσω
- προς την
- συμβολίζεται
- κουπόνια
- Τρένο
- εκπαιδευμένο
- Εκπαίδευση
- Μετάφραση
- τύποι
- συνήθως
- Απροσδόκητος
- Φορτώθηκε
- χρήση
- περίπτωση χρήσης
- μεταχειρισμένος
- Χρήστες
- χρησιμοποιώντας
- επικύρωση
- αξία
- διάφορα
- επαληθεύει
- περπάτησε
- θέλω
- we
- ιστός
- διαδικτυακές υπηρεσίες
- πότε
- Ποιό
- Ο ΟΠΟΊΟΣ
- νίκη
- με
- λειτουργεί
- Εσείς
- Σας
- zephyrnet