Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़न वेब सेवाएँ

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़न वेब सेवाएँ

स्पैम ईमेल, जिन्हें जंक मेल भी कहा जाता है, एक साथ बड़ी संख्या में उपयोगकर्ताओं को भेजे जाते हैं और इनमें अक्सर घोटाले, फ़िशिंग सामग्री या गुप्त संदेश होते हैं। स्पैम ईमेल कभी-कभी मानव द्वारा मैन्युअल रूप से भेजे जाते हैं, लेकिन अधिकतर वे बॉट का उपयोग करके भेजे जाते हैं। स्पैम ईमेल के उदाहरणों में नकली विज्ञापन, चेन ईमेल और प्रतिरूपण प्रयास शामिल हैं। ऐसा जोखिम है कि एक विशेष रूप से प्रच्छन्न स्पैम ईमेल आपके इनबॉक्स में आ सकता है, जिस पर क्लिक करना खतरनाक हो सकता है। अपने डिवाइस और संवेदनशील जानकारी की सुरक्षा के लिए अतिरिक्त सावधानी बरतना महत्वपूर्ण है।

जैसे-जैसे तकनीक में सुधार हो रहा है, इसकी बदलती प्रकृति के कारण स्पैम ईमेल का पता लगाना एक चुनौतीपूर्ण कार्य बन गया है। स्पैम अन्य प्रकार के सुरक्षा खतरों से काफी अलग है। शुरुआत में यह एक परेशान करने वाला संदेश लग सकता है, न कि कोई धमकीलेकिन इसका असर तुरंत होता है. इसके अलावा स्पैमर अक्सर नई तकनीक अपनाते हैं। ईमेल सेवाएँ प्रदान करने वाले संगठन अपने अंतिम ग्राहकों को किसी भी नुकसान से बचाने के लिए यथासंभव स्पैम को कम करना चाहते हैं।

इस पोस्ट में, हम दिखाते हैं कि ईमेल स्पैम डिटेक्टर का उपयोग करना कितना सरल है अमेज़न SageMaker. बिल्ट-इन BlazingText एल्गोरिथ्म Word2vec और पाठ वर्गीकरण एल्गोरिदम का अनुकूलित कार्यान्वयन प्रदान करता है। Word2vec विभिन्न प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों के लिए उपयोगी है, जैसे भावना विश्लेषण, नामित इकाई पहचान और मशीन अनुवाद। वेब खोज, सूचना पुनर्प्राप्ति, रैंकिंग और दस्तावेज़ वर्गीकरण जैसे अनुप्रयोगों के लिए पाठ वर्गीकरण आवश्यक है।

समाधान अवलोकन

यह पोस्ट दर्शाती है कि आप सेजमेकर का उपयोग करके ईमेल स्पैम डिटेक्टर कैसे सेट कर सकते हैं और स्पैम ईमेल फ़िल्टर कर सकते हैं। आइए देखें कि स्पैम डिटेक्टर आमतौर पर कैसे काम करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

ईमेल स्पैम डिटेक्टर के माध्यम से भेजे जाते हैं। यदि स्पैम डिटेक्टर इसे स्पैम के रूप में पहचानता है तो एक ईमेल स्पैम फ़ोल्डर में भेजा जाता है। अन्यथा, इसे ग्राहक के इनबॉक्स में भेज दिया जाता है।

हम आपको अपना स्पैम डिटेक्टर मॉडल सेट करने के लिए निम्नलिखित चरणों से परिचित कराते हैं:

  1. GitHub रेपो से नमूना डेटासेट डाउनलोड करें।
  2. डेटा को एक में लोड करें अमेज़ॅन सैजमेकर स्टूडियो स्मरण पुस्तक।
  3. मॉडल के लिए डेटा तैयार करें.
  4. मॉडल को प्रशिक्षित करें, तैनात करें और परीक्षण करें।

.. पूर्वापेक्षाएँ

इस उपयोग के मामले में उतरने से पहले, निम्नलिखित आवश्यक शर्तें पूरी करें:

  1. सेट अप ए AWS खाता.
  2. तय करो सेजमेकर डोमेन.
  3. एक बनाएं अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। निर्देशों के लिए देखें अपना पहला S3 बकेट बनाएं.

डेटासेट डाउनलोड करें

email_dataset.csv को यहां से डाउनलोड करें GitHub और फ़ाइल को S3 बकेट में अपलोड करें.

ब्लेज़िंगटेक्स्ट एल्गोरिदम स्पेस-पृथक टोकन के साथ एकल प्रीप्रोसेस्ड टेक्स्ट फ़ाइल की अपेक्षा करता है। फ़ाइल की प्रत्येक पंक्ति में एक वाक्य होना चाहिए। यदि आपको एकाधिक टेक्स्ट फ़ाइलों पर प्रशिक्षण लेने की आवश्यकता है, तो उन्हें एक फ़ाइल में संयोजित करें और फ़ाइल को संबंधित चैनल में अपलोड करें।

सेजमेकर स्टूडियो में डेटा लोड करें

डेटा लोड करने के लिए, निम्न चरणों को पूरा करें:

  1. डाउनलोड spam_detector.ipynb से फाइल करें GitHub और फ़ाइल को सेजमेकर स्टूडियो में अपलोड करें.
  2. अपने स्टूडियो नोटबुक में, खोलें spam_detector.ipynb स्मरण पुस्तक।
  3. यदि आपको कर्नेल चुनने के लिए कहा जाए, तो पायथन 3 (डेटा साइंस 3.0) कर्नेल चुनें और चुनें चुनते हैं. यदि नहीं, तो सत्यापित करें कि सही कर्नेल स्वचालित रूप से चुना गया है।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. आवश्यक पायथन लाइब्रेरी आयात करें और भूमिकाएँ और S3 बकेट सेट करें। S3 बकेट और उपसर्ग निर्दिष्ट करें जहां आपने email_dataset.csv अपलोड किया था।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. नोटबुक में डेटा लोड चरण चलाएँ।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. श्रेणी लेबल के आधार पर जांचें कि डेटासेट संतुलित है या नहीं।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

हम देख सकते हैं कि हमारा डेटासेट संतुलित है।

डेटा तैयार करें

ब्लेज़िंगटेक्स्ट एल्गोरिदम निम्नलिखित प्रारूप में डेटा की अपेक्षा करता है:

__label__<label> "<features>"

यहाँ एक उदाहरण दिया गया है:

__label__0 “This is HAM"
__label__1 "This is SPAM"

चेक ब्लेज़िंगटेक्स्ट एल्गोरिथम के लिए प्रशिक्षण और सत्यापन डेटा प्रारूप.

अब आप नोटबुक में डेटा तैयार करने का चरण चलाते हैं।

  1. सबसे पहले, आपको श्रेणी कॉलम को पूर्णांक में बदलना होगा। निम्न सेल SPAM मान को 1 से और HAM मान को 0 से बदल देता है।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. अगला सेल उपसर्ग जोड़ता है __label__ प्रत्येक श्रेणी मान के लिए और संदेश कॉलम को टोकनाइज़ करता है।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. अगला चरण डेटासेट को ट्रेन और सत्यापन डेटासेट में विभाजित करना और फ़ाइलों को S3 बकेट में अपलोड करना है।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

मॉडल को प्रशिक्षित करें

मॉडल को प्रशिक्षित करने के लिए, नोटबुक में निम्नलिखित चरणों को पूरा करें:

  1. ब्लेज़िंगटेक्स्ट अनुमानक सेट करें और कंटेनर छवि को पार करते हुए एक अनुमानक उदाहरण बनाएं।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. लर्निंग मोड हाइपरपैरामीटर को पर्यवेक्षित पर सेट करें।

ब्लेज़िंगटेक्स्ट में बिना पर्यवेक्षित और पर्यवेक्षित दोनों तरह के सीखने के तरीके हैं। हमारा उपयोग मामला पाठ वर्गीकरण है, जो पर्यवेक्षित शिक्षण है।

  1. ट्रेन और सत्यापन डेटा चैनल बनाएं।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. मॉडल का प्रशिक्षण प्रारंभ करें.

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. ट्रेन और सत्यापन डेटासेट की सटीकता प्राप्त करें।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

मॉडल तैनात करें

इस चरण में, हम प्रशिक्षित मॉडल को समापन बिंदु के रूप में तैनात करते हैं। अपना पसंदीदा उदाहरण चुनें

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

मॉडल का परीक्षण करें

आइए तीन ईमेल संदेशों का एक उदाहरण प्रदान करें जिनके लिए हम पूर्वानुमान प्राप्त करना चाहते हैं:

  • नीचे दिए गए लिंक पर क्लिक करें, अपना विवरण प्रदान करें और यह पुरस्कार जीतें
  • यहां सर्वोत्तम ग्रीष्मकालीन डील
  • शुक्रवार को ऑफिस में मिलते हैं.

ईमेल संदेश को टोकनाइज़ करें और REST API को कॉल करते समय उपयोग करने के लिए पेलोड निर्दिष्ट करें।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

अब हम प्रत्येक ईमेल के लिए ईमेल वर्गीकरण की भविष्यवाणी कर सकते हैं। डेटा तर्क में टोकनयुक्त वाक्य उदाहरणों (पेलोड) को पास करते हुए, टेक्स्ट क्लासिफायरियर की पूर्वानुमान विधि को कॉल करें।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

क्लीन अप

अंत में, आप किसी भी अप्रत्याशित लागत से बचने के लिए समापन बिंदु को हटा सकते हैं।

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

साथ ही, हटा दें S3 बकेट से डेटा फ़ाइल.

निष्कर्ष

इस पोस्ट में, हमने आपको इसका उपयोग करके ईमेल स्पैम डिटेक्टर बनाने के चरणों के बारे में बताया सेजमेकर ब्लेज़िंगटेक्स्ट एल्गोरिदम. ब्लेज़िंगटेक्स्ट एल्गोरिदम के साथ, आप बड़े डेटासेट को स्केल कर सकते हैं। ब्लेज़िंगटेक्स्ट का उपयोग पाठ्य विश्लेषण और पाठ वर्गीकरण समस्याओं के लिए किया जाता है, और इसमें अप्रकाशित और पर्यवेक्षित दोनों शिक्षण मोड हैं। आप ग्राहक भावना विश्लेषण और पाठ वर्गीकरण जैसे उपयोग के मामलों के लिए एल्गोरिदम का उपयोग कर सकते हैं।

ब्लेज़िंगटेक्स्ट एल्गोरिथम के बारे में अधिक जानने के लिए देखें BlazingText एल्गोरिथ्म.


लेखक के बारे में

Amazon SageMaker | का उपयोग करके एक ईमेल स्पैम डिटेक्टर बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

धीरज ठाकुर अमेज़ॅन वेब सेवाओं के साथ एक समाधान वास्तुकार है। वह एंटरप्राइज़ क्लाउड अपनाने, माइग्रेशन और रणनीति पर मार्गदर्शन प्रदान करने के लिए AWS ग्राहकों और भागीदारों के साथ काम करता है। उन्हें तकनीक का शौक है और उन्हें एनालिटिक्स और एआई/एमएल स्पेस में निर्माण और प्रयोग करना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सैजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़न वेब सेवाएँ

स्रोत नोड: 1843425
समय टिकट: 30 मई 2023