स्पैम ईमेल, जिन्हें जंक मेल भी कहा जाता है, एक साथ बड़ी संख्या में उपयोगकर्ताओं को भेजे जाते हैं और इनमें अक्सर घोटाले, फ़िशिंग सामग्री या गुप्त संदेश होते हैं। स्पैम ईमेल कभी-कभी मानव द्वारा मैन्युअल रूप से भेजे जाते हैं, लेकिन अधिकतर वे बॉट का उपयोग करके भेजे जाते हैं। स्पैम ईमेल के उदाहरणों में नकली विज्ञापन, चेन ईमेल और प्रतिरूपण प्रयास शामिल हैं। ऐसा जोखिम है कि एक विशेष रूप से प्रच्छन्न स्पैम ईमेल आपके इनबॉक्स में आ सकता है, जिस पर क्लिक करना खतरनाक हो सकता है। अपने डिवाइस और संवेदनशील जानकारी की सुरक्षा के लिए अतिरिक्त सावधानी बरतना महत्वपूर्ण है।
जैसे-जैसे तकनीक में सुधार हो रहा है, इसकी बदलती प्रकृति के कारण स्पैम ईमेल का पता लगाना एक चुनौतीपूर्ण कार्य बन गया है। स्पैम अन्य प्रकार के सुरक्षा खतरों से काफी अलग है। शुरुआत में यह एक परेशान करने वाला संदेश लग सकता है, न कि कोई धमकीलेकिन इसका असर तुरंत होता है. इसके अलावा स्पैमर अक्सर नई तकनीक अपनाते हैं। ईमेल सेवाएँ प्रदान करने वाले संगठन अपने अंतिम ग्राहकों को किसी भी नुकसान से बचाने के लिए यथासंभव स्पैम को कम करना चाहते हैं।
इस पोस्ट में, हम दिखाते हैं कि ईमेल स्पैम डिटेक्टर का उपयोग करना कितना सरल है अमेज़न SageMaker. बिल्ट-इन BlazingText एल्गोरिथ्म Word2vec और पाठ वर्गीकरण एल्गोरिदम का अनुकूलित कार्यान्वयन प्रदान करता है। Word2vec विभिन्न प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों के लिए उपयोगी है, जैसे भावना विश्लेषण, नामित इकाई पहचान और मशीन अनुवाद। वेब खोज, सूचना पुनर्प्राप्ति, रैंकिंग और दस्तावेज़ वर्गीकरण जैसे अनुप्रयोगों के लिए पाठ वर्गीकरण आवश्यक है।
समाधान अवलोकन
यह पोस्ट दर्शाती है कि आप सेजमेकर का उपयोग करके ईमेल स्पैम डिटेक्टर कैसे सेट कर सकते हैं और स्पैम ईमेल फ़िल्टर कर सकते हैं। आइए देखें कि स्पैम डिटेक्टर आमतौर पर कैसे काम करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।
ईमेल स्पैम डिटेक्टर के माध्यम से भेजे जाते हैं। यदि स्पैम डिटेक्टर इसे स्पैम के रूप में पहचानता है तो एक ईमेल स्पैम फ़ोल्डर में भेजा जाता है। अन्यथा, इसे ग्राहक के इनबॉक्स में भेज दिया जाता है।
हम आपको अपना स्पैम डिटेक्टर मॉडल सेट करने के लिए निम्नलिखित चरणों से परिचित कराते हैं:
- GitHub रेपो से नमूना डेटासेट डाउनलोड करें।
- डेटा को एक में लोड करें अमेज़ॅन सैजमेकर स्टूडियो स्मरण पुस्तक।
- मॉडल के लिए डेटा तैयार करें.
- मॉडल को प्रशिक्षित करें, तैनात करें और परीक्षण करें।
.. पूर्वापेक्षाएँ
इस उपयोग के मामले में उतरने से पहले, निम्नलिखित आवश्यक शर्तें पूरी करें:
- सेट अप ए AWS खाता.
- तय करो सेजमेकर डोमेन.
- एक बनाएं अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। निर्देशों के लिए देखें अपना पहला S3 बकेट बनाएं.
डेटासेट डाउनलोड करें
email_dataset.csv को यहां से डाउनलोड करें GitHub और फ़ाइल को S3 बकेट में अपलोड करें.
ब्लेज़िंगटेक्स्ट एल्गोरिदम स्पेस-पृथक टोकन के साथ एकल प्रीप्रोसेस्ड टेक्स्ट फ़ाइल की अपेक्षा करता है। फ़ाइल की प्रत्येक पंक्ति में एक वाक्य होना चाहिए। यदि आपको एकाधिक टेक्स्ट फ़ाइलों पर प्रशिक्षण लेने की आवश्यकता है, तो उन्हें एक फ़ाइल में संयोजित करें और फ़ाइल को संबंधित चैनल में अपलोड करें।
सेजमेकर स्टूडियो में डेटा लोड करें
डेटा लोड करने के लिए, निम्न चरणों को पूरा करें:
- डाउनलोड
spam_detector.ipynb
से फाइल करें GitHub और फ़ाइल को सेजमेकर स्टूडियो में अपलोड करें. - अपने स्टूडियो नोटबुक में, खोलें
spam_detector.ipynb
स्मरण पुस्तक। - यदि आपको कर्नेल चुनने के लिए कहा जाए, तो पायथन 3 (डेटा साइंस 3.0) कर्नेल चुनें और चुनें चुनते हैं. यदि नहीं, तो सत्यापित करें कि सही कर्नेल स्वचालित रूप से चुना गया है।
- आवश्यक पायथन लाइब्रेरी आयात करें और भूमिकाएँ और S3 बकेट सेट करें। S3 बकेट और उपसर्ग निर्दिष्ट करें जहां आपने email_dataset.csv अपलोड किया था।
- नोटबुक में डेटा लोड चरण चलाएँ।
- श्रेणी लेबल के आधार पर जांचें कि डेटासेट संतुलित है या नहीं।
हम देख सकते हैं कि हमारा डेटासेट संतुलित है।
डेटा तैयार करें
ब्लेज़िंगटेक्स्ट एल्गोरिदम निम्नलिखित प्रारूप में डेटा की अपेक्षा करता है:
यहाँ एक उदाहरण दिया गया है:
चेक ब्लेज़िंगटेक्स्ट एल्गोरिथम के लिए प्रशिक्षण और सत्यापन डेटा प्रारूप.
अब आप नोटबुक में डेटा तैयार करने का चरण चलाते हैं।
- सबसे पहले, आपको श्रेणी कॉलम को पूर्णांक में बदलना होगा। निम्न सेल SPAM मान को 1 से और HAM मान को 0 से बदल देता है।
- अगला सेल उपसर्ग जोड़ता है
__label__
प्रत्येक श्रेणी मान के लिए और संदेश कॉलम को टोकनाइज़ करता है।
- अगला चरण डेटासेट को ट्रेन और सत्यापन डेटासेट में विभाजित करना और फ़ाइलों को S3 बकेट में अपलोड करना है।
मॉडल को प्रशिक्षित करें
मॉडल को प्रशिक्षित करने के लिए, नोटबुक में निम्नलिखित चरणों को पूरा करें:
- ब्लेज़िंगटेक्स्ट अनुमानक सेट करें और कंटेनर छवि को पार करते हुए एक अनुमानक उदाहरण बनाएं।
- लर्निंग मोड हाइपरपैरामीटर को पर्यवेक्षित पर सेट करें।
ब्लेज़िंगटेक्स्ट में बिना पर्यवेक्षित और पर्यवेक्षित दोनों तरह के सीखने के तरीके हैं। हमारा उपयोग मामला पाठ वर्गीकरण है, जो पर्यवेक्षित शिक्षण है।
- ट्रेन और सत्यापन डेटा चैनल बनाएं।
- मॉडल का प्रशिक्षण प्रारंभ करें.
- ट्रेन और सत्यापन डेटासेट की सटीकता प्राप्त करें।
मॉडल तैनात करें
इस चरण में, हम प्रशिक्षित मॉडल को समापन बिंदु के रूप में तैनात करते हैं। अपना पसंदीदा उदाहरण चुनें
मॉडल का परीक्षण करें
आइए तीन ईमेल संदेशों का एक उदाहरण प्रदान करें जिनके लिए हम पूर्वानुमान प्राप्त करना चाहते हैं:
- नीचे दिए गए लिंक पर क्लिक करें, अपना विवरण प्रदान करें और यह पुरस्कार जीतें
- यहां सर्वोत्तम ग्रीष्मकालीन डील
- शुक्रवार को ऑफिस में मिलते हैं.
ईमेल संदेश को टोकनाइज़ करें और REST API को कॉल करते समय उपयोग करने के लिए पेलोड निर्दिष्ट करें।
अब हम प्रत्येक ईमेल के लिए ईमेल वर्गीकरण की भविष्यवाणी कर सकते हैं। डेटा तर्क में टोकनयुक्त वाक्य उदाहरणों (पेलोड) को पास करते हुए, टेक्स्ट क्लासिफायरियर की पूर्वानुमान विधि को कॉल करें।
क्लीन अप
अंत में, आप किसी भी अप्रत्याशित लागत से बचने के लिए समापन बिंदु को हटा सकते हैं।
साथ ही, हटा दें S3 बकेट से डेटा फ़ाइल.
निष्कर्ष
इस पोस्ट में, हमने आपको इसका उपयोग करके ईमेल स्पैम डिटेक्टर बनाने के चरणों के बारे में बताया सेजमेकर ब्लेज़िंगटेक्स्ट एल्गोरिदम. ब्लेज़िंगटेक्स्ट एल्गोरिदम के साथ, आप बड़े डेटासेट को स्केल कर सकते हैं। ब्लेज़िंगटेक्स्ट का उपयोग पाठ्य विश्लेषण और पाठ वर्गीकरण समस्याओं के लिए किया जाता है, और इसमें अप्रकाशित और पर्यवेक्षित दोनों शिक्षण मोड हैं। आप ग्राहक भावना विश्लेषण और पाठ वर्गीकरण जैसे उपयोग के मामलों के लिए एल्गोरिदम का उपयोग कर सकते हैं।
ब्लेज़िंगटेक्स्ट एल्गोरिथम के बारे में अधिक जानने के लिए देखें BlazingText एल्गोरिथ्म.
लेखक के बारे में
धीरज ठाकुर अमेज़ॅन वेब सेवाओं के साथ एक समाधान वास्तुकार है। वह एंटरप्राइज़ क्लाउड अपनाने, माइग्रेशन और रणनीति पर मार्गदर्शन प्रदान करने के लिए AWS ग्राहकों और भागीदारों के साथ काम करता है। उन्हें तकनीक का शौक है और उन्हें एनालिटिक्स और एआई/एमएल स्पेस में निर्माण और प्रयोग करना पसंद है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 7
- a
- About
- शुद्धता
- अनुकूलन
- जोड़ता है
- दत्तक ग्रहण
- विज्ञापन
- ऐ / एमएल
- कलन विधि
- एल्गोरिदम
- भी
- वीरांगना
- अमेज़न SageMaker
- अमेज़ॅन वेब सेवा
- an
- विश्लेषण
- विश्लेषिकी
- और
- कोई
- एपीआई
- दिखाई देते हैं
- अनुप्रयोगों
- हैं
- तर्क
- AS
- At
- प्रयास
- स्वतः
- से बचने
- एडब्ल्यूएस
- आधारित
- BE
- हो जाता है
- किया गया
- नीचे
- बीओटी
- के छात्रों
- निर्माण
- इमारत
- में निर्मित
- लेकिन
- by
- कॉल
- बुला
- कर सकते हैं
- मामला
- मामलों
- वर्ग
- श्रृंखला
- चुनौतीपूर्ण
- बदलना
- चैनल
- चैनलों
- चेक
- चुनें
- वर्गीकरण
- बादल
- बादल को गोद लेना
- स्तंभ
- पूरा
- शामिल
- कंटेनर
- सामग्री
- बदलना
- लागत
- बनाना
- ग्राहक
- ग्राहक
- खतरनाक
- तिथि
- डेटा तैयारी
- डेटा विज्ञान
- डेटासेट
- सौदा
- दर्शाता
- तैनात
- विवरण
- खोज
- युक्ति
- विभिन्न
- दस्तावेज़
- दो
- से प्रत्येक
- प्रभाव
- ईमेल
- ईमेल
- समाप्त
- endpoint
- उद्यम
- सत्ता
- आवश्यक
- उदाहरण
- उदाहरण
- उम्मीद
- अतिरिक्त
- उल्लू बनाना
- नकली विज्ञापन
- पट्टिका
- फ़ाइलें
- फ़िल्टर
- प्रथम
- निम्नलिखित
- के लिए
- प्रारूप
- शुक्रवार
- से
- मिल
- GitHub
- मार्गदर्शन
- he
- कैसे
- एचटीएमएल
- HTTPS
- मानव
- if
- की छवि
- तत्काल
- महत्वपूर्ण
- में सुधार लाने
- in
- शामिल
- करें-
- उदाहरण
- निर्देश
- में
- IT
- आईटी इस
- जेपीजी
- जानने वाला
- लेबल
- भूमि
- भाषा
- बड़ा
- जानें
- सीख रहा हूँ
- पुस्तकालय
- पसंद
- लाइन
- LINK
- भार
- मशीन
- मैन्युअल
- मई..
- message
- संदेश
- तरीका
- प्रवास
- मोड
- आदर्श
- मोड
- अधिक
- अधिकांश
- बहुत
- विभिन्न
- नामांकित
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- प्रकृति
- आवश्यकता
- नया
- अगला
- NLP
- नोटबुक
- अभी
- संख्या
- of
- ऑफर
- Office
- अक्सर
- on
- एक बार
- ONE
- खुला
- अनुकूलित
- or
- संगठनों
- अन्य
- अन्यथा
- हमारी
- आउट
- विशेष रूप से
- भागीदारों
- पासिंग
- आवेशपूर्ण
- निष्पादन
- फ़िशिंग
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- संभव
- पद
- भविष्यवाणी करना
- भविष्यवाणियों
- वरीय
- तैयारी
- आवश्यक शर्तें
- समस्याओं
- प्रसंस्करण
- रक्षा करना
- प्रदान करना
- अजगर
- रैंकिंग
- मान्यता
- अपेक्षित
- कि
- बाकी
- सही
- जोखिम
- भूमिकाओं
- रन
- sagemaker
- नमूना डेटासेट
- स्केल
- घोटाले
- विज्ञान
- सुरक्षा
- सुरक्षा को खतरा
- देखना
- चयनित
- संवेदनशील
- भेजा
- वाक्य
- भावुकता
- सेवाएँ
- सेट
- चाहिए
- दिखाना
- दिखाया
- सरल
- एक
- समाधान ढूंढे
- अंतरिक्ष
- स्पैम
- विभाजित
- कदम
- कदम
- भंडारण
- सरल
- स्ट्रेटेजी
- स्टूडियो
- ऐसा
- गर्मी
- लेना
- कार्य
- कार्य
- तकनीक
- टेक्नोलॉजी
- परीक्षण
- पाठ वर्गीकरण
- कि
- RSI
- लेकिन हाल ही
- उन
- वहाँ।
- वे
- इसका
- धमकी
- तीन
- यहाँ
- सेवा मेरे
- tokenized
- टोकन
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- अनुवाद करें
- प्रकार
- आम तौर पर
- अप्रत्याशित
- अपलोड की गई
- उपयोग
- उदाहरण
- प्रयुक्त
- उपयोगकर्ताओं
- का उपयोग
- सत्यापन
- मूल्य
- विभिन्न
- सत्यापित
- चला
- करना चाहते हैं
- we
- वेब
- वेब सेवाओं
- कब
- कौन कौन से
- कौन
- जीतना
- साथ में
- कार्य
- आप
- आपका
- जेफिरनेट