अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.

अमेज़ॅन सेजमेकर के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है

इस पोस्ट के सह-लेखक सलमा तौफीक और सोफोस की हरिनी कन्नन हैं।

अगली पीढ़ी की साइबर सुरक्षा में अग्रणी के रूप में, Sophos बढ़ते खतरों के खिलाफ 500,000 से अधिक देशों में 150 से अधिक संगठनों और लाखों ग्राहकों की रक्षा करने का प्रयास करता है। सोफोस एक्स-ऑप्स से खतरे की खुफिया, मशीन लर्निंग (एमएल), और कृत्रिम बुद्धि द्वारा संचालित, सोफोस फ़िशिंग, रैंसमवेयर, मैलवेयर, और के खिलाफ उपयोगकर्ताओं, नेटवर्क और एंडपॉइंट्स को सुरक्षित और बचाव करने के लिए उन्नत उत्पादों और सेवाओं का एक व्यापक और विविध पोर्टफोलियो प्रदान करता है। वहाँ साइबर हमलों की एक विस्तृत श्रृंखला।

RSI सोफोस आर्टिफिशियल इंटेलिजेंस (एआई) समूह (सोफोसएआई) सोफोस की प्रमुख एमएल सुरक्षा प्रौद्योगिकी के विकास और रखरखाव की देखरेख करता है। सुरक्षा एक बड़ी डेटा समस्या है। पहचान से बचने के लिए साइबर अपराधी लगातार नए-नए हमले कर रहे हैं। यह विशाल खतरे वाले डेटासेट में तब्दील हो जाता है, जिसके साथ समूह को ग्राहकों की सर्वोत्तम रक्षा के लिए काम करना चाहिए। एक उल्लेखनीय उदाहरण उन फ़ाइलों का पता लगाना और उनका उन्मूलन है जो चालाकी से मैलवेयर से लदी हुई थीं, जहां डेटासेट टेराबाइट्स में हैं।

इस पोस्ट में, हम विशेष रूप से पीडीएफ फाइल प्रारूप के लिए सोफोस के मैलवेयर डिटेक्शन सिस्टम पर ध्यान केंद्रित करते हैं। हम दिखाते हैं कि सोफोसएआई कैसे उपयोग करता है अमेज़न SageMaker एक शक्तिशाली हल्के XGBoost (एक्सट्रीम ग्रैडिएंट बूस्टिंग) मॉडल को प्रशिक्षित करने के लिए टेराबाइट्स डेटा के साथ वितरित प्रशिक्षण। यह उनकी टीम को स्वचालित हाइपरपैरामीटर ट्यूनिंग के साथ और अंतर्निहित प्रशिक्षण बुनियादी ढांचे के प्रबंधन के बिना बड़े प्रशिक्षण डेटा पर तेजी से पुनरावृति करने की अनुमति देता है।

समाधान वर्तमान में उत्पादन प्रशिक्षण पाइपलाइन और मॉडल के माध्यम से लाखों उपयोगकर्ता समापन बिंदुओं पर तैनात किया गया है सोफोस समापन बिंदु सेवा.

केस संदर्भ का प्रयोग करें

आप एक महत्वपूर्ण अनुबंध साझा करना चाहते हैं या अपने सीवी के फैंसी डिजाइन को संरक्षित करना चाहते हैं, पीडीएफ प्रारूप सबसे आम विकल्प है। इसके व्यापक उपयोग और आम धारणा है कि ऐसे दस्तावेज़ वायुरोधी और स्थिर हैं, ने उपयोगकर्ताओं को सुरक्षा की झूठी भावना में फंसा दिया है। इसलिए, पीडीएफ हमलावरों के शस्त्रागार में पसंद का संक्रमण वेक्टर बन गया है। पीडीएफ का उपयोग करने वाली दुर्भावनापूर्ण कार्रवाइयां अक्सर एक जावास्क्रिप्ट पेलोड को एम्बेड करके हासिल की जाती हैं जो पीडीएफ रीडर द्वारा यूआरआई से वायरस डाउनलोड करने, उपयोगकर्ता की मशीन को तोड़ने, या संवेदनशील जानकारी चोरी करने के लिए चलाया जाता है।

सोफोस नियतात्मक और एमएल मॉडल के एक समूह का उपयोग करके हमले के विभिन्न बिंदुओं पर दुर्भावनापूर्ण पीडीएफ फाइलों का पता लगाता है। ऐसा ही एक तरीका निम्नलिखित आरेख में दिखाया गया है, जहां दुर्भावनापूर्ण PDF फ़ाइल ईमेल के माध्यम से वितरित की जाती है। जैसे ही डाउनलोड का प्रयास किया जाता है, यह दुर्भावनापूर्ण निष्पादन योग्य स्क्रिप्ट को हमलावर के कमांड और कंट्रोल सर्वर से कनेक्ट करने के लिए ट्रिगर करता है। सोफोसएआई का पीडीएफ डिटेक्टर यह पता लगाने के बाद डाउनलोड के प्रयास को रोकता है कि यह दुर्भावनापूर्ण है।

अन्य तरीकों में पीडीएफ फाइलों को एंडपॉइंट में ब्लॉक करना, दुर्भावनापूर्ण फाइलों को सैंडबॉक्स में भेजना (जहां इसे कई मॉडलों का उपयोग करके स्कोर किया गया है), दुर्भावनापूर्ण फाइल को स्कोरिंग इंफ्रास्ट्रक्चर में जमा करना और सुरक्षा रिपोर्ट तैयार करना आदि शामिल हैं।

अभिप्रेरण

एक ट्री-आधारित डिटेक्टर बनाने के लिए जो उच्च आत्मविश्वास के साथ दुर्भावनापूर्ण PDF को दोषी ठहरा सकता है, जबकि कम समापन बिंदु कंप्यूटिंग बिजली की खपत और तेजी से अनुमान प्रतिक्रियाओं की अनुमति देता है, SophosAI टीम ने XGBoost एल्गोरिथम को कार्य के लिए एक आदर्श उम्मीदवार पाया। सोफोस के लिए ऐसे शोध मार्ग दो कारणों से महत्वपूर्ण हैं। ग्राहकों के अंतिम बिंदुओं के स्तर पर तैनात शक्तिशाली लेकिन छोटे मॉडल होने से विश्लेषकों द्वारा कंपनी की उत्पाद समीक्षाओं पर उच्च प्रभाव पड़ता है। यह भी, और अधिक महत्वपूर्ण बात, समग्र रूप से बेहतर उपयोगकर्ता अनुभव प्रदान करता है।

तकनीकी चुनौती

चूंकि लक्ष्य अपने मौजूदा पीडीएफ मालवेयर डिटेक्टरों (डिस्क और मेमोरी दोनों पर) की तुलना में एक छोटे मेमोरी पदचिह्न के साथ एक मॉडल रखना था, सोफोसएआई ने एक्सजीबीओस्ट को बदल दिया, एक वर्गीकरण एल्गोरिदम, प्रभावशाली हासिल करते हुए तंत्रिका नेटवर्क की तुलना में काफी छोटे मॉडल बनाने के सिद्ध रिकॉर्ड के साथ। सारणीबद्ध डेटा पर प्रदर्शन। XGBoost प्रयोगों को मॉडलिंग करने से पहले, एक महत्वपूर्ण विचार डेटासेट का विशाल आकार था। दरअसल, पीडीएफ फाइलों का सोफोस का कोर डेटासेट टेराबाइट्स में है।

इसलिए, मुख्य चुनौती मॉडल को डाउनसैंपल किए बिना बड़े डेटासेट के साथ प्रशिक्षण देना था। क्योंकि डिटेक्टर के लिए किसी भी पीडीएफ-आधारित हमलों को खोजना सीखना महत्वपूर्ण है - यहां तक ​​​​कि सोफोस ग्राहकों की बेहतर रक्षा के लिए सुई-इन-द-हिस्टैक और पूरी तरह से उपन्यास वाले - सभी उपलब्ध विविध डेटासेट का उपयोग करना अत्यंत महत्वपूर्ण है।

तंत्रिका नेटवर्क के विपरीत, जहां आप बैचों में प्रशिक्षण ले सकते हैं, XGBoost के लिए, हमें मेमोरी में संपूर्ण प्रशिक्षण डेटासेट की आवश्यकता होती है। इस परियोजना के लिए सबसे बड़ा प्रशिक्षण डेटासेट 1 टीबी से अधिक है, और वितरित प्रशिक्षण ढांचे के तरीकों का उपयोग किए बिना इस तरह के पैमाने पर प्रशिक्षित करने का कोई तरीका नहीं है।

समाधान अवलोकन

सेजमेकर एक पूरी तरह से प्रबंधित एमएल सेवा है जो एमएल मॉडल बनाने, प्रशिक्षित करने, अनुकूलित करने और तैनात करने के लिए विभिन्न उपकरण प्रदान करती है। सेजमेकर बिल्ट-इन एल्गोरिदम की लाइब्रेरी XGBoost सहित 21 लोकप्रिय ML एल्गोरिदम से मिलकर बनता है। (अधिक जानकारी के लिए देखें XGBoost और Amazon SageMaker के साथ मशीन सीखने को सरल बनाएं।) XGBoost बिल्ट-इन एल्गोरिथम के साथ, आप ओपन-सोर्स का लाभ उठा सकते हैं सेजमेकर XGBoost कंटेनर 1.0-1 से अधिक के फ्रेमवर्क संस्करण को निर्दिष्ट करके, जिसने लचीलेपन, मापनीयता, विस्तारशीलता और प्रबंधित स्पॉट प्रशिक्षण में सुधार किया है, और लकड़ी की छत जैसे इनपुट प्रारूपों का समर्थन करता है, जो कि पीडीएफ डेटासेट के लिए उपयोग किया जाने वाला प्रारूप है।

सोफोसएआई ने सेजमेकर को चुनने का मुख्य कारण मल्टी-नोड सीपीयू इंस्टेंस पर पूरी तरह से प्रबंधित वितरित प्रशिक्षण से लाभ उठाने की क्षमता है, केवल एक से अधिक इंस्टेंस निर्दिष्ट करके। सेजमेकर स्वचालित रूप से डेटा को नोड्स में विभाजित करता है, परिणामों को पीयर नोड्स में एकत्रित करता है, और एक मॉडल उत्पन्न करता है। उदाहरण स्पॉट इंस्टेंस हो सकते हैं, जिससे प्रशिक्षण लागत में काफी कमी आती है। साथ XGBoost के लिए बिल्ट-इन एल्गोरिथम, आप इसे बिना किसी अतिरिक्त कस्टम स्क्रिप्ट के कर सकते हैं। XGBoost के वितरित संस्करण भी खुले स्रोत के रूप में मौजूद हैं, जैसे XGBoost-रे और XGBoost4J-स्पार्क, लेकिन उनके उपयोग के लिए वितरित कंप्यूटिंग क्लस्टर के निर्माण, सुरक्षा, ट्यूनिंग और स्व-प्रबंधन की आवश्यकता होती है, जो वैज्ञानिक विकास के लिए अतिरिक्त महत्वपूर्ण प्रयास का प्रतिनिधित्व करता है।

इसके अतिरिक्त, SageMaker स्वचालित मॉडल ट्यूनिंग, जिसे हाइपरपैरामीटर ट्यूनिंग के रूप में भी जाना जाता है, आपके द्वारा निर्दिष्ट हाइपरपैरामीटर की श्रेणियों के साथ कई प्रशिक्षण कार्य चलाकर एक मॉडल का सबसे अच्छा संस्करण ढूंढता है। इसके बाद यह हाइपरपैरामीटर मान चुनता है जिसके परिणामस्वरूप एक मॉडल सबसे अच्छा प्रदर्शन करता है, जैसा कि दिए गए एमएल कार्य के लिए एक मीट्रिक द्वारा मापा जाता है।

निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.

यह ध्यान देने योग्य है कि, जब सोफोसएआई ने सेजमेकर की ओर मुड़ने से पहले XGBoost प्रयोग शुरू किए, तो बड़ी-मेमोरी का उपयोग करने का प्रयास किया गया। अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी2) इंस्टेंसेस (उदाहरण के लिए, r5a.24xlarge और x1.32xlarge) मॉडल को जितना संभव हो सके डेटा के एक बड़े नमूने पर प्रशिक्षित करने के लिए। हालांकि, इन प्रयासों में औसतन 10 घंटे से अधिक समय लगा और आमतौर पर स्मृति समाप्त होने के कारण विफल हो गए।

इसके विपरीत, सेजमेकर XGBoost एल्गोरिथम और एक परेशानी मुक्त वितरित प्रशिक्षण तंत्र का उपयोग करके, सोफोसएआई 20 मिनट के मामले में विशाल पीडीएफ प्रशिक्षण डेटासेट पर बड़े पैमाने पर बूस्टर मॉडल को प्रशिक्षित कर सकता है। टीम को केवल डेटा स्टोर करना था अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) समान आकार की Parquet फ़ाइलों के रूप में, और एक EC2 इंस्टेंस प्रकार और इंस्टेंस की वांछित संख्या चुनें, और SageMaker अंतर्निहित कंप्यूट क्लस्टर इन्फ्रास्ट्रक्चर का प्रबंधन करता है और क्लस्टर के कई नोड्स के बीच प्रशिक्षण वितरित करता है। हुड के तहत, सेजमेकर प्रत्येक उदाहरण के बीच फ़ाइल ऑब्जेक्ट्स को समान रूप से वितरित करने के लिए ShardedByS3Key का उपयोग करके डेटा को नोड्स में विभाजित करता है और XGBoost कार्यान्वयन का उपयोग करता है रैबिट प्रोटोकॉल (विश्वसनीय AllReduce और प्रसारण इंटरफ़ेस) प्राथमिक और सहकर्मी नोड्स के बीच वितरित प्रसंस्करण और संचार शुरू करने के लिए। (हिस्टोग्राम एकत्रीकरण के बारे में अधिक जानकारी के लिए और नोड्स में प्रसारित करने के लिए, देखें XGBoost: एक स्केलेबल ट्री बूस्टिंग सिस्टम.)

सेजमेकर के साथ सिर्फ एक मॉडल को प्रशिक्षित करने के अलावा, XGBoost हाइपरपैरामीटर ट्यूनिंग हाइपरपैरामीटर के सर्वोत्तम संयोजन को फाइन-ट्यून करने के लिए विभिन्न प्रयोगों को एक साथ चलाने की क्षमता के साथ त्वरित और आसान भी बनाया गया था। ट्यून करने योग्य हाइपरपैरामीटर में बूस्टर-विशिष्ट और उद्देश्य फ़ंक्शन-विशिष्ट हाइपरपैरामीटर दोनों शामिल हैं। दो खोज रणनीतियाँ पेशकश कर रहे हैं: यादृच्छिक या बायेसियन। बायेसियन खोज रणनीति मूल्यवान साबित हुई है क्योंकि यह कम प्रयोगात्मक पुनरावृत्तियों में, केवल यादृच्छिक खोज की तुलना में बेहतर हाइपरपैरामीटर खोजने में मदद करती है।

डेटासेट जानकारी

सोफोसएआई का पीडीएफ मालवेयर डिटेक्शन मॉडलिंग एन-ग्राम हिस्टोग्राम और बाइट एन्ट्रॉपी फीचर्स जैसी कई विशेषताओं पर निर्भर करता है (अधिक जानकारी के लिए, देखें MEADE: एक दुर्भावनापूर्ण ईमेल अटैचमेंट डिटेक्शन इंजन की ओर) एकत्रित पीडीएफ फाइलों से निकाले गए मेटाडेटा और सुविधाओं को एक वितरित डेटा वेयरहाउस में संग्रहीत किया जाता है। 3,500 से अधिक सुविधाओं के एक डेटासेट की गणना की जाती है, प्रशिक्षण और परीक्षण सेटों में समय के आधार पर आगे विभाजित किया जाता है और बैचों में अमेज़ॅन एस 3 में लकड़ी की फाइलों के रूप में संग्रहीत किया जाता है ताकि प्रशिक्षण नौकरियों के लिए सेजमेकर द्वारा आसानी से पहुंचा जा सके।

निम्न तालिका प्रशिक्षण और परीक्षण डेटा के बारे में जानकारी प्रदान करती है।

डेटासेट नमूनों की संख्या लकड़ी की छत फाइलों की संख्या कुल आकार
प्रशिक्षण 70,391,634 5,500 ~ 1010 GB
टेस्ट 1,242,283 98 ~ 18 GB

डेटा आकार की गणना सूत्र के अनुसार की गई है:

डेटा आकार = एन × (एनF + एनL)×4

सूत्र में निम्नलिखित पैरामीटर हैं:

  • N डेटासेट में नमूनों की संख्या है
  • nF सुविधाओं की संख्या है, के साथ nF = 3585
  • nL जमीनी सच्चाई के लेबल की संख्या है, n . के साथL = 1
  • 4 सुविधाओं के डेटा प्रकार के लिए आवश्यक बाइट्स की संख्या है: float32

इसके अतिरिक्त, निम्नलिखित पाई चार्ट प्रशिक्षण और परीक्षण सेट दोनों का लेबल वितरण प्रदान करते हैं, जिससे पीडीएफ मालवेयर डिटेक्शन कार्य में वर्ग असंतुलन का पता चलता है।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.

वितरण प्रशिक्षण सेट से एक महीने के परीक्षण सेट में स्थानांतरित हो जाता है। प्रशिक्षण और परीक्षण में डेटासेट का समय-आधारित विभाजन वास्तविक जीवन परिनियोजन परिदृश्य को अनुकरण करने और अस्थायी स्नूपिंग से बचने के लिए लागू किया जाता है। उदाहरण के लिए, इस रणनीति ने सोफोसएआई को मॉडल की वास्तविक सामान्यीकरण क्षमताओं का मूल्यांकन करने की अनुमति दी, जब पहले से अनदेखी ब्रांड-नए पीडीएफ हमलों का सामना करना पड़ा।

प्रयोग और परिणाम

प्रयोगों को किकस्टार्ट करने के लिए, सोफोसएआई टीम ने डिफ़ॉल्ट मापदंडों के साथ एक बेसलाइन XGBoost मॉडल को प्रशिक्षित किया। फिर उन्होंने बायेसियन रणनीति का उपयोग करते हुए सेजमेकर के साथ हाइपरपैरामीटर फाइन-ट्यूनिंग करना शुरू कर दिया, जो निर्दिष्ट करने जितना आसान है हाइपरपैरामीटर ट्यून किया जाना है और मूल्यों की वांछित सीमा, मूल्यांकन मीट्रिक (आरओसी (रिसीवर ऑपरेटिंग विशेषता) एयूसी इस मामले में) और प्रशिक्षण और सत्यापन सेट। पीडीएफ मैलवेयर डिटेक्टर के लिए, सोफोसएआई ने बूस्टिंग राउंड की संख्या सहित हाइपरपैरामीटर को प्राथमिकता दी (num_round), अधिकतम वृक्ष गहराई (max_depth), सीखने की दर (eta), और पेड़ बनाते समय कॉलम नमूना अनुपात (colsample_bytree) आखिरकार, सर्वश्रेष्ठ हाइपरपैरामीटर प्राप्त किए गए और पूर्ण डेटासेट पर एक मॉडल को प्रशिक्षित करने के लिए उपयोग किया गया, और अंत में होल्डआउट परीक्षण सेट पर मूल्यांकन किया गया।

निम्नलिखित प्लॉट उद्देश्य मीट्रिक (आरओसी एयूसी) बनाम ट्यूनिंग नौकरी के भीतर चलने वाले 15 प्रशिक्षण कार्य दिखाता है। सर्वोत्तम हाइपरपैरामीटर वे हैं जो नौवें प्रशिक्षण कार्य के अनुरूप हैं।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.

सेजमेकर पर सोफोसएआई के प्रयोगों की शुरुआत में, एक विशेष रूप से महत्वपूर्ण प्रश्न का उत्तर देना था: एक्सजीबूस्ट को हाथ में डेटा पर प्रशिक्षित करने के लिए किस प्रकार के उदाहरण और उनमें से कितने की आवश्यकता है? यह महत्वपूर्ण है क्योंकि गलत संख्या या उदाहरण के प्रकार का उपयोग करने से समय और धन की बर्बादी हो सकती है; स्मृति समाप्त होने के कारण प्रशिक्षण विफल होना तय है, या, यदि बहुत अधिक बड़े उदाहरणों का उपयोग किया जाता है, तो यह अनावश्यक रूप से महंगा हो सकता है।

XGBoost एक मेमोरी-बाउंड (कंप्यूट-बाउंड के विपरीत) एल्गोरिथम है। तो, एक सामान्य-उद्देश्य गणना उदाहरण (उदाहरण के लिए, M5) एक गणना-अनुकूलित उदाहरण (उदाहरण के लिए, C4) की तुलना में एक बेहतर विकल्प है। एक सूचित निर्णय लेने के लिए, पूर्ण डेटासेट पर प्रशिक्षण चलाने के लिए आवश्यक उदाहरणों की संख्या चुनने के लिए एक सरल सेजमेकर दिशानिर्देश है:

कुल प्रशिक्षण डेटा आकार × सुरक्षा कारक(*) <इंस्टेंस काउंट × इंस्टेंस टाइप की कुल मेमोरी

इस मामले में: कुल प्रशिक्षण डेटा आकार × सुरक्षा कारक (12) = 12120 जीबी

निम्न तालिका आवश्यकताओं को सारांशित करती है जब चुना हुआ उदाहरण प्रकार ml.m5.24xबड़ा होता है।

प्रशिक्षण आकार × सुरक्षा कारक (12) इंस्टेंस मेमोरी ml.m5.24xबड़ा प्रशिक्षण के लिए आवश्यक न्यूनतम आवृत्ति गणना
12120 जीबी 384 जीबी 32

*XGBoost वितरित प्रशिक्षण की प्रकृति के कारण, जिसके लिए प्रशिक्षण से पहले संपूर्ण प्रशिक्षण डेटासेट को DMatrix ऑब्जेक्ट में लोड करने और अतिरिक्त मुफ्त मेमोरी की आवश्यकता होती है, 10-12 के सुरक्षा कारक की सिफारिश की जाती है।

प्रदान किए गए डेटासेट पर XGBoost के पूर्ण सेजमेकर प्रशिक्षण के लिए मेमोरी उपयोग पर करीब से नज़र डालने के लिए, हम प्रशिक्षण से प्राप्त संबंधित ग्राफ प्रदान करते हैं अमेज़ॅन क्लाउडवॉच निगरानी। इस प्रशिक्षण कार्य के लिए, 40 ml.m5.24xबड़े उदाहरणों का उपयोग किया गया और अधिकतम स्मृति उपयोग लगभग 62% तक पहुंच गया।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.

डेटा पाइपलाइन में सेजमेकर जैसी प्रबंधित एमएल सेवा को एकीकृत करके बचाई गई इंजीनियरिंग लागत लगभग 50% है। प्रशिक्षण और हाइपरपैरामीटर ट्यूनिंग नौकरियों के लिए स्पॉट इंस्टेंस का उपयोग करने का विकल्प अतिरिक्त 63% की लागत में कटौती करता है।

निष्कर्ष

सेजमेकर के साथ, सोफोसएआई टीम एक हल्के पीडीएफ मालवेयर डिटेक्शन XGBoost मॉडल का निर्माण करके एक जटिल उच्च-प्राथमिकता वाली परियोजना को सफलतापूर्वक हल कर सकती है जो डिस्क पर बहुत छोटा (25 गुना छोटा) और इन-मेमोरी (5 गुना छोटा तक) है। डिटेक्टर पूर्ववर्ती। यह ~ 0.99 AUC के साथ एक छोटा लेकिन शक्तिशाली मैलवेयर डिटेक्टर है और 0.99 की वास्तविक सकारात्मक दर और झूठी सकारात्मक दर है अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ. . इस मॉडल को जल्दी से फिर से प्रशिक्षित किया जा सकता है, और समय के साथ इसके प्रदर्शन की आसानी से निगरानी की जा सकती है, क्योंकि इसे 20 टीबी से अधिक डेटा पर प्रशिक्षित करने में 1 मिनट से भी कम समय लगता है।

आप सेजमेकर बिल्ट-इन एल्गोरिथम का लाभ उठा सकते हैं एक्सजीबूस्ट पैमाने पर अपने सारणीबद्ध डेटा के साथ मॉडल बनाने के लिए। इसके अतिरिक्त, आप इसमें वर्णित नए अमेज़ॅन सेजमेकर एल्गोरिदम लाइटजीबीएम, कैटबॉस्ट, ऑटोग्लुऑन-टैबुलर और टैब ट्रांसफॉर्मर को भी आजमा सकते हैं। ब्लॉग.


लेखक के बारे में

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.सलमा तौफीकी सोफोस में एक वरिष्ठ डेटा वैज्ञानिक हैं, जो मशीन लर्निंग और साइबर सुरक्षा के प्रतिच्छेदन पर काम कर रहे हैं। कंप्यूटर विज्ञान में स्नातक की पृष्ठभूमि के साथ, उन्होंने केंद्रीय यूरोपीय विश्वविद्यालय से एमएससी के साथ स्नातक किया। गणित और उसके अनुप्रयोगों में। जब मालवेयर डिटेक्टर विकसित नहीं किया जाता है, तो सलमा एक शौकीन चावला यात्री, यात्री और थ्रिलर की उपभोक्ता है।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.हरिणी कन्नन सोफोसएआई में डेटा साइंटिस्ट हैं। वह ~ 4 साल से सुरक्षा डेटा विज्ञान में है। वह पहले कैप्सूल8 में प्रधान डेटा वैज्ञानिक थीं, जिसे सोफोस ने अधिग्रहित कर लिया था। उसने सीएएमएलआईएस, ब्लैकहैट (यूएसए), ओपन डेटा साइंस कॉन्फ्रेंस (ईस्ट), डेटा साइंस सैलून, पायडाटा (बोस्टन) और डेटा कनेक्टर्स में बातचीत की है। उनके अनुसंधान के क्षेत्रों में प्रदर्शन काउंटरों का उपयोग करके हार्डवेयर-आधारित हमलों का पता लगाना, उपयोगकर्ता व्यवहार विश्लेषण, व्याख्यात्मक एमएल, और अनुपयोगी विसंगति का पता लगाना शामिल है।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.हसन पूनावाला लंदन, यूके में स्थित एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान आर्किटेक्ट हैं। हसन ग्राहकों को एडब्ल्यूएस पर उत्पादन में मशीन सीखने के अनुप्रयोगों को डिजाइन और तैनात करने में मदद करता है। उनके पास डेटा साइंटिस्ट, मशीन लर्निंग प्रैक्टिशनर और सॉफ्टवेयर डेवलपर के रूप में 12 वर्षों से अधिक का कार्य अनुभव है। अपने खाली समय में, हसन को प्रकृति की खोज करना और दोस्तों और परिवार के साथ समय बिताना पसंद है।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ सोफोस अल्ट्रा स्केल पर एक शक्तिशाली, हल्के पीडीएफ मैलवेयर डिटेक्टर को कैसे प्रशिक्षित करता है। लंबवत खोज। ऐ.दिगंत पटेल AWS में एंटरप्राइज सपोर्ट लीड है। वह बड़े पैमाने पर क्लाउड में डिजाइन, तैनाती और संचालन के लिए ग्राहकों के साथ काम करता है। उनकी रुचि के क्षेत्र MLOps और DevOps अभ्यास हैं और यह ग्राहकों को उनकी क्लाउड यात्रा में कैसे मदद कर सकता है। काम के अलावा, उन्हें फोटोग्राफी, वॉलीबॉल खेलना और दोस्तों और परिवार के साथ समय बिताना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग