इस पोस्ट को वेरीकास्ट की ज्योति शर्मा और शर्मो सरकार ने लिखा है।
किसी भी मशीन लर्निंग (एमएल) समस्या के लिए डेटा वैज्ञानिक डेटा के साथ काम करना शुरू करता है। इसमें मॉडल निर्माण प्रक्रिया के लिए आवश्यक किसी भी हेरफेर के मूल्यांकन के साथ-साथ डेटा के व्यापार और तकनीकी पहलुओं को इकट्ठा करना, तलाशना और समझना शामिल है। इस डेटा तैयारी का एक पहलू फीचर इंजीनियरिंग है।
फ़ीचर इंजीनियरिंग उस प्रक्रिया को संदर्भित करता है जहां एक मॉडल को प्रशिक्षित करने और इसके खिलाफ अनुमान लगाने के लिए उपयोग किए जाने वाले एमएल एल्गोरिदम के साथ कच्चे डेटा को अधिक उपयोगी और उपयोग करने योग्य रूपों में बदलने के लिए प्रासंगिक चर की पहचान, चयन और हेरफेर किया जाता है। इस प्रक्रिया का लक्ष्य एल्गोरिथम और परिणामी भविष्य कहनेवाला मॉडल के प्रदर्शन को बढ़ाना है। फीचर इंजीनियरिंग प्रक्रिया में फीचर निर्माण, डेटा परिवर्तन, फीचर निष्कर्षण और फीचर चयन सहित कई चरण शामिल हैं।
सामान्यीकृत फीचर इंजीनियरिंग के लिए एक मंच का निर्माण ग्राहकों के लिए अलग-अलग डेटासेट के साथ कई एमएल मॉडल बनाने के लिए एक सामान्य कार्य है। इस तरह के प्लेटफॉर्म में कम मानवीय हस्तक्षेप के साथ मॉडल प्रशिक्षण के लिए तैयार अंतिम, फीचर इंजीनियर डेटा तैयार करने के लिए प्रोग्रामेटिक रूप से संचालित प्रक्रिया का निर्माण शामिल है। हालाँकि, फीचर इंजीनियरिंग को सामान्य बनाना चुनौतीपूर्ण है। प्रत्येक व्यावसायिक समस्या अलग है, प्रत्येक डेटासेट अलग है, डेटा की मात्रा क्लाइंट से क्लाइंट में बेतहाशा भिन्न होती है, और डेटा की गुणवत्ता और अक्सर एक निश्चित कॉलम की कार्डिनैलिटी (संरचित डेटा के मामले में) फीचर इंजीनियरिंग की जटिलता में महत्वपूर्ण भूमिका निभा सकती है। प्रक्रिया। इसके अलावा, ग्राहक के डेटा की गतिशील प्रकृति के परिणामस्वरूप फीचर इंजीनियरिंग को बेहतर ढंग से पूरा करने के लिए आवश्यक प्रसंस्करण समय और संसाधनों में बड़ा अंतर हो सकता है।
एडब्ल्यूएस ग्राहक वेरीकास्ट एक मार्केटिंग समाधान कंपनी है जो अपने ग्राहकों के लिए मार्केटिंग आरओआई को बढ़ावा देने के लिए डेटा-संचालित निर्णय लेती है। वेरीकास्ट का आंतरिक क्लाउड-आधारित मशीन लर्निंग प्लेटफॉर्म, जिसे क्रिस्प-एमएल(क्यू) प्रक्रिया के इर्द-गिर्द बनाया गया है, विभिन्न एडब्ल्यूएस सेवाओं का उपयोग करता है, जिनमें शामिल हैं अमेज़न SageMaker, अमेज़न SageMaker प्रसंस्करण, AWS लाम्बा, तथा AWS स्टेप फ़ंक्शंसविशिष्ट ग्राहक के डेटा के अनुरूप सर्वोत्तम संभव मॉडल तैयार करने के लिए। इस प्लेटफ़ॉर्म का उद्देश्य उन चरणों की पुनरावृत्ति को कैप्चर करना है जो विभिन्न ML वर्कफ़्लोज़ के निर्माण में जाते हैं और उन्हें प्लेटफ़ॉर्म के भीतर मानक सामान्यीकरण वर्कफ़्लो मॉड्यूल में बंडल करते हैं।
इस पोस्ट में, हम साझा करते हैं कि कैसे Vericast ने SageMaker प्रोसेसिंग का उपयोग करके फीचर इंजीनियरिंग को अनुकूलित किया।
समाधान अवलोकन
Vericast का मशीन लर्निंग प्लेटफॉर्म मौजूदा वर्कफ्लो के आधार पर नए बिजनेस मॉडल की तेजी से तैनाती या नए ग्राहकों के लिए मौजूदा मॉडल की तेजी से सक्रियता में सहायता करता है। उदाहरण के लिए, डायरेक्ट मेल प्रवृत्ति का अनुमान लगाने वाला मॉडल वेरीकास्ट क्लाइंट के ग्राहकों की डिस्काउंट कूपन संवेदनशीलता का अनुमान लगाने वाले मॉडल से काफी अलग है। वे विभिन्न व्यावसायिक समस्याओं को हल करते हैं और इसलिए मार्केटिंग अभियान डिज़ाइन में अलग-अलग उपयोग परिदृश्य होते हैं। लेकिन एक एमएल दृष्टिकोण से, दोनों को बाइनरी वर्गीकरण मॉडल के रूप में माना जा सकता है, और इसलिए मॉडल ट्यूनिंग और प्रशिक्षण, मूल्यांकन, व्याख्यात्मकता, परिनियोजन और अनुमान सहित एमएल वर्कफ़्लो परिप्रेक्ष्य से कई सामान्य चरण साझा कर सकते हैं।
क्योंकि ये मॉडल बाइनरी वर्गीकरण समस्याएँ हैं (ML शब्दों में), हम एक कंपनी के ग्राहकों को दो वर्गों (बाइनरी) में विभाजित कर रहे हैं: वे जो अभियान के लिए सकारात्मक प्रतिक्रिया देंगे और जो नहीं करेंगे। इसके अलावा, इन उदाहरणों को असंतुलित वर्गीकरण माना जाता है क्योंकि मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा में ग्राहकों की समान संख्या नहीं होगी जो अनुकूल प्रतिक्रिया देंगे और नहीं करेंगे।
इस तरह के एक मॉडल का वास्तविक निर्माण निम्न आरेख में दिखाए गए सामान्यीकृत पैटर्न का अनुसरण करता है।
फ़ीचर इंजीनियरिंग चरण को छोड़कर, इस प्रक्रिया का अधिकांश भाग किसी भी बाइनरी वर्गीकरण के लिए समान है। यह शायद सबसे जटिल प्रक्रिया है, लेकिन कभी-कभी इस प्रक्रिया में अनदेखा किया गया कदम है। एमएल मॉडल काफी हद तक इसे बनाने के लिए उपयोग की जाने वाली सुविधाओं पर निर्भर हैं।
वेरीकास्ट के क्लाउड-नेटिव मशीन लर्निंग प्लेटफॉर्म का लक्ष्य विभिन्न एमएल वर्कफ्लो के लिए फीचर इंजीनियरिंग चरणों को सामान्य बनाना और स्वचालित करना है और निम्नलिखित सुविधाओं का उपयोग करके लागत बनाम समय मीट्रिक पर उनके प्रदर्शन को अनुकूलित करना है:
- मंच की सुविधा इंजीनियरिंग पुस्तकालय - इसमें परिवर्तनों का एक हमेशा विकसित होने वाला सेट शामिल होता है जिसे विशिष्ट ग्राहक अवधारणाओं (उदाहरण के लिए, ग्राहक जनसांख्यिकी, उत्पाद विवरण, लेनदेन विवरण, और इसी तरह) के आधार पर उच्च-गुणवत्ता वाली सामान्य सुविधाओं का उत्पादन करने के लिए परीक्षण किया गया है।
- बुद्धिमान संसाधन अनुकूलक - मंच एडब्ल्यूएस की ऑन-डिमांड इंफ्रास्ट्रक्चर क्षमता का उपयोग करता है ताकि विशेष फीचर इंजीनियरिंग नौकरी के लिए सबसे इष्टतम प्रकार के प्रसंस्करण संसाधनों को चरण की अपेक्षित जटिलता और इसके माध्यम से मंथन करने के लिए आवश्यक डेटा की मात्रा के आधार पर उपयोग किया जा सके।
- फीचर इंजीनियरिंग नौकरियों की गतिशील स्केलिंग - इसके लिए विभिन्न AWS सेवाओं के संयोजन का उपयोग किया जाता है, लेकिन विशेष रूप से SageMaker प्रसंस्करण। यह सुनिश्चित करता है कि प्लेटफ़ॉर्म लागत-कुशल और समयबद्ध तरीके से उच्च-गुणवत्ता वाली सुविधाएँ तैयार करता है।
यह पोस्ट इस सूची में तीसरे बिंदु के आसपास केंद्रित है और दिखाता है कि बड़े डेटा वॉल्यूम के लिए अधिक प्रबंधित, प्रदर्शनकारी और लागत प्रभावी डेटा प्रोसेसिंग ढांचे को प्राप्त करने के लिए SageMaker प्रसंस्करण नौकरियों की गतिशील स्केलिंग कैसे प्राप्त करें।
SageMaker प्रसंस्करण वर्कलोड को सक्षम करता है जो SageMaker पर डेटा प्रीप्रोसेसिंग या पोस्टप्रोसेसिंग, फीचर इंजीनियरिंग, डेटा सत्यापन और मॉडल मूल्यांकन के लिए चरण चलाता है। यह एक प्रबंधित वातावरण भी प्रदान करता है और कार्यभार चलाने के लिए आवश्यक बुनियादी ढाँचे को स्थापित करने और बनाए रखने के लिए आवश्यक अविभाजित भारी भारोत्तोलन की जटिलता को दूर करता है। इसके अलावा, SageMaker प्रसंस्करण काम के बोझ को चलाने, निगरानी और मूल्यांकन करने के लिए एक एपीआई इंटरफ़ेस प्रदान करता है।
सेजमेकर प्रोसेसिंग जॉब चलाना पूरी तरह से एक प्रबंधित सेजमेकर क्लस्टर के भीतर होता है, जिसमें अलग-अलग जॉब रन टाइम पर उदाहरण के कंटेनर में रखे जाते हैं। प्रबंधित क्लस्टर, उदाहरण और कंटेनर मेट्रिक्स को रिपोर्ट करते हैं अमेज़ॅन क्लाउडवॉच, जिसमें GPU, CPU, मेमोरी, GPU मेमोरी, डिस्क मेट्रिक्स और इवेंट लॉगिंग का उपयोग शामिल है।
ये विशेषताएं वेरिकास्ट डेटा इंजीनियरों और वैज्ञानिकों को सामान्यीकृत प्रीप्रोसेसिंग वर्कफ़्लोज़ के विकास में सहायता करके और उन्हें चलाने के लिए उत्पन्न वातावरण को बनाए रखने की कठिनाई को कम करके लाभ प्रदान करती हैं। हालाँकि, तकनीकी समस्याएँ उत्पन्न हो सकती हैं, डेटा की गतिशील प्रकृति और इसकी विविध विशेषताओं को देखते हुए जिन्हें इस तरह के सामान्य समाधान में फीड किया जा सकता है। सिस्टम को क्लस्टर के आकार और इसे बनाने वाले उदाहरणों के रूप में एक शिक्षित प्रारंभिक अनुमान लगाना चाहिए। इस अनुमान को डेटा के मानदंडों का मूल्यांकन करने और सीपीयू, मेमोरी और डिस्क आवश्यकताओं का अनुमान लगाने की आवश्यकता है। यह अनुमान पूरी तरह उपयुक्त हो सकता है और नौकरी के लिए पर्याप्त रूप से प्रदर्शन कर सकता है, लेकिन अन्य मामलों में ऐसा नहीं हो सकता है। किसी दिए गए डेटासेट और प्रीप्रोसेसिंग जॉब के लिए, सीपीयू कम आकार का हो सकता है, जिसके परिणामस्वरूप अधिकतम प्रसंस्करण प्रदर्शन और पूरा होने में लंबा समय लगता है। इससे भी बदतर, स्मृति एक समस्या बन सकती है, जिसके परिणामस्वरूप या तो खराब प्रदर्शन होता है या स्मृति से बाहर होने की घटनाएँ पूरे काम को विफल कर देती हैं।
इन तकनीकी बाधाओं को ध्यान में रखते हुए, Vericast ने एक समाधान तैयार किया। उन्हें प्रकृति में सामान्य बने रहने और शामिल चरणों में लचीले होने वाले प्रीप्रोसेसिंग वर्कफ़्लो की बड़ी तस्वीर में फ़िट होने की आवश्यकता थी। ऐसे मामलों में जहां प्रदर्शन से समझौता किया गया था और ऐसी घटना से या जब किसी कारण से समय से पहले नौकरी समाप्त हो गई थी, तब पर्यावरण को बढ़ाने की संभावित आवश्यकता दोनों को हल करना भी महत्वपूर्ण था।
इस समस्या को हल करने के लिए Vericast द्वारा बनाया गया समाधान उनके व्यावसायिक उद्देश्यों को प्राप्त करने के लिए एक साथ काम करने वाली कई AWS सेवाओं का उपयोग करता है। इसे नौकरियों की निगरानी करने वाले लैम्ब्डा कार्यों का उपयोग करके देखे गए प्रदर्शन मेट्रिक्स के आधार पर सैजमेकर प्रोसेसिंग क्लस्टर को फिर से शुरू करने और स्केल करने के लिए डिज़ाइन किया गया था। स्केलिंग इवेंट होने पर काम न खोने के लिए या अप्रत्याशित रूप से रुकने वाली नौकरी से पुनर्प्राप्त करने के लिए, एक चेकपॉइंट-आधारित सेवा का उपयोग किया गया था अमेज़ॅन डायनेमोडीबी और आंशिक रूप से संसाधित डेटा को स्टोर करता है अमेज़न सरल भंडारण सेवा (Amazon S3) चरण पूर्ण होने पर बकेट। अंतिम परिणाम एक ऑटो स्केलिंग, मजबूत और गतिशील रूप से निगरानी वाला समाधान है।
निम्नलिखित आरेख एक उच्च-स्तरीय अवलोकन दिखाता है कि सिस्टम कैसे काम करता है।
निम्नलिखित अनुभागों में, हम समाधान घटकों पर अधिक विस्तार से चर्चा करते हैं।
समाधान प्रारंभ कर रहा है
सिस्टम मानता है कि एक अलग प्रक्रिया समाधान की शुरुआत करती है। इसके विपरीत, यह डिज़ाइन अकेले काम करने के लिए डिज़ाइन नहीं किया गया है क्योंकि यह किसी भी कलाकृतियों या आउटपुट का उत्पादन नहीं करेगा, बल्कि सैजमेकर प्रसंस्करण नौकरियों का उपयोग करने वाली प्रणालियों में से एक के लिए एक साइडकार कार्यान्वयन के रूप में कार्य करता है। वेरीकास्ट के मामले में, बड़े सिस्टम के दूसरे मॉड्यूल में शुरू किए गए स्टेप फंक्शंस स्टेप से कॉल के माध्यम से समाधान शुरू किया जाता है।
एक बार जब समाधान शुरू हो जाता है और पहला रन चालू हो जाता है, तो डायनेमोडीबी तालिका से एक आधार मानक विन्यास पढ़ा जाता है। इस कॉन्फ़िगरेशन का उपयोग SageMaker प्रोसेसिंग जॉब के लिए पैरामीटर सेट करने के लिए किया जाता है और इसमें बुनियादी ढाँचे की ज़रूरतों की प्रारंभिक धारणाएँ होती हैं। SageMaker प्रसंस्करण कार्य अब शुरू हो गया है।
मेटाडेटा और आउटपुट की निगरानी करना
जब काम शुरू होता है, एक लैम्ब्डा फ़ंक्शन डायनेमोडीबी लॉग तालिका में नौकरी प्रसंस्करण मेटाडेटा (वर्तमान नौकरी कॉन्फ़िगरेशन और अन्य लॉग जानकारी) लिखता है। यह मेटाडेटा और लॉग जानकारी कार्य का इतिहास, इसके आरंभिक और चल रहे कॉन्फ़िगरेशन और अन्य महत्वपूर्ण डेटा को बनाए रखती है।
कुछ बिंदुओं पर, जैसे ही कार्य में चरण पूरे होते हैं, डायनेमोडीबी लॉग टेबल में चेकपॉइंट डेटा जोड़ा जाता है। यदि आवश्यक हो तो त्वरित पुनर्प्राप्ति के लिए संसाधित आउटपुट डेटा को Amazon S3 में ले जाया जाता है।
यह लैम्ब्डा फ़ंक्शन भी सेट करता है अमेज़न EventBridge नियम जो अपने राज्य के लिए चल रहे कार्य की निगरानी करता है। विशेष रूप से, यह नियम यह देखने के लिए कार्य को देख रहा है कि कार्य की स्थिति में परिवर्तन होता है या नहीं stopping
या ए में है stopped
राज्य। यदि कोई विफलता होती है या नियोजित ऑटो स्केलिंग घटना होती है, तो यह इवेंटब्रिज नियम नौकरी को फिर से शुरू करने में एक महत्वपूर्ण भूमिका निभाता है।
क्लाउडवॉच मेट्रिक्स की निगरानी करना
लैम्ब्डा फ़ंक्शन प्रसंस्करण कार्य पर मीट्रिक गणित अभिव्यक्ति के आधार पर क्लाउडवॉच अलार्म भी सेट करता है, जो सीपीयू उपयोग, मेमोरी उपयोग और डिस्क उपयोग के लिए सभी उदाहरणों की मीट्रिक पर नज़र रखता है। इस प्रकार का अलार्म (मीट्रिक) क्लाउडवॉच अलार्म थ्रेसहोल्ड का उपयोग करता है। अलार्म कई समयावधियों में दहलीज के सापेक्ष मीट्रिक या अभिव्यक्ति के मान के आधार पर ईवेंट उत्पन्न करता है।
Vericast के उपयोग के मामले में, थ्रेशोल्ड एक्सप्रेशन को ड्राइवर और एक्ज़ीक्यूटर के उदाहरणों को अलग-अलग मानने के लिए डिज़ाइन किया गया है, प्रत्येक के लिए अलग-अलग मेट्रिक्स की निगरानी की जाती है। उन्हें अलग करने से, वेरिकास्ट जानता है कि कौन सा अलार्म पैदा कर रहा है। यह तय करना महत्वपूर्ण है कि तदनुसार कैसे स्केल किया जाए:
- यदि निष्पादक मेट्रिक्स थ्रेशोल्ड पास कर रहे हैं, तो क्षैतिज रूप से स्केल करना अच्छा होता है
- यदि ड्राइवर मेट्रिक्स थ्रेशोल्ड को पार कर जाता है, तो क्षैतिज रूप से स्केल करने से शायद मदद नहीं मिलेगी, इसलिए हमें लंबवत रूप से स्केल करना होगा
अलार्म मेट्रिक्स अभिव्यक्ति
स्केलिंग और विफलता के लिए वेरिकास्ट अपने मूल्यांकन में निम्नलिखित मेट्रिक्स तक पहुंच सकता है:
- सीपीयू का उपयोग – प्रत्येक व्यक्तिगत CPU कोर के उपयोग का योग
- मेमोरी यूटिलाइजेशन - एक उदाहरण पर कंटेनरों द्वारा उपयोग की जाने वाली मेमोरी का प्रतिशत
- डिस्क उपयोग - एक उदाहरण पर कंटेनरों द्वारा उपयोग किए जाने वाले डिस्क स्थान का प्रतिशत
- GPUउपयोग - जीपीयू इकाइयों का प्रतिशत जो एक उदाहरण पर कंटेनरों द्वारा उपयोग किया जाता है
- GPUस्मृति उपयोग - एक उदाहरण पर कंटेनरों द्वारा उपयोग की जाने वाली जीपीयू मेमोरी का प्रतिशत
इस लेखन के अनुसार, वेरीकास्ट केवल मानता है CPUUtilization
, MemoryUtilization
, तथा DiskUtilization
. भविष्य में, वे विचार करना चाहते हैं GPUUtilization
और GPUMemoryUtilization
किया जा सकता है।
निम्नलिखित कोड वेरीकास्ट ऑटो स्केलिंग के लिए मीट्रिक गणित अभिव्यक्ति के आधार पर क्लाउडवॉच अलार्म का एक उदाहरण है:
यह अभिव्यक्ति दर्शाती है कि क्लाउडवॉच अलार्म विचार कर रहा है DriverMemoryUtilization (memoryDriver)
, CPUUtilization (cpuDriver)
, DiskUtilization (diskDriver)
, ExecutorMemoryUtilization (memoryExec)
, CPUUtilization (cpuExec)
, तथा DiskUtilization (diskExec)
निगरानी मेट्रिक्स के रूप में। पूर्ववर्ती अभिव्यक्ति में संख्या 80 दहलीज मूल्य के लिए है।
यहाँ, IF((cpuDriver) > 80, 1, 0
तात्पर्य यह है कि यदि ड्राइवर का सीपीयू उपयोग 80% से अधिक हो जाता है, तो 1 को थ्रेशोल्ड के रूप में निर्दिष्ट किया जाता है। IF(AVG(METRICS("memoryExec")) > 80, 1, 0
तात्पर्य यह है कि सभी मेट्रिक्स स्ट्रिंग के साथ memoryExec
इसमें विचार किया जाता है और उस पर औसत की गणना की जाती है। यदि वह औसत मेमोरी उपयोग प्रतिशत 80 से अधिक हो जाता है, तो 1 को दहलीज के रूप में निर्दिष्ट किया जाता है।
तार्किक संचालिका OR
अभिव्यक्ति में सभी उपयोगों को एकजुट करने के लिए अभिव्यक्ति में उपयोग किया जाता है - यदि कोई उपयोग अपनी सीमा तक पहुँचता है, तो अलार्म को ट्रिगर करें।
मीट्रिक गणित अभिव्यक्तियों के आधार पर क्लाउडवॉच मीट्रिक अलार्म का उपयोग करने के बारे में अधिक जानकारी के लिए देखें मेट्रिक मैथ एक्सप्रेशन के आधार पर क्लाउडवॉच अलार्म बनाना.
क्लाउडवॉच अलार्म सीमाएं
क्लाउडवॉच प्रति अलार्म मेट्रिक्स की संख्या को 10 तक सीमित करता है। यदि आपको इससे अधिक मेट्रिक्स पर विचार करने की आवश्यकता है तो यह सीमाएं पैदा कर सकता है।
इस सीमा को पार करने के लिए, वेरिकास्ट ने समग्र क्लस्टर आकार के आधार पर अलार्म सेट किए हैं। प्रति तीन बार एक अलार्म बनाया जाता है (तीन उदाहरणों के लिए, एक अलार्म होगा क्योंकि वह नौ मीट्रिक तक जोड़ देगा)। यह मानकर कि ड्राइवर उदाहरण को अलग से माना जाना है, ड्राइवर उदाहरण के लिए एक और अलग अलार्म बनाया जाता है। इसलिए, बनाए गए अलार्म की कुल संख्या एक्ज़ीक्यूटर नोड की संख्या के लगभग एक तिहाई और ड्राइवर इंस्टेंस के लिए एक अतिरिक्त के बराबर होती है। प्रत्येक मामले में, प्रति अलार्म मेट्रिक्स की संख्या 10 मीट्रिक सीमा के अंतर्गत है।
क्या होता है जब एक अलार्म स्थिति में होता है
यदि एक पूर्व निर्धारित दहलीज पूरी हो जाती है, तो अलार्म एक पर जाता है alarm
राज्य, जो उपयोग करता है अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) सूचनाएं भेजने के लिए। इस मामले में, यह संदेश में अलार्म के विवरण के साथ सभी ग्राहकों को एक ईमेल सूचना भेजता है।
अमेज़ॅन एसएनएस का उपयोग लैम्ब्डा फ़ंक्शन के ट्रिगर के रूप में भी किया जाता है जो वर्तमान में चल रहे सैजमेकर प्रसंस्करण कार्य को रोकता है क्योंकि हम जानते हैं कि नौकरी शायद विफल हो जाएगी। यह फ़ंक्शन ईवेंट से संबंधित लॉग तालिका में लॉग भी रिकॉर्ड करता है।
कार्य प्रारंभ पर स्थापित किया गया EventBridge नियम यह नोटिस करेगा कि कार्य में चला गया है a stopping
कुछ सेकंड बाद बताएं। यह नियम तब कार्य को पुनः आरंभ करने के लिए पहले लैम्ब्डा फ़ंक्शन को फिर से चलाता है।
गतिशील स्केलिंग प्रक्रिया
दो या दो से अधिक बार चलने के बाद पहले लैम्ब्डा फ़ंक्शन को पता चल जाएगा कि पिछली नौकरी पहले ही शुरू हो चुकी थी और अब बंद हो गई है। फ़ंक्शन लॉग DynamoDB तालिका में मूल कार्य से आधार कॉन्फ़िगरेशन प्राप्त करने की समान प्रक्रिया से गुजरेगा और आंतरिक तालिका से अद्यतन कॉन्फ़िगरेशन को भी पुनर्प्राप्त करेगा। यह अद्यतित कॉन्फ़िगरेशन एक संसाधन डेल्टा कॉन्फ़िगरेशन है जो स्केलिंग प्रकार के आधार पर सेट किया गया है। स्केलिंग प्रकार पहले वर्णित अलार्म मेटाडेटा से निर्धारित होता है।
मूल कॉन्फ़िगरेशन और संसाधन डेल्टा का उपयोग किया जाता है क्योंकि एक नया कॉन्फ़िगरेशन और एक नया SageMaker प्रसंस्करण कार्य बढ़े हुए संसाधनों के साथ शुरू किया गया है।
यह प्रक्रिया तब तक जारी रहती है जब तक कि कार्य सफलतापूर्वक पूरा नहीं हो जाता है और इसके परिणामस्वरूप हर बार अधिक संसाधनों को जोड़ते हुए आवश्यकतानुसार कई पुनरारंभ हो सकते हैं।
वेरीकास्ट का परिणाम
यह कस्टम ऑटो स्केलिंग समाधान वेरीकास्ट के मशीन लर्निंग प्लेटफॉर्म को अधिक मजबूत और दोष सहिष्णु बनाने में सहायक रहा है। प्लेटफ़ॉर्म अब न्यूनतम मानवीय हस्तक्षेप के साथ विभिन्न डेटा वॉल्यूम के वर्कलोड को शान से संभाल सकता है।
इस समाधान को लागू करने से पहले, पाइपलाइन में सभी स्पार्क-आधारित मॉड्यूल के लिए संसाधन आवश्यकताओं का अनुमान लगाना नए क्लाइंट ऑनबोर्डिंग प्रक्रिया की सबसे बड़ी बाधाओं में से एक था। यदि क्लाइंट डेटा की मात्रा में वृद्धि हुई है, तो वर्कफ़्लो विफल हो जाएगा, या उत्पादन में डेटा की मात्रा कम होने पर लागत अनुचित होगी।
इस नए मॉड्यूल के साथ, संसाधन की कमी के कारण वर्कफ़्लो विफलताओं में लगभग 80% की कमी आई है। कुछ शेष विफलताएँ ज्यादातर AWS खाता बाधाओं और ऑटो स्केल प्रक्रिया से परे होने के कारण हैं। इस समाधान के साथ Vericast की सबसे बड़ी जीत वह आसानी है जिसके साथ वे नए ग्राहकों और कार्यप्रवाहों को ऑनबोर्ड कर सकते हैं। वेरिकास्ट प्रक्रिया को कम से कम 60-70% तक तेज करने की उम्मीद करता है, जबकि अंतिम संख्या के लिए डेटा अभी भी इकट्ठा किया जाना बाकी है।
हालांकि इसे वेरीकास्ट द्वारा एक सफलता के रूप में देखा जाता है, लेकिन इसके साथ एक लागत भी आती है। इस मॉड्यूल की प्रकृति और समग्र रूप से डायनेमिक स्केलिंग की अवधारणा के आधार पर, वर्कफ़्लो में प्रत्येक मॉड्यूल के लिए कस्टम-ट्यून किए गए क्लस्टर वाले वर्कफ़्लो की तुलना में वर्कफ़्लो में लगभग 30% अधिक समय (औसत मामला) लगता है। Vericast इस क्षेत्र में अनुकूलन करना जारी रखता है, प्रत्येक क्लाइंट मॉड्यूल के लिए ह्यूरिस्टिक्स-आधारित संसाधन आरंभीकरण को शामिल करके समाधान में सुधार करना चाहता है।
Vericast में मशीन लर्निंग प्लेटफॉर्म के वरिष्ठ प्रबंधक, शर्मो सरकार कहते हैं, "चूंकि हम AWS और SageMaker के अपने उपयोग का विस्तार करना जारी रखते हैं, मैं अपनी AWS क्लाइंट सर्विसेज टीम, समर्पित AWS सॉल्यूशंस आर्किटेक्ट्स के अविश्वसनीय काम को उजागर करने के लिए कुछ समय लेना चाहता था। और AWS व्यावसायिक सेवाएँ जिनके साथ हम काम करते हैं। AWS और SageMaker की उनकी गहरी समझ ने हमें एक ऐसा समाधान तैयार करने की अनुमति दी जो हमारी सभी जरूरतों को पूरा करे और हमें आवश्यक लचीलापन और मापनीयता प्रदान करे। हम अपनी तरफ से इतनी प्रतिभाशाली और जानकार सपोर्ट टीम के लिए बहुत आभारी हैं।
निष्कर्ष
इस पोस्ट में, हमने साझा किया कि कैसे SageMaker और SageMaker प्रोसेसिंग ने Vericast को बड़ी मात्रा में डेटा के लिए एक प्रबंधित, प्रदर्शनकारी और लागत-प्रभावी डेटा प्रोसेसिंग फ़्रेमवर्क बनाने में सक्षम बनाया है। अन्य AWS सेवाओं के साथ SageMaker प्रसंस्करण की शक्ति और लचीलेपन को जोड़कर, वे सामान्यीकृत फीचर इंजीनियरिंग प्रक्रिया की आसानी से निगरानी कर सकते हैं। वे स्वचालित रूप से गणना, मेमोरी और अन्य कारकों की कमी से उत्पन्न संभावित मुद्दों का पता लगा सकते हैं और स्वचालित रूप से आवश्यकतानुसार लंबवत और क्षैतिज स्केलिंग लागू कर सकते हैं।
SageMaker और इसके टूल आपकी टीम को इसके ML लक्ष्यों को पूरा करने में भी मदद कर सकते हैं। SageMaker प्रोसेसिंग के बारे में अधिक जानने के लिए और यह कैसे आपके डेटा प्रोसेसिंग वर्कलोड में सहायता कर सकता है, देखें डेटा का प्रसंस्करण. यदि आप एमएल के साथ अभी शुरुआत कर रहे हैं और उदाहरण और मार्गदर्शन की तलाश कर रहे हैं, अमेज़न SageMaker जम्पस्टार्ट आपको आरंभ कर सकता है। जम्पस्टार्ट एक एमएल हब है जहां से आप पूर्व-प्रशिक्षित फाउंडेशन मॉडल के साथ बिल्ट-इन एल्गोरिद्म तक पहुंच सकते हैं, जिससे आपको सामान्य उपयोग के मामलों को हल करने के लिए लेख सारांश और छवि निर्माण और पूर्व-निर्मित समाधान जैसे कार्य करने में मदद मिलती है।
अंत में, यदि यह पोस्ट आपकी मदद करती है या आपको किसी समस्या को हल करने के लिए प्रेरित करती है, तो हमें इसके बारे में सुनना अच्छा लगेगा! कृपया अपनी टिप्पणी और प्रतिक्रिया साझा करें।
लेखक के बारे में
एंथोनी मॅकक्लूर AWS SaaS Factory टीम के साथ एक वरिष्ठ भागीदार समाधान वास्तुकार हैं। एंथनी को मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस में भी गहरी दिलचस्पी है, जो ग्राहकों को उनके मशीन लर्निंग सॉल्यूशंस को हकीकत में लाने में मदद करने के लिए AWS ML/AI टेक्निकल फील्ड कम्युनिटी के साथ काम कर रहा है।
Jyoti Sharma वेरीकास्ट में मशीन लर्निंग प्लेटफॉर्म टीम के साथ डेटा साइंस इंजीनियर हैं। वह डेटा साइंस के सभी पहलुओं के बारे में भावुक है और एक अत्यधिक स्केलेबल और वितरित मशीन लर्निंग प्लेटफॉर्म को डिजाइन करने और लागू करने पर केंद्रित है।
शर्मा सरकार वेरीकास्ट में वरिष्ठ प्रबंधक हैं। वे वेरीकास्ट में क्लाउड मशीन लर्निंग प्लेटफॉर्म और मार्केटिंग प्लेटफॉर्म एमएल आर एंड डी टीमों का नेतृत्व करते हैं। उन्हें बिग डेटा एनालिटिक्स, डिस्ट्रीब्यूटेड कंप्यूटिंग और नेचुरल लैंग्वेज प्रोसेसिंग का व्यापक अनुभव है। काम के बाहर, वह मोटरसाइकिल चलाना, लंबी पैदल यात्रा, और पहाड़ी पगडंडियों पर साइकिल चलाना पसंद करता है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
- PREIPO® के साथ PRE-IPO कंपनियों में शेयर खरीदें और बेचें। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/how-vericast-optimized-feature-engineering-using-amazon-sagemaker-processing/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 10
- 100
- 15% तक
- 7
- a
- About
- पहुँच
- तदनुसार
- लेखा
- पाना
- सक्रियण
- कार्य करता है
- जोड़ना
- जोड़ा
- जोड़ने
- अतिरिक्त
- पर्याप्त रूप से
- बाद
- के खिलाफ
- एड्स
- करना
- अलार्म
- कलन विधि
- एल्गोरिदम
- सब
- अकेला
- साथ में
- पहले ही
- भी
- वीरांगना
- अमेज़न SageMaker
- राशि
- an
- विश्लेषिकी
- और
- अन्य
- एंथनी
- कोई
- एपीआई
- उपयुक्त
- स्थापत्य
- हैं
- क्षेत्र
- चारों ओर
- लेख
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- AS
- पहलू
- पहलुओं
- सौंपा
- सहायता
- At
- स्वत:
- को स्वचालित रूप से
- स्वतः
- औसत
- एडब्ल्यूएस
- AWS व्यावसायिक सेवाएँ
- आधार
- आधारित
- BE
- क्योंकि
- बन
- किया गया
- जा रहा है
- लाभ
- BEST
- परे
- बड़ा
- बड़ा डेटा
- सबसे बड़ा
- बढ़ावा
- के छात्रों
- लाना
- निर्माण
- इमारत
- बनाया गया
- में निर्मित
- व्यापार
- लेकिन
- by
- परिकलित
- कॉल
- अभियान
- कर सकते हैं
- पा सकते हैं
- कैप्चरिंग
- मामला
- मामलों
- कारण
- के कारण
- कुछ
- चुनौतीपूर्ण
- परिवर्तन
- कक्षा
- कक्षाएं
- वर्गीकरण
- ग्राहक
- ग्राहक जहाज पर
- ग्राहकों
- बादल
- समूह
- कोड
- स्तंभ
- संयोजन
- संयोजन
- आता है
- टिप्पणियाँ
- सामान्य
- समुदाय
- कंपनी
- पूरा
- पूरा करता है
- जटिलता
- जटिल
- घटकों
- छेड़छाड़ की गई
- गणना करना
- कंप्यूटिंग
- संकल्पना
- अवधारणाओं
- विन्यास
- विचार करना
- माना
- पर विचार
- समझता है
- की कमी
- शामिल
- कंटेनरों
- जारी रखने के
- जारी
- लागत
- प्रभावी लागत
- सका
- कूपन
- बनाना
- बनाया
- निर्माण
- मापदंड
- क्रॉस
- वर्तमान
- वर्तमान में
- रिवाज
- ग्राहक
- ग्राहक
- तिथि
- डेटा विश्लेषण
- डेटा तैयारी
- डेटा संसाधन
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- डेटा पर ही आधारित
- डेटासेट
- तय
- निर्णय
- समर्पित
- गहरा
- डेल्टा
- जनसांख्यिकी
- निर्भर
- तैनाती
- वर्णित
- डिज़ाइन
- बनाया गया
- डिज़ाइन बनाना
- विस्तार
- विवरण
- निर्धारित
- विकास
- विभिन्न
- भिन्न
- कठिनाई
- प्रत्यक्ष
- छूट
- चर्चा करना
- वितरित
- वितरित अभिकलन
- संचालित
- ड्राइवर
- दो
- गतिशील
- गतिशील
- से प्रत्येक
- पूर्व
- आराम
- आसानी
- भी
- ईमेल
- सक्षम
- सक्षम बनाता है
- इंजीनियर
- अभियांत्रिकी
- इंजीनियर्स
- सुनिश्चित
- संपूर्ण
- वातावरण
- वातावरण
- बराबर
- बराबर
- मूल्यांकन करें
- का मूल्यांकन
- मूल्यांकन
- कार्यक्रम
- घटनाओं
- उदाहरण
- उदाहरण
- सिवाय
- मौजूदा
- विस्तार
- अपेक्षित
- उम्मीद
- अनुभव
- तलाश
- भाव
- व्यापक
- विस्तृत अनुभव
- कारकों
- कारखाना
- असफल
- विफलता
- Feature
- विशेषताएं
- फेड
- प्रतिक्रिया
- कुछ
- खेत
- अंतिम
- अंतिम रूप दिया
- प्रथम
- फिट
- लचीलापन
- लचीला
- ध्यान केंद्रित
- निम्नलिखित
- इस प्रकार है
- के लिए
- रूपों
- बुनियाद
- ढांचा
- से
- पूरी तरह से
- समारोह
- कार्यों
- और भी
- भविष्य
- सभा
- सामान्य जानकारी
- उत्पन्न
- उत्पन्न करता है
- पीढ़ी
- मिल
- मिल रहा
- दी
- Go
- लक्ष्य
- लक्ष्यों
- चला जाता है
- अच्छा
- GPU
- आभारी
- मार्गदर्शन
- था
- संभालना
- हो जाता
- है
- होने
- he
- सुनना
- mmmmm
- भार उठाना
- मदद
- मदद करता है
- उच्च स्तर
- उच्च गुणवत्ता
- हाइलाइट
- अत्यधिक
- इतिहास
- क्षैतिज
- क्षैतिज
- कैसे
- How To
- तथापि
- एचटीएमएल
- http
- HTTPS
- हब
- मानव
- टट्टी कुदने की घुड़ौड़
- i
- पहचान
- if
- दिखाता है
- की छवि
- लागू करने के
- कार्यान्वयन
- कार्यान्वयन
- महत्वपूर्ण
- में सुधार
- in
- अन्य में
- शामिल
- सहित
- शामिल
- बढ़ना
- वृद्धि हुई
- अविश्वसनीय
- व्यक्ति
- व्यक्तिगत रूप से
- करें-
- इंफ्रास्ट्रक्चर
- प्रारंभिक
- आरंभ
- उदाहरण
- सहायक
- बुद्धि
- इरादा
- ब्याज
- इंटरफेस
- आंतरिक
- हस्तक्षेप
- में
- शामिल
- मुद्दा
- मुद्दों
- IT
- आईटी इस
- काम
- नौकरियां
- जेपीजी
- केवल
- बच्चा
- जानना
- रंग
- भाषा
- बड़ा
- बड़े पैमाने पर
- बड़ा
- बाद में
- बिक्रीसूत्र
- जानें
- सीख रहा हूँ
- कम से कम
- पुस्तकालय
- उत्तोलक
- सीमा
- सीमाओं
- सीमाएं
- लिंक्डइन
- सूची
- थोड़ा
- लॉग इन
- लॉगिंग
- तार्किक
- लंबे समय तक
- देख
- खोना
- मोहब्बत
- मशीन
- यंत्र अधिगम
- बनाए रखना
- को बनाए रखने के
- का कहना है
- बनाना
- बनाता है
- निर्माण
- कामयाब
- प्रबंधक
- चालाकी से
- ढंग
- बहुत
- विपणन (मार्केटिंग)
- गणित
- मई..
- मिलना
- याद
- message
- मेटाडाटा
- मीट्रिक
- मेट्रिक्स
- हो सकता है
- मन
- कम से कम
- ML
- आदर्श
- मॉडल
- मॉड्यूल
- मॉड्यूल
- पल
- मॉनिटर
- नजर रखी
- निगरानी
- पर नज़र रखता है
- अधिक
- अधिकांश
- अधिकतर
- पहाड़
- विभिन्न
- चाहिए
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- प्रकृति
- आवश्यकता
- जरूरत
- ज़रूरत
- की जरूरत है
- नया
- नोड्स
- विशेष रूप से
- सूचना..
- अधिसूचना
- सूचनाएं
- अभी
- संख्या
- उद्देश्य
- निरीक्षण
- of
- अक्सर
- on
- ऑन डिमांड
- जहाज
- ज्ञानप्राप्ति
- ONE
- चल रहे
- केवल
- ऑपरेटर
- इष्टतम
- ऑप्टिमाइज़ करें
- अनुकूलित
- or
- मूल
- अन्य
- हमारी
- आउट
- परिणाम
- उत्पादन
- बाहर
- के ऊपर
- कुल
- काबू
- सिंहावलोकन
- पैरामीटर
- भाग
- विशेष
- साथी
- पासिंग
- आवेशपूर्ण
- पैटर्न
- प्रतिशतता
- निष्पादन
- प्रदर्शन
- शायद
- अवधि
- परिप्रेक्ष्य
- चित्र
- पाइपलाइन
- जगह
- की योजना बनाई
- मंच
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- प्ले
- निभाता
- कृप्या अ
- प्लस
- बिन्दु
- अंक
- गरीब
- संभव
- पद
- संभावित
- बिजली
- की भविष्यवाणी
- पिछला
- शायद
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रसंस्कृत
- प्रसंस्करण
- उत्पादन
- एस्ट्रो मॉल
- उत्पादन
- पेशेवर
- प्रदान करना
- बशर्ते
- प्रदान करता है
- रखना
- गुणवत्ता
- त्वरित
- तेज
- अनुसंधान और विकास
- बल्कि
- कच्चा
- पहुंच
- पढ़ना
- तैयार
- वास्तविकता
- कारण
- अभिलेख
- की वसूली
- वसूली
- घटी
- संदर्भित करता है
- सम्बंधित
- प्रासंगिक
- रहना
- शेष
- रिपोर्ट
- अपेक्षित
- आवश्यकताएँ
- संसाधन
- उपयुक्त संसाधन चुनें
- प्रतिक्रिया
- परिणाम
- जिसके परिणामस्वरूप
- मजबूत
- भूमिका
- लगभग
- नियम
- रन
- दौड़ना
- सास
- sagemaker
- वही
- कहते हैं
- अनुमापकता
- स्केलेबल
- स्केल
- स्केलिंग
- स्केलिंग समाधान
- परिदृश्यों
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- सेकंड
- वर्गों
- चयनित
- चयन
- भेजें
- भेजता
- वरिष्ठ
- संवेदनशीलता
- अलग
- पृथक करना
- सेवा
- सेवाएँ
- सेट
- सेट
- कई
- Share
- साझा
- शर्मा
- वह
- दिखाया
- दिखाता है
- पक्ष
- महत्वपूर्ण
- समान
- सरल
- आकार
- So
- समाधान
- समाधान ढूंढे
- हल
- अंतरिक्ष
- विशिष्ट
- विशेष रूप से
- गति
- स्पिन
- चरणों
- मानक
- खड़ा
- प्रारंभ
- शुरू
- शुरू होता है
- राज्य
- स्थिति
- कदम
- कदम
- फिर भी
- रोक
- रोक
- बंद हो जाता है
- भंडारण
- भंडार
- तार
- मजबूत
- संरचित
- ग्राहकों
- सफलता
- सफलतापूर्वक
- ऐसा
- समर्थन
- प्रणाली
- सिस्टम
- तालिका
- अनुरूप
- लेना
- लेता है
- प्रतिभावान
- कार्य
- कार्य
- टीम
- टीमों
- तकनीकी
- शर्तों
- से
- कि
- RSI
- भविष्य
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- इसलिये
- इन
- वे
- तीसरा
- इसका
- उन
- तीन
- द्वार
- यहाँ
- पहर
- बार
- सेवा मेरे
- एक साथ
- उपकरण
- कुल
- रेलगाड़ी
- प्रशिक्षण
- ट्रांजेक्शन
- लेनदेन का विवरण
- बदालना
- परिवर्तन
- परिवर्तनों
- ट्रिगर
- शुरू हो रहा
- दो
- टाइप
- ठेठ
- के अंतर्गत
- समझ
- इकाइयों
- जब तक
- अद्यतन
- us
- प्रयोग करने योग्य
- प्रयोग
- उपयोग
- उदाहरण
- प्रयुक्त
- का उपयोग
- सत्यापन
- मूल्य
- विभिन्न
- ऊर्ध्वाधर
- आयतन
- संस्करणों
- vs
- जरूरत है
- था
- देख
- मार्ग..
- we
- कुंआ
- कब
- कौन कौन से
- कौन
- पूरा का पूरा
- पूर्णतः
- मर्जी
- जीतना
- साथ में
- अंदर
- काम
- workflows
- काम कर रहे
- कार्य
- बदतर
- होगा
- लिख रहे हैं
- अभी तक
- प्राप्ति
- आप
- आपका
- जेफिरनेट