अंतर्निहित अमेज़न SageMaker XGBoost एल्गोरिथ्म लोकप्रिय को चलाने के लिए एक प्रबंधित कंटेनर प्रदान करता है एक्सजीबूस्ट मशीन लर्निंग (एमएल) ढांचा, उन्नत प्रशिक्षण का समर्थन करने की अतिरिक्त सुविधा या वितरित प्रशिक्षण, बड़े पैमाने पर डेटासेट के लिए डेटासेट शार्डिंग जैसी सुविधाओं के साथ, ए / बी मॉडल परीक्षणया, बहु-मॉडल अनुमान समापन बिंदु। आप विभिन्न आवश्यकताओं को समायोजित करने के लिए इस शक्तिशाली एल्गोरिथम का विस्तार भी कर सकते हैं।
एक कंटेनर में कोड और निर्भरता की पैकेजिंग लंबी अवधि के कोड रखरखाव, प्रतिलिपि प्रस्तुत करने योग्यता और ऑडिटिंग उद्देश्यों के लिए एक सुविधाजनक और मजबूत दृष्टिकोण है। कंटेनर को संशोधित करना सीधे बेस कंटेनर का ईमानदारी से अनुसरण करता है और बेस कंटेनर द्वारा पहले से समर्थित मौजूदा कार्यों को डुप्लिकेट करने से बचाता है। इस पोस्ट में, हम SageMaker XGBoost एल्गोरिथम कंटेनर की आंतरिक कार्यप्रणाली की समीक्षा करते हैं और कंटेनर को सीधे कस्टमाइज़ करने के लिए व्यावहारिक स्क्रिप्ट प्रदान करते हैं।
सेजमेकर XGBoost कंटेनर संरचना
SageMaker बिल्ट-इन XGBoost एल्गोरिथम एक स्टैंड-अलोन कंटेनर के रूप में पैक किया गया है, गिटहब पर उपलब्ध, और इसे डेवलपर के अनुकूल Apache 2.0 ओपन-सोर्स लाइसेंस के तहत बढ़ाया जा सकता है। कंटेनर पैकेज करता है ओपन-सोर्स XGBoost एल्गोरिथम और अन्य एडब्ल्यूएस क्लाउड सेवाओं के साथ एकीकृत सेजमेकर वातावरण में एल्गोरिथम चलाने के लिए सहायक उपकरण। यह आपको XGBoost मॉडलों को विभिन्न प्रकार से प्रशिक्षित करने की अनुमति देता है डाटा के स्रोत, बनाना बैच भविष्यवाणियां ऑफ़लाइन डेटा पर, या होस्ट a अनुमान समापन बिंदु एक वास्तविक समय में पाइपलाइन.
कंटेनर विभिन्न प्रवेश बिंदुओं के साथ प्रशिक्षण और अनुमान संचालन का समर्थन करता है। अनुमान मोड के लिए, प्रवेश मुख्य समारोह में पाया जा सकता है service.py स्क्रिप्ट. वास्तविक समय के अनुमान की सेवा के लिए, कंटेनर चलता है a कुप्पीआधारित वेब सर्वर वह कब लागू, डेटा युक्त एक HTTP-एन्कोडेड अनुरोध प्राप्त करता है, डेटा को XGBoost's में डीकोड करता है डीमैट्रिक्स प्रारूप, मॉडल लोड करता है, और एक लौटाता है HTTP-एन्कोडेड प्रतिक्रिया वापस. इन विधियों को के तहत समझाया गया है स्कोरिंग सेवा वर्ग, जिसे काफी हद तक स्क्रिप्ट मोड के माध्यम से भी अनुकूलित किया जा सकता है (नीचे परिशिष्ट देखें)।
प्रशिक्षण मोड के लिए प्रवेश बिंदु (एल्गोरिदम मोड) में मुख्य कार्य है प्रशिक्षण. मुख्य कार्य प्रशिक्षण वातावरण स्थापित करता है और प्रशिक्षण कार्य फ़ंक्शन को कॉल करता है। यह वितरित या एकल-नोड प्रशिक्षण, या क्रॉस सत्यापन जैसी उपयोगिताओं की अनुमति देने के लिए पर्याप्त लचीला है। प्रशिक्षण प्रक्रिया का दिल में पाया जा सकता है ट्रेन_जॉब समारोह.
कंटेनर की पैकेजिंग करने वाली डॉकर फाइलें इसमें पाई जा सकती हैं गीथहब रेपो. ध्यान दें कि कंटेनर दो चरणों में बनाया गया है: a आधार कंटेनर पहले बनाया जाता है, उसके बाद अंतिम शीर्ष पर कंटेनर।
समाधान अवलोकन
आप स्रोत कोड के माध्यम से कंटेनर को संशोधित और पुनर्निर्माण कर सकते हैं। हालांकि, इसमें सभी निर्भरताओं और पैकेजों को खरोंच से इकट्ठा करना और पुनर्निर्माण करना शामिल है। इस पोस्ट में, हम एक अधिक सरल दृष्टिकोण पर चर्चा करते हैं जो पहले से निर्मित और सार्वजनिक रूप से उपलब्ध SageMaker XGBoost एल्गोरिथम कंटेनर छवि के शीर्ष पर कंटेनर को सीधे संशोधित करता है।
इस दृष्टिकोण में, हम खींच सार्वजनिक सेजमेकर XGBoost छवि की एक प्रति, स्क्रिप्ट संशोधित करें या पैकेज जोड़ें, और शीर्ष पर कंटेनर का पुनर्निर्माण करें। संशोधित कंटेनर को एक निजी भंडार में संग्रहीत किया जा सकता है। इस तरह, हम मध्यस्थ निर्भरता के पुनर्निर्माण से बचते हैं और इसके बजाय सीधे आधिकारिक कंटेनर में पहले से निर्मित पुस्तकालयों के शीर्ष पर निर्माण करते हैं।
निम्नलिखित आंकड़ा सार्वजनिक आधार छवि को खींचने, छवि को संशोधित और पुनर्निर्माण करने और इसे एक निजी पर अपलोड करने के लिए उपयोग की जाने वाली स्क्रिप्ट का एक सिंहावलोकन दिखाता है अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर) भंडार। बैश स्क्रिप्ट इस पोस्ट के साथ दिए गए कोड में आरेख में दिखाए गए सभी वर्कफ़्लो चरणों को निष्पादित करता है। के साथ नोटबुक एक उदाहरण दिखाता है जहां सेजमेकर XGBoost एल्गोरिथम के एक विशिष्ट संस्करण के यूआरआई को पहले पुनर्प्राप्त किया जाता है और पास किया जाता है बैश स्क्रिप्ट, जो छवि में दो पायथन लिपियों को प्रतिस्थापित करता है, इसका पुनर्निर्माण करता है, और संशोधित छवि को एक निजी Amazon ECR रिपॉजिटरी में धकेलता है। आप अपनी आवश्यकताओं के अनुरूप संलग्न कोड को संशोधित कर सकते हैं।
.. पूर्वापेक्षाएँ
RSI गिटहब भंडार इस पोस्ट के साथ कोड शामिल है। आप चला सकते हैं नमूना नोटबुक अपने AWS खाते में, या दिए गए का उपयोग करें एडब्ल्यूएस CloudFormation SageMaker नोटबुक का उपयोग करके नोटबुक को परिनियोजित करने के लिए स्टैक। आपको निम्नलिखित पूर्वापेक्षाएँ चाहिए:
- एक एडब्ल्यूएस खाता।
- सेजमेकर बैच ट्रांसफॉर्म और प्रशिक्षण कार्य चलाने के लिए आवश्यक अनुमतियां, और अमेज़ॅन ईसीआर विशेषाधिकार। CloudFormation टेम्प्लेट नमूना बनाता है AWS पहचान और अभिगम प्रबंधन (आईएएम) भूमिकाएं।
समाधान तैनात करें
AWS CloudFormation का उपयोग करके अपने समाधान संसाधन बनाने के लिए, चुनें स्टैक लॉन्च करें:
स्टैक GitHub रिपॉजिटरी को क्लोन करने के लिए पूर्व-कॉन्फ़िगर एक SageMaker नोटबुक को तैनात करता है। पूर्वाभ्यास नोटबुक किसी दिए गए संस्करण के लिए सार्वजनिक सेजमेकर XGBoost छवि को खींचने, इसे संशोधित करने और कस्टम कंटेनर को एक निजी Amazon ECR रिपॉजिटरी में धकेलने के चरण शामिल हैं। नोटबुक जनता का उपयोग करता है अबालोन डेटासेट एक नमूने के रूप में, SageMaker XGBoost बिल्ट-इन ट्रेनिंग मोड का उपयोग करके एक मॉडल को प्रशिक्षित करता है, और इस मॉडल को कस्टम इमेज में पुन: उपयोग करता है ताकि SHAP मानों के साथ अनुमान उत्पन्न करने वाले बैच ट्रांसफ़ॉर्म जॉब को निष्पादित किया जा सके।
निष्कर्ष
सेजमेकर बिल्ट-इन एल्गोरिदम विभिन्न प्रकार की सुविधाएँ और कार्यक्षमता प्रदान करता है, और इसे Apache 2.0 ओपन-सोर्स लाइसेंस के तहत आगे बढ़ाया जा सकता है। इस पोस्ट में, हमने समीक्षा की कि बैकवर्ड कोड और एपीआई संगतता जैसी उत्पादन आवश्यकताओं को पूरा करने के लिए SageMaker XGBoost एल्गोरिथम के लिए बिल्ट-इन कंटेनर का उत्पादन कैसे बढ़ाया जाए।
नमूना नोटबुक और सहायक लिपियों SageMaker XGBoost कंटेनर छवि को अपनी पसंद के अनुसार अनुकूलित करने के लिए एक सुविधाजनक प्रारंभिक बिंदु प्रदान करें। कोशिश तो करो!
परिशिष्ट: स्क्रिप्ट मोड
स्क्रिप्ट मोड इनपुट को बदलने और मॉडल को लोड करने के लिए जिम्मेदार कार्यों को बदलने के लिए एक इंटरफ़ेस प्रदान करके कई सेजमेकर बिल्ट-इन एल्गोरिदम को संशोधित करने का एक तरीका प्रदान करता है। स्क्रिप्ट मोड सीधे कंटेनर को संशोधित करने जितना लचीला नहीं है, लेकिन यह सीधे काम करने की आवश्यकता के बिना अंतर्निहित एल्गोरिदम को अनुकूलित करने के लिए पूरी तरह से पायथन-आधारित मार्ग प्रदान करता है। डाक में काम करनेवाला मज़दूर.
स्क्रिप्ट मोड में, a user-module
डेटा डिकोडिंग को अनुकूलित करने, मॉडल को लोड करने और भविष्यवाणियां करने के लिए प्रदान किया जाता है। उपयोगकर्ता मॉड्यूल परिभाषित कर सकता है a transformer_fn
जो प्रतिक्रिया तैयार करने के अनुरोध को संसाधित करने के सभी पहलुओं को संभालता है। या परिभाषित करने के बजाय transformer_fn
, आप कस्टम तरीके प्रदान कर सकते हैं model_fn
, input_fn
, predict_fn
, तथा output_fn
मॉडल को लोड करने और डिकोडिंग और भविष्यवाणी के लिए इनपुट तैयार करने के लिए व्यक्तिगत रूप से अनुकूलित करने के लिए। स्क्रिप्ट मोड के अधिक विस्तृत अवलोकन के लिए, देखें सेजमेकर स्क्रिप्ट मोड के साथ अपना खुद का मॉडल लाएं.
लेखक के बारे में
पीयमान रज़ागी एडब्ल्यूएस में डेटा साइंटिस्ट हैं। उन्होंने टोरंटो विश्वविद्यालय से सूचना सिद्धांत में पीएचडी की है और लॉस एंजिल्स के दक्षिणी कैलिफोर्निया विश्वविद्यालय (यूएससी) में डॉक्टरेट के बाद के शोध वैज्ञानिक थे। AWS में शामिल होने से पहले, Peyman क्वालकॉम में एक स्टाफ सिस्टम इंजीनियर था, जिसने कई उल्लेखनीय अंतरराष्ट्रीय दूरसंचार मानकों में योगदान दिया। उन्होंने सांख्यिकी और सिस्टम-इंजीनियरिंग क्षेत्र में कई वैज्ञानिक शोध लेख पीयर-रिव्यू किए हैं, और काम के बाहर पेरेंटिंग और रोड साइकलिंग का आनंद लेते हैं।
- "
- 100
- पहुँच
- समायोजित
- लेखा
- उन्नत
- कलन विधि
- एल्गोरिदम
- सब
- पहले ही
- वीरांगना
- एपीआई
- दृष्टिकोण
- क्षेत्र
- लेख
- एडब्ल्यूएस
- निर्माण
- में निर्मित
- कैलिफ़ोर्निया
- चुनें
- कक्षा
- बादल
- क्लाउड सेवाएं
- कोड
- एकत्रित
- पूरी तरह से
- कंटेनर
- शामिल हैं
- सुविधा
- सुविधाजनक
- बनाता है
- रिवाज
- तिथि
- आँकड़े वाला वैज्ञानिक
- तैनात
- तैनात
- विभिन्न
- सीधे
- चर्चा करना
- वितरित
- डाक में काम करनेवाला मज़दूर
- इंजीनियर
- वातावरण
- उदाहरण
- विस्तार
- विशेषताएं
- आकृति
- प्रथम
- लचीला
- निम्नलिखित
- प्रारूप
- पाया
- ढांचा
- समारोह
- आगे
- GitHub
- महान
- रखती है
- कैसे
- How To
- HTTPS
- पहचान
- की छवि
- करें-
- निवेश
- एकीकृत
- इंटरफेस
- अंतरराष्ट्रीय स्तर पर
- IT
- काम
- नौकरियां
- सीख रहा हूँ
- लाइसेंस
- लंबे समय तक
- लॉस एंजिल्स
- मशीन
- यंत्र अधिगम
- बनाता है
- निर्माण
- कामयाब
- ML
- आदर्श
- मॉडल
- अधिक
- नोटबुक
- संख्या
- सरकारी
- ऑफ़लाइन
- संचालन
- अन्य
- अपना
- बिन्दु
- लोकप्रिय
- शक्तिशाली
- भविष्यवाणी
- भविष्यवाणियों
- निजी
- प्रक्रिया
- उत्पादन
- उत्पादन
- प्रदान करना
- प्रदान करता है
- प्रदान कर
- सार्वजनिक
- प्रयोजनों
- वास्तविक समय
- कोष
- का अनुरोध
- आवश्यकताएँ
- अनुसंधान
- उपयुक्त संसाधन चुनें
- प्रतिक्रिया
- जिम्मेदार
- रिटर्न
- की समीक्षा
- मार्ग
- रन
- वैज्ञानिक
- सेवाएँ
- सेवारत
- sharding
- सॉफ्टवेयर
- समाधान
- स्रोत कोड
- दक्षिण
- धुआँरा
- मानकों
- आँकड़े
- समर्थित
- सहायक
- समर्थन करता है
- सिस्टम
- स्रोत
- यहाँ
- एक साथ
- उपकरण
- ऊपर का
- टोरंटो
- प्रशिक्षण
- गाड़ियों
- बदालना
- बदलने
- विश्वविद्यालय
- उपयोग
- विविधता
- विकिपीडिया
- काम
- होगा