Manage AutoML Workflows With AWS Step Functions And AutoGluon On Amazon SageMaker

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

क्लाउड में चल रहे मशीन लर्निंग (एमएल) प्रयोग कई सेवाओं और घटकों में फैल सकते हैं। एमएल मॉडल के तेजी से विकास को सक्षम करने के लिए एमएल प्रयोगों को संरचना, स्वचालित और ट्रैक करने की क्षमता आवश्यक है। स्वचालित मशीन लर्निंग (ऑटोएमएल) के क्षेत्र में नवीनतम प्रगति के साथ, एमएल प्रक्रियाओं के स्वचालन के लिए समर्पित एमएल का क्षेत्र, आप गहन एमएल ज्ञान की आवश्यकता के बिना सटीक निर्णय लेने वाले मॉडल बना सकते हैं। इस पोस्ट में, हम AutoGluon, एक ओपन-सोर्स AutoML फ्रेमवर्क पर नज़र डालते हैं, जो आपको Python की कुछ ही पंक्तियों के साथ सटीक ML मॉडल बनाने की अनुमति देता है।

AWS ML वर्कफ़्लोज़ को प्रबंधित और चलाने के लिए सेवाओं की एक विस्तृत श्रृंखला प्रदान करता है, जिससे आप अपने कौशल और एप्लिकेशन के आधार पर समाधान का चयन कर सकते हैं। उदाहरण के लिए, यदि आप पहले से ही उपयोग करते हैं AWS स्टेप फ़ंक्शंस वितरित अनुप्रयोगों के घटकों को ऑर्केस्ट्रेट करने के लिए, आप अपने एमएल वर्कफ्लो को बनाने और स्वचालित करने के लिए उसी सेवा का उपयोग कर सकते हैं। AWS द्वारा प्रस्तावित अन्य MLOps टूल में शामिल हैं अमेज़न SageMaker पाइपलाइन, जो आपको एमएल मॉडल बनाने में सक्षम बनाता है अमेज़ॅन सैजमेकर स्टूडियो MLOps क्षमताओं के साथ (जैसे CI/CD संगतता, मॉडल निगरानी और मॉडल अनुमोदन)। ओपन-सोर्स टूल, जैसे अपाचे एयरफ्लो-एडब्ल्यूएस के माध्यम से उपलब्ध है Apache Airflow के लिए Amazon प्रबंधित वर्कफ़्लो-तथा क्यूबफ्लो, साथ ही हाइब्रिड समाधान भी समर्थित हैं। उदाहरण के लिए, आप SageMaker पाइपलाइनों के साथ अपने ML मॉडल को प्रशिक्षण और परिनियोजित करते समय चरण कार्यों के साथ डेटा अंतर्ग्रहण और प्रसंस्करण का प्रबंधन कर सकते हैं।

इस पोस्ट में, हम दिखाते हैं कि कैसे एमएल विशेषज्ञता के बिना भी डेवलपर आसानी से ऑटोग्लून का उपयोग करके अत्याधुनिक एमएल मॉडल का निर्माण और रखरखाव कर सकते हैं। अमेज़न SageMaker और वर्कफ़्लो घटकों को ऑर्केस्ट्रेट करने के लिए स्टेप फ़ंक्शंस।

AutoGluon एल्गोरिथ्म के अवलोकन के बाद, हम उदाहरण के साथ कार्यप्रवाह परिभाषाएँ प्रस्तुत करते हैं और a कोड ट्यूटोरियल जिसे आप अपने डेटा पर लागू कर सकते हैं।

ऑटोग्लून

AutoGluon एक ओपन-सोर्स AutoML फ्रेमवर्क है जो Python कोड की कुछ पंक्तियों के साथ सटीक ML मॉडल को प्रशिक्षित करके ML को अपनाने में तेजी लाता है। हालाँकि यह पोस्ट सारणीबद्ध डेटा पर केंद्रित है, AutoGluon आपको छवि वर्गीकरण, वस्तु का पता लगाने और पाठ वर्गीकरण के लिए अत्याधुनिक मॉडल को प्रशिक्षित करने की भी अनुमति देता है। इष्टतम समाधान खोजने के लिए AutoGluon सारणीबद्ध विभिन्न मॉडलों को बनाता और संयोजित करता है।

AWS में AutoGluon टीम ने जारी किया काग़ज़ जो पुस्तकालय की संरचना करने वाले सिद्धांतों को प्रस्तुत करता है:

सादगी - आप डेटा का विश्लेषण किए बिना या फीचर इंजीनियरिंग किए बिना सीधे कच्चे डेटा से वर्गीकरण और प्रतिगमन मॉडल बना सकते हैं
मजबूती - समग्र प्रशिक्षण प्रक्रिया सफल होनी चाहिए, भले ही कुछ अलग-अलग मॉडल विफल हो जाएं
अनुमानित समय - आप उस समय के भीतर इष्टतम परिणाम प्राप्त कर सकते हैं जब आप प्रशिक्षण के लिए निवेश करना चाहते हैं
दोष सहिष्णुता - आप प्रशिक्षण को रोक सकते हैं और इसे किसी भी समय फिर से शुरू कर सकते हैं, जो लागत को अनुकूलित करता है यदि प्रक्रिया क्लाउड में स्पॉट इमेज पर चलती है

एल्गोरिथ्म के बारे में अधिक जानकारी के लिए देखें काग़ज़ AWS में AutoGluon टीम द्वारा जारी किया गया।

स्थापित करने के बाद ऑटोग्लूऑन पैकेज और इसकी निर्भरता, एक मॉडल को प्रशिक्षित करना कोड की तीन पंक्तियों को लिखने जितना आसान है:

from autogluon.tabular import TabularDataset, TabularPredictor train_data = TabularDataset('s3://my-bucket/datasets/my-csv.csv')
predictor = TabularPredictor(label="my-label", path="my-output-folder").fit(train_data)

AutoGluon टीम ने कई कागले प्रतियोगिताओं में शीर्ष 10 लीडरबोर्ड पर पहुंचकर ढांचे की ताकत साबित की।

समाधान अवलोकन

हम प्रशिक्षण, मूल्यांकन और तैनाती को कवर करने वाले एमएल वर्कफ़्लो को लागू करने के लिए स्टेप फ़ंक्शंस का उपयोग करते हैं। पाइपलाइन डिज़ाइन उन इनपुट पैरामीटर को संशोधित करके तेज़ और कॉन्फ़िगर करने योग्य प्रयोग सक्षम करता है जिन्हें आप रनटाइम पर पाइपलाइन में फ़ीड करते हैं।

आप निम्न जैसे विभिन्न कार्यप्रवाहों को लागू करने के लिए पाइपलाइन को कॉन्फ़िगर कर सकते हैं:

यदि इस बिंदु पर किसी परिनियोजन की आवश्यकता नहीं है, तो एक नए एमएल मॉडल को प्रशिक्षित करें और इसे सैजमेकर मॉडल रजिस्ट्री में संग्रहीत करें
या तो ऑनलाइन (SageMaker समापन बिंदु) या ऑफलाइन (SageMaker बैच परिवर्तन) अनुमान
एमएल मॉडल को स्क्रैच से प्रशिक्षित करने, मूल्यांकन करने और तैनात करने के लिए एक पूरी पाइपलाइन चलाएं

समाधान में एक सामान्य शामिल है राज्य मशीन (निम्न आरेख देखें) जो इनपुट मापदंडों के एक सेट के आधार पर चलने वाली क्रियाओं के सेट को ऑर्केस्ट्रेट करता है।

राज्य मशीन के चरण इस प्रकार हैं:

पहला कदम IsTraining यह तय करता है कि हम पूर्व-प्रशिक्षित मॉडल का उपयोग कर रहे हैं या किसी मॉडल को स्क्रैच से प्रशिक्षित कर रहे हैं। यदि पूर्व-प्रशिक्षित मॉडल का उपयोग किया जाता है, तो राज्य मशीन चरण 7 पर चली जाती है।
जब एक नए एमएल मॉडल की आवश्यकता होती है, TrainSteps एक दूसरी राज्य मशीन को ट्रिगर करता है जो सभी आवश्यक क्रियाएं करता है और परिणाम को वर्तमान राज्य मशीन पर लौटाता है। हम अगले भाग में प्रशिक्षण राज्य मशीन के बारे में अधिक विस्तार से जानेंगे।
प्रशिक्षण समाप्त होने पर, PassModelName निम्नलिखित राज्यों में पुन: उपयोग किए जाने के लिए राज्य मशीन संदर्भ के निर्दिष्ट स्थान में प्रशिक्षण कार्य का नाम संग्रहीत करता है।
यदि एक मूल्यांकन चरण का चयन किया जाता है, IsEvaluation राज्य मशीन को मूल्यांकन शाखा की ओर पुनर्निर्देशित करता है। अन्यथा, यह सीधे चरण 7 पर चला जाता है।
मूल्यांकन चरण तब एक का उपयोग करके कार्यान्वित किया जाता है AWS लाम्बा समारोह द्वारा आह्वान किया गया ModelValidation कदम। लैम्ब्डा फ़ंक्शन एक परीक्षण सेट पर मॉडल के प्रदर्शन को पुनः प्राप्त करता है और इसकी तुलना इनपुट मापदंडों में निर्दिष्ट उपयोगकर्ता-विन्यास योग्य सीमा के साथ करता है। निम्नलिखित कोड मूल्यांकन परिणामों का एक उदाहरण है:
```
"Payload":{ "IsValid":true, "Scores":{ "accuracy":0.9187, "balanced_accuracy":0.7272, "mcc":0.5403, "roc_auc":0.9489, "f1":0.5714, "precision":0.706, "recall":0.4799 }
}
```
यदि मॉडल मूल्यांकन पर EvaluationResults सफल होने पर, राज्य मशीन अंतिम परिनियोजन चरणों के साथ जारी रहती है। यदि मॉडल उपयोगकर्ता परिभाषित मानदंड के नीचे प्रदर्शन कर रहा है, तो राज्य मशीन बंद हो जाती है और तैनाती छोड़ दी जाती है।
यदि तैनाती का चयन किया जाता है, IsDeploy के माध्यम से एक तीसरी राज्य मशीन शुरू करता है DeploySteps, जिसका वर्णन हम इस पोस्ट में बाद में करेंगे। यदि तैनाती की आवश्यकता नहीं है, तो राज्य मशीन यहाँ रुक जाती है।

इनपुट पैरामीटर नमूनों का एक सेट पर उपलब्ध है गीथहब रेपो.

प्रशिक्षण राज्य मशीन

AutoGluon का उपयोग करके एक नए ML मॉडल को प्रशिक्षित करने के लिए राज्य मशीन में दो चरण शामिल हैं, जैसा कि निम्नलिखित आरेख में दिखाया गया है। पहला कदम एक सैजमेकर प्रशिक्षण कार्य है जो मॉडल बनाता है। दूसरा सैजमेकर मॉडल रजिस्ट्री में प्रविष्टियों को सहेजता है।

आप इन चरणों को या तो स्वचालित रूप से मुख्य राज्य मशीन के भाग के रूप में, या एक स्टैंडअलोन प्रक्रिया के रूप में चला सकते हैं।

परिनियोजन राज्य मशीन

आइए अब तैनाती चरण के लिए समर्पित राज्य मशीन को देखें (निम्न चित्र देखें)। जैसा कि पहले उल्लेख किया गया है, आर्किटेक्चर ऑनलाइन और ऑफलाइन दोनों परिनियोजन का समर्थन करता है। पूर्व में एक सेजमेकर एंडपॉइंट की तैनाती होती है, जबकि बाद वाला एक सेजमेकर बैच ट्रांसफॉर्म जॉब चलाता है।

कार्यान्वयन कदम इस प्रकार हैं:

ChoiceDeploymentMode यह परिभाषित करने के लिए इनपुट मापदंडों को देखता है कि किस परिनियोजन मोड की आवश्यकता है और राज्य मशीन को संबंधित शाखा की ओर निर्देशित करता है।
यदि एक समापन बिंदु चुना जाता है, तो EndpointConfig चरण इसके विन्यास को परिभाषित करता है, जबकि CreateEndpoint आवश्यक कंप्यूटिंग संसाधनों को आवंटित करने की प्रक्रिया शुरू करता है। इस आवंटन में कई मिनट लग सकते हैं, इसलिए राज्य मशीन रुक जाती है WaitForEndpoint और समापन बिंदु स्थिति का चुनाव करने के लिए लैम्ब्डा फ़ंक्शन का उपयोग करता है।
जबकि समापन बिंदु कॉन्फ़िगर किया जा रहा है, ChoiceEndpointStatus पर लौटता है WaitForEndpoint राज्य, अन्यथा यह या तो जारी है DeploymentFailed or DeploymentSucceeded.
यदि ऑफ़लाइन परिनियोजन का चयन किया जाता है, तो राज्य मशीन SageMaker बैच ट्रांसफ़ॉर्म जॉब चलाती है, जिसके बाद राज्य मशीन बंद हो जाती है।

निष्कर्ष

यह पोस्ट उन्नत एमएल ज्ञान की आवश्यकता के बिना सटीक एमएल समाधानों की अनुमति देते हुए, AutoML वर्कफ़्लोज़ को ऑर्केस्ट्रेट करने और क्लाउड में तेज़ प्रयोगों को सक्षम करने के लिए उपयोग में आसान पाइपलाइन प्रस्तुत करती है।

हम एक सामान्य पाइपलाइन के साथ-साथ दो मॉड्यूलर भी प्रदान करते हैं जो आपको जरूरत पड़ने पर अलग से प्रशिक्षण और परिनियोजन करने की अनुमति देते हैं। इसके अलावा, समाधान पूरी तरह से सेजमेकर के साथ एकीकृत है, इसकी सुविधाओं और कम्प्यूटेशनल संसाधनों से लाभान्वित होता है।

इसके साथ अभी शुरुआत करें कोड ट्यूटोरियल इस पोस्ट में प्रस्तुत संसाधनों को अपने AWS खाते में तैनात करने और अपना पहला AutoML प्रयोग चलाने के लिए।

लेखक के बारे में

फेडेरिको पिकासिनी अमेज़न मशीन लर्निंग सॉल्यूशंस लैब के लिए डीप लर्निंग आर्किटेक्ट है। वह मशीन लर्निंग, समझाने योग्य AI और MLOps के बारे में भावुक हैं। वह एडब्ल्यूएस ग्राहकों के लिए एमएल पाइपलाइन डिजाइन करने पर ध्यान केंद्रित करता है। काम से बाहर, वह खेल और पिज्जा का आनंद लेता है।

पाओलो इर्रेरा अमेज़न मशीन लर्निंग सॉल्यूशंस लैब में डेटा साइंटिस्ट हैं, जहाँ वे ग्राहकों को एमएल और क्लाउड क्षमताओं के साथ व्यावसायिक समस्याओं का समाधान करने में मदद करते हैं। उन्होंने टेलीकॉम पेरिसटेक, पेरिस से कंप्यूटर विजन में पीएचडी की है।