Amazon SageMaker ग्राउंड ट्रुथ और डेटाब्रिक्स MLflow का उपयोग करके MLOps सेंटीमेंट एनालिसिस पाइपलाइन का निर्माण करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

जैसे-जैसे अधिक संगठन गहरी अंतर्दृष्टि प्राप्त करने के लिए मशीन लर्निंग (एमएल) की ओर बढ़ते हैं, लेबलिंग और जीवनचक्र प्रबंधन दो प्रमुख बाधाएँ हैं। लेबलिंग डेटा की पहचान है और संदर्भ प्रदान करने के लिए लेबल जोड़ना है ताकि एक एमएल मॉडल इससे सीख सके। लेबल एक ऑडियो फ़ाइल में एक वाक्यांश, एक तस्वीर में एक कार, या एक एमआरआई में एक अंग का संकेत दे सकते हैं। डेटा के खिलाफ काम करने के लिए एमएल मॉडल को सक्षम करने के लिए डेटा लेबलिंग आवश्यक है। जीवनचक्र प्रबंधन को एक एमएल प्रयोग स्थापित करने और परिणाम प्राप्त करने के लिए उपयोग किए जाने वाले डेटासेट, लाइब्रेरी, संस्करण और मॉडल का दस्तावेजीकरण करने की प्रक्रिया से संबंधित है। एक दृष्टिकोण पर बसने से पहले एक टीम सैकड़ों प्रयोग चला सकती है। उस प्रयोग के तत्वों के रिकॉर्ड के बिना वापस जाना और उस दृष्टिकोण को फिर से बनाना मुश्किल हो सकता है।

कई एमएल उदाहरण और ट्यूटोरियल एक डेटासेट से शुरू होते हैं जिसमें एक लक्ष्य मान शामिल होता है। हालांकि, वास्तविक दुनिया के डेटा का हमेशा ऐसा लक्ष्य मूल्य नहीं होता है। उदाहरण के लिए, भावना विश्लेषण में, एक व्यक्ति आमतौर पर यह निर्णय ले सकता है कि समीक्षा सकारात्मक, नकारात्मक या मिश्रित है या नहीं। लेकिन समीक्षाएँ पाठ के संग्रह से बनी होती हैं, जिसमें कोई निर्णय मूल्य नहीं जुड़ा होता है। बनाने के लिए पर्यवेक्षित अध्ययन इस समस्या को हल करने के लिए एक उच्च गुणवत्ता वाला लेबल वाला डेटासेट आवश्यक है। अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ पूरी तरह से प्रबंधित डेटा लेबलिंग सेवा है जो एमएल के लिए अत्यधिक सटीक प्रशिक्षण डेटासेट बनाना आसान बनाती है।

एडब्ल्यूएस पर डेटाब्रिक्स को अपने डेटा और एनालिटिक्स प्लेटफॉर्म के रूप में एक्सट्रैक्ट, ट्रांसफॉर्म और लोड (ईटीएल) कार्यों को करने के लिए उपयोग करने वाले संगठनों के लिए, अंतिम लक्ष्य अक्सर एक पर्यवेक्षित शिक्षण मॉडल को प्रशिक्षित करना होता है। इस पोस्ट में, हम दिखाते हैं कि कैसे डेटाब्रिक्स ग्राउंड ट्रुथ के साथ एकीकृत होता है और अमेज़न SageMaker डेटा लेबलिंग और मॉडल वितरण के लिए।

समाधान अवलोकन

ग्राउंड ट्रुथ एक पूरी तरह से प्रबंधित डेटा लेबलिंग सेवा है जो एमएल के लिए अत्यधिक सटीक प्रशिक्षण डेटासेट बनाना आसान बनाती है। ग्राउंड ट्रुथ कंसोल के माध्यम से, हम मिनटों में कस्टम या बिल्ट-इन डेटा लेबलिंग वर्कफ़्लो बना सकते हैं। ये वर्कफ़्लो विभिन्न प्रकार के उपयोग के मामलों का समर्थन करते हैं, जिसमें 3D पॉइंट क्लाउड, वीडियो, चित्र और टेक्स्ट शामिल हैं। इसके अलावा, ग्राउंड ट्रुथ स्वचालित डेटा लेबलिंग प्रदान करता है, जो हमारे डेटा को लेबल करने के लिए एक एमएल मॉडल का उपयोग करता है।

हम अपने मॉडल को सार्वजनिक रूप से उपलब्ध Amazon Customer Review डेटासेट पर प्रशिक्षित करते हैं। उच्च स्तर पर, कदम इस प्रकार हैं:

लेबल किए जाने के लिए एक कच्चा डेटासेट निकालें और इसे यहां ले जाएं अमेज़न सरल भंडारण सेवा (अमेज़न S3)।
सेजमेकर में लेबलिंग जॉब बनाकर लेबलिंग करें।
एक नमूने का उपयोग करके डेटाब्रिक्स प्लेटफॉर्म पर समीक्षा पाठ की भावना को वर्गीकृत करने के लिए एक सरल स्किकिट-लर्न लीनियर लर्नर मॉडल बनाएं और प्रशिक्षित करें नोटबुक.
उपयोग एमएलफ्लो MLOps बनाने और निष्पादित करने और मॉडल कलाकृतियों को सहेजने के लिए घटक।
मॉडल का उपयोग सेजमेकर एंडपॉइंट के रूप में करें एमएलफ्लो सेजमेकर लाइब्रेरी वास्तविक समय के अनुमान के लिए।

निम्नलिखित आरेख ग्राउंड ट्रुथ और एमएलफ्लो का उपयोग करके लेबलिंग और एमएल यात्रा को दिखाता है।

सेजमेकर में एक लेबलिंग जॉब बनाएं

अमेज़ॅन ग्राहक समीक्षा डेटासेट से, हम केवल टेक्स्ट भाग निकालते हैं, क्योंकि हम एक भावना विश्लेषण मॉडल बना रहे हैं। एक बार निकालने के बाद, हम टेक्स्ट को S3 बकेट में रखते हैं और फिर सेजमेकर कंसोल के माध्यम से ग्राउंड ट्रुथ लेबलिंग जॉब बनाते हैं।

पर लेबलिंग कार्य बनाएँ पृष्ठ, सभी आवश्यक फ़ील्ड भरें। इस पृष्ठ पर चरण के एक भाग के रूप में, ग्राउंड ट्रुथ आपको जॉब मेनिफेस्ट फ़ाइल उत्पन्न करने की अनुमति देता है। ग्राउंड ट्रुथ लेबलिंग कार्य में फाइलों या वस्तुओं की संख्या की पहचान करने के लिए इनपुट मेनिफेस्ट फ़ाइल का उपयोग करता है ताकि कार्यों की सही संख्या बनाई जाए और मानव (या मशीन) लेबलर को भेजी जाए। फ़ाइल स्वचालित रूप से S3 बाल्टी में सहेजी जाती है। अगला चरण कार्य श्रेणी और कार्य चयन को निर्दिष्ट करना है। इस उपयोग के मामले में, हम चुनते हैं टेक्स्ट कार्य श्रेणी के रूप में, और पाठ वर्गीकरण कार्य चयन के लिए एकल लेबल के साथ, जिसका अर्थ है कि समीक्षा पाठ में एक ही भावना होगी: सकारात्मक, नकारात्मक या तटस्थ।

अंत में, हम लेबलर्स के लिए टेक्स्ट डेटा को लेबल करने के तरीके पर सरल लेकिन संक्षिप्त निर्देश लिखते हैं। निर्देश लेबलिंग टूल पर प्रदर्शित होते हैं और आप वैकल्पिक रूप से इस समय व्याख्याकर्ता के दृष्टिकोण की समीक्षा कर सकते हैं। अंत में, हम कार्य सबमिट करते हैं और कंसोल पर प्रगति की निगरानी करते हैं।

जबकि लेबलिंग कार्य प्रगति पर है, हम लेबल किए गए डेटा को भी देख सकते हैं उत्पादन टैब। हम प्रत्येक समीक्षा पाठ और लेबल की निगरानी कर सकते हैं, और यदि कार्य किसी मानव या मशीन द्वारा किया गया था। हम मानव द्वारा किए जाने वाले लेबलिंग कार्यों में से 100% का चयन कर सकते हैं या मशीन एनोटेशन चुन सकते हैं, जो कार्य को गति देता है और श्रम लागत को कम करता है।

जब कार्य पूरा हो जाता है, तो लेबलिंग कार्य सारांश में आउटपुट मेनिफेस्ट और लेबल किए गए डेटासेट के लिंक होते हैं। हम Amazon S3 पर भी जा सकते हैं और अपने S3 बकेट फोल्डर से दोनों को डाउनलोड कर सकते हैं।

अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ और डेटाब्रिक्स एमएलफ्लो प्लेटोब्लॉकचैन डेटा इंटेलिजेंस का उपयोग करके एमएलओपीएस भावना विश्लेषण पाइपलाइन बनाएं। लंबवत खोज। ऐ.

अगले चरणों में, हम डेटाब्रिक्स नोटबुक का उपयोग करते हैं, एमएलफ्लो, और ग्राउंड ट्रुथ द्वारा लेबल किए गए डेटासेट a . बनाने के लिए Scikit सीखने मॉडल.

Amazon S3 से लेबल वाला डेटासेट डाउनलोड करें

हम Amazon S3 से लेबल किए गए डेटासेट को डाउनलोड करके शुरू करते हैं। मेनिफेस्ट को JSON फॉर्मेट में सेव किया जाता है और हम इसे डेटाब्रिक्स में स्पार्क डेटाफ्रेम में लोड करते हैं। भावना विश्लेषण मॉडल को प्रशिक्षित करने के लिए, हमें केवल समीक्षा पाठ और भावना की आवश्यकता होती है जिसे ग्राउंड ट्रुथ लेबलिंग जॉब द्वारा एनोटेट किया गया था। हम उन दो विशेषताओं को निकालने के लिए चयन () का उपयोग करते हैं। फिर हम डेटासेट को PySpark DataFrame से पंडों के DataFrame में बदलते हैं, क्योंकि स्किकिट-लर्न एल्गोरिथम के लिए पांडा डेटाफ़्रेम प्रारूप की आवश्यकता होती है।

अगला, हम स्किकिट-लर्न का उपयोग करते हैं CountVectorizer समीक्षा पाठ को एक बिग्राम वेक्टर में सेट करके बदलने के लिए ngram_range अधिकतम मान 2. CountVectorizer टेक्स्ट को टोकन काउंट के मैट्रिक्स में परिवर्तित करता है। तब हम उपयोग करते हैं TfidfTransformer बिग्राम वेक्टर को टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी (TF-IDF) फॉर्मेट में बदलने के लिए।

हम टीएफ-आईडीएफ के साथ बीग्राम वेक्टर बनाम बीग्राम के साथ किए गए प्रशिक्षण के लिए सटीकता स्कोर की तुलना करते हैं। TF-IDF एक सांख्यिकीय माप है जो यह मूल्यांकन करता है कि दस्तावेज़ों के संग्रह में कोई शब्द दस्तावेज़ के लिए कितना प्रासंगिक है। क्योंकि समीक्षा पाठ अपेक्षाकृत छोटा होता है, हम देख सकते हैं कि TF-IDF भविष्य कहनेवाला मॉडल के प्रदर्शन को कैसे प्रभावित करता है।

MLflow प्रयोग सेट करें

MLflow को डेटाब्रिक्स द्वारा विकसित किया गया था और अब यह एक है ओपन-सोर्स प्रोजेक्ट. MLflow ML जीवनचक्र का प्रबंधन करता है, जिससे आप प्रयोगों को आसानी से ट्रैक, पुनः निर्मित और प्रकाशित कर सकते हैं।

MLflow प्रयोग सेट अप करने के लिए, हम उपयोग करते हैं mlflow.sklearn.autolog() हाइपरपैरामीटर, मेट्रिक्स और मॉडल कलाकृतियों के ऑटो लॉगिंग को सक्षम करने के लिए जब भी estimator.fit(), estimator.fit_predict(), और estimator.fit_transform() कहा जाता है। वैकल्पिक रूप से, आप इसे मैन्युअल रूप से कॉल करके कर सकते हैं mlflow.log_param() और mlflow.log_metric().

हम रूपांतरित डेटासेट को स्टोकेस्टिक ग्रैडिएंट डिसेंट (SGD) लर्निंग के साथ एक लीनियर क्लासिफायरियर में फिट करते हैं। एसजीडी के साथ, नुकसान की ढाल एक समय में एक नमूने का अनुमान लगाया जाता है और मॉडल को घटती ताकत अनुसूची के साथ अद्यतन किया जाता है।

जिन दो डेटासेट को हमने पहले तैयार किया था, उन्हें पास कर दिया गया है train_and_show_scores() प्रशिक्षण के लिए समारोह। प्रशिक्षण के बाद, हमें एक मॉडल को पंजीकृत करना होगा और उसकी कलाकृतियों को सहेजना होगा। हम उपयोग करते हैं mlflow.sklearn.log_model() ऐसा करने के लिए.

परिनियोजित करने से पहले, हम प्रयोग के परिणामों को देखते हैं और तुलना करने के लिए दो प्रयोग (एक बिग्राम के लिए और दूसरा टीएफ-आईडीएफ के साथ बिग्राम के लिए) चुनते हैं। हमारे उपयोग के मामले में, बिग्राम टीएफ-आईडीएफ के साथ प्रशिक्षित दूसरे मॉडल ने थोड़ा बेहतर प्रदर्शन किया, इसलिए हम उस मॉडल को तैनात करने के लिए चुनते हैं। मॉडल पंजीकृत होने के बाद, हम मॉडल चरण को उत्पादन में बदलते हुए मॉडल को परिनियोजित करते हैं। हम इसे MLflow UI पर या कोड का उपयोग करके पूरा कर सकते हैं transition_model_version_stage().

मॉडल को सेजमेकर एंडपॉइंट के रूप में तैनात और परीक्षण करें

प्रशिक्षित मॉडल को तैनात करने से पहले, हमें मॉडल को सेजमेकर में होस्ट करने के लिए एक डॉकर कंटेनर बनाने की आवश्यकता है। हम एक साधारण MLflow कमांड चलाकर ऐसा करते हैं जो कंटेनर को बनाता और धकेलता है अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर) हमारे एडब्ल्यूएस खाते में।

अब हम Amazon ECR कंसोल पर इमेज URI पा सकते हैं। हम छवि URI को an . के रूप में पास करते हैं image_url पैरामीटर, और उपयोग DEPLOYMENT_MODE_CREATE मोड पैरामीटर के लिए यदि यह एक नया परिनियोजन है। यदि किसी मौजूदा एंडपॉइंट को नए संस्करण के साथ अपडेट कर रहे हैं, तो उपयोग करें DEPLOYMENT_MODE_REPLACE.

सेजमेकर एंडपॉइंट का परीक्षण करने के लिए, हम एक फ़ंक्शन बनाते हैं जो एंडपॉइंट नाम और इनपुट डेटा को इसके पैरामीटर के रूप में लेता है।

निष्कर्ष

इस पोस्ट में, हमने आपको दिखाया कि कच्चे डेटासेट को लेबल करने के लिए ग्राउंड ट्रुथ का उपयोग कैसे करें, और लेबल किए गए डेटा का उपयोग स्किकिट-लर्न का उपयोग करके एक साधारण रैखिक क्लासिफायरियर को प्रशिक्षित करने के लिए करें। इस उदाहरण में, हम हाइपरपैरामीटर और मेट्रिक्स को ट्रैक करने के लिए एमएलफ्लो का उपयोग करते हैं, एक उत्पादन-ग्रेड मॉडल को पंजीकृत करते हैं, और प्रशिक्षित मॉडल को सेजमेकर को एक समापन बिंदु के रूप में तैनात करते हैं। डेटा को संसाधित करने के लिए डेटाब्रिक्स के साथ, आप इस पूरे उपयोग के मामले को स्वचालित कर सकते हैं, इसलिए जैसे ही नया डेटा पेश किया जाता है, इसे मॉडल में लेबल और संसाधित किया जा सकता है। इन पाइपलाइनों और मॉडलों को स्वचालित करके, डेटा विज्ञान दल नए उपयोग के मामलों पर ध्यान केंद्रित कर सकते हैं और दिन-प्रतिदिन के आधार पर डेटा अपडेट प्रबंधित करने में अपना समय व्यतीत करने के बजाय अधिक अंतर्दृष्टि प्राप्त कर सकते हैं।

आरंभ करने के लिए, चेक आउट करें डेटा लेबल करने के लिए अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ का उपयोग करें और एक के लिए साइन अप करें एडब्ल्यूएस पर डाटाब्रिक्स का 14-दिवसीय नि:शुल्क परीक्षण. डेटाब्रिक्स को सेजमेकर के साथ कैसे एकीकृत करता है, इसके बारे में अधिक जानने के लिए, साथ ही साथ अन्य एडब्ल्यूएस सेवाएं जैसे एडब्ल्यूएस गोंद और अमेज़न रेडशिफ्टयात्रा, एडब्ल्यूएस पर डेटाब्रिक्स.

इसके अतिरिक्त, इस पोस्ट में प्रयुक्त निम्नलिखित संसाधनों की जाँच करें:

निम्न का उपयोग करें नोटबुक आरंभ करना।

लेखक के बारे में

अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ और डेटाब्रिक्स एमएलफ्लो प्लेटोब्लॉकचैन डेटा इंटेलिजेंस का उपयोग करके एमएलओपीएस भावना विश्लेषण पाइपलाइन बनाएं। लंबवत खोज। ऐ. रूमी ऑलसेन एडब्ल्यूएस पार्टनर प्रोग्राम में सॉल्यूशंस आर्किटेक्ट हैं। वह अपनी वर्तमान भूमिका में सर्वर रहित और मशीन सीखने के समाधान में माहिर हैं, और प्राकृतिक भाषा प्रसंस्करण प्रौद्योगिकियों में उनकी पृष्ठभूमि है। वह अपना अधिकांश खाली समय अपनी बेटी के साथ प्रशांत नॉर्थवेस्ट की प्रकृति की खोज में बिताती है।

इगोर अलेक्सेव डेटा और एनालिटिक्स में AWS में पार्टनर सॉल्यूशन आर्किटेक्ट हैं। इगोर रणनीतिक भागीदारों के साथ काम करता है जिससे उन्हें जटिल, एडब्ल्यूएस-अनुकूलित आर्किटेक्चर बनाने में मदद मिलती है। AWS में शामिल होने से पहले, एक डेटा/समाधान आर्किटेक्ट के रूप में, उन्होंने Hadoop पारिस्थितिकी तंत्र में कई डेटा झीलों सहित बिग डेटा में कई परियोजनाओं को लागू किया। डेटा इंजीनियर के रूप में, वह धोखाधड़ी का पता लगाने और कार्यालय स्वचालन के लिए AI/ML को लागू करने में शामिल था। इगोर की परियोजनाएं संचार, वित्त, सार्वजनिक सुरक्षा, विनिर्माण और स्वास्थ्य देखभाल सहित विभिन्न उद्योगों में थीं। इससे पहले, इगोर ने फुल स्टैक इंजीनियर/टेक लीड के रूप में काम किया था।

नसीर अहमद अपने एडब्ल्यूएस व्यवसाय का समर्थन करने वाले डाटाब्रिक्स में एक सीनियर पार्टनर सॉल्यूशंस आर्किटेक्ट हैं। नसीर एडब्ल्यूएस पर डेटा वेयरहाउसिंग, बिजनेस इंटेलिजेंस, ऐप डेवलपमेंट, कंटेनर, सर्वरलेस, मशीन लर्निंग आर्किटेक्चर में माहिर हैं। उन्हें डाटाब्रिक्स में वर्ष का 2021 एसएमई चुना गया था और वह एक उत्साही क्रिप्टो उत्साही हैं।

समय टिकट: अप्रैल १, २०२४

दृष्टिबाधित लोगों को Amazon Textract और Amazon Poly PlatoBlockchain Data Intelligence का उपयोग करके दस्तावेज़ों को सुनने में सक्षम बनाएं। लंबवत खोज। ऐ.

दृष्टिबाधित लोगों को Amazon Textract और Amazon Poly का उपयोग करके दस्तावेज़ सुनने में सक्षम करें

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1197157

समय टिकट: मार्च 3, 2022

अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ और डेटाब्रिक्स एमएलफ्लो का उपयोग करके एमएलओपीएस भावना विश्लेषण पाइपलाइन बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

सेजमेकर में एक लेबलिंग जॉब बनाएं

Amazon S3 से लेबल वाला डेटासेट डाउनलोड करें

MLflow प्रयोग सेट करें

मॉडल को सेजमेकर एंडपॉइंट के रूप में तैनात और परीक्षण करें

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon SageMaker | का उपयोग करके कस्टम पहनावे को कुशलतापूर्वक प्रशिक्षित करें, ट्यून करें और तैनात करें अमेज़न वेब सेवाएँ

AWS re:Invent 2022 में AI/ML के लिए आपका गाइड

बड़े मॉडल अनुमान कंटेनरों का उपयोग करके AWS Inferentia2 पर बड़े भाषा मॉडल तैनात करें

अमेज़ॅन सैजमेकर स्टूडियो लैब में नोटबुक को बैच जॉब के रूप में चलाएं

एडब्ल्यूएस एआई सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 2

दृष्टिबाधित लोगों को Amazon Textract और Amazon Poly का उपयोग करके दस्तावेज़ सुनने में सक्षम करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा