जैसे-जैसे अधिक संगठन गहरी अंतर्दृष्टि प्राप्त करने के लिए मशीन लर्निंग (एमएल) की ओर बढ़ते हैं, लेबलिंग और जीवनचक्र प्रबंधन दो प्रमुख बाधाएँ हैं। लेबलिंग डेटा की पहचान है और संदर्भ प्रदान करने के लिए लेबल जोड़ना है ताकि एक एमएल मॉडल इससे सीख सके। लेबल एक ऑडियो फ़ाइल में एक वाक्यांश, एक तस्वीर में एक कार, या एक एमआरआई में एक अंग का संकेत दे सकते हैं। डेटा के खिलाफ काम करने के लिए एमएल मॉडल को सक्षम करने के लिए डेटा लेबलिंग आवश्यक है। जीवनचक्र प्रबंधन को एक एमएल प्रयोग स्थापित करने और परिणाम प्राप्त करने के लिए उपयोग किए जाने वाले डेटासेट, लाइब्रेरी, संस्करण और मॉडल का दस्तावेजीकरण करने की प्रक्रिया से संबंधित है। एक दृष्टिकोण पर बसने से पहले एक टीम सैकड़ों प्रयोग चला सकती है। उस प्रयोग के तत्वों के रिकॉर्ड के बिना वापस जाना और उस दृष्टिकोण को फिर से बनाना मुश्किल हो सकता है।
कई एमएल उदाहरण और ट्यूटोरियल एक डेटासेट से शुरू होते हैं जिसमें एक लक्ष्य मान शामिल होता है। हालांकि, वास्तविक दुनिया के डेटा का हमेशा ऐसा लक्ष्य मूल्य नहीं होता है। उदाहरण के लिए, भावना विश्लेषण में, एक व्यक्ति आमतौर पर यह निर्णय ले सकता है कि समीक्षा सकारात्मक, नकारात्मक या मिश्रित है या नहीं। लेकिन समीक्षाएँ पाठ के संग्रह से बनी होती हैं, जिसमें कोई निर्णय मूल्य नहीं जुड़ा होता है। बनाने के लिए पर्यवेक्षित अध्ययन इस समस्या को हल करने के लिए एक उच्च गुणवत्ता वाला लेबल वाला डेटासेट आवश्यक है। अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ पूरी तरह से प्रबंधित डेटा लेबलिंग सेवा है जो एमएल के लिए अत्यधिक सटीक प्रशिक्षण डेटासेट बनाना आसान बनाती है।
एडब्ल्यूएस पर डेटाब्रिक्स को अपने डेटा और एनालिटिक्स प्लेटफॉर्म के रूप में एक्सट्रैक्ट, ट्रांसफॉर्म और लोड (ईटीएल) कार्यों को करने के लिए उपयोग करने वाले संगठनों के लिए, अंतिम लक्ष्य अक्सर एक पर्यवेक्षित शिक्षण मॉडल को प्रशिक्षित करना होता है। इस पोस्ट में, हम दिखाते हैं कि कैसे डेटाब्रिक्स ग्राउंड ट्रुथ के साथ एकीकृत होता है और अमेज़न SageMaker डेटा लेबलिंग और मॉडल वितरण के लिए।
समाधान अवलोकन
ग्राउंड ट्रुथ एक पूरी तरह से प्रबंधित डेटा लेबलिंग सेवा है जो एमएल के लिए अत्यधिक सटीक प्रशिक्षण डेटासेट बनाना आसान बनाती है। ग्राउंड ट्रुथ कंसोल के माध्यम से, हम मिनटों में कस्टम या बिल्ट-इन डेटा लेबलिंग वर्कफ़्लो बना सकते हैं। ये वर्कफ़्लो विभिन्न प्रकार के उपयोग के मामलों का समर्थन करते हैं, जिसमें 3D पॉइंट क्लाउड, वीडियो, चित्र और टेक्स्ट शामिल हैं। इसके अलावा, ग्राउंड ट्रुथ स्वचालित डेटा लेबलिंग प्रदान करता है, जो हमारे डेटा को लेबल करने के लिए एक एमएल मॉडल का उपयोग करता है।
हम अपने मॉडल को सार्वजनिक रूप से उपलब्ध Amazon Customer Review डेटासेट पर प्रशिक्षित करते हैं। उच्च स्तर पर, कदम इस प्रकार हैं:
- लेबल किए जाने के लिए एक कच्चा डेटासेट निकालें और इसे यहां ले जाएं अमेज़न सरल भंडारण सेवा (अमेज़न S3)।
- सेजमेकर में लेबलिंग जॉब बनाकर लेबलिंग करें।
- एक नमूने का उपयोग करके डेटाब्रिक्स प्लेटफॉर्म पर समीक्षा पाठ की भावना को वर्गीकृत करने के लिए एक सरल स्किकिट-लर्न लीनियर लर्नर मॉडल बनाएं और प्रशिक्षित करें नोटबुक.
- उपयोग एमएलफ्लो MLOps बनाने और निष्पादित करने और मॉडल कलाकृतियों को सहेजने के लिए घटक।
- मॉडल का उपयोग सेजमेकर एंडपॉइंट के रूप में करें एमएलफ्लो सेजमेकर लाइब्रेरी वास्तविक समय के अनुमान के लिए।
निम्नलिखित आरेख ग्राउंड ट्रुथ और एमएलफ्लो का उपयोग करके लेबलिंग और एमएल यात्रा को दिखाता है।
सेजमेकर में एक लेबलिंग जॉब बनाएं
अमेज़ॅन ग्राहक समीक्षा डेटासेट से, हम केवल टेक्स्ट भाग निकालते हैं, क्योंकि हम एक भावना विश्लेषण मॉडल बना रहे हैं। एक बार निकालने के बाद, हम टेक्स्ट को S3 बकेट में रखते हैं और फिर सेजमेकर कंसोल के माध्यम से ग्राउंड ट्रुथ लेबलिंग जॉब बनाते हैं।
पर लेबलिंग कार्य बनाएँ पृष्ठ, सभी आवश्यक फ़ील्ड भरें। इस पृष्ठ पर चरण के एक भाग के रूप में, ग्राउंड ट्रुथ आपको जॉब मेनिफेस्ट फ़ाइल उत्पन्न करने की अनुमति देता है। ग्राउंड ट्रुथ लेबलिंग कार्य में फाइलों या वस्तुओं की संख्या की पहचान करने के लिए इनपुट मेनिफेस्ट फ़ाइल का उपयोग करता है ताकि कार्यों की सही संख्या बनाई जाए और मानव (या मशीन) लेबलर को भेजी जाए। फ़ाइल स्वचालित रूप से S3 बाल्टी में सहेजी जाती है। अगला चरण कार्य श्रेणी और कार्य चयन को निर्दिष्ट करना है। इस उपयोग के मामले में, हम चुनते हैं टेक्स्ट कार्य श्रेणी के रूप में, और पाठ वर्गीकरण कार्य चयन के लिए एकल लेबल के साथ, जिसका अर्थ है कि समीक्षा पाठ में एक ही भावना होगी: सकारात्मक, नकारात्मक या तटस्थ।
अंत में, हम लेबलर्स के लिए टेक्स्ट डेटा को लेबल करने के तरीके पर सरल लेकिन संक्षिप्त निर्देश लिखते हैं। निर्देश लेबलिंग टूल पर प्रदर्शित होते हैं और आप वैकल्पिक रूप से इस समय व्याख्याकर्ता के दृष्टिकोण की समीक्षा कर सकते हैं। अंत में, हम कार्य सबमिट करते हैं और कंसोल पर प्रगति की निगरानी करते हैं।
जबकि लेबलिंग कार्य प्रगति पर है, हम लेबल किए गए डेटा को भी देख सकते हैं उत्पादन टैब। हम प्रत्येक समीक्षा पाठ और लेबल की निगरानी कर सकते हैं, और यदि कार्य किसी मानव या मशीन द्वारा किया गया था। हम मानव द्वारा किए जाने वाले लेबलिंग कार्यों में से 100% का चयन कर सकते हैं या मशीन एनोटेशन चुन सकते हैं, जो कार्य को गति देता है और श्रम लागत को कम करता है।
जब कार्य पूरा हो जाता है, तो लेबलिंग कार्य सारांश में आउटपुट मेनिफेस्ट और लेबल किए गए डेटासेट के लिंक होते हैं। हम Amazon S3 पर भी जा सकते हैं और अपने S3 बकेट फोल्डर से दोनों को डाउनलोड कर सकते हैं।
अगले चरणों में, हम डेटाब्रिक्स नोटबुक का उपयोग करते हैं, एमएलफ्लो, और ग्राउंड ट्रुथ द्वारा लेबल किए गए डेटासेट a . बनाने के लिए Scikit सीखने मॉडल.
Amazon S3 से लेबल वाला डेटासेट डाउनलोड करें
हम Amazon S3 से लेबल किए गए डेटासेट को डाउनलोड करके शुरू करते हैं। मेनिफेस्ट को JSON फॉर्मेट में सेव किया जाता है और हम इसे डेटाब्रिक्स में स्पार्क डेटाफ्रेम में लोड करते हैं। भावना विश्लेषण मॉडल को प्रशिक्षित करने के लिए, हमें केवल समीक्षा पाठ और भावना की आवश्यकता होती है जिसे ग्राउंड ट्रुथ लेबलिंग जॉब द्वारा एनोटेट किया गया था। हम उन दो विशेषताओं को निकालने के लिए चयन () का उपयोग करते हैं। फिर हम डेटासेट को PySpark DataFrame से पंडों के DataFrame में बदलते हैं, क्योंकि स्किकिट-लर्न एल्गोरिथम के लिए पांडा डेटाफ़्रेम प्रारूप की आवश्यकता होती है।
अगला, हम स्किकिट-लर्न का उपयोग करते हैं CountVectorizer
समीक्षा पाठ को एक बिग्राम वेक्टर में सेट करके बदलने के लिए ngram_range
अधिकतम मान 2. CountVectorizer
टेक्स्ट को टोकन काउंट के मैट्रिक्स में परिवर्तित करता है। तब हम उपयोग करते हैं TfidfTransformer
बिग्राम वेक्टर को टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी (TF-IDF) फॉर्मेट में बदलने के लिए।
हम टीएफ-आईडीएफ के साथ बीग्राम वेक्टर बनाम बीग्राम के साथ किए गए प्रशिक्षण के लिए सटीकता स्कोर की तुलना करते हैं। TF-IDF एक सांख्यिकीय माप है जो यह मूल्यांकन करता है कि दस्तावेज़ों के संग्रह में कोई शब्द दस्तावेज़ के लिए कितना प्रासंगिक है। क्योंकि समीक्षा पाठ अपेक्षाकृत छोटा होता है, हम देख सकते हैं कि TF-IDF भविष्य कहनेवाला मॉडल के प्रदर्शन को कैसे प्रभावित करता है।
MLflow प्रयोग सेट करें
MLflow को डेटाब्रिक्स द्वारा विकसित किया गया था और अब यह एक है ओपन-सोर्स प्रोजेक्ट. MLflow ML जीवनचक्र का प्रबंधन करता है, जिससे आप प्रयोगों को आसानी से ट्रैक, पुनः निर्मित और प्रकाशित कर सकते हैं।
MLflow प्रयोग सेट अप करने के लिए, हम उपयोग करते हैं mlflow.sklearn.autolog()
हाइपरपैरामीटर, मेट्रिक्स और मॉडल कलाकृतियों के ऑटो लॉगिंग को सक्षम करने के लिए जब भी estimator.fit()
, estimator.fit_predict()
, और estimator.fit_transform()
कहा जाता है। वैकल्पिक रूप से, आप इसे मैन्युअल रूप से कॉल करके कर सकते हैं mlflow.log_param()
और mlflow.log_metric()
.
हम रूपांतरित डेटासेट को स्टोकेस्टिक ग्रैडिएंट डिसेंट (SGD) लर्निंग के साथ एक लीनियर क्लासिफायरियर में फिट करते हैं। एसजीडी के साथ, नुकसान की ढाल एक समय में एक नमूने का अनुमान लगाया जाता है और मॉडल को घटती ताकत अनुसूची के साथ अद्यतन किया जाता है।
जिन दो डेटासेट को हमने पहले तैयार किया था, उन्हें पास कर दिया गया है train_and_show_scores()
प्रशिक्षण के लिए समारोह। प्रशिक्षण के बाद, हमें एक मॉडल को पंजीकृत करना होगा और उसकी कलाकृतियों को सहेजना होगा। हम उपयोग करते हैं mlflow.sklearn.log_model()
ऐसा करने के लिए.
परिनियोजित करने से पहले, हम प्रयोग के परिणामों को देखते हैं और तुलना करने के लिए दो प्रयोग (एक बिग्राम के लिए और दूसरा टीएफ-आईडीएफ के साथ बिग्राम के लिए) चुनते हैं। हमारे उपयोग के मामले में, बिग्राम टीएफ-आईडीएफ के साथ प्रशिक्षित दूसरे मॉडल ने थोड़ा बेहतर प्रदर्शन किया, इसलिए हम उस मॉडल को तैनात करने के लिए चुनते हैं। मॉडल पंजीकृत होने के बाद, हम मॉडल चरण को उत्पादन में बदलते हुए मॉडल को परिनियोजित करते हैं। हम इसे MLflow UI पर या कोड का उपयोग करके पूरा कर सकते हैं transition_model_version_stage()
.
मॉडल को सेजमेकर एंडपॉइंट के रूप में तैनात और परीक्षण करें
प्रशिक्षित मॉडल को तैनात करने से पहले, हमें मॉडल को सेजमेकर में होस्ट करने के लिए एक डॉकर कंटेनर बनाने की आवश्यकता है। हम एक साधारण MLflow कमांड चलाकर ऐसा करते हैं जो कंटेनर को बनाता और धकेलता है अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर) हमारे एडब्ल्यूएस खाते में।
अब हम Amazon ECR कंसोल पर इमेज URI पा सकते हैं। हम छवि URI को an . के रूप में पास करते हैं image_url
पैरामीटर, और उपयोग DEPLOYMENT_MODE_CREATE
मोड पैरामीटर के लिए यदि यह एक नया परिनियोजन है। यदि किसी मौजूदा एंडपॉइंट को नए संस्करण के साथ अपडेट कर रहे हैं, तो उपयोग करें DEPLOYMENT_MODE_REPLACE
.
सेजमेकर एंडपॉइंट का परीक्षण करने के लिए, हम एक फ़ंक्शन बनाते हैं जो एंडपॉइंट नाम और इनपुट डेटा को इसके पैरामीटर के रूप में लेता है।
निष्कर्ष
इस पोस्ट में, हमने आपको दिखाया कि कच्चे डेटासेट को लेबल करने के लिए ग्राउंड ट्रुथ का उपयोग कैसे करें, और लेबल किए गए डेटा का उपयोग स्किकिट-लर्न का उपयोग करके एक साधारण रैखिक क्लासिफायरियर को प्रशिक्षित करने के लिए करें। इस उदाहरण में, हम हाइपरपैरामीटर और मेट्रिक्स को ट्रैक करने के लिए एमएलफ्लो का उपयोग करते हैं, एक उत्पादन-ग्रेड मॉडल को पंजीकृत करते हैं, और प्रशिक्षित मॉडल को सेजमेकर को एक समापन बिंदु के रूप में तैनात करते हैं। डेटा को संसाधित करने के लिए डेटाब्रिक्स के साथ, आप इस पूरे उपयोग के मामले को स्वचालित कर सकते हैं, इसलिए जैसे ही नया डेटा पेश किया जाता है, इसे मॉडल में लेबल और संसाधित किया जा सकता है। इन पाइपलाइनों और मॉडलों को स्वचालित करके, डेटा विज्ञान दल नए उपयोग के मामलों पर ध्यान केंद्रित कर सकते हैं और दिन-प्रतिदिन के आधार पर डेटा अपडेट प्रबंधित करने में अपना समय व्यतीत करने के बजाय अधिक अंतर्दृष्टि प्राप्त कर सकते हैं।
आरंभ करने के लिए, चेक आउट करें डेटा लेबल करने के लिए अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ का उपयोग करें और एक के लिए साइन अप करें एडब्ल्यूएस पर डाटाब्रिक्स का 14-दिवसीय नि:शुल्क परीक्षण. डेटाब्रिक्स को सेजमेकर के साथ कैसे एकीकृत करता है, इसके बारे में अधिक जानने के लिए, साथ ही साथ अन्य एडब्ल्यूएस सेवाएं जैसे एडब्ल्यूएस गोंद और अमेज़न रेडशिफ्टयात्रा, एडब्ल्यूएस पर डेटाब्रिक्स.
इसके अतिरिक्त, इस पोस्ट में प्रयुक्त निम्नलिखित संसाधनों की जाँच करें:
निम्न का उपयोग करें नोटबुक आरंभ करना।
लेखक के बारे में
रूमी ऑलसेन एडब्ल्यूएस पार्टनर प्रोग्राम में सॉल्यूशंस आर्किटेक्ट हैं। वह अपनी वर्तमान भूमिका में सर्वर रहित और मशीन सीखने के समाधान में माहिर हैं, और प्राकृतिक भाषा प्रसंस्करण प्रौद्योगिकियों में उनकी पृष्ठभूमि है। वह अपना अधिकांश खाली समय अपनी बेटी के साथ प्रशांत नॉर्थवेस्ट की प्रकृति की खोज में बिताती है।
इगोर अलेक्सेव डेटा और एनालिटिक्स में AWS में पार्टनर सॉल्यूशन आर्किटेक्ट हैं। इगोर रणनीतिक भागीदारों के साथ काम करता है जिससे उन्हें जटिल, एडब्ल्यूएस-अनुकूलित आर्किटेक्चर बनाने में मदद मिलती है। AWS में शामिल होने से पहले, एक डेटा/समाधान आर्किटेक्ट के रूप में, उन्होंने Hadoop पारिस्थितिकी तंत्र में कई डेटा झीलों सहित बिग डेटा में कई परियोजनाओं को लागू किया। डेटा इंजीनियर के रूप में, वह धोखाधड़ी का पता लगाने और कार्यालय स्वचालन के लिए AI/ML को लागू करने में शामिल था। इगोर की परियोजनाएं संचार, वित्त, सार्वजनिक सुरक्षा, विनिर्माण और स्वास्थ्य देखभाल सहित विभिन्न उद्योगों में थीं। इससे पहले, इगोर ने फुल स्टैक इंजीनियर/टेक लीड के रूप में काम किया था।
नसीर अहमद अपने एडब्ल्यूएस व्यवसाय का समर्थन करने वाले डाटाब्रिक्स में एक सीनियर पार्टनर सॉल्यूशंस आर्किटेक्ट हैं। नसीर एडब्ल्यूएस पर डेटा वेयरहाउसिंग, बिजनेस इंटेलिजेंस, ऐप डेवलपमेंट, कंटेनर, सर्वरलेस, मशीन लर्निंग आर्किटेक्चर में माहिर हैं। उन्हें डाटाब्रिक्स में वर्ष का 2021 एसएमई चुना गया था और वह एक उत्साही क्रिप्टो उत्साही हैं।
- कॉइनस्मार्ट। यूरोप का सर्वश्रेष्ठ बिटकॉइन और क्रिप्टो एक्सचेंज।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। नि: शुल्क प्रवेश।
- क्रिप्टोहॉक। Altcoin रडार। मुफ्त परीक्षण।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- About
- लेखा
- सही
- इसके अलावा
- कलन विधि
- सब
- वीरांगना
- विश्लेषण
- विश्लेषिकी
- अनुप्रयोग
- अनुप्रयोग विकास
- लागू
- दृष्टिकोण
- ऑडियो
- स्वत:
- स्वचालन
- उपलब्ध
- एडब्ल्यूएस
- पृष्ठभूमि
- आधार
- बड़ा डेटा
- निर्माण
- इमारत
- बनाता है
- में निर्मित
- व्यापार
- व्यापारिक सूचना
- कार
- मामलों
- वर्ग
- चुनें
- वर्गीकरण
- कोड
- संग्रह
- संचार
- जटिल
- कंसोल
- कंटेनर
- शामिल हैं
- लागत
- बनाया
- बनाना
- क्रिप्टो
- वर्तमान
- रिवाज
- तिथि
- डेटा विज्ञान
- और गहरा
- तैनात
- तैनाती
- तैनाती
- खोज
- विकसित
- विकास
- मुश्किल
- वितरण
- डाक में काम करनेवाला मज़दूर
- दस्तावेजों
- नहीं करता है
- ड्राइव
- आसानी
- पारिस्थितिकी तंत्र
- सक्षम
- endpoint
- इंजीनियर
- आवश्यक
- अनुमानित
- उदाहरण
- प्रयोग
- विशेषताएं
- फ़ील्ड
- अंत में
- वित्त
- फिट
- फोकस
- निम्नलिखित
- प्रारूप
- धोखा
- मुक्त
- पूर्ण
- समारोह
- उत्पन्न
- लक्ष्य
- जा
- स्वास्थ्य सेवा
- हाई
- अत्यधिक
- कैसे
- How To
- HTTPS
- मानव
- मनुष्य
- सैकड़ों
- पहचान
- पहचान करना
- की छवि
- कार्यान्वित
- सहित
- उद्योगों
- निवेश
- अंतर्दृष्टि
- बुद्धि
- शामिल
- IT
- काम
- नौकरियां
- कुंजी
- लेबलिंग
- लेबल
- श्रम
- भाषा
- नेतृत्व
- जानें
- सीख रहा हूँ
- स्तर
- पुस्तकालय
- लिंक
- भार
- मशीन
- यंत्र अधिगम
- बनाया गया
- बनाता है
- कामयाब
- प्रबंध
- प्रबंध
- मैन्युअल
- विनिर्माण
- मैट्रिक्स
- माप
- मेट्रिक्स
- मिश्रित
- ML
- आदर्श
- मॉडल
- मॉनिटर
- अधिक
- अधिकांश
- चाल
- प्राकृतिक
- प्रकृति
- नोटबुक
- संख्या
- ऑफर
- आदेश
- संगठनों
- अन्य
- पसिफ़िक
- साथी
- भागीदारों
- प्रदर्शन
- व्यक्ति
- मंच
- बिन्दु
- सकारात्मक
- मुसीबत
- प्रक्रिया
- उत्पादन
- कार्यक्रम
- परियोजनाओं
- प्रदान करना
- सार्वजनिक
- प्रकाशित करना
- कच्चा
- वास्तविक समय
- अभिलेख
- रजिस्टर
- पंजीकृत
- प्रासंगिक
- अपेक्षित
- उपयुक्त संसाधन चुनें
- परिणाम
- की समीक्षा
- समीक्षा
- रन
- दौड़ना
- सुरक्षा
- विज्ञान
- भावुकता
- serverless
- सेवा
- सेवाएँ
- सेट
- की स्थापना
- कम
- सरल
- So
- समाधान
- समाधान ढूंढे
- हल
- माहिर
- खर्च
- धुआँरा
- ट्रेनिंग
- प्रारंभ
- शुरू
- सांख्यिकीय
- भंडारण
- सामरिक
- समर्थन
- सहायक
- लक्ष्य
- कार्य
- टीम
- टेक्नोलॉजीज
- परीक्षण
- यहाँ
- पहर
- टोकन
- साधन
- ट्रैक
- प्रशिक्षण
- बदालना
- परीक्षण
- ट्यूटोरियल
- ui
- परम
- उजागर
- अपडेट
- उपयोग
- आमतौर पर
- मूल्य
- विविधता
- वीडियो
- देखें
- या
- बिना
- काम
- काम किया
- कार्य
- वर्ष