MLOps फाउंडेशन रोडमैप एमेजॉन सेजमेकर के साथ उद्यमों के लिए

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

जैसा कि उद्यम व्यवसाय अपने संगठनों में मशीन लर्निंग (एमएल) को अपनाते हैं, एमएल मॉडल के निर्माण, प्रशिक्षण और तैनाती के लिए मैनुअल वर्कफ़्लो नवाचार के लिए अड़चन बन जाते हैं। इसे दूर करने के लिए, उद्यमों को एक स्पष्ट ऑपरेटिंग मॉडल को आकार देने की आवश्यकता है जो परिभाषित करता है कि डेटा वैज्ञानिकों, डेटा इंजीनियरों, एमएल इंजीनियरों, आईटी और व्यावसायिक हितधारकों जैसे कितने व्यक्तियों को सहयोग और बातचीत करनी चाहिए; चिंताओं, जिम्मेदारियों और कौशल को कैसे अलग किया जाए; और एडब्ल्यूएस सेवाओं का बेहतर उपयोग कैसे करें। एमएल और ऑपरेशंस (एमएलओपीएस) का यह संयोजन कंपनियों को अपने एंड-टू-एंड एमएल जीवनचक्र को सुव्यवस्थित करने और उच्च मॉडल सटीकता बनाए रखने और सुरक्षा और अनुपालन बढ़ाने के दौरान डेटा वैज्ञानिकों की उत्पादकता को बढ़ावा देने में मदद कर रहा है।

एमएल ऑप्स व्यक्तित्व, संचालन और प्रौद्योगिकी

इस पोस्ट में, आप एमएलओपीएस नींव के निर्माण के प्रमुख चरणों के बारे में जानेंगे कि इस नींव पर कितने व्यक्ति एक साथ काम करते हैं, और अमेज़न SageMaker उद्देश्य-निर्मित उपकरण और अन्य एडब्ल्यूएस सेवाओं के साथ अंतर्निहित एकीकरण जो एक उद्यम व्यवसाय में एमएल को अपनाने में तेजी ला सकते हैं।

एमएलओपीएस परिपक्वता मॉडल

एक एमएलओपीएस नींव का निर्माण करना जो उद्यम ग्राहकों के संचालन, लोगों और प्रौद्योगिकी की जरूरतों को पूरा कर सके, चुनौतीपूर्ण है। इसलिए, हम निम्नलिखित परिपक्वता मॉडल को परिभाषित करते हैं जो एमएलओपीएस की आवश्यक क्षमताओं को चार प्रमुख चरणों में परिभाषित करता है।

एमएलओपीएस परिपक्वता मॉडल 4 चरणों के साथ

पहला भाग: इस चरण के दौरान, डेटा वैज्ञानिक सेजमेकर सेवाओं का उपयोग करके एडब्ल्यूएस पर मॉडल का प्रयोग और निर्माण, प्रशिक्षण और तैनाती करने में सक्षम हैं। सुझाया गया विकास वातावरण है अमेज़ॅन सैजमेकर स्टूडियो, जिसमें डेटा वैज्ञानिक स्टूडियो नोटबुक के आधार पर प्रयोग और सहयोग करने में सक्षम हैं।
दोहराने योग्य चरण - एडब्ल्यूएस पर प्रयोग करने की क्षमता के साथ, अगला कदम डेटा को प्रीप्रोसेस करने और मॉडल (एमएल पाइपलाइन) बनाने और प्रशिक्षित करने के लिए स्वचालित वर्कफ़्लो बनाना है। डेटा वैज्ञानिक एक अलग वातावरण में एमएल इंजीनियरों के साथ मिलकर मजबूत और उत्पादन-तैयार एल्गोरिदम और स्रोत कोड का निर्माण करते हैं, जिसका उपयोग करके ऑर्केस्ट्रेटेड किया जाता है अमेज़न SageMaker पाइपलाइन. जेनरेट किए गए मॉडल Amazon SageMaker मॉडल रजिस्ट्री में संग्रहीत और बेंचमार्क किए जाते हैं।
विश्वसनीय चरण - भले ही मॉडल एमएल पाइपलाइनों के माध्यम से तैयार किए गए हैं, लेकिन उत्पादन में पदोन्नत होने से पहले उनका परीक्षण किया जाना चाहिए। इसलिए, इस चरण में, उत्पादन का अनुकरण करने वाले एक पृथक स्टेजिंग (प्री-प्रोडक्शन) वातावरण में, मॉडल और ट्रिगरिंग इंफ्रास्ट्रक्चर दोनों के लिए स्वचालित परीक्षण पद्धति पेश की जाती है। परीक्षण के सफल संचालन के बाद, मॉडल को उत्पादन के पृथक वातावरण में तैनात किया जाता है। कई वातावरणों के बीच मॉडल को बढ़ावा देने के लिए, मैन्युअल मूल्यांकन और अनुमोदन की आवश्यकता होती है।
स्केलेबल चरण - पहले एमएल समाधान के उत्पादन के बाद, दसियों या सैकड़ों एमएल उपयोग मामलों को सहयोग और उत्पादन करने के लिए कई डेटा विज्ञान टीमों का समर्थन करने के लिए एमएलओपीएस फाउंडेशन का स्केलिंग आवश्यक है। इस चरण में, हम समाधानों के टेम्पलेटीकरण का परिचय देते हैं, जो नए उत्पादन समाधानों के विकास के समय को हफ्तों से दिनों तक कम करके मूल्य में गति लाता है। इसके अतिरिक्त, हम आईटी पर निर्भरता और ओवरहेड को कम करने के लिए कई टीमों को अपने डेटा पर काम करने में सक्षम बनाने के लिए सुरक्षित एमएलओपीएस वातावरण की तात्कालिकता को स्वचालित करते हैं।

निम्नलिखित अनुभागों में, हम दिखाते हैं कि पूर्ववर्ती परिपक्वता मॉडल और निम्नलिखित सिद्धांतों के आधार पर एमएलओपीएस नींव कैसे बनाई जाए:

लचीलापन - डेटा वैज्ञानिक किसी भी ढांचे को समायोजित करने में सक्षम हैं (जैसे कि TensorFlow या PyTorch)
reproducibility - डेटा वैज्ञानिक पिछले प्रयोगों (कोड, डेटा और परिणाम) को फिर से बनाने या देखने में सक्षम हैं।
रेस की क्षमता - डेटा वैज्ञानिक और एमएल इंजीनियर असंगतता और लागत से बचते हुए स्रोत कोड और एमएल पाइपलाइनों का पुन: उपयोग करने में सक्षम हैं
अनुमापकता - डेटा वैज्ञानिक और एमएल इंजीनियर मांग पर संसाधनों और सेवाओं को बढ़ाने में सक्षम हैं
auditability - डेटा वैज्ञानिक, आईटी और कानूनी विभाग कलाकृतियों और डेटा के लॉग, संस्करण और निर्भरता का ऑडिट करने में सक्षम हैं
कंसिस्टेंसी (Consistency) - क्योंकि MLOps में कई वातावरण होते हैं, नींव को वातावरण के बीच भिन्नता को समाप्त करने की आवश्यकता होती है

पहला भाग

प्रारंभिक चरण में, लक्ष्य एक सुरक्षित प्रयोग वातावरण बनाना है जहां डेटा वैज्ञानिक सेजमेकर नोटबुक का उपयोग करके डेटा और प्रयोगों के स्नैपशॉट प्राप्त करता है ताकि यह साबित हो सके कि एमएल एक विशिष्ट व्यावसायिक समस्या को हल कर सकता है। इसे प्राप्त करने के लिए, वीपीसी एंडपॉइंट्स के माध्यम से सेवाओं के अनुरूप पहुंच के साथ एक स्टूडियो वातावरण की सिफारिश की जाती है। संदर्भ आर्किटेक्चर का स्रोत कोड सेजमेकर टीम द्वारा प्रदान किए गए उदाहरणों में उपलब्ध है Amazon सेजमेकर स्टूडियो रेफरेंस आर्किटेक्चर के साथ सुरक्षित डेटा साइंस गिटहब रेपो।

सेजमेकर सेवाओं के अलावा, डेटा वैज्ञानिक डेटा को संसाधित करने के लिए अन्य सेवाओं का उपयोग कर सकते हैं, जैसे अमेज़ॅन ईएमआर, अमेज़न एथेना, तथा एडब्ल्यूएस गोंद, में संग्रहीत और संस्करणित नोटबुक के साथ AWS कोडकॉमिट भंडार (निम्न चित्र देखें)।

एमएलओपीएस खाता संरचना का प्रारंभिक चरण

दोहराने योग्य चरण

डेटा वैज्ञानिकों ने यह साबित कर दिया है कि एमएल व्यावसायिक समस्या को हल कर सकता है और सेजमेकर प्रयोग, प्रशिक्षण और मॉडलों की तैनाती से परिचित हैं, अगला कदम एमएल समाधान का उत्पादन शुरू करना है। निम्नलिखित चित्र इस वास्तुकला को दर्शाता है।

दोहराने योग्य चरण खाता संरचना

इस स्तर पर, चिंता को अलग करना आवश्यक है। हम पर्यावरण को कई AWS खातों में विभाजित करते हैं:

डेटा लेक - परिसर (या अन्य सिस्टम) से सभी अंतर्ग्रहीत डेटा को क्लाउड में संग्रहीत करता है। डेटा इंजीनियर कई डेटा स्रोतों को मिलाकर एक्स्ट्रेक्ट, ट्रांसफॉर्म और लोड (ETL) पाइपलाइन बनाने में सक्षम हैं और एमएल उपयोग के मामलों के लिए आवश्यक डेटासेट तैयार करते हैं। डेटा को एडब्ल्यूएस गोंद डेटा कैटलॉग के माध्यम से सूचीबद्ध किया गया है और अन्य उपयोगकर्ताओं और खातों के साथ साझा किया गया है AWS झील निर्माण (डेटा शासन परत)। इसी खाते में, अमेज़न SageMaker फ़ीचर स्टोर की मेजबानी की जा सकती है, लेकिन हम इसे इस पोस्ट में शामिल नहीं करते हैं। अधिक जानकारी के लिए देखें अमेज़ॅन SageMaker फ़ीचर स्टोर का उपयोग करके खातों और टीमों में फ़ीचर पुन: उपयोग को सक्षम करें.
प्रयोग - डेटा वैज्ञानिकों को अपना शोध करने में सक्षम बनाता है। अंतर केवल इतना है कि डेटा स्नैपशॉट की उत्पत्ति डेटा लेक है। डेटा वैज्ञानिकों की पहुंच केवल विशिष्ट डेटासेट में होती है, जिसे जीडीपीआर या अन्य डेटा गोपनीयता बाधाओं के मामले में गुमनाम किया जा सकता है। इसके अलावा, डेटा वैज्ञानिकों को नए डेटा विज्ञान ढांचे या तीसरे पक्ष के ओपन-सोर्स पुस्तकालयों का उपयोग करने में सक्षम बनाने के लिए प्रयोग खाते में इंटरनेट तक पहुंच हो सकती है। इसलिए, प्रयोग खाते को गैर-उत्पादन परिवेश का हिस्सा माना जाता है।
विकास (देव) - उत्पादन वातावरण का पहला चरण। डेटा वैज्ञानिक नोटबुक से स्वचालित वर्कफ़्लोज़ और सेजमेकर पाइपलाइनों की दुनिया में चले जाते हैं। उन्हें अपने कोड को अमूर्त करने और परीक्षण, त्रुटि प्रबंधन और कोड गुणवत्ता के कवरेज को सुनिश्चित करने के लिए एमएल इंजीनियरों के साथ सहयोग करने की आवश्यकता है। लक्ष्य एमएल पाइपलाइनों को विकसित करना है, जो स्वचालित वर्कफ़्लो हैं जो सेजमेकर मॉडल रजिस्ट्री में मॉडल को प्रीप्रोसेस, ट्रेन, मूल्यांकन और पंजीकृत करते हैं। एमएल पाइपलाइनों का परिनियोजन केवल सीआई/सीडी पाइपलाइनों के माध्यम से संचालित होता है, और इस तक पहुंच एडब्ल्यूएस प्रबंधन कंसोल प्रतिबंधित है। इंटरनेट कनेक्शन की अनुमति नहीं है क्योंकि एमएल पाइपलाइन के पास डेटा लेक (केवल पढ़ने के लिए) में उत्पादन डेटा तक पहुंच है।
टूलींग (या स्वचालन) - CodeCommit रिपॉजिटरी को होस्ट करता है, AWS कोडपिपलीन कस्टम कंटेनरों को होस्ट करने के लिए CI/CD पाइपलाइन, सेजमेकर मॉडल रजिस्ट्री और Amazon ECR। चूंकि डेटा झील डेटा के लिए सत्य का एकमात्र बिंदु है, टूलींग खाता कोड, कंटेनर और उत्पादित कलाकृतियों के लिए है।

ध्यान दें कि यह खाता नामकरण परंपरा और बहु-खाता रणनीति आपकी व्यावसायिक आवश्यकताओं के आधार पर भिन्न हो सकती है, लेकिन यह संरचना अलगाव के अनुशंसित स्तरों को दिखाने के लिए है। उदाहरण के लिए, आप विकास खाते का नाम बदलकर मॉडल प्रशिक्षण रख सकते हैं या खाता बना सकते हैं।

स्वचालित परिनियोजन प्राप्त करने के लिए, यह समझना महत्वपूर्ण है कि नोटबुक से एमएल पाइपलाइनों में कैसे स्थानांतरित किया जाए और कोड रिपॉजिटरी और डेटा संरचना को मानकीकृत किया जाए, जिसकी चर्चा हम निम्नलिखित अनुभागों में करते हैं।

नोटबुक से लेकर ML पाइपलाइन तक

विकास के माहौल का लक्ष्य नोटबुक में कोड का पुनर्गठन, वृद्धि, सुधार और स्केल करना और इसे एमएल पाइपलाइनों में ले जाना है। एक एमएल पाइपलाइन उन चरणों का एक समूह है जो डेटा को प्रीप्रोसेस करने, प्रशिक्षण या मॉडल का उपयोग करने और परिणामों को पोस्टप्रोसेस करने के लिए जिम्मेदार हैं। पुन: प्रयोज्य को सक्षम करने के लिए प्रत्येक चरण को एक सटीक कार्य (एक विशिष्ट परिवर्तन) करना चाहिए और पर्याप्त सार होना चाहिए (उदाहरण के लिए, इनपुट पैरामीटर के रूप में कॉलम नाम पास करें)। निम्न आरेख एक उदाहरण पाइपलाइन दिखाता है।

नमूना सेजमेकर पाइपलाइन

एमएल पाइपलाइनों को लागू करने के लिए, डेटा वैज्ञानिक (या एमएल इंजीनियर) सेजमेकर पाइपलाइनों का उपयोग करते हैं। एक सेजमेकर पाइपलाइन इंटरकनेक्टेड चरणों की एक श्रृंखला है (सेजमेकर प्रोसेसिंग जॉब्स, ट्रेनिंग, एचपीओ) जिसे पायथन एसडीके का उपयोग करके JSON पाइपलाइन परिभाषा द्वारा परिभाषित किया गया है। यह पाइपलाइन परिभाषा एक डायरेक्टेड एसाइक्लिक ग्राफ (डीएजी) का उपयोग करके एक पाइपलाइन को एन्कोड करती है। यह DAG आपकी ML पाइपलाइन के प्रत्येक चरण के लिए आवश्यकताओं और संबंधों के बारे में जानकारी देता है।

उपयोग के मामले के आधार पर, आप एमएल पाइपलाइन को दो मुख्य प्रकारों में विभाजित कर सकते हैं: प्रशिक्षण और बैच अनुमान।

निम्नलिखित आंकड़ा प्रशिक्षण एमएल पाइपलाइन प्रवाह को दर्शाता है।

एमएल बिल्ड पाइपलाइन

प्रीप्रोसेसिंग चरण में कई चरण शामिल हो सकते हैं। सामान्य डेटा विज्ञान परिवर्तन डेटा विभाजन और नमूनाकरण (ट्रेन, सत्यापन, परीक्षण सेट), एक-हॉट एन्कोडिंग या वेक्टराइज़ेशन, बिनिंग और स्केलिंग हैं। मॉडल प्रशिक्षण चरण या तो एक प्रशिक्षण कार्य हो सकता है, यदि डेटा वैज्ञानिक सर्वश्रेष्ठ मॉडल कॉन्फ़िगरेशन, या एक हाइपरपैरामीटर ऑप्टिमाइज़ेशन (HPO) कार्य से अवगत है, जिसमें AWS मॉडल (बायेसियन विधि) के लिए सर्वश्रेष्ठ हाइपरपैरामीटर को परिभाषित करता है और संबंधित उत्पादन करता है मॉडल आर्टिफैक्ट। मूल्यांकन चरण में, उत्पादित मॉडल आर्टिफैक्ट का उपयोग सत्यापन डेटासेट के अनुमान लगाने के लिए किया जाता है। फिर ML पाइपलाइन जाँचती है कि क्या उत्पादित सटीकता मेट्रिक्स (जैसे F1, सटीक, और गेन डेसिल) आवश्यक थ्रेशोल्ड को पार करते हैं। यदि यह चरण सफल होता है, तो मॉडल कलाकृतियों और मेटाडेटा को उत्पादन के लिए मॉडल रजिस्ट्री में ले जाया जाता है। ध्यान दें कि निर्यात बेसलाइन चरण शोषण करता है अमेज़ॅन सैजमेकर मॉडल मॉनिटर कार्यक्षमता, एक JSON ऑब्जेक्ट का उत्पादन आँकड़ों के साथ जो बाद में मॉडल ड्रिफ्टिंग डिटेक्शन के लिए उपयोग किए जाते हैं और मॉडल मेटाडेटा के रूप में SageMaker मॉडल रजिस्ट्री में होस्ट किए जा सकते हैं।

बैच अनुमान के मामले में, डेटा वैज्ञानिक समान पाइपलाइन बनाने में सक्षम हैं, जैसा कि निम्नलिखित आकृति में दिखाया गया है।

एमएल अनुमान पाइपलाइन

बैच अनुमान का प्रीप्रोसेसिंग चरण अक्सर डेटा नमूनाकरण और जमीनी सच्चाई के कॉलम को छोड़कर प्रशिक्षण के समान होता है। बैच अनुमान वह चरण है जो संबंधित समापन बिंदु के अनुमान के लिए बैचों में डेटा भेजता है, और इसका उपयोग करके कार्यान्वित किया जा सकता है बैच परिवर्तन. पोस्टप्रोसेसिंग चरण अतिरिक्त आंकड़े उत्पन्न करता है, जैसे परिणाम वितरण, या बाहरी आईडी के साथ परिणामों को जोड़ता है। फिर, एक मॉडल मॉनिटर चरण प्रशिक्षण के लिए उपयोग किए गए डेटा के आधारभूत आंकड़ों की तुलना करने में सक्षम है (मॉडल रजिस्ट्री में मॉडल JSON मेटाडेटा) अनुमान के लिए नए आने वाले डेटा के विरुद्ध।

यदि डेटा वैज्ञानिक ऐसे पाइपलाइन मॉडल बनाते हैं जिन्हें सेजमेकर मॉडल रजिस्ट्री में संग्रहीत किया जा सकता है, तो आप प्रीप्रोसेसिंग चरणों को छोड़ सकते हैं। अधिक जानकारी के लिए देखें एक समापन बिंदु के पीछे सीरियल इंट्रेंस पाइपलाइन के रूप में प्री-प्रोसेसिंग लॉजिक के साथ होस्ट मॉडल.

मानकीकरण भंडार

डेटा वैज्ञानिकों और एमएल इंजीनियरों के बीच सहयोग को सक्षम करने के लिए, कोड रिपॉजिटरी संरचना का मानकीकरण आवश्यक है। इसके अलावा, मानकीकरण सीआई/सीडी पाइपलाइन संरचना के लिए फायदेमंद है, स्वचालित सत्यापन, भवन (जैसे कस्टम कंटेनर बिल्डिंग) और परीक्षण चरणों को शामिल करने में सक्षम बनाता है।

निम्नलिखित उदाहरण एमएल समाधानों को दो रिपॉजिटरी में अलग करने को दर्शाता है: प्रशिक्षण के लिए एक भवन और प्रशिक्षण भंडार (और वैकल्पिक रूप से पाइपलाइन मॉडल), और बैच इंट्रेंस पाइपलाइन मॉडल को बढ़ावा देने या वास्तविक समय के समापन बिंदुओं को तत्काल करने के लिए तैनाती:

भवन/प्रशिक्षण रिपोजिटरी

# Building/Training Repository
algorithms/
    shared_libraries/
        test/
            input/ # (optional)
            output/ # (optional)
            test_<step>.py
        <help_functions1>.py
        <help_functions2>.py
        README.md
    preprocessing/ # 1 folder per pre-processing job, order is defined in the ml pipeline logic
        <preprocessing_job_name1> # e.g classic ml: one hot encoding
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            dockerfile # (optional) define dockerfile in case of custom containers
            README.md
       <preprocessing_job_name2> # e.g classic ml: one hot encoding
        ...
    training/ # (optional) each one is a training job in SageMaker
        <training_job_name>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            README.md
    inference/ # (optional) for batch inference
        <batch_inference_job_name>/ # one job per training job name if we're building multiple models
            __main__.py
            README.md
    postprocessing/ # each one is a processing job in SageMaker
        <postprocessing_job_name1>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
           __main__.py
            README.md
        <postprocessing_job_name2>/
        ...
ml_pipelines/
    training/ # (note) Multiple training ML pipelines can be defined
        ml-pipeline-training.py # Define training ML pipelines using SageMaker Pipeline SDK
        input.json # (optinal - json or yaml) ML pipeline configuration to enable reusability
    README.md
notebooks/
    *.ipynb # the original notebooks as has been created by the data scientists
    README.md
build_spec.yml
README.md

परिनियोजन भंडार

# Deployment Repository
inference_config/
    staging/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    prod/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    README.md
app_infra/
    api_gateway/...
    lambda/...
    event_bridge/...
    batch_inference/ml-pipeline-inference.py # Define batch inference SageMaker Pipeline
tests/
    integration_test/
        test_<description>.py
        test_<description>.py
        # …
    stress_test/
        test_<description>.py
    other_test/
        test_<description>.py
    README.md
README.md

भवन और प्रशिक्षण भंडार को तीन मुख्य फ़ोल्डरों में विभाजित किया गया है:

एल्गोरिदम - डेटा वैज्ञानिक एल्गोरिदम रूट फ़ोल्डर में एमएल पाइपलाइनों के प्रत्येक चरण के लिए कोड विकसित करते हैं। चरणों को प्रीप्रोसेसिंग, प्रशिक्षण, बैच अनुमान, और पोस्टप्रोसेसिंग (मूल्यांकन) में समूहीकृत किया जा सकता है। प्रत्येक समूह में, संबंधित सबफ़ोल्डर में कई चरणों को परिभाषित किया जा सकता है, जिसमें कस्टम कंटेनर की आवश्यकता के मामले में यूनिट परीक्षणों (वैकल्पिक इनपुट और आउटपुट सहित), मुख्य कार्य, रीडमी और एक डॉकर फ़ाइल के लिए एक फ़ोल्डर होता है। मुख्य के अलावा, एक ही फ़ोल्डर में एकाधिक कोड फ़ाइलों को होस्ट किया जा सकता है। सभी चरणों के लिए सामान्य सहायक पुस्तकालयों को एक साझा पुस्तकालय फ़ोल्डर में होस्ट किया जा सकता है। डेटा वैज्ञानिक यूनिट परीक्षणों के विकास के लिए जिम्मेदार हैं क्योंकि वे चरणों के तर्क के मालिक हैं, और एमएल इंजीनियर त्रुटि प्रबंधन वृद्धि और परीक्षण कवरेज अनुशंसा के लिए जिम्मेदार हैं। CI/CD पाइपलाइन परीक्षण चलाने, स्वचालित रूप से कंटेनरों के निर्माण (यदि आवश्यक हो) और कई स्रोत कोड फ़ाइलों की पैकेजिंग के लिए जिम्मेदार है।
एमएल पाइपलाइन - प्रत्येक चरण के स्रोत कोड और परीक्षण विकसित करने के बाद, अगला चरण सेजमेकर पाइपलाइनों को दूसरे रूट फ़ोल्डर में परिभाषित करना है। प्रत्येक ML पाइपलाइन परिभाषा को सबफ़ोल्डर में रखा जाता है जिसमें .py फ़ाइल और इनपुट पैरामीटर के लिए एक JSON या .yaml फ़ाइल होती है, जैसे कि हाइपरपैरामीटर रेंज। एमएल पाइपलाइनों का वर्णन करने के लिए एक रीडमी फ़ाइल आवश्यक है।
नोटबुक - यह फ़ोल्डर मूल नोटबुक को होस्ट करता है जिसका प्रयोग डेटा वैज्ञानिक ने प्रयोग के दौरान किया था।

परिनियोजन भंडार में तीन मुख्य भाग होते हैं:

अनुमान विन्यास - वास्तविक समय के समापन बिंदुओं का विन्यास या विकास के वातावरण के अनुसार बैच अनुमान, जैसे कि उदाहरण प्रकार शामिल हैं।
एप्लीकेशन इंफ्रास्ट्रक्चर - यदि आवश्यक हो, तो अनुमान को चलाने के लिए आवश्यक बुनियादी ढांचे के स्रोत कोड को होस्ट करता है। यह एक ट्रिगरिंग तंत्र हो सकता है अमेज़न EventBridge, अमेज़ॅन एपीआई गेटवे, AWS लाम्बा फ़ंक्शंस, या सेजमेकर पाइपलाइन।
टेस्ट - ग्राहक परीक्षण पद्धति के आधार पर कई सबफ़ोल्डर से मिलकर बनता है। परीक्षणों के न्यूनतम सेट के रूप में, हम एक एकीकरण परीक्षण (अनुप्रयोग बुनियादी ढांचे सहित निष्कर्ष के अंत तक चलने), तनाव परीक्षण (किनारे के मामलों की जांच), और एमएल परीक्षण (जैसे आत्मविश्वास स्कोर या संभावनाओं का वितरण) का सुझाव देते हैं।

भवन और प्रशिक्षण भंडार में परिवर्तन करके, एक सीआई/सीडी पाइपलाइन रिपोजिटरी संरचना को मान्य करने, परीक्षण करने और एमएल पाइपलाइनों को तैनात करने और चलाने के लिए ज़िम्मेदार है। मॉडलों को बढ़ावा देने के लिए एक अलग सीआई/सीडी पाइपलाइन जिम्मेदार है, जिसकी हम निम्नलिखित अनुभाग में जांच करते हैं।

रिपॉजिटरी ब्रांचिंग और CI/CD का मानकीकरण

देव खाते में एमएल पाइपलाइनों की मजबूती सुनिश्चित करने के लिए, एक बहु-शाखा भंडार रणनीति का सुझाव दिया जाता है, जबकि परिनियोजन केवल सीआई/सीडी पाइपलाइनों के माध्यम से किया जाता है। डेटा वैज्ञानिकों को अपनी नई कार्यक्षमता (स्रोत कोड) विकसित करने के लिए एक फीचर शाखा का उपयोग करना चाहिए। जब वे संबंधित एमएल पाइपलाइनों को तैनात करने के लिए तैयार होते हैं, तो वे इसे विकसित शाखा में धकेल सकते हैं। इस दृष्टिकोण का एक विकल्प प्रति फीचर शाखा में एमएल पाइपलाइनों की तैनाती की अनुमति देना है। अधिक जानकारी के लिए देखें AWS का उपयोग करके बहु-शाखा प्रशिक्षण MLOps पाइपलाइन के साथ अपने डेटा विज्ञान कार्यप्रवाह में सुधार करें.

निम्नलिखित आंकड़ा ब्रांचिंग रणनीति और आवश्यक सीआई / सीडी पाइपलाइन चरणों को दिखाता है जो हम एमएल पाइपलाइन और मॉडल निर्माण के लिए देव वातावरण में चलाते हैं।

संस्करण शाखा मॉडल

बहु-शाखा दृष्टिकोण का कोड उदाहरण में उपलब्ध है बहु-शाखा एमएलओपीएस प्रशिक्षण पाइपलाइन. हम एक फीचर शाखा-आधारित एमएल पाइपलाइन द्वारा उत्पादित मॉडल को एक अलग फीचर मॉडल समूह में स्टोर कर सकते हैं और मुख्य शाखा के साथ मर्ज अनुरोध के दौरान उन्हें डिमोशन कर सकते हैं। मुख्य मॉडल समूह के मॉडल वे हैं जिन्हें उत्पादन में बढ़ावा दिया जाता है।

डेटा संरचना का मानकीकरण

स्रोत कोड मानकीकरण के लिए समान रूप से महत्वपूर्ण डेटा का संरचना मानकीकरण है, जो डेटा वैज्ञानिकों और एमएल इंजीनियरों को मॉडल और एमएल पाइपलाइनों के मूल और इतिहास को डीबग, ऑडिट और मॉनिटर करने की अनुमति देता है। निम्नलिखित आरेख ऐसे उदाहरण को दर्शाता है।

एक s3 बाल्टी की उदाहरण फ़ाइल संरचना

सादगी के लिए, मान लें कि इनपुट ऐतिहासिक डेटा इनपुट उप-कुंजी के तहत विकास खाते की एक बाल्टी में आता है (आमतौर पर यह डेटा झील में स्थित होता है)। प्रत्येक एमएल उपयोग के मामले के लिए, एक अलग उप-कुंजी बनाने की जरूरत है। चलाने के लिए एक नई एमएल पाइपलाइन को ट्रिगर करने के लिए, डेटा वैज्ञानिक को एक गिट कमिट और पुश करना चाहिए, जो सीआई / सीडी पाइपलाइन को ट्रिगर करता है। फिर CI/CD पाइपलाइन कोड कलाकृतियों की प्रतिलिपि बनाकर एक उप-कुंजी बनाता है (the code उप-कुंजी) और इनपुट डेटा (the input उप-कुंजी) बिल्ड आईडी के उप-विभाजन के तहत. एक उदाहरण के रूप में, बिल्ड आईडी cदिनांक-समय और गिट हैश, या एक सेजमेकर पाइपलाइन रन आईडी का संयोजन हो। यह संरचना डेटा वैज्ञानिक को पिछले परिनियोजन और रनों का ऑडिट और क्वेरी करने में सक्षम बनाती है। इसके बाद, CI/CD पाइपलाइन ML पाइपलाइन को परिनियोजित करती है और ट्रिगर करती है। जबकि एमएल पाइपलाइन चल रही है, प्रत्येक चरण मध्यवर्ती परिणाम को निर्यात करता है ml-pipeline-outputs. यह ध्यान रखना महत्वपूर्ण है कि विभिन्न फीचर शाखाएं एमएल पाइपलाइन के एक नए उदाहरण को तैनात और चलाती हैं और प्रत्येक को एक नई उप-कुंजी और/या एक मानकीकृत उपसर्ग या प्रत्यय के साथ अलग-अलग उप-फ़ोल्डर में मध्यवर्ती परिणाम निर्यात करने की आवश्यकता होती है। सुविधा शाखा आईडी।

यह दृष्टिकोण प्रत्येक प्रयोग की पूर्ण लेखा परीक्षा का समर्थन करता है। हालांकि, विकास रणनीति का बहु-शाखा दृष्टिकोण बड़ी मात्रा में डेटा उत्पन्न करता है। इसलिए, एक डेटा जीवनचक्र रणनीति आवश्यक है। हम प्रत्येक सफल पुल/मर्ज अनुरोध में प्रत्येक फीचर शाखा एमएल पाइपलाइन के कम से कम डेटा को हटाने का सुझाव देते हैं। लेकिन यह आपके व्यवसाय के समर्थन के लिए आवश्यक ऑपरेटिंग मॉडल और ऑडिट ग्रैन्युलैरिटी पर निर्भर करता है। आप बैच अनुमान एमएल पाइपलाइनों में एक समान दृष्टिकोण का उपयोग कर सकते हैं

विश्वसनीय चरण

कई खातों का उपयोग करके डेटा वैज्ञानिकों, एमएल इंजीनियरों और डेटा इंजीनियरों के बीच चिंताओं के प्रारंभिक अलगाव के बाद, अगला कदम मॉडल रजिस्ट्री से उत्पादित मॉडल को एक अलग वातावरण में अनुमान लगाने के लिए बढ़ावा देना है। हालांकि, हमें तैनात मॉडलों की मजबूती सुनिश्चित करने की जरूरत है। इसलिए, उत्पादन के दर्पण वातावरण में तैनात मॉडल का अनुकरण अनिवार्य है, अर्थात् प्री-प्रोडक्शन (या स्टेजिंग)।

निम्नलिखित चित्र इस वास्तुकला को दर्शाता है।

विश्वसनीय चरण खाता संरचना

प्री-प्रोडक्शन परिवेश में मॉडल और एंडपॉइंट परिनियोजन का प्रचार मॉडल रजिस्ट्री स्थिति अद्यतन ईवेंट (या परिनियोजन रिपॉजिटरी पर git पुश) का उपयोग करके किया जाता है, जो EventBridge ईवेंट का उपयोग करके एक अलग CI/CD पाइपलाइन को ट्रिगर करता है। CI/CD पाइपलाइन का पहला चरण प्रमुख डेटा वैज्ञानिक (और वैकल्पिक रूप से उत्पाद स्वामी, व्यवसाय विश्लेषक, या अन्य प्रमुख डेटा वैज्ञानिकों) द्वारा मैन्युअल अनुमोदन का अनुरोध करता है। अनुमोदक को मॉडल के प्रदर्शन KPI और परिनियोजन रिपॉजिटरी में कोड के QA को सत्यापित करने की आवश्यकता है। अनुमोदन के बाद, CI/CD पाइपलाइन परिनियोजन रिपॉजिटरी (एकीकरण परीक्षण, तनाव परीक्षण, ML परीक्षण) के लिए परीक्षण कोड चलाती है। मॉडल एंडपॉइंट के अलावा, CI/CD ट्रिगरिंग इन्फ्रास्ट्रक्चर का भी परीक्षण करता है, जैसे कि EventBridge, लैम्ब्डा फ़ंक्शंस, या API गेटवे। निम्नलिखित आरेख इस अद्यतन वास्तुकला को दर्शाता है।

अलग प्रीप्रोड और प्रोडक्ट खातों के साथ विश्वसनीय चरण खाता सेटअप

परीक्षणों के सफल संचालन के बाद, CI/CD पाइपलाइन नए (या समान) अनुमोदकों को सूचित करती है कि एक मॉडल उत्पादन के लिए प्रचारित करने के लिए तैयार है। इस स्तर पर, व्यापार विश्लेषक मॉडल के परिणामों पर कुछ अतिरिक्त सांख्यिकीय परिकल्पना परीक्षण करना चाह सकते हैं। अनुमोदन के बाद, मॉडल और ट्रिगरिंग बुनियादी ढांचे को उत्पादन में तैनात किया जाता है। सेजमेकर द्वारा कई परिनियोजन विधियों का समर्थन किया जाता है, जैसे नीला/हरा, कैनरी, और ए/बी परीक्षण (इसमें और देखें) परिनियोजन रेलिंग) यदि CI/CD पाइपलाइन विफल हो जाती है, तो रोलबैक तंत्र सिस्टम को नवीनतम मजबूत स्थिति में लौटा देता है।

निम्नलिखित आरेख मॉडल एंडपॉइंट को ट्रिगर करने के लिए एक मॉडल और बुनियादी ढांचे को बढ़ावा देने के लिए सीआई / सीडी पाइपलाइन के मुख्य चरणों को दिखाता है, जैसे एपीआई गेटवे, लैम्ब्डा फ़ंक्शन और इवेंटब्रिज।

CICD परिनियोजन के लिए ट्रिगरिंग तंत्र का उदाहरण

डेटा लेक और एमएलओपीएस एकीकरण

इस बिंदु पर, प्रति विकास चरण या खाते की डेटा आवश्यकताओं को समझना महत्वपूर्ण है, और एक केंद्रीकृत डेटा झील के साथ MLOps को शामिल करने का तरीका। निम्नलिखित आरेख एमएलओपीएस और डेटा लेक परतों को दिखाता है।

डेटा लेक के साथ एमएल पर्यावरण का उदाहरण इंटरफ़ेस

डेटा लेक में, डेटा इंजीनियर कई डेटा स्रोतों में शामिल होने और संबंधित डेटासेट बनाने के लिए जिम्मेदार होते हैं (उदाहरण के लिए, संरचना डेटा की एक तालिका, या पीडीएफ फाइलों या छवियों के साथ एक एकल फ़ोल्डर) ईटीएल का निर्माण करके एमएल उपयोग के मामलों के लिए। डेटा वैज्ञानिकों द्वारा परिभाषित पाइपलाइनों (अन्वेषण डेटा विश्लेषण चरण के दौरान)। उन डेटासेट को ऐतिहासिक डेटा और अनुमान और परीक्षण के लिए डेटा में विभाजित किया जा सकता है। सभी डेटा को सूचीबद्ध किया गया है (उदाहरण के लिए, एडब्ल्यूएस ग्लू डेटा कैटलॉग के साथ), और डेटा गवर्नेंस लेयर (संरचित डेटा के लिए) के रूप में लेक फॉर्मेशन का उपयोग करके अन्य खातों और उपयोगकर्ताओं के साथ साझा किया जा सकता है। इस लेखन के समय, लेक फॉर्मेशन केवल एथेना प्रश्नों, एडब्ल्यूएस गोंद नौकरियों और अमेज़ॅन ईएमआर के साथ संगत है।

दूसरी ओर, एमएलओपीएस पर्यावरण को देव, प्री-प्रोड और प्रोड में स्थानीय बाल्टी में स्थित विशिष्ट डेटासेट के साथ एमएल पाइपलाइनों को सींचने की जरूरत है। डेटा लेक से डेटा खींचने वाली सेजमेकर पाइपलाइनों का उपयोग करके मांग पर मॉडल के निर्माण और प्रशिक्षण के लिए देव पर्यावरण जिम्मेदार है। इसलिए, हम सुझाव देते हैं कि पाइपलाइन के पहले चरण के रूप में या तो एथेना चरण हो, जहां केवल डेटा नमूनाकरण और क्वेरी की आवश्यकता हो, या अमेज़ॅन ईएमआर चरण, यदि अधिक जटिल परिवर्तनों की आवश्यकता हो। वैकल्पिक रूप से, आप कॉलबैक चरण के माध्यम से एडब्ल्यूएस गोंद नौकरी का उपयोग कर सकते हैं, लेकिन अभी तक सेजमेकर पाइपलाइनों के साथ मूल चरण के रूप में नहीं।

प्री-प्रोड और प्रोड वास्तविक समय और बैच अनुमान के परीक्षण या संचालन के लिए जिम्मेदार हैं। रीयल-टाइम अनुमान के मामले में, एमएलओपीएस प्री-प्रोड और प्रोड खातों में डेटा भेजना आवश्यक नहीं है क्योंकि अनुमान के लिए इनपुट एपीआई गेटवे अनुरोध के पेलोड पर पिगी-बैक कर सकता है। बैच अनुमान (या बड़े आकार के इनपुट डेटा) के मामले में, आवश्यक डेटासेट, या तो परीक्षण डेटा या अनुमान के लिए डेटा, को स्थानीय एमएल डेटा बकेट (प्री-प्रोड या प्रोड) में उतरने की आवश्यकता होती है। डेटा को प्री-प्रोड और प्रोड में ले जाने के लिए आपके पास दो विकल्प हैं: या तो एथेना या अमेज़ॅन ईएमआर को ट्रिगर करके और डेटा लेक से डेटा खींचकर, या डेटा लेक से डेटा को उन एमएलओपीएस खातों में धकेलना। पहले विकल्प के लिए एमएलओपीएस खातों में अतिरिक्त तंत्र के विकास की आवश्यकता होती है, उदाहरण के लिए, अनुसूचित EventBridge ईवेंट बनाना (बिना जानकारी के यदि डेटा लेक में डेटा अपडेट किया गया है) या डेटा लेक में S3 EventBridge ईवेंट में ऑन-डेटा आगमन (के लिए) अधिक विवरण, देखें Amazon EventBridge संसाधन नीतियों के साथ क्रॉस-अकाउंट एक्सेस को सरल बनाना) एमएलओपीएस पक्ष में घटना को पकड़ने के बाद, एथेना क्वेरी या अमेज़ॅन ईएमआर स्थानीय रूप से डेटा प्राप्त कर सकता है और ट्रिगर कर सकता है अतुल्यकालिक अनुमान or बैच परिवर्तन. सादगी के लिए इसे सेजमेकर पाइपलाइन में लपेटा जा सकता है। दूसरा विकल्प ईटीएल पाइपलाइन के अंतिम चरण में डेटा को एमएलओपीएस बकेट में धकेलने की कार्यक्षमता को जोड़ना है। हालांकि, यह दृष्टिकोण जिम्मेदारियों को मिलाता है (डेटा लेक ट्रिगर अनुमान) और एमएलओपीएस बकेट में लिखने के लिए डेटा झील तक पहुंच प्रदान करने के लिए लेक फॉर्मेशन की आवश्यकता होती है।

अंतिम चरण अनुमान परिणामों को वापस डेटा लेक में ले जाना है। डेटा को कैटलॉग करने और इसे अन्य उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, डेटा को नए डेटा स्रोत के रूप में वापस लैंडिंग बकेट में लौटना चाहिए।

स्केलेबल चरण

एमएलओपीएस फाउंडेशन के विकास और पहले एमएल उपयोग के मामले के एंड-टू-एंड प्रोडक्शनाइजेशन के बाद, देव, प्री-प्रोड, प्रोड, और रिपोजिटरी, सीआई / सीडी पाइपलाइन, और डेटा संरचना के बुनियादी ढांचे का परीक्षण और अंतिम रूप दिया गया है . अगला कदम प्लेटफॉर्म पर नए एमएल उपयोग के मामलों और टीमों को शामिल करना है। स्पीड-टू-वैल्यू सुनिश्चित करने के लिए, सेजमेकर आपको कस्टम सेजमेकर प्रोजेक्ट टेम्प्लेट बनाने की अनुमति देता है, जिसका उपयोग आप टेम्प्लेट रिपॉजिटरी और सीआई / सीडी पाइपलाइनों को स्वचालित रूप से इंस्टेंट करने के लिए कर सकते हैं। ऐसे सेजमेकर प्रोजेक्ट टेम्प्लेट के साथ, प्रमुख डेटा वैज्ञानिक नई परियोजनाओं को तत्काल करने और प्रति नए एमएल उपयोग मामलों के लिए एक समर्पित टीम आवंटित करने के लिए जिम्मेदार हैं।

निम्नलिखित आरेख इस प्रक्रिया को दिखाता है।

स्केलेबल चरण खाता सेटअप

समस्या और अधिक जटिल हो जाती है यदि विभिन्न डेटा वैज्ञानिक टीमों (या कई व्यावसायिक इकाइयां जिन्हें एमएल का उत्पादन करने की आवश्यकता होती है) के पास अलग-अलग गोपनीय डेटा तक पहुंच होती है, और कई उत्पाद मालिक प्रशिक्षण, परिनियोजन और मॉडल चलाने के लिए एक अलग बिल का भुगतान करने के लिए जिम्मेदार होते हैं। . इसलिए, प्रति टीम एमएलओपीएस खातों (प्रयोग, देव, पूर्व-उत्पाद, और उत्पाद) का एक अलग सेट आवश्यक है। नए एमएलओपीएस खातों के आसान निर्माण को सक्षम करने के लिए, हम एक और खाता, उन्नत एनालिटिक्स गवर्नेंस खाता पेश करते हैं, जो आईटी सदस्यों द्वारा सुलभ है और उन्हें मांग पर एमएलओपीएस खातों को सूचीबद्ध करने, तत्काल करने या हटाने की अनुमति देता है। विशेष रूप से, यह खाता MLOps खातों (VPC, सबनेट, एंडपॉइंट, बकेट,) के इन्फ्रास्ट्रक्चर कोड के साथ रिपॉजिटरी को होस्ट करता है। AWS पहचान और अभिगम प्रबंधन (आईएएम) भूमिकाएं और नीतियां, एडब्ल्यूएस CloudFormation ढेर), और AWS सेवा सूची उत्पाद को स्वचालित रूप से एक क्लिक के साथ कई खातों में बुनियादी ढांचे के CloudFormation स्टैक को तैनात करने के लिए, और एक अमेज़ॅन डायनेमोडीबी तालिका से कैटलॉग मेटाडेटा, जैसे कि खातों के प्रत्येक सेट के लिए कौन सी टीम जिम्मेदार है। इस क्षमता के साथ, आईटी टीम मांग पर एमएलओपीएस खातों को तत्काल करती है और आवश्यक उपयोगकर्ताओं, प्रति खाता डेटा एक्सेस, और लगातार सुरक्षा बाधाओं को आवंटित करती है।

इस परिदृश्य के आधार पर, हम खातों को अल्पकालिक और टिकाऊ में अलग करते हैं। डेटा लेक और टूलिंग टिकाऊ खाते हैं और क्रमशः डेटा और स्रोत कोड के लिए सत्य के एकल बिंदु की भूमिका निभाते हैं। एमएलओपीएस खाते ज्यादातर स्टेटलेस होते हैं और मांग पर तत्काल या निष्क्रिय हो जाते हैं, जिससे उन्हें अल्पकालिक बना दिया जाता है। भले ही एमएलओपीएस खातों के एक सेट को बंद कर दिया गया हो, उपयोगकर्ता या लेखा परीक्षक पिछले प्रयोगों और परिणामों की जांच करने में सक्षम हैं क्योंकि वे टिकाऊ वातावरण में संग्रहीत हैं।

यदि आप एमएलओपीएस के लिए स्टूडियो यूआई का उपयोग करना चाहते हैं, तो टूलिंग खाता निम्नलिखित आंकड़े के अनुसार देव खाते का हिस्सा है।

देव खाते के भीतर टूलींग खाते के साथ स्केलेबल चरण खाता सेटअप

यदि उपयोगकर्ता एमएलओपीएस के लिए सेजमेकर स्टूडियो यूआई का उपयोग करना चाहता है, तो टूलिंग खाता देव का हिस्सा है
ऊपर दिए गए चित्र के अनुसार खाता। इस एमएलओपी फाउंडेशन का उदाहरण स्रोत कोड में पाया जा सकता है
सीडीके पर आधारित सुरक्षित बहु-खाता एमएलओपीएस फाउंडेशन.

ध्यान दें कि सेजमेकर कोडकॉमिट और कोडपिपलाइन को अन्य तीसरे पक्ष के विकास उपकरण, जैसे कि गिटहब और जेनकिंस द्वारा प्रतिस्थापित करने की क्षमता प्रदान करता है (अधिक विवरण में पाया जा सकता है अमेज़ॅन सेजमेकर प्रोजेक्ट बनाएं तृतीय-पक्ष स्रोत नियंत्रण और जेनकिंस का उपयोग करना और Amazon SageMaker प्रोजेक्ट्स MLOps GitLab और GitLab पाइपलाइन के साथ टेम्पलेट).

व्यक्ति, संचालन, और प्रौद्योगिकी सारांश

एमएलओपीएस परिपक्वता मॉडल के साथ, हम एक स्पष्ट वास्तुकला डिजाइन और वितरण रोडमैप को परिभाषित कर सकते हैं। हालांकि, प्रत्येक व्यक्ति को प्रमुख एडब्ल्यूएस खातों और सेवाओं के साथ बातचीत करने और संचालन के संचालन के बारे में स्पष्ट दृष्टिकोण की आवश्यकता होती है। निम्नलिखित आरेख उन श्रेणियों को सारांशित करता है।

MLOps ने Amazon SageMaker प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ उद्यमों के लिए रोडमैप की नींव रखी। लंबवत खोज। ऐ.

निष्कर्ष

एक मजबूत एमएलओपीएस फाउंडेशन, जो स्पष्ट रूप से कई व्यक्तियों और प्रौद्योगिकी के बीच बातचीत को परिभाषित करता है, गति-से-मूल्य बढ़ा सकता है और लागत कम कर सकता है, और डेटा वैज्ञानिकों को नवाचारों पर ध्यान केंद्रित करने में सक्षम बनाता है। इस पोस्ट में, हमने दिखाया कि इस तरह की नींव को चरणों में कैसे बनाया जाए, जिससे व्यवसाय के लिए एक सहज एमएलओपीएस परिपक्वता मॉडल और उत्पादन में कई डेटा विज्ञान टीमों और एमएल उपयोग मामलों का समर्थन करने की क्षमता हो। हमने एक ऑपरेटिंग मॉडल को परिभाषित किया है जिसमें कई कौशल और जिम्मेदारियों के साथ कई व्यक्ति शामिल हैं। अंत में, हमने उदाहरण साझा किए कि कैसे कोड विकास (रिपॉजिटरी और सीआई/सीडी पाइपलाइन), डेटा स्टोरेज और शेयरिंग को मानकीकृत किया जाए, और एमएलओपीएस उद्यम वातावरण के लिए बुनियादी ढांचे के प्रावधान को सुरक्षित करता है। कई उद्यम ग्राहकों ने इस दृष्टिकोण को अपनाया है और महीनों के बजाय दिनों के भीतर अपने एमएल समाधान का उत्पादन करने में सक्षम हैं।

यदि आपके पास कोई टिप्पणी या प्रश्न हैं, तो कृपया उन्हें टिप्पणी अनुभाग में छोड़ दें।

लेखक के बारे में

MLOps ने Amazon SageMaker प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ उद्यमों के लिए रोडमैप की नींव रखी। लंबवत खोज। ऐ. डॉ. सुकरातिस कार्तिकी अमेज़ॅन वेब सेवाओं के लिए एक वरिष्ठ मशीन लर्निंग विशेषज्ञ समाधान वास्तुकार हैं। सोक्राटिस एडब्ल्यूएस सेवाओं का फायदा उठाकर और अपने ऑपरेटिंग मॉडल, यानी एमएलओपीएस फाउंडेशन, और ट्रांसफॉर्मेशन रोडमैप को सर्वोत्तम विकास प्रथाओं का लाभ उठाकर उद्यम ग्राहकों को अपने मशीन लर्निंग (एमएल) समाधानों का औद्योगीकरण करने में सक्षम बनाने पर ध्यान केंद्रित करता है। उन्होंने ऊर्जा, खुदरा, स्वास्थ्य, वित्त/बैंकिंग, मोटरस्पोर्ट्स आदि के क्षेत्र में अभिनव एंड-टू-एंड प्रोडक्शन-लेवल एमएल और इंटरनेट ऑफ थिंग्स (IoT) समाधानों की खोज, डिजाइन, नेतृत्व और कार्यान्वयन पर 15+ वर्ष बिताए हैं। सोकरातिस अपना खाली समय परिवार और दोस्तों के साथ बिताना पसंद करते हैं, या मोटरबाइक की सवारी करना पसंद करते हैं।

MLOps ने Amazon SageMaker प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ उद्यमों के लिए रोडमैप की नींव रखी। लंबवत खोज। ऐ. जॉर्जियोस शिनास ईएमईए क्षेत्र में एआई/एमएल के लिए एक विशेषज्ञ समाधान वास्तुकार है। वह लंदन में स्थित है और यूके और आयरलैंड में ग्राहकों के साथ मिलकर काम करता है। जॉर्जियो ग्राहकों को एमएलओपीएस प्रथाओं में विशेष रुचि के साथ एडब्ल्यूएस पर उत्पादन में मशीन लर्निंग एप्लिकेशन को डिजाइन और तैनात करने में मदद करता है और ग्राहकों को बड़े पैमाने पर मशीन लर्निंग करने में सक्षम बनाता है। अपने खाली समय में, वह यात्रा करना, खाना बनाना और दोस्तों और परिवार के साथ समय बिताना पसंद करते हैं।

ग्यूसेप एंजेलो पोर्सेलि अमेज़ॅन वेब सेवाओं के लिए एक प्रिंसिपल मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। कई वर्षों के सॉफ्टवेयर इंजीनियरिंग एक एमएल पृष्ठभूमि के साथ, वह किसी भी आकार के ग्राहकों के साथ उनके व्यवसाय और तकनीकी जरूरतों को गहराई से समझने के लिए काम करता है और एआई और मशीन लर्निंग समाधान डिजाइन करता है जो एडब्ल्यूएस क्लाउड और अमेज़ॅन मशीन लर्निंग स्टैक का सबसे अच्छा उपयोग करते हैं। उन्होंने विभिन्न डोमेन में परियोजनाओं पर काम किया है, जिसमें एमएलओपीएस, कंप्यूटर विजन, एनएलपी, और एडब्ल्यूएस सेवाओं का एक व्यापक सेट शामिल है। अपने खाली समय में, Giuseppe को फुटबॉल खेलना पसंद है।

शेल्बी आइजेनब्रोड Amazon Web Services (AWS) में प्रिंसिपल AI और मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह कई उद्योगों, प्रौद्योगिकियों और भूमिकाओं में फैले 24 वर्षों से प्रौद्योगिकी में है। वह वर्तमान में अपने DevOps और ML पृष्ठभूमि को MLOps के डोमेन में संयोजित करने पर ध्यान केंद्रित कर रही है ताकि ग्राहकों को बड़े पैमाने पर ML वर्कलोड वितरित करने और प्रबंधित करने में मदद मिल सके। विभिन्न प्रौद्योगिकी डोमेन में 35 से अधिक पेटेंट दिए जाने के साथ, उन्हें निरंतर नवाचार और व्यावसायिक परिणामों को चलाने के लिए डेटा का उपयोग करने का जुनून है। शेल्बी कौरसेरा पर प्रैक्टिकल डेटा साइंस विशेषज्ञता के सह-निर्माता और प्रशिक्षक हैं। वह डेनवर चैप्टर में वीमेन इन बिग डेटा (वाईबीडी) की सह-निदेशक भी हैं। अपने खाली समय में, वह अपने परिवार, दोस्तों और अति सक्रिय कुत्तों के साथ समय बिताना पसंद करती है।

समय टिकट: 24 जून 2022

समय टिकट: नवम्बर 7, 2022

प्लेटो द्वारा पुनर्प्रकाशित

DJLServing और DeepSpeed मॉडल के समानांतर अनुमान का उपयोग करके Amazon SageMaker पर बड़े मॉडल परिनियोजित करें

SageMaker स्वचालित मॉडल ट्यूनिंग के साथ निष्पक्षता जैसे अतिरिक्त उद्देश्यों के लिए ML मॉडल ट्यून करें

गहरे तंत्रिका नेटवर्क का उपयोग करके क्लाउड-आधारित चिकित्सा इमेजिंग पुनर्निर्माण

मेट्रिक्स के लिए Amazon Lookout का उपयोग करके एक वायु गुणवत्ता विसंगति डिटेक्टर बनाएं

उन्नत मूल्यांकन और विश्लेषण के लिए Amazon Textract बल्क दस्तावेज़ अपलोडर का परिचय | अमेज़न वेब सेवाएँ

अमेज़ॅन सेजमेकर | का उपयोग करके मल्टीक्लाउड वातावरण में एमएल मॉडल को प्रशिक्षित और तैनात करें अमेज़न वेब सेवाएँ

Amazon SageMaker JumpStart पर स्थिर डिफ्यूजन मॉडल के साथ टेक्स्ट से इमेज जेनरेट करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा