जैसा कि उद्यम व्यवसाय अपने संगठनों में मशीन लर्निंग (एमएल) को अपनाते हैं, एमएल मॉडल के निर्माण, प्रशिक्षण और तैनाती के लिए मैनुअल वर्कफ़्लो नवाचार के लिए अड़चन बन जाते हैं। इसे दूर करने के लिए, उद्यमों को एक स्पष्ट ऑपरेटिंग मॉडल को आकार देने की आवश्यकता है जो परिभाषित करता है कि डेटा वैज्ञानिकों, डेटा इंजीनियरों, एमएल इंजीनियरों, आईटी और व्यावसायिक हितधारकों जैसे कितने व्यक्तियों को सहयोग और बातचीत करनी चाहिए; चिंताओं, जिम्मेदारियों और कौशल को कैसे अलग किया जाए; और एडब्ल्यूएस सेवाओं का बेहतर उपयोग कैसे करें। एमएल और ऑपरेशंस (एमएलओपीएस) का यह संयोजन कंपनियों को अपने एंड-टू-एंड एमएल जीवनचक्र को सुव्यवस्थित करने और उच्च मॉडल सटीकता बनाए रखने और सुरक्षा और अनुपालन बढ़ाने के दौरान डेटा वैज्ञानिकों की उत्पादकता को बढ़ावा देने में मदद कर रहा है।
इस पोस्ट में, आप एमएलओपीएस नींव के निर्माण के प्रमुख चरणों के बारे में जानेंगे कि इस नींव पर कितने व्यक्ति एक साथ काम करते हैं, और अमेज़न SageMaker उद्देश्य-निर्मित उपकरण और अन्य एडब्ल्यूएस सेवाओं के साथ अंतर्निहित एकीकरण जो एक उद्यम व्यवसाय में एमएल को अपनाने में तेजी ला सकते हैं।
एमएलओपीएस परिपक्वता मॉडल
एक एमएलओपीएस नींव का निर्माण करना जो उद्यम ग्राहकों के संचालन, लोगों और प्रौद्योगिकी की जरूरतों को पूरा कर सके, चुनौतीपूर्ण है। इसलिए, हम निम्नलिखित परिपक्वता मॉडल को परिभाषित करते हैं जो एमएलओपीएस की आवश्यक क्षमताओं को चार प्रमुख चरणों में परिभाषित करता है।
- पहला भाग: इस चरण के दौरान, डेटा वैज्ञानिक सेजमेकर सेवाओं का उपयोग करके एडब्ल्यूएस पर मॉडल का प्रयोग और निर्माण, प्रशिक्षण और तैनाती करने में सक्षम हैं। सुझाया गया विकास वातावरण है अमेज़ॅन सैजमेकर स्टूडियो, जिसमें डेटा वैज्ञानिक स्टूडियो नोटबुक के आधार पर प्रयोग और सहयोग करने में सक्षम हैं।
- दोहराने योग्य चरण - एडब्ल्यूएस पर प्रयोग करने की क्षमता के साथ, अगला कदम डेटा को प्रीप्रोसेस करने और मॉडल (एमएल पाइपलाइन) बनाने और प्रशिक्षित करने के लिए स्वचालित वर्कफ़्लो बनाना है। डेटा वैज्ञानिक एक अलग वातावरण में एमएल इंजीनियरों के साथ मिलकर मजबूत और उत्पादन-तैयार एल्गोरिदम और स्रोत कोड का निर्माण करते हैं, जिसका उपयोग करके ऑर्केस्ट्रेटेड किया जाता है अमेज़न SageMaker पाइपलाइन. जेनरेट किए गए मॉडल Amazon SageMaker मॉडल रजिस्ट्री में संग्रहीत और बेंचमार्क किए जाते हैं।
- विश्वसनीय चरण - भले ही मॉडल एमएल पाइपलाइनों के माध्यम से तैयार किए गए हैं, लेकिन उत्पादन में पदोन्नत होने से पहले उनका परीक्षण किया जाना चाहिए। इसलिए, इस चरण में, उत्पादन का अनुकरण करने वाले एक पृथक स्टेजिंग (प्री-प्रोडक्शन) वातावरण में, मॉडल और ट्रिगरिंग इंफ्रास्ट्रक्चर दोनों के लिए स्वचालित परीक्षण पद्धति पेश की जाती है। परीक्षण के सफल संचालन के बाद, मॉडल को उत्पादन के पृथक वातावरण में तैनात किया जाता है। कई वातावरणों के बीच मॉडल को बढ़ावा देने के लिए, मैन्युअल मूल्यांकन और अनुमोदन की आवश्यकता होती है।
- स्केलेबल चरण - पहले एमएल समाधान के उत्पादन के बाद, दसियों या सैकड़ों एमएल उपयोग मामलों को सहयोग और उत्पादन करने के लिए कई डेटा विज्ञान टीमों का समर्थन करने के लिए एमएलओपीएस फाउंडेशन का स्केलिंग आवश्यक है। इस चरण में, हम समाधानों के टेम्पलेटीकरण का परिचय देते हैं, जो नए उत्पादन समाधानों के विकास के समय को हफ्तों से दिनों तक कम करके मूल्य में गति लाता है। इसके अतिरिक्त, हम आईटी पर निर्भरता और ओवरहेड को कम करने के लिए कई टीमों को अपने डेटा पर काम करने में सक्षम बनाने के लिए सुरक्षित एमएलओपीएस वातावरण की तात्कालिकता को स्वचालित करते हैं।
निम्नलिखित अनुभागों में, हम दिखाते हैं कि पूर्ववर्ती परिपक्वता मॉडल और निम्नलिखित सिद्धांतों के आधार पर एमएलओपीएस नींव कैसे बनाई जाए:
- लचीलापन - डेटा वैज्ञानिक किसी भी ढांचे को समायोजित करने में सक्षम हैं (जैसे कि TensorFlow या PyTorch)
- reproducibility - डेटा वैज्ञानिक पिछले प्रयोगों (कोड, डेटा और परिणाम) को फिर से बनाने या देखने में सक्षम हैं।
- रेस की क्षमता - डेटा वैज्ञानिक और एमएल इंजीनियर असंगतता और लागत से बचते हुए स्रोत कोड और एमएल पाइपलाइनों का पुन: उपयोग करने में सक्षम हैं
- अनुमापकता - डेटा वैज्ञानिक और एमएल इंजीनियर मांग पर संसाधनों और सेवाओं को बढ़ाने में सक्षम हैं
- auditability - डेटा वैज्ञानिक, आईटी और कानूनी विभाग कलाकृतियों और डेटा के लॉग, संस्करण और निर्भरता का ऑडिट करने में सक्षम हैं
- कंसिस्टेंसी (Consistency) - क्योंकि MLOps में कई वातावरण होते हैं, नींव को वातावरण के बीच भिन्नता को समाप्त करने की आवश्यकता होती है
पहला भाग
प्रारंभिक चरण में, लक्ष्य एक सुरक्षित प्रयोग वातावरण बनाना है जहां डेटा वैज्ञानिक सेजमेकर नोटबुक का उपयोग करके डेटा और प्रयोगों के स्नैपशॉट प्राप्त करता है ताकि यह साबित हो सके कि एमएल एक विशिष्ट व्यावसायिक समस्या को हल कर सकता है। इसे प्राप्त करने के लिए, वीपीसी एंडपॉइंट्स के माध्यम से सेवाओं के अनुरूप पहुंच के साथ एक स्टूडियो वातावरण की सिफारिश की जाती है। संदर्भ आर्किटेक्चर का स्रोत कोड सेजमेकर टीम द्वारा प्रदान किए गए उदाहरणों में उपलब्ध है Amazon सेजमेकर स्टूडियो रेफरेंस आर्किटेक्चर के साथ सुरक्षित डेटा साइंस गिटहब रेपो।
सेजमेकर सेवाओं के अलावा, डेटा वैज्ञानिक डेटा को संसाधित करने के लिए अन्य सेवाओं का उपयोग कर सकते हैं, जैसे अमेज़ॅन ईएमआर, अमेज़न एथेना, तथा एडब्ल्यूएस गोंद, में संग्रहीत और संस्करणित नोटबुक के साथ AWS कोडकॉमिट भंडार (निम्न चित्र देखें)।
दोहराने योग्य चरण
डेटा वैज्ञानिकों ने यह साबित कर दिया है कि एमएल व्यावसायिक समस्या को हल कर सकता है और सेजमेकर प्रयोग, प्रशिक्षण और मॉडलों की तैनाती से परिचित हैं, अगला कदम एमएल समाधान का उत्पादन शुरू करना है। निम्नलिखित चित्र इस वास्तुकला को दर्शाता है।
इस स्तर पर, चिंता को अलग करना आवश्यक है। हम पर्यावरण को कई AWS खातों में विभाजित करते हैं:
- डेटा लेक - परिसर (या अन्य सिस्टम) से सभी अंतर्ग्रहीत डेटा को क्लाउड में संग्रहीत करता है। डेटा इंजीनियर कई डेटा स्रोतों को मिलाकर एक्स्ट्रेक्ट, ट्रांसफॉर्म और लोड (ETL) पाइपलाइन बनाने में सक्षम हैं और एमएल उपयोग के मामलों के लिए आवश्यक डेटासेट तैयार करते हैं। डेटा को एडब्ल्यूएस गोंद डेटा कैटलॉग के माध्यम से सूचीबद्ध किया गया है और अन्य उपयोगकर्ताओं और खातों के साथ साझा किया गया है AWS झील निर्माण (डेटा शासन परत)। इसी खाते में, अमेज़न SageMaker फ़ीचर स्टोर की मेजबानी की जा सकती है, लेकिन हम इसे इस पोस्ट में शामिल नहीं करते हैं। अधिक जानकारी के लिए देखें अमेज़ॅन SageMaker फ़ीचर स्टोर का उपयोग करके खातों और टीमों में फ़ीचर पुन: उपयोग को सक्षम करें.
- प्रयोग - डेटा वैज्ञानिकों को अपना शोध करने में सक्षम बनाता है। अंतर केवल इतना है कि डेटा स्नैपशॉट की उत्पत्ति डेटा लेक है। डेटा वैज्ञानिकों की पहुंच केवल विशिष्ट डेटासेट में होती है, जिसे जीडीपीआर या अन्य डेटा गोपनीयता बाधाओं के मामले में गुमनाम किया जा सकता है। इसके अलावा, डेटा वैज्ञानिकों को नए डेटा विज्ञान ढांचे या तीसरे पक्ष के ओपन-सोर्स पुस्तकालयों का उपयोग करने में सक्षम बनाने के लिए प्रयोग खाते में इंटरनेट तक पहुंच हो सकती है। इसलिए, प्रयोग खाते को गैर-उत्पादन परिवेश का हिस्सा माना जाता है।
- विकास (देव) - उत्पादन वातावरण का पहला चरण। डेटा वैज्ञानिक नोटबुक से स्वचालित वर्कफ़्लोज़ और सेजमेकर पाइपलाइनों की दुनिया में चले जाते हैं। उन्हें अपने कोड को अमूर्त करने और परीक्षण, त्रुटि प्रबंधन और कोड गुणवत्ता के कवरेज को सुनिश्चित करने के लिए एमएल इंजीनियरों के साथ सहयोग करने की आवश्यकता है। लक्ष्य एमएल पाइपलाइनों को विकसित करना है, जो स्वचालित वर्कफ़्लो हैं जो सेजमेकर मॉडल रजिस्ट्री में मॉडल को प्रीप्रोसेस, ट्रेन, मूल्यांकन और पंजीकृत करते हैं। एमएल पाइपलाइनों का परिनियोजन केवल सीआई/सीडी पाइपलाइनों के माध्यम से संचालित होता है, और इस तक पहुंच एडब्ल्यूएस प्रबंधन कंसोल प्रतिबंधित है। इंटरनेट कनेक्शन की अनुमति नहीं है क्योंकि एमएल पाइपलाइन के पास डेटा लेक (केवल पढ़ने के लिए) में उत्पादन डेटा तक पहुंच है।
- टूलींग (या स्वचालन) - CodeCommit रिपॉजिटरी को होस्ट करता है, AWS कोडपिपलीन कस्टम कंटेनरों को होस्ट करने के लिए CI/CD पाइपलाइन, सेजमेकर मॉडल रजिस्ट्री और Amazon ECR। चूंकि डेटा झील डेटा के लिए सत्य का एकमात्र बिंदु है, टूलींग खाता कोड, कंटेनर और उत्पादित कलाकृतियों के लिए है।
ध्यान दें कि यह खाता नामकरण परंपरा और बहु-खाता रणनीति आपकी व्यावसायिक आवश्यकताओं के आधार पर भिन्न हो सकती है, लेकिन यह संरचना अलगाव के अनुशंसित स्तरों को दिखाने के लिए है। उदाहरण के लिए, आप विकास खाते का नाम बदलकर मॉडल प्रशिक्षण रख सकते हैं या खाता बना सकते हैं।
स्वचालित परिनियोजन प्राप्त करने के लिए, यह समझना महत्वपूर्ण है कि नोटबुक से एमएल पाइपलाइनों में कैसे स्थानांतरित किया जाए और कोड रिपॉजिटरी और डेटा संरचना को मानकीकृत किया जाए, जिसकी चर्चा हम निम्नलिखित अनुभागों में करते हैं।
नोटबुक से लेकर ML पाइपलाइन तक
विकास के माहौल का लक्ष्य नोटबुक में कोड का पुनर्गठन, वृद्धि, सुधार और स्केल करना और इसे एमएल पाइपलाइनों में ले जाना है। एक एमएल पाइपलाइन उन चरणों का एक समूह है जो डेटा को प्रीप्रोसेस करने, प्रशिक्षण या मॉडल का उपयोग करने और परिणामों को पोस्टप्रोसेस करने के लिए जिम्मेदार हैं। पुन: प्रयोज्य को सक्षम करने के लिए प्रत्येक चरण को एक सटीक कार्य (एक विशिष्ट परिवर्तन) करना चाहिए और पर्याप्त सार होना चाहिए (उदाहरण के लिए, इनपुट पैरामीटर के रूप में कॉलम नाम पास करें)। निम्न आरेख एक उदाहरण पाइपलाइन दिखाता है।
एमएल पाइपलाइनों को लागू करने के लिए, डेटा वैज्ञानिक (या एमएल इंजीनियर) सेजमेकर पाइपलाइनों का उपयोग करते हैं। एक सेजमेकर पाइपलाइन इंटरकनेक्टेड चरणों की एक श्रृंखला है (सेजमेकर प्रोसेसिंग जॉब्स, ट्रेनिंग, एचपीओ) जिसे पायथन एसडीके का उपयोग करके JSON पाइपलाइन परिभाषा द्वारा परिभाषित किया गया है। यह पाइपलाइन परिभाषा एक डायरेक्टेड एसाइक्लिक ग्राफ (डीएजी) का उपयोग करके एक पाइपलाइन को एन्कोड करती है। यह DAG आपकी ML पाइपलाइन के प्रत्येक चरण के लिए आवश्यकताओं और संबंधों के बारे में जानकारी देता है।
उपयोग के मामले के आधार पर, आप एमएल पाइपलाइन को दो मुख्य प्रकारों में विभाजित कर सकते हैं: प्रशिक्षण और बैच अनुमान।
निम्नलिखित आंकड़ा प्रशिक्षण एमएल पाइपलाइन प्रवाह को दर्शाता है।
प्रीप्रोसेसिंग चरण में कई चरण शामिल हो सकते हैं। सामान्य डेटा विज्ञान परिवर्तन डेटा विभाजन और नमूनाकरण (ट्रेन, सत्यापन, परीक्षण सेट), एक-हॉट एन्कोडिंग या वेक्टराइज़ेशन, बिनिंग और स्केलिंग हैं। मॉडल प्रशिक्षण चरण या तो एक प्रशिक्षण कार्य हो सकता है, यदि डेटा वैज्ञानिक सर्वश्रेष्ठ मॉडल कॉन्फ़िगरेशन, या एक हाइपरपैरामीटर ऑप्टिमाइज़ेशन (HPO) कार्य से अवगत है, जिसमें AWS मॉडल (बायेसियन विधि) के लिए सर्वश्रेष्ठ हाइपरपैरामीटर को परिभाषित करता है और संबंधित उत्पादन करता है मॉडल आर्टिफैक्ट। मूल्यांकन चरण में, उत्पादित मॉडल आर्टिफैक्ट का उपयोग सत्यापन डेटासेट के अनुमान लगाने के लिए किया जाता है। फिर ML पाइपलाइन जाँचती है कि क्या उत्पादित सटीकता मेट्रिक्स (जैसे F1, सटीक, और गेन डेसिल) आवश्यक थ्रेशोल्ड को पार करते हैं। यदि यह चरण सफल होता है, तो मॉडल कलाकृतियों और मेटाडेटा को उत्पादन के लिए मॉडल रजिस्ट्री में ले जाया जाता है। ध्यान दें कि निर्यात बेसलाइन चरण शोषण करता है अमेज़ॅन सैजमेकर मॉडल मॉनिटर कार्यक्षमता, एक JSON ऑब्जेक्ट का उत्पादन आँकड़ों के साथ जो बाद में मॉडल ड्रिफ्टिंग डिटेक्शन के लिए उपयोग किए जाते हैं और मॉडल मेटाडेटा के रूप में SageMaker मॉडल रजिस्ट्री में होस्ट किए जा सकते हैं।
बैच अनुमान के मामले में, डेटा वैज्ञानिक समान पाइपलाइन बनाने में सक्षम हैं, जैसा कि निम्नलिखित आकृति में दिखाया गया है।
बैच अनुमान का प्रीप्रोसेसिंग चरण अक्सर डेटा नमूनाकरण और जमीनी सच्चाई के कॉलम को छोड़कर प्रशिक्षण के समान होता है। बैच अनुमान वह चरण है जो संबंधित समापन बिंदु के अनुमान के लिए बैचों में डेटा भेजता है, और इसका उपयोग करके कार्यान्वित किया जा सकता है बैच परिवर्तन. पोस्टप्रोसेसिंग चरण अतिरिक्त आंकड़े उत्पन्न करता है, जैसे परिणाम वितरण, या बाहरी आईडी के साथ परिणामों को जोड़ता है। फिर, एक मॉडल मॉनिटर चरण प्रशिक्षण के लिए उपयोग किए गए डेटा के आधारभूत आंकड़ों की तुलना करने में सक्षम है (मॉडल रजिस्ट्री में मॉडल JSON मेटाडेटा) अनुमान के लिए नए आने वाले डेटा के विरुद्ध।
यदि डेटा वैज्ञानिक ऐसे पाइपलाइन मॉडल बनाते हैं जिन्हें सेजमेकर मॉडल रजिस्ट्री में संग्रहीत किया जा सकता है, तो आप प्रीप्रोसेसिंग चरणों को छोड़ सकते हैं। अधिक जानकारी के लिए देखें एक समापन बिंदु के पीछे सीरियल इंट्रेंस पाइपलाइन के रूप में प्री-प्रोसेसिंग लॉजिक के साथ होस्ट मॉडल.
मानकीकरण भंडार
डेटा वैज्ञानिकों और एमएल इंजीनियरों के बीच सहयोग को सक्षम करने के लिए, कोड रिपॉजिटरी संरचना का मानकीकरण आवश्यक है। इसके अलावा, मानकीकरण सीआई/सीडी पाइपलाइन संरचना के लिए फायदेमंद है, स्वचालित सत्यापन, भवन (जैसे कस्टम कंटेनर बिल्डिंग) और परीक्षण चरणों को शामिल करने में सक्षम बनाता है।
निम्नलिखित उदाहरण एमएल समाधानों को दो रिपॉजिटरी में अलग करने को दर्शाता है: प्रशिक्षण के लिए एक भवन और प्रशिक्षण भंडार (और वैकल्पिक रूप से पाइपलाइन मॉडल), और बैच इंट्रेंस पाइपलाइन मॉडल को बढ़ावा देने या वास्तविक समय के समापन बिंदुओं को तत्काल करने के लिए तैनाती:
भवन/प्रशिक्षण रिपोजिटरी
परिनियोजन भंडार
भवन और प्रशिक्षण भंडार को तीन मुख्य फ़ोल्डरों में विभाजित किया गया है:
- एल्गोरिदम - डेटा वैज्ञानिक एल्गोरिदम रूट फ़ोल्डर में एमएल पाइपलाइनों के प्रत्येक चरण के लिए कोड विकसित करते हैं। चरणों को प्रीप्रोसेसिंग, प्रशिक्षण, बैच अनुमान, और पोस्टप्रोसेसिंग (मूल्यांकन) में समूहीकृत किया जा सकता है। प्रत्येक समूह में, संबंधित सबफ़ोल्डर में कई चरणों को परिभाषित किया जा सकता है, जिसमें कस्टम कंटेनर की आवश्यकता के मामले में यूनिट परीक्षणों (वैकल्पिक इनपुट और आउटपुट सहित), मुख्य कार्य, रीडमी और एक डॉकर फ़ाइल के लिए एक फ़ोल्डर होता है। मुख्य के अलावा, एक ही फ़ोल्डर में एकाधिक कोड फ़ाइलों को होस्ट किया जा सकता है। सभी चरणों के लिए सामान्य सहायक पुस्तकालयों को एक साझा पुस्तकालय फ़ोल्डर में होस्ट किया जा सकता है। डेटा वैज्ञानिक यूनिट परीक्षणों के विकास के लिए जिम्मेदार हैं क्योंकि वे चरणों के तर्क के मालिक हैं, और एमएल इंजीनियर त्रुटि प्रबंधन वृद्धि और परीक्षण कवरेज अनुशंसा के लिए जिम्मेदार हैं। CI/CD पाइपलाइन परीक्षण चलाने, स्वचालित रूप से कंटेनरों के निर्माण (यदि आवश्यक हो) और कई स्रोत कोड फ़ाइलों की पैकेजिंग के लिए जिम्मेदार है।
- एमएल पाइपलाइन - प्रत्येक चरण के स्रोत कोड और परीक्षण विकसित करने के बाद, अगला चरण सेजमेकर पाइपलाइनों को दूसरे रूट फ़ोल्डर में परिभाषित करना है। प्रत्येक ML पाइपलाइन परिभाषा को सबफ़ोल्डर में रखा जाता है जिसमें .py फ़ाइल और इनपुट पैरामीटर के लिए एक JSON या .yaml फ़ाइल होती है, जैसे कि हाइपरपैरामीटर रेंज। एमएल पाइपलाइनों का वर्णन करने के लिए एक रीडमी फ़ाइल आवश्यक है।
- नोटबुक - यह फ़ोल्डर मूल नोटबुक को होस्ट करता है जिसका प्रयोग डेटा वैज्ञानिक ने प्रयोग के दौरान किया था।
परिनियोजन भंडार में तीन मुख्य भाग होते हैं:
- अनुमान विन्यास - वास्तविक समय के समापन बिंदुओं का विन्यास या विकास के वातावरण के अनुसार बैच अनुमान, जैसे कि उदाहरण प्रकार शामिल हैं।
- एप्लीकेशन इंफ्रास्ट्रक्चर - यदि आवश्यक हो, तो अनुमान को चलाने के लिए आवश्यक बुनियादी ढांचे के स्रोत कोड को होस्ट करता है। यह एक ट्रिगरिंग तंत्र हो सकता है अमेज़न EventBridge, अमेज़ॅन एपीआई गेटवे, AWS लाम्बा फ़ंक्शंस, या सेजमेकर पाइपलाइन।
- टेस्ट - ग्राहक परीक्षण पद्धति के आधार पर कई सबफ़ोल्डर से मिलकर बनता है। परीक्षणों के न्यूनतम सेट के रूप में, हम एक एकीकरण परीक्षण (अनुप्रयोग बुनियादी ढांचे सहित निष्कर्ष के अंत तक चलने), तनाव परीक्षण (किनारे के मामलों की जांच), और एमएल परीक्षण (जैसे आत्मविश्वास स्कोर या संभावनाओं का वितरण) का सुझाव देते हैं।
भवन और प्रशिक्षण भंडार में परिवर्तन करके, एक सीआई/सीडी पाइपलाइन रिपोजिटरी संरचना को मान्य करने, परीक्षण करने और एमएल पाइपलाइनों को तैनात करने और चलाने के लिए ज़िम्मेदार है। मॉडलों को बढ़ावा देने के लिए एक अलग सीआई/सीडी पाइपलाइन जिम्मेदार है, जिसकी हम निम्नलिखित अनुभाग में जांच करते हैं।
रिपॉजिटरी ब्रांचिंग और CI/CD का मानकीकरण
देव खाते में एमएल पाइपलाइनों की मजबूती सुनिश्चित करने के लिए, एक बहु-शाखा भंडार रणनीति का सुझाव दिया जाता है, जबकि परिनियोजन केवल सीआई/सीडी पाइपलाइनों के माध्यम से किया जाता है। डेटा वैज्ञानिकों को अपनी नई कार्यक्षमता (स्रोत कोड) विकसित करने के लिए एक फीचर शाखा का उपयोग करना चाहिए। जब वे संबंधित एमएल पाइपलाइनों को तैनात करने के लिए तैयार होते हैं, तो वे इसे विकसित शाखा में धकेल सकते हैं। इस दृष्टिकोण का एक विकल्प प्रति फीचर शाखा में एमएल पाइपलाइनों की तैनाती की अनुमति देना है। अधिक जानकारी के लिए देखें AWS का उपयोग करके बहु-शाखा प्रशिक्षण MLOps पाइपलाइन के साथ अपने डेटा विज्ञान कार्यप्रवाह में सुधार करें.
निम्नलिखित आंकड़ा ब्रांचिंग रणनीति और आवश्यक सीआई / सीडी पाइपलाइन चरणों को दिखाता है जो हम एमएल पाइपलाइन और मॉडल निर्माण के लिए देव वातावरण में चलाते हैं।
बहु-शाखा दृष्टिकोण का कोड उदाहरण में उपलब्ध है बहु-शाखा एमएलओपीएस प्रशिक्षण पाइपलाइन. हम एक फीचर शाखा-आधारित एमएल पाइपलाइन द्वारा उत्पादित मॉडल को एक अलग फीचर मॉडल समूह में स्टोर कर सकते हैं और मुख्य शाखा के साथ मर्ज अनुरोध के दौरान उन्हें डिमोशन कर सकते हैं। मुख्य मॉडल समूह के मॉडल वे हैं जिन्हें उत्पादन में बढ़ावा दिया जाता है।
डेटा संरचना का मानकीकरण
स्रोत कोड मानकीकरण के लिए समान रूप से महत्वपूर्ण डेटा का संरचना मानकीकरण है, जो डेटा वैज्ञानिकों और एमएल इंजीनियरों को मॉडल और एमएल पाइपलाइनों के मूल और इतिहास को डीबग, ऑडिट और मॉनिटर करने की अनुमति देता है। निम्नलिखित आरेख ऐसे उदाहरण को दर्शाता है।
सादगी के लिए, मान लें कि इनपुट ऐतिहासिक डेटा इनपुट उप-कुंजी के तहत विकास खाते की एक बाल्टी में आता है (आमतौर पर यह डेटा झील में स्थित होता है)। प्रत्येक एमएल उपयोग के मामले के लिए, एक अलग उप-कुंजी बनाने की जरूरत है। चलाने के लिए एक नई एमएल पाइपलाइन को ट्रिगर करने के लिए, डेटा वैज्ञानिक को एक गिट कमिट और पुश करना चाहिए, जो सीआई / सीडी पाइपलाइन को ट्रिगर करता है। फिर CI/CD पाइपलाइन कोड कलाकृतियों की प्रतिलिपि बनाकर एक उप-कुंजी बनाता है (the code
उप-कुंजी) और इनपुट डेटा (the input
उप-कुंजी) बिल्ड आईडी के उप-विभाजन के तहत. एक उदाहरण के रूप में, बिल्ड आईडी cदिनांक-समय और गिट हैश, या एक सेजमेकर पाइपलाइन रन आईडी का संयोजन हो। यह संरचना डेटा वैज्ञानिक को पिछले परिनियोजन और रनों का ऑडिट और क्वेरी करने में सक्षम बनाती है। इसके बाद, CI/CD पाइपलाइन ML पाइपलाइन को परिनियोजित करती है और ट्रिगर करती है। जबकि एमएल पाइपलाइन चल रही है, प्रत्येक चरण मध्यवर्ती परिणाम को निर्यात करता है ml-pipeline-outputs
. यह ध्यान रखना महत्वपूर्ण है कि विभिन्न फीचर शाखाएं एमएल पाइपलाइन के एक नए उदाहरण को तैनात और चलाती हैं और प्रत्येक को एक नई उप-कुंजी और/या एक मानकीकृत उपसर्ग या प्रत्यय के साथ अलग-अलग उप-फ़ोल्डर में मध्यवर्ती परिणाम निर्यात करने की आवश्यकता होती है। सुविधा शाखा आईडी।
यह दृष्टिकोण प्रत्येक प्रयोग की पूर्ण लेखा परीक्षा का समर्थन करता है। हालांकि, विकास रणनीति का बहु-शाखा दृष्टिकोण बड़ी मात्रा में डेटा उत्पन्न करता है। इसलिए, एक डेटा जीवनचक्र रणनीति आवश्यक है। हम प्रत्येक सफल पुल/मर्ज अनुरोध में प्रत्येक फीचर शाखा एमएल पाइपलाइन के कम से कम डेटा को हटाने का सुझाव देते हैं। लेकिन यह आपके व्यवसाय के समर्थन के लिए आवश्यक ऑपरेटिंग मॉडल और ऑडिट ग्रैन्युलैरिटी पर निर्भर करता है। आप बैच अनुमान एमएल पाइपलाइनों में एक समान दृष्टिकोण का उपयोग कर सकते हैं
विश्वसनीय चरण
कई खातों का उपयोग करके डेटा वैज्ञानिकों, एमएल इंजीनियरों और डेटा इंजीनियरों के बीच चिंताओं के प्रारंभिक अलगाव के बाद, अगला कदम मॉडल रजिस्ट्री से उत्पादित मॉडल को एक अलग वातावरण में अनुमान लगाने के लिए बढ़ावा देना है। हालांकि, हमें तैनात मॉडलों की मजबूती सुनिश्चित करने की जरूरत है। इसलिए, उत्पादन के दर्पण वातावरण में तैनात मॉडल का अनुकरण अनिवार्य है, अर्थात् प्री-प्रोडक्शन (या स्टेजिंग)।
निम्नलिखित चित्र इस वास्तुकला को दर्शाता है।
प्री-प्रोडक्शन परिवेश में मॉडल और एंडपॉइंट परिनियोजन का प्रचार मॉडल रजिस्ट्री स्थिति अद्यतन ईवेंट (या परिनियोजन रिपॉजिटरी पर git पुश) का उपयोग करके किया जाता है, जो EventBridge ईवेंट का उपयोग करके एक अलग CI/CD पाइपलाइन को ट्रिगर करता है। CI/CD पाइपलाइन का पहला चरण प्रमुख डेटा वैज्ञानिक (और वैकल्पिक रूप से उत्पाद स्वामी, व्यवसाय विश्लेषक, या अन्य प्रमुख डेटा वैज्ञानिकों) द्वारा मैन्युअल अनुमोदन का अनुरोध करता है। अनुमोदक को मॉडल के प्रदर्शन KPI और परिनियोजन रिपॉजिटरी में कोड के QA को सत्यापित करने की आवश्यकता है। अनुमोदन के बाद, CI/CD पाइपलाइन परिनियोजन रिपॉजिटरी (एकीकरण परीक्षण, तनाव परीक्षण, ML परीक्षण) के लिए परीक्षण कोड चलाती है। मॉडल एंडपॉइंट के अलावा, CI/CD ट्रिगरिंग इन्फ्रास्ट्रक्चर का भी परीक्षण करता है, जैसे कि EventBridge, लैम्ब्डा फ़ंक्शंस, या API गेटवे। निम्नलिखित आरेख इस अद्यतन वास्तुकला को दर्शाता है।
परीक्षणों के सफल संचालन के बाद, CI/CD पाइपलाइन नए (या समान) अनुमोदकों को सूचित करती है कि एक मॉडल उत्पादन के लिए प्रचारित करने के लिए तैयार है। इस स्तर पर, व्यापार विश्लेषक मॉडल के परिणामों पर कुछ अतिरिक्त सांख्यिकीय परिकल्पना परीक्षण करना चाह सकते हैं। अनुमोदन के बाद, मॉडल और ट्रिगरिंग बुनियादी ढांचे को उत्पादन में तैनात किया जाता है। सेजमेकर द्वारा कई परिनियोजन विधियों का समर्थन किया जाता है, जैसे नीला/हरा, कैनरी, और ए/बी परीक्षण (इसमें और देखें) परिनियोजन रेलिंग) यदि CI/CD पाइपलाइन विफल हो जाती है, तो रोलबैक तंत्र सिस्टम को नवीनतम मजबूत स्थिति में लौटा देता है।
निम्नलिखित आरेख मॉडल एंडपॉइंट को ट्रिगर करने के लिए एक मॉडल और बुनियादी ढांचे को बढ़ावा देने के लिए सीआई / सीडी पाइपलाइन के मुख्य चरणों को दिखाता है, जैसे एपीआई गेटवे, लैम्ब्डा फ़ंक्शन और इवेंटब्रिज।
डेटा लेक और एमएलओपीएस एकीकरण
इस बिंदु पर, प्रति विकास चरण या खाते की डेटा आवश्यकताओं को समझना महत्वपूर्ण है, और एक केंद्रीकृत डेटा झील के साथ MLOps को शामिल करने का तरीका। निम्नलिखित आरेख एमएलओपीएस और डेटा लेक परतों को दिखाता है।
डेटा लेक में, डेटा इंजीनियर कई डेटा स्रोतों में शामिल होने और संबंधित डेटासेट बनाने के लिए जिम्मेदार होते हैं (उदाहरण के लिए, संरचना डेटा की एक तालिका, या पीडीएफ फाइलों या छवियों के साथ एक एकल फ़ोल्डर) ईटीएल का निर्माण करके एमएल उपयोग के मामलों के लिए। डेटा वैज्ञानिकों द्वारा परिभाषित पाइपलाइनों (अन्वेषण डेटा विश्लेषण चरण के दौरान)। उन डेटासेट को ऐतिहासिक डेटा और अनुमान और परीक्षण के लिए डेटा में विभाजित किया जा सकता है। सभी डेटा को सूचीबद्ध किया गया है (उदाहरण के लिए, एडब्ल्यूएस ग्लू डेटा कैटलॉग के साथ), और डेटा गवर्नेंस लेयर (संरचित डेटा के लिए) के रूप में लेक फॉर्मेशन का उपयोग करके अन्य खातों और उपयोगकर्ताओं के साथ साझा किया जा सकता है। इस लेखन के समय, लेक फॉर्मेशन केवल एथेना प्रश्नों, एडब्ल्यूएस गोंद नौकरियों और अमेज़ॅन ईएमआर के साथ संगत है।
दूसरी ओर, एमएलओपीएस पर्यावरण को देव, प्री-प्रोड और प्रोड में स्थानीय बाल्टी में स्थित विशिष्ट डेटासेट के साथ एमएल पाइपलाइनों को सींचने की जरूरत है। डेटा लेक से डेटा खींचने वाली सेजमेकर पाइपलाइनों का उपयोग करके मांग पर मॉडल के निर्माण और प्रशिक्षण के लिए देव पर्यावरण जिम्मेदार है। इसलिए, हम सुझाव देते हैं कि पाइपलाइन के पहले चरण के रूप में या तो एथेना चरण हो, जहां केवल डेटा नमूनाकरण और क्वेरी की आवश्यकता हो, या अमेज़ॅन ईएमआर चरण, यदि अधिक जटिल परिवर्तनों की आवश्यकता हो। वैकल्पिक रूप से, आप कॉलबैक चरण के माध्यम से एडब्ल्यूएस गोंद नौकरी का उपयोग कर सकते हैं, लेकिन अभी तक सेजमेकर पाइपलाइनों के साथ मूल चरण के रूप में नहीं।
प्री-प्रोड और प्रोड वास्तविक समय और बैच अनुमान के परीक्षण या संचालन के लिए जिम्मेदार हैं। रीयल-टाइम अनुमान के मामले में, एमएलओपीएस प्री-प्रोड और प्रोड खातों में डेटा भेजना आवश्यक नहीं है क्योंकि अनुमान के लिए इनपुट एपीआई गेटवे अनुरोध के पेलोड पर पिगी-बैक कर सकता है। बैच अनुमान (या बड़े आकार के इनपुट डेटा) के मामले में, आवश्यक डेटासेट, या तो परीक्षण डेटा या अनुमान के लिए डेटा, को स्थानीय एमएल डेटा बकेट (प्री-प्रोड या प्रोड) में उतरने की आवश्यकता होती है। डेटा को प्री-प्रोड और प्रोड में ले जाने के लिए आपके पास दो विकल्प हैं: या तो एथेना या अमेज़ॅन ईएमआर को ट्रिगर करके और डेटा लेक से डेटा खींचकर, या डेटा लेक से डेटा को उन एमएलओपीएस खातों में धकेलना। पहले विकल्प के लिए एमएलओपीएस खातों में अतिरिक्त तंत्र के विकास की आवश्यकता होती है, उदाहरण के लिए, अनुसूचित EventBridge ईवेंट बनाना (बिना जानकारी के यदि डेटा लेक में डेटा अपडेट किया गया है) या डेटा लेक में S3 EventBridge ईवेंट में ऑन-डेटा आगमन (के लिए) अधिक विवरण, देखें Amazon EventBridge संसाधन नीतियों के साथ क्रॉस-अकाउंट एक्सेस को सरल बनाना) एमएलओपीएस पक्ष में घटना को पकड़ने के बाद, एथेना क्वेरी या अमेज़ॅन ईएमआर स्थानीय रूप से डेटा प्राप्त कर सकता है और ट्रिगर कर सकता है अतुल्यकालिक अनुमान or बैच परिवर्तन. सादगी के लिए इसे सेजमेकर पाइपलाइन में लपेटा जा सकता है। दूसरा विकल्प ईटीएल पाइपलाइन के अंतिम चरण में डेटा को एमएलओपीएस बकेट में धकेलने की कार्यक्षमता को जोड़ना है। हालांकि, यह दृष्टिकोण जिम्मेदारियों को मिलाता है (डेटा लेक ट्रिगर अनुमान) और एमएलओपीएस बकेट में लिखने के लिए डेटा झील तक पहुंच प्रदान करने के लिए लेक फॉर्मेशन की आवश्यकता होती है।
अंतिम चरण अनुमान परिणामों को वापस डेटा लेक में ले जाना है। डेटा को कैटलॉग करने और इसे अन्य उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, डेटा को नए डेटा स्रोत के रूप में वापस लैंडिंग बकेट में लौटना चाहिए।
स्केलेबल चरण
एमएलओपीएस फाउंडेशन के विकास और पहले एमएल उपयोग के मामले के एंड-टू-एंड प्रोडक्शनाइजेशन के बाद, देव, प्री-प्रोड, प्रोड, और रिपोजिटरी, सीआई / सीडी पाइपलाइन, और डेटा संरचना के बुनियादी ढांचे का परीक्षण और अंतिम रूप दिया गया है . अगला कदम प्लेटफॉर्म पर नए एमएल उपयोग के मामलों और टीमों को शामिल करना है। स्पीड-टू-वैल्यू सुनिश्चित करने के लिए, सेजमेकर आपको कस्टम सेजमेकर प्रोजेक्ट टेम्प्लेट बनाने की अनुमति देता है, जिसका उपयोग आप टेम्प्लेट रिपॉजिटरी और सीआई / सीडी पाइपलाइनों को स्वचालित रूप से इंस्टेंट करने के लिए कर सकते हैं। ऐसे सेजमेकर प्रोजेक्ट टेम्प्लेट के साथ, प्रमुख डेटा वैज्ञानिक नई परियोजनाओं को तत्काल करने और प्रति नए एमएल उपयोग मामलों के लिए एक समर्पित टीम आवंटित करने के लिए जिम्मेदार हैं।
निम्नलिखित आरेख इस प्रक्रिया को दिखाता है।
समस्या और अधिक जटिल हो जाती है यदि विभिन्न डेटा वैज्ञानिक टीमों (या कई व्यावसायिक इकाइयां जिन्हें एमएल का उत्पादन करने की आवश्यकता होती है) के पास अलग-अलग गोपनीय डेटा तक पहुंच होती है, और कई उत्पाद मालिक प्रशिक्षण, परिनियोजन और मॉडल चलाने के लिए एक अलग बिल का भुगतान करने के लिए जिम्मेदार होते हैं। . इसलिए, प्रति टीम एमएलओपीएस खातों (प्रयोग, देव, पूर्व-उत्पाद, और उत्पाद) का एक अलग सेट आवश्यक है। नए एमएलओपीएस खातों के आसान निर्माण को सक्षम करने के लिए, हम एक और खाता, उन्नत एनालिटिक्स गवर्नेंस खाता पेश करते हैं, जो आईटी सदस्यों द्वारा सुलभ है और उन्हें मांग पर एमएलओपीएस खातों को सूचीबद्ध करने, तत्काल करने या हटाने की अनुमति देता है। विशेष रूप से, यह खाता MLOps खातों (VPC, सबनेट, एंडपॉइंट, बकेट,) के इन्फ्रास्ट्रक्चर कोड के साथ रिपॉजिटरी को होस्ट करता है। AWS पहचान और अभिगम प्रबंधन (आईएएम) भूमिकाएं और नीतियां, एडब्ल्यूएस CloudFormation ढेर), और AWS सेवा सूची उत्पाद को स्वचालित रूप से एक क्लिक के साथ कई खातों में बुनियादी ढांचे के CloudFormation स्टैक को तैनात करने के लिए, और एक अमेज़ॅन डायनेमोडीबी तालिका से कैटलॉग मेटाडेटा, जैसे कि खातों के प्रत्येक सेट के लिए कौन सी टीम जिम्मेदार है। इस क्षमता के साथ, आईटी टीम मांग पर एमएलओपीएस खातों को तत्काल करती है और आवश्यक उपयोगकर्ताओं, प्रति खाता डेटा एक्सेस, और लगातार सुरक्षा बाधाओं को आवंटित करती है।
इस परिदृश्य के आधार पर, हम खातों को अल्पकालिक और टिकाऊ में अलग करते हैं। डेटा लेक और टूलिंग टिकाऊ खाते हैं और क्रमशः डेटा और स्रोत कोड के लिए सत्य के एकल बिंदु की भूमिका निभाते हैं। एमएलओपीएस खाते ज्यादातर स्टेटलेस होते हैं और मांग पर तत्काल या निष्क्रिय हो जाते हैं, जिससे उन्हें अल्पकालिक बना दिया जाता है। भले ही एमएलओपीएस खातों के एक सेट को बंद कर दिया गया हो, उपयोगकर्ता या लेखा परीक्षक पिछले प्रयोगों और परिणामों की जांच करने में सक्षम हैं क्योंकि वे टिकाऊ वातावरण में संग्रहीत हैं।
यदि आप एमएलओपीएस के लिए स्टूडियो यूआई का उपयोग करना चाहते हैं, तो टूलिंग खाता निम्नलिखित आंकड़े के अनुसार देव खाते का हिस्सा है।
यदि उपयोगकर्ता एमएलओपीएस के लिए सेजमेकर स्टूडियो यूआई का उपयोग करना चाहता है, तो टूलिंग खाता देव का हिस्सा है
ऊपर दिए गए चित्र के अनुसार खाता। इस एमएलओपी फाउंडेशन का उदाहरण स्रोत कोड में पाया जा सकता है
सीडीके पर आधारित सुरक्षित बहु-खाता एमएलओपीएस फाउंडेशन.
ध्यान दें कि सेजमेकर कोडकॉमिट और कोडपिपलाइन को अन्य तीसरे पक्ष के विकास उपकरण, जैसे कि गिटहब और जेनकिंस द्वारा प्रतिस्थापित करने की क्षमता प्रदान करता है (अधिक विवरण में पाया जा सकता है अमेज़ॅन सेजमेकर प्रोजेक्ट बनाएं तृतीय-पक्ष स्रोत नियंत्रण और जेनकिंस का उपयोग करना और Amazon SageMaker प्रोजेक्ट्स MLOps GitLab और GitLab पाइपलाइन के साथ टेम्पलेट).
व्यक्ति, संचालन, और प्रौद्योगिकी सारांश
एमएलओपीएस परिपक्वता मॉडल के साथ, हम एक स्पष्ट वास्तुकला डिजाइन और वितरण रोडमैप को परिभाषित कर सकते हैं। हालांकि, प्रत्येक व्यक्ति को प्रमुख एडब्ल्यूएस खातों और सेवाओं के साथ बातचीत करने और संचालन के संचालन के बारे में स्पष्ट दृष्टिकोण की आवश्यकता होती है। निम्नलिखित आरेख उन श्रेणियों को सारांशित करता है।
निष्कर्ष
एक मजबूत एमएलओपीएस फाउंडेशन, जो स्पष्ट रूप से कई व्यक्तियों और प्रौद्योगिकी के बीच बातचीत को परिभाषित करता है, गति-से-मूल्य बढ़ा सकता है और लागत कम कर सकता है, और डेटा वैज्ञानिकों को नवाचारों पर ध्यान केंद्रित करने में सक्षम बनाता है। इस पोस्ट में, हमने दिखाया कि इस तरह की नींव को चरणों में कैसे बनाया जाए, जिससे व्यवसाय के लिए एक सहज एमएलओपीएस परिपक्वता मॉडल और उत्पादन में कई डेटा विज्ञान टीमों और एमएल उपयोग मामलों का समर्थन करने की क्षमता हो। हमने एक ऑपरेटिंग मॉडल को परिभाषित किया है जिसमें कई कौशल और जिम्मेदारियों के साथ कई व्यक्ति शामिल हैं। अंत में, हमने उदाहरण साझा किए कि कैसे कोड विकास (रिपॉजिटरी और सीआई/सीडी पाइपलाइन), डेटा स्टोरेज और शेयरिंग को मानकीकृत किया जाए, और एमएलओपीएस उद्यम वातावरण के लिए बुनियादी ढांचे के प्रावधान को सुरक्षित करता है। कई उद्यम ग्राहकों ने इस दृष्टिकोण को अपनाया है और महीनों के बजाय दिनों के भीतर अपने एमएल समाधान का उत्पादन करने में सक्षम हैं।
यदि आपके पास कोई टिप्पणी या प्रश्न हैं, तो कृपया उन्हें टिप्पणी अनुभाग में छोड़ दें।
लेखक के बारे में
डॉ. सुकरातिस कार्तिकी अमेज़ॅन वेब सेवाओं के लिए एक वरिष्ठ मशीन लर्निंग विशेषज्ञ समाधान वास्तुकार हैं। सोक्राटिस एडब्ल्यूएस सेवाओं का फायदा उठाकर और अपने ऑपरेटिंग मॉडल, यानी एमएलओपीएस फाउंडेशन, और ट्रांसफॉर्मेशन रोडमैप को सर्वोत्तम विकास प्रथाओं का लाभ उठाकर उद्यम ग्राहकों को अपने मशीन लर्निंग (एमएल) समाधानों का औद्योगीकरण करने में सक्षम बनाने पर ध्यान केंद्रित करता है। उन्होंने ऊर्जा, खुदरा, स्वास्थ्य, वित्त/बैंकिंग, मोटरस्पोर्ट्स आदि के क्षेत्र में अभिनव एंड-टू-एंड प्रोडक्शन-लेवल एमएल और इंटरनेट ऑफ थिंग्स (IoT) समाधानों की खोज, डिजाइन, नेतृत्व और कार्यान्वयन पर 15+ वर्ष बिताए हैं। सोकरातिस अपना खाली समय परिवार और दोस्तों के साथ बिताना पसंद करते हैं, या मोटरबाइक की सवारी करना पसंद करते हैं।
जॉर्जियोस शिनास ईएमईए क्षेत्र में एआई/एमएल के लिए एक विशेषज्ञ समाधान वास्तुकार है। वह लंदन में स्थित है और यूके और आयरलैंड में ग्राहकों के साथ मिलकर काम करता है। जॉर्जियो ग्राहकों को एमएलओपीएस प्रथाओं में विशेष रुचि के साथ एडब्ल्यूएस पर उत्पादन में मशीन लर्निंग एप्लिकेशन को डिजाइन और तैनात करने में मदद करता है और ग्राहकों को बड़े पैमाने पर मशीन लर्निंग करने में सक्षम बनाता है। अपने खाली समय में, वह यात्रा करना, खाना बनाना और दोस्तों और परिवार के साथ समय बिताना पसंद करते हैं।
ग्यूसेप एंजेलो पोर्सेलि अमेज़ॅन वेब सेवाओं के लिए एक प्रिंसिपल मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। कई वर्षों के सॉफ्टवेयर इंजीनियरिंग एक एमएल पृष्ठभूमि के साथ, वह किसी भी आकार के ग्राहकों के साथ उनके व्यवसाय और तकनीकी जरूरतों को गहराई से समझने के लिए काम करता है और एआई और मशीन लर्निंग समाधान डिजाइन करता है जो एडब्ल्यूएस क्लाउड और अमेज़ॅन मशीन लर्निंग स्टैक का सबसे अच्छा उपयोग करते हैं। उन्होंने विभिन्न डोमेन में परियोजनाओं पर काम किया है, जिसमें एमएलओपीएस, कंप्यूटर विजन, एनएलपी, और एडब्ल्यूएस सेवाओं का एक व्यापक सेट शामिल है। अपने खाली समय में, Giuseppe को फुटबॉल खेलना पसंद है।
शेल्बी आइजेनब्रोड Amazon Web Services (AWS) में प्रिंसिपल AI और मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह कई उद्योगों, प्रौद्योगिकियों और भूमिकाओं में फैले 24 वर्षों से प्रौद्योगिकी में है। वह वर्तमान में अपने DevOps और ML पृष्ठभूमि को MLOps के डोमेन में संयोजित करने पर ध्यान केंद्रित कर रही है ताकि ग्राहकों को बड़े पैमाने पर ML वर्कलोड वितरित करने और प्रबंधित करने में मदद मिल सके। विभिन्न प्रौद्योगिकी डोमेन में 35 से अधिक पेटेंट दिए जाने के साथ, उन्हें निरंतर नवाचार और व्यावसायिक परिणामों को चलाने के लिए डेटा का उपयोग करने का जुनून है। शेल्बी कौरसेरा पर प्रैक्टिकल डेटा साइंस विशेषज्ञता के सह-निर्माता और प्रशिक्षक हैं। वह डेनवर चैप्टर में वीमेन इन बिग डेटा (वाईबीडी) की सह-निदेशक भी हैं। अपने खाली समय में, वह अपने परिवार, दोस्तों और अति सक्रिय कुत्तों के साथ समय बिताना पसंद करती है।
- "
- 100
- a
- क्षमता
- About
- अमूर्त
- में तेजी लाने के
- पहुँच
- सुलभ
- समायोजित
- लेखा
- पाना
- के पार
- इसके अलावा
- अतिरिक्त
- दत्तक ग्रहण
- उन्नत
- के खिलाफ
- AI
- एल्गोरिदम
- सब
- की अनुमति देता है
- वैकल्पिक
- वीरांगना
- अमेज़ॅन वेब सेवा
- के बीच में
- राशि
- विश्लेषण
- विश्लेषक
- विश्लेषिकी
- अन्य
- एपीआई
- आवेदन
- अनुप्रयोगों
- दृष्टिकोण
- स्थापत्य
- आडिट
- को स्वचालित रूप से
- स्वचालित
- स्वतः
- स्वचालन
- उपलब्ध
- से बचने
- एडब्ल्यूएस
- पृष्ठभूमि
- आधारभूत
- क्योंकि
- बन
- से पहले
- पीछे
- लाभदायक
- BEST
- के बीच
- बड़ा डेटा
- बिल
- बढ़ावा
- निर्माण
- इमारत
- में निर्मित
- व्यापार
- व्यवसायों
- क्षमताओं
- मामला
- मामलों
- केंद्रीकृत
- चुनौतीपूर्ण
- अध्याय
- जाँचता
- क्लासिक
- बादल
- कोड
- सहयोग
- सहयोग
- स्तंभ
- संयोजन
- टिप्पणियाँ
- करना
- सामान्य
- कंपनियों
- संगत
- पूरा
- जटिल
- अनुपालन
- कंप्यूटर
- आचरण
- का आयोजन
- आत्मविश्वास
- विन्यास
- संबंध
- संगत
- कंटेनर
- कंटेनरों
- शामिल हैं
- नियंत्रण
- नकल
- इसी
- सका
- आवरण
- बनाना
- बनाया
- बनाता है
- बनाना
- निर्माण
- वर्तमान में
- रिवाज
- ग्राहक
- ग्राहक
- तिथि
- डेटा प्राप्त करना
- डेटा विश्लेषण
- गोपनीय आँकड़ा
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- डेटा भंडारण
- दिन
- समर्पित
- प्रसव
- मांग
- डेन्वेर
- निर्भर करता है
- निर्भर करता है
- तैनात
- तैनात
- तैनाती
- तैनाती
- तैनाती
- तैनात
- वर्णन
- डिज़ाइन
- डिज़ाइन बनाना
- विवरण
- खोज
- देव
- विकसित करना
- विकास
- विकास के औजार
- अंतर
- विभिन्न
- चर्चा करना
- वितरण
- डाक में काम करनेवाला मज़दूर
- डोमेन
- डोमेन
- ड्राइव
- संचालित
- दौरान
- से प्रत्येक
- Edge
- को खत्म करने
- आलिंगन
- सक्षम
- सक्षम बनाता है
- समर्थकारी
- शुरू से अंत तक
- endpoint
- ऊर्जा
- अभियांत्रिकी
- इंजीनियर्स
- उद्यम
- उद्यम
- वातावरण
- आदि
- मूल्यांकन करें
- मूल्यांकन
- कार्यक्रम
- घटनाओं
- ठीक ठीक
- उदाहरण
- उदाहरण
- के सिवा
- प्रयोग
- कारनामे
- अन्वेषण
- परिवार
- Feature
- आकृति
- अंत में
- प्रथम
- प्रवाह
- फोकस
- केंद्रित
- ध्यान केंद्रित
- निम्नलिखित
- फ़ुटबॉल सबसे लोकप्रिय एंव
- निर्माण
- पाया
- बुनियाद
- नींव
- ढांचा
- चौखटे
- मुक्त
- से
- कार्यक्षमता
- कार्यों
- और भी
- प्रवेश द्वार
- GDPR
- उत्पन्न
- जाना
- GitHub
- लक्ष्य
- शासन
- दी गई
- समूह
- हैंडलिंग
- हैश
- स्वास्थ्य
- मदद
- मदद
- मदद करता है
- हाई
- ऐतिहासिक
- इतिहास
- मेजबानी
- कैसे
- How To
- तथापि
- HTTPS
- सैकड़ों
- पहचान
- छवियों
- लागू करने के
- कार्यान्वित
- कार्यान्वयन
- महत्वपूर्ण
- में सुधार
- शामिल
- सहित
- बढ़ना
- उद्योगों
- करें-
- इंफ्रास्ट्रक्चर
- नवोन्मेष
- नवाचारों
- अभिनव
- निवेश
- उदाहरण
- एकीकरण
- एकीकरण
- बातचीत
- ब्याज
- इंटरफेस
- इंटरनेट
- चीजों की इंटरनेट
- IOT
- आयरलैंड
- अलगाव
- IT
- काम
- नौकरियां
- शामिल होने
- जुड़ती
- रखना
- कुंजी
- ज्ञान
- बड़ा
- ताज़ा
- परत
- नेतृत्व
- प्रमुख
- जानें
- सीख रहा हूँ
- छोड़ना
- कानूनी
- स्तर
- लाभ
- पुस्तकालय
- भार
- स्थानीय
- स्थानीय स्तर पर
- लंडन
- मशीन
- यंत्र अधिगम
- बनाना
- निर्माण
- प्रबंधन
- प्रबंध
- अनिवार्य
- गाइड
- परिपक्वता
- तंत्र
- सदस्य
- मर्ज
- क्रियाविधि
- तरीकों
- मेट्रिक्स
- हो सकता है
- मन
- न्यूनतम
- आईना
- ML
- आदर्श
- मॉडल
- मॉनिटर
- महीने
- अधिक
- मोटरस्पोर्ट्स
- चाल
- चलती
- विभिन्न
- यानी
- नामों
- नामकरण
- आवश्यक
- की जरूरत है
- अगला
- सामान्य रूप से
- संचालित
- परिचालन
- संचालन
- इष्टतमीकरण
- विकल्प
- ऑप्शंस
- आदेश
- संगठनों
- मूल
- अन्य
- अपना
- मालिक
- मालिकों
- भाग
- विशेष
- पार्टी
- जुनून
- पेटेंट
- पीडीएफ
- स्टाफ़
- प्रदर्शन
- प्रदर्शन
- चरण
- मंच
- प्ले
- खेल
- कृप्या अ
- बिन्दु
- नीतियाँ
- तैयार करना
- प्रिंसिपल
- एकांत
- मुसीबत
- प्रक्रिया
- प्रसंस्करण
- प्रस्तुत
- एस्ट्रो मॉल
- उत्पादन
- उत्पादकता
- परियोजना
- परियोजनाओं
- को बढ़ावा देना
- पदोन्नति
- प्रदान करना
- बशर्ते
- प्रदान करता है
- खींच
- गुणवत्ता
- RE
- वास्तविक समय
- को कम करने
- को कम करने
- क्षेत्र
- रजिस्टर
- रिश्ते
- विश्वसनीय
- कोष
- का अनुरोध
- अनुरोधों
- अपेक्षित
- आवश्यकताएँ
- की आवश्यकता होती है
- अनुसंधान
- संसाधन
- उपयुक्त संसाधन चुनें
- जिम्मेदारियों
- जिम्मेदार
- परिणाम
- खुदरा
- वापसी
- रिटर्न
- रोडमैप
- मजबूती
- भूमिका
- जड़
- रन
- दौड़ना
- वही
- स्केलेबल
- स्केल
- स्केलिंग
- अनुसूचित
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- एसडीके
- सुरक्षित
- सुरक्षा
- धारावाहिक
- कई
- सेवा
- सेवाएँ
- सेट
- व्यवस्था
- कई
- आकार
- साझा
- बांटने
- दिखाना
- समान
- अनुकार
- एक
- आकार
- कौशल
- सॉफ्टवेयर
- सॉफ्टवेयर इंजीनियरिंग
- समाधान
- समाधान ढूंढे
- हल
- कुछ
- स्रोत कोड
- विशेषज्ञ
- विशिष्ट
- विशेष रूप से
- गति
- बिताना
- खर्च
- विभाजित
- धुआँरा
- ट्रेनिंग
- चरणों
- प्रारंभ
- राज्य
- सांख्यिकीय
- आँकड़े
- स्थिति
- भंडारण
- की दुकान
- भंडार
- स्ट्रेटेजी
- सुवीही
- तनाव
- संरचित
- स्टूडियो
- सफल
- समर्थन
- समर्थित
- समर्थन करता है
- प्रणाली
- सिस्टम
- टीम
- टीमों
- तकनीकी
- टेक्नोलॉजीज
- टेक्नोलॉजी
- टेम्पलेट्स
- परीक्षण
- परीक्षण
- परीक्षण
- RSI
- स्रोत
- दुनिया
- इसलिये
- चीज़ें
- तीसरे दल
- तीन
- पहर
- एक साथ
- उपकरण
- रेलगाड़ी
- प्रशिक्षण
- बदालना
- परिवर्तन
- परिवर्तनों
- यात्रा का
- प्रकार
- ui
- Uk
- के अंतर्गत
- समझना
- इकाइयों
- अपडेट
- उपयोग
- उपयोगकर्ताओं
- उपयोग
- सत्यापन
- मूल्य
- विभिन्न
- देखें
- दृष्टि
- वेब
- वेब सेवाओं
- जब
- अंदर
- बिना
- महिलाओं
- काम
- काम किया
- workflows
- कार्य
- विश्व
- लिख रहे हैं
- साल
- आपका