यदि आपने amazon.com पर खरीदने के लिए कोई आइटम खोजा है, तो आपने Amazon Search सेवाओं का उपयोग किया है। Amazon Search में, हम दुनिया भर में अपने ग्राहकों के लिए खोज और खोज अनुभव के लिए ज़िम्मेदार हैं। पृष्ठभूमि में, हम अपने उत्पादों की विश्वव्यापी सूची को अनुक्रमित करते हैं, अत्यधिक स्केलेबल एडब्ल्यूएस बेड़े को तैनात करते हैं, और प्रत्येक ग्राहक की क्वेरी के लिए प्रासंगिक और दिलचस्प उत्पादों से मेल खाने के लिए उन्नत मशीन लर्निंग (एमएल) का उपयोग करते हैं।
खोज परिणामों की गुणवत्ता में सुधार के लिए हमारे वैज्ञानिक नियमित रूप से हजारों एमएल मॉडल को प्रशिक्षित करते हैं। बड़े पैमाने पर प्रयोग का समर्थन करना अपनी चुनौतियों को प्रस्तुत करता है, खासकर जब इन एमएल मॉडलों को प्रशिक्षित करने वाले वैज्ञानिकों की उत्पादकता में सुधार की बात आती है।
इस पोस्ट में, हम साझा करते हैं कि हमने कैसे एक प्रबंधन प्रणाली का निर्माण किया अमेज़न SageMaker प्रशिक्षण नौकरियां, हमारे वैज्ञानिकों को हजारों प्रयोगों को आग लगाने और भूलने की इजाजत देता है और आवश्यकता होने पर अधिसूचित किया जाता है। वे अब उच्च-मूल्य वाले कार्यों और एल्गोरिथम त्रुटियों को हल करने पर ध्यान केंद्रित कर सकते हैं, जिससे उनका 60% समय बचता है।
चुनौती
अमेज़ॅन सर्च में, हमारे वैज्ञानिक सेजमेकर पर कई एमएल मॉडल प्रशिक्षण नौकरियों का प्रयोग करके और चलाकर सूचना पुनर्प्राप्ति समस्याओं का समाधान करते हैं। हमारी टीम के नवाचारों को बनाए रखने के लिए, हमारे मॉडल की जटिलता और प्रशिक्षण नौकरियों की संख्या समय के साथ बढ़ी है। सेजमेकर प्रशिक्षण नौकरियां हमें बुनियादी ढांचे के प्रबंधन की आवश्यकता के बिना, उन मॉडलों को बड़े पैमाने पर प्रशिक्षित और ट्यून करने के लिए समय और लागत को कम करने की अनुमति देती हैं।
इस तरह के बड़े पैमाने पर एमएल परियोजनाओं में सब कुछ की तरह, विभिन्न कारकों के कारण प्रशिक्षण कार्य विफल हो सकते हैं। यह पोस्ट एल्गोरिथम त्रुटियों के कारण क्षमता की कमी और विफलताओं पर केंद्रित है।
हमने क्षमता की अनुपलब्धता या एल्गोरिथम त्रुटियों के कारण नौकरी के विफल होने की संभावना को सहन करने और कम करने के लिए एक नौकरी प्रबंधन प्रणाली के साथ एक वास्तुकला तैयार की है। यह वैज्ञानिकों को हजारों प्रशिक्षण नौकरियों को भूलने और भूलने की अनुमति देता है, स्वचालित रूप से क्षणिक विफलता पर उन्हें पुनः प्रयास करता है, और यदि आवश्यक हो तो सफलता या विफलता की सूचना प्राप्त करता है।
समाधान अवलोकन
निम्नलिखित समाधान आरेख में, हम अपने समाधान की मूल इकाई के रूप में सेजमेकर प्रशिक्षण नौकरियों का उपयोग करते हैं। यही है, नौकरी एमएल मॉडल के एंड-टू-एंड प्रशिक्षण का प्रतिनिधित्व करती है।
इस समाधान का उच्च-स्तरीय कार्यप्रवाह इस प्रकार है:
- सिस्टम में नई नौकरी प्रस्तुत करने के लिए वैज्ञानिक एक एपीआई का आह्वान करते हैं।
- नौकरी के साथ पंजीकृत है
New
मेटाडेटा स्टोर में स्थिति। - एक नौकरी अनुसूचक अतुल्यकालिक रूप से पुनर्प्राप्त करता है
New
मेटाडेटा स्टोर से नौकरियां, उनके इनपुट का विश्लेषण करती हैं, और प्रत्येक के लिए सेजमेकर प्रशिक्षण कार्य शुरू करने का प्रयास करती हैं। उनकी स्थिति बदल जाती हैLaunched
orFailed
सफलता पर निर्भर करता है। - एक मॉनीटर नियमित अंतराल पर कार्य की प्रगति की जाँच करता है, और उनकी रिपोर्ट करता है
Completed
,Failed
या,InProgress
मेटाडेटा स्टोर में राज्य। - रिपोर्ट करने के लिए एक नोटिफ़ायर ट्रिगर किया जाता है
Completed
औरFailed
वैज्ञानिकों को नौकरी।
मेटाडेटा स्टोर में नौकरी के इतिहास को बनाए रखने से हमारी टीम को प्रवृत्ति विश्लेषण करने और परियोजना की प्रगति की निगरानी करने की भी अनुमति मिलती है।
यह जॉब शेड्यूलिंग समाधान निम्न के आधार पर शिथिल युग्मित सर्वर रहित घटकों का उपयोग करता है: AWS लाम्बा, अमेज़ॅन डायनेमोडीबी, अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस), और अमेज़न EventBridge. यह क्षैतिज मापनीयता सुनिश्चित करता है, जिससे हमारे वैज्ञानिकों को न्यूनतम संचालन प्रयास के साथ हजारों नौकरियां शुरू करने की अनुमति मिलती है। निम्न आरेख सर्वर रहित वास्तुकला को दर्शाता है।
निम्नलिखित अनुभागों में, हम प्रत्येक सेवा और उसके घटकों के बारे में अधिक विस्तार से जानेंगे।
डायनेमोडीबी नौकरी के लिए मेटाडेटा स्टोर के रूप में चलता है
DynamoDB के उपयोग में आसानी और मापनीयता ने इसे DynamoDB तालिका में जॉब मेटाडेटा को बनाए रखना एक स्वाभाविक विकल्प बना दिया है। यह समाधान वैज्ञानिकों द्वारा प्रस्तुत नौकरियों की कई विशेषताओं को संग्रहीत करता है, जिससे प्रगति पर नज़र रखने और वर्कफ़्लो ऑर्केस्ट्रेशन में मदद मिलती है। सबसे महत्वपूर्ण गुण इस प्रकार हैं:
- नौकरी आईडी - एक यूनिक जॉब आईडी। यह स्वत: उत्पन्न या वैज्ञानिक द्वारा प्रदान किया जा सकता है।
- कार्य स्थिति - कार्य की स्थिति।
- जॉबआर्ग्स - प्रशिक्षण कार्य बनाने के लिए आवश्यक अन्य तर्क, जैसे कि Amazon S3 में इनपुट पथ, प्रशिक्षण छवि URI, और बहुत कुछ। प्रशिक्षण कार्य सृजित करने के लिए आवश्यक मापदंडों की पूरी सूची के लिए, देखें प्रशिक्षण कार्य बनाएं.
मुख्य तर्क के लिए लैम्ब्डा
हम तीन . का उपयोग करते हैं कंटेनर आधारित लैम्ब्डा कार्य वर्कफ़्लो को व्यवस्थित करने के लिए कार्य करता है:
- नौकरी जमा करें - यह फ़ंक्शन वैज्ञानिकों द्वारा तब लागू किया जाता है जब उन्हें नई नौकरियां शुरू करने की आवश्यकता होती है। यह सादगी के लिए एक एपीआई के रूप में कार्य करता है। आप इसके साथ सामने भी कर सकते हैं अमेज़ॅन एपीआई गेटवे, यदि ज़रूरत हो तो। यह फ़ंक्शन DynamoDB तालिका में नौकरियों को पंजीकृत करता है।
- जॉब लॉन्च करें - यह फ़ंक्शन समय-समय पर पुनर्प्राप्त करता है
New
DynamoDB तालिका से नौकरियां और उन्हें SageMaker का उपयोग करके लॉन्च करता है प्रशिक्षण कार्य बनाएं आज्ञा। यह क्षणिक विफलताओं पर पुनः प्रयास करता है, जैसेResourceLimitExceeded
औरCapacityError
, प्रणाली में लचीलापन साधन करने के लिए। यह तब नौकरी की स्थिति को अपडेट करता है:Launched
orFailed
सफलता पर निर्भर करता है। - मॉनिटर जॉब्स - यह फ़ंक्शन समय-समय पर का उपयोग करके नौकरी की प्रगति पर नज़र रखता है वर्णन प्रशिक्षण नौकरी आदेश देता है, और तदनुसार डायनेमोडीबी तालिका को अद्यतन करता है। यह मतदान
Failed
मेटाडेटा से नौकरियां और मूल्यांकन करता है कि क्या उन्हें फिर से सबमिट किया जाना चाहिए या अंतिम रूप से विफल के रूप में चिह्नित किया जाना चाहिए। यह वैज्ञानिकों को अधिसूचना संदेश भी प्रकाशित करता है जब उनकी नौकरी एक टर्मिनल स्थिति में पहुंच जाती है।
शेड्यूलिंग के लिए EventBridge
हम शेड्यूल पर लॉन्च जॉब्स और मॉनिटर जॉब्स लैम्ब्डा फ़ंक्शन चलाने के लिए EventBridge का उपयोग करते हैं। अधिक जानकारी के लिए देखें ट्यूटोरियल: EventBridge का उपयोग करके AWS लैम्ब्डा फ़ंक्शन शेड्यूल करें.
वैकल्पिक रूप से, आप उपयोग कर सकते हैं Amazon DynamoDB धाराएँ ट्रिगर्स के लिए। अधिक जानकारी के लिए देखें डायनमोबी स्ट्रीम्स और AWS लैंबडा ट्रिगर करता है.
अमेज़ॅन एसएनएस के साथ सूचनाएं
हमारे वैज्ञानिक हैं अमेज़ॅन एसएनएस का उपयोग करके ईमेल द्वारा अधिसूचित जब उनकी नौकरी एक टर्मिनल स्थिति में पहुंच जाती है (Failed
अधिकतम संख्या में पुनर्प्रयासों के बाद), Completed
या, Stopped
.
निष्कर्ष
इस पोस्ट में, हमने साझा किया कि कैसे अमेज़ॅन सर्च एमएल मॉडल प्रशिक्षण वर्कलोड को शेड्यूल करके और क्षमता की कमी या एल्गोरिदम त्रुटियों पर उन्हें पुनः प्रयास करके लचीलापन जोड़ता है। हमने पूरे वर्कफ़्लो को व्यवस्थित करने के लिए एक केंद्रीय मेटाडेटा स्टोर के रूप में डायनेमोडीबी तालिका के साथ लैम्ब्डा फ़ंक्शंस का उपयोग किया।
इस तरह की शेड्यूलिंग प्रणाली वैज्ञानिकों को अपनी नौकरी जमा करने और उनके बारे में भूलने की अनुमति देती है। यह समय बचाता है और उन्हें बेहतर मॉडल लिखने पर ध्यान केंद्रित करने की अनुमति देता है।
अपने सीखने में और आगे जाने के लिए, आप जा सकते हैं बहुत बढ़िया सेजमेकर और सेजमेकर के साथ काम करने के लिए आवश्यक सभी प्रासंगिक और अप-टू-डेट संसाधनों को एक ही स्थान पर खोजें।
लेखक के बारे में
लुओचाओ वांगो अमेज़न सर्च में सॉफ्टवेयर इंजीनियर हैं। वह मशीन लर्निंग अनुप्रयोगों के लिए वैज्ञानिक नवाचार की गति को तेज करने के लिए क्लाउड पर स्केलेबल वितरित सिस्टम और ऑटोमेशन टूलिंग पर ध्यान केंद्रित करता है।
ईशान भट्ट Amazon Prime Video टीम में सॉफ्टवेयर इंजीनियर हैं। वह मुख्य रूप से एमएलओपीएस क्षेत्र में काम करता है और उसके पास एमेजॉन सेजमेकर का उपयोग करते हुए पिछले 4 वर्षों से एमएलओपीएस उत्पादों के निर्माण का अनुभव है।
अभिनंदन पटनायक अमेज़न सर्च में सीनियर सॉफ्टवेयर इंजीनियर हैं। वह स्केलेबल डिस्ट्रीब्यूटेड डीप लर्निंग ट्रेनिंग और रियल टाइम इंट्रेंस के लिए बिल्डिंग सिस्टम और टूलिंग पर ध्यान केंद्रित करता है।
ईमान एलनाहरवी अमेज़ॅन सर्च में एक प्रिंसिपल सॉफ्टवेयर इंजीनियर है, जो मशीन लर्निंग एक्सेलेरेशन, स्केलिंग और ऑटोमेशन के प्रयासों का नेतृत्व करता है। उनकी विशेषज्ञता मशीन लर्निंग, डिस्ट्रीब्यूटेड सिस्टम्स और वैयक्तिकरण सहित कई क्षेत्रों में फैली हुई है।
सोफियन हमीटी AWS / ML विशेषज्ञ समाधान आर्किटेक्ट AWS में है। वह उद्योगों में ग्राहकों को उनके एआई / एमएल यात्रा में तेजी लाने और एंड-टू-एंड मशीन लर्निंग समाधान के संचालन में मदद करता है।
डॉ। रोमी दत्ता अमेज़ॅन सेजमेकर टीम में उत्पाद प्रबंधन के एक वरिष्ठ प्रबंधक हैं जो प्रशिक्षण, प्रसंस्करण और फीचर स्टोर के लिए जिम्मेदार हैं। सेजमेकर, एस4 और आईओटी में कई उत्पाद प्रबंधन नेतृत्व भूमिकाएं निभाते हुए, वह 3 वर्षों से अधिक समय से एडब्ल्यूएस में हैं। एडब्ल्यूएस से पहले उन्होंने आईबीएम, टेक्सास इंस्ट्रूमेंट्स और एनवीडिया में विभिन्न उत्पाद प्रबंधन, इंजीनियरिंग और परिचालन नेतृत्व भूमिकाओं में काम किया। उन्होंने एमएस और पीएच.डी. ऑस्टिन में टेक्सास विश्वविद्यालय से इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग में, और शिकागो विश्वविद्यालय बूथ स्कूल ऑफ बिजनेस से एमबीए।
RJ सर्च M5 टीम में एक इंजीनियर है, जो प्रशिक्षण और अनुमान के लिए बड़े पैमाने पर डीप लर्निंग सिस्टम बनाने के प्रयासों का नेतृत्व कर रहा है। काम के बाहर वह भोजन के विभिन्न व्यंजनों की खोज करता है और रैकेट खेल खेलता है।
- उन्नत (300)
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़ॅन सैजमेकर ऑटोपायलट
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट