अमेज़ॅन सर्च कैसे अमेज़ॅन सेजमेकर के साथ बड़े पैमाने पर, लचीला मशीन लर्निंग प्रोजेक्ट चलाता है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

यदि आपने amazon.com पर खरीदने के लिए कोई आइटम खोजा है, तो आपने Amazon Search सेवाओं का उपयोग किया है। Amazon Search में, हम दुनिया भर में अपने ग्राहकों के लिए खोज और खोज अनुभव के लिए ज़िम्मेदार हैं। पृष्ठभूमि में, हम अपने उत्पादों की विश्वव्यापी सूची को अनुक्रमित करते हैं, अत्यधिक स्केलेबल एडब्ल्यूएस बेड़े को तैनात करते हैं, और प्रत्येक ग्राहक की क्वेरी के लिए प्रासंगिक और दिलचस्प उत्पादों से मेल खाने के लिए उन्नत मशीन लर्निंग (एमएल) का उपयोग करते हैं।

खोज परिणामों की गुणवत्ता में सुधार के लिए हमारे वैज्ञानिक नियमित रूप से हजारों एमएल मॉडल को प्रशिक्षित करते हैं। बड़े पैमाने पर प्रयोग का समर्थन करना अपनी चुनौतियों को प्रस्तुत करता है, खासकर जब इन एमएल मॉडलों को प्रशिक्षित करने वाले वैज्ञानिकों की उत्पादकता में सुधार की बात आती है।

इस पोस्ट में, हम साझा करते हैं कि हमने कैसे एक प्रबंधन प्रणाली का निर्माण किया अमेज़न SageMaker प्रशिक्षण नौकरियां, हमारे वैज्ञानिकों को हजारों प्रयोगों को आग लगाने और भूलने की इजाजत देता है और आवश्यकता होने पर अधिसूचित किया जाता है। वे अब उच्च-मूल्य वाले कार्यों और एल्गोरिथम त्रुटियों को हल करने पर ध्यान केंद्रित कर सकते हैं, जिससे उनका 60% समय बचता है।

चुनौती

अमेज़ॅन सर्च में, हमारे वैज्ञानिक सेजमेकर पर कई एमएल मॉडल प्रशिक्षण नौकरियों का प्रयोग करके और चलाकर सूचना पुनर्प्राप्ति समस्याओं का समाधान करते हैं। हमारी टीम के नवाचारों को बनाए रखने के लिए, हमारे मॉडल की जटिलता और प्रशिक्षण नौकरियों की संख्या समय के साथ बढ़ी है। सेजमेकर प्रशिक्षण नौकरियां हमें बुनियादी ढांचे के प्रबंधन की आवश्यकता के बिना, उन मॉडलों को बड़े पैमाने पर प्रशिक्षित और ट्यून करने के लिए समय और लागत को कम करने की अनुमति देती हैं।

इस तरह के बड़े पैमाने पर एमएल परियोजनाओं में सब कुछ की तरह, विभिन्न कारकों के कारण प्रशिक्षण कार्य विफल हो सकते हैं। यह पोस्ट एल्गोरिथम त्रुटियों के कारण क्षमता की कमी और विफलताओं पर केंद्रित है।

हमने क्षमता की अनुपलब्धता या एल्गोरिथम त्रुटियों के कारण नौकरी के विफल होने की संभावना को सहन करने और कम करने के लिए एक नौकरी प्रबंधन प्रणाली के साथ एक वास्तुकला तैयार की है। यह वैज्ञानिकों को हजारों प्रशिक्षण नौकरियों को भूलने और भूलने की अनुमति देता है, स्वचालित रूप से क्षणिक विफलता पर उन्हें पुनः प्रयास करता है, और यदि आवश्यक हो तो सफलता या विफलता की सूचना प्राप्त करता है।

समाधान अवलोकन

निम्नलिखित समाधान आरेख में, हम अपने समाधान की मूल इकाई के रूप में सेजमेकर प्रशिक्षण नौकरियों का उपयोग करते हैं। यही है, नौकरी एमएल मॉडल के एंड-टू-एंड प्रशिक्षण का प्रतिनिधित्व करती है।

इस समाधान का उच्च-स्तरीय कार्यप्रवाह इस प्रकार है:

सिस्टम में नई नौकरी प्रस्तुत करने के लिए वैज्ञानिक एक एपीआई का आह्वान करते हैं।
नौकरी के साथ पंजीकृत है New मेटाडेटा स्टोर में स्थिति।
एक नौकरी अनुसूचक अतुल्यकालिक रूप से पुनर्प्राप्त करता है New मेटाडेटा स्टोर से नौकरियां, उनके इनपुट का विश्लेषण करती हैं, और प्रत्येक के लिए सेजमेकर प्रशिक्षण कार्य शुरू करने का प्रयास करती हैं। उनकी स्थिति बदल जाती है Launched or Failed सफलता पर निर्भर करता है।
एक मॉनीटर नियमित अंतराल पर कार्य की प्रगति की जाँच करता है, और उनकी रिपोर्ट करता है Completed, Failedया, InProgress मेटाडेटा स्टोर में राज्य।
रिपोर्ट करने के लिए एक नोटिफ़ायर ट्रिगर किया जाता है Completed और Failed वैज्ञानिकों को नौकरी।

मेटाडेटा स्टोर में नौकरी के इतिहास को बनाए रखने से हमारी टीम को प्रवृत्ति विश्लेषण करने और परियोजना की प्रगति की निगरानी करने की भी अनुमति मिलती है।

यह जॉब शेड्यूलिंग समाधान निम्न के आधार पर शिथिल युग्मित सर्वर रहित घटकों का उपयोग करता है: AWS लाम्बा, अमेज़ॅन डायनेमोडीबी, अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस), और अमेज़न EventBridge. यह क्षैतिज मापनीयता सुनिश्चित करता है, जिससे हमारे वैज्ञानिकों को न्यूनतम संचालन प्रयास के साथ हजारों नौकरियां शुरू करने की अनुमति मिलती है। निम्न आरेख सर्वर रहित वास्तुकला को दर्शाता है।

हमारे समाधान का आर्किटेक्चर सिंहावलोकन

निम्नलिखित अनुभागों में, हम प्रत्येक सेवा और उसके घटकों के बारे में अधिक विस्तार से जानेंगे।

डायनेमोडीबी नौकरी के लिए मेटाडेटा स्टोर के रूप में चलता है

DynamoDB के उपयोग में आसानी और मापनीयता ने इसे DynamoDB तालिका में जॉब मेटाडेटा को बनाए रखना एक स्वाभाविक विकल्प बना दिया है। यह समाधान वैज्ञानिकों द्वारा प्रस्तुत नौकरियों की कई विशेषताओं को संग्रहीत करता है, जिससे प्रगति पर नज़र रखने और वर्कफ़्लो ऑर्केस्ट्रेशन में मदद मिलती है। सबसे महत्वपूर्ण गुण इस प्रकार हैं:

नौकरी आईडी - एक यूनिक जॉब आईडी। यह स्वत: उत्पन्न या वैज्ञानिक द्वारा प्रदान किया जा सकता है।
कार्य स्थिति - कार्य की स्थिति।
जॉबआर्ग्स - प्रशिक्षण कार्य बनाने के लिए आवश्यक अन्य तर्क, जैसे कि Amazon S3 में इनपुट पथ, प्रशिक्षण छवि URI, और बहुत कुछ। प्रशिक्षण कार्य सृजित करने के लिए आवश्यक मापदंडों की पूरी सूची के लिए, देखें प्रशिक्षण कार्य बनाएं.

मुख्य तर्क के लिए लैम्ब्डा

हम तीन . का उपयोग करते हैं कंटेनर आधारित लैम्ब्डा कार्य वर्कफ़्लो को व्यवस्थित करने के लिए कार्य करता है:

नौकरी जमा करें - यह फ़ंक्शन वैज्ञानिकों द्वारा तब लागू किया जाता है जब उन्हें नई नौकरियां शुरू करने की आवश्यकता होती है। यह सादगी के लिए एक एपीआई के रूप में कार्य करता है। आप इसके साथ सामने भी कर सकते हैं अमेज़ॅन एपीआई गेटवे, यदि ज़रूरत हो तो। यह फ़ंक्शन DynamoDB तालिका में नौकरियों को पंजीकृत करता है।
जॉब लॉन्च करें - यह फ़ंक्शन समय-समय पर पुनर्प्राप्त करता है New DynamoDB तालिका से नौकरियां और उन्हें SageMaker का उपयोग करके लॉन्च करता है प्रशिक्षण कार्य बनाएं आज्ञा। यह क्षणिक विफलताओं पर पुनः प्रयास करता है, जैसे ResourceLimitExceeded और CapacityError, प्रणाली में लचीलापन साधन करने के लिए। यह तब नौकरी की स्थिति को अपडेट करता है: Launched or Failed सफलता पर निर्भर करता है।
मॉनिटर जॉब्स - यह फ़ंक्शन समय-समय पर का उपयोग करके नौकरी की प्रगति पर नज़र रखता है वर्णन प्रशिक्षण नौकरी आदेश देता है, और तदनुसार डायनेमोडीबी तालिका को अद्यतन करता है। यह मतदान Failed मेटाडेटा से नौकरियां और मूल्यांकन करता है कि क्या उन्हें फिर से सबमिट किया जाना चाहिए या अंतिम रूप से विफल के रूप में चिह्नित किया जाना चाहिए। यह वैज्ञानिकों को अधिसूचना संदेश भी प्रकाशित करता है जब उनकी नौकरी एक टर्मिनल स्थिति में पहुंच जाती है।

शेड्यूलिंग के लिए EventBridge

हम शेड्यूल पर लॉन्च जॉब्स और मॉनिटर जॉब्स लैम्ब्डा फ़ंक्शन चलाने के लिए EventBridge का उपयोग करते हैं। अधिक जानकारी के लिए देखें ट्यूटोरियल: EventBridge का उपयोग करके AWS लैम्ब्डा फ़ंक्शन शेड्यूल करें.

वैकल्पिक रूप से, आप उपयोग कर सकते हैं Amazon DynamoDB धाराएँ ट्रिगर्स के लिए। अधिक जानकारी के लिए देखें डायनमोबी स्ट्रीम्स और AWS लैंबडा ट्रिगर करता है.

अमेज़ॅन एसएनएस के साथ सूचनाएं

हमारे वैज्ञानिक हैं अमेज़ॅन एसएनएस का उपयोग करके ईमेल द्वारा अधिसूचित जब उनकी नौकरी एक टर्मिनल स्थिति में पहुंच जाती है (Failed अधिकतम संख्या में पुनर्प्रयासों के बाद), Completedया, Stopped.

निष्कर्ष

इस पोस्ट में, हमने साझा किया कि कैसे अमेज़ॅन सर्च एमएल मॉडल प्रशिक्षण वर्कलोड को शेड्यूल करके और क्षमता की कमी या एल्गोरिदम त्रुटियों पर उन्हें पुनः प्रयास करके लचीलापन जोड़ता है। हमने पूरे वर्कफ़्लो को व्यवस्थित करने के लिए एक केंद्रीय मेटाडेटा स्टोर के रूप में डायनेमोडीबी तालिका के साथ लैम्ब्डा फ़ंक्शंस का उपयोग किया।

इस तरह की शेड्यूलिंग प्रणाली वैज्ञानिकों को अपनी नौकरी जमा करने और उनके बारे में भूलने की अनुमति देती है। यह समय बचाता है और उन्हें बेहतर मॉडल लिखने पर ध्यान केंद्रित करने की अनुमति देता है।

अपने सीखने में और आगे जाने के लिए, आप जा सकते हैं बहुत बढ़िया सेजमेकर और सेजमेकर के साथ काम करने के लिए आवश्यक सभी प्रासंगिक और अप-टू-डेट संसाधनों को एक ही स्थान पर खोजें।

लेखक के बारे में

लुओचाओ वांगो अमेज़न सर्च में सॉफ्टवेयर इंजीनियर हैं। वह मशीन लर्निंग अनुप्रयोगों के लिए वैज्ञानिक नवाचार की गति को तेज करने के लिए क्लाउड पर स्केलेबल वितरित सिस्टम और ऑटोमेशन टूलिंग पर ध्यान केंद्रित करता है।

ईशान भट्ट Amazon Prime Video टीम में सॉफ्टवेयर इंजीनियर हैं। वह मुख्य रूप से एमएलओपीएस क्षेत्र में काम करता है और उसके पास एमेजॉन सेजमेकर का उपयोग करते हुए पिछले 4 वर्षों से एमएलओपीएस उत्पादों के निर्माण का अनुभव है।

अभिनंदन पटनायक अमेज़न सर्च में सीनियर सॉफ्टवेयर इंजीनियर हैं। वह स्केलेबल डिस्ट्रीब्यूटेड डीप लर्निंग ट्रेनिंग और रियल टाइम इंट्रेंस के लिए बिल्डिंग सिस्टम और टूलिंग पर ध्यान केंद्रित करता है।

ईमान एलनाहरवी अमेज़ॅन सर्च में एक प्रिंसिपल सॉफ्टवेयर इंजीनियर है, जो मशीन लर्निंग एक्सेलेरेशन, स्केलिंग और ऑटोमेशन के प्रयासों का नेतृत्व करता है। उनकी विशेषज्ञता मशीन लर्निंग, डिस्ट्रीब्यूटेड सिस्टम्स और वैयक्तिकरण सहित कई क्षेत्रों में फैली हुई है।

Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ। सोफियन हमीटी AWS / ML विशेषज्ञ समाधान आर्किटेक्ट AWS में है। वह उद्योगों में ग्राहकों को उनके एआई / एमएल यात्रा में तेजी लाने और एंड-टू-एंड मशीन लर्निंग समाधान के संचालन में मदद करता है।

डॉ। रोमी दत्ता अमेज़ॅन सेजमेकर टीम में उत्पाद प्रबंधन के एक वरिष्ठ प्रबंधक हैं जो प्रशिक्षण, प्रसंस्करण और फीचर स्टोर के लिए जिम्मेदार हैं। सेजमेकर, एस4 और आईओटी में कई उत्पाद प्रबंधन नेतृत्व भूमिकाएं निभाते हुए, वह 3 वर्षों से अधिक समय से एडब्ल्यूएस में हैं। एडब्ल्यूएस से पहले उन्होंने आईबीएम, टेक्सास इंस्ट्रूमेंट्स और एनवीडिया में विभिन्न उत्पाद प्रबंधन, इंजीनियरिंग और परिचालन नेतृत्व भूमिकाओं में काम किया। उन्होंने एमएस और पीएच.डी. ऑस्टिन में टेक्सास विश्वविद्यालय से इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग में, और शिकागो विश्वविद्यालय बूथ स्कूल ऑफ बिजनेस से एमबीए।

RJ सर्च M5 टीम में एक इंजीनियर है, जो प्रशिक्षण और अनुमान के लिए बड़े पैमाने पर डीप लर्निंग सिस्टम बनाने के प्रयासों का नेतृत्व कर रहा है। काम के बाहर वह भोजन के विभिन्न व्यंजनों की खोज करता है और रैकेट खेल खेलता है।

समय टिकट: अक्टूबर 13अक्टूबर 14

समय टिकट: नवम्बर 6, 2023

अमेज़ॅन सर्च कैसे अमेज़ॅन सेजमेकर के साथ बड़े पैमाने पर, लचीला मशीन लर्निंग प्रोजेक्ट चलाता है

प्लेटो द्वारा पुनर्प्रकाशित

चुनौती

समाधान अवलोकन

डायनेमोडीबी नौकरी के लिए मेटाडेटा स्टोर के रूप में चलता है

मुख्य तर्क के लिए लैम्ब्डा

शेड्यूलिंग के लिए EventBridge

अमेज़ॅन एसएनएस के साथ सूचनाएं

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon SageMaker Serverless Inference का उपयोग करके हगिंग फेस ट्रांसफॉर्मर मॉडल होस्ट करें

Amazon SageMaker डेटा समानांतर लाइब्रेरी के साथ तेज़ प्रशिक्षण सक्षम करें | अमेज़न वेब सेवाएँ

वैयक्तिकृत मशीन लर्निंग और Amazon SageMaker का उपयोग करके वाहन में आराम प्राप्त करें

सुरक्षित, रीयल-टाइम अनुमान लगाने के लिए Amazon SageMaker एंडपॉइंट के साथ पूरी तरह से होमोमॉर्फिक एन्क्रिप्शन सक्षम करें

DJLServing और DeepSpeed मॉडल के समानांतर अनुमान का उपयोग करके Amazon SageMaker पर बड़े मॉडल परिनियोजित करें

Amazon SageMaker JumpStart में व्याख्यात्मक नोटबुक

Amazon Kendra के लिए अपडेटेड Microsoft OneDrive कनेक्टर (V2) की घोषणा

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा