Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ।

अमेज़ॅन सर्च कैसे अमेज़ॅन सेजमेकर के साथ बड़े पैमाने पर, लचीला मशीन लर्निंग प्रोजेक्ट चलाता है

यदि आपने amazon.com पर खरीदने के लिए कोई आइटम खोजा है, तो आपने Amazon Search सेवाओं का उपयोग किया है। Amazon Search में, हम दुनिया भर में अपने ग्राहकों के लिए खोज और खोज अनुभव के लिए ज़िम्मेदार हैं। पृष्ठभूमि में, हम अपने उत्पादों की विश्वव्यापी सूची को अनुक्रमित करते हैं, अत्यधिक स्केलेबल एडब्ल्यूएस बेड़े को तैनात करते हैं, और प्रत्येक ग्राहक की क्वेरी के लिए प्रासंगिक और दिलचस्प उत्पादों से मेल खाने के लिए उन्नत मशीन लर्निंग (एमएल) का उपयोग करते हैं।

खोज परिणामों की गुणवत्ता में सुधार के लिए हमारे वैज्ञानिक नियमित रूप से हजारों एमएल मॉडल को प्रशिक्षित करते हैं। बड़े पैमाने पर प्रयोग का समर्थन करना अपनी चुनौतियों को प्रस्तुत करता है, खासकर जब इन एमएल मॉडलों को प्रशिक्षित करने वाले वैज्ञानिकों की उत्पादकता में सुधार की बात आती है।

इस पोस्ट में, हम साझा करते हैं कि हमने कैसे एक प्रबंधन प्रणाली का निर्माण किया अमेज़न SageMaker प्रशिक्षण नौकरियां, हमारे वैज्ञानिकों को हजारों प्रयोगों को आग लगाने और भूलने की इजाजत देता है और आवश्यकता होने पर अधिसूचित किया जाता है। वे अब उच्च-मूल्य वाले कार्यों और एल्गोरिथम त्रुटियों को हल करने पर ध्यान केंद्रित कर सकते हैं, जिससे उनका 60% समय बचता है।

चुनौती

अमेज़ॅन सर्च में, हमारे वैज्ञानिक सेजमेकर पर कई एमएल मॉडल प्रशिक्षण नौकरियों का प्रयोग करके और चलाकर सूचना पुनर्प्राप्ति समस्याओं का समाधान करते हैं। हमारी टीम के नवाचारों को बनाए रखने के लिए, हमारे मॉडल की जटिलता और प्रशिक्षण नौकरियों की संख्या समय के साथ बढ़ी है। सेजमेकर प्रशिक्षण नौकरियां हमें बुनियादी ढांचे के प्रबंधन की आवश्यकता के बिना, उन मॉडलों को बड़े पैमाने पर प्रशिक्षित और ट्यून करने के लिए समय और लागत को कम करने की अनुमति देती हैं।

इस तरह के बड़े पैमाने पर एमएल परियोजनाओं में सब कुछ की तरह, विभिन्न कारकों के कारण प्रशिक्षण कार्य विफल हो सकते हैं। यह पोस्ट एल्गोरिथम त्रुटियों के कारण क्षमता की कमी और विफलताओं पर केंद्रित है।

हमने क्षमता की अनुपलब्धता या एल्गोरिथम त्रुटियों के कारण नौकरी के विफल होने की संभावना को सहन करने और कम करने के लिए एक नौकरी प्रबंधन प्रणाली के साथ एक वास्तुकला तैयार की है। यह वैज्ञानिकों को हजारों प्रशिक्षण नौकरियों को भूलने और भूलने की अनुमति देता है, स्वचालित रूप से क्षणिक विफलता पर उन्हें पुनः प्रयास करता है, और यदि आवश्यक हो तो सफलता या विफलता की सूचना प्राप्त करता है।

समाधान अवलोकन

निम्नलिखित समाधान आरेख में, हम अपने समाधान की मूल इकाई के रूप में सेजमेकर प्रशिक्षण नौकरियों का उपयोग करते हैं। यही है, नौकरी एमएल मॉडल के एंड-टू-एंड प्रशिक्षण का प्रतिनिधित्व करती है।

इस समाधान का उच्च-स्तरीय कार्यप्रवाह इस प्रकार है:

  1. सिस्टम में नई नौकरी प्रस्तुत करने के लिए वैज्ञानिक एक एपीआई का आह्वान करते हैं।
  2. नौकरी के साथ पंजीकृत है New मेटाडेटा स्टोर में स्थिति।
  3. एक नौकरी अनुसूचक अतुल्यकालिक रूप से पुनर्प्राप्त करता है New मेटाडेटा स्टोर से नौकरियां, उनके इनपुट का विश्लेषण करती हैं, और प्रत्येक के लिए सेजमेकर प्रशिक्षण कार्य शुरू करने का प्रयास करती हैं। उनकी स्थिति बदल जाती है Launched or Failed सफलता पर निर्भर करता है।
  4. एक मॉनीटर नियमित अंतराल पर कार्य की प्रगति की जाँच करता है, और उनकी रिपोर्ट करता है Completed, Failedया, InProgress मेटाडेटा स्टोर में राज्य।
  5. रिपोर्ट करने के लिए एक नोटिफ़ायर ट्रिगर किया जाता है Completed और Failed वैज्ञानिकों को नौकरी।

मेटाडेटा स्टोर में नौकरी के इतिहास को बनाए रखने से हमारी टीम को प्रवृत्ति विश्लेषण करने और परियोजना की प्रगति की निगरानी करने की भी अनुमति मिलती है।

यह जॉब शेड्यूलिंग समाधान निम्न के आधार पर शिथिल युग्मित सर्वर रहित घटकों का उपयोग करता है: AWS लाम्बा, अमेज़ॅन डायनेमोडीबी, अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस), और अमेज़न EventBridge. यह क्षैतिज मापनीयता सुनिश्चित करता है, जिससे हमारे वैज्ञानिकों को न्यूनतम संचालन प्रयास के साथ हजारों नौकरियां शुरू करने की अनुमति मिलती है। निम्न आरेख सर्वर रहित वास्तुकला को दर्शाता है।

हमारे समाधान का आर्किटेक्चर सिंहावलोकन

निम्नलिखित अनुभागों में, हम प्रत्येक सेवा और उसके घटकों के बारे में अधिक विस्तार से जानेंगे।

डायनेमोडीबी नौकरी के लिए मेटाडेटा स्टोर के रूप में चलता है

DynamoDB के उपयोग में आसानी और मापनीयता ने इसे DynamoDB तालिका में जॉब मेटाडेटा को बनाए रखना एक स्वाभाविक विकल्प बना दिया है। यह समाधान वैज्ञानिकों द्वारा प्रस्तुत नौकरियों की कई विशेषताओं को संग्रहीत करता है, जिससे प्रगति पर नज़र रखने और वर्कफ़्लो ऑर्केस्ट्रेशन में मदद मिलती है। सबसे महत्वपूर्ण गुण इस प्रकार हैं:

  • नौकरी आईडी - एक यूनिक जॉब आईडी। यह स्वत: उत्पन्न या वैज्ञानिक द्वारा प्रदान किया जा सकता है।
  • कार्य स्थिति - कार्य की स्थिति।
  • जॉबआर्ग्स - प्रशिक्षण कार्य बनाने के लिए आवश्यक अन्य तर्क, जैसे कि Amazon S3 में इनपुट पथ, प्रशिक्षण छवि URI, और बहुत कुछ। प्रशिक्षण कार्य सृजित करने के लिए आवश्यक मापदंडों की पूरी सूची के लिए, देखें प्रशिक्षण कार्य बनाएं.

मुख्य तर्क के लिए लैम्ब्डा

हम तीन . का उपयोग करते हैं कंटेनर आधारित लैम्ब्डा कार्य वर्कफ़्लो को व्यवस्थित करने के लिए कार्य करता है:

  • नौकरी जमा करें - यह फ़ंक्शन वैज्ञानिकों द्वारा तब लागू किया जाता है जब उन्हें नई नौकरियां शुरू करने की आवश्यकता होती है। यह सादगी के लिए एक एपीआई के रूप में कार्य करता है। आप इसके साथ सामने भी कर सकते हैं अमेज़ॅन एपीआई गेटवे, यदि ज़रूरत हो तो। यह फ़ंक्शन DynamoDB तालिका में नौकरियों को पंजीकृत करता है।
  • जॉब लॉन्च करें - यह फ़ंक्शन समय-समय पर पुनर्प्राप्त करता है New DynamoDB तालिका से नौकरियां और उन्हें SageMaker का उपयोग करके लॉन्च करता है प्रशिक्षण कार्य बनाएं आज्ञा। यह क्षणिक विफलताओं पर पुनः प्रयास करता है, जैसे ResourceLimitExceeded और CapacityError, प्रणाली में लचीलापन साधन करने के लिए। यह तब नौकरी की स्थिति को अपडेट करता है: Launched or Failed सफलता पर निर्भर करता है।
  • मॉनिटर जॉब्स - यह फ़ंक्शन समय-समय पर का उपयोग करके नौकरी की प्रगति पर नज़र रखता है वर्णन प्रशिक्षण नौकरी आदेश देता है, और तदनुसार डायनेमोडीबी तालिका को अद्यतन करता है। यह मतदान Failed मेटाडेटा से नौकरियां और मूल्यांकन करता है कि क्या उन्हें फिर से सबमिट किया जाना चाहिए या अंतिम रूप से विफल के रूप में चिह्नित किया जाना चाहिए। यह वैज्ञानिकों को अधिसूचना संदेश भी प्रकाशित करता है जब उनकी नौकरी एक टर्मिनल स्थिति में पहुंच जाती है।

शेड्यूलिंग के लिए EventBridge

हम शेड्यूल पर लॉन्च जॉब्स और मॉनिटर जॉब्स लैम्ब्डा फ़ंक्शन चलाने के लिए EventBridge का उपयोग करते हैं। अधिक जानकारी के लिए देखें ट्यूटोरियल: EventBridge का उपयोग करके AWS लैम्ब्डा फ़ंक्शन शेड्यूल करें.

वैकल्पिक रूप से, आप उपयोग कर सकते हैं Amazon DynamoDB धाराएँ ट्रिगर्स के लिए। अधिक जानकारी के लिए देखें डायनमोबी स्ट्रीम्स और AWS लैंबडा ट्रिगर करता है.

अमेज़ॅन एसएनएस के साथ सूचनाएं

हमारे वैज्ञानिक हैं अमेज़ॅन एसएनएस का उपयोग करके ईमेल द्वारा अधिसूचित जब उनकी नौकरी एक टर्मिनल स्थिति में पहुंच जाती है (Failed अधिकतम संख्या में पुनर्प्रयासों के बाद), Completedया, Stopped.

निष्कर्ष

इस पोस्ट में, हमने साझा किया कि कैसे अमेज़ॅन सर्च एमएल मॉडल प्रशिक्षण वर्कलोड को शेड्यूल करके और क्षमता की कमी या एल्गोरिदम त्रुटियों पर उन्हें पुनः प्रयास करके लचीलापन जोड़ता है। हमने पूरे वर्कफ़्लो को व्यवस्थित करने के लिए एक केंद्रीय मेटाडेटा स्टोर के रूप में डायनेमोडीबी तालिका के साथ लैम्ब्डा फ़ंक्शंस का उपयोग किया।

इस तरह की शेड्यूलिंग प्रणाली वैज्ञानिकों को अपनी नौकरी जमा करने और उनके बारे में भूलने की अनुमति देती है। यह समय बचाता है और उन्हें बेहतर मॉडल लिखने पर ध्यान केंद्रित करने की अनुमति देता है।

अपने सीखने में और आगे जाने के लिए, आप जा सकते हैं बहुत बढ़िया सेजमेकर और सेजमेकर के साथ काम करने के लिए आवश्यक सभी प्रासंगिक और अप-टू-डेट संसाधनों को एक ही स्थान पर खोजें।


लेखक के बारे में

Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ।लुओचाओ वांगो अमेज़न सर्च में सॉफ्टवेयर इंजीनियर हैं। वह मशीन लर्निंग अनुप्रयोगों के लिए वैज्ञानिक नवाचार की गति को तेज करने के लिए क्लाउड पर स्केलेबल वितरित सिस्टम और ऑटोमेशन टूलिंग पर ध्यान केंद्रित करता है।

Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ।ईशान भट्ट Amazon Prime Video टीम में सॉफ्टवेयर इंजीनियर हैं। वह मुख्य रूप से एमएलओपीएस क्षेत्र में काम करता है और उसके पास एमेजॉन सेजमेकर का उपयोग करते हुए पिछले 4 वर्षों से एमएलओपीएस उत्पादों के निर्माण का अनुभव है।

Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ।अभिनंदन पटनायक अमेज़न सर्च में सीनियर सॉफ्टवेयर इंजीनियर हैं। वह स्केलेबल डिस्ट्रीब्यूटेड डीप लर्निंग ट्रेनिंग और रियल टाइम इंट्रेंस के लिए बिल्डिंग सिस्टम और टूलिंग पर ध्यान केंद्रित करता है।

Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ।ईमान एलनाहरवी अमेज़ॅन सर्च में एक प्रिंसिपल सॉफ्टवेयर इंजीनियर है, जो मशीन लर्निंग एक्सेलेरेशन, स्केलिंग और ऑटोमेशन के प्रयासों का नेतृत्व करता है। उनकी विशेषज्ञता मशीन लर्निंग, डिस्ट्रीब्यूटेड सिस्टम्स और वैयक्तिकरण सहित कई क्षेत्रों में फैली हुई है।

Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ।सोफियन हमीटी AWS / ML विशेषज्ञ समाधान आर्किटेक्ट AWS में है। वह उद्योगों में ग्राहकों को उनके एआई / एमएल यात्रा में तेजी लाने और एंड-टू-एंड मशीन लर्निंग समाधान के संचालन में मदद करता है।

रोमी दत्ताडॉ। रोमी दत्ता  अमेज़ॅन सेजमेकर टीम में उत्पाद प्रबंधन के एक वरिष्ठ प्रबंधक हैं जो प्रशिक्षण, प्रसंस्करण और फीचर स्टोर के लिए जिम्मेदार हैं। सेजमेकर, एस4 और आईओटी में कई उत्पाद प्रबंधन नेतृत्व भूमिकाएं निभाते हुए, वह 3 वर्षों से अधिक समय से एडब्ल्यूएस में हैं। एडब्ल्यूएस से पहले उन्होंने आईबीएम, टेक्सास इंस्ट्रूमेंट्स और एनवीडिया में विभिन्न उत्पाद प्रबंधन, इंजीनियरिंग और परिचालन नेतृत्व भूमिकाओं में काम किया। उन्होंने एमएस और पीएच.डी. ऑस्टिन में टेक्सास विश्वविद्यालय से इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग में, और शिकागो विश्वविद्यालय बूथ स्कूल ऑफ बिजनेस से एमबीए।

Amazon SageMaker PlatoBlockchain Data Intelligence के साथ Amazon Search बड़े पैमाने पर, लचीले मशीन लर्निंग प्रोजेक्ट कैसे चलाता है। लंबवत खोज। ऐ।RJ सर्च M5 टीम में एक इंजीनियर है, जो प्रशिक्षण और अनुमान के लिए बड़े पैमाने पर डीप लर्निंग सिस्टम बनाने के प्रयासों का नेतृत्व कर रहा है। काम के बाहर वह भोजन के विभिन्न व्यंजनों की खोज करता है और रैकेट खेल खेलता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

क्विकसाइट में अमेज़ॅन क्यू बिजनेस और अमेज़ॅन क्यू कर्मचारियों को अधिक डेटा-संचालित होने और कंपनी के ज्ञान का उपयोग करके बेहतर, तेज़ निर्णय लेने का अधिकार देता है | अमेज़न वेब सेवाएँ

स्रोत नोड: 1969885
समय टिकट: अप्रैल 30, 2024