यह पोस्ट बुकिंग.कॉम के कोस्टिया कोफ़मैन और जेनी टोकर के साथ सह-लिखित है।
ऑनलाइन यात्रा उद्योग में एक वैश्विक नेता के रूप में, Booking.com अपनी सेवाओं को बढ़ाने और ग्राहकों को अनुरूप और निर्बाध अनुभव प्रदान करने के लिए हमेशा नवीन तरीकों की तलाश कर रहा है। बुकिंग.कॉम की रैंकिंग टीम यह सुनिश्चित करने में महत्वपूर्ण भूमिका निभाती है कि खोज और अनुशंसा एल्गोरिदम उनके उपयोगकर्ताओं के लिए सर्वोत्तम परिणाम देने के लिए अनुकूलित हैं।
अन्य आंतरिक टीमों के साथ इन-हाउस संसाधनों को साझा करते हुए, रैंकिंग टीम मशीन लर्निंग (एमएल) वैज्ञानिकों को अक्सर मॉडल प्रशिक्षण और प्रयोग के लिए संसाधनों तक पहुंचने के लिए लंबे समय तक इंतजार करना पड़ता है - जिससे तेजी से प्रयोग और नवाचार करने की उनकी क्षमता को चुनौती मिलती है। आधुनिक एमएल बुनियादी ढांचे की आवश्यकता को पहचानते हुए, रैंकिंग टीम ने इसकी शक्ति का उपयोग करने की यात्रा शुरू की अमेज़न SageMaker बड़े पैमाने पर एमएल मॉडल बनाने, प्रशिक्षित करने और तैनात करने के लिए।
बुकिंग.कॉम ने सहयोग किया AWS व्यावसायिक सेवाएँ निम्नलिखित सुधारों के माध्यम से बेहतर एमएल मॉडल के लिए समय-समय पर बाजार में तेजी लाने के लिए एक समाधान बनाना:
- प्रशिक्षण और प्रयोग के लिए संसाधनों के लिए प्रतीक्षा समय कम हो गया
- हाइपरपैरामीटर ट्यूनिंग जैसी आवश्यक एमएल क्षमताओं का एकीकरण
- एमएल मॉडल के लिए एक कम विकास चक्र
प्रतीक्षा समय कम होने का मतलब यह होगा कि टीम तेजी से पुनरावृत्ति कर सकती है और मॉडलों के साथ प्रयोग कर सकती है, जिससे बहुत तेज गति से अंतर्दृष्टि प्राप्त हो सकती है। सेजमेकर के ऑन-डिमांड उपलब्ध उदाहरणों का उपयोग करने से प्रतीक्षा समय में दस गुना कमी की जा सकती है। हाइपरपैरामीटर ट्यूनिंग और मॉडल व्याख्या जैसी आवश्यक एमएल क्षमताओं का परिसर में अभाव था। टीम की आधुनिकीकरण यात्रा ने इन सुविधाओं को पेश किया अमेज़ॅन सेजमेकर स्वचालित मॉडल ट्यूनिंग और अमेज़न SageMaker स्पष्ट करें. अंत में, टीम की आकांक्षा कोड में किए गए प्रत्येक परिवर्तन पर तत्काल प्रतिक्रिया प्राप्त करना था, फीडबैक लूप को मिनटों से कम करके एक पल तक कम करना था, और इस तरह एमएल मॉडल के लिए विकास चक्र को कम करना था।
इस पोस्ट में, हम बुकिंग.कॉम पर रैंकिंग टीम द्वारा की गई यात्रा के बारे में विस्तार से बताएंगे क्योंकि उन्होंने अपने एमएल प्रयोग ढांचे को आधुनिक बनाने के लिए सेजमेकर की क्षमताओं का उपयोग किया था। ऐसा करके, उन्होंने न केवल अपनी मौजूदा चुनौतियों पर काबू पाया, बल्कि अपने खोज अनुभव में भी सुधार किया, जिससे अंततः दुनिया भर में लाखों यात्रियों को लाभ हुआ।
आधुनिकीकरण का दृष्टिकोण
रैंकिंग टीम में कई एमएल वैज्ञानिक शामिल हैं, जिनमें से प्रत्येक को अपने स्वयं के मॉडल को ऑफ़लाइन विकसित करने और परीक्षण करने की आवश्यकता है। जब कोई मॉडल ऑफ़लाइन मूल्यांकन के अनुसार सफल माना जाता है, तो इसे उत्पादन ए/बी परीक्षण में ले जाया जा सकता है। यदि यह ऑनलाइन सुधार दिखाता है, तो इसे सभी उपयोगकर्ताओं के लिए तैनात किया जा सकता है।
इस परियोजना का लक्ष्य एमएल वैज्ञानिकों के लिए अनुकूलन को आसानी से चलाने के लिए एक उपयोगकर्ता-अनुकूल वातावरण बनाना था अमेज़ॅन सेजमेकर मॉडल बिल्डिंग पाइपलाइन लंबे और जटिल मॉड्यूल को कोड करने की आवश्यकता के बिना उनकी परिकल्पनाओं का परीक्षण करना।
सामना की गई कई चुनौतियों में से एक AWS पर उपयोग के लिए मौजूदा ऑन-प्रिमाइसेस पाइपलाइन समाधान को अपनाना था। समाधान में दो प्रमुख घटक शामिल थे:
- मौजूदा कोड को संशोधित और विस्तारित करना - हमारे समाधान के पहले भाग में हमारे मौजूदा कोड को AWS बुनियादी ढांचे के साथ संगत बनाने के लिए संशोधन और विस्तार शामिल था। ऑन-प्रिमाइसेस से क्लाउड-आधारित प्रोसेसिंग में सुचारु परिवर्तन सुनिश्चित करने के लिए यह महत्वपूर्ण था।
- ग्राहक पैकेज विकास - एक क्लाइंट पैकेज विकसित किया गया था जो सेजमेकर एपीआई और पहले से मौजूद कोड के चारों ओर एक आवरण के रूप में कार्य करता है। यह पैकेज दोनों को जोड़ता है, जिससे एमएल वैज्ञानिक बिना कोडिंग के एमएल पाइपलाइनों को आसानी से कॉन्फ़िगर और तैनात कर सकते हैं।
सेजमेकर पाइपलाइन कॉन्फ़िगरेशन
अनुकूलनशीलता मॉडल निर्माण पाइपलाइन की कुंजी है, और इसे इसके माध्यम से हासिल किया गया था config.ini
, एक व्यापक कॉन्फ़िगरेशन फ़ाइल। यह फ़ाइल पाइपलाइन के सभी इनपुट और व्यवहार के लिए नियंत्रण केंद्र के रूप में कार्य करती है।
अंदर उपलब्ध कॉन्फ़िगरेशन config.ini
शामिल हैं:
- पाइपलाइन विवरण - व्यवसायी पाइपलाइन का नाम परिभाषित कर सकता है, निर्दिष्ट कर सकता है कि कौन से चरण चलने चाहिए, यह निर्धारित कर सकता है कि आउटपुट कहाँ संग्रहीत किया जाना चाहिए अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3), और चुनें कि कौन से डेटासेट का उपयोग करना है
- AWS खाता विवरण – आप तय कर सकते हैं कि पाइपलाइन किस क्षेत्र में चलनी चाहिए और किस भूमिका में उपयोग की जानी चाहिए
- चरण-विशिष्ट कॉन्फ़िगरेशन - पाइपलाइन में प्रत्येक चरण के लिए, आप प्रासंगिक मापदंडों के साथ उपयोग करने के लिए उदाहरणों की संख्या और प्रकार जैसे विवरण निर्दिष्ट कर सकते हैं
निम्नलिखित कोड एक उदाहरण कॉन्फ़िगरेशन फ़ाइल दिखाता है:
config.ini
Git द्वारा प्रबंधित एक संस्करण-नियंत्रित फ़ाइल है, जो एक सफल प्रशिक्षण पाइपलाइन चलाने के लिए आवश्यक न्यूनतम कॉन्फ़िगरेशन का प्रतिनिधित्व करती है। विकास के दौरान, स्थानीय कॉन्फ़िगरेशन फ़ाइलें जो संस्करण-नियंत्रित नहीं हैं, का उपयोग किया जा सकता है। इन स्थानीय कॉन्फ़िगरेशन फ़ाइलों में केवल एक विशिष्ट रन के लिए प्रासंगिक सेटिंग्स शामिल होनी चाहिए, जो जटिलता के बिना लचीलेपन का परिचय देती हैं। पाइपलाइन निर्माण क्लाइंट को कई कॉन्फ़िगरेशन फ़ाइलों को संभालने के लिए डिज़ाइन किया गया है, जिसमें नवीनतम को पिछली सेटिंग्स पर प्राथमिकता दी जाती है।
सेजमेकर पाइपलाइन चरण
पाइपलाइन को निम्नलिखित चरणों में विभाजित किया गया है:
- प्रशिक्षण और परीक्षण डेटा तैयारी - कच्चे डेटा के टेराबाइट्स को S3 बकेट में कॉपी किया जाता है, जिसका उपयोग करके संसाधित किया जाता है एडब्ल्यूएस गोंद स्पार्क प्रसंस्करण के लिए नौकरियां, जिसके परिणामस्वरूप संगतता के लिए डेटा संरचित और स्वरूपित किया गया।
- रेलगाड़ी - प्रशिक्षण चरण सेजमेकर प्रशिक्षण नौकरियों के लिए टेन्सरफ्लो अनुमानक का उपयोग करता है। होरोवोड का उपयोग करके प्रशिक्षण वितरित तरीके से होता है, और परिणामी मॉडल आर्टिफैक्ट अमेज़ॅन एस 3 में संग्रहीत किया जाता है। हाइपरपैरामीटर ट्यूनिंग के लिए, ऑब्जेक्टिव मीट्रिक के आधार पर सर्वोत्तम मॉडल का चयन करते हुए, हाइपरपैरामीटर ऑप्टिमाइज़ेशन (एचपीओ) कार्य शुरू किया जा सकता है।
- भविष्यवाणी करना - इस चरण में, सेजमेकर प्रोसेसिंग जॉब भविष्यवाणियां करने के लिए संग्रहीत मॉडल आर्टिफैक्ट का उपयोग करता है। यह प्रक्रिया उपलब्ध मशीनों पर समानांतर रूप से चलती है, और पूर्वानुमान परिणाम Amazon S3 में संग्रहीत होते हैं।
- मूल्यांकन करना - एक PySpark प्रसंस्करण कार्य एक कस्टम स्पार्क स्क्रिप्ट का उपयोग करके मॉडल का मूल्यांकन करता है। फिर मूल्यांकन रिपोर्ट Amazon S3 में संग्रहीत की जाती है।
- शर्त - मूल्यांकन के बाद मॉडल की गुणवत्ता के संबंध में निर्णय लिया जाता है। यह निर्णय कॉन्फ़िगरेशन फ़ाइल में परिभाषित शर्त मीट्रिक पर आधारित है। यदि मूल्यांकन सकारात्मक है, तो मॉडल को अनुमोदित के रूप में पंजीकृत किया जाता है; अन्यथा, यह अस्वीकृत के रूप में पंजीकृत है। दोनों मामलों में, मूल्यांकन और व्याख्यात्मकता रिपोर्ट, यदि उत्पन्न होती है, तो मॉडल रजिस्ट्री में दर्ज की जाती है।
- अनुमान के लिए पैकेज मॉडल - प्रसंस्करण कार्य का उपयोग करते हुए, यदि मूल्यांकन परिणाम सकारात्मक हैं, तो मॉडल को पैक किया जाता है, अमेज़ॅन एस 3 में संग्रहीत किया जाता है, और आंतरिक एमएल पोर्टल पर अपलोड करने के लिए तैयार किया जाता है।
- समझाना - सेजमेकर क्लैरिफाई एक व्याख्यात्मकता रिपोर्ट तैयार करता है।
दो अलग-अलग रिपॉजिटरी का उपयोग किया जाता है। पहले रिपॉजिटरी में एमएल पाइपलाइन के लिए परिभाषा और बिल्ड कोड होता है, और दूसरे रिपॉजिटरी में वह कोड होता है जो प्रत्येक चरण के अंदर चलता है, जैसे प्रसंस्करण, प्रशिक्षण, भविष्यवाणी और मूल्यांकन। यह दोहरा-भंडार दृष्टिकोण अधिक मॉड्यूलरिटी की अनुमति देता है, और विज्ञान और इंजीनियरिंग टीमों को एमएल कोड और एमएल पाइपलाइन घटकों पर स्वतंत्र रूप से पुनरावृत्त करने में सक्षम बनाता है।
निम्न आरेख समाधान वर्कफ़्लो दिखाता है।
स्वचालित मॉडल ट्यूनिंग
प्रशिक्षण एमएल मॉडल को व्यावसायिक उपयोग के लिए एक मजबूत और निष्पादन योग्य अंतिम मॉडल बनाने के लिए कई प्रशिक्षण प्रयोगों के पुनरावृत्त दृष्टिकोण की आवश्यकता होती है। एमएल वैज्ञानिकों को उपयुक्त मॉडल प्रकार का चयन करना होगा, सही इनपुट डेटासेट बनाना होगा और प्रशिक्षण के दौरान मॉडल सीखने की प्रक्रिया को नियंत्रित करने वाले हाइपरपैरामीटर के सेट को समायोजित करना होगा।
मॉडल प्रशिक्षण प्रक्रिया के लिए हाइपरपैरामीटर के लिए उपयुक्त मानों का चयन मॉडल के अंतिम प्रदर्शन को महत्वपूर्ण रूप से प्रभावित कर सकता है। हालाँकि, यह निर्धारित करने का कोई अनूठा या परिभाषित तरीका नहीं है कि किसी विशिष्ट उपयोग के मामले के लिए कौन से मान उपयुक्त हैं। अधिकांश समय, एमएल वैज्ञानिकों को हाइपरपैरामीटर के थोड़े अलग सेट के साथ कई प्रशिक्षण कार्य चलाने, मॉडल प्रशिक्षण मेट्रिक्स का निरीक्षण करने और फिर अगले पुनरावृत्ति के लिए अधिक आशाजनक मूल्यों का चयन करने का प्रयास करने की आवश्यकता होगी। मॉडल प्रदर्शन को ट्यूनिंग करने की इस प्रक्रिया को हाइपरपैरामीटर ऑप्टिमाइज़ेशन (HPO) के रूप में भी जाना जाता है, और कभी-कभी सैकड़ों प्रयोगों की आवश्यकता हो सकती है।
रैंकिंग टीम अपने ऑन-प्रिमाइसेस वातावरण में मैन्युअल रूप से एचपीओ निष्पादित करती थी क्योंकि वे समानांतर में केवल बहुत सीमित संख्या में प्रशिक्षण कार्य ही लॉन्च कर सकते थे। इसलिए, उन्हें एचपीओ को क्रमिक रूप से चलाना था, मैन्युअल रूप से हाइपरपैरामीटर मानों के विभिन्न संयोजनों का परीक्षण करना और चयन करना था, और नियमित रूप से प्रगति की निगरानी करनी थी। इसने मॉडल विकास और ट्यूनिंग प्रक्रिया को लंबा कर दिया और एचपीओ प्रयोगों की कुल संख्या को सीमित कर दिया जो एक संभावित समय में चल सकते थे।
AWS में जाने के साथ, रैंकिंग टीम SageMaker की स्वचालित मॉडल ट्यूनिंग (AMT) सुविधा का उपयोग करने में सक्षम हो गई। एएमटी रैंकिंग एमएल वैज्ञानिकों को चुने हुए मीट्रिक के अनुसार अंतिम मॉडल का सबसे अच्छा प्रदर्शन करने वाला संस्करण खोजने के लिए रुचि के हाइपरपैरामीटर रेंज के भीतर स्वचालित रूप से सैकड़ों प्रशिक्षण कार्य लॉन्च करने में सक्षम बनाता है। रैंकिंग टीम अब अपने हाइपरपैरामीटर चयन के लिए चार अलग-अलग स्वचालित ट्यूनिंग रणनीतियों के बीच चयन करने में सक्षम है:
- ग्रिड खोज - एएमटी उम्मीद करेगा कि सभी हाइपरपैरामीटर श्रेणीबद्ध मान होंगे, और यह संपूर्ण हाइपरपैरामीटर स्थान की खोज करते हुए, प्रत्येक विशिष्ट श्रेणीबद्ध संयोजन के लिए प्रशिक्षण कार्य लॉन्च करेगा।
- यादृच्छिक खोज - एएमटी प्रदान की गई सीमाओं के भीतर बेतरतीब ढंग से हाइपरपैरामीटर मान संयोजनों का चयन करेगा। क्योंकि विभिन्न प्रशिक्षण कार्यों और पैरामीटर मान चयन के बीच कोई निर्भरता नहीं है, इस पद्धति से कई समानांतर प्रशिक्षण कार्य लॉन्च किए जा सकते हैं, जिससे इष्टतम पैरामीटर चयन प्रक्रिया तेज हो जाएगी।
- बायेसियन अनुकूलन - एएमटी हाइपरपैरामीटर मानों के सर्वोत्तम सेट का अनुमान लगाने के लिए बायेसियन अनुकूलन कार्यान्वयन का उपयोग करता है, इसे एक प्रतिगमन समस्या के रूप में मानता है। यह पहले परीक्षण किए गए हाइपरपैरामीटर संयोजनों और नए पैरामीटर चयन के साथ मॉडल प्रशिक्षण नौकरियों पर इसके प्रभाव पर विचार करेगा, कम प्रयोगों के साथ स्मार्ट पैरामीटर चयन के लिए अनुकूलन करेगा, लेकिन यह हमेशा पिछले प्रशिक्षणों से सीखने में सक्षम होने के लिए केवल क्रमिक रूप से प्रशिक्षण कार्य भी लॉन्च करेगा।
- हाइपरबैंड - एएमटी अपने द्वारा चलाए जा रहे प्रशिक्षण कार्यों के मध्यवर्ती और अंतिम परिणामों का उपयोग हाइपरपैरामीटर कॉन्फ़िगरेशन के साथ प्रशिक्षण कार्यों के लिए संसाधनों को गतिशील रूप से पुनः आवंटित करने के लिए करेगा जो अधिक आशाजनक परिणाम दिखाते हैं और स्वचालित रूप से खराब प्रदर्शन करने वालों को रोकते हैं।
सेजमेकर पर एएमटी ने रैंकिंग टीम को पहली बार कई समानांतर प्रयोग चलाने, स्वचालित ट्यूनिंग रणनीतियों का उपयोग करने और कुछ दिनों के भीतर दोहरे अंकों का प्रशिक्षण कार्य करने में सक्षम बनाकर अपने मॉडल विकास के लिए हाइपरपैरामीटर ट्यूनिंग प्रक्रिया पर खर्च किए गए समय को कम करने में सक्षम बनाया। कुछ ऐसा जो परिसर में संभव नहीं था।
SageMaker Clarify के साथ मॉडल की व्याख्या
मॉडल व्याख्याशीलता एमएल चिकित्सकों को फीचर इंजीनियरिंग और चयन निर्णयों के लिए मूल्यवान अंतर्दृष्टि प्रदान करके अपने एमएल मॉडल की प्रकृति और व्यवहार को समझने में सक्षम बनाती है, जो बदले में मॉडल भविष्यवाणियों की गुणवत्ता में सुधार करती है। रैंकिंग टीम दो तरीकों से अपनी व्याख्या संबंधी अंतर्दृष्टि का मूल्यांकन करना चाहती थी: समझें कि फीचर इनपुट उनके संपूर्ण डेटासेट (वैश्विक व्याख्या) में मॉडल आउटपुट को कैसे प्रभावित करते हैं, और रुचि के डेटा बिंदु पर एक विशिष्ट मॉडल भविष्यवाणी के लिए इनपुट फीचर प्रभाव की खोज करने में भी सक्षम हो सकते हैं ( स्थानीय व्याख्यात्मकता)। इस डेटा के साथ, रैंकिंग एमएल वैज्ञानिक अपने मॉडल के प्रदर्शन को और बेहतर बनाने के बारे में सूचित निर्णय ले सकते हैं और मॉडल द्वारा कभी-कभी प्रदान किए जाने वाले चुनौतीपूर्ण भविष्यवाणी परिणामों को ध्यान में रख सकते हैं।
SageMaker Clarify आपको मॉडल व्याख्यात्मकता रिपोर्ट तैयार करने में सक्षम बनाता है शेपली योजक व्याख्याएँ (SHAP) सेजमेकर पर अपने मॉडलों को प्रशिक्षित करते समय, वैश्विक और स्थानीय मॉडल व्याख्यात्मकता दोनों का समर्थन करता है। मॉडल व्याख्यात्मकता रिपोर्ट के अलावा, सेजमेकर क्लेरिफाई प्री-ट्रेनिंग बायस मेट्रिक्स, पोस्ट-ट्रेनिंग बायस मेट्रिक्स और आंशिक निर्भरता प्लॉट के लिए चल रहे विश्लेषण का समर्थन करता है। यह कार्य AWS खाते के भीतर सेजमेकर प्रोसेसिंग कार्य के रूप में चलाया जाएगा और यह सीधे सेजमेकर पाइपलाइनों के साथ एकीकृत होगा।
वैश्विक व्याख्यात्मकता रिपोर्ट स्वचालित रूप से जॉब आउटपुट में तैयार की जाएगी और इसमें प्रदर्शित की जाएगी अमेज़ॅन सैजमेकर स्टूडियो प्रशिक्षण प्रयोग चलाने के भाग के रूप में पर्यावरण। यदि यह मॉडल सेजमेकर मॉडल रजिस्ट्री में पंजीकृत है, तो रिपोर्ट अतिरिक्त रूप से मॉडल आर्टिफैक्ट से जुड़ी होगी। इन दोनों विकल्पों का उपयोग करके, रैंकिंग टीम विभिन्न मॉडल संस्करणों और उनके व्यवहारिक परिवर्तनों को आसानी से ट्रैक करने में सक्षम थी।
एकल भविष्यवाणी (स्थानीय व्याख्यात्मकता मान) पर इनपुट सुविधा प्रभाव का पता लगाने के लिए, रैंकिंग टीम ने पैरामीटर को सक्षम किया save_local_shap_values
SageMaker Clarify नौकरियों में और SageMaker स्टूडियो में Jupyter नोटबुक में आगे के विश्लेषण के लिए उन्हें S3 बाल्टी से लोड करने में सक्षम था।
पिछली छवियां एक उदाहरण दिखाती हैं कि एक मनमाना एमएल मॉडल के लिए एक मॉडल व्याख्यात्मकता कैसी दिखेगी।
प्रशिक्षण अनुकूलन
गहन शिक्षण (डीएल) के उदय के कारण एमएल कम्प्यूटेशनल शक्ति और बड़ी मात्रा में डेटा पर निर्भर हो गया है। इन जटिल मॉडलों को प्रशिक्षित करते समय एमएल चिकित्सकों को आमतौर पर संसाधनों का कुशलतापूर्वक उपयोग करने में बाधा का सामना करना पड़ता है। जब आप बड़े कंप्यूट क्लस्टर पर प्रशिक्षण चलाते हैं, तो संसाधन उपयोग को अनुकूलित करने में विभिन्न चुनौतियाँ उत्पन्न होती हैं, जिनमें I/O बाधाएँ, कर्नेल लॉन्च विलंब, मेमोरी बाधाएँ और कम उपयोग किए गए संसाधन जैसे मुद्दे शामिल हैं। यदि प्रशिक्षण कार्य का विन्यास दक्षता के लिए ठीक नहीं किया गया है, तो इन बाधाओं के परिणामस्वरूप इष्टतम हार्डवेयर का उपयोग नहीं हो सकता है, प्रशिक्षण की अवधि लंबी हो सकती है, या प्रशिक्षण अधूरा रह सकता है। ये कारक परियोजना लागत और विलंब समयसीमा में वृद्धि करते हैं।
सीपीयू और जीपीयू उपयोग की प्रोफाइलिंग इन अक्षमताओं को समझने में मदद करती है, आपके मॉडल में विभिन्न टेन्सरफ्लो संचालन के हार्डवेयर संसाधन खपत (समय और मेमोरी) को निर्धारित करती है, प्रदर्शन बाधाओं को हल करती है, और अंततः, मॉडल को तेजी से चलाने में मदद करती है।
रैंकिंग टीम ने फ्रेमवर्क प्रोफाइलिंग सुविधा का उपयोग किया अमेज़न SageMaker डिबगर (अब इसके पक्ष में बहिष्कृत कर दिया गया है अमेज़ॅन सेजमेकर प्रोफाइलर) इन प्रशिक्षण नौकरियों को अनुकूलित करने के लिए। यह आपको सीपीयू और जीपीयू पर सभी गतिविधियों को ट्रैक करने की अनुमति देता है, जैसे सीपीयू और जीपीयू उपयोग, कर्नेल जीपीयू पर चलता है, कर्नेल सीपीयू पर लॉन्च होता है, सिंक ऑपरेशंस, जीपीयू में मेमोरी ऑपरेशंस, कर्नेल लॉन्च और संबंधित रन के बीच विलंबता, और सीपीयू के बीच डेटा ट्रांसफर और जीपीयू.
रैंकिंग टीम ने भी इसका इस्तेमाल किया टेन्सरफ्लो प्रोफाइलर का लक्षण टेंसरबोर्ड, जिसने आगे चलकर TensorFlow मॉडल प्रशिक्षण को प्रोफ़ाइल करने में मदद की। सेजमेकर अब है इसे आगे TensorBoard के साथ एकीकृत किया गया और टेन्सरबोर्ड के विज़ुअलाइज़ेशन टूल को सेजमेकर में लाता है, जो सेजमेकर प्रशिक्षण और डोमेन के साथ एकीकृत है। TensorBoard आपको TensorBoard विज़ुअलाइज़ेशन प्लगइन्स का उपयोग करके मॉडल डिबगिंग कार्य करने की अनुमति देता है।
इन दो उपकरणों की मदद से, रैंकिंग टीम ने अपने टेन्सरफ्लो मॉडल को अनुकूलित किया और बाधाओं की पहचान करने और सीपीयू पर औसत प्रशिक्षण चरण समय को 350 मिलीसेकंड से घटाकर 140 मिलीसेकंड और जीपीयू पर 170 मिलीसेकंड से 70 मिलीसेकंड तक कम करने में सक्षम हुए, 60% की स्पीडअप और क्रमशः 59%।
व्यावसायिक परिणाम
माइग्रेशन प्रयास उपलब्धता, स्केलेबिलिटी और लोच को बढ़ाने पर केंद्रित थे, जो सामूहिक रूप से एमएल पर्यावरण को परिचालन उत्कृष्टता के एक नए स्तर की ओर ले आए, जिसका उदाहरण मॉडल प्रशिक्षण आवृत्ति में वृद्धि और विफलताओं में कमी, अनुकूलित प्रशिक्षण समय और उन्नत एमएल क्षमताएं हैं।
मॉडल प्रशिक्षण आवृत्ति और विफलताएँ
मासिक मॉडल प्रशिक्षण नौकरियों की संख्या पांच गुना बढ़ गई, जिससे मॉडल अनुकूलन में काफी वृद्धि हुई। इसके अलावा, नए एमएल वातावरण से पाइपलाइन रन की विफलता दर में कमी आई, जो लगभग 50% से घटकर 20% हो गई। असफल कार्य प्रसंस्करण का समय औसतन एक घंटे से घटकर नगण्य 5 सेकंड तक कम हो गया। इससे परिचालन दक्षता में काफी वृद्धि हुई है और संसाधन की बर्बादी में कमी आई है।
अनुकूलित प्रशिक्षण समय
सेजमेकर-आधारित जीपीयू प्रशिक्षण के माध्यम से माइग्रेशन अपने साथ दक्षता बढ़ाता है। इस बदलाव ने मॉडल प्रशिक्षण समय को उसकी पिछली अवधि के पांचवें हिस्से तक कम कर दिया। पहले, गहन शिक्षण मॉडल के लिए प्रशिक्षण प्रक्रियाओं में सीपीयू पर लगभग 60 घंटे लगते थे; इसे GPU पर लगभग 12 घंटे तक सुव्यवस्थित किया गया था। इस सुधार से न केवल समय की बचत होती है बल्कि विकास चक्र में भी तेजी आती है, जिससे तेजी से पुनरावृत्ति और मॉडल में सुधार संभव हो पाता है।
उन्नत एमएल क्षमताएं
माइग्रेशन की सफलता के केंद्र में सेजमेकर फीचर सेट का उपयोग है, जिसमें हाइपरपैरामीटर ट्यूनिंग और मॉडल व्याख्या शामिल है। इसके अलावा, निर्बाध प्रयोग ट्रैकिंग के लिए माइग्रेशन की अनुमति दी गई है अमेज़न SageMaker प्रयोग, अधिक व्यावहारिक और उत्पादक प्रयोग को सक्षम करना।
सबसे महत्वपूर्ण बात यह है कि नए एमएल प्रयोग वातावरण ने एक नए मॉडल के सफल विकास का समर्थन किया जो अब उत्पादन में है। यह मॉडल वृक्ष-आधारित के बजाय गहन शिक्षण है और इसने ऑनलाइन मॉडल प्रदर्शन में उल्लेखनीय सुधार पेश किया है।
निष्कर्ष
इस पोस्ट ने AWS प्रोफेशनल सर्विसेज और बुकिंग.कॉम सहयोग का एक सिंहावलोकन प्रदान किया जिसके परिणामस्वरूप एक स्केलेबल एमएल ढांचे का कार्यान्वयन हुआ और उनकी रैंकिंग टीम के एमएल मॉडलों के बाजार में आने के समय को सफलतापूर्वक कम कर दिया गया।
बुकिंग.कॉम की रैंकिंग टीम को पता चला कि क्लाउड और सेजमेकर पर माइग्रेट करना फायदेमंद साबित हुआ है, और मशीन लर्निंग ऑपरेशंस (एमएलओपीएस) प्रथाओं को अपनाने से उनके एमएल इंजीनियरों और वैज्ञानिकों को अपने शिल्प पर ध्यान केंद्रित करने और विकास की गति बढ़ाने की अनुमति मिलती है। टीम एमएल अभ्यासकर्ताओं के साथ बातचीत और समर्पित सत्रों के माध्यम से बुकिंग.कॉम पर पूरे एमएल समुदाय के साथ सीखी गई बातों और किए गए कार्यों को साझा कर रही है, जहां वे कोड और क्षमताओं को साझा करते हैं। हमें उम्मीद है कि यह पोस्ट ज्ञान साझा करने के एक अन्य तरीके के रूप में काम कर सकती है।
AWS प्रोफेशनल सर्विसेज आपकी टीम को AWS में स्केलेबल और उत्पादन के लिए तैयार ML विकसित करने में मदद करने के लिए तैयार है। अधिक जानकारी के लिए देखें AWS व्यावसायिक सेवाएँ या संपर्क करने के लिए अपने खाता प्रबंधक से संपर्क करें।
लेखक के बारे में
लॉरेन वैन डेर मास AWS प्रोफेशनल सर्विसेज में मशीन लर्निंग इंजीनियर हैं। वह AWS पर अपने मशीन लर्निंग समाधान बनाने वाले ग्राहकों के साथ मिलकर काम करता है, वितरित प्रशिक्षण, प्रयोग और जिम्मेदार एआई में माहिर है, और इस बात को लेकर उत्साहित है कि मशीन लर्निंग दुनिया को कैसे बदल रही है जैसा कि हम जानते हैं।
डेनियल ज़ग्यवा AWS प्रोफेशनल सर्विसेज में डेटा साइंटिस्ट हैं। वह AWS ग्राहकों के लिए स्केलेबल, प्रोडक्शन-ग्रेड मशीन लर्निंग समाधान विकसित करने में माहिर हैं। उनका अनुभव विभिन्न क्षेत्रों में फैला हुआ है, जिसमें प्राकृतिक भाषा प्रसंस्करण, जेनरेटिव एआई और मशीन लर्निंग ऑपरेशन शामिल हैं।
कोस्टिया कोफ़मैन बुकिंग.कॉम में एक वरिष्ठ मशीन लर्निंग मैनेजर हैं, जो सर्च रैंकिंग एमएल टीम का नेतृत्व करते हैं और बुकिंग.कॉम की सबसे व्यापक एमएल प्रणाली की देखरेख करते हैं। वैयक्तिकरण और रैंकिंग में विशेषज्ञता के साथ, वह ग्राहक अनुभवों को बढ़ाने के लिए अत्याधुनिक तकनीक का लाभ उठाने पर जोर देते हैं।
जेनी टोकर बुकिंग.कॉम की सर्च रैंकिंग टीम में एक वरिष्ठ मशीन लर्निंग इंजीनियर हैं। वह दक्षता, विश्वसनीयता, स्केलेबिलिटी और नवीनता द्वारा विशेषता वाली एंड-टू-एंड एमएल पाइपलाइन विकसित करने में माहिर हैं। जेनी की विशेषज्ञता उनकी टीम को अत्याधुनिक रैंकिंग मॉडल बनाने में सशक्त बनाती है जो हर दिन लाखों उपयोगकर्ताओं को सेवा प्रदान करते हैं।
एलेक्जेंड्रा डॉकिक AWS प्रोफेशनल सर्विसेज में वरिष्ठ डेटा वैज्ञानिक हैं। उसे AWS पर नवीन AI/ML समाधान बनाने के लिए ग्राहकों का समर्थन करने में आनंद आता है और वह डेटा की शक्ति के माध्यम से व्यावसायिक परिवर्तनों को लेकर उत्साहित है।
ल्यूबा प्रोत्सिवा AWS प्रोफेशनल सर्विसेज में एंगेजमेंट मैनेजर हैं। वह डेटा और GenAI/ML समाधान प्रदान करने में माहिर हैं जो AWS ग्राहकों को उनके व्यावसायिक मूल्य को अधिकतम करने और नवाचार की गति में तेजी लाने में सक्षम बनाता है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/how-booking-com-modernized-its-ml-experimentation-framework-with-amazon-sagemaker/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 100
- 12
- 130
- 140
- 16
- 350
- 60
- 7
- 70
- a
- क्षमता
- योग्य
- About
- में तेजी लाने के
- पहुँच
- अनुसार
- लेखा
- हासिल
- के पार
- गतिविधियों
- कार्य करता है
- अनुकूल ढालने
- इसके अलावा
- इसके अतिरिक्त
- उन्नत
- को प्रभावित
- बाद
- AI
- ऐ / एमएल
- एल्गोरिदम
- सब
- की अनुमति दी
- की अनुमति देता है
- साथ में
- भी
- हमेशा
- वीरांगना
- अमेज़न SageMaker
- अमेज़ॅन वेब सेवा
- राशि
- राशियाँ
- an
- का विश्लेषण करती है
- और
- अन्य
- एपीआई
- दृष्टिकोण
- उपयुक्त
- अनुमोदित
- लगभग
- मनमाना
- हैं
- क्षेत्रों के बारे में जानकारी का उपयोग करके ट्रेडिंग कर सकते हैं।
- उठता
- चारों ओर
- AS
- आकांक्षा
- At
- स्वचालित
- स्वतः
- उपलब्धता
- उपलब्ध
- औसत
- एडब्ल्यूएस
- AWS व्यावसायिक सेवाएँ
- वापस
- आधारित
- बायेसियन
- BE
- क्योंकि
- बनने
- व्यवहार
- व्यवहार
- व्यवहार
- लाभदायक
- लाभ
- BEST
- के बीच
- पूर्वाग्रह
- बुकिंग
- Booking.com
- के छात्रों
- बाधाओं
- लाता है
- लाया
- निर्माण
- इमारत
- व्यापार
- लेकिन
- by
- कर सकते हैं
- क्षमताओं
- मामला
- मामलों
- केंद्र
- केंद्रित
- चुनौतियों
- चुनौतीपूर्ण
- परिवर्तन
- परिवर्तन
- बदलना
- विशेषता
- चुनें
- करने के लिए चुना
- ग्राहक
- निकट से
- बादल
- कोड
- कोडन
- सहयोग किया
- सहयोग
- सामूहिक रूप से
- COM
- संयोजन
- संयोजन
- जोड़ती
- सामान्यतः
- समुदाय
- अनुकूलता
- संगत
- जटिल
- जटिलता
- जटिल
- घटकों
- कम्प्यूटेशनल
- कम्प्यूटेशनल शक्ति
- गणना करना
- शर्त
- विन्यास
- विचार करना
- होते हैं
- की कमी
- प्रयुक्त
- खपत
- शामिल
- शामिल हैं
- नियंत्रण
- सही
- इसी
- लागत
- सका
- शिल्प
- बनाना
- निर्माण
- महत्वपूर्ण
- रिवाज
- ग्राहक
- ग्राहक
- अनुकूलन
- अग्रणी
- अत्याधुनिक तकनीक
- चक्र
- तिथि
- डेटा तैयारी
- आँकड़े वाला वैज्ञानिक
- डेटासेट
- दिन
- दिन
- तय
- निर्णय
- निर्णय
- की कमी हुई
- समर्पित
- समझा
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- परिभाषित
- परिभाषित
- परिभाषा
- देरी
- देरी
- उद्धार
- पहुंचाने
- गड्ढा
- निर्भरता
- निर्भरता
- तैनात
- तैनात
- पदावनत
- बनाया गया
- विवरण
- निर्धारित करना
- विकसित करना
- विकसित
- विकासशील
- विकास
- आरेख
- विभिन्न
- सीधे
- अन्य वायरल पोस्ट से
- दिखाया गया है
- अलग
- वितरित
- वितरित प्रशिक्षण
- विभाजित
- कर
- डोमेन
- किया
- काफी
- छोड़ने
- अवधि
- दौरान
- गतिशील
- से प्रत्येक
- आसानी
- दक्षता
- कुशलता
- प्रयासों
- शुरू
- अधिकार
- सक्षम
- सक्षम
- सक्षम बनाता है
- समर्थकारी
- शामिल
- शुरू से अंत तक
- सगाई
- इंजीनियर
- अभियांत्रिकी
- इंजीनियर्स
- बढ़ाना
- बढ़ाने
- सुनिश्चित
- संपूर्ण
- वातावरण
- अवधियों को
- आवश्यक
- मूल्यांकन करें
- मूल्यांकन
- और भी
- प्रत्येक
- प्रतिदिन
- उदाहरण
- उत्कृष्टता
- उत्तेजित
- एक उदाहरण प्रस्तुत किया
- मौजूदा
- उम्मीद
- शीघ्रता
- अनुभव
- अनुभव
- प्रयोग
- प्रयोगों
- विशेषज्ञता
- समझाना
- का पता लगाने
- तलाश
- का विस्तार
- फैली
- विस्तार
- व्यापक
- चेहरा
- का सामना करना पड़ा
- कारकों
- विफल रहे
- विफलता
- विफलताओं
- असत्य
- और तेज
- एहसान
- संभव
- Feature
- विशेषताएं
- प्रतिक्रिया
- कम
- पट्टिका
- फ़ाइलें
- अंतिम
- अंत में
- खोज
- प्रथम
- पहली बार
- लचीलापन
- फोकस
- निम्नलिखित
- के लिए
- चार
- ढांचा
- आवृत्ति
- बारंबार
- से
- आगे
- और भी
- पाने
- उत्पन्न
- उत्पन्न
- उत्पन्न करता है
- उत्पादक
- जनरेटिव एआई
- मिल
- जाना
- वैश्विक
- लक्ष्य
- GPU
- GPUs
- अधिक से अधिक
- अनुमान
- था
- संभालना
- हार्डवेयर
- इस्तेमाल
- है
- he
- मदद
- मदद की
- मदद करता है
- उसे
- उसके
- आशा
- घंटा
- घंटे
- कैसे
- How To
- तथापि
- एचटीएमएल
- http
- HTTPS
- सैकड़ों
- बाधा
- हाइपरपरमेटर अनुकूलन
- हाइपरपरमेटर ट्यूनिंग
- पहचान करना
- if
- दिखाता है
- छवियों
- तत्काल
- प्रभाव
- कार्यान्वयन
- महत्वपूर्ण बात
- में सुधार
- उन्नत
- सुधार
- सुधार
- सुधार
- in
- शामिल
- सहित
- बढ़ना
- वृद्धि हुई
- बढ़ जाती है
- तेजी
- स्वतंत्र रूप से
- उद्योग
- अक्षमताओं
- प्रभाव
- करें-
- सूचित
- इंफ्रास्ट्रक्चर
- शुरू
- कुछ नया
- नवोन्मेष
- अभिनव
- निवेश
- निविष्टियां
- अंदर
- व्यावहारिक
- अंतर्दृष्टि
- तुरंत
- एकीकृत
- एकीकृत
- ब्याज
- आंतरिक
- में
- शुरू की
- शुरू करने
- शामिल
- मुद्दों
- IT
- यात्रा
- पुनरावृत्तियों
- आईटी इस
- काम
- नौकरियां
- यात्रा
- जेपीजी
- कुंजी
- जानना
- ज्ञान
- जानने वाला
- कमी
- भाषा
- बड़ा
- ताज़ा
- लांच
- शुभारंभ
- शुरूआत
- नेता
- प्रमुख
- जानें
- सीखा
- सीख रहा हूँ
- नेतृत्व
- स्तर
- लाभ
- पसंद
- सीमित
- जुड़ा हुआ
- भार
- स्थानीय
- लंबा
- देखिए
- हमशक्ल
- मशीन
- यंत्र अधिगम
- मशीनें
- बनाया गया
- बनाना
- कामयाब
- प्रबंधक
- ढंग
- मैन्युअल
- अधिकतम करने के लिए
- मतलब
- याद
- तरीका
- मीट्रिक
- मेट्रिक्स
- ओर पलायन
- प्रवास
- लाखों
- मिलीसेकेंड
- कम से कम
- मिनटों
- ML
- एमएलओपीएस
- आदर्श
- मॉडल
- आधुनिकीकरण
- मॉड्यूल
- मॉनिटर
- मासिक
- अधिक
- अधिकांश
- चाल
- ले जाया गया
- बहुत
- विभिन्न
- नाम
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- प्रकृति
- आवश्यकता
- नया
- अगला
- नहीं
- अभी
- संख्या
- उद्देश्य
- निरीक्षण
- बाधाएं
- of
- ऑफ़लाइन
- अक्सर
- on
- ऑन डिमांड
- ONE
- ऑनलाइन
- केवल
- परिचालन
- संचालन
- इष्टतम
- इष्टतमीकरण
- अनुकूलन
- ऑप्टिमाइज़ करें
- अनुकूलित
- के अनुकूलन के
- ऑप्शंस
- or
- अन्य
- अन्यथा
- हमारी
- आउट
- उत्पादन
- outputs के
- के ऊपर
- कुल
- देखरेख
- सिंहावलोकन
- अपना
- शांति
- पैकेज
- पैक
- समानांतर
- प्राचल
- भाग
- आवेशपूर्ण
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- निजीकरण
- पाइपलाइन
- केंद्रीय
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- निभाता
- plugins
- बिन्दु
- द्वार
- सकारात्मक
- पद
- बिजली
- प्रथाओं
- पूर्ववर्ती
- भविष्यवाणी करना
- भविष्यवाणी
- भविष्यवाणियों
- तैयारी
- पिछला
- पहले से
- मुसीबत
- प्रक्रिया
- प्रसंस्कृत
- प्रक्रियाओं
- प्रसंस्करण
- उत्पादन
- उत्पादक
- पेशेवर
- प्रोफाइल
- रूपरेखा
- प्रगति
- परियोजना
- होनहार
- साबित
- प्रदान करना
- बशर्ते
- प्रदान कर
- गुणवत्ता
- जल्दी से
- पर्वतमाला
- रैंकिंग
- तेजी
- मूल्यांकन करें
- बल्कि
- कच्चा
- पहुंच
- तैयार
- प्राप्त करना
- मान्यता देना
- सिफारिश
- दर्ज
- को कम करने
- घटी
- को कम करने
- कमी
- के बारे में
- क्षेत्र
- रजिस्टर
- पंजीकृत
- रजिस्ट्री
- नियमित तौर पर
- अस्वीकृत..
- प्रासंगिक
- विश्वसनीयता
- रिपोर्ट
- रिपोर्ट
- कोष
- का प्रतिनिधित्व
- की आवश्यकता होती है
- अपेक्षित
- की आवश्यकता होती है
- संकल्प
- संसाधन
- उपयुक्त संसाधन चुनें
- क्रमश
- जिम्मेदार
- परिणाम
- जिसके परिणामस्वरूप
- परिणाम
- वृद्धि
- मजबूत
- भूमिका
- रन
- दौड़ना
- चलाता है
- sagemaker
- SageMaker पाइपलाइन
- अनुमापकता
- स्केलेबल
- स्केल
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- लिपि
- निर्बाध
- Search
- दूसरा
- सेकंड
- देखना
- मांग
- चयन
- का चयन
- चयन
- वरिष्ठ
- सेवा
- कार्य करता है
- सेवाएँ
- सत्र
- सेट
- सेट
- सेटिंग्स
- कई
- Share
- बांटने
- वह
- पाली
- चाहिए
- दिखाना
- दिखाता है
- काफी
- सरल
- एक
- थोड़ा अलग
- होशियार
- चिकनी
- So
- समाधान
- समाधान ढूंढे
- कुछ
- अंतरिक्ष
- स्पार्क
- माहिर
- विशिष्ट
- गति
- खर्च
- कदम
- कदम
- रोक
- भंडारण
- संग्रहित
- रणनीतियों
- बुद्धिसंगत
- दृढ़ता से
- संरचित
- स्टूडियो
- इनकी
- सफलता
- सफल
- सफलतापूर्वक
- ऐसा
- समर्थित
- सहायक
- समर्थन करता है
- सिंक।
- प्रणाली
- अनुरूप
- ले जा
- बाते
- कार्य
- टीम
- टीमों
- टेक्नोलॉजी
- tensorflow
- परीक्षण
- परीक्षण किया
- परीक्षण
- से
- कि
- RSI
- दुनिया
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- जिसके चलते
- इसलिये
- इन
- वे
- इसका
- उन
- पनपती
- यहाँ
- पहर
- समयसीमा
- बार
- सेवा मेरे
- उपकरण
- स्पर्श
- की ओर
- ट्रैक
- ट्रैकिंग
- रेलगाड़ी
- प्रशिक्षण
- प्रशिक्षण
- स्थानांतरण
- परिवर्तनों
- संक्रमण
- यात्रा
- यात्रा उद्योग
- यात्रियों
- इलाज
- <strong>उद्देश्य</strong>
- कोशिश
- ट्यूनिंग
- मोड़
- दो
- टाइप
- अंत में
- समझना
- अद्वितीय
- प्रयोग
- उपयोग
- उदाहरण
- प्रयुक्त
- उपयोगकर्ता के अनुकूल
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- उपयोग किया
- मूल्यवान
- मूल्य
- मान
- विभिन्न
- व्यापक
- वेग
- संस्करण
- संस्करणों
- बहुत
- दृश्य
- प्रतीक्षा
- जरूरत है
- था
- मार्ग..
- तरीके
- we
- वेब
- वेब सेवाओं
- थे
- कब
- कौन कौन से
- जब
- कौन
- मर्जी
- साथ में
- अंदर
- बिना
- काम
- वर्कफ़्लो
- कार्य
- विश्व
- दुनिया भर
- होगा
- आप
- आपका
- जेफिरनेट