ट्राइटन का उपयोग करके अमेज़ॅन सेजमेकर पर एमएल मॉडल होस्ट करना: एक्सजीबूस्ट, लाइटजीबीएम, और ट्रेलाइट मॉडल

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

आज उपलब्ध सबसे लोकप्रिय मॉडलों में से एक XGBoost है। वर्गीकरण और प्रतिगमन जैसी विभिन्न समस्याओं को हल करने की क्षमता के साथ, XGBoost एक लोकप्रिय विकल्प बन गया है जो ट्री-आधारित मॉडल की श्रेणी में भी आता है। इस पोस्ट में, हम यह देखने के लिए गहरा गोता लगाते हैं कि कैसे अमेज़न SageMaker का उपयोग कर इन मॉडलों की सेवा कर सकते हैं NVIDIA ट्राइटन अनुमान सर्वर. रीयल-टाइम अनुमान वर्कलोड में विलंबता और थ्रूपुट के संदर्भ में आवश्यकताओं और सेवा स्तर के समझौतों (SLAs) के विभिन्न स्तर हो सकते हैं, और SageMaker रीयल-टाइम एंडपॉइंट्स का उपयोग करके पूरा किया जा सकता है।

सेजमेकर प्रदान करता है एकल मॉडल समापन बिंदु, जो आपको तार्किक समापन बिंदु के विरुद्ध एकल मशीन लर्निंग (ML) मॉडल को परिनियोजित करने की अनुमति देता है। अन्य उपयोग के मामलों के लिए, आप उपयोग करके लागत और प्रदर्शन का प्रबंधन करना चुन सकते हैं बहु-मॉडल समापन बिंदु, जो आपको तार्किक समापन बिंदु के पीछे होस्ट करने के लिए कई मॉडल निर्दिष्ट करने की अनुमति देता है। आपके द्वारा चुने गए विकल्प के बावजूद, SageMaker समापन बिंदु सुविधाओं के ढेरों में मूल्य प्रदान करते हुए सबसे अधिक मांग वाले उद्यम ग्राहकों के लिए भी एक स्केलेबल तंत्र की अनुमति देता है, जिसमें शामिल हैं छाया वेरिएंट, ऑटो स्केलिंग, और के साथ देशी एकीकरण अमेज़ॅन क्लाउडवॉच (अधिक जानकारी के लिए, देखें मल्टी-मॉडल समापन बिंदु परिनियोजन के लिए CloudWatch मेट्रिक्स).

ट्राइटन इंजन के रूप में विभिन्न बैकेंड का समर्थन करता है ताकि अनुमान के लिए विभिन्न एमएल मॉडल को चलाने और सेवा देने में सहायता मिल सके। किसी भी ट्राइटन परिनियोजन के लिए, यह जानना महत्वपूर्ण है कि बैकएंड व्यवहार आपके वर्कलोड को कैसे प्रभावित करता है और क्या अपेक्षा की जाए ताकि आप सफल हो सकें। इस पोस्ट में, हम आपको समझने में मदद करते हैं वन निष्कर्ष पुस्तकालय (FIL) बैकएंड, जो सैजमेकर पर ट्राइटन द्वारा समर्थित है, ताकि आप अपने वर्कलोड के लिए एक सूचित निर्णय ले सकें और सर्वोत्तम प्रदर्शन और लागत अनुकूलन प्राप्त कर सकें।

FIL बैकएंड में गहरा गोता लगाएँ

ट्राइटन समर्थन करता है फ़ाइल बैकएंड वृक्ष मॉडल की सेवा करने के लिए, जैसे एक्सजीबूस्ट, लाइट जीबीएम, scikit सीखने बेतरतीब जंगल, रैपिड्स क्यूएमएल रैंडम फ़ॉरेस्ट, और द्वारा समर्थित कोई अन्य मॉडल ट्रेलाइट. इन मॉडलों का लंबे समय से वर्गीकरण या प्रतिगमन जैसी समस्याओं को हल करने के लिए उपयोग किया जाता है। हालांकि इस प्रकार के मॉडल परंपरागत रूप से सीपीयू पर चलते हैं, इन मॉडलों की लोकप्रियता और अनुमान मांगों ने अनुमान प्रदर्शन को बढ़ाने के लिए विभिन्न तकनीकों को जन्म दिया है। FIL बैकएंड cuML निर्माणों का उपयोग करके इनमें से कई तकनीकों का उपयोग करता है और GPU त्वरक पर अनुमान प्रदर्शन को अनुकूलित करने के लिए C++ और CUDA कोर लाइब्रेरी पर बनाया गया है।

FIL बैकएंड सीखने में तेजी लाने के लिए CPU या GPU कोर का उपयोग करने के लिए cuML की लाइब्रेरी का उपयोग करता है। इन प्रोसेसरों का उपयोग करने के लिए, डेटा को होस्ट मेमोरी (उदाहरण के लिए, NumPy सरणियों) या GPU सरणियों (uDF, Numba, cuPY, या किसी भी लाइब्रेरी से संदर्भित किया जाता है जो __cuda_array_interface__) एपीआई। मेमोरी में डेटा के मंचन के बाद, FIL बैकएंड सभी उपलब्ध CPU या GPU कोर में प्रोसेसिंग चला सकता है।

FIL बैकएंड थ्रेड्स होस्ट की साझा मेमोरी का उपयोग किए बिना एक दूसरे के साथ संवाद कर सकते हैं, लेकिन वर्कलोड में, होस्ट मेमोरी पर विचार किया जाना चाहिए। निम्नलिखित आरेख एक समेकित शेड्यूलर रनटाइम आर्किटेक्चर दिखाता है जहां आपके पास मेमोरी क्षेत्रों को ठीक करने की क्षमता है, जिसमें सीपीयू पता योग्य साझा मेमोरी शामिल है जिसका उपयोग ट्राइटन (सी ++) और पायथन प्रक्रिया (पायथन बैकएंड) के बीच अंतर-प्रक्रिया संचार के लिए किया जाता है। FIL बैकएंड के साथ टेंसर (इनपुट/आउटपुट)।

ट्राइटन का उपयोग करके अमेज़ॅन सेजमेकर पर एमएल मॉडल होस्ट करना: एक्सजीबूस्ट, लाइटजीबीएम, और ट्रेलाइट मॉडल प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

Triton Inference Server डेवलपर्स को उनके वर्कलोड को ट्यून करने और मॉडल प्रदर्शन को अनुकूलित करने के लिए कॉन्फ़िगर करने योग्य विकल्प प्रदान करता है। विन्यास dynamic_batching ट्राइटन को क्लाइंट-साइड अनुरोधों को रखने और उन्हें सर्वर साइड पर बैच करने की अनुमति देता है ताकि पूरे बैच को एक साथ अनुमान लगाने के लिए FIL की समानांतर संगणना का कुशलतापूर्वक उपयोग किया जा सके। विकल्प max_queue_delay_microseconds ट्राइटन एक बैच बनाने के लिए कितने समय तक प्रतीक्षा करता है, इसका असफल-सुरक्षित नियंत्रण प्रदान करता है।

कई अन्य FIL-विशिष्ट हैं विकल्प उपलब्ध हैं जो प्रदर्शन और व्यवहार को प्रभावित करता है। हम शुरू करने का सुझाव देते हैं storage_type. जीपीयू पर बैकएंड चलाते समय, एफआईएल एक नई मेमोरी/डेटा संरचना बनाता है जो पेड़ का प्रतिनिधित्व है जिसके लिए एफआईएल प्रदर्शन और पदचिह्न को प्रभावित कर सकता है। यह पर्यावरण पैरामीटर के माध्यम से विन्यास योग्य है storage_type, जिसमें सघन, विरल और ऑटो विकल्प हैं। सघन विकल्प चुनने से अधिक GPU मेमोरी की खपत होगी और इसका परिणाम हमेशा बेहतर प्रदर्शन नहीं होता है, इसलिए जांच करना सबसे अच्छा है। इसके विपरीत, स्पार्स विकल्प कम GPU मेमोरी का उपभोग करेगा और संभवतः सघन से बेहतर या बेहतर प्रदर्शन कर सकता है। ऑटो चुनने से मॉडल डिफ़ॉल्ट रूप से सघन हो जाएगा, जब तक कि ऐसा करने से विरल की तुलना में काफी अधिक GPU मेमोरी की खपत नहीं होगी।

जब मॉडल के प्रदर्शन की बात आती है, तो आप पर जोर देने पर विचार कर सकते हैं threads_per_tree विकल्प। वास्तविक दुनिया के परिदृश्यों में आप जिस एक चीज़ की निगरानी कर सकते हैं, वह है threads_per_tree किसी अन्य पैरामीटर की तुलना में थ्रूपुट पर बड़ा प्रभाव पड़ सकता है। इसे 2–1 से 32 की किसी भी शक्ति पर सेट करना वैध है। इस पैरामीटर के लिए इष्टतम मूल्य की भविष्यवाणी करना कठिन है, लेकिन जब सर्वर से उच्च लोड से निपटने या बड़े बैच आकार को संसाधित करने की अपेक्षा की जाती है, तो यह एक समय में कुछ पंक्तियों को संसाधित करने की तुलना में बड़े मूल्य से लाभान्वित होता है।

जागरूक होने के लिए एक और पैरामीटर है algo, जो तब भी उपलब्ध होता है जब आप GPU पर चल रहे होते हैं। यह पैरामीटर उस एल्गोरिथम को निर्धारित करता है जिसका उपयोग अनुमान अनुरोधों को संसाधित करने के लिए किया जाता है। इसके लिए समर्थित विकल्प हैं ALGO_AUTO, NAIVE, TREE_REORG, तथा BATCH_TREE_REORG. ये विकल्प निर्धारित करते हैं कि पेड़ के भीतर नोड्स कैसे व्यवस्थित होते हैं और इसके परिणामस्वरूप प्रदर्शन लाभ भी हो सकते हैं। ALGO_AUTO विकल्प चूक करने के लिए NAIVE विरल भंडारण के लिए और BATCH_TREE_REORG घने भंडारण के लिए।

अंत में, FIL शेपले एक्सप्लेनर के साथ आता है, जिसे उपयोग करके सक्रिय किया जा सकता है treeshap_output पैरामीटर। हालाँकि, आपको यह ध्यान रखना चाहिए कि शेपली आउटपुट अपने आउटपुट आकार के कारण प्रदर्शन को नुकसान पहुँचाता है।

मॉडल प्रारूप

फ़ॉरेस्ट-आधारित मॉडलों को संग्रहीत करने के लिए वर्तमान में कोई मानक फ़ाइल स्वरूप नहीं है; हर ढांचा अपने स्वयं के प्रारूप को परिभाषित करता है। एकाधिक इनपुट फ़ाइल स्वरूपों का समर्थन करने के लिए, FIL ओपन-सोर्स का उपयोग करके डेटा आयात करता है ट्रेलाइट पुस्तकालय। यह FIL को लोकप्रिय ढाँचों में प्रशिक्षित मॉडलों का समर्थन करने में सक्षम बनाता है, जैसे एक्सजीबूस्ट और लाइटजीबीएम. ध्यान दें कि आप जो मॉडल प्रदान कर रहे हैं उसका प्रारूप इसमें सेट होना चाहिए model_type कॉन्फ़िगरेशन मान निर्दिष्ट किया गया है config.pbtxt फ़ाइल.

कॉन्फिग.pbtxt

प्रत्येक मॉडल में ए मॉडल भंडार एक मॉडल कॉन्फ़िगरेशन शामिल होना चाहिए जो मॉडल के बारे में आवश्यक और वैकल्पिक जानकारी प्रदान करता हो। आमतौर पर, यह कॉन्फ़िगरेशन एक में प्रदान किया जाता है config.pbtxt फ़ाइल के रूप में निर्दिष्ट ModelConfig Protobuf. कॉन्फ़िगरेशन सेटिंग्स के बारे में अधिक जानने के लिए, देखें मॉडल कॉन्फ़िगरेशन. निम्नलिखित कुछ मॉडल कॉन्फ़िगरेशन पैरामीटर हैं:

अधिकतम_बैच_आकार - यह अधिकतम बैच आकार निर्धारित करता है जिसे इस मॉडल में पास किया जा सकता है। सामान्य तौर पर, एक FIL बैकएंड को पास किए गए बैचों के आकार की एकमात्र सीमा वह मेमोरी होती है जिसके साथ उन्हें प्रोसेस किया जाता है। जीपीयू चलाने के लिए, उपलब्ध मेमोरी ट्राइटन के सीयूडीए मेमोरी पूल के आकार से निर्धारित होती है, जिसे सर्वर शुरू करते समय कमांड लाइन तर्क के माध्यम से सेट किया जा सकता है।
निवेश - इस खंड में विकल्प ट्राइटन को प्रत्येक इनपुट नमूने के लिए अपेक्षा की जाने वाली सुविधाओं की संख्या बताते हैं।
उत्पादन - इस खंड में विकल्प ट्राइटन को बताते हैं कि प्रत्येक नमूने के लिए कितने आउटपुट मूल्य होंगे। अगर predict_proba विकल्प सही पर सेट है, तो प्रत्येक वर्ग के लिए प्रायिकता मान लौटाया जाएगा। अन्यथा, एक एकल मान लौटाया जाएगा, जो दिए गए नमूने के लिए अनुमानित वर्ग को दर्शाता है।
example_group - यह निर्धारित करता है कि इस मॉडल के कितने उदाहरण बनाए जाएंगे और क्या वे GPU या CPU का उपयोग करेंगे।
मॉडल प्रकार - यह स्ट्रिंग इंगित करती है कि मॉडल किस प्रारूप में है (xgboost_json इस उदाहरण में, लेकिन xgboost, lightgbm, तथा tl_checkpoint मान्य प्रारूप भी हैं)।
भविष्यवाणी_प्रोबा - यदि सही पर सेट किया जाता है, तो केवल एक वर्ग भविष्यवाणी के बजाय प्रत्येक वर्ग के लिए प्रायिकता मान लौटाए जाएंगे।
आउटपुट_क्लास – यह वर्गीकरण मॉडल के लिए सही और प्रतिगमन मॉडल के लिए गलत पर सेट है।
द्वार - यह वर्गीकरण निर्धारित करने के लिए स्कोर सीमा है। कब output_class सही पर सेट है, यह प्रदान किया जाना चाहिए, हालांकि इसका उपयोग नहीं किया जाएगा predict_proba भी सत्य पर सेट है।
भण्डारण प्रकार – सामान्य तौर पर, इस सेटिंग के लिए AUTO का उपयोग करने से अधिकांश उपयोग के मामले पूरे होने चाहिए। यदि ऑटो स्टोरेज का चयन किया जाता है, तो FIL मॉडल के अनुमानित आकार के आधार पर विरल या सघन प्रतिनिधित्व का उपयोग करके मॉडल को लोड करेगा। कुछ मामलों में, आप बड़े मॉडलों की स्मृति पदचिह्न को कम करने के लिए इसे स्पष्ट रूप से SPARSE पर सेट करना चाह सकते हैं।

सैजमेकर पर ट्राइटन इंफेरेंस सर्वर

SageMaker की अनुमति देता है आप NVIDIA Triton Inference Server के साथ सिंगल मॉडल और मल्टी-मॉडल एंडपॉइंट दोनों को तैनात कर सकते हैं। निम्नलिखित आंकड़ा ट्राइटन इनफेरेंस सर्वर के उच्च-स्तरीय आर्किटेक्चर को दिखाता है। मॉडल भंडार ट्राइटन द्वारा अनुमान लगाने के लिए उपलब्ध कराए जाने वाले मॉडलों का एक फ़ाइल सिस्टम-आधारित रिपॉजिटरी है। अनुमान अनुरोध सर्वर पर आते हैं और उचित प्रति-मॉडल अनुसूचक के लिए रूट किए जाते हैं। ट्राइटन लागू करता है एकाधिक शेड्यूलिंग और बैचिंग एल्गोरिदम जिसे मॉडल-दर-मॉडल आधार पर कॉन्फ़िगर किया जा सकता है। प्रत्येक मॉडल का अनुसूचक वैकल्पिक रूप से अनुमान अनुरोधों की बैचिंग करता है और फिर अनुरोधों को पास करता है बैकेंड मॉडल प्रकार के अनुरूप। बैकएंड अनुरोधित आउटपुट उत्पन्न करने के लिए बैच किए गए अनुरोधों में प्रदान किए गए इनपुट का उपयोग करके अनुमान लगाता है। आउटपुट तब वापस कर दिए जाते हैं।

SageMaker समापन बिंदुओं के लिए अपने ऑटो स्केलिंग समूहों को कॉन्फ़िगर करते समय, आप विचार करना चाह सकते हैं SageMakerVariantInvocationsPerInstance आपके ऑटो स्केलिंग समूह की स्केलिंग विशेषताओं को निर्धारित करने के लिए प्राथमिक मानदंड के रूप में। इसके अलावा, इस पर निर्भर करते हुए कि आपके मॉडल जीपीयू या सीपीयू पर चल रहे हैं, आप अतिरिक्त मानदंड के रूप में सीपीयूयूटिलाइजेशन या जीपीयूयूटिलाइजेशन का उपयोग करने पर भी विचार कर सकते हैं। ध्यान दें कि सिंगल मॉडल एंडपॉइंट्स के लिए, क्योंकि तैनात किए गए सभी मॉडल समान हैं, अपने SLAs को पूरा करने के लिए उचित नीतियों को सेट करना काफी सरल है। मल्टी-मॉडल एंडपॉइंट्स के लिए, हम अनुशंसा करते हैं कि अधिक स्थिर अनुमानित प्रदर्शन के लिए दिए गए एंडपॉइंट के पीछे समान मॉडल तैनात करें। उपयोग के मामलों में जहां अलग-अलग आकार और आवश्यकताओं के मॉडल का उपयोग किया जाता है, आप उन वर्कलोड को कई मल्टी-मॉडल एंडपॉइंट्स में अलग करना चाहते हैं या सर्वोत्तम लागत और प्रदर्शन संतुलन प्राप्त करने के लिए अपनी ऑटो स्केलिंग समूह नीति को ठीक करने में कुछ समय व्यतीत कर सकते हैं।

SageMaker अनुमान द्वारा समर्थित NVIDIA ट्राइटन डीप लर्निंग कंटेनर्स (DLCs) की सूची के लिए, देखें उपलब्ध डीप लर्निंग कंटेनर इमेज.

सेजमेकर नोटबुक वॉकथ्रू

एमएल अनुप्रयोग जटिल होते हैं और अक्सर डेटा प्रीप्रोसेसिंग की आवश्यकता होती है। इस नोटबुक में, हम ट्राइटन में एक SageMaker मल्टी-मॉडल एंडपॉइंट पर FIL बैकएंड का उपयोग करके XGBoost जैसे ट्री-आधारित ML मॉडल को तैनात करने के बारे में जानकारी देते हैं। हम यह भी कवर करते हैं कि ट्राइटन में एनसेंबल फीचर का उपयोग करके आपके मॉडल के लिए पायथन-आधारित डेटा प्रीप्रोसेसिंग इन्वेंशन पाइपलाइन को कैसे लागू किया जाए। यह हमें ग्राहक की ओर से कच्चे डेटा में भेजने की अनुमति देगा और डेटा प्रीप्रोसेसिंग और मॉडल अनुमान दोनों ट्राइटन सैजमेकर एंडपॉइंट में इष्टतम अनुमान प्रदर्शन के लिए होगा।

ट्राइटन मॉडल पहनावा सुविधा

Triton Inference Server उत्पादन में बड़े पैमाने पर AI मॉडल की तैनाती को बहुत सरल करता है। ट्राइटन इनफेरेंस सर्वर एक सुविधाजनक समाधान के साथ आता है जो प्रीप्रोसेसिंग और पोस्टप्रोसेसिंग पाइपलाइनों के निर्माण को आसान बनाता है। ट्राइटन इनफेरेंस सर्वर प्लेटफॉर्म एनसेम्बल शेड्यूलर प्रदान करता है, जो दक्षता सुनिश्चित करने और थ्रूपुट का अनुकूलन करते हुए अनुमान प्रक्रिया में भाग लेने वाले मॉडल को पाइपलाइन करने के लिए जिम्मेदार है। पहनावा मॉडल का उपयोग मध्यवर्ती टेंसरों को स्थानांतरित करने के ओवरहेड से बच सकता है और ट्राइटन को भेजे जाने वाले अनुरोधों की संख्या को कम कर सकता है।

इस नोटबुक में, हम दिखाते हैं कि XGBoost मॉडल अनुमान के साथ डेटा प्रीप्रोसेसिंग की पाइपलाइन बनाने के लिए पहनावा सुविधा का उपयोग कैसे करें, और आप पाइपलाइन में कस्टम पोस्टप्रोसेसिंग जोड़ने के लिए इससे एक्सट्रपलेशन कर सकते हैं।

पर्यावरण स्थापित करें

हम आवश्यक वातावरण की स्थापना करके शुरू करते हैं। हम अपने मॉडल पाइपलाइन को पैकेज करने के लिए आवश्यक निर्भरताओं को स्थापित करते हैं और ट्राइटन इनफेरेंस सर्वर का उपयोग करके अनुमान लगाते हैं। हम भी परिभाषित करते हैं AWS पहचान और अभिगम प्रबंधन (आईएएम) भूमिका जो सैजमेकर को मॉडल कलाकृतियों और एनवीडिया ट्राइटन तक पहुंच प्रदान करेगी अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़न ईसीआर) छवि। निम्नलिखित कोड देखें:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

प्रीप्रोसेसिंग निर्भरताओं के लिए एक कोंडा वातावरण बनाएं

ट्राइटन में पायथन बैकएंड के लिए हमें उपयोग करने की आवश्यकता है Conda किसी भी अतिरिक्त निर्भरता के लिए वातावरण। इस मामले में, हम FIL बैकएंड में चल रहे XGBoost मॉडल में फीड करने से पहले कच्चे डेटा को प्रीप्रोसेस करने के लिए Python बैकएंड का उपयोग करते हैं। भले ही हमने मूल रूप से डेटा प्रीप्रोसेसिंग करने के लिए RAPIDS cuDF और cuML का उपयोग किया था, यहाँ हम अनुमान के दौरान पंडों और स्किकिट-लर्न को प्रीप्रोसेसिंग निर्भरता के रूप में उपयोग करते हैं। हम ऐसा तीन कारणों से करते हैं:

हम दिखाते हैं कि आपकी निर्भरता के लिए कोंडा वातावरण कैसे बनाया जाए और इसे कैसे पैकेज किया जाए प्रारूप अपेक्षित ट्राइटन के पायथन बैकएंड द्वारा।
CPU पर Python बैकएंड में चल रहे प्रीप्रोसेसिंग मॉडल को दिखाते हुए, जबकि XGBoost FIL बैकएंड में GPU पर चलता है, हम बताते हैं कि ट्राइटन के एनसेम्बल पाइपलाइन में प्रत्येक मॉडल एक अलग फ्रेमवर्क बैकएंड के साथ-साथ विभिन्न हार्डवेयर कॉन्फ़िगरेशन पर कैसे चल सकता है।
यह इस बात पर प्रकाश डालता है कि कैसे RAPIDS लाइब्रेरी (cuDF, cuML) अपने CPU समकक्षों (पांडस, स्किकिट-लर्न) के साथ संगत हैं। उदाहरण के लिए, हम दिखा सकते हैं कि कैसे LabelEncoders सीयूएमएल में निर्मित स्किकिट-लर्न और इसके विपरीत उपयोग किया जा सकता है।

हम के निर्देशों का पालन करते हैं ट्राइटन प्रलेखन पैकेजिंग प्रीप्रोसेसिंग डिपेंडेंसी (स्किकिट-लर्न एंड पंडस) को पायथन बैकएंड में एक कोंडा पर्यावरण TAR फ़ाइल के रूप में उपयोग करने के लिए। बैश स्क्रिप्ट create_prep_env.sh Conda वातावरण TAR फ़ाइल बनाता है, फिर हम इसे प्रीप्रोसेसिंग मॉडल डायरेक्टरी में ले जाते हैं। निम्नलिखित कोड देखें:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

जब हम पिछली स्क्रिप्ट चलाते हैं, तो यह उत्पन्न होती है preprocessing_env.tar.gz, जिसे हम प्रीप्रोसेसिंग डायरेक्टरी में कॉपी करते हैं:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

ट्राइटन पायथन बैकएंड के साथ प्रीप्रोसेसिंग सेट करें

प्रीप्रोसेसिंग के लिए, हम ट्राइटन का उपयोग करते हैं पायथन बैकएंड सर्वर में आने वाले कच्चे डेटा अनुरोधों के अनुमान के दौरान सारणीबद्ध डेटा प्रीप्रोसेसिंग (श्रेणीबद्ध एन्कोडिंग) करने के लिए। प्रशिक्षण के दौरान किए गए प्रीप्रोसेसिंग के बारे में अधिक जानकारी के लिए देखें प्रशिक्षण नोटबुक.

पायथन बैकएंड प्रीप्रोसेसिंग, पोस्टप्रोसेसिंग और किसी भी अन्य कस्टम लॉजिक को पायथन में लागू करने और ट्राइटन के साथ काम करने में सक्षम बनाता है। सैजमेकर पर ट्राइटन का उपयोग करने के लिए हमें सबसे पहले एक मॉडल रिपॉजिटरी फोल्डर सेट करना होगा, जिसमें वे मॉडल होंगे जिनकी हम सेवा करना चाहते हैं। हमने पहले ही पायथन डेटा प्रीप्रोसेसिंग के लिए एक मॉडल तैयार कर लिया है जिसे प्रीप्रोसेसिंग इन कहा जाता है cpu_model_repository और gpu_model_repository.

मॉडल रिपॉजिटरी लेआउट के लिए ट्राइटन की विशिष्ट आवश्यकताएं हैं। शीर्ष-स्तरीय मॉडल रिपॉजिटरी डायरेक्टरी के भीतर, प्रत्येक मॉडल की अपनी उपनिर्देशिका होती है जिसमें संबंधित मॉडल के लिए जानकारी होती है। ट्राइटन में प्रत्येक मॉडल निर्देशिका में मॉडल के एक संस्करण का प्रतिनिधित्व करने वाली कम से कम एक संख्यात्मक उपनिर्देशिका होनी चाहिए। मान 1 हमारे पायथन प्रीप्रोसेसिंग मॉडल के संस्करण 1 का प्रतिनिधित्व करता है। प्रत्येक मॉडल एक विशिष्ट बैकएंड द्वारा चलाया जाता है, इसलिए प्रत्येक संस्करण उपनिर्देशिका के भीतर उस बैकएंड द्वारा आवश्यक मॉडल आर्टिफैक्ट होना चाहिए। इस उदाहरण के लिए, हम Python बैकएंड का उपयोग करते हैं, जिसके लिए आवश्यक है कि आप जिस Python फ़ाइल की सेवा कर रहे हैं उसे model.py कहा जाए, और फ़ाइल को लागू करने की आवश्यकता है कुछ कार्य. यदि हम एक PyTorch बैकएंड का उपयोग कर रहे थे, तो एक model.pt फ़ाइल की आवश्यकता होगी, और इसी तरह। मॉडल फ़ाइलों के लिए नामकरण परिपाटी के बारे में अधिक जानकारी के लिए देखें मॉडल फ़ाइलें.

RSI model.py हमारे द्वारा उपयोग की जाने वाली पायथन फ़ाइल कच्चे डेटा को सुविधाओं में बदलने के लिए सभी सारणीबद्ध डेटा प्रीप्रोसेसिंग लॉजिक को लागू करती है जिसे हमारे XGBoost मॉडल में फीड किया जा सकता है।

प्रत्येक ट्राइटन मॉडल को एक भी प्रदान करना चाहिए config.pbtxt मॉडल कॉन्फ़िगरेशन का वर्णन करने वाली फ़ाइल। कॉन्फ़िगरेशन सेटिंग्स के बारे में अधिक जानने के लिए, देखें मॉडल कॉन्फ़िगरेशन. हमारे config.pbtxt फ़ाइल बैकएंड को अजगर के रूप में निर्दिष्ट करती है और प्रीप्रोसेस्ड आउटपुट के साथ कच्चे डेटा के लिए सभी इनपुट कॉलम, जिसमें 15 विशेषताएं होती हैं। हम यह भी निर्दिष्ट करते हैं कि हम इस पायथन प्रीप्रोसेसिंग मॉडल को सीपीयू पर चलाना चाहते हैं। निम्न कोड देखें:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

FIL बैकएंड के लिए ट्री-आधारित ML मॉडल सेट करें

अगला, हम XGBoost जैसे ट्री-आधारित ML मॉडल के लिए मॉडल निर्देशिका सेट करते हैं, जो FIL बैकएंड का उपयोग करेगा।

के लिए अपेक्षित लेआउट cpu_memory_repository और gpu_memory_repository जैसा हमने पहले दिखाया था वैसा ही है।

यहाँ, FIL मॉडल का नाम है। हम इसे एक अलग नाम दे सकते हैं जैसे xgboost अगर हम चाहते हैं। 1 संस्करण उपनिर्देशिका है, जिसमें मॉडल आर्टिफैक्ट शामिल है। इस मामले में, यह है xgboost.json मॉडल जिसे हमने सहेजा है। आइए यह अपेक्षित लेआउट बनाएं:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

हमें कॉन्फ़िगरेशन फ़ाइल की आवश्यकता है config.pbtxt ट्री-आधारित ML मॉडल के लिए मॉडल कॉन्फ़िगरेशन का वर्णन करना, ताकि ट्राइटन में FIL बैकएंड यह समझ सके कि इसे कैसे सर्व किया जाए। अधिक जानकारी के लिए, नवीनतम जेनेरिक देखें ट्राइटन कॉन्फ़िगरेशन विकल्प और कॉन्फ़िगरेशन विकल्प के लिए विशिष्ट फ़ाइल बैकएंड. हम इस उदाहरण में कुछ सबसे सामान्य और प्रासंगिक विकल्पों पर ध्यान केंद्रित करते हैं।

बनाएं config.pbtxt एसटी model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

इसी तरह, स्थापित करें config.pbtxt एसटी model_gpu_repository (ध्यान दें अंतर है USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

पहनावा का उपयोग करके पायथन बैकएंड और FIL बैकएंड के प्रीप्रोसेसिंग डेटा की एक अनुमान पाइपलाइन सेट करें

अब हम एक का उपयोग करके डेटा प्रीप्रोसेसिंग और ट्री-आधारित मॉडल अनुमान के लिए इंट्रेंस पाइपलाइन स्थापित करने के लिए तैयार हैं पहनावा मॉडल. एक पहनावा मॉडल एक या एक से अधिक मॉडल की पाइपलाइन और उन मॉडलों के बीच इनपुट और आउटपुट टेंसर के कनेक्शन का प्रतिनिधित्व करता है। यहां हम FIL बैकएंड में XGBoost के बाद Python बैकएंड में डेटा प्रीप्रोसेसिंग की पाइपलाइन बनाने के लिए पहनावा मॉडल का उपयोग करते हैं।

के लिए अपेक्षित लेआउट ensemble मॉडल निर्देशिका उन लोगों के समान है जिन्हें हमने पहले दिखाया था:

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

हमने पहनावा मॉडल बनाया है config.pbtxt के मार्गदर्शन में पहनावा मॉडल. महत्वपूर्ण रूप से, हमें पहनावा अनुसूचक को सेट करने की आवश्यकता है config.pbtxt, जो पहनावा के भीतर मॉडलों के बीच डेटा प्रवाह को निर्दिष्ट करता है। पहनावा अनुसूचक प्रत्येक चरण में आउटपुट टेंसर एकत्र करता है और विनिर्देश के अनुसार अन्य चरणों के लिए उन्हें इनपुट टेंसर के रूप में प्रदान करता है।

मॉडल रिपॉजिटरी को पैकेज करें और Amazon S3 पर अपलोड करें

अंत में, हम निम्नलिखित मॉडल रिपॉजिटरी डायरेक्टरी स्ट्रक्चर के साथ समाप्त होते हैं, जिसमें एक पायथन प्रीप्रोसेसिंग मॉडल और इसकी निर्भरता के साथ-साथ XGBoost FIL मॉडल और मॉडल पहनावा शामिल है।

हम निर्देशिका और इसकी सामग्री को पैकेज करते हैं model.tar.gz अपलोड करने के लिए अमेज़न सरल भंडारण सेवा (अमेज़न एस 3)। इस उदाहरण में हमारे पास दो विकल्प हैं: सीपीयू-आधारित इंस्टेंस या जीपीयू-आधारित इंस्टेंस का उपयोग करना। जब आपको उच्च प्रसंस्करण शक्ति की आवश्यकता होती है और CUDA कोर का उपयोग करना चाहते हैं तो GPU- आधारित उदाहरण अधिक उपयुक्त होता है।

निम्न कोड के साथ CPU-आधारित उदाहरण (CPU के लिए अनुकूलित) के लिए मॉडल पैकेज बनाएं और अपलोड करें:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

निम्नलिखित कोड के साथ GPU-आधारित उदाहरण (GPU के लिए अनुकूलित) के लिए मॉडल पैकेज बनाएं और अपलोड करें:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

एक सेजमेकर एंडपॉइंट बनाएं

अब हमारे पास S3 बकेट में संग्रहीत मॉडल कलाकृतियाँ हैं। इस चरण में, हम अतिरिक्त पर्यावरण चर भी प्रदान कर सकते हैं SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, जो ट्राइटन द्वारा लोड किए जाने वाले मॉडल का नाम निर्दिष्ट करता है। इस कुंजी का मान Amazon S3 पर अपलोड किए गए मॉडल पैकेज में फ़ोल्डर के नाम से मेल खाना चाहिए। एकल मॉडल के मामले में यह चर वैकल्पिक है। पहनावा मॉडल के मामले में, ट्राइटन को सेजमेकर में शुरू करने के लिए इस कुंजी को निर्दिष्ट करना होगा।

इसके अतिरिक्त, आप सेट कर सकते हैं SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT और SAGEMAKER_TRITON_THREAD_COUNT थ्रेड काउंट को ऑप्टिमाइज़ करने के लिए।

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

हम समापन बिंदु कॉन्फ़िगरेशन बनाने के लिए पूर्ववर्ती मॉडल का उपयोग करते हैं जहां हम समापन बिंदु में प्रकार और उदाहरणों की संख्या निर्दिष्ट कर सकते हैं

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

हम इस एंडपॉइंट कॉन्फ़िगरेशन का उपयोग SageMaker एंडपॉइंट बनाने के लिए करते हैं और परिनियोजन समाप्त होने की प्रतीक्षा करते हैं। SageMaker MMEs के साथ, हमारे पास इस प्रक्रिया को दोहराते हुए कई कलाकारों की टुकड़ी मॉडल की मेजबानी करने का विकल्प है, लेकिन हम इस उदाहरण के लिए एक परिनियोजन के साथ चिपके रहते हैं:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

स्थिति में बदल जाएगी InService जब परिनियोजन सफल होता है।

SageMaker समापन बिंदु पर होस्ट किए गए अपने मॉडल का आह्वान करें

समापन बिंदु के चलने के बाद, हम पेलोड प्रारूप के रूप में JSON का उपयोग करके अनुमान लगाने के लिए कुछ नमूना कच्चे डेटा का उपयोग कर सकते हैं। अनुमान अनुरोध प्रारूप के लिए, ट्राइटन उपयोग करता है KFServing सामुदायिक मानक अनुमान प्रोटोकॉल। निम्नलिखित कोड देखें:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

ब्लॉग में संदर्भित नोटबुक में पाया जा सकता है गिटहब भंडार.

सर्वोत्तम प्रथाएं

हमारे द्वारा पहले उल्लेखित FIL बैकएंड की सेटिंग को फाइन-ट्यून करने के विकल्पों के अलावा, डेटा वैज्ञानिक यह भी सुनिश्चित कर सकते हैं कि बैकएंड के लिए इनपुट डेटा इंजन द्वारा प्रोसेसिंग के लिए ऑप्टिमाइज़ किया गया है। जब भी संभव हो, GPU सरणी में पंक्ति-प्रमुख प्रारूप में इनपुट डेटा। अन्य स्वरूपों के लिए आंतरिक रूपांतरण की आवश्यकता होगी और चक्रों को कम करना, प्रदर्शन को कम करना होगा।

जिस तरह से जीपीयू मेमोरी में एफआईएल डेटा स्ट्रक्चर बनाए रखा जाता है, उसके कारण पेड़ की गहराई से सावधान रहें। पेड़ की गहराई जितनी गहरी होगी, आपकी GPU मेमोरी फ़ुटप्रिंट उतनी ही बड़ी होगी।

उपयोग instance_group_count कार्यकर्ता प्रक्रियाओं को जोड़ने और FIL बैकएंड के थ्रूपुट को बढ़ाने के लिए पैरामीटर, जिसके परिणामस्वरूप बड़ी CPU और GPU मेमोरी खपत होगी। इसके अलावा, सैजमेकर-विशिष्ट चर पर विचार करें जो थ्रूपुट को बढ़ाने के लिए उपलब्ध हैं, जैसे कि HTTP थ्रेड्स, HTTP बफर आकार, बैच आकार और अधिकतम विलंब।

निष्कर्ष

इस पोस्ट में, हम FIL बैकएंड में गहराई से काम करते हैं जो कि ट्राइटन इनफेरेंस सर्वर SageMaker पर सपोर्ट करता है। यह बैकएंड आपके ट्री-आधारित मॉडल जैसे लोकप्रिय XGBoost एल्गोरिथम के CPU और GPU त्वरण दोनों के लिए प्रदान करता है। अनुमान के लिए सर्वश्रेष्ठ प्रदर्शन प्राप्त करने के लिए विचार करने के लिए कई विकल्प हैं, जैसे बैच आकार, डेटा इनपुट प्रारूप और अन्य कारक जिन्हें आपकी आवश्यकताओं को पूरा करने के लिए ट्यून किया जा सकता है। SageMaker आपको प्रदर्शन और लागत बचत के संतुलन के लिए सिंगल और मल्टी-मॉडल एंडपॉइंट्स के साथ इस क्षमता का उपयोग करने की अनुमति देता है।

हम आपको इस पोस्ट में जानकारी लेने और यह देखने के लिए प्रोत्साहित करते हैं कि क्या SageMaker लागत में कमी और वर्कलोड प्रदर्शन के लिए आपकी आवश्यकताओं को पूरा करते हुए ट्री-आधारित मॉडल की सेवा के लिए आपकी होस्टिंग आवश्यकताओं को पूरा कर सकता है या नहीं।

इस पोस्ट में संदर्भित नोटबुक SageMaker उदाहरणों में पाई जा सकती है गिटहब भंडार. इसके अलावा, आप FIL बैकएंड पर नवीनतम दस्तावेज़ीकरण पा सकते हैं GitHub.

लेखक के बारे में

ट्राइटन का उपयोग करके अमेज़ॅन सेजमेकर पर एमएल मॉडल होस्ट करना: एक्सजीबूस्ट, लाइटजीबीएम, और ट्रेलाइट मॉडल प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. रघु रमेश अमेज़न सैजमेकर सर्विस टीम के साथ एक वरिष्ठ एमएल समाधान वास्तुकार हैं। वह बड़े पैमाने पर ग्राहकों को एमएल प्रोडक्शन वर्कलोड बनाने, तैनात करने और माइग्रेट करने में मदद करने पर ध्यान केंद्रित करता है। वह मशीन लर्निंग, एआई और कंप्यूटर विजन डोमेन में माहिर हैं, और यूटी डलास से कंप्यूटर साइंस में मास्टर डिग्री रखते हैं। अपने खाली समय में उन्हें यात्रा करना और फोटोग्राफी करना पसंद है।

जेम्स पार्क Amazon वेब सर्विसेज में सॉल्यूशंस आर्किटेक्ट हैं। वह Amazon.com के साथ AWS पर प्रौद्योगिकी समाधान डिजाइन, निर्माण और परिनियोजित करने के लिए काम करता है, और AI और मशीन सीखने में उसकी विशेष रुचि है। अपने खाली समय में उन्हें नई संस्कृतियों, नए अनुभवों की तलाश करने और नवीनतम प्रौद्योगिकी रुझानों के साथ अपडेट रहने में आनंद आता है।

धवल पटेल AWS में प्रिंसिपल मशीन लर्निंग आर्किटेक्ट हैं। उन्होंने वितरित कंप्यूटिंग और कृत्रिम बुद्धिमत्ता से संबंधित समस्याओं पर बड़े उद्यमों से लेकर मध्यम आकार के स्टार्टअप तक के संगठनों के साथ काम किया है। वह एनएलपी और कंप्यूटर विज़न डोमेन सहित गहन शिक्षण पर ध्यान केंद्रित करता है। वह ग्राहकों को Amazon SageMaker पर उच्च-प्रदर्शन मॉडल अनुमान प्राप्त करने में मदद करता है।

जियाहोंग लिउ NVIDIA में क्लाउड सेवा प्रदाता टीम पर एक समाधान वास्तुकार है। वह मशीन लर्निंग और एआई समाधानों को अपनाने में ग्राहकों की सहायता करता है जो उनके प्रशिक्षण और अनुमान चुनौतियों का समाधान करने के लिए एनवीआईडीआईए त्वरित कंप्यूटिंग का लाभ उठाते हैं। अपने ख़ाली समय में, वह ओरिगेमी, DIY प्रोजेक्ट्स और बास्केटबॉल खेलने का आनंद लेते हैं।

क्षितिज गुप्ता NVIDIA में एक समाधान वास्तुकार है। उन्हें GPU AI तकनीकों के बारे में क्लाउड ग्राहकों को शिक्षित करने में मज़ा आता है, NVIDIA को उनके मशीन लर्निंग और डीप लर्निंग एप्लिकेशन में तेजी लाने के लिए उन्हें पेश करना और उनकी सहायता करना है। काम के बाहर, उन्हें दौड़ना, लंबी पैदल यात्रा और वन्य जीवन देखना पसंद है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

समय टिकट: 2 मई 2023

समय टिकट: सितम्बर 7, 2023

प्लेटो द्वारा पुनर्प्रकाशित

उपयोगकर्ता वैक्टर के साथ अमेज़ॅन रिकॉग्निशन फेस सर्च की सटीकता में सुधार करें | अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा