अमेज़न SageMaker वास्तविक समय के अनुमान के लिए मशीन लर्निंग (एमएल) मॉडल को तैनात करना आसान बनाता है और सीपीयू और एक्सेलेरेटर जैसे एमएल इंस्टेंसेस का व्यापक चयन प्रदान करता है। एडब्ल्यूएस इन्फेंटेंटिया. पूरी तरह से प्रबंधित सेवा के रूप में, आप अपने मॉडल की तैनाती को बढ़ा सकते हैं, अनुमान लागत को कम कर सकते हैं, और कम परिचालन बोझ के साथ उत्पादन में अपने मॉडल को अधिक प्रभावी ढंग से प्रबंधित कर सकते हैं। सेजमेकर रीयल-टाइम अनुमान समापन बिंदु में एक HTTPs समापन बिंदु और एमएल उदाहरण शामिल होते हैं जो उच्च उपलब्धता के लिए कई उपलब्धता क्षेत्रों में तैनात किए जाते हैं। सेजमेकर एप्लिकेशन ऑटो स्केलिंग कार्यभार में परिवर्तन के जवाब में मॉडल के लिए प्रावधानित एमएल इंस्टेंसेस की संख्या को गतिशील रूप से समायोजित कर सकता है। एंडपॉइंट राउंड-रॉबिन एल्गोरिदम का उपयोग करके आने वाले अनुरोधों को एमएल इंस्टेंसेस में समान रूप से वितरित करता है।
जब इंस्टेंस पर तैनात एमएल मॉडल बड़ी संख्या में ग्राहकों से एपीआई कॉल प्राप्त करते हैं, तो अनुरोधों का यादृच्छिक वितरण बहुत अच्छी तरह से काम कर सकता है जब आपके अनुरोधों और प्रतिक्रियाओं में बहुत अधिक परिवर्तनशीलता नहीं होती है। लेकिन जेनरेटिव एआई वर्कलोड वाले सिस्टम में, अनुरोध और प्रतिक्रियाएं बेहद परिवर्तनशील हो सकती हैं। इन मामलों में, यादृच्छिक लोड संतुलन के बजाय उदाहरण की क्षमता और उपयोग पर विचार करके संतुलन लोड करना अक्सर वांछनीय होता है।
इस पोस्ट में, हम सेजमेकर कम से कम बकाया अनुरोध (एलओआर) रूटिंग रणनीति पर चर्चा करते हैं और यह एमएल उदाहरणों की क्षमता और उपयोग को ध्यान में रखते हुए कुछ प्रकार के वास्तविक समय अनुमान वर्कलोड के लिए विलंबता को कैसे कम कर सकता है। हम डिफ़ॉल्ट रूटिंग तंत्र पर इसके लाभों के बारे में बात करते हैं और आप अपने मॉडल परिनियोजन के लिए एलओआर को कैसे सक्षम कर सकते हैं। अंत में, हम यादृच्छिक रूटिंग की डिफ़ॉल्ट रूटिंग रणनीति पर एलओआर के साथ विलंबता सुधार का तुलनात्मक विश्लेषण प्रस्तुत करते हैं।
सेजमेकर एलओआर रणनीति
डिफ़ॉल्ट रूप से, सेजमेकर एंडपॉइंट्स में एक यादृच्छिक रूटिंग रणनीति होती है। सेजमेकर अब एक एलओआर रणनीति का समर्थन करता है, जो सेजमेकर को उस उदाहरण के लिए अनुरोधों को इष्टतम रूप से रूट करने की अनुमति देता है जो उस अनुरोध को पूरा करने के लिए सबसे उपयुक्त है। सेजमेकर आपके एंडपॉइंट के पीछे के इंस्टेंस के लोड और प्रत्येक इंस्टेंस पर तैनात किए गए मॉडल या अनुमान घटकों की निगरानी करके इसे संभव बनाता है।
निम्नलिखित इंटरैक्टिव आरेख डिफ़ॉल्ट रूटिंग नीति दिखाता है जहां मॉडल एंडपॉइंट पर आने वाले अनुरोधों को एमएल इंस्टेंसेस के लिए यादृच्छिक तरीके से अग्रेषित किया जाता है।
निम्नलिखित इंटरैक्टिव आरेख रूटिंग रणनीति को दर्शाता है जहां सेजमेकर अनुरोध को उस उदाहरण पर रूट करेगा जिसमें कम से कम बकाया अनुरोध हैं।
सामान्य तौर पर, जब आपका मॉडल सैकड़ों मिलीसेकंड से लेकर मिनटों में प्रतिक्रिया करता है, तो एलओआर रूटिंग फाउंडेशनल मॉडल या जेनरेटिव एआई मॉडल के लिए अच्छा काम करता है। यदि आपके मॉडल प्रतिक्रिया में कम विलंबता (सैकड़ों मिलीसेकंड तक) है, तो आपको यादृच्छिक रूटिंग से अधिक लाभ हो सकता है। इसके बावजूद, हम अनुशंसा करते हैं कि आप अपने कार्यभार के लिए सर्वोत्तम रूटिंग एल्गोरिदम का परीक्षण करें और उसकी पहचान करें।
सेजमेकर रूटिंग रणनीतियाँ कैसे सेट करें
सेजमेकर अब आपको सेट करने की अनुमति देता है RoutingStrategy
बनाते समय पैरामीटर EndpointConfiguration
समापन बिंदुओं के लिए. विभिन्न RoutingStrategy
सेजमेकर द्वारा समर्थित मान हैं:
LEAST_OUTSTANDING_REQUESTS
RANDOM
निम्नलिखित एक अनुमान समापन बिंदु पर एक मॉडल की तैनाती का एक उदाहरण है जिसमें एलओआर सक्षम है:
- सेटिंग करके एंडपॉइंट कॉन्फ़िगरेशन बनाएं
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - एंडपॉइंट कॉन्फ़िगरेशन का उपयोग करके एंडपॉइंट बनाएं (कोई बदलाव नहीं):
प्रदर्शन परिणाम
हमने एंड-टू-एंड अनुमान विलंबता और थ्रूपुट को मापने के लिए प्रदर्शन बेंचमार्किंग चलाया कोडजेन2-7बी डिफ़ॉल्ट रूटिंग और स्मार्ट रूटिंग एंडपॉइंट के साथ ml.g5.24xl इंस्टेंस पर होस्ट किया गया मॉडल। CodeGen2 मॉडल ऑटोरेग्रेसिव भाषा मॉडल के परिवार से संबंधित है और अंग्रेजी संकेत दिए जाने पर निष्पादन योग्य कोड उत्पन्न करता है।
हमारे विश्लेषण में, हमने प्रत्येक परीक्षण चलाने के लिए प्रत्येक समापन बिंदु के पीछे ml.g5.24xl उदाहरणों की संख्या में वृद्धि की क्योंकि समवर्ती उपयोगकर्ताओं की संख्या में वृद्धि हुई थी, जैसा कि निम्नलिखित तालिका में दिखाया गया है।
टेस्ट | समवर्ती उपयोगकर्ताओं की संख्या | उदाहरणों की संख्या |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
हमने दोनों एंडपॉइंट के लिए एंड-टू-एंड P99 विलंबता को मापा और जब उदाहरणों की संख्या 4 से बढ़ाकर 33 कर दी गई, तो विलंबता में 5-20% का सुधार देखा गया, जैसा कि निम्नलिखित ग्राफ में दिखाया गया है।
इसी तरह, जब उदाहरणों की संख्या 15 से बढ़ाकर 16 कर दी गई तो हमने प्रति मिनट थ्रूपुट में 5-20% का सुधार देखा।
यह दर्शाता है कि स्मार्ट रूटिंग एंडपॉइंट के बीच ट्रैफ़िक वितरण में सुधार करने में सक्षम है, जिससे एंड-टू-एंड विलंबता और समग्र थ्रूपुट में सुधार होता है।
निष्कर्ष
इस पोस्ट में, हमने सेजमेकर रूटिंग रणनीतियों और एलओआर रूटिंग को सक्षम करने के नए विकल्प के बारे में बताया। हमने बताया कि एलओआर को कैसे सक्षम किया जाए और यह आपके मॉडल परिनियोजन को कैसे लाभ पहुंचा सकता है। हमारे प्रदर्शन परीक्षणों ने वास्तविक समय अनुमान के दौरान विलंबता और थ्रूपुट में सुधार दिखाया। सेजमेकर रूटिंग सुविधाओं के बारे में अधिक जानने के लिए, देखें दस्तावेज़ीकरण. हम आपको अपने अनुमान कार्यभार का मूल्यांकन करने और यह निर्धारित करने के लिए प्रोत्साहित करते हैं कि क्या आप रूटिंग रणनीति के साथ इष्टतम रूप से कॉन्फ़िगर हैं।
लेखक के बारे में
जेम्स पार्क अमेज़न वेब सर्विसेज में सॉल्यूशन आर्किटेक्ट हैं। वह AWS पर प्रौद्योगिकी समाधानों को डिज़ाइन, निर्माण और तैनात करने के लिए Amazon.com के साथ काम करते हैं, और AI और मशीन लर्निंग में उनकी विशेष रुचि है। खाली समय में उन्हें नई संस्कृतियाँ, नए अनुभव तलाशना और नवीनतम प्रौद्योगिकी रुझानों के साथ अपडेट रहना अच्छा लगता है। आप उसे यहां पा सकते हैं लिंक्डइन.
वेणुगोपाल पई AWS में सॉल्यूशन आर्किटेक्ट हैं। वह बेंगलुरु, भारत में रहता है, और डिजिटल-देशी ग्राहकों को AWS पर उनके अनुप्रयोगों को बढ़ाने और अनुकूलित करने में मदद करता है।
डेविड निगेंडा अमेज़ॅन सेजमेकर टीम में एक वरिष्ठ सॉफ्टवेयर डेवलपमेंट इंजीनियर हैं, जो वर्तमान में उत्पादन मशीन लर्निंग वर्कफ़्लो को बेहतर बनाने के साथ-साथ नए अनुमान सुविधाओं को लॉन्च करने पर काम कर रहे हैं। अपने खाली समय में वह अपने बच्चों के साथ रहने की कोशिश करते हैं।
दीप्ति राघ Amazon SageMaker टीम में सॉफ्टवेयर डेवलपमेंट इंजीनियर हैं। उनका वर्तमान कार्य मशीन लर्निंग मॉडल को कुशलतापूर्वक होस्ट करने के लिए सुविधाओं के निर्माण पर केंद्रित है। अपने खाली समय में, वह यात्रा करना, लंबी पैदल यात्रा करना और पौधों को उगाना पसंद करती हैं।
एलन तनु सेजमेकर के साथ एक वरिष्ठ उत्पाद प्रबंधक हैं, जो बड़े मॉडल अनुमान पर अग्रणी प्रयास करते हैं। उन्हें एनालिटिक्स के क्षेत्र में मशीन लर्निंग को लागू करने का शौक है। काम के बाहर, वह बाहर का आनंद लेता है।
धवल पटेल AWS में प्रिंसिपल मशीन लर्निंग आर्किटेक्ट हैं। उन्होंने वितरित कंप्यूटिंग और आर्टिफिशियल इंटेलिजेंस से संबंधित समस्याओं पर बड़े उद्यमों से लेकर मध्यम आकार के स्टार्टअप तक के संगठनों के साथ काम किया है। वह एनएलपी और कंप्यूटर विज़न डोमेन सहित डीप लर्निंग पर ध्यान केंद्रित करता है। वह ग्राहकों को सेजमेकर पर उच्च प्रदर्शन मॉडल अनुमान प्राप्त करने में मदद करता है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- योग्य
- About
- त्वरक
- पाना
- के पार
- AI
- एआई मॉडल
- एलन
- कलन विधि
- की अनुमति देता है
- वीरांगना
- अमेज़न SageMaker
- अमेज़ॅन वेब सेवा
- Amazon.com
- के बीच में
- an
- विश्लेषण
- विश्लेषिकी
- और
- एपीआई
- अनुप्रयोगों
- लागू
- हैं
- क्षेत्र
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- AS
- At
- स्वत:
- उपलब्धता
- एडब्ल्यूएस
- शेष
- संतुलन
- BE
- पीछे
- अंतर्गत आता है
- बेंच मार्किंग
- लाभ
- लाभ
- BEST
- के छात्रों
- विस्तृत
- निर्माण
- इमारत
- बोझ
- लेकिन
- by
- कॉल
- कर सकते हैं
- क्षमता
- मामलों
- कुछ
- परिवर्तन
- परिवर्तन
- ग्राहकों
- कोड
- COM
- अ रहे है
- घटकों
- कंप्यूटर
- Computer Vision
- कंप्यूटिंग
- समवर्ती
- विन्यास
- कॉन्फ़िगर किया गया
- विचार
- पर विचार
- होते हैं
- लागत
- बनाना
- वर्तमान
- वर्तमान में
- ग्राहक
- तारीख
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- चूक
- तैनात
- तैनात
- तैनाती
- तैनाती
- डिज़ाइन
- निर्धारित करना
- विकास
- विभिन्न
- चर्चा करना
- वितरित
- वितरित अभिकलन
- वितरण
- डोमेन
- दौरान
- गतिशील
- से प्रत्येक
- प्रभावी रूप से
- कुशलता
- प्रयासों
- सक्षम
- सक्षम
- प्रोत्साहित करना
- शुरू से अंत तक
- endpoint
- इंजीनियर
- अंग्रेज़ी
- उद्यम
- मूल्यांकन करें
- उदाहरण
- अनुभव
- समझाया
- अत्यंत
- परिवार
- विशेषताएं
- अंत में
- खोज
- केंद्रित
- निम्नलिखित
- के लिए
- मूलभूत
- से
- पूरी तरह से
- सामान्य जानकारी
- उत्पन्न करता है
- उत्पादक
- जनरेटिव एआई
- gif
- दी
- ग्राफ
- बढ़ रहा है
- है
- he
- मदद करता है
- उसे
- हाई
- उसे
- उसके
- मेजबान
- मेजबानी
- कैसे
- How To
- एचटीएमएल
- HTTPS
- सैकड़ों
- पहचान करना
- if
- दिखाता है
- में सुधार
- सुधार
- सुधार
- में सुधार लाने
- in
- सहित
- आवक
- वृद्धि हुई
- इंडिया
- उदाहरण
- बुद्धि
- इंटरैक्टिव
- ब्याज
- में
- IT
- आईटी इस
- जेपीजी
- रखना
- बच्चे
- भाषा
- बड़ा
- बड़े उद्यम
- विलंब
- ताज़ा
- शुरू करने
- प्रमुख
- जानें
- सीख रहा हूँ
- कम से कम
- लिंक्डइन
- लाइव्स
- भार
- लॉट
- कम
- मशीन
- यंत्र अधिगम
- बनाता है
- प्रबंधन
- कामयाब
- प्रबंधक
- ढंग
- मई..
- माप
- तंत्र
- मिलीसेकेंड
- मिनट
- मिनटों
- ML
- आदर्श
- मॉडल
- निगरानी
- अधिक
- विभिन्न
- नया
- NLP
- नहीं
- अभी
- संख्या
- of
- ऑफर
- अक्सर
- on
- परिचालन
- ऑप्टिमाइज़ करें
- विकल्प
- or
- संगठनों
- हमारी
- आउट
- सड़क पर
- बाहर
- बकाया
- के ऊपर
- कुल
- प्राचल
- विशेष
- आवेशपूर्ण
- प्रति
- प्रदर्शन
- कारखाना
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- नीति
- संभव
- पद
- वर्तमान
- प्रिंसिपल
- समस्याओं
- एस्ट्रो मॉल
- उत्पादन प्रबंधक
- उत्पादन
- संकेतों
- बिना सोचे समझे
- लेकर
- बल्कि
- वास्तविक समय
- प्राप्त करना
- की सिफारिश
- घटी
- उल्लेख
- भले ही
- सम्बंधित
- का अनुरोध
- अनुरोधों
- प्रतिक्रिया
- प्रतिक्रियाएं
- मार्ग
- मार्ग
- रन
- sagemaker
- स्केल
- मांग
- चयन
- वरिष्ठ
- सेवा
- सेवा
- सेवाएँ
- सेट
- की स्थापना
- वह
- पता चला
- दिखाया
- दिखाता है
- स्मार्ट
- सॉफ्टवेयर
- सॉफ्टवेयर विकास
- समाधान ढूंढे
- तनाव
- स्टार्टअप
- रह
- सरल
- रणनीतियों
- स्ट्रेटेजी
- ऐसा
- समर्थित
- समर्थन करता है
- सिस्टम
- तालिका
- ले जा
- बातचीत
- टीम
- टेक्नोलॉजी
- परीक्षण
- परीक्षण
- से
- कि
- RSI
- क्षेत्र
- लेकिन हाल ही
- वहाँ।
- इन
- इसका
- THROUGHPUT
- पहर
- सेवा मेरे
- यातायात
- यात्रा का
- रुझान
- प्रकार
- उपयोगकर्ताओं
- का उपयोग
- मान
- परिवर्तनशील
- बहुत
- दृष्टि
- we
- वेब
- वेब सेवाओं
- कुंआ
- थे
- कब
- कौन कौन से
- जब
- मर्जी
- साथ में
- काम
- काम किया
- workflows
- काम कर रहे
- कार्य
- आप
- आपका
- जेफिरनेट
- क्षेत्र