अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न SageMaker वास्तविक समय के अनुमान के लिए मशीन लर्निंग (एमएल) मॉडल को तैनात करना आसान बनाता है और सीपीयू और एक्सेलेरेटर जैसे एमएल इंस्टेंसेस का व्यापक चयन प्रदान करता है। एडब्ल्यूएस इन्फेंटेंटिया. पूरी तरह से प्रबंधित सेवा के रूप में, आप अपने मॉडल की तैनाती को बढ़ा सकते हैं, अनुमान लागत को कम कर सकते हैं, और कम परिचालन बोझ के साथ उत्पादन में अपने मॉडल को अधिक प्रभावी ढंग से प्रबंधित कर सकते हैं। सेजमेकर रीयल-टाइम अनुमान समापन बिंदु में एक HTTPs समापन बिंदु और एमएल उदाहरण शामिल होते हैं जो उच्च उपलब्धता के लिए कई उपलब्धता क्षेत्रों में तैनात किए जाते हैं। सेजमेकर एप्लिकेशन ऑटो स्केलिंग कार्यभार में परिवर्तन के जवाब में मॉडल के लिए प्रावधानित एमएल इंस्टेंसेस की संख्या को गतिशील रूप से समायोजित कर सकता है। एंडपॉइंट राउंड-रॉबिन एल्गोरिदम का उपयोग करके आने वाले अनुरोधों को एमएल इंस्टेंसेस में समान रूप से वितरित करता है।

जब इंस्टेंस पर तैनात एमएल मॉडल बड़ी संख्या में ग्राहकों से एपीआई कॉल प्राप्त करते हैं, तो अनुरोधों का यादृच्छिक वितरण बहुत अच्छी तरह से काम कर सकता है जब आपके अनुरोधों और प्रतिक्रियाओं में बहुत अधिक परिवर्तनशीलता नहीं होती है। लेकिन जेनरेटिव एआई वर्कलोड वाले सिस्टम में, अनुरोध और प्रतिक्रियाएं बेहद परिवर्तनशील हो सकती हैं। इन मामलों में, यादृच्छिक लोड संतुलन के बजाय उदाहरण की क्षमता और उपयोग पर विचार करके संतुलन लोड करना अक्सर वांछनीय होता है।

इस पोस्ट में, हम सेजमेकर कम से कम बकाया अनुरोध (एलओआर) रूटिंग रणनीति पर चर्चा करते हैं और यह एमएल उदाहरणों की क्षमता और उपयोग को ध्यान में रखते हुए कुछ प्रकार के वास्तविक समय अनुमान वर्कलोड के लिए विलंबता को कैसे कम कर सकता है। हम डिफ़ॉल्ट रूटिंग तंत्र पर इसके लाभों के बारे में बात करते हैं और आप अपने मॉडल परिनियोजन के लिए एलओआर को कैसे सक्षम कर सकते हैं। अंत में, हम यादृच्छिक रूटिंग की डिफ़ॉल्ट रूटिंग रणनीति पर एलओआर के साथ विलंबता सुधार का तुलनात्मक विश्लेषण प्रस्तुत करते हैं।

सेजमेकर एलओआर रणनीति

डिफ़ॉल्ट रूप से, सेजमेकर एंडपॉइंट्स में एक यादृच्छिक रूटिंग रणनीति होती है। सेजमेकर अब एक एलओआर रणनीति का समर्थन करता है, जो सेजमेकर को उस उदाहरण के लिए अनुरोधों को इष्टतम रूप से रूट करने की अनुमति देता है जो उस अनुरोध को पूरा करने के लिए सबसे उपयुक्त है। सेजमेकर आपके एंडपॉइंट के पीछे के इंस्टेंस के लोड और प्रत्येक इंस्टेंस पर तैनात किए गए मॉडल या अनुमान घटकों की निगरानी करके इसे संभव बनाता है।

निम्नलिखित इंटरैक्टिव आरेख डिफ़ॉल्ट रूटिंग नीति दिखाता है जहां मॉडल एंडपॉइंट पर आने वाले अनुरोधों को एमएल इंस्टेंसेस के लिए यादृच्छिक तरीके से अग्रेषित किया जाता है।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

निम्नलिखित इंटरैक्टिव आरेख रूटिंग रणनीति को दर्शाता है जहां सेजमेकर अनुरोध को उस उदाहरण पर रूट करेगा जिसमें कम से कम बकाया अनुरोध हैं।

सामान्य तौर पर, जब आपका मॉडल सैकड़ों मिलीसेकंड से लेकर मिनटों में प्रतिक्रिया करता है, तो एलओआर रूटिंग फाउंडेशनल मॉडल या जेनरेटिव एआई मॉडल के लिए अच्छा काम करता है। यदि आपके मॉडल प्रतिक्रिया में कम विलंबता (सैकड़ों मिलीसेकंड तक) है, तो आपको यादृच्छिक रूटिंग से अधिक लाभ हो सकता है। इसके बावजूद, हम अनुशंसा करते हैं कि आप अपने कार्यभार के लिए सर्वोत्तम रूटिंग एल्गोरिदम का परीक्षण करें और उसकी पहचान करें।

सेजमेकर रूटिंग रणनीतियाँ कैसे सेट करें

सेजमेकर अब आपको सेट करने की अनुमति देता है RoutingStrategy बनाते समय पैरामीटर EndpointConfiguration समापन बिंदुओं के लिए. विभिन्न RoutingStrategy सेजमेकर द्वारा समर्थित मान हैं:

LEAST_OUTSTANDING_REQUESTS
RANDOM

निम्नलिखित एक अनुमान समापन बिंदु पर एक मॉडल की तैनाती का एक उदाहरण है जिसमें एलओआर सक्षम है:

सेटिंग करके एंडपॉइंट कॉन्फ़िगरेशन बनाएं RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

एंडपॉइंट कॉन्फ़िगरेशन का उपयोग करके एंडपॉइंट बनाएं (कोई बदलाव नहीं):
```
create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)
```

प्रदर्शन परिणाम

हमने एंड-टू-एंड अनुमान विलंबता और थ्रूपुट को मापने के लिए प्रदर्शन बेंचमार्किंग चलाया कोडजेन2-7बी डिफ़ॉल्ट रूटिंग और स्मार्ट रूटिंग एंडपॉइंट के साथ ml.g5.24xl इंस्टेंस पर होस्ट किया गया मॉडल। CodeGen2 मॉडल ऑटोरेग्रेसिव भाषा मॉडल के परिवार से संबंधित है और अंग्रेजी संकेत दिए जाने पर निष्पादन योग्य कोड उत्पन्न करता है।

हमारे विश्लेषण में, हमने प्रत्येक परीक्षण चलाने के लिए प्रत्येक समापन बिंदु के पीछे ml.g5.24xl उदाहरणों की संख्या में वृद्धि की क्योंकि समवर्ती उपयोगकर्ताओं की संख्या में वृद्धि हुई थी, जैसा कि निम्नलिखित तालिका में दिखाया गया है।

टेस्ट	समवर्ती उपयोगकर्ताओं की संख्या	उदाहरणों की संख्या
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

हमने दोनों एंडपॉइंट के लिए एंड-टू-एंड P99 विलंबता को मापा और जब उदाहरणों की संख्या 4 से बढ़ाकर 33 कर दी गई, तो विलंबता में 5-20% का सुधार देखा गया, जैसा कि निम्नलिखित ग्राफ में दिखाया गया है।

इसी तरह, जब उदाहरणों की संख्या 15 से बढ़ाकर 16 कर दी गई तो हमने प्रति मिनट थ्रूपुट में 5-20% का सुधार देखा।

यह दर्शाता है कि स्मार्ट रूटिंग एंडपॉइंट के बीच ट्रैफ़िक वितरण में सुधार करने में सक्षम है, जिससे एंड-टू-एंड विलंबता और समग्र थ्रूपुट में सुधार होता है।

निष्कर्ष

इस पोस्ट में, हमने सेजमेकर रूटिंग रणनीतियों और एलओआर रूटिंग को सक्षम करने के नए विकल्प के बारे में बताया। हमने बताया कि एलओआर को कैसे सक्षम किया जाए और यह आपके मॉडल परिनियोजन को कैसे लाभ पहुंचा सकता है। हमारे प्रदर्शन परीक्षणों ने वास्तविक समय अनुमान के दौरान विलंबता और थ्रूपुट में सुधार दिखाया। सेजमेकर रूटिंग सुविधाओं के बारे में अधिक जानने के लिए, देखें दस्तावेज़ीकरण. हम आपको अपने अनुमान कार्यभार का मूल्यांकन करने और यह निर्धारित करने के लिए प्रोत्साहित करते हैं कि क्या आप रूटिंग रणनीति के साथ इष्टतम रूप से कॉन्फ़िगर हैं।

लेखक के बारे में

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. जेम्स पार्क अमेज़न वेब सर्विसेज में सॉल्यूशन आर्किटेक्ट हैं। वह AWS पर प्रौद्योगिकी समाधानों को डिज़ाइन, निर्माण और तैनात करने के लिए Amazon.com के साथ काम करते हैं, और AI और मशीन लर्निंग में उनकी विशेष रुचि है। खाली समय में उन्हें नई संस्कृतियाँ, नए अनुभव तलाशना और नवीनतम प्रौद्योगिकी रुझानों के साथ अपडेट रहना अच्छा लगता है। आप उसे यहां पा सकते हैं लिंक्डइन.

वेणुगोपाल पई AWS में सॉल्यूशन आर्किटेक्ट हैं। वह बेंगलुरु, भारत में रहता है, और डिजिटल-देशी ग्राहकों को AWS पर उनके अनुप्रयोगों को बढ़ाने और अनुकूलित करने में मदद करता है।

डेविड निगेंडा अमेज़ॅन सेजमेकर टीम में एक वरिष्ठ सॉफ्टवेयर डेवलपमेंट इंजीनियर हैं, जो वर्तमान में उत्पादन मशीन लर्निंग वर्कफ़्लो को बेहतर बनाने के साथ-साथ नए अनुमान सुविधाओं को लॉन्च करने पर काम कर रहे हैं। अपने खाली समय में वह अपने बच्चों के साथ रहने की कोशिश करते हैं।

दीप्ति राघ Amazon SageMaker टीम में सॉफ्टवेयर डेवलपमेंट इंजीनियर हैं। उनका वर्तमान कार्य मशीन लर्निंग मॉडल को कुशलतापूर्वक होस्ट करने के लिए सुविधाओं के निर्माण पर केंद्रित है। अपने खाली समय में, वह यात्रा करना, लंबी पैदल यात्रा करना और पौधों को उगाना पसंद करती हैं।

एलन तनु सेजमेकर के साथ एक वरिष्ठ उत्पाद प्रबंधक हैं, जो बड़े मॉडल अनुमान पर अग्रणी प्रयास करते हैं। उन्हें एनालिटिक्स के क्षेत्र में मशीन लर्निंग को लागू करने का शौक है। काम के बाहर, वह बाहर का आनंद लेता है।

धवल पटेल AWS में प्रिंसिपल मशीन लर्निंग आर्किटेक्ट हैं। उन्होंने वितरित कंप्यूटिंग और आर्टिफिशियल इंटेलिजेंस से संबंधित समस्याओं पर बड़े उद्यमों से लेकर मध्यम आकार के स्टार्टअप तक के संगठनों के साथ काम किया है। वह एनएलपी और कंप्यूटर विज़न डोमेन सहित डीप लर्निंग पर ध्यान केंद्रित करता है। वह ग्राहकों को सेजमेकर पर उच्च प्रदर्शन मॉडल अनुमान प्राप्त करने में मदद करता है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

समय टिकट: नवम्बर 30/2023

समय टिकट: अप्रैल 19, 2024

प्लेटो द्वारा पुनर्प्रकाशित

Amazon SageMaker Studio से AWS लेक फॉर्मेशन और Amazon EMR के साथ ठीक-ठाक डेटा एक्सेस कंट्रोल लागू करें

अमेज़ॅन सेजमेकर जम्पस्टार्ट के साथ छवि विभाजन चलाएं

AWS IoT ग्रीनग्रास V2 का उपयोग करके Amazon SageMaker Edge Manager के साथ विसंगति का पता लगाना

अमेज़ॅन पर्सनलाइज़ में समाधान के लिए स्वचालित प्रशिक्षण का परिचय | अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा