अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़न वेब सेवाएँ

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़न वेब सेवाएँ

अमेज़न SageMaker वास्तविक समय के अनुमान के लिए मशीन लर्निंग (एमएल) मॉडल को तैनात करना आसान बनाता है और सीपीयू और एक्सेलेरेटर जैसे एमएल इंस्टेंसेस का व्यापक चयन प्रदान करता है। एडब्ल्यूएस इन्फेंटेंटिया. पूरी तरह से प्रबंधित सेवा के रूप में, आप अपने मॉडल की तैनाती को बढ़ा सकते हैं, अनुमान लागत को कम कर सकते हैं, और कम परिचालन बोझ के साथ उत्पादन में अपने मॉडल को अधिक प्रभावी ढंग से प्रबंधित कर सकते हैं। सेजमेकर रीयल-टाइम अनुमान समापन बिंदु में एक HTTPs समापन बिंदु और एमएल उदाहरण शामिल होते हैं जो उच्च उपलब्धता के लिए कई उपलब्धता क्षेत्रों में तैनात किए जाते हैं। सेजमेकर एप्लिकेशन ऑटो स्केलिंग कार्यभार में परिवर्तन के जवाब में मॉडल के लिए प्रावधानित एमएल इंस्टेंसेस की संख्या को गतिशील रूप से समायोजित कर सकता है। एंडपॉइंट राउंड-रॉबिन एल्गोरिदम का उपयोग करके आने वाले अनुरोधों को एमएल इंस्टेंसेस में समान रूप से वितरित करता है।

जब इंस्टेंस पर तैनात एमएल मॉडल बड़ी संख्या में ग्राहकों से एपीआई कॉल प्राप्त करते हैं, तो अनुरोधों का यादृच्छिक वितरण बहुत अच्छी तरह से काम कर सकता है जब आपके अनुरोधों और प्रतिक्रियाओं में बहुत अधिक परिवर्तनशीलता नहीं होती है। लेकिन जेनरेटिव एआई वर्कलोड वाले सिस्टम में, अनुरोध और प्रतिक्रियाएं बेहद परिवर्तनशील हो सकती हैं। इन मामलों में, यादृच्छिक लोड संतुलन के बजाय उदाहरण की क्षमता और उपयोग पर विचार करके संतुलन लोड करना अक्सर वांछनीय होता है।

इस पोस्ट में, हम सेजमेकर कम से कम बकाया अनुरोध (एलओआर) रूटिंग रणनीति पर चर्चा करते हैं और यह एमएल उदाहरणों की क्षमता और उपयोग को ध्यान में रखते हुए कुछ प्रकार के वास्तविक समय अनुमान वर्कलोड के लिए विलंबता को कैसे कम कर सकता है। हम डिफ़ॉल्ट रूटिंग तंत्र पर इसके लाभों के बारे में बात करते हैं और आप अपने मॉडल परिनियोजन के लिए एलओआर को कैसे सक्षम कर सकते हैं। अंत में, हम यादृच्छिक रूटिंग की डिफ़ॉल्ट रूटिंग रणनीति पर एलओआर के साथ विलंबता सुधार का तुलनात्मक विश्लेषण प्रस्तुत करते हैं।

सेजमेकर एलओआर रणनीति

डिफ़ॉल्ट रूप से, सेजमेकर एंडपॉइंट्स में एक यादृच्छिक रूटिंग रणनीति होती है। सेजमेकर अब एक एलओआर रणनीति का समर्थन करता है, जो सेजमेकर को उस उदाहरण के लिए अनुरोधों को इष्टतम रूप से रूट करने की अनुमति देता है जो उस अनुरोध को पूरा करने के लिए सबसे उपयुक्त है। सेजमेकर आपके एंडपॉइंट के पीछे के इंस्टेंस के लोड और प्रत्येक इंस्टेंस पर तैनात किए गए मॉडल या अनुमान घटकों की निगरानी करके इसे संभव बनाता है।

निम्नलिखित इंटरैक्टिव आरेख डिफ़ॉल्ट रूटिंग नीति दिखाता है जहां मॉडल एंडपॉइंट पर आने वाले अनुरोधों को एमएल इंस्टेंसेस के लिए यादृच्छिक तरीके से अग्रेषित किया जाता है।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

निम्नलिखित इंटरैक्टिव आरेख रूटिंग रणनीति को दर्शाता है जहां सेजमेकर अनुरोध को उस उदाहरण पर रूट करेगा जिसमें कम से कम बकाया अनुरोध हैं।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

सामान्य तौर पर, जब आपका मॉडल सैकड़ों मिलीसेकंड से लेकर मिनटों में प्रतिक्रिया करता है, तो एलओआर रूटिंग फाउंडेशनल मॉडल या जेनरेटिव एआई मॉडल के लिए अच्छा काम करता है। यदि आपके मॉडल प्रतिक्रिया में कम विलंबता (सैकड़ों मिलीसेकंड तक) है, तो आपको यादृच्छिक रूटिंग से अधिक लाभ हो सकता है। इसके बावजूद, हम अनुशंसा करते हैं कि आप अपने कार्यभार के लिए सर्वोत्तम रूटिंग एल्गोरिदम का परीक्षण करें और उसकी पहचान करें।

सेजमेकर रूटिंग रणनीतियाँ कैसे सेट करें

सेजमेकर अब आपको सेट करने की अनुमति देता है RoutingStrategy बनाते समय पैरामीटर EndpointConfiguration समापन बिंदुओं के लिए. विभिन्न RoutingStrategy सेजमेकर द्वारा समर्थित मान हैं:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

निम्नलिखित एक अनुमान समापन बिंदु पर एक मॉडल की तैनाती का एक उदाहरण है जिसमें एलओआर सक्षम है:

  1. सेटिंग करके एंडपॉइंट कॉन्फ़िगरेशन बनाएं RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. एंडपॉइंट कॉन्फ़िगरेशन का उपयोग करके एंडपॉइंट बनाएं (कोई बदलाव नहीं):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

प्रदर्शन परिणाम

हमने एंड-टू-एंड अनुमान विलंबता और थ्रूपुट को मापने के लिए प्रदर्शन बेंचमार्किंग चलाया कोडजेन2-7बी डिफ़ॉल्ट रूटिंग और स्मार्ट रूटिंग एंडपॉइंट के साथ ml.g5.24xl इंस्टेंस पर होस्ट किया गया मॉडल। CodeGen2 मॉडल ऑटोरेग्रेसिव भाषा मॉडल के परिवार से संबंधित है और अंग्रेजी संकेत दिए जाने पर निष्पादन योग्य कोड उत्पन्न करता है।

हमारे विश्लेषण में, हमने प्रत्येक परीक्षण चलाने के लिए प्रत्येक समापन बिंदु के पीछे ml.g5.24xl उदाहरणों की संख्या में वृद्धि की क्योंकि समवर्ती उपयोगकर्ताओं की संख्या में वृद्धि हुई थी, जैसा कि निम्नलिखित तालिका में दिखाया गया है।

टेस्ट समवर्ती उपयोगकर्ताओं की संख्या उदाहरणों की संख्या
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

हमने दोनों एंडपॉइंट के लिए एंड-टू-एंड P99 विलंबता को मापा और जब उदाहरणों की संख्या 4 से बढ़ाकर 33 कर दी गई, तो विलंबता में 5-20% का सुधार देखा गया, जैसा कि निम्नलिखित ग्राफ में दिखाया गया है।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

इसी तरह, जब उदाहरणों की संख्या 15 से बढ़ाकर 16 कर दी गई तो हमने प्रति मिनट थ्रूपुट में 5-20% का सुधार देखा।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

यह दर्शाता है कि स्मार्ट रूटिंग एंडपॉइंट के बीच ट्रैफ़िक वितरण में सुधार करने में सक्षम है, जिससे एंड-टू-एंड विलंबता और समग्र थ्रूपुट में सुधार होता है।

निष्कर्ष

इस पोस्ट में, हमने सेजमेकर रूटिंग रणनीतियों और एलओआर रूटिंग को सक्षम करने के नए विकल्प के बारे में बताया। हमने बताया कि एलओआर को कैसे सक्षम किया जाए और यह आपके मॉडल परिनियोजन को कैसे लाभ पहुंचा सकता है। हमारे प्रदर्शन परीक्षणों ने वास्तविक समय अनुमान के दौरान विलंबता और थ्रूपुट में सुधार दिखाया। सेजमेकर रूटिंग सुविधाओं के बारे में अधिक जानने के लिए, देखें दस्तावेज़ीकरण. हम आपको अपने अनुमान कार्यभार का मूल्यांकन करने और यह निर्धारित करने के लिए प्रोत्साहित करते हैं कि क्या आप रूटिंग रणनीति के साथ इष्टतम रूप से कॉन्फ़िगर हैं।


लेखक के बारे में

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.जेम्स पार्क अमेज़न वेब सर्विसेज में सॉल्यूशन आर्किटेक्ट हैं। वह AWS पर प्रौद्योगिकी समाधानों को डिज़ाइन, निर्माण और तैनात करने के लिए Amazon.com के साथ काम करते हैं, और AI और मशीन लर्निंग में उनकी विशेष रुचि है। खाली समय में उन्हें नई संस्कृतियाँ, नए अनुभव तलाशना और नवीनतम प्रौद्योगिकी रुझानों के साथ अपडेट रहना अच्छा लगता है। आप उसे यहां पा सकते हैं लिंक्डइन.

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.वेणुगोपाल पई AWS में सॉल्यूशन आर्किटेक्ट हैं। वह बेंगलुरु, भारत में रहता है, और डिजिटल-देशी ग्राहकों को AWS पर उनके अनुप्रयोगों को बढ़ाने और अनुकूलित करने में मदद करता है।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.डेविड निगेंडा अमेज़ॅन सेजमेकर टीम में एक वरिष्ठ सॉफ्टवेयर डेवलपमेंट इंजीनियर हैं, जो वर्तमान में उत्पादन मशीन लर्निंग वर्कफ़्लो को बेहतर बनाने के साथ-साथ नए अनुमान सुविधाओं को लॉन्च करने पर काम कर रहे हैं। अपने खाली समय में वह अपने बच्चों के साथ रहने की कोशिश करते हैं।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.दीप्ति राघ Amazon SageMaker टीम में सॉफ्टवेयर डेवलपमेंट इंजीनियर हैं। उनका वर्तमान कार्य मशीन लर्निंग मॉडल को कुशलतापूर्वक होस्ट करने के लिए सुविधाओं के निर्माण पर केंद्रित है। अपने खाली समय में, वह यात्रा करना, लंबी पैदल यात्रा करना और पौधों को उगाना पसंद करती हैं।

एलन तनुएलन तनु सेजमेकर के साथ एक वरिष्ठ उत्पाद प्रबंधक हैं, जो बड़े मॉडल अनुमान पर अग्रणी प्रयास करते हैं। उन्हें एनालिटिक्स के क्षेत्र में मशीन लर्निंग को लागू करने का शौक है। काम के बाहर, वह बाहर का आनंद लेता है।

अमेज़ॅन सेजमेकर रूटिंग रणनीतियों का उपयोग करके वास्तविक समय अनुमान विलंबता को कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.धवल पटेल AWS में प्रिंसिपल मशीन लर्निंग आर्किटेक्ट हैं। उन्होंने वितरित कंप्यूटिंग और आर्टिफिशियल इंटेलिजेंस से संबंधित समस्याओं पर बड़े उद्यमों से लेकर मध्यम आकार के स्टार्टअप तक के संगठनों के साथ काम किया है। वह एनएलपी और कंप्यूटर विज़न डोमेन सहित डीप लर्निंग पर ध्यान केंद्रित करता है। वह ग्राहकों को सेजमेकर पर उच्च प्रदर्शन मॉडल अनुमान प्राप्त करने में मदद करता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सैजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़न वेब सेवाएँ

स्रोत नोड: 1843425
समय टिकट: 30 मई 2023