हगिंग फेस और अमेज़ॅन सेजमेकर एसिंक्रोनस इंट्रेंस एंडपॉइंट्स के साथ उच्च-मूल्य वाले अनुसंधान में सुधार करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

हमारे कई एडब्ल्यूएस ग्राहक सेवा के रूप में अनुसंधान, विश्लेषण और व्यावसायिक खुफिया जानकारी प्रदान करते हैं। इस प्रकार का अनुसंधान और व्यावसायिक खुफिया अपने अंतिम ग्राहकों को बाजारों और प्रतिस्पर्धियों से आगे रहने, विकास के अवसरों की पहचान करने और मुद्दों को लगातार हल करने में सक्षम बनाता है। उदाहरण के लिए, हमारे कुछ वित्तीय सेवा क्षेत्र के ग्राहक इक्विटी, हेज फंड और निवेश प्रबंधन कंपनियों के लिए शोध करते हैं ताकि उन्हें रुझानों को समझने और पोर्टफोलियो रणनीतियों की पहचान करने में मदद मिल सके। स्वास्थ्य उद्योग में, स्वास्थ्य अनुसंधान का एक बड़ा हिस्सा अब सूचना-आधारित है। अनुसंधान का एक बड़ा सौदा डेटा के विश्लेषण पर जोर देता है जिसे शुरू में निदान, उपचार, या अन्य शोध परियोजनाओं के लिए एकत्र किया गया था, और अब इसका उपयोग नए शोध उद्देश्यों के लिए किया जा रहा है। स्वास्थ्य अनुसंधान के इन रूपों ने नए मामलों से बचने के लिए प्रभावी प्राथमिक रोकथाम, प्रारंभिक पहचान के लिए माध्यमिक रोकथाम और बेहतर रोग प्रबंधन के लिए रोकथाम की ओर अग्रसर किया है। शोध के परिणाम न केवल जीवन की गुणवत्ता में सुधार करते हैं बल्कि स्वास्थ्य देखभाल खर्च को कम करने में भी मदद करते हैं।

ग्राहक सार्वजनिक और निजी स्रोतों से जानकारी को पचा लेते हैं। फिर वे एक प्रवृत्ति को सारांशित करने और पहचानने और इस जानकारी के आधार पर अंतर्दृष्टि उत्पन्न करने के लिए स्थापित या कस्टम प्राकृतिक भाषा प्रसंस्करण (एनएलपी) मॉडल लागू करते हैं। इस प्रकार के शोध कार्यों के लिए उपयोग किए जाने वाले एनएलपी मॉडल बड़े मॉडल के साथ काम करते हैं और आमतौर पर कॉर्पस के आकार पर विचार करने के लिए लंबे लेख शामिल होते हैं - और समर्पित समापन बिंदु, जो इस समय लागत-अनुकूलित नहीं हैं। इन एप्लिकेशन को दिन के अलग-अलग समय पर आने वाले ट्रैफ़िक का एक विस्फोट प्राप्त होता है।

हमारा मानना है कि ग्राहकों को आवश्यकता के आधार पर शून्य से नीचे स्केल करने और अपनी अनुमान क्षमता को बढ़ाने की क्षमता से बहुत लाभ होगा। यह अनुसंधान लागत को अनुकूलित करता है और अभी भी अनुमानों की गुणवत्ता से समझौता नहीं करता है। इस पोस्ट में चर्चा की गई है कि कैसे चेहरे को गले लगाने के साथ-साथ अमेज़न SageMaker अतुल्यकालिक अनुमान इसे प्राप्त करने में मदद कर सकता है।

आप TensorFlow, PyTorch, और Apache MXNet जैसे कई डीप-लर्निंग फ्रेमवर्क के साथ टेक्स्ट सारांश मॉडल बना सकते हैं। इन मॉडलों में आम तौर पर अलग-अलग आकार के कई टेक्स्ट दस्तावेज़ों का एक बड़ा इनपुट पेलोड होता है। उन्नत गहन शिक्षण मॉडल को मॉडल अनुमान से पहले गणना-गहन प्रीप्रोसेसिंग की आवश्यकता होती है। संसाधन समय कुछ मिनटों तक का हो सकता है, जो HTTP API पर पेलोड पास करके रीयल-टाइम अनुमान चलाने के विकल्प को हटा देता है। इसके बजाय, आपको इनपुट पेलोड को किसी ऑब्जेक्ट स्टोर से अतुल्यकालिक रूप से संसाधित करने की आवश्यकता है जैसे अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) स्वचालित कतार और एक पूर्वनिर्धारित समवर्ती सीमा के साथ। सिस्टम को स्थिति सूचनाएं प्राप्त करने और कार्यों के पूरा होने पर संसाधनों की सफाई करके अनावश्यक लागतों को कम करने में सक्षम होना चाहिए।

सेजमेकर डेटा वैज्ञानिकों और डेवलपर्स को एमएल के लिए उद्देश्य-निर्मित क्षमताओं के व्यापक सेट को एक साथ लाकर उच्च गुणवत्ता वाले मशीन लर्निंग (एमएल) मॉडल तैयार करने, बनाने, प्रशिक्षित करने और तैनात करने में मदद करता है। सेजमेकर XGBoost के लिए सबसे उन्नत ओपन-सोर्स मॉडल-सर्विंग कंटेनर प्रदान करता है (कंटेनर, एसडीके), स्किकिट-लर्न (कंटेनर, एसडीके), पाइटॉर्च (कंटेनर, एसडीके), टेंसरफ्लो (कंटेनर, एसडीके), और अपाचे एमएक्सनेट (कंटेनर, एसडीके).

सेजमेकर नए डेटा पर अनुमान उत्पन्न करने के लिए प्रशिक्षित एमएल मॉडल को तैनात करने के लिए चार विकल्प प्रदान करता है।

वास्तविक समय अनुमान एंडपॉइंट वर्कलोड के लिए उपयुक्त हैं जिन्हें एमएस से सेकेंड के क्रम में कम विलंबता आवश्यकताओं के साथ संसाधित करने की आवश्यकता होती है।
बैच परिवर्तन डेटा के बड़े बैचों पर ऑफ़लाइन पूर्वानुमानों के लिए आदर्श है।
अमेज़ॅन सेजमेकर सर्वर रहित अनुमान (पूर्वावलोकन मोड में और इस लेखन के रूप में उत्पादन कार्यभार के लिए अनुशंसित नहीं) एक उद्देश्य-निर्मित अनुमान विकल्प है जो आपके लिए एमएल मॉडल को तैनात और स्केल करना आसान बनाता है। सर्वर रहित अनुमान उन कार्यभार के लिए आदर्श है, जिनमें ट्रैफ़िक की गति के बीच निष्क्रिय अवधि होती है और ठंड शुरू होने को सहन कर सकते हैं।
अतुल्यकालिक अनुमान समापन बिंदु कतार आने वाले अनुरोध। वे वर्कलोड के लिए आदर्श हैं जहां अनुरोध आकार बड़े (1 जीबी तक) हैं और अनुमान प्रसंस्करण समय मिनटों के क्रम में (15 मिनट तक) हैं। जब प्रक्रिया के लिए कोई अनुरोध नहीं होता है, तो एसिंक्रोनस इंट्रेंस आपको इंस्टेंस काउंट को शून्य पर स्केल करके लागतों को बचाने में सक्षम बनाता है।

समाधान अवलोकन

इस पोस्ट में, हम तैनात करते हैं a पेगासस मॉडल जो पाठ सारांशीकरण करने के लिए पूर्व-प्रशिक्षित था गले लगना सेवा मेरे सेजमेकर होस्टिंग सेवाएं. हम सादगी के लिए हगिंग फेस से मॉडल का उपयोग करते हैं। हालाँकि, आप कर सकते हैं कस्टम डेटासेट के आधार पर मॉडल को फाइन-ट्यून करें. आप में उपलब्ध अन्य मॉडलों को भी आज़मा सकते हैं हगिंग फेस मॉडल हब. हम इस मॉडल को होस्ट करने वाले अतुल्यकालिक निष्कर्ष समापन बिंदु का भी प्रावधान करते हैं, जिससे आप पूर्वानुमान प्राप्त कर सकते हैं।

एसिंक्रोनस इंट्रेंस एंडपॉइंट का इंट्रेंस हैंडलर इनपुट पेलोड के रूप में एक लेख की अपेक्षा करता है। लेख का सारांशित पाठ आउटपुट है। रुझानों का विश्लेषण करने के लिए आउटपुट को डेटाबेस में संग्रहीत किया जाता है या आगे के विश्लेषण के लिए डाउनस्ट्रीम में फीड किया जाता है। यह डाउनस्ट्रीम विश्लेषण डेटा अंतर्दृष्टि प्राप्त करता है जो अनुसंधान में मदद करता है।

हम प्रदर्शित करते हैं कि कैसे अतुल्यकालिक अनुमान समापन बिंदु आपको उपयोगकर्ता-परिभाषित समवर्ती और पूर्णता सूचनाएं प्राप्त करने में सक्षम बनाते हैं। जब ट्रैफ़िक कम हो जाता है और अनुरोध कतार भर जाने पर बैक अप स्केल करने के लिए हम समापन बिंदु के पीछे इंस्टेंस के ऑटो स्केलिंग को शून्य तक स्केल करने के लिए कॉन्फ़िगर करते हैं।

हम भी उपयोग करते हैं अमेज़ॅन क्लाउडवॉच कतार के आकार, कुल प्रसंस्करण समय और संसाधित किए गए आमंत्रणों की निगरानी के लिए मीट्रिक।

निम्नलिखित आरेख में, हम एक अतुल्यकालिक निष्कर्ष समापन बिंदु का उपयोग करते हुए अनुमान करते समय शामिल चरणों को दिखाते हैं।

हमारे पूर्व प्रशिक्षित पेगासस एमएल मॉडल को पहले स्केलिंग एंडपॉइंट पर होस्ट किया जाता है।
उपयोगकर्ता लेख को इनपुट S3 बकेट में सारांशित करने के लिए अपलोड करता है।
एसिंक्रोनस इंट्रेंस एंडपॉइंट को एपीआई का उपयोग करके लागू किया जाता है।
अनुमान पूरा होने के बाद, परिणाम आउटपुट S3 बकेट में सहेजा जाता है।
An अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) अधिसूचना उपयोगकर्ता को पूर्ण सफलता या विफलता के बारे में सूचित करने के लिए भेजी जाती है।

एक अतुल्यकालिक निष्कर्ष समापन बिंदु बनाएँ

हम रीयल-टाइम होस्टेड एंडपॉइंट के समान एसिंक्रोनस इंट्रेंस एंडपॉइंट बनाते हैं। चरणों में एक सेजमेकर मॉडल बनाना, उसके बाद समापन बिंदु को कॉन्फ़िगर करना और समापन बिंदु को परिनियोजित करना शामिल है। दो प्रकार के समापन बिंदुओं के बीच का अंतर यह है कि अतुल्यकालिक निष्कर्ष समापन बिंदु कॉन्फ़िगरेशन में एक होता है AsyncInferenceConfig अनुभाग। यहां हम एंडपॉइंट इनवोकेशन से परिणामों के लिए S3 आउटपुट पथ निर्दिष्ट करते हैं और वैकल्पिक रूप से सफलता और विफलता पर सूचनाओं के लिए SNS विषयों को शामिल करते हैं। हम ग्राहक द्वारा निर्धारित प्रति उदाहरण समवर्ती आमंत्रणों की अधिकतम संख्या भी निर्दिष्ट करते हैं। निम्नलिखित कोड देखें:

AsyncInferenceConfig={ "OutputConfig": { "S3OutputPath": f"s3://{bucket}/{bucket_prefix}/output", # Optionally specify Amazon SNS topics for notifications "NotificationConfig": { "SuccessTopic": success_topic, "ErrorTopic": error_topic, } }, "ClientConfig": { "MaxConcurrentInvocationsPerInstance": 2 #increase this value up to throughput peak for ideal performance } }

एसिंक्रोनस अनुमान के लिए एक एंडपॉइंट कॉन्फ़िगरेशन बनाने के लिए एपीआई पर विवरण के लिए, देखें एक अतुल्यकालिक निष्कर्ष समापन बिंदु बनाएँ.

अतुल्यकालिक निष्कर्ष समापन बिंदु को आमंत्रित करें

निम्नलिखित स्क्रीनशॉट एक संक्षिप्त लेख दिखाता है जिसका उपयोग हम अपने इनपुट पेलोड के रूप में करते हैं:

निम्नलिखित कोड लेख को एक के रूप में अपलोड करता है input.json अमेज़न S3 के लिए फ़ाइल:

sm_session.upload_data( input_location, bucket=sm_session.default_bucket(), key_prefix=prefix, extra_args={"ContentType": "text/plain"})

हम समापन बिंदु को लागू करने के लिए इनपुट पेलोड फ़ाइल में Amazon S3 URI का उपयोग करते हैं। प्रतिक्रिया वस्तु में पूरा होने के बाद परिणाम प्राप्त करने के लिए अमेज़ॅन एस 3 में आउटपुट स्थान होता है:

response = sm_runtime.invoke_endpoint_async(EndpointName=endpoint_name, InputLocation=input_1_s3_location)
output_location = response['OutputLocation']

निम्न स्क्रीनशॉट नमूना आउटपुट पोस्ट सारांश दिखाता है:

एसिंक्रोनस इंट्रेंस एंडपॉइंट को लागू करने के लिए एपीआई के विवरण के लिए, देखें एक अतुल्यकालिक निष्कर्ष समापन बिंदु को आमंत्रित करें.

उपयोगकर्ता द्वारा परिभाषित संगामिति के साथ आमंत्रण अनुरोधों को कतारबद्ध करें

अतुल्यकालिक निष्कर्ष समापन बिंदु स्वचालित रूप से आमंत्रण अनुरोधों को कतारबद्ध करता है। यह विभिन्न निगरानी मेट्रिक्स के साथ पूरी तरह से प्रबंधित कतार है और इसके लिए किसी और कॉन्फ़िगरेशन की आवश्यकता नहीं है। यह का उपयोग करता है MaxConcurrentInvocationsPerInstance पिछले अनुरोधों के पूरा होने के बाद कतार से नए अनुरोधों को संसाधित करने के लिए पूर्ववर्ती समापन बिंदु कॉन्फ़िगरेशन में पैरामीटर। MaxConcurrentInvocationsPerInstance सेजमेकर क्लाइंट द्वारा मॉडल कंटेनर को भेजे गए समवर्ती अनुरोधों की अधिकतम संख्या है। यदि कोई मूल्य प्रदान नहीं किया जाता है, तो सेजमेकर आपके लिए एक इष्टतम मूल्य चुनता है।

एसिंक्रोनस इंट्रेंस एंडपॉइंट के भीतर ऑटो स्केलिंग इंस्टेंस

हम ऑटो स्केलिंग नीति को शून्य की न्यूनतम क्षमता और अधिकतम पांच उदाहरणों की क्षमता के साथ निर्धारित करते हैं। रीयल-टाइम होस्ट किए गए एंडपॉइंट के विपरीत, एसिंक्रोनस इंट्रेंस एंडपॉइंट न्यूनतम क्षमता को शून्य पर सेट करके इंस्टेंस को शून्य तक स्केल करने का समर्थन करते हैं। हम उपयोग करते हैं ApproximateBacklogSizePerInstance स्केलिंग पॉलिसी कॉन्फ़िगरेशन के लिए मीट्रिक प्रति उदाहरण पांच के लक्ष्य कतार बैकलॉग के साथ आगे बढ़ने के लिए। हमने इसके लिए कूलडाउन अवधि निर्धारित की है ScaleInCooldown 120 सेकंड तक और ScaleOutCooldown 120 सेकंड तक। के लिए मूल्य ApproximateBacklogSizePerInstance ट्रैफ़िक और स्केलिंग गति के प्रति आपकी संवेदनशीलता के आधार पर चुना जाता है। आप जितनी तेज़ी से स्केल करेंगे, आपकी लागत उतनी ही कम होगी, लेकिन नए अनुरोध आने पर आपको फिर से स्केल करने की अधिक संभावना होगी। आप जितने धीमे होंगे, आपकी लागत उतनी ही अधिक होगी, लेकिन आपके पास होने की संभावना कम है जब आपका कद छोटा होता है तो एक अनुरोध आता है।

client = boto3.client('application-autoscaling') # Common class representing Application Auto Scaling for SageMaker amongst other services resource_id='endpoint/' + endpoint_name + '/variant/' + 'variant1' # This is the format in which application autoscaling references the endpoint response = client.register_scalable_target(
ServiceNamespace='sagemaker', #
ResourceId=resource_id,
ScalableDimension='sagemaker:variant:DesiredInstanceCount',
MinCapacity=0,
MaxCapacity=5
) response = client.put_scaling_policy(
PolicyName='Invocations-ScalingPolicy',
ServiceNamespace='sagemaker', # The namespace of the AWS service that provides the resource.
ResourceId=resource_id, # Endpoint name
ScalableDimension='sagemaker:variant:DesiredInstanceCount', # SageMaker supports only Instance Count
PolicyType='TargetTrackingScaling', # 'StepScaling'|'TargetTrackingScaling'
TargetTrackingScalingPolicyConfiguration={ 'TargetValue': 5.0, # The target value for the metric. 'CustomizedMetricSpecification': { 'MetricName': 'ApproximateBacklogSizePerInstance', 'Namespace': 'AWS/SageMaker', 'Dimensions': [{'Name': 'EndpointName', 'Value': endpoint_name }], 'Statistic': 'Average',
}, 'ScaleInCooldown': 120, # ScaleInCooldown - The amount of time, in seconds, after a scale-in activity completes before another scale in activity can start. 'ScaleOutCooldown': 120 # ScaleOutCooldown - The amount of time, in seconds, after a scale-out activity completes before another scale out activity can start.
# 'DisableScaleIn': True|False - indicates whether scale in by the target tracking policy is disabled.
# If the value is true, scale-in is disabled and the target tracking policy won't remove capacity from the scalable resource.
}
)

एसिंक्रोनस इंट्रेंस एंडपॉइंट को ऑटो स्केल करने के लिए एपीआई पर विवरण के लिए, देखें ऑटोस्केल एक अतुल्यकालिक अनुमान समापन बिंदु.

अतुल्यकालिक निष्कर्ष समापन बिंदु से सूचनाएं कॉन्फ़िगर करें

हम प्रत्येक समापन बिंदु आमंत्रण परिणाम के लिए सफलता और त्रुटि सूचनाओं के लिए दो अलग SNS विषय बनाते हैं:

sns_client = boto3.client('sns')
response = sns_client.create_topic(Name="Async-Demo-ErrorTopic2")
error_topic = response['TopicArn']
response = sns_client.create_topic(Name="Async-Demo-SuccessTopic2")
success_topic = response['TopicArn']

सूचनाओं के लिए अन्य विकल्पों में समय-समय पर S3 बकेट के आउटपुट की जाँच करना, या किसी को इनिशियलाइज़ करने के लिए S3 बकेट नोटिफिकेशन का उपयोग करना शामिल है AWS लाम्बा फ़ाइल अपलोड पर कार्य। SNS सूचनाएं समापन बिंदु कॉन्फ़िगरेशन अनुभाग में शामिल हैं जैसा कि पहले बताया गया है।

एसिंक्रोनस इंट्रेंस एंडपॉइंट से नोटिफिकेशन कैसे सेट करें, इसके विवरण के लिए देखें भविष्यवाणी परिणाम की जाँच करें.

अतुल्यकालिक निष्कर्ष समापन बिंदु की निगरानी करें

हम एसिंक्रोनस इंट्रेंस के लिए विशिष्ट अतिरिक्त क्लाउडवॉच मेट्रिक्स के साथ एसिंक्रोनस इंट्रेंस एंडपॉइंट की निगरानी करते हैं। उदाहरण के लिए, हम प्रत्येक उदाहरण में कतार की लंबाई की निगरानी करते हैं ApproximateBacklogSizePerInstance और कुल कतार लंबाई ApproximateBacklogSize.

मीट्रिक की पूरी सूची के लिए, देखें अतुल्यकालिक अनुमान समापन बिंदुओं की निगरानी.

हम उच्च प्रदर्शन के साथ सबसे अधिक लागत प्रभावी उदाहरण प्राप्त करने के लिए एंडपॉइंट कॉन्फ़िगरेशन को अनुकूलित कर सकते हैं। उदाहरण के लिए, हम Amazon Elastic Inference या AWS Inferentia के साथ एक उदाहरण का उपयोग कर सकते हैं। हम अन्य मॉडल सर्वर और कंटेनर मापदंडों को समायोजित करते हुए संगामिति स्तर को धीरे-धीरे थ्रूपुट शिखर तक बढ़ा सकते हैं।

क्लाउडवॉच रेखांकन

हमने पिछले अनुभाग में वर्णित ऑटो स्केलिंग नीति के साथ सक्षम एसिंक्रोनस इंट्रेंस एंडपॉइंट के लिए एक अवधि में बहने वाले 10,000 अनुमान अनुरोधों के ट्रैफ़िक का अनुकरण किया।

निम्न स्क्रीनशॉट अनुरोधों के आने से पहले इंस्टेंस मेट्रिक्स दिखाता है। हम एक लाइव एंडपॉइंट के साथ शुरू करते हैं जिसमें शून्य इंस्टेंस चल रहा है:

निम्नलिखित ग्राफ दिखाता है कि कैसे BacklogSize और BacklogSizePerInstance ऑटो स्केलिंग शुरू होने के साथ ही मेट्रिक्स बदल जाते हैं और एंडपॉइंट पर लोड कई उदाहरणों द्वारा साझा किया जाता है जिन्हें ऑटो स्केलिंग प्रक्रिया के हिस्से के रूप में प्रावधान किया गया था।

जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है, जैसे-जैसे अनुमानों की संख्या बढ़ी, उदाहरणों की संख्या में वृद्धि हुई:

निम्न स्क्रीनशॉट दिखाता है कि कैसे स्केलिंग एंडपॉइंट को शून्य चल रहे इंस्टेंस की प्रारंभिक स्थिति में वापस लाती है:

क्लीन अप

सभी अनुरोध पूर्ण होने के बाद, हम रीयल-टाइम होस्ट किए गए समापन बिंदुओं को हटाने के समान समापन बिंदु को हटा सकते हैं। ध्यान दें कि यदि हम एसिंक्रोनस इंट्रेंस एंडपॉइंट की न्यूनतम क्षमता को शून्य पर सेट करते हैं, तो इसके शून्य होने के बाद कोई इंस्टेंस शुल्क नहीं लगता है।

अगर आपने अपने एंडपॉइंट के लिए ऑटो स्केलिंग को सक्षम किया है, तो एंडपॉइंट को हटाने से पहले सुनिश्चित करें कि आपने एंडपॉइंट को स्केलेबल टारगेट के रूप में डीरजिस्टर कर दिया है। ऐसा करने के लिए, निम्न कोड चलाएँ:

response = client.deregister_scalable_target(ServiceNamespace='sagemaker',ResourceId='resource_id',ScalableDimension='sagemaker:variant:DesiredInstanceCount')

उपयोग के बाद अपने समापन बिंदु को हटाना याद रखें क्योंकि इस डेमो में उपयोग किए गए उदाहरणों के लिए आपसे शुल्क लिया जाएगा।

sm_client.delete_endpoint(EndpointName=endpoint_name)

आपको S3 ऑब्जेक्ट और SNS विषयों को भी हटाना होगा। यदि आपने SNS सूचनाओं का उपभोग करने और उन पर कार्रवाई करने के लिए कोई अन्य AWS संसाधन बनाए हैं, तो आप उन्हें हटाना भी चाह सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि कैसे एक विशिष्ट बड़े इनपुट पेलोड को संसाधित करने के लिए सेजमेकर की नई अतुल्यकालिक अनुमान क्षमता का उपयोग किया जाए जो कि एक सारांश कार्य का हिस्सा है। अनुमान के लिए, हमने हगिंग फेस से एक मॉडल का इस्तेमाल किया और इसे एसिंक्रोनस इंट्रेंस एंडपॉइंट पर तैनात किया। हमने बर्स्ट ट्रैफिक, उच्च मॉडल प्रोसेसिंग समय और अनुसंधान विश्लेषण से जुड़े बड़े पेलोड की सामान्य चुनौतियों के बारे में बताया। आंतरिक कतारों, पूर्वनिर्धारित समवर्ती सीमाओं को प्रबंधित करने, प्रतिक्रिया सूचनाओं को कॉन्फ़िगर करने और स्वचालित रूप से शून्य तक स्केल करने के लिए अतुल्यकालिक निष्कर्ष समापन बिंदु की अंतर्निहित क्षमता ने हमें इन चुनौतियों का समाधान करने में मदद की। इस उदाहरण के लिए पूरा कोड उपलब्ध है GitHub.

सेजमेकर एसिंक्रोनस इंट्रेंस के साथ आरंभ करने के लिए, चेक आउट करें अतुल्यकालिक अनुमान.

लेखक के बारे में

दिनेश कुमार सुब्रमणि एडिनबर्ग, स्कॉटलैंड में स्थित यूकेआईआर एसएमबी टीम के साथ एक वरिष्ठ समाधान वास्तुकार है। वह आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग में माहिर हैं। AWS सेवाओं के साथ उनकी समस्याओं को हल करने में मदद करने के लिए दिनेश को उद्योगों में ग्राहकों के साथ काम करने में मज़ा आता है। काम के अलावा, उन्हें अपने परिवार के साथ समय बिताना, शतरंज खेलना और विभिन्न शैलियों में संगीत का आनंद लेना पसंद है।

रघु रमेश अमेज़ॅन सेजमेकर सर्विस टीम के साथ एक एमएल सॉल्यूशंस आर्किटेक्ट है। वह ग्राहकों को बड़े पैमाने पर सेजमेकर में एमएल प्रोडक्शन वर्कलोड बनाने, तैनात करने और माइग्रेट करने में मदद करने पर ध्यान केंद्रित करता है। वह मशीन लर्निंग, एआई और कंप्यूटर विज़न डोमेन में माहिर हैं, और यूटी डलास से कंप्यूटर साइंस में मास्टर डिग्री रखते हैं। अपने खाली समय में, उन्हें यात्रा करना और फोटोग्राफी करना पसंद है।

समय टिकट: फ़रवरी 7, 2022

समय टिकट: जनवरी 17, 2024

हगिंग फेस और अमेज़ॅन सेजमेकर एसिंक्रोनस इंट्रेंस एंडपॉइंट्स के साथ उच्च-मूल्य वाले अनुसंधान में सुधार करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

एक अतुल्यकालिक निष्कर्ष समापन बिंदु बनाएँ

अतुल्यकालिक निष्कर्ष समापन बिंदु को आमंत्रित करें

उपयोगकर्ता द्वारा परिभाषित संगामिति के साथ आमंत्रण अनुरोधों को कतारबद्ध करें

एसिंक्रोनस इंट्रेंस एंडपॉइंट के भीतर ऑटो स्केलिंग इंस्टेंस

अतुल्यकालिक निष्कर्ष समापन बिंदु से सूचनाएं कॉन्फ़िगर करें

अतुल्यकालिक निष्कर्ष समापन बिंदु की निगरानी करें

क्लाउडवॉच रेखांकन

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

एडब्ल्यूएस एआई सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 2

IMDb नॉलेज ग्राफ़ का उपयोग करके पावर अनुशंसाएँ और खोज - भाग 2

Amazon SageMaker और Triton Inference Server के साथ कई मॉडल परोसें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा