Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন আমাজন ওয়েব সার্ভিসেস

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আমাজন সেজমেকার রিয়েল-টাইম ইনফারেন্সের জন্য মেশিন লার্নিং (এমএল) মডেল স্থাপন করা সহজ করে তোলে এবং সিপিইউ এবং এক্সিলারেটরগুলির মতো বিস্তৃত এমএল উদাহরণগুলির একটি বিস্তৃত নির্বাচন অফার করে এডাব্লুএস ইনফেরেন্টিয়া. একটি সম্পূর্ণরূপে পরিচালিত পরিষেবা হিসাবে, আপনি আপনার মডেল স্থাপনাগুলিকে স্কেল করতে পারেন, অনুমান খরচ কমিয়ে আনতে পারেন এবং কম অপারেশনাল বোঝা সহ উত্পাদনে আপনার মডেলগুলিকে আরও কার্যকরভাবে পরিচালনা করতে পারেন। একটি সেজমেকার রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্টে একটি HTTPs এন্ডপয়েন্ট এবং ML দৃষ্টান্ত থাকে যা উচ্চ প্রাপ্যতার জন্য একাধিক উপলভ্যতা অঞ্চল জুড়ে স্থাপন করা হয়। সেজমেকার অ্যাপ্লিকেশন স্বয়ংক্রিয় স্কেলিং কাজের চাপে পরিবর্তনের প্রতিক্রিয়া হিসাবে একটি মডেলের জন্য প্রবিধান করা এমএল দৃষ্টান্তের সংখ্যা গতিশীলভাবে সামঞ্জস্য করতে পারে। এন্ডপয়েন্ট রাউন্ড-রবিন অ্যালগরিদম ব্যবহার করে ML দৃষ্টান্তগুলিতে আগত অনুরোধগুলিকে সমানভাবে বিতরণ করে।

যখন দৃষ্টান্তে মোতায়েন করা এমএল মডেলগুলি প্রচুর সংখ্যক ক্লায়েন্টের কাছ থেকে API কলগুলি গ্রহণ করে, তখন আপনার অনুরোধ এবং প্রতিক্রিয়াগুলিতে প্রচুর পরিবর্তনশীলতা না থাকলে অনুরোধগুলির একটি এলোমেলো বিতরণ খুব ভাল কাজ করতে পারে। কিন্তু জেনারেটিভ এআই ওয়ার্কলোড সহ সিস্টেমে, অনুরোধ এবং প্রতিক্রিয়া অত্যন্ত পরিবর্তনশীল হতে পারে। এই ক্ষেত্রে, র্যান্ডম লোড ব্যালেন্সিংয়ের পরিবর্তে উদাহরণের ক্ষমতা এবং ব্যবহার বিবেচনা করে ভারসাম্য লোড করা প্রায়ই বাঞ্ছনীয়।

এই পোস্টে, আমরা সেজমেকার ন্যূনতম অসামান্য অনুরোধ (এলওআর) রাউটিং কৌশল নিয়ে আলোচনা করি এবং কীভাবে এটি এমএল উদাহরণগুলির ক্ষমতা এবং ব্যবহার বিবেচনা করে নির্দিষ্ট ধরণের রিয়েল-টাইম ইনফারেন্স ওয়ার্কলোডের জন্য বিলম্ব কমাতে পারে। আমরা ডিফল্ট রাউটিং প্রক্রিয়ার উপর এর সুবিধাগুলি সম্পর্কে কথা বলি এবং কীভাবে আপনি আপনার মডেল স্থাপনার জন্য LOR সক্ষম করতে পারেন। অবশেষে, আমরা এলোমেলো রাউটিং এর ডিফল্ট রাউটিং কৌশলের উপর LOR-এর সাথে লেটেন্সি উন্নতির একটি তুলনামূলক বিশ্লেষণ উপস্থাপন করি।

সেজমেকার LOR কৌশল

ডিফল্টরূপে, সেজমেকার এন্ডপয়েন্টের একটি এলোমেলো রাউটিং কৌশল রয়েছে। সেজমেকার এখন একটি LOR কৌশল সমর্থন করে, যা সেজমেকারকে সেই অনুরোধটি পরিবেশন করার জন্য সবচেয়ে উপযুক্ত উদাহরণে অনুরোধগুলিকে সর্বোত্তমভাবে রুট করতে দেয়। SageMaker আপনার এন্ডপয়েন্টের পিছনের দৃষ্টান্তগুলির লোড এবং প্রতিটি উদাহরণে মোতায়েন করা মডেল বা অনুমান উপাদানগুলি পর্যবেক্ষণ করে এটি সম্ভব করে।

নিম্নলিখিত ইন্টারেক্টিভ ডায়াগ্রামটি ডিফল্ট রাউটিং নীতি দেখায় যেখানে মডেল এন্ডপয়েন্টে আসা অনুরোধগুলি ML ইনস্ট্যান্সে এলোমেলোভাবে ফরোয়ার্ড করা হয়।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত ইন্টারেক্টিভ ডায়াগ্রামটি রাউটিং কৌশলটি দেখায় যেখানে সেজমেকার অনুরোধটি এমন উদাহরণে রুট করবে যেখানে সবচেয়ে কম সংখ্যক বকেয়া অনুরোধ রয়েছে।

সাধারণভাবে, LOR রাউটিং ফাউন্ডেশনাল মডেল বা জেনারেটিভ এআই মডেলের জন্য ভাল কাজ করে যখন আপনার মডেল কয়েকশ মিলিসেকেন্ড থেকে মিনিটে সাড়া দেয়। যদি আপনার মডেলের প্রতিক্রিয়ার লেটেন্সি কম থাকে (শত শত মিলিসেকেন্ড পর্যন্ত), আপনি র্যান্ডম রাউটিং থেকে আরও উপকৃত হতে পারেন। যাই হোক না কেন, আমরা আপনাকে আপনার কাজের চাপের জন্য সেরা রাউটিং অ্যালগরিদম পরীক্ষা এবং সনাক্ত করার পরামর্শ দিচ্ছি।

সেজমেকার রাউটিং কৌশলগুলি কীভাবে সেট করবেন

SageMaker এখন আপনাকে সেট করতে দেয় RoutingStrategy প্যারামিটার তৈরি করার সময় EndpointConfiguration শেষ পয়েন্টের জন্য। ব্যবধান RoutingStrategy সেজমেকার দ্বারা সমর্থিত মানগুলি হল:

LEAST_OUTSTANDING_REQUESTS
RANDOM

নিম্নে একটি অনুমান শেষ বিন্দুতে একটি মডেলের স্থাপনার উদাহরণ রয়েছে যা LOR সক্ষম করেছে:

সেটিং করে এন্ডপয়েন্ট কনফিগারেশন তৈরি করুন RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

এন্ডপয়েন্ট কনফিগারেশন ব্যবহার করে এন্ডপয়েন্ট তৈরি করুন (কোন পরিবর্তন নেই):
```
create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)
```

কর্মক্ষমতা ফলাফল

এন্ড-টু-এন্ড ইনফারেন্স লেটেন্সি এবং থ্রুপুট পরিমাপ করতে আমরা পারফরম্যান্স বেঞ্চমার্কিং চালিয়েছি কোডজেন2-7বি ডিফল্ট রাউটিং এবং স্মার্ট রাউটিং এন্ডপয়েন্ট সহ ml.g5.24xl ইনস্ট্যান্সে হোস্ট করা মডেল। CodeGen2 মডেলটি অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলের পরিবারের অন্তর্গত এবং ইংরেজি প্রম্পট দেওয়া হলে এক্সিকিউটেবল কোড তৈরি করে।

আমাদের বিশ্লেষণে, আমরা প্রতিটি পরীক্ষার জন্য প্রতিটি এন্ডপয়েন্টের পিছনে ml.g5.24xl দৃষ্টান্তের সংখ্যা বাড়িয়েছি কারণ সমসাময়িক ব্যবহারকারীর সংখ্যা বৃদ্ধি পেয়েছে, যেমনটি নিম্নলিখিত টেবিলে দেখানো হয়েছে।

পরীক্ষা	সমসাময়িক ব্যবহারকারীর সংখ্যা	দৃষ্টান্তের সংখ্যা
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

আমরা উভয় এন্ডপয়েন্টের জন্য এন্ড-টু-এন্ড P99 লেটেন্সি পরিমাপ করেছি এবং নিম্নলিখিত গ্রাফে দেখানো হিসাবে উদাহরণের সংখ্যা 4 থেকে 33-এ বাড়ানো হলে লেটেন্সিতে 5-20% উন্নতি লক্ষ্য করেছি।

একইভাবে, আমরা প্রতি মিনিটে থ্রুপুটে 15-16% উন্নতি লক্ষ্য করেছি যখন দৃষ্টান্তের সংখ্যা 5 থেকে 20 পর্যন্ত বৃদ্ধি করা হয়েছিল।

এটি ব্যাখ্যা করে যে স্মার্ট রাউটিং এন্ডপয়েন্টের মধ্যে ট্রাফিক বন্টন উন্নত করতে সক্ষম, যার ফলে শেষ থেকে শেষ লেটেন্সি এবং সামগ্রিক থ্রুপুট উন্নতি হয়।

উপসংহার

এই পোস্টে, আমরা সেজমেকার রাউটিং কৌশল এবং LOR রাউটিং সক্ষম করার নতুন বিকল্প ব্যাখ্যা করেছি। আমরা ব্যাখ্যা করেছি কিভাবে LOR সক্ষম করা যায় এবং কীভাবে এটি আপনার মডেল স্থাপনার সুবিধা দিতে পারে। আমাদের পারফরম্যান্স পরীক্ষাগুলি রিয়েল-টাইম ইনফারেন্সিংয়ের সময় লেটেন্সি এবং থ্রুপুট উন্নতি দেখিয়েছে। SageMaker রাউটিং বৈশিষ্ট্য সম্পর্কে আরও জানতে, পড়ুন ডকুমেন্টেশন. আমরা আপনাকে আপনার অনুমান কাজের লোডগুলি মূল্যায়ন করতে এবং আপনি রাউটিং কৌশলটির সাথে সর্বোত্তমভাবে কনফিগার করেছেন কিনা তা নির্ধারণ করতে উত্সাহিত করি৷

লেখক সম্পর্কে

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ. জেমস পার্ক অ্যামাজন ওয়েব সার্ভিসের একজন সলিউশন আর্কিটেক্ট। তিনি AWS-এ প্রযুক্তি সমাধান ডিজাইন, নির্মাণ এবং স্থাপন করতে Amazon.com-এর সাথে কাজ করেন এবং AI এবং মেশিন লার্নিং-এ তার বিশেষ আগ্রহ রয়েছে। অবসর সময়ে তিনি নতুন সংস্কৃতি, নতুন অভিজ্ঞতা খুঁজে পেতে এবং সাম্প্রতিক প্রযুক্তির প্রবণতাগুলির সাথে আপ টু ডেট থাকতে উপভোগ করেন৷ আপনি তাকে খুঁজে পেতে পারেন লিঙ্কডইন.

ভেনুগোপাল পাই AWS-এর একজন সলিউশন আর্কিটেক্ট। তিনি ভারতের বেঙ্গালুরুতে থাকেন এবং ডিজিটাল-নেটিভ গ্রাহকদের AWS-এ তাদের অ্যাপ্লিকেশন স্কেল ও অপ্টিমাইজ করতে সাহায্য করেন।

ডেভিড নিজেন্ডা অ্যামাজন সেজমেকার টিমের একজন সিনিয়র সফ্টওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার, বর্তমানে প্রোডাকশন মেশিন লার্নিং ওয়ার্কফ্লো উন্নত করার পাশাপাশি নতুন ইনফারেন্স ফিচার চালু করার জন্য কাজ করছেন। অবসর সময়ে, তিনি তার বাচ্চাদের সাথে থাকার চেষ্টা করেন।

দীপ্তি রাঘা অ্যামাজন সেজমেকার দলের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তার বর্তমান কাজটি মেশিন লার্নিং মডেলগুলিকে দক্ষতার সাথে হোস্ট করার জন্য বৈশিষ্ট্যগুলি তৈরি করার উপর দৃষ্টি নিবদ্ধ করে৷ তার অবসর সময়ে, তিনি ভ্রমণ, হাইকিং এবং গাছপালা বৃদ্ধি উপভোগ করেন।

অ্যালান ট্যান সেজমেকারের একজন সিনিয়র প্রোডাক্ট ম্যানেজার, বৃহৎ মডেল অনুমানে অগ্রণী প্রচেষ্টা। তিনি বিশ্লেষণের ক্ষেত্রে মেশিন লার্নিং প্রয়োগ করার বিষয়ে উত্সাহী। কাজের বাইরে, তিনি বাইরে উপভোগ করেন।

ধাওয়াল প্যাটেল AWS-এর একজন প্রধান মেশিন লার্নিং আর্কিটেক্ট। তিনি ডিস্ট্রিবিউটেড কম্পিউটিং এবং কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত সমস্যা নিয়ে বড় উদ্যোগ থেকে শুরু করে মাঝারি আকারের স্টার্টআপ পর্যন্ত সংস্থাগুলির সাথে কাজ করেছেন। তিনি এনএলপি এবং কম্পিউটার ভিশন ডোমেন সহ গভীর শিক্ষার উপর ফোকাস করেন। তিনি গ্রাহকদের SageMaker-এ উচ্চ কর্মক্ষমতা মডেল অনুমান অর্জনে সহায়তা করেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

সময় স্ট্যাম্প: নভেম্বর 30, 2023

সময় স্ট্যাম্প: জুন 23, 2023

প্লেটো দ্বারা প্রকাশিত

BMC AMI zAdviser Enterprise এবং Amazon Bedrock এর সাথে DevOps পরিপক্কতা অর্জন করুন | আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker মডেল রেজিস্ট্রি ব্যবহার করে একটি ক্রস-অ্যাকাউন্ট MLOps ওয়ার্কফ্লো তৈরি করুন

AWS Inferentia2 এ বড় মডেল ইনফারেন্স কন্টেনার ব্যবহার করে বড় ভাষার মডেল স্থাপন করুন

অ্যামাজন সেজমেকার অটোপাইলট মডেলগুলিকে সার্ভারহীন ইনফারেন্স এন্ডপয়েন্টে স্থাপন করুন

Amazon Personalize-এ অনুরূপ-আইটেমগুলির জন্য জনপ্রিয়তা টিউনিং চালু করা হচ্ছে | আমাজন ওয়েব সার্ভিসেস

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব