Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিসেস

আমাজন সেজমেকার রিয়েল-টাইম ইনফারেন্সের জন্য মেশিন লার্নিং (এমএল) মডেল স্থাপন করা সহজ করে তোলে এবং সিপিইউ এবং এক্সিলারেটরগুলির মতো বিস্তৃত এমএল উদাহরণগুলির একটি বিস্তৃত নির্বাচন অফার করে এডাব্লুএস ইনফেরেন্টিয়া. একটি সম্পূর্ণরূপে পরিচালিত পরিষেবা হিসাবে, আপনি আপনার মডেল স্থাপনাগুলিকে স্কেল করতে পারেন, অনুমান খরচ কমিয়ে আনতে পারেন এবং কম অপারেশনাল বোঝা সহ উত্পাদনে আপনার মডেলগুলিকে আরও কার্যকরভাবে পরিচালনা করতে পারেন। একটি সেজমেকার রিয়েল-টাইম ইনফারেন্স এন্ডপয়েন্টে একটি HTTPs এন্ডপয়েন্ট এবং ML দৃষ্টান্ত থাকে যা উচ্চ প্রাপ্যতার জন্য একাধিক উপলভ্যতা অঞ্চল জুড়ে স্থাপন করা হয়। সেজমেকার অ্যাপ্লিকেশন স্বয়ংক্রিয় স্কেলিং কাজের চাপে পরিবর্তনের প্রতিক্রিয়া হিসাবে একটি মডেলের জন্য প্রবিধান করা এমএল দৃষ্টান্তের সংখ্যা গতিশীলভাবে সামঞ্জস্য করতে পারে। এন্ডপয়েন্ট রাউন্ড-রবিন অ্যালগরিদম ব্যবহার করে ML দৃষ্টান্তগুলিতে আগত অনুরোধগুলিকে সমানভাবে বিতরণ করে।

যখন দৃষ্টান্তে মোতায়েন করা এমএল মডেলগুলি প্রচুর সংখ্যক ক্লায়েন্টের কাছ থেকে API কলগুলি গ্রহণ করে, তখন আপনার অনুরোধ এবং প্রতিক্রিয়াগুলিতে প্রচুর পরিবর্তনশীলতা না থাকলে অনুরোধগুলির একটি এলোমেলো বিতরণ খুব ভাল কাজ করতে পারে। কিন্তু জেনারেটিভ এআই ওয়ার্কলোড সহ সিস্টেমে, অনুরোধ এবং প্রতিক্রিয়া অত্যন্ত পরিবর্তনশীল হতে পারে। এই ক্ষেত্রে, র্যান্ডম লোড ব্যালেন্সিংয়ের পরিবর্তে উদাহরণের ক্ষমতা এবং ব্যবহার বিবেচনা করে ভারসাম্য লোড করা প্রায়ই বাঞ্ছনীয়।

এই পোস্টে, আমরা সেজমেকার ন্যূনতম অসামান্য অনুরোধ (এলওআর) রাউটিং কৌশল নিয়ে আলোচনা করি এবং কীভাবে এটি এমএল উদাহরণগুলির ক্ষমতা এবং ব্যবহার বিবেচনা করে নির্দিষ্ট ধরণের রিয়েল-টাইম ইনফারেন্স ওয়ার্কলোডের জন্য বিলম্ব কমাতে পারে। আমরা ডিফল্ট রাউটিং প্রক্রিয়ার উপর এর সুবিধাগুলি সম্পর্কে কথা বলি এবং কীভাবে আপনি আপনার মডেল স্থাপনার জন্য LOR সক্ষম করতে পারেন। অবশেষে, আমরা এলোমেলো রাউটিং এর ডিফল্ট রাউটিং কৌশলের উপর LOR-এর সাথে লেটেন্সি উন্নতির একটি তুলনামূলক বিশ্লেষণ উপস্থাপন করি।

সেজমেকার LOR কৌশল

ডিফল্টরূপে, সেজমেকার এন্ডপয়েন্টের একটি এলোমেলো রাউটিং কৌশল রয়েছে। সেজমেকার এখন একটি LOR কৌশল সমর্থন করে, যা সেজমেকারকে সেই অনুরোধটি পরিবেশন করার জন্য সবচেয়ে উপযুক্ত উদাহরণে অনুরোধগুলিকে সর্বোত্তমভাবে রুট করতে দেয়। SageMaker আপনার এন্ডপয়েন্টের পিছনের দৃষ্টান্তগুলির লোড এবং প্রতিটি উদাহরণে মোতায়েন করা মডেল বা অনুমান উপাদানগুলি পর্যবেক্ষণ করে এটি সম্ভব করে।

নিম্নলিখিত ইন্টারেক্টিভ ডায়াগ্রামটি ডিফল্ট রাউটিং নীতি দেখায় যেখানে মডেল এন্ডপয়েন্টে আসা অনুরোধগুলি ML ইনস্ট্যান্সে এলোমেলোভাবে ফরোয়ার্ড করা হয়।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত ইন্টারেক্টিভ ডায়াগ্রামটি রাউটিং কৌশলটি দেখায় যেখানে সেজমেকার অনুরোধটি এমন উদাহরণে রুট করবে যেখানে সবচেয়ে কম সংখ্যক বকেয়া অনুরোধ রয়েছে।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

সাধারণভাবে, LOR রাউটিং ফাউন্ডেশনাল মডেল বা জেনারেটিভ এআই মডেলের জন্য ভাল কাজ করে যখন আপনার মডেল কয়েকশ মিলিসেকেন্ড থেকে মিনিটে সাড়া দেয়। যদি আপনার মডেলের প্রতিক্রিয়ার লেটেন্সি কম থাকে (শত শত মিলিসেকেন্ড পর্যন্ত), আপনি র্যান্ডম রাউটিং থেকে আরও উপকৃত হতে পারেন। যাই হোক না কেন, আমরা আপনাকে আপনার কাজের চাপের জন্য সেরা রাউটিং অ্যালগরিদম পরীক্ষা এবং সনাক্ত করার পরামর্শ দিচ্ছি।

সেজমেকার রাউটিং কৌশলগুলি কীভাবে সেট করবেন

SageMaker এখন আপনাকে সেট করতে দেয় RoutingStrategy প্যারামিটার তৈরি করার সময় EndpointConfiguration শেষ পয়েন্টের জন্য। ব্যবধান RoutingStrategy সেজমেকার দ্বারা সমর্থিত মানগুলি হল:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

নিম্নে একটি অনুমান শেষ বিন্দুতে একটি মডেলের স্থাপনার উদাহরণ রয়েছে যা LOR সক্ষম করেছে:

  1. সেটিং করে এন্ডপয়েন্ট কনফিগারেশন তৈরি করুন RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. এন্ডপয়েন্ট কনফিগারেশন ব্যবহার করে এন্ডপয়েন্ট তৈরি করুন (কোন পরিবর্তন নেই):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

কর্মক্ষমতা ফলাফল

এন্ড-টু-এন্ড ইনফারেন্স লেটেন্সি এবং থ্রুপুট পরিমাপ করতে আমরা পারফরম্যান্স বেঞ্চমার্কিং চালিয়েছি কোডজেন2-7বি ডিফল্ট রাউটিং এবং স্মার্ট রাউটিং এন্ডপয়েন্ট সহ ml.g5.24xl ইনস্ট্যান্সে হোস্ট করা মডেল। CodeGen2 মডেলটি অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলের পরিবারের অন্তর্গত এবং ইংরেজি প্রম্পট দেওয়া হলে এক্সিকিউটেবল কোড তৈরি করে।

আমাদের বিশ্লেষণে, আমরা প্রতিটি পরীক্ষার জন্য প্রতিটি এন্ডপয়েন্টের পিছনে ml.g5.24xl দৃষ্টান্তের সংখ্যা বাড়িয়েছি কারণ সমসাময়িক ব্যবহারকারীর সংখ্যা বৃদ্ধি পেয়েছে, যেমনটি নিম্নলিখিত টেবিলে দেখানো হয়েছে।

পরীক্ষা সমসাময়িক ব্যবহারকারীর সংখ্যা দৃষ্টান্তের সংখ্যা
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

আমরা উভয় এন্ডপয়েন্টের জন্য এন্ড-টু-এন্ড P99 লেটেন্সি পরিমাপ করেছি এবং নিম্নলিখিত গ্রাফে দেখানো হিসাবে উদাহরণের সংখ্যা 4 থেকে 33-এ বাড়ানো হলে লেটেন্সিতে 5-20% উন্নতি লক্ষ্য করেছি।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

একইভাবে, আমরা প্রতি মিনিটে থ্রুপুটে 15-16% উন্নতি লক্ষ্য করেছি যখন দৃষ্টান্তের সংখ্যা 5 থেকে 20 পর্যন্ত বৃদ্ধি করা হয়েছিল।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

এটি ব্যাখ্যা করে যে স্মার্ট রাউটিং এন্ডপয়েন্টের মধ্যে ট্রাফিক বন্টন উন্নত করতে সক্ষম, যার ফলে শেষ থেকে শেষ লেটেন্সি এবং সামগ্রিক থ্রুপুট উন্নতি হয়।

উপসংহার

এই পোস্টে, আমরা সেজমেকার রাউটিং কৌশল এবং LOR রাউটিং সক্ষম করার নতুন বিকল্প ব্যাখ্যা করেছি। আমরা ব্যাখ্যা করেছি কিভাবে LOR সক্ষম করা যায় এবং কীভাবে এটি আপনার মডেল স্থাপনার সুবিধা দিতে পারে। আমাদের পারফরম্যান্স পরীক্ষাগুলি রিয়েল-টাইম ইনফারেন্সিংয়ের সময় লেটেন্সি এবং থ্রুপুট উন্নতি দেখিয়েছে। SageMaker রাউটিং বৈশিষ্ট্য সম্পর্কে আরও জানতে, পড়ুন ডকুমেন্টেশন. আমরা আপনাকে আপনার অনুমান কাজের লোডগুলি মূল্যায়ন করতে এবং আপনি রাউটিং কৌশলটির সাথে সর্বোত্তমভাবে কনফিগার করেছেন কিনা তা নির্ধারণ করতে উত্সাহিত করি৷


লেখক সম্পর্কে

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.জেমস পার্ক অ্যামাজন ওয়েব সার্ভিসের একজন সলিউশন আর্কিটেক্ট। তিনি AWS-এ প্রযুক্তি সমাধান ডিজাইন, নির্মাণ এবং স্থাপন করতে Amazon.com-এর সাথে কাজ করেন এবং AI এবং মেশিন লার্নিং-এ তার বিশেষ আগ্রহ রয়েছে। অবসর সময়ে তিনি নতুন সংস্কৃতি, নতুন অভিজ্ঞতা খুঁজে পেতে এবং সাম্প্রতিক প্রযুক্তির প্রবণতাগুলির সাথে আপ টু ডেট থাকতে উপভোগ করেন৷ আপনি তাকে খুঁজে পেতে পারেন লিঙ্কডইন.

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.ভেনুগোপাল পাই AWS-এর একজন সলিউশন আর্কিটেক্ট। তিনি ভারতের বেঙ্গালুরুতে থাকেন এবং ডিজিটাল-নেটিভ গ্রাহকদের AWS-এ তাদের অ্যাপ্লিকেশন স্কেল ও অপ্টিমাইজ করতে সাহায্য করেন।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.ডেভিড নিজেন্ডা অ্যামাজন সেজমেকার টিমের একজন সিনিয়র সফ্টওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার, বর্তমানে প্রোডাকশন মেশিন লার্নিং ওয়ার্কফ্লো উন্নত করার পাশাপাশি নতুন ইনফারেন্স ফিচার চালু করার জন্য কাজ করছেন। অবসর সময়ে, তিনি তার বাচ্চাদের সাথে থাকার চেষ্টা করেন।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.দীপ্তি রাঘা অ্যামাজন সেজমেকার দলের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তার বর্তমান কাজটি মেশিন লার্নিং মডেলগুলিকে দক্ষতার সাথে হোস্ট করার জন্য বৈশিষ্ট্যগুলি তৈরি করার উপর দৃষ্টি নিবদ্ধ করে৷ তার অবসর সময়ে, তিনি ভ্রমণ, হাইকিং এবং গাছপালা বৃদ্ধি উপভোগ করেন।

অ্যালান ট্যানঅ্যালান ট্যান সেজমেকারের একজন সিনিয়র প্রোডাক্ট ম্যানেজার, বৃহৎ মডেল অনুমানে অগ্রণী প্রচেষ্টা। তিনি বিশ্লেষণের ক্ষেত্রে মেশিন লার্নিং প্রয়োগ করার বিষয়ে উত্সাহী। কাজের বাইরে, তিনি বাইরে উপভোগ করেন।

Amazon SageMaker রাউটিং কৌশল ব্যবহার করে রিয়েল-টাইম ইনফারেন্স লেটেন্সি কমিয়ে দিন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.ধাওয়াল প্যাটেল AWS-এর একজন প্রধান মেশিন লার্নিং আর্কিটেক্ট। তিনি ডিস্ট্রিবিউটেড কম্পিউটিং এবং কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত সমস্যা নিয়ে বড় উদ্যোগ থেকে শুরু করে মাঝারি আকারের স্টার্টআপ পর্যন্ত সংস্থাগুলির সাথে কাজ করেছেন। তিনি এনএলপি এবং কম্পিউটার ভিশন ডোমেন সহ গভীর শিক্ষার উপর ফোকাস করেন। তিনি গ্রাহকদের SageMaker-এ উচ্চ কর্মক্ষমতা মডেল অনুমান অর্জনে সহায়তা করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং