Amazon SageMaker-এর সর্বশেষ বৈশিষ্ট্যগুলি ব্যবহার করে গড়ে 50% দ্বারা মডেল স্থাপনের খরচ কমান

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

যেহেতু সংস্থাগুলি উত্পাদনে মডেলগুলি স্থাপন করে, তারা ক্রমাগত তাদের ফাউন্ডেশন মডেলগুলির (এফএম) কার্যকারিতা অপ্টিমাইজ করার উপায়গুলি সন্ধান করে যা সর্বশেষ এক্সিলারেটরে চলছে, যেমন এডাব্লুএস ইনফেরেন্টিয়া এবং GPUs, যাতে তারা শেষ ব্যবহারকারীদের সর্বোত্তম অভিজ্ঞতা প্রদানের জন্য তাদের খরচ কমাতে পারে এবং প্রতিক্রিয়ার লেটেন্সি কমাতে পারে। যাইহোক, কিছু এফএম তাদের মোতায়েন করা দৃষ্টান্তগুলির সাথে উপলব্ধ অ্যাক্সিলারেটরগুলিকে সম্পূর্ণরূপে ব্যবহার করে না, যার ফলে হার্ডওয়্যার সংস্থানগুলির অদক্ষ ব্যবহার হয়। কিছু সংস্থা উপলব্ধ সমস্ত এক্সিলারেটরকে আরও ভালভাবে ব্যবহার করার জন্য একই উদাহরণে একাধিক এফএম স্থাপন করে, তবে এর জন্য জটিল অবকাঠামো অর্কেস্ট্রেশন প্রয়োজন যা সময়সাপেক্ষ এবং পরিচালনা করা কঠিন। যখন একাধিক FM একই দৃষ্টান্ত শেয়ার করে, তখন প্রতিটি FM-এর নিজস্ব স্কেলিং চাহিদা এবং ব্যবহারের ধরণ থাকে, যা আপনাকে কখন দৃষ্টান্ত যোগ করতে বা অপসারণ করতে হবে তা অনুমান করা কঠিন করে তোলে। উদাহরণস্বরূপ, একটি মডেল ব্যবহার করা যেতে পারে একটি ব্যবহারকারীর অ্যাপ্লিকেশনকে পাওয়ার জন্য যেখানে ব্যবহার নির্দিষ্ট ঘন্টার মধ্যে বাড়তে পারে, যেখানে অন্য মডেলের আরও সামঞ্জস্যপূর্ণ ব্যবহারের ধরণ থাকতে পারে। খরচ অপ্টিমাইজ করার পাশাপাশি, গ্রাহকরা বিলম্ব কমিয়ে সেরা শেষ-ব্যবহারকারীর অভিজ্ঞতা প্রদান করতে চান। এটি করার জন্য, তারা প্রায়শই সমান্তরালভাবে ব্যবহারকারীদের কাছ থেকে ফিল্ড অনুরোধের জন্য একটি FM-এর একাধিক কপি স্থাপন করে। যেহেতু FM আউটপুটগুলি একটি একক বাক্য থেকে একাধিক অনুচ্ছেদ পর্যন্ত হতে পারে, অনুমান অনুরোধটি সম্পূর্ণ করতে যে সময় লাগে তা উল্লেখযোগ্যভাবে পরিবর্তিত হয়, যদি অনুরোধগুলি দৃষ্টান্তগুলির মধ্যে এলোমেলোভাবে রুট করা হয় তবে বিলম্বে অপ্রত্যাশিত স্পাইক হতে পারে৷ আমাজন সেজমেকার এখন নতুন অনুমান ক্ষমতা সমর্থন করে যা আপনাকে স্থাপনার খরচ এবং লেটেন্সি কমাতে সাহায্য করে।

আপনি এখন ইনফারেন্স কম্পোনেন্ট-ভিত্তিক এন্ডপয়েন্ট তৈরি করতে পারেন এবং সেজমেকার এন্ডপয়েন্টে মেশিন লার্নিং (ML) মডেল স্থাপন করতে পারেন। একটি অনুমান উপাদান (IC) আপনার ML মডেলকে বিমূর্ত করে এবং আপনাকে CPU, GPU, বা বরাদ্দ করতে সক্ষম করে AWS নিউরন এক্সিলারেটর, এবং মডেল প্রতি স্কেলিং নীতি. অনুমান উপাদান নিম্নলিখিত সুবিধা প্রদান করে:

SageMaker সর্বোত্তমভাবে ML দৃষ্টান্তগুলিতে মডেলগুলি স্থাপন এবং প্যাক করবে যাতে সর্বোচ্চ ব্যবহার করা যায়, যার ফলে খরচ সাশ্রয় হয়।
SageMaker আপনার ML অ্যাপ্লিকেশনের প্রয়োজনীয়তাগুলি পূরণ করতে আপনার কনফিগারেশনের উপর ভিত্তি করে প্রতিটি মডেলকে উপরে এবং নীচে স্কেল করবে।
ন্যূনতম নিষ্ক্রিয় গণনা রাখার সময় ক্ষমতা উপলব্ধ রয়েছে তা নিশ্চিত করার জন্য SageMaker গতিশীলভাবে দৃষ্টান্ত যোগ এবং অপসারণ করতে স্কেল করবে।
অন্য মডেলের জন্য রিসোর্স খালি করতে আপনি একটি মডেলের শূন্য কপি স্কেল করতে পারেন। আপনি গুরুত্বপূর্ণ মডেলগুলিকে সর্বদা লোড এবং ট্র্যাফিক পরিবেশনের জন্য প্রস্তুত রাখতেও নির্দিষ্ট করতে পারেন।

এই ক্ষমতাগুলির সাথে, আপনি মডেল স্থাপনের খরচ গড়ে 50% কমাতে পারেন। খরচ সঞ্চয় আপনার কাজের চাপ এবং ট্রাফিক নিদর্শন উপর নির্ভর করে পরিবর্তিত হবে. একটি একক এন্ডপয়েন্টে একাধিক মডেল প্যাকিং কিভাবে সর্বোচ্চ ব্যবহার এবং খরচ বাঁচাতে পারে তা বোঝানোর জন্য একটি সহজ উদাহরণ নেওয়া যাক। ধরা যাক আপনার কাছে একটি চ্যাট অ্যাপ্লিকেশন রয়েছে যা পর্যটকদের Llama 2 এর দুটি রূপ ব্যবহার করে নির্মিত স্থানীয় রীতিনীতি এবং সর্বোত্তম অনুশীলনগুলি বুঝতে সাহায্য করে: একটি ইউরোপীয় দর্শকদের জন্য এবং অন্যটি আমেরিকান দর্শকদের জন্য সূক্ষ্ম-টিউনড। আমরা ইউরোপীয় মডেলের জন্য 00:01-11:59 UTC এবং আমেরিকান মডেলের জন্য 12:00-23:59 UTC-এর মধ্যে ট্রাফিক আশা করি। এই মডেলগুলিকে তাদের নিজস্ব ডেডিকেটেড দৃষ্টান্তগুলিতে স্থাপন করার পরিবর্তে যেখানে তারা অর্ধেক সময় অলস বসে থাকবে, আপনি এখন খরচ বাঁচাতে তাদের একটি একক শেষ পয়েন্টে স্থাপন করতে পারেন। আপনি আমেরিকান মডেলকে শূন্যে নামিয়ে আনতে পারেন যখন ইউরোপীয় মডেলের জন্য ক্ষমতা খালি করার প্রয়োজন হয় না এবং এর বিপরীতে। এটি আপনাকে আপনার হার্ডওয়্যারকে দক্ষতার সাথে ব্যবহার করতে এবং অপচয় এড়াতে দেয়। এটি দুটি মডেল ব্যবহার করে একটি সাধারণ উদাহরণ, কিন্তু আপনি সহজেই এই ধারণাটিকে একটি একক এন্ডপয়েন্টে শত শত মডেল প্যাক করার জন্য প্রসারিত করতে পারেন যা আপনার কাজের চাপের সাথে স্বয়ংক্রিয়ভাবে উপরে এবং নিচের দিকে স্কেল করে।

এই পোস্টে, আমরা আপনাকে IC-ভিত্তিক SageMaker এন্ডপয়েন্টের নতুন ক্ষমতা দেখাব। আমরা অনুমান উপাদান এবং API ব্যবহার করে একাধিক মডেল স্থাপনের মাধ্যমেও আপনাকে নিয়ে চলেছি। সবশেষে, আমরা কিছু নতুন পর্যবেক্ষণ ক্ষমতা এবং কীভাবে আপনার মডেলের জন্য স্বয়ংক্রিয় স্কেলিং নীতি সেট আপ করতে হয় এবং আপনার শেষ পয়েন্টগুলির জন্য ইনস্ট্যান্স স্কেলিং পরিচালনা করতে হয় তার বিশদ বিবরণ দিই। এছাড়াও আপনি আমাদের নতুন সরলীকৃত, ইন্টারেক্টিভ ব্যবহারকারীর অভিজ্ঞতার মাধ্যমে মডেল স্থাপন করতে পারেন। আমরা আপনার অনুমান কাজের লোডগুলির লেটেন্সি এবং কর্মক্ষমতা অপ্টিমাইজ করতে উন্নত রাউটিং ক্ষমতাগুলিকেও সমর্থন করি।

বিল্ডিং ব্লক

আসুন আরও গভীরভাবে দেখুন এবং এই নতুন ক্ষমতাগুলি কীভাবে কাজ করে তা বুঝুন। নিচে SageMaker হোস্টিং এর জন্য কিছু নতুন পরিভাষা দেওয়া হল:

অনুমান উপাদান - একটি সেজমেকার হোস্টিং অবজেক্ট যা আপনি একটি মডেলকে শেষ পয়েন্টে স্থাপন করতে ব্যবহার করতে পারেন। আপনি নিম্নলিখিত সরবরাহ করে একটি অনুমান উপাদান তৈরি করতে পারেন:
- SageMaker মডেল বা SageMaker-সামঞ্জস্যপূর্ণ ইমেজ এবং মডেল আর্টিফ্যাক্টের স্পেসিফিকেশন।
- সম্পদের প্রয়োজনীয়তা গণনা করুন, যা আপনার মডেলের প্রতিটি অনুলিপির প্রয়োজনীয়তা উল্লেখ করে, যার মধ্যে CPU কোর, হোস্ট মেমরি এবং অ্যাক্সিলারেটরের সংখ্যা রয়েছে।
মডেল কপি - একটি অনুমান উপাদানের একটি রানটাইম অনুলিপি যা অনুরোধ পরিবেশন করতে সক্ষম।
পরিচালিত উদাহরণ স্বয়ংক্রিয় স্কেলিং - একটি সেজমেকার হোস্টিং ক্ষমতা একটি এন্ডপয়েন্টের জন্য ব্যবহৃত কম্পিউট ইন্সট্যান্সের সংখ্যা বাড়াতে বা কমানোর জন্য। ইনস্ট্যান্স স্কেলিং অনুমান উপাদানের স্কেলিং প্রতিক্রিয়া.

একটি নতুন অনুমান উপাদান তৈরি করতে, আপনি একটি ধারক চিত্র এবং একটি মডেল আর্টিফ্যাক্ট নির্দিষ্ট করতে পারেন, অথবা আপনি SageMaker মডেলগুলি ব্যবহার করতে পারেন যা আপনি ইতিমধ্যে তৈরি করেছেন৷ এছাড়াও আপনাকে কম্পিউট রিসোর্স প্রয়োজনীয়তা যেমন হোস্ট সিপিইউ কোরের সংখ্যা, হোস্ট মেমরি, বা আপনার মডেল চালানোর জন্য প্রয়োজনীয় এক্সিলারেটরের সংখ্যা উল্লেখ করতে হবে।

যখন আপনি একটি অনুমান উপাদান স্থাপন করেন, আপনি নির্দিষ্ট করতে পারেন MinCopies মডেলটি ইতিমধ্যে আপনার প্রয়োজনীয় পরিমাণে লোড হয়েছে তা নিশ্চিত করতে, অনুরোধগুলি পরিবেশন করার জন্য প্রস্তুত।

আপনার কাছে আপনার নীতিগুলি সেট করার বিকল্পও রয়েছে যাতে অনুমান উপাদান কপি স্কেল শূন্যে চলে যায়। উদাহরণস্বরূপ, যদি আপনার কোনো IC এর বিরুদ্ধে লোড না থাকে, তাহলে মডেল কপিটি আনলোড করা হবে। এটি আপনার এন্ডপয়েন্টের ব্যবহার এবং দক্ষতা অপ্টিমাইজ করতে সক্রিয় কাজের লোড দ্বারা প্রতিস্থাপিত হতে পারে এমন সংস্থানগুলিকে মুক্ত করতে পারে।

অনুমান অনুরোধগুলি বৃদ্ধি বা হ্রাস করার সাথে সাথে, আপনার স্বয়ংক্রিয় স্কেলিং নীতির উপর ভিত্তি করে আপনার IC-এর অনুলিপিগুলির সংখ্যাও বাড়তে বা কমতে পারে। সেজমেকার প্রাপ্যতা এবং খরচের জন্য আপনার মডেলের প্যাকিং অপ্টিমাইজ করতে প্লেসমেন্ট পরিচালনা করবে।

উপরন্তু, যদি আপনি পরিচালিত দৃষ্টান্ত স্বয়ংক্রিয় স্কেলিং সক্ষম করেন, SageMaker ট্র্যাফিক পরিবেশন করার জন্য একটি নির্দিষ্ট সময়ে লোড করা প্রয়োজন এমন অনুমান উপাদানগুলির সংখ্যা অনুসারে কম্পিউট দৃষ্টান্তগুলি স্কেল করবে। সেজমেকার দৃষ্টান্তগুলিকে স্কেল করবে এবং মডেলের কার্যকারিতা সংরক্ষণ করার সময় খরচের জন্য অপ্টিমাইজ করার জন্য আপনার উদাহরণ এবং অনুমানের উপাদানগুলি প্যাক করবে। যদিও আমরা ম্যানেজড ইন্সট্যান্স স্কেলিং ব্যবহার করার পরামর্শ দিই, আপনার কাছে নিজে নিজে স্কেলিং পরিচালনা করার বিকল্পও আছে, যদি আপনি বেছে নেন, অ্যাপ্লিকেশন অটো স্কেলিং এর মাধ্যমে।

সেজমেকার অনুমানের উপাদানগুলির ভারসাম্য বজায় রাখবে এবং অনুমানের উপাদানগুলির আর প্রয়োজন না হলে দৃষ্টান্তগুলিকে স্কেল করবে এবং আপনার খরচ বাঁচাবে।

এপিআই-এর ওয়াকথ্রু

SageMaker নামে একটি নতুন সত্তা চালু করেছে InferenceComponent. এটি এন্ডপয়েন্ট থেকে এমএল মডেল হোস্ট করার বিশদ বিবরণকে দ্বিগুণ করে। দ্য InferenceComponent আপনি যে SageMaker মডেলটি ব্যবহার করতে চান বা কন্টেইনার বিশদ এবং মডেল শিল্পকর্মের মতো মডেল হোস্ট করার জন্য আপনাকে মূল বৈশিষ্ট্যগুলি নির্দিষ্ট করতে দেয়৷ আপনি মোতায়েন করার জন্য উপাদানগুলির স্বয়ংক্রিয় অনুলিপিগুলির সংখ্যা এবং প্রয়োজনীয় ত্বরণকারীর সংখ্যা (GPU, Inf, বা Trn accelerators) বা CPU (vCPUs) নির্দিষ্ট করুন৷ আপনি ভবিষ্যতে এটিতে স্থাপন করার পরিকল্পনা করছেন এমন যেকোন সংখ্যক মডেলের জন্য একটি একক এন্ডপয়েন্ট ব্যবহার করার জন্য এটি আপনাকে আরও নমনীয়তা প্রদান করে।

একটি অনুমান উপাদান সহ একটি শেষ পয়েন্ট তৈরি করতে Boto3 API কলগুলি দেখুন। মনে রাখবেন যে কিছু পরামিতি রয়েছে যা আমরা এই পোস্টে পরে আলোচনা করব।

নিম্নলিখিত জন্য উদাহরণ কোড CreateEndpointConfig:

sagemaker_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, "ModelDataDownloadTimeoutInSeconds": model_data_download_timeout_in_seconds, "ContainerStartupHealthCheckTimeoutInSeconds": container_startup_health_check_timeout_in_seconds, {"ManagedInstanceScaling": { "Status": "ENABLED", "MinInstanceCount": initial_instance_count, "MaxInstanceCount": max_instance_count, } }, }],
)

নিম্নলিখিত জন্য উদাহরণ কোড CreateEndpoint:

sagemaker_client.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name,
)

নিম্নলিখিত জন্য উদাহরণ কোড CreateInferenceComponent:

sm_client.create_inference_component( InferenceComponentName=inference_component_name, EndpointName=endpoint_name, VariantName=variant_name, Specification={ "Container": { "Image": inference_image_uri, "ArtifactUrl": s3_code_artifact, }, "StartupParameters": { "ModelDataDownloadTimeoutInSeconds": 300, "ContainerStartupHealthCheckTimeoutInSeconds": 600, }, "ComputeResourceRequirements": {"NumberOfAcceleratorDevicesRequired": 1, "MinMemoryRequiredInMb": 1024} }, RuntimeConfig={"CopyCount": 1},
)

এই decoupling InferenceComponent একটি শেষ বিন্দুতে নমনীয়তা প্রদান করে। আপনি একই পরিকাঠামোতে একাধিক মডেল হোস্ট করতে পারেন, আপনার প্রয়োজনীয়তা পরিবর্তিত হওয়ার সাথে সাথে সেগুলি যুক্ত বা সরাতে পারেন। প্রতিটি মডেল প্রয়োজন অনুযায়ী স্বাধীনভাবে আপডেট করা যেতে পারে। উপরন্তু, আপনি আপনার ব্যবসার চাহিদা অনুযায়ী মডেল স্কেল করতে পারেন. InferenceComponent এছাড়াও আপনি মডেল প্রতি ক্ষমতা নিয়ন্ত্রণ করতে পারবেন. অন্য কথায়, আপনি প্রতিটি মডেলের কতগুলি কপি হোস্ট করবেন তা নির্ধারণ করতে পারেন। এই অনুমানযোগ্য স্কেলিং আপনাকে প্রতিটি মডেলের জন্য নির্দিষ্ট লেটেন্সি প্রয়োজনীয়তা পূরণ করতে সাহায্য করে। সামগ্রিকভাবে, InferenceComponent আপনার হোস্ট করা মডেলগুলির উপর আপনাকে অনেক বেশি নিয়ন্ত্রণ দেয়।

নিম্নলিখিত সারণীতে, আমরা একটি এন্ডপয়েন্ট তৈরি এবং আহ্বান করার জন্য উচ্চ-স্তরের পদ্ধতির পাশাপাশি একটি তুলনা দেখাই InferenceComponent এবং সাথে InferenceComponent. মনে রাখবেন CreateModel() এখন IC-ভিত্তিক শেষ পয়েন্টের জন্য ঐচ্ছিক।

ধাপ	মডেল-ভিত্তিক শেষ পয়েন্ট	অনুমান কম্পোনেন্ট-ভিত্তিক শেষ পয়েন্ট
1	মডেল তৈরি করুন(...)	Endpoint Config তৈরি করুন(...)
2	Endpoint Config তৈরি করুন(...)	এন্ডপয়েন্ট তৈরি করুন(...)
3	এন্ডপয়েন্ট তৈরি করুন(...)	ইনফারেন্স কম্পোনেন্ট তৈরি করুন(...)
4	InvokeEndpoint(...)	InvokeEndpoint(InferneceComponentName='value'…)

এর ভূমিকা InferenceComponent আপনাকে একটি মডেল স্তরে স্কেল করার অনুমতি দেয়। দেখা দৃষ্টান্ত এবং IC স্বয়ংক্রিয় স্কেলিং সম্পর্কে গভীরভাবে চিন্তা করুন কিভাবে আরো বিস্তারিত জানার জন্য InferenceComponent স্বয়ংক্রিয় স্কেলিং এর সাথে কাজ করে।

SageMaker এন্ডপয়েন্ট চালু করার সময়, আপনি এখন নতুন প্যারামিটার নির্দিষ্ট করতে পারেন InferenceComponentName কাঙ্খিত আঘাত করতে InferenceComponentName. সেজমেকার অনুরোধটি হোস্ট করার উদাহরণে অনুরোধটি রাউটিং পরিচালনা করবে InferenceComponentName। নিম্নলিখিত কোডটি দেখুন:

smr_client = boto3.client("sagemaker-runtime") response_model = smr_client.invoke_endpoint( InferenceComponentName=inference_component_name, EndpointName=endpoint_name, Body=payload, ContentType="application/json", )

ডিফল্টরূপে, সেজমেকার আপনার এন্ডপয়েন্টকে সমর্থন করে এমন পরিস্থিতিতে অনুরোধের র্যান্ডম রাউটিং ব্যবহার করে। আপনি যদি ন্যূনতম অসামান্য অনুরোধ রাউটিং সক্ষম করতে চান তবে আপনি শেষ পয়েন্ট কনফিগারেশনে রাউটিং কৌশল সেট করতে পারেন RoutingConfig:

sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, ... 'RoutingConfig': { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS' } }],
)

ন্যূনতম অসামান্য অনুরোধগুলি নির্দিষ্ট দৃষ্টান্তগুলিতে রুটগুলি রাউটিং করে যেগুলির অনুরোধগুলি প্রক্রিয়া করার আরও ক্ষমতা রয়েছে৷ এটি আরও অভিন্ন লোড-ভারসাম্য এবং সম্পদের ব্যবহার প্রদান করবে।

এ ছাড়াও CreateInferenceComponent, নিম্নলিখিত APIগুলি এখন উপলব্ধ:

DescribeInferenceComponent
DeleteInferenceComponent
UpdateInferenceComponent
ListInferenceComponents

ইনফারেন্স কম্পোনেন্ট লগ এবং মেট্রিক্স

InferenceComponent লগগুলি অবস্থিত /aws/sagemaker/InferenceComponents/<InferenceComponentName>. কন্টেইনারে stderr এবং stdout-এ পাঠানো সমস্ত লগ এই লগ ইনগুলিতে পাঠানো হয় অ্যামাজন ক্লাউডওয়াচ.

IC-ভিত্তিক এন্ডপয়েন্টের প্রবর্তনের সাথে, আপনি এখন অতিরিক্ত উদাহরণ মেট্রিক্স, ইনফারেন্স কম্পোনেন্ট মেট্রিক্স এবং ইনভোকেশন মেট্রিক্স দেখতে পারবেন।

সেজমেকার উদাহরণের জন্য, আপনি এখন ট্র্যাক করতে পারেন GPUReservation এবং CPUReservation আপনি যে অনুমান উপাদানগুলি স্থাপন করেছেন তার উপর ভিত্তি করে একটি শেষ পয়েন্টের জন্য সংরক্ষিত সংস্থানগুলি দেখতে মেট্রিক্স৷ এই মেট্রিক্স আপনাকে আপনার এন্ডপয়েন্ট এবং স্বয়ংক্রিয় স্কেলিং নীতির আকার দিতে সাহায্য করতে পারে। আপনি একটি এন্ডপয়েন্টে স্থাপন করা সমস্ত মডেলের সাথে যুক্ত সমষ্টিগত মেট্রিক্সও দেখতে পারেন।

সেজমেকার একটি অনুমান উপাদান স্তরে মেট্রিক্সকেও প্রকাশ করে, যা আপনার মোতায়েন করা অনুমান উপাদানগুলির জন্য সংস্থানগুলির ব্যবহারের আরও দানাদার দৃশ্য দেখাতে পারে। এটি আপনাকে কতটা সামগ্রিক সম্পদের ব্যবহার যেমন একটি ভিউ পেতে অনুমতি দেয় GPUUtilizationNormalized এবং GPUMemoryUtilizationNormalized প্রতিটি অনুমান উপাদানের জন্য আপনি স্থাপন করেছেন যার শূন্য বা অনেক কপি থাকতে পারে।

অবশেষে, সেজমেকার আমন্ত্রণ মেট্রিক্স সরবরাহ করে, যা এখন সমষ্টিগতভাবে অনুমান উপাদানগুলির জন্য আহ্বানগুলি ট্র্যাক করে (Invocations) অথবা প্রতি অনুলিপি তাত্ক্ষণিক (InvocationsPerCopy)

মেট্রিক্সের একটি বিস্তৃত তালিকার জন্য, পড়ুন সেজমেকার এন্ডপয়েন্ট ইনভোকেশন মেট্রিক্স.

মডেল-স্তরের স্বয়ংক্রিয় স্কেলিং

আমরা যে স্বয়ংক্রিয় স্কেলিং আচরণটি বর্ণনা করেছি তা বাস্তবায়ন করতে, সেজমেকার এন্ডপয়েন্ট কনফিগারেশন এবং অনুমান উপাদান তৈরি করার সময়, আপনি যথাক্রমে প্রাথমিক উদাহরণ গণনা এবং প্রাথমিক মডেল কপি গণনা সংজ্ঞায়িত করুন। আপনি এন্ডপয়েন্ট এবং সংশ্লিষ্ট IC তৈরি করার পরে, IC স্তরে স্বয়ংক্রিয় স্কেলিং প্রয়োগ করতে, আপনাকে প্রথমে স্কেলিং লক্ষ্য নিবন্ধন করতে হবে এবং তারপরে স্কেলিং নীতিটি IC-এর সাথে সংযুক্ত করতে হবে।

স্কেলিং নীতি বাস্তবায়ন করার সময়, আমরা ব্যবহার করি SageMakerInferenceComponentInvocationsPerCopy, যা SageMaker দ্বারা প্রবর্তিত একটি নতুন মেট্রিক। এটি প্রতি মিনিটে মডেল কপি প্রতি আহ্বানের গড় সংখ্যা ক্যাপচার করে।

aas_client.put_scaling_policy( PolicyName=endpoint_name, PolicyType='TargetTrackingScaling', ServiceNamespace=service_namespace, ResourceId=resource_id, ScalableDimension=scalable_dimension, TargetTrackingScalingPolicyConfiguration={ "PredefinedMetricSpecification": { "PredefinedMetricType": "SageMakerInferenceComponentInvocationsPerCopy", }, "TargetValue": autoscaling_target_value, "ScaleInCooldown": 300, # default "ScaleOutCooldown": 300, # default },
)

আপনি স্কেলিং নীতি সেট করার পরে, সেজমেকার প্রতিটি অটোস্কেলিং লক্ষ্যের জন্য দুটি ক্লাউডওয়াচ অ্যালার্ম তৈরি করে: একটি 3 মিনিটের জন্য অ্যালার্মে থাকলে স্কেল-আউট ট্রিগার করতে (তিনটি 1-মিনিট ডেটা পয়েন্ট) এবং একটি 15 মিনিটের জন্য অ্যালার্মে থাকলে স্কেল-ইন ট্রিগার করতে। (15 1-মিনিটের ডেটা পয়েন্ট), যেমনটি নিম্নলিখিত স্ক্রিনশটে দেখানো হয়েছে। স্কেলিং অ্যাকশনটি ট্রিগার করার সময় সাধারণত সেই মিনিটের চেয়ে 1-2 মিনিট বেশি হয় কারণ ক্লাউডওয়াচে মেট্রিক্স প্রকাশ করতে এন্ডপয়েন্টের সময় লাগে এবং এটির জন্যও সময় লাগে AutoScaling প্রতিক্রিয়া. কুল-ডাউন পিরিয়ড হল সময়ের পরিমাণ, সেকেন্ডে, একটি স্কেল-ইন বা স্কেল-আউট কার্যকলাপ শেষ হওয়ার পরে অন্য স্কেল-আউট কার্যকলাপ শুরু হওয়ার আগে। যদি স্কেল-আউট কুল-ডাউন শেষ পয়েন্ট আপডেটের সময়ের চেয়ে কম হয়, তবে এটি কোন প্রভাব নেয় না, কারণ সেজমেকার এন্ডপয়েন্ট আপডেট করা সম্ভব নয় যখন এটি থাকে আপডেট করা হচ্ছে অবস্থা।

উল্লেখ্য, IC-স্তরের অটো স্কেলিং সেট আপ করার সময়, আপনাকে নিশ্চিত করতে হবে যে MaxInstanceCount পরামিতি এই শেষ পয়েন্টটি পরিচালনা করতে পারে এমন সর্বাধিক IC গুলির সমান বা ছোট। উদাহরণ স্বরূপ, যদি আপনার এন্ডপয়েন্ট শুধুমাত্র এন্ডপয়েন্ট কনফিগারেশনে একটি দৃষ্টান্ত রাখার জন্য কনফিগার করা হয় এবং এই দৃষ্টান্তটি শুধুমাত্র মডেলের সর্বোচ্চ চারটি কপি হোস্ট করতে পারে, তাহলে MaxInstanceCount 4 এর সমান বা ছোট হওয়া উচিত। যাইহোক, আপনি আরও গণনা সংস্থানের প্রয়োজন মেটাতে প্রয়োজনীয় মডেল কপি নম্বরের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে উদাহরণ গণনা স্কেল করতে SageMaker দ্বারা প্রদত্ত পরিচালিত স্বয়ংক্রিয় স্কেলিং ক্ষমতা ব্যবহার করতে পারেন। নিম্নলিখিত কোড স্নিপেট প্রদর্শন করে কিভাবে শেষ পয়েন্ট কনফিগারেশন তৈরির সময় পরিচালিত ইনস্ট্যান্স স্কেলিং সেট আপ করতে হয়। এইভাবে, যখন IC-স্তরের স্বয়ংক্রিয় স্কেলিংয়ের জন্য মডেলের অনুলিপিগুলি হোস্ট করার জন্য আরও দৃষ্টান্ত গণনার প্রয়োজন হয়, তখন সেজমেকার স্বয়ংক্রিয়ভাবে IC-স্তরের স্কেলিং সফল হওয়ার অনুমতি দেওয়ার জন্য ইনস্ট্যান্স নম্বরটি স্কেল করবে।

sagemaker_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, "ModelDataDownloadTimeoutInSeconds": model_data_download_timeout_in_seconds, "ContainerStartupHealthCheckTimeoutInSeconds": container_startup_health_check_timeout_in_seconds, {"ManagedInstanceScaling": { "Status": "ENABLED", "MinInstanceCount": initial_instance_count, "MaxInstanceCount": max_instance_count, } }, }],
)

আপনি একই এন্ডপয়েন্টের বিপরীতে একাধিক স্বয়ংক্রিয় স্কেলিং নীতি প্রয়োগ করতে পারেন, যার মানে আপনি ICs-এর সাহায্যে তৈরি এন্ডপয়েন্টগুলিতে প্রথাগত স্বয়ংক্রিয় স্কেলিং নীতি প্রয়োগ করতে পারবেন এবং অন্যান্য এন্ডপয়েন্ট মেট্রিক্সের উপর ভিত্তি করে স্কেল আপ এবং ডাউন করতে পারবেন। আরো তথ্যের জন্য, পড়ুন Amazon SageMaker-এ স্বয়ংক্রিয় স্কেলিং সহ আপনার মেশিন লার্নিং স্থাপনাগুলি অপ্টিমাইজ করুন৷. যাইহোক, যদিও এটি সম্ভব, আমরা এখনও নিজেকে স্কেলিং পরিচালনা করার চেয়ে পরিচালিত উদাহরণ স্কেলিং ব্যবহার করার পরামর্শ দিই।

উপসংহার

এই পোস্টে, আমরা সেজমেকার ইনফারেন্সে একটি নতুন বৈশিষ্ট্য প্রবর্তন করেছি যা আপনাকে কম্পিউট ইন্সট্যান্সের সর্বোচ্চ ব্যবহার, শত শত মডেলের স্কেল এবং খরচ অপ্টিমাইজ করতে সাহায্য করবে, যখন অনুমানযোগ্য কর্মক্ষমতা প্রদান করবে। উপরন্তু, আমরা API-গুলির একটি ওয়াকথ্রু প্রদান করেছি এবং আপনাকে দেখিয়েছি কিভাবে আপনার কাজের চাপের জন্য অনুমান উপাদানগুলি কনফিগার এবং স্থাপন করতে হয়।

আমরাও সমর্থন করি উন্নত রাউটিং ক্ষমতা আপনার অনুমান কাজের লোডগুলির লেটেন্সি এবং কর্মক্ষমতা অপ্টিমাইজ করতে। সেজমেকার আপনাকে খরচ এবং কর্মক্ষমতার জন্য আপনার অনুমান কাজের লোড অপ্টিমাইজ করতে এবং পরিচালনার জন্য আপনাকে মডেল-স্তরের গ্রানুলারিটি দিতে সাহায্য করতে পারে। আমরা একটি তৈরি করেছি নোটবুকের সেট এটি আপনাকে দেখাবে কিভাবে তিনটি ভিন্ন মডেল স্থাপন করতে হয়, বিভিন্ন কন্টেইনার ব্যবহার করে এবং GitHub-এ স্বয়ংক্রিয় স্কেলিং নীতি প্রয়োগ করে। আমরা আপনাকে নোটবুক 1 দিয়ে শুরু করতে এবং আজই নতুন সেজমেকার হোস্টিং ক্ষমতাগুলির সাথে হাত পেতে উত্সাহিত করি!

লেখক সম্পর্কে

Amazon SageMaker-এর সর্বশেষ বৈশিষ্ট্যগুলি ব্যবহার করে গড়ে 50% দ্বারা মডেল স্থাপনের খরচ কমিয়ে দিন আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ. জেমস পার্ক অ্যামাজন ওয়েব সার্ভিসের একজন সলিউশন আর্কিটেক্ট। তিনি AWS-এ প্রযুক্তি সমাধান ডিজাইন, নির্মাণ এবং স্থাপন করতে Amazon.com-এর সাথে কাজ করেন এবং AI এবং মেশিন লার্নিং-এ তার বিশেষ আগ্রহ রয়েছে। অবসর সময়ে তিনি নতুন সংস্কৃতি, নতুন অভিজ্ঞতা খুঁজে পেতে এবং সাম্প্রতিক প্রযুক্তির প্রবণতাগুলির সাথে আপ টু ডেট থাকতে উপভোগ করেন৷ আপনি তাকে খুঁজে পেতে পারেন লিঙ্কডইন.

Amazon SageMaker-এর সর্বশেষ বৈশিষ্ট্যগুলি ব্যবহার করে গড়ে 50% দ্বারা মডেল স্থাপনের খরচ কমিয়ে দিন আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ. মেলানিয়া লি, পিএইচডি, অস্ট্রেলিয়ার সিডনিতে অবস্থিত AWS-এর একজন সিনিয়র AI/ML বিশেষজ্ঞ TAM। তিনি এন্টারপ্রাইজ গ্রাহকদের AWS-এ অত্যাধুনিক AI/ML টুল ব্যবহার করে সমাধান তৈরি করতে সাহায্য করেন এবং সর্বোত্তম অনুশীলনের সাথে ML সলিউশনের স্থাপত্য ও বাস্তবায়নের নির্দেশনা প্রদান করেন। তার অবসর সময়ে, তিনি প্রকৃতি অন্বেষণ করতে এবং পরিবার এবং বন্ধুদের সাথে সময় কাটাতে পছন্দ করেন।

মার্ক কার্প অ্যামাজন সেজমেকার সার্ভিস টিমের সাথে একজন এমএল স্থপতি। তিনি গ্রাহকদের স্কেলে এমএল ওয়ার্কলোড ডিজাইন, স্থাপন এবং পরিচালনা করতে সহায়তা করার দিকে মনোনিবেশ করেন। তার অবসর সময়ে, তিনি ভ্রমণ এবং নতুন জায়গা অন্বেষণ উপভোগ করেন।

অ্যালান ট্যান সেজমেকারের একজন সিনিয়র প্রোডাক্ট ম্যানেজার, বৃহৎ মডেল অনুমানে অগ্রণী প্রচেষ্টা। তিনি বিশ্লেষণের ক্ষেত্রে মেশিন লার্নিং প্রয়োগ করার বিষয়ে উত্সাহী। কাজের বাইরে, তিনি বাইরে উপভোগ করেন।

Amazon SageMaker-এর সর্বশেষ বৈশিষ্ট্যগুলি ব্যবহার করে গড়ে 50% দ্বারা মডেল স্থাপনের খরচ কমিয়ে দিন আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ. রঘু রমেশা অ্যামাজন সেজমেকার সার্ভিস টিমের সাথে একজন সিনিয়র এমএল সলিউশন আর্কিটেক্ট। তিনি গ্রাহকদের এমএল উৎপাদন কাজের লোডগুলিকে সেজমেকারে স্কেলে তৈরি, স্থাপন এবং স্থানান্তর করতে সহায়তা করার দিকে মনোনিবেশ করেন। তিনি মেশিন লার্নিং, এআই, এবং কম্পিউটার ভিশন ডোমেনে বিশেষজ্ঞ এবং UT ডালাস থেকে কম্পিউটার সায়েন্সে স্নাতকোত্তর ডিগ্রি অর্জন করেছেন। তার অবসর সময়ে, তিনি ভ্রমণ এবং ফটোগ্রাফি উপভোগ করেন।

রুপিন্দর গ্রেওয়াল AWS সহ একজন Sr Ai/ML বিশেষজ্ঞ সমাধান স্থপতি। তিনি বর্তমানে সেজমেকারে মডেল এবং এমএলওপ পরিবেশন করার দিকে মনোনিবেশ করেন। এই ভূমিকার আগে তিনি মেশিন লার্নিং ইঞ্জিনিয়ার বিল্ডিং এবং হোস্টিং মডেল হিসাবে কাজ করেছেন। কাজের বাইরে সে টেনিস খেলা এবং পাহাড়ের পথে বাইক চালানো উপভোগ করে।

ধাওয়াল প্যাটেল AWS-এর একজন প্রধান মেশিন লার্নিং আর্কিটেক্ট। তিনি ডিস্ট্রিবিউটেড কম্পিউটিং এবং কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত সমস্যা নিয়ে বড় উদ্যোগ থেকে শুরু করে মাঝারি আকারের স্টার্টআপ পর্যন্ত সংস্থাগুলির সাথে কাজ করেছেন। তিনি এনএলপি এবং কম্পিউটার ভিশন ডোমেন সহ গভীর শিক্ষার উপর ফোকাস করেন। তিনি গ্রাহকদের SageMaker-এ উচ্চ কর্মক্ষমতা মডেল অনুমান অর্জনে সহায়তা করেন।

Amazon SageMaker-এর সর্বশেষ বৈশিষ্ট্যগুলি ব্যবহার করে গড়ে 50% দ্বারা মডেল স্থাপনের খরচ কমিয়ে দিন আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ. সৌরভ ত্রিকন্দে অ্যামাজন সেজমেকার ইনফারেন্সের একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি গ্রাহকদের সাথে কাজ করার জন্য উত্সাহী এবং মেশিন লার্নিংকে গণতান্ত্রিক করার লক্ষ্য দ্বারা অনুপ্রাণিত৷ তিনি জটিল এমএল অ্যাপ্লিকেশন স্থাপন, মাল্টি-টেন্যান্ট এমএল মডেল, খরচ অপ্টিমাইজেশান, এবং গভীর শিক্ষার মডেলগুলিকে আরও অ্যাক্সেসযোগ্য করে তোলার সাথে সম্পর্কিত মূল চ্যালেঞ্জগুলিতে মনোনিবেশ করেন। অবসর সময়ে, সৌরভ হাইকিং উপভোগ করেন, উদ্ভাবনী প্রযুক্তি সম্পর্কে শেখেন, টেকক্রাঞ্চ অনুসরণ করেন এবং তার পরিবারের সাথে সময় কাটান।

Amazon SageMaker-এর সর্বশেষ বৈশিষ্ট্যগুলি ব্যবহার করে গড়ে 50% দ্বারা মডেল স্থাপনের খরচ কমিয়ে দিন আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ. লক্ষ্মী রামকৃষ্ণন AWS-এ Amazon SageMaker Machine Learning (ML) প্ল্যাটফর্ম টিমের একজন প্রধান প্রকৌশলী, পণ্যটির জন্য প্রযুক্তিগত নেতৃত্ব প্রদান করে। তিনি 9 বছরেরও বেশি সময় ধরে অ্যামাজনে বেশ কয়েকটি ইঞ্জিনিয়ারিং ভূমিকায় কাজ করেছেন। তিনি ন্যাশনাল ইনস্টিটিউট অফ টেকনোলজি, কর্ণাটক, ভারত থেকে তথ্য প্রযুক্তিতে স্নাতক ইঞ্জিনিয়ারিং ডিগ্রি এবং মিনেসোটা টুইন সিটিস বিশ্ববিদ্যালয় থেকে কম্পিউটার বিজ্ঞানে স্নাতকোত্তর ডিগ্রি অর্জন করেছেন।

ডেভিড নিজেন্ডা অ্যামাজন সেজমেকার টিমের একজন সিনিয়র সফ্টওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার, বর্তমানে প্রোডাকশন মেশিন লার্নিং ওয়ার্কফ্লো উন্নত করার পাশাপাশি নতুন ইনফারেন্স ফিচার চালু করার জন্য কাজ করছেন। অবসর সময়ে, তিনি তার বাচ্চাদের সাথে থাকার চেষ্টা করেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/reduce-model-deployment-costs-by-50-on-average-using-sagemakers-latest-features/

সময় স্ট্যাম্প: নভেম্বর 30, 2023

সময় স্ট্যাম্প: ফেব্রুয়ারী 11, 2022

প্লেটো দ্বারা প্রকাশিত

আমাজন সেজমেকার সার্ভারলেস ইনফারেন্স ব্যবহার করে আলিঙ্গন ফেস ট্রান্সফরমার মডেল হোস্ট করুন

AWS CDK ব্যবহার করে Jupyter Lab 3 এর সাথে Amazon SageMaker স্টুডিও সেট আপ করুন

অনুসন্ধানমূলক ডেটা বিশ্লেষণের জন্য Amazon SageMaker ক্যানভাস ব্যবহার করুন

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ

অ্যামাজন অনুবাদে অশ্লীলতা মাস্কিং প্রয়োগ করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব