Amazon SageMaker-এ মাল্টি-ফ্রেমওয়ার্ক মডেলগুলির সাথে সাশ্রয়ী মূল্যের ML অনুমান

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মেশিন লার্নিং (ML) প্রযুক্তির সবচেয়ে সফল এবং ব্যাপক অ্যাপ্লিকেশনগুলির মধ্যে একটি হিসাবে প্রমাণিত হয়েছে, যা বিস্তৃত শিল্পকে প্রভাবিত করে এবং প্রতিদিন কোটি কোটি ব্যবহারকারীকে প্রভাবিত করে। প্রতিটি শিল্পে ML-এর এই দ্রুত গ্রহণের ফলে, সংস্থাগুলি সম্পদের সর্বোচ্চ ব্যবহার এবং সংশ্লিষ্ট খরচ কমানোর সময় কম-বিলম্বিত ভবিষ্যদ্বাণী এবং উচ্চ প্রাপ্যতা সমর্থন করার ক্ষেত্রে চ্যালেঞ্জের সম্মুখীন হচ্ছে। যেহেতু প্রতিটি এমএল ফ্রেমওয়ার্কের নিজস্ব নির্ভরতা রয়েছে, এবং প্রতিটি কাঠামোর জন্য স্থাপনার পদক্ষেপগুলি আলাদা, উত্পাদনে বিভিন্ন কাঠামোর মধ্যে নির্মিত মডেলগুলি স্থাপন করা এবং প্রতিটি শেষ পয়েন্ট পরিচালনা করা আরও জটিল হয়ে ওঠে।

আমাজন সেজমেকার মাল্টি-কন্টেইনার এন্ডপয়েন্ট (MCEs) আমাদেরকে বিভিন্ন ফ্রেমওয়ার্কের মডেলগুলিকে গ্রুপ করতে এবং একই হোস্টে স্থাপন করতে সক্ষম করে, একটি একক এন্ডপয়েন্ট তৈরি করে। আপনি মডেলগুলি তৈরি করতে যে বিভিন্ন ফ্রেমওয়ার্ক ব্যবহার করছেন তার জন্য আপনি কন্টেইনারগুলি সরবরাহ করতে পারেন এবং সেজমেকার এই সমস্ত পাত্রে নিয়ে যায় এবং একটি শেষ পয়েন্টের পিছনে রাখে। উদাহরণস্বরূপ, আপনার কাছে একটি PyTorch এবং একটি TensorFlow মডেল দুটি ডেডিকেটেড এন্ডপয়েন্টে লোড করা থাকতে পারে যা একই বা সম্পূর্ণ ভিন্ন ব্যবহারের ক্ষেত্রে পরিবেশন করে এবং এই উভয় মডেলের মধ্যেই মাঝে মাঝে আগত ট্র্যাফিক রয়েছে যা তার সীমাতে সংস্থানগুলি ব্যবহার করে না। এই ধরনের পরিস্থিতিতে, আপনি MCE ব্যবহার করে একটি এন্ডপয়েন্টে কন্টেইনার ব্যবহার করে এগুলিকে একত্রিত করতে পারেন, বিভিন্ন এন্ডপয়েন্ট থেকে উভয় মডেলকে পরিবেশন করার জন্য খরচ কমিয়ে সম্পদের ব্যবহার উন্নত করতে পারেন।

মাল্টি-কন্টেইনার এন্ডপয়েন্টগুলি বিভিন্ন ML ফ্রেমওয়ার্ক, মডেল সার্ভার এবং একই বা ভিন্ন ব্যবহারের ক্ষেত্রে পরিবেশনকারী অ্যালগরিদমগুলিতে নির্মিত 15টি পর্যন্ত মডেল স্থাপন করার জন্য একটি মাপযোগ্য এবং ব্যয়-কার্যকর সমাধান প্রদান করে, যার অর্থ আপনি বিভিন্ন ML ফ্রেমওয়ার্ক বা মধ্যস্থতাকারীর উপর নির্মিত মডেলগুলি পেতে পারেন। এই সমস্ত পাত্রে এবং মডেল জুড়ে পদক্ষেপ. এই সমস্ত মডেলগুলি সরাসরি আহ্বানের মাধ্যমে পৃথকভাবে অ্যাক্সেস করা যেতে পারে বা সিরিয়াল আমন্ত্রণ ব্যবহার করে একটি পাইপলাইনে সেলাই করা যেতে পারে, যেখানে একটি মডেলের আউটপুট পরেরটির জন্য ইনপুট।

এই পোস্টে, আমরা সেজমেকার-এ মাল্টি-ফ্রেমওয়ার্ক মডেলগুলির সাথে কীভাবে ব্যয়-দক্ষ এমএল অনুমান সম্পাদন করা যায় তা নিয়ে আলোচনা করি।

MCE আমন্ত্রণ নিদর্শন

SageMaker MCE সরাসরি আমন্ত্রণ সেই ক্ষেত্রে উপযোগী যেখানে আপনি একটি MCE এন্ডপয়েন্টের সাথে সম্পর্কহীন মডেলগুলিকে একত্রিত করেছেন বা আপনি MCE এন্ডপয়েন্টের পিছনে মডেলগুলির মধ্যে তাদের কার্যকারিতা পরিমাপ করতে একটি A/B পরীক্ষা চালাচ্ছেন৷ আপনি API কলে সরাসরি নির্দিষ্ট ধারকটিকে কল করতে পারেন এবং সেই মডেল থেকে পূর্বাভাস পেতে পারেন।

সিরিয়াল ইনভোকেশনের মাধ্যমে, আপনি 2-15টি পাত্রে একসাথে সেলাই করতে পারেন এবং একটির আউটপুট ক্রমানুসারে পরবর্তী পাত্রের ইনপুট হয়ে যায়। এটি একটি আদর্শ ব্যবহারের ক্ষেত্রে যদি, উদাহরণস্বরূপ, আপনার কাছে একটি মাল্টি-স্টেপ ভবিষ্যদ্বাণী পাইপলাইন থাকে যেখানে একটি মধ্যবর্তী ভবিষ্যদ্বাণীর জন্য একটি স্কিট-লার্ন মডেল ব্যবহার করা হয় এবং ফলাফলটি চূড়ান্ত অনুমানের জন্য একটি টেনসরফ্লো মডেলকে খাওয়ানো হয়। সেগুলিকে বিভিন্ন এন্ডপয়েন্ট হিসাবে মোতায়েন করার পরিবর্তে এবং অন্য একটি অ্যাপ্লিকেশন বা চাকরি তাদের অর্কেস্ট্রেট করা এবং একাধিক API কল করার পরিবর্তে, আপনি সেজমেকার এমসিই হিসাবে তাদের স্থাপন করতে পারেন, যুক্তিকে বিমূর্ত করে এবং সিরিয়াল আহ্বানের জন্য সেগুলি সেট আপ করতে পারেন, যেখানে সেজমেকার একটি কন্টেইনারের মধ্যে ডেটা স্থানান্তর পরিচালনা করে। স্বয়ংক্রিয়ভাবে অন্যটিতে এবং চূড়ান্ত ধারকটির আউটপুট ক্লায়েন্টকে API অনুরোধ করে নির্গত করে।

সেজমেকার এমসিই সিরিয়াল আমন্ত্রণ একটি সেজমেকার সিরিয়াল ইনফারেন্স পাইপলাইন থেকে মৌলিকভাবে আলাদা (নীচের বিভাগে আরও বিশদ বিবরণ)। একটি সিরিয়াল ইনফরেন্স পাইপলাইনকে জটিল এমএল ওয়ার্কফ্লোগুলি অর্কেস্ট্রেট করার জন্য আরও লক্ষ্য করা হয় যেমন ডেটা প্রিপ্রসেসিং, একটি মডেল এনসেম্বল তৈরি করা, কোন মডেলকে আহ্বান করতে হবে তা নির্ধারণের জন্য শর্তসাপেক্ষ চেক প্রয়োগ করা, বা ভবিষ্যদ্বাণীটি পোস্টপ্রসেস করা, ভবিষ্যদ্বাণীটি ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলিতে পাঠানোর আগে ব্যবসায়িক যুক্তি জড়িত। . বিপরীতে, এমসিই সিরিয়াল আমন্ত্রণটি অনুমানের জন্য 2-14টি মডেলকে একটি পাইপলাইনে সেলাই করার জন্য ডিজাইন করা হয়েছে, প্রতিটি মডেল পূর্ববর্তী মডেলের পূর্বাভাসকে ইনপুট হিসাবে গ্রহণ করে।

একটি MCE-এর সমস্ত কন্টেইনার সর্বদা পরিষেবায় এবং মেমরিতে থাকে, তাই শেষ বিন্দুকে আহ্বান করার সময় কোনও কোল্ড স্টার্ট নেই৷ MCEs এন্ডপয়েন্ট ব্যবহার উন্নত করে এবং খরচ উন্নত করে কারণ মডেলগুলি একটি শেষ পয়েন্টের পিছনে স্থাপন করা হয় এবং প্রতিটি মডেল পৃথক গণনা সংস্থান দখল করার পরিবর্তে অন্তর্নিহিত কম্পিউট উদাহরণ ভাগ করে।

আসুন কয়েকটি ব্যবহারের ক্ষেত্রে দেখি এবং দেখুন কিভাবে আপনি ML অনুমান অপ্টিমাইজ করতে SageMaker MCEs ব্যবহার করতে পারেন।

SageMaker MCE-এর জন্য কেস ব্যবহার করুন

ধরুন আপনার কাছে সেন্টিমেন্ট শ্রেণীবিভাগের জন্য দুটি মডেল রয়েছে, একটি ইংরেজি ভাষার জন্য এবং অন্যটি জার্মান ভাষার জন্য, এবং এই মডেলগুলি বিভিন্ন ভৌগোলিক অঞ্চলে পরিবেশন করছে এবং দিনে বিভিন্ন সময়ে ট্রাফিক আসছে৷ 24/7 চলমান দুটি এন্ডপয়েন্ট থাকার পরিবর্তে, আপনি একটি MCE ব্যবহার করে উভয়কে একটি এন্ডপয়েন্টে স্থাপন করতে পারেন এবং সরাসরি আমন্ত্রণ ব্যবহার করে সেগুলি অ্যাক্সেস করতে পারেন, যার ফলে আপনার সম্পদের ব্যবহার এবং খরচ অপ্টিমাইজ করা যায়। নিম্নলিখিত কোড দেখুন:

englishModel = {
   'Image': container1,
   'ContainerHostname': englishModel }; ...
 
germanModel = {
   'Image': container2,
   'ContainerHostname': germanModel }; ...
 
sm.create_model(
   InferenceExecutionConfig = {'Mode': 'Direct'},
   Containers = [englishModel, germanModel], ...)
sm.create_endpoint_config(EndpointConfigName = ‘my-mce-epc’,
    ProductionVariants=[{
        'InstanceType':        ‘ml.m4.xlarge’,
        'InitialInstanceCount': 2,
        'InitialVariantWeight': 1,
        'ModelName':            ‘my-multi-model-name’,
        'VariantName':          'AllTraffic'}])
sm.create_endpoint(EndpointName = ‘my-mce-endpoint’, 
                  EndpointConfigName = ‘my-mce-epc’)

এই উদাহরণে, আমাদের দুটি মডেল আছে (englishModel এবং germanModel), এবং আমরা সেজমেকারের পাত্রে সংজ্ঞায়িত করি create_model গঠন এবং সংজ্ঞায়িত InferenceExecutionConfig 'সরাসরি' হিসাবে। এখন আমরা অনুমানের জন্য শেষ বিন্দুকে কল করতে পারি এবং সংজ্ঞায়িত করতে পারি TargetContainerHostname যেমন হয় englishModel or germanModel API কল করার ক্লায়েন্টের উপর নির্ভর করে:

sm.invoke_endpoint(        
   EndpointName = endpoint_name,
   TargetContainerHostname = englishModel,
   Body = body, ...)

আপনি মডেলগুলির মধ্যে পারফরম্যান্সের তুলনা করতে A/B পরীক্ষা চালানোর জন্য MCE-এর মধ্যে সরাসরি আহ্বানও ব্যবহার করতে পারেন।

নিম্নলিখিত চিত্রটি আমাদের স্থাপত্যের চিত্র তুলে ধরেছে।

একইভাবে, অন্যান্য ML ব্যবহারের ক্ষেত্রে, যখন প্রশিক্ষিত মডেলটি একটি অনুরোধ প্রক্রিয়াকরণের জন্য ব্যবহার করা হয়, তখন মডেলটি এমন একটি বিন্যাসে ডেটা গ্রহণ করে যা অনুমানের জন্য অ্যালগরিদমে পাঠানোর আগে প্রি-প্রসেস করা প্রয়োজন (উদাহরণস্বরূপ, বৈশিষ্ট্যযুক্ত)। যখন ML অ্যালগরিদমগুলি একসাথে শৃঙ্খলিত হয়, তখন চূড়ান্ত ফলাফলে পৌঁছানোর আগে একটি মডেলের আউটপুট পরবর্তীটির জন্য ইনপুট হিসাবে কাজ করে। এই ক্ষেত্রে, আপনি একটি সেজমেকার এমসিই সিরিয়াল পাইপলাইন তৈরি করতে পারেন, যেখানে কন্টেইনারগুলি একে অপরের সাথে কথা বলে create_model আপনি প্রতিটি মডেলকে বিভিন্ন এন্ডপয়েন্টে স্থাপন করার পরিবর্তে নির্মাণ করুন এবং এই সমস্ত মডেল এবং API কলগুলির মধ্যে ডেটা প্রবাহকে সহজ করার জন্য একটি স্বাধীন যুক্তি লিখুন। নীচের চিত্রটি এই স্থাপত্যটি চিত্রিত করে।

এই ব্যবহারের ক্ষেত্রে, আমরা নিম্নলিখিত কোড ব্যবহার করি:

sm_model = PipelineModel(name=model_name, role=aws_role, models=[Processing-1, Processing-2, Inference-1, Inference-2]) 

predictor = sm_model.deploy(initial_instance_count=1, instance_type="ml.c4.xlarge")                  
response = runtime.invoke_endpoint( 
EndpointName=predictor.endpoint,                                
    Body=body,...)

এই উদাহরণে, আমাদের দুটি প্রক্রিয়াকরণ পাত্র রয়েছে (Processing-1 এবং Processing-2) বৈশিষ্ট্য প্রক্রিয়াকরণ এবং ডেটা রূপান্তরের জন্য এবং দুটি অনুমান কন্টেইনার (Inference-1 এবং Inference-2) প্রি-প্রসেসড ডেটাতে এমএল মডেলের ভবিষ্যদ্বাণী চালানোর জন্য। দ্য PipelineModel উদাহরণ আপনাকে চারটি পাত্রের রৈখিক ক্রম দ্বারা গঠিত অনুমান পাইপলাইন সংজ্ঞায়িত করতে দেয় যা ডেটার অনুমানের জন্য অনুরোধগুলি প্রক্রিয়া করে। কন্টেইনারগুলি একই উদাহরণে সহ-অবস্থিত থাকে, যা আপনাকে কম লেটেন্সি সহ অনুমান চালাতে সক্ষম করে।

বড় সংখ্যক মডেলের জন্য মাল্টি-মডেল এন্ডপয়েন্ট স্কেল করুন

SageMaker মাল্টি-মডেল এন্ডপয়েন্টের সুবিধাগুলি মডেল একত্রীকরণের স্কেলের উপর ভিত্তি করে বৃদ্ধি পায়। একটি শেষ পয়েন্টের সাথে দুটি মডেল হোস্ট করার সময় আপনি খরচ সঞ্চয় দেখতে পারেন, এবং শত শত বা হাজার হাজার মডেলের সাথে ব্যবহারের ক্ষেত্রে, সঞ্চয় অনেক বেশি।

MCE এন্ডপয়েন্ট স্কেল করাও ব্যবহার করে সোজা SageMakerVariantInvocationsPerInstance পূর্বনির্ধারিত মেট্রিক, যা প্রতি মিনিটে গড়ে কতবার দেয় যে একটি মডেল এন্ডপয়েন্টের জন্য প্রতিটি উদাহরণ একটি সংজ্ঞায়িত করার জন্য আহ্বান করা হয় TargetScaling নীতি SageMaker আপনার কাজের চাপের পরিবর্তনের প্রতিক্রিয়া হিসাবে একটি মডেলের জন্য প্রবিধান করা দৃষ্টান্তের সংখ্যা গতিশীলভাবে সামঞ্জস্য করে। যখন কাজের চাপ বেড়ে যায়, তখন অটোস্কেলিং অনলাইনে আরও বেশি ঘটনা নিয়ে আসে এবং অনুরোধগুলি পরিবেশন করা চালিয়ে যেতে লক্ষ্য মডেল এবং পাত্রে লোড করে। যখন কাজের চাপ কমে যায়, তখন অটোস্কেলিং অপ্রয়োজনীয় দৃষ্টান্তগুলি সরিয়ে দেয় এবং মডেলের পাত্রগুলিকে অফলোড করে যাতে কন্টেইনারগুলি সম্পদগুলিকে খায় না, এবং আপনি ব্যবহার করছেন না এমন উদাহরণগুলির জন্য অর্থ প্রদান করবেন না। একটি প্রদত্ত মডেলের বিরুদ্ধে প্রথম অনুরোধটি সম্পূর্ণ করার সময় থেকে মডেলটি ডাউনলোড করতে অতিরিক্ত লেটেন্সি (কোল্ড স্টার্ট বলা হয়) অনুভব করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) এবং মেমরিতে লোড করুন। পরবর্তী কলগুলি কোনও অতিরিক্ত ওভারহেড ছাড়াই শেষ হয় কারণ মডেলটি ইতিমধ্যেই লোড হয়েছে৷ নিম্নলিখিত কোড দেখুন:

# AutoScaling client
asg = boto3.client('application-autoscaling')

# Resource type is variant and the unique identifier is the resource ID.
resource_id=f"endpoint/{endpoint_name}/variant/AllTraffic"

# scaling configuration
response = asg.register_scalable_target(
    ServiceNamespace='sagemaker', #
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    MinCapacity=1,
    MaxCapacity=4
)
#Target Scaling
response = asg.put_scaling_policy(
    PolicyName=f'Request-ScalingPolicy-{endpoint_name}',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 70.0, # Threshold
        'PredefinedMetricSpecification': {
            'PredefinedMetricType': 'SageMakerVariantInvocationsPerInstance',
        },
        'ScaleInCooldown': 300, # duration until scale in
        'ScaleOutCooldown': 60 # duration between scale out
    }
)

পূর্ববর্তী উদাহরণ নীতি কনফিগারেশন অনুসরণ করে, আমরা ব্যবহার করি SageMakerVariantInvocationsPerInstance বৈকল্পিক দৃষ্টান্তের সংখ্যা সামঞ্জস্য করার জন্য পূর্বনির্ধারিত মেট্রিক যাতে প্রতিটি উদাহরণে একটি থাকে InvocationsPerInstance 70 এর মেট্রিক।

আমরা আমাদের নিজস্ব কাস্টম মেট্রিকের উপর ভিত্তি করে SageMaker MCEs স্কেল করতে পারি, যেমন CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilization, বা DiskUtilization, একটি নির্দিষ্ট সংস্থান ব্যবহারের উপর ভিত্তি করে দৃষ্টান্তের সংখ্যা বাড়াতে বা কমাতে। আরো তথ্যের জন্য, পড়ুন অ্যামাজন সেজমেকার মডেলগুলি স্বয়ংক্রিয়ভাবে স্কেল করুন.

এটি সুপারিশ করা হয় যে প্রতিটি কন্টেইনারের মডেল প্রতিটি অনুমানের অনুরোধে অনুরূপ গণনা এবং লেটেন্সি প্রয়োজনীয়তা প্রদর্শন করে, কারণ যদি MCE-তে ট্রাফিক উচ্চ CPU ব্যবহার মডেল থেকে একটি নিম্ন CPU ব্যবহার মডেলে স্থানান্তরিত হয়, কিন্তু সামগ্রিক কলের পরিমাণ একই থাকে, শেষ পয়েন্ট স্কেল আউট হয় না এবং উচ্চ CPU ব্যবহার মডেলের সমস্ত অনুরোধগুলি পরিচালনা করার জন্য যথেষ্ট উদাহরণ নাও থাকতে পারে।

নিরাপদ MCE

সরাসরি আমন্ত্রণ সহ MCE-এর জন্য, মেমরি এবং স্টোরেজ ভলিউম ভাগ করে একাধিক পাত্রে একক উদাহরণে হোস্ট করা হয়। কন্টেইনারগুলি সুরক্ষিত করা, লক্ষ্য কন্টেইনারগুলিতে অনুরোধের সঠিক ম্যাপিং বজায় রাখা এবং ব্যবহারকারীদের লক্ষ্য কন্টেইনারগুলিতে সঠিক অ্যাক্সেস প্রদান করা গুরুত্বপূর্ণ। আপনি সীমাবদ্ধ করতে পারেন invoke_endpoint ব্যবহার করে একটি MCE এর ভিতরে সীমিত সেটের পাত্রে অ্যাক্সেস sagemaker:TargetContainerHostname এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) শর্ত কী। সেজমেকার ব্যবহার করে IAM ভূমিকা IAM পরিচয়-ভিত্তিক নীতিগুলি প্রদান করতে যা আপনি অনুমোদিত বা অস্বীকৃত ক্রিয়া এবং সংস্থানগুলি এবং যে শর্তগুলির অধীনে ক্রিয়াগুলি অনুমোদিত বা অস্বীকার করা হয় তা নির্দিষ্ট করতে ব্যবহার করেন৷ নিম্নলিখিত নীতিগুলি দেখায় যে কীভাবে একটি শেষ পয়েন্টের মধ্যে নির্দিষ্ট পাত্রে কল সীমিত করা যায়:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "sagemaker:InvokeEndpoint"
            ],
            "Effect": "Allow",
            "Resource": "arn:aws:sagemaker:region:account-id:endpoint/endpoint_name",
            "Condition": {
                "StringLike": {
                    "sagemaker:TargetContainerHostname": ["customIps*", "common*"]
                }
            }
        }
    ]
}

Amazon CloudWatch মেট্রিক্স ব্যবহার করে মাল্টি-মডেল এন্ডপয়েন্ট মনিটর করুন

মূল্য এবং পারফরম্যান্স ট্রেড-অফ করতে, আপনি আপনার নিজের অ্যাপ্লিকেশন থেকে মডেল এবং প্রতিনিধি ট্র্যাফিক সহ বহু-মডেল শেষ পয়েন্ট পরীক্ষা করতে চাইবেন। সেজমেকার অতিরিক্ত মেট্রিক্স প্রদান করে অ্যামাজন ক্লাউডওয়াচ মাল্টি-মডেল এন্ডপয়েন্টের জন্য যাতে আপনি এন্ডপয়েন্ট ব্যবহার এবং ক্যাশে হিট রেট নির্ধারণ করতে পারেন এবং আপনার এন্ডপয়েন্ট অপ্টিমাইজ করতে পারেন। মেট্রিক্স নিম্নরূপ:

মডেল লোডিং ওয়েটটাইম - যে সময়ের ব্যবধানে একটি আহ্বানের অনুরোধ লক্ষ্য মডেলটি ডাউনলোড বা লোড হওয়ার জন্য অপেক্ষা করে অনুমানটি সম্পাদন করতে।
মডেল আনলোড করার সময় – কন্টেইনারের মাধ্যমে মডেলটি আনলোড করতে যে সময়ের ব্যবধান লাগে UnloadModel API কল।
মডেল ডাউনলোড করার সময় – Amazon S3 থেকে মডেলটি ডাউনলোড করতে যে সময় লাগে।
মডেল লোডিং টাইম – ধারক এর মাধ্যমে মডেল লোড করতে যে সময়ের ব্যবধান LoadModel API কল।
মডেলক্যাচহিট - সংখ্যা InvokeEndpoint অনুরোধগুলি শেষ পয়েন্টে পাঠানো হয়েছে যেখানে মডেলটি ইতিমধ্যে লোড করা হয়েছে। গ্রহণ Average পরিসংখ্যান অনুরোধের অনুপাত দেখায় যেখানে মডেলটি ইতিমধ্যে লোড করা হয়েছিল৷
লোড করা মডেল কাউন্ট - শেষ পয়েন্টে পাত্রে লোড হওয়া মডেলের সংখ্যা। এই মেট্রিক প্রতি উদাহরণে নির্গত হয়। দ্য Average 1 মিনিটের সময়কালের পরিসংখ্যান আপনাকে প্রতি উদাহরণে লোড হওয়া মডেলের গড় সংখ্যা বলে এবং Sum পরিসংখ্যান আপনাকে শেষ পয়েন্টে সমস্ত দৃষ্টান্ত জুড়ে লোড হওয়া মোট মডেলের সংখ্যা বলে। এই মেট্রিক ট্র্যাকগুলি যে মডেলগুলি অগত্যা অনন্য নয় কারণ আপনি শেষ পয়েন্টে একাধিক পাত্রে একটি মডেল লোড করতে পারেন৷

এছাড়াও আরও বেশ কিছু মেট্রিক রয়েছে যা প্রতিটি ধারক দ্বারা একটি দৃষ্টান্তে চলমান দ্বারা ব্যবহৃত হয়, যেমন Invocations সংখ্যা নির্দেশ করে InvokeEndpoint একটি শেষ পয়েন্টের ভিতরে একটি কন্টেইনারে অনুরোধ পাঠানো হয়েছে, ContainerLatency টার্গেট কন্টেইনার বা সেজমেকার থেকে দেখা হিসাবে সাড়া দেওয়ার জন্য সিরিয়াল আমন্ত্রণে সমস্ত কন্টেইনারের জন্য একটি শেষ পয়েন্ট দেওয়া সময় দেওয়া, এবং CPUUtilization এবং MemoryUtilizaton CPU ইউনিট এবং মেমরির শতাংশ নির্দেশ করে।

উপসংহার

পোস্টে, আমরা আলোচনা করেছি কিভাবে সেজমেকার মাল্টি-কন্টেইনার এন্ডপয়েন্টগুলি খরচ এবং সম্পদের ব্যবহার অপ্টিমাইজ করতে সহায়ক হতে পারে। এমসিই কখন ব্যবহার করতে হবে তার উদাহরণগুলির মধ্যে নিম্নলিখিতগুলি অন্তর্ভুক্ত রয়েছে তবে সীমাবদ্ধ নয়:

বিভিন্ন ফ্রেমওয়ার্ক জুড়ে হোস্টিং মডেলগুলি (যেমন টেনসরফ্লো, পাইটর্চ এবং স্কিট-লার্ন) যেগুলির একটি উদাহরণের সম্পূর্ণ ক্ষমতা পরিপূর্ণ করার জন্য পর্যাপ্ত ট্র্যাফিক নেই
বিভিন্ন এমএল অ্যালগরিদম (যেমন সুপারিশ, পূর্বাভাস, বা শ্রেণীবিভাগ) এবং হ্যান্ডলার ফাংশন সহ একই কাঠামো থেকে মডেল হোস্ট করা
A/B পরীক্ষার মতো পরিস্থিতির জন্য বিভিন্ন ফ্রেমওয়ার্ক সংস্করণে (যেমন TensorFlow 1.x বনাম TensorFlow 2.x) চলমান অনুরূপ আর্কিটেকচারের তুলনা

SageMaker MCEs রিয়েল-টাইম এন্ডপয়েন্টে 15টি কন্টেইনার মোতায়েন করা এবং স্বল্প-বিলম্বিত অনুমান এবং খরচ সাশ্রয়ের জন্য স্বাধীনভাবে তাদের আহ্বান করা সমর্থন করে। মডেলগুলি সম্পূর্ণ ভিন্ন ভিন্ন হতে পারে, তাদের নিজস্ব স্বতন্ত্র পরিবেশন স্ট্যাক সহ। আপনি প্রতিটি অনুরোধের জন্য এই কন্টেইনারগুলিকে ক্রমানুসারে বা স্বাধীনভাবে আহ্বান করতে পারেন। বিভিন্ন ফ্রেমওয়ার্ক থেকে নিরাপদে একাধিক মডেল হোস্ট করা, ডেডিকেটেড সিঙ্গেল-ইনস্ট্যান্স এন্ডপয়েন্টে হোস্টিং মডেলের তুলনায় একটি একক উদাহরণে আপনাকে 90% পর্যন্ত খরচ বাঁচাতে পারে।

লেখক সম্পর্কে

ধাওয়াল প্যাটেল AWS-এর একজন প্রধান মেশিন লার্নিং আর্কিটেক্ট। তিনি ডিস্ট্রিবিউটেড কম্পিউটিং এবং কৃত্রিম বুদ্ধিমত্তা সংক্রান্ত সমস্যা নিয়ে বড় উদ্যোগ থেকে শুরু করে মাঝারি আকারের স্টার্টআপ পর্যন্ত সংস্থাগুলির সাথে কাজ করেছেন। তিনি এনএলপি এবং কম্পিউটার ভিশন ডোমেন সহ গভীর শিক্ষার উপর মনোনিবেশ করেন। তিনি গ্রাহকদের Amazon SageMaker-এ উচ্চ-পারফরম্যান্স মডেল অনুমান অর্জনে সহায়তা করেন।

বিক্রম এলাঙ্গো মার্কিন যুক্তরাষ্ট্রের ভার্জিনিয়ায় অবস্থিত অ্যামাজন ওয়েব সার্ভিসেস-এর একজন সিনিয়র এআই/এমএল বিশেষজ্ঞ সলিউশন আর্কিটেক্ট। বিক্রম বৈশ্বিক আর্থিক এবং বীমা শিল্প গ্রাহকদের ডিজাইন এবং চিন্তার নেতৃত্ব দিয়ে মেশিন লার্নিং অ্যাপ্লিকেশন তৈরি এবং স্থাপন করতে সাহায্য করে। তিনি বর্তমানে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, দায়িত্বশীল এআই, ইনফারেন্স অপ্টিমাইজেশান, এবং এন্টারপ্রাইজ জুড়ে এমএল স্কেলিং এর উপর দৃষ্টি নিবদ্ধ করছেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে ভ্রমণ, হাইকিং, রান্না এবং ক্যাম্পিং উপভোগ করেন।

সৌরভ ত্রিকন্দে অ্যামাজন সেজমেকার ইনফারেন্সের একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি গ্রাহকদের সাথে কাজ করার জন্য উত্সাহী এবং মেশিন লার্নিংকে গণতান্ত্রিক করার লক্ষ্য দ্বারা অনুপ্রাণিত৷ তিনি জটিল এমএল অ্যাপ্লিকেশন স্থাপন, মাল্টি-টেন্যান্ট এমএল মডেল, খরচ অপ্টিমাইজেশান, এবং গভীর শিক্ষার মডেলগুলিকে আরও অ্যাক্সেসযোগ্য করে তোলার সাথে সম্পর্কিত মূল চ্যালেঞ্জগুলিতে মনোনিবেশ করেন। অবসর সময়ে, সৌরভ হাইকিং, উদ্ভাবনী প্রযুক্তি সম্পর্কে শেখা, টেকক্রাঞ্চ অনুসরণ করা এবং তার পরিবারের সাথে সময় কাটানো উপভোগ করেন।

সময় স্ট্যাম্প: অক্টোবর 31, 2022অক্টোবর 31, 2022

থেকে আরো এডাব্লুএস মেশিন লার্নিং

কাস্টম IAM সম্পাদন ভূমিকার জন্য Amazon SageMaker JumpStart সক্ষম করুন৷

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1305927

সময় স্ট্যাম্প: 12 পারে, 2022

Amazon Q এর জন্য একটি স্ল্যাক গেটওয়ে স্থাপন করুন, আপনার ব্যবসায়িক বিশেষজ্ঞ | আমাজন ওয়েব সার্ভিসেস

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1935350

সময় স্ট্যাম্প: জানুয়ারী 9, 2024

Amazon SageMaker-এ মাল্টি-ফ্রেমওয়ার্ক মডেলের সাথে খরচ দক্ষ ML অনুমান

প্লেটো দ্বারা প্রকাশিত

MCE আমন্ত্রণ নিদর্শন

SageMaker MCE-এর জন্য কেস ব্যবহার করুন

বড় সংখ্যক মডেলের জন্য মাল্টি-মডেল এন্ডপয়েন্ট স্কেল করুন

নিরাপদ MCE

Amazon CloudWatch মেট্রিক্স ব্যবহার করে মাল্টি-মডেল এন্ডপয়েন্ট মনিটর করুন

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন পলি সাবটাইটেল জেনারেটর ব্যবহার করে সিঙ্ক্রোনাইজড বন্ধ ক্যাপশন এবং অডিও তৈরি করুন

Amazon Comprehend-এর সাথে The Very Group-এ PII ডেটা রিড্যাক্ট করা

অ্যামাজন সার্চ কীভাবে অ্যামাজন সেজমেকারের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়

Amazon SageMaker JumpStart মডেল এবং অ্যালগরিদম এখন API এর মাধ্যমে উপলব্ধ

Amazon SageMaker JumpStart এর সাথে স্বয়ংক্রিয় মডেল টিউনিং চালান

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব