ایمیزون سیج میکر پر ملٹی فریم ورک ماڈلز کے ساتھ لاگت کا موثر ایم ایل اندازہ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

مشین لرننگ (ML) ٹیکنالوجی کی سب سے کامیاب اور وسیع ایپلی کیشنز میں سے ایک ثابت ہوئی ہے، جو صنعتوں کی ایک وسیع رینج کو متاثر کرتی ہے اور ہر روز اربوں صارفین کو متاثر کرتی ہے۔ ہر صنعت میں ایم ایل کے اس تیزی سے اپنانے کے ساتھ، کمپنیوں کو وسائل کے زیادہ سے زیادہ استعمال اور متعلقہ اخراجات کو کم کرنے کے ساتھ ساتھ کم تاخیر کی پیشین گوئیوں کی حمایت کرنے اور اعلی دستیابی کے ساتھ چیلنجوں کا سامنا ہے۔ چونکہ ہر ایم ایل فریم ورک کا اپنا انحصار ہوتا ہے، اور ہر فریم ورک کے لیے تعیناتی کے مراحل مختلف ہوتے ہیں، اس لیے پروڈکشن میں مختلف فریم ورک میں بنائے گئے ماڈلز کو تعینات کرنا اور ہر ایک اختتامی نقطہ کا انتظام زیادہ سے زیادہ پیچیدہ ہوتا چلا جاتا ہے۔

ایمیزون سیج میکر ملٹی کنٹینر اینڈ پوائنٹس (MCEs) ہمیں مختلف فریم ورکس پر ماڈلز کو گروپ کرنے اور انہیں ایک ہی میزبان پر تعینات کرنے کے قابل بناتا ہے، ایک ہی اختتامی نقطہ بناتا ہے۔ آپ مختلف فریم ورکس کے لیے کنٹینرز فراہم کر سکتے ہیں جنہیں آپ ماڈل بنانے کے لیے استعمال کر رہے ہیں، اور SageMaker ان تمام کنٹینرز کو لے کر ایک اختتامی نقطہ کے پیچھے رکھتا ہے۔ مثال کے طور پر، آپ کے پاس ایک PyTorch اور TensorFlow ماڈل دو وقف شدہ اختتامی پوائنٹس پر لوڈ ہو سکتے ہیں جو ایک ہی یا مکمل طور پر مختلف استعمال کے معاملات پیش کرتے ہیں، اور ان دونوں ماڈلز میں وقفے وقفے سے آنے والی ٹریفک ہے جو وسائل کو اپنی حد تک استعمال نہیں کر رہی ہے۔ ایسی صورت حال میں، آپ MCE کا استعمال کرتے ہوئے کنٹینرز کا استعمال کرتے ہوئے ان کو ایک ساتھ جمع کر سکتے ہیں، وسائل کے استعمال کو بہتر بناتے ہوئے دونوں ماڈلز کو مختلف اینڈ پوائنٹس سے پیش کرنے میں ہونے والے اخراجات کو کم کر سکتے ہیں۔

ملٹی کنٹینر اینڈ پوائنٹس مختلف ML فریم ورکس، ماڈل سرورز، اور ایک ہی یا مختلف استعمال کے کیس کو پیش کرنے والے الگورتھم پر بنائے گئے 15 ماڈلز تک تعینات کرنے کے لیے ایک قابل توسیع اور لاگت کا حل فراہم کرتے ہیں، مطلب یہ ہے کہ آپ متنوع ML فریم ورکس یا بیچوان پر بنائے گئے ماڈلز رکھ سکتے ہیں۔ ان تمام کنٹینرز اور ماڈلز میں قدم۔ ان تمام ماڈلز تک براہ راست درخواست کے ذریعے انفرادی طور پر رسائی حاصل کی جا سکتی ہے یا سیریل انوکیشن کا استعمال کرتے ہوئے پائپ لائن میں سلائی جا سکتی ہے، جہاں ایک ماڈل کا آؤٹ پٹ اگلے ماڈل کے لیے ان پٹ ہوتا ہے۔

اس پوسٹ میں، ہم سیج میکر پر ملٹی فریم ورک ماڈلز کے ساتھ لاگت سے موثر ML تخمینہ کو انجام دینے کے طریقہ پر تبادلہ خیال کرتے ہیں۔

ایم سی ای کی درخواست کے نمونے۔

SageMaker MCE براہ راست درخواست ان صورتوں میں مفید ہے جہاں آپ نے غیر متعلقہ ماڈلز کو MCE اینڈ پوائنٹ میں جوڑا ہے یا آپ MCE اینڈ پوائنٹ کے پیچھے ماڈلز کے درمیان ان کی کارکردگی کا اندازہ لگانے کے لیے A/B ٹیسٹ چلا رہے ہیں۔ آپ API کال میں مخصوص کنٹینر کو براہ راست کال کر سکتے ہیں اور اس ماڈل سے پیشین گوئی حاصل کر سکتے ہیں۔

سیریل انوکیشن کے ساتھ، آپ 2-15 کنٹینرز کو ایک ساتھ سلائی کر سکتے ہیں، اور ایک کا آؤٹ پٹ تسلسل کے ساتھ اگلے کنٹینر کا ان پٹ بن جاتا ہے۔ یہ ایک مثالی استعمال کا معاملہ ہے اگر، مثال کے طور پر، آپ کے پاس ایک ملٹی سٹیپ پریڈیکشن پائپ لائن ہے جہاں انٹرمیڈیٹ پیشین گوئی کے لیے Scikit-learn ماڈل کا استعمال کیا جاتا ہے اور نتیجہ حتمی اندازہ کے لیے TensorFlow ماڈل کو دیا جاتا ہے۔ ان کو مختلف اینڈ پوائنٹس کے طور پر تعینات کرنے اور کسی اور ایپلیکیشن یا جاب کو ترتیب دینے اور ایک سے زیادہ API کال کرنے کے بجائے، آپ انہیں SageMaker MCE کے طور پر تعینات کر سکتے ہیں، منطق کا خلاصہ کرتے ہوئے انہیں سیریل انووکیشن کے لیے ترتیب دے سکتے ہیں، جہاں SageMaker ایک کنٹینر کے درمیان ڈیٹا کی منتقلی کا انتظام کرتا ہے۔ دوسرے کو خود بخود اور API کی درخواست کرنے والے کلائنٹ کو حتمی کنٹینر کا آؤٹ پٹ خارج کرتا ہے۔

SageMaker MCE سیریل انووکیشن بنیادی طور پر SageMaker سیریل انفرنس پائپ لائن سے مختلف ہے (مزید تفصیلات ذیل کے حصوں میں)۔ سیریل انفرنس پائپ لائن کو پیچیدہ ایم ایل ورک فلو کو آرکیسٹریٹ کرنے کے لیے زیادہ نشانہ بنایا جاتا ہے جیسے کہ ڈیٹا پری پروسیسنگ، ماڈل کا جوڑا بنانا، کنڈیشنل چیکس کو لاگو کرنا اس بات کا تعین کرنے کے لیے کہ کون سا ماڈل استعمال کرنا ہے، یا پیشین گوئی کو پوسٹ پروسیس کرنا، پیشین گوئی کو نیچے کی طرف بھیجے جانے سے پہلے کاروباری منطق کو شامل کرنا۔ . اس کے برعکس، MCE سیریل انووکیشن کو 2–14 ماڈلز کو پائپ لائن میں سلائی کرنے کے لیے ڈیزائن کیا گیا ہے، ہر ماڈل ان پٹ کے طور پر پچھلے ماڈل کی پیشین گوئی لیتا ہے۔

MCE میں موجود تمام کنٹینرز ہمیشہ خدمت اور یادداشت میں ہوتے ہیں، اس لیے اختتامی نقطہ کی درخواست کرتے وقت کوئی کولڈ اسٹارٹ نہیں ہوتا ہے۔ MCEs اختتامی نقطہ کے استعمال کو بھی بہتر بناتا ہے اور لاگت کو بہتر بناتا ہے کیونکہ ماڈلز کو ایک اختتامی نقطہ کے پیچھے لگایا جاتا ہے اور ہر ایک ماڈل کے انفرادی کمپیوٹ وسائل پر قبضہ کرنے کی بجائے بنیادی کمپیوٹ مثال کا اشتراک کرتے ہیں۔

آئیے استعمال کے چند کیسز کو دیکھتے ہیں اور دیکھتے ہیں کہ آپ کس طرح سیج میکر MCEs کو ML inference کو بہتر بنانے کے لیے استعمال کر سکتے ہیں۔

SageMaker MCEs کے لیے کیسز استعمال کریں۔

فرض کریں کہ آپ کے پاس جذبات کی درجہ بندی کے لیے دو ماڈل ہیں، ایک انگریزی زبان کے لیے اور دوسرا جرمن زبان کے لیے، اور یہ ماڈلز مختلف جغرافیوں میں پیش کر رہے ہیں جس میں ایک دن میں مختلف اوقات میں ٹریفک آتی ہے۔ 24/7 چلنے والے دو اینڈ پوائنٹس رکھنے کے بجائے، آپ MCE کا استعمال کرتے ہوئے ان دونوں کو ایک اینڈ پوائنٹ میں تعینات کر سکتے ہیں اور براہ راست درخواست کے ذریعے ان تک رسائی حاصل کر سکتے ہیں، اس طرح آپ کے وسائل کے استعمال اور اخراجات کو بہتر بنایا جا سکتا ہے۔ درج ذیل کوڈ دیکھیں:

englishModel = {
   'Image': container1,
   'ContainerHostname': englishModel }; ...
 
germanModel = {
   'Image': container2,
   'ContainerHostname': germanModel }; ...
 
sm.create_model(
   InferenceExecutionConfig = {'Mode': 'Direct'},
   Containers = [englishModel, germanModel], ...)
sm.create_endpoint_config(EndpointConfigName = ‘my-mce-epc’,
    ProductionVariants=[{
        'InstanceType':        ‘ml.m4.xlarge’,
        'InitialInstanceCount': 2,
        'InitialVariantWeight': 1,
        'ModelName':            ‘my-multi-model-name’,
        'VariantName':          'AllTraffic'}])
sm.create_endpoint(EndpointName = ‘my-mce-endpoint’, 
                  EndpointConfigName = ‘my-mce-epc’)

اس مثال میں، ہمارے پاس دو ماڈل ہیں (englishModel اور germanModel)، اور ہم SageMaker میں کنٹینرز کی وضاحت کرتے ہیں۔ create_model کی تشکیل اور وضاحت کریں۔ InferenceExecutionConfig بطور 'براہ راست'۔ اب ہم اندازہ کے لیے اختتامی نقطہ کو کال کر سکتے ہیں اور اس کی وضاحت کر سکتے ہیں۔ TargetContainerHostname یا تو کے طور پر englishModel or germanModel API کال کرنے والے کلائنٹ پر منحصر ہے:

sm.invoke_endpoint(        
   EndpointName = endpoint_name,
   TargetContainerHostname = englishModel,
   Body = body, ...)

آپ ماڈلز کے درمیان کارکردگی کا موازنہ کرنے کے لیے A/B ٹیسٹ چلانے کے لیے MCE کے اندر براہ راست درخواست بھی استعمال کر سکتے ہیں۔

درج ذیل خاکہ ہمارے فن تعمیر کو واضح کرتا ہے۔

اسی طرح، ایم ایل کے استعمال کے دیگر معاملات میں، جب تربیت یافتہ ماڈل کو کسی درخواست پر کارروائی کرنے کے لیے استعمال کیا جاتا ہے، تو ماڈل کو اس فارمیٹ میں ڈیٹا موصول ہوتا ہے جس کو پہلے سے پروسیس کرنے کی ضرورت ہوتی ہے (مثال کے طور پر، فیچرائزڈ) اس سے پہلے کہ اسے الگورتھم تک پہنچایا جاسکے۔ جب ML الگورتھم ایک ساتھ جکڑے جاتے ہیں، تو حتمی نتیجہ تک پہنچنے سے پہلے ایک ماڈل کا آؤٹ پٹ اگلے ماڈل کے لیے ان پٹ کا کام کرتا ہے۔ اس صورت میں، آپ SageMaker MCE سیریل پائپ لائن بنا سکتے ہیں، جہاں کنٹینرز ایک دوسرے سے اس ترتیب میں بات کرتے ہیں۔ create_model اس کے بجائے کہ آپ ہر ماڈل کو مختلف اینڈ پوائنٹس میں تعینات کریں اور ان تمام ماڈلز اور API کالز کے درمیان ڈیٹا کے بہاؤ کو آسان بنانے کے لیے ایک آزاد منطق لکھیں۔ مندرجہ ذیل خاکہ اس فن تعمیر کو واضح کرتا ہے۔

اس استعمال کے معاملے کے لیے، ہم درج ذیل کوڈ کا استعمال کرتے ہیں:

sm_model = PipelineModel(name=model_name, role=aws_role, models=[Processing-1, Processing-2, Inference-1, Inference-2]) 

predictor = sm_model.deploy(initial_instance_count=1, instance_type="ml.c4.xlarge")                  
response = runtime.invoke_endpoint( 
EndpointName=predictor.endpoint,                                
    Body=body,...)

اس مثال میں، ہمارے پاس دو پروسیسنگ کنٹینرز ہیں (Processing-1 اور Processing-2) فیچر پروسیسنگ اور ڈیٹا کی تبدیلیوں کے لیے، اور دو انفرنس کنٹینرز (Inference-1 اور Inference-2) پہلے سے تیار کردہ ڈیٹا پر ایم ایل ماڈل کی پیشن گوئیاں چلانے کے لیے۔ دی PipelineModel مثال آپ کو چار کنٹینرز کی لکیری ترتیب پر مشتمل انفرنس پائپ لائن کی وضاحت کرنے کی اجازت دیتی ہے جو ڈیٹا پر تخمینہ لگانے کی درخواستوں پر کارروائی کرتی ہے۔ کنٹینرز ایک ہی مثال پر ایک ساتھ واقع ہیں، آپ کو کم تاخیر کے ساتھ اندازہ چلانے کے قابل بناتے ہیں۔

بڑی تعداد میں ماڈلز کے لیے ملٹی ماڈل اینڈ پوائنٹس کی پیمائش کریں۔

SageMaker ملٹی ماڈل اینڈ پوائنٹس کے فوائد ماڈل کنسولیڈیشن کے پیمانے کی بنیاد پر بڑھتے ہیں۔ آپ ایک اختتامی نقطہ کے ساتھ دو ماڈلز کی میزبانی کرتے وقت لاگت کی بچت دیکھ سکتے ہیں، اور سینکڑوں یا ہزاروں ماڈلز کے استعمال کے معاملات میں، بچت بہت زیادہ ہوتی ہے۔

کا استعمال کرتے ہوئے MCE کے اختتامی پوائنٹس کی پیمائش کرنا بھی سیدھا ہے۔ SageMakerVariantInvocationsPerInstance پہلے سے طے شدہ میٹرک، جو ہر منٹ میں اوقات کی اوسط تعداد دیتا ہے کہ ماڈل اینڈ پوائنٹ کے لیے ہر ایک مثال کی وضاحت کرنے کے لیے کہا جاتا ہے TargetScaling پالیسی SageMaker آپ کے کام کے بوجھ میں تبدیلیوں کے جواب میں ماڈل کے لیے فراہم کردہ مثالوں کی تعداد کو متحرک طور پر ایڈجسٹ کرتا ہے۔ جب کام کا بوجھ بڑھتا ہے، تو آٹو اسکیلنگ آن لائن مزید مثالیں لاتی ہے اور درخواستوں کی خدمت جاری رکھنے کے لیے ٹارگٹ ماڈلز اور کنٹینرز کے ساتھ لوڈ ہوتی ہے۔ جب کام کا بوجھ کم ہوجاتا ہے، تو آٹو اسکیلنگ غیر ضروری مثالوں کو ہٹا دیتی ہے اور ماڈل کنٹینرز کو آف لوڈ کرتی ہے تاکہ کنٹینرز وسائل کو نہ کھائیں، اور آپ ان مثالوں کے لیے ادائیگی نہیں کرتے جو آپ استعمال نہیں کر رہے ہیں۔ دیے گئے ماڈل کے خلاف پہلی درخواست کو مکمل کرنے کا وقت اضافی تاخیر کا تجربہ کرتا ہے (جسے کولڈ اسٹارٹ کہا جاتا ہے) ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) اور اسے میموری میں لوڈ کریں۔ بعد میں آنے والی کالیں بغیر کسی اضافی اوور ہیڈ کے ختم ہو جاتی ہیں کیونکہ ماڈل پہلے ہی بھری ہوئی ہے۔ درج ذیل کوڈ دیکھیں:

# AutoScaling client
asg = boto3.client('application-autoscaling')

# Resource type is variant and the unique identifier is the resource ID.
resource_id=f"endpoint/{endpoint_name}/variant/AllTraffic"

# scaling configuration
response = asg.register_scalable_target(
    ServiceNamespace='sagemaker', #
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    MinCapacity=1,
    MaxCapacity=4
)
#Target Scaling
response = asg.put_scaling_policy(
    PolicyName=f'Request-ScalingPolicy-{endpoint_name}',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 70.0, # Threshold
        'PredefinedMetricSpecification': {
            'PredefinedMetricType': 'SageMakerVariantInvocationsPerInstance',
        },
        'ScaleInCooldown': 300, # duration until scale in
        'ScaleOutCooldown': 60 # duration between scale out
    }
)

سابقہ مثال کی پالیسی کی ترتیب کے بعد، ہم استعمال کرتے ہیں۔ SageMakerVariantInvocationsPerInstance متغیر مثالوں کی تعداد کو ایڈجسٹ کرنے کے لیے پہلے سے طے شدہ میٹرک تاکہ ہر مثال میں ایک ہو۔ InvocationsPerInstance میٹرک 70۔

ہم SageMaker MCEs کو اپنی مرضی کے مطابق میٹرک کی بنیاد پر بھی پیمانہ کر سکتے ہیں، جیسے CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilization، یا DiskUtilization، کسی مخصوص وسائل کے استعمال کی بنیاد پر واقعات کی تعداد کو بڑھانا یا کم کرنا۔ مزید معلومات کے لیے رجوع کریں۔ ایمیزون سیج میکر ماڈلز کو خود بخود اسکیل کریں۔.

یہ تجویز کیا جاتا ہے کہ ہر کنٹینر میں موجود ماڈل ہر تخمینے کی درخواست پر یکساں کمپیوٹ اور تاخیر کے تقاضوں کو ظاہر کرے، کیونکہ اگر MCE کی طرف ٹریفک اعلی CPU استعمال ماڈل سے کم CPU استعمال ماڈل کی طرف منتقل ہو جاتی ہے، لیکن کال کا مجموعی حجم وہی رہتا ہے، اختتامی نقطہ اسکیل آؤٹ نہیں ہوتا ہے اور اعلی CPU استعمال ماڈل کی تمام درخواستوں کو سنبھالنے کے لئے کافی مثالیں نہیں ہوسکتی ہیں۔

محفوظ MCEs

براہ راست درخواست کے ساتھ MCEs کے لیے، میموری اور اسٹوریج والیوم کا اشتراک کرکے ایک ہی مثال میں متعدد کنٹینرز کی میزبانی کی جاتی ہے۔ کنٹینرز کو محفوظ بنانا، کنٹینرز کو نشانہ بنانے کے لیے درخواستوں کی درست نقشہ سازی کو برقرار رکھنا، اور صارفین کو ہدف والے کنٹینرز تک درست رسائی فراہم کرنا ضروری ہے۔ آپ پابندی لگا سکتے ہیں۔ invoke_endpoint کا استعمال کرتے ہوئے MCE کے اندر کنٹینرز کے محدود سیٹ تک رسائی sagemaker:TargetContainerHostname AWS شناخت اور رسائی کا انتظام (IAM) کنڈیشن کلید۔ سیج میکر استعمال کرتا ہے۔ IAM کے کردار IAM کی شناخت پر مبنی پالیسیاں فراہم کرنے کے لیے جو آپ اجازت یافتہ یا مسترد کردہ اعمال اور وسائل اور ان شرائط کو بتانے کے لیے استعمال کرتے ہیں جن کے تحت کارروائیوں کی اجازت یا انکار کیا جاتا ہے۔ درج ذیل پالیسیاں یہ بتاتی ہیں کہ آخر پوائنٹ کے اندر مخصوص کنٹینرز تک کالز کو کیسے محدود کیا جائے:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "sagemaker:InvokeEndpoint"
            ],
            "Effect": "Allow",
            "Resource": "arn:aws:sagemaker:region:account-id:endpoint/endpoint_name",
            "Condition": {
                "StringLike": {
                    "sagemaker:TargetContainerHostname": ["customIps*", "common*"]
                }
            }
        }
    ]
}

Amazon CloudWatch میٹرکس کا استعمال کرتے ہوئے ملٹی ماڈل اینڈ پوائنٹس کی نگرانی کریں۔

قیمت اور کارکردگی کے تجارتی معاہدوں کے لیے، آپ اپنی درخواست سے ماڈلز اور نمائندہ ٹریفک کے ساتھ ملٹی ماڈل اینڈ پوائنٹس کی جانچ کرنا چاہیں گے۔ SageMaker میں اضافی میٹرکس فراہم کرتا ہے۔ ایمیزون کلاؤڈ واچ ملٹی ماڈل اینڈ پوائنٹس کے لیے تاکہ آپ اینڈ پوائنٹ کے استعمال اور کیش ہٹ ریٹ کا تعین کر سکیں اور اپنے اینڈ پوائنٹ کو بہتر بنا سکیں۔ میٹرکس درج ذیل ہیں:

ماڈل لوڈنگ ویٹ ٹائم - وقت کا وقفہ جس میں ایک درخواست کی درخواست ٹارگٹ ماڈل کے ڈاؤن لوڈ ہونے یا اندازہ لگانے کے لیے لوڈ ہونے کا انتظار کرتی ہے۔
ماڈل ان لوڈنگ ٹائم - وقت کا وقفہ جو کنٹینر کے ذریعے ماڈل کو اتارنے میں لگتا ہے۔ UnloadModel API کال۔
ماڈل ڈاؤن لوڈنگ ٹائم - وقت کا وقفہ جو ایمیزون S3 سے ماڈل ڈاؤن لوڈ کرنے میں لگتا ہے۔
ماڈل لوڈنگ ٹائم - وقت کا وقفہ جو کنٹینر کے ذریعے ماڈل کو لوڈ کرنے میں لگتا ہے۔ LoadModel API کال۔
ماڈل کیچ ہٹ - کی تعداد InvokeEndpoint درخواستیں اختتامی نقطہ پر بھیجی گئیں جہاں ماڈل پہلے ہی لوڈ تھا۔ لے جانا Average اعدادوشمار درخواستوں کا تناسب دکھاتا ہے جس میں ماڈل پہلے ہی لوڈ کیا گیا تھا۔
لوڈ شدہ ماڈل کاؤنٹ - اختتامی نقطہ میں کنٹینرز میں بھری ہوئی ماڈلز کی تعداد۔ یہ میٹرک ہر مثال کے طور پر خارج ہوتا ہے۔ دی Average 1 منٹ کی مدت کے ساتھ اعدادوشمار آپ کو فی مثال لوڈ کردہ ماڈلز کی اوسط تعداد بتاتا ہے، اور Sum اعدادوشمار آپ کو اختتامی نقطہ میں تمام مثالوں میں بھری ہوئی ماڈلز کی کل تعداد بتاتا ہے۔ یہ میٹرک ٹریک کرنے والے ماڈلز ضروری نہیں کہ منفرد ہوں کیونکہ آپ اینڈ پوائنٹ میں متعدد کنٹینرز میں ماڈل لوڈ کر سکتے ہیں۔

کئی دیگر میٹرکس بھی ہیں جو ہر ایک کنٹینر کے ذریعہ ایک مثال پر چلتے ہیں، جیسے Invocations کی تعداد کی نشاندہی کرتا ہے۔ InvokeEndpoint ایک اختتامی نقطہ کے اندر ایک کنٹینر کو بھیجی گئی درخواستیں، ContainerLatency ٹارگٹ کنٹینر یا سیریل انووکیشن میں تمام کنٹینرز کو سیج میکر کی طرف سے دیکھا گیا جواب دینے کے لیے ایک اینڈ پوائنٹ کا وقت دینا، اور CPUUtilization اور MemoryUtilizaton CPU یونٹس اور میموری کی فیصد کی نشاندہی کرنا۔

نتیجہ

پوسٹ میں، ہم نے بحث کی کہ کس طرح SageMaker ملٹی کنٹینر اینڈ پوائنٹس لاگت اور وسائل کے استعمال کو بہتر بنانے میں مددگار ثابت ہو سکتے ہیں۔ MCEs کو کب استعمال کرنا ہے اس کی مثالوں میں درج ذیل شامل ہیں، لیکن ان تک محدود نہیں ہیں:

مختلف فریم ورک (جیسے TensorFlow، PyTorch، اور Scikit-learn) پر ایسے ماڈلز کی میزبانی کرنا جن میں کسی مثال کی پوری صلاحیت کو پورا کرنے کے لیے کافی ٹریفک نہیں ہے۔
مختلف ML الگورتھم (جیسے سفارشات، پیشن گوئی، یا درجہ بندی) اور ہینڈلر کے افعال کے ساتھ ایک ہی فریم ورک سے ماڈلز کی میزبانی کرنا
A/B ٹیسٹنگ جیسے منظرناموں کے لیے مختلف فریم ورک ورژنز (جیسے TensorFlow 1.x بمقابلہ TensorFlow 2.x) پر چلنے والے ایک جیسے فن تعمیر کا موازنہ

SageMaker MCEs ریئل ٹائم اینڈ پوائنٹس پر 15 کنٹینرز کی تعیناتی اور کم تاخیر کا اندازہ لگانے اور لاگت کی بچت کے لیے آزادانہ طور پر ان کی درخواست کرنے کی حمایت کرتے ہیں۔ ماڈل مکمل طور پر متضاد ہوسکتے ہیں، ان کے اپنے خود مختار سرونگ اسٹیک کے ساتھ۔ آپ ہر درخواست کے لیے یا تو ان کنٹینرز کو ترتیب وار یا آزادانہ طور پر طلب کر سکتے ہیں۔ مختلف فریم ورکس سے ایک سے زیادہ ماڈلز کی محفوظ طریقے سے میزبانی کرنے سے آپ کی لاگت میں 90% تک بچت ہو سکتی ہے اس کے مقابلے میں مخصوص سنگل انسٹینس اینڈ پوائنٹس میں ہوسٹنگ ماڈلز کے مقابلے۔

مصنفین کے بارے میں

دھول پٹیل AWS میں پرنسپل مشین لرننگ آرکیٹیکٹ ہے۔ انہوں نے تقسیم شدہ کمپیوٹنگ اور مصنوعی ذہانت سے متعلق مسائل پر بڑے اداروں سے لے کر درمیانے درجے کے اسٹارٹ اپس تک کی تنظیموں کے ساتھ کام کیا ہے۔ وہ گہری سیکھنے پر توجہ مرکوز کرتا ہے، بشمول NLP اور کمپیوٹر ویژن ڈومینز۔ وہ صارفین کو Amazon SageMaker پر اعلیٰ کارکردگی کے ماڈل کا اندازہ حاصل کرنے میں مدد کرتا ہے۔

وکرم ایلنگو ورجینیا، US میں مقیم Amazon Web Services میں ایک سینئر AI/ML ماہر حل آرکیٹیکٹ ہیں۔ وکرم عالمی مالیاتی اور انشورنس انڈسٹری کے صارفین کو ڈیزائن اور سوچی سمجھی قیادت کے ساتھ مشین لرننگ ایپلی کیشنز کو بڑے پیمانے پر بنانے اور تعینات کرنے میں مدد کرتا ہے۔ وہ فی الحال پورے انٹرپرائز میں قدرتی زبان کی پروسیسنگ، ذمہ دار AI، انفرنس آپٹیمائزیشن، اور ML اسکیلنگ پر مرکوز ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ سفر، پیدل سفر، کھانا پکانے اور کیمپنگ سے لطف اندوز ہوتا ہے۔

سوربھ تریکنڈے Amazon SageMaker Inference کے لیے ایک سینئر پروڈکٹ مینیجر ہے۔ وہ صارفین کے ساتھ کام کرنے کا شوق رکھتا ہے اور مشین لرننگ کو جمہوری بنانے کے مقصد سے حوصلہ افزائی کرتا ہے۔ وہ پیچیدہ ایم ایل ایپلی کیشنز، ملٹی ٹیننٹ ایم ایل ماڈلز، لاگت کی اصلاح، اور ڈیپ لرننگ ماڈلز کی تعیناتی کو مزید قابل رسائی بنانے سے متعلق بنیادی چیلنجوں پر توجہ مرکوز کرتا ہے۔ اپنے فارغ وقت میں، سوربھ کو پیدل سفر کرنا، اختراعی ٹیکنالوجیز کے بارے میں سیکھنا، TechCrunch کی پیروی کرنا، اور اپنے خاندان کے ساتھ وقت گزارنا پسند ہے۔

ٹائم اسٹیمپ: اکتوبر 31، 2022اکتوبر 31، 2022

ٹائم اسٹیمپ: جولائی 26، 2023

ایمیزون سیج میکر پر ملٹی فریم ورک ماڈلز کے ساتھ لاگت سے موثر ML تخمینہ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ایم سی ای کی درخواست کے نمونے۔

SageMaker MCEs کے لیے کیسز استعمال کریں۔

بڑی تعداد میں ماڈلز کے لیے ملٹی ماڈل اینڈ پوائنٹس کی پیمائش کریں۔

محفوظ MCEs

Amazon CloudWatch میٹرکس کا استعمال کرتے ہوئے ملٹی ماڈل اینڈ پوائنٹس کی نگرانی کریں۔

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

وائٹ پیپر: ہیلتھ کیئر اور لائف سائنسز میں مشین لرننگ کے بہترین طریقے

یارا ایمیزون سیج میکر کی ایم ایل او پی خصوصیات کو اپنے امونیا پلانٹس میں توانائی کی اصلاح کی پیمائش کے لیے کس طرح استعمال کر رہا ہے

اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز کے لیے Amazon Kendra تلاش کو فعال کریں۔

Amazon Lookout for Metrics کا استعمال کرتے ہوئے آسانی سے اپنی اطلاعات کو حسب ضرورت بنائیں

ایمیزون ای کے ایس اور ایمیزون سیج میکر پر اے ڈبلیو ایس تعیناتی پر ایک کلک کیوب فلو کے ساتھ ہائبرڈ ایم ایل ورک فلو کو فعال کرنا

AWS Inferentia اور AWS Trainium کے ساتھ Amazon SageMaker جمپ سٹارٹ میں لاما 2 ماڈلز کو فائن ٹیون اور لاگت سے لاگو کریں۔ ایمیزون ویب سروسز

Amazon Kendra کے لیے اپ ڈیٹ کردہ Microsoft OneDrive کنیکٹر (V2) کا اعلان

AWS آپ کی AI حکمت عملی کی منصوبہ بندی کے لیے نئی مصنوعی ذہانت، مشین لرننگ، اور جنریٹیو AI گائیڈز پیش کرتا ہے۔ ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ