ایمیزون سیج میکر ملٹی ماڈل اینڈ پوائنٹ کے ساتھ ملٹی ماڈل انفرنس کو چلائیں اور بہتر بنائیں

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون سیج میکر ملٹی ماڈل اینڈ پوائنٹ (MME) آپ کو ایک ہی اینڈ پوائنٹ میں ایک سے زیادہ ماڈلز کو لاگت سے مؤثر طریقے سے تعینات اور میزبانی کرنے کے قابل بناتا ہے اور پھر اسکیل حاصل کرنے کے لیے اینڈ پوائنٹ کو افقی طور پر پیمانہ کرتا ہے۔ جیسا کہ مندرجہ ذیل تصویر میں واضح کیا گیا ہے، یہ آپ کے مشین لرننگ (ML) انفراسٹرکچر کے اندر ماڈلز کی کثیر کرایہ داری کو نافذ کرنے کے لیے ایک مؤثر تکنیک ہے۔ ہم نے سافٹ ویئر کو بطور سروس دیکھا ہے (ساس) کاروبار اس خصوصیت کو اپنے ML ماڈلز میں ہائپر پرسنلائزیشن لاگو کرنے کے لیے استعمال کرتے ہیں جبکہ کم قیمتیں حاصل کرتے ہیں۔

MME کیسے کام کرتا ہے اس کے اعلیٰ سطحی جائزہ کے لیے، AWS Summit ویڈیو دیکھیں ایم ایل کو اگلی سطح تک بڑھانا: سیج میکر پر ہزاروں ماڈلز کی میزبانی کرنا. ہائپر پرسنلائزڈ، کثیر کرایہ دار کے استعمال کے معاملات کے بارے میں مزید جاننے کے لیے جو MME قابل بناتا ہے، ملاحظہ کریں۔ کثیر کرایہ دار SaaS استعمال کے کیسز کے لیے مشین لرننگ انفرنس کو کیسے پیمانہ کریں۔.

اس پوسٹ کے بقیہ حصے میں، ہم SageMaker MME کے تکنیکی فن تعمیر میں گہرائی میں ڈوبتے ہیں اور آپ کے ملٹی ماڈل اینڈ پوائنٹس کو بہتر بنانے کے لیے بہترین طریقوں کا اشتراک کرتے ہیں۔

ایم ایم ای کے لیے موزوں ترین کیسز استعمال کریں۔

SageMaker ملٹی ماڈل اینڈ پوائنٹس ماڈلز کی ایک بڑی تعداد کی میزبانی کے لیے موزوں ہیں جنہیں آپ مشترکہ سرونگ کنٹینر کے ذریعے پیش کر سکتے ہیں اور آپ کو ایک ہی وقت میں تمام ماڈلز تک رسائی کی ضرورت نہیں ہے۔ اینڈ پوائنٹ انسٹنس میموری کے سائز پر منحصر ہے، میموری کے موثر استعمال کو زیادہ سے زیادہ کرنے کے لیے ایک ماڈل کو کبھی کبھار میموری سے اتارا جا سکتا ہے، اس لیے آپ کی ایپلیکیشن کو ان لوڈ شدہ ماڈلز پر کبھی کبھار لیٹنسی اسپائکس کو برداشت کرنے کی ضرورت ہے۔

MME کو شریک میزبانی کرنے والے ماڈلز کے لیے بھی ڈیزائن کیا گیا ہے جو ایک ہی ML فریم ورک کا استعمال کرتے ہیں کیونکہ وہ ایک سے زیادہ ماڈلز کو لوڈ کرنے کے لیے مشترکہ کنٹینر کا استعمال کرتے ہیں۔ اس لیے، اگر آپ کے ماڈل کے بیڑے میں ML فریم ورک کا مرکب ہے (جیسے PyTorch اور TensorFlow)، SageMaker وقف شدہ اختتامی پوائنٹس یا ملٹی کنٹینر ہوسٹنگ ایک بہتر انتخاب ہے۔

آخر میں، MME ان ایپلی کیشنز کے لیے موزوں ہے جو کبھی کبھار کولڈ سٹارٹ لیٹنسی پنالٹی کو برداشت کر سکتی ہیں، کیونکہ ماڈلز کو پہلی درخواست پر لوڈ کیا جاتا ہے اور کبھی کبھار استعمال ہونے والے ماڈلز کو نئے ماڈلز لوڈ کرنے کے حق میں میموری سے آف لوڈ کیا جا سکتا ہے۔ لہذا، اگر آپ کے پاس اکثر اور کبھی کبھار رسائی حاصل کرنے والے ماڈلز کا مرکب ہے، تو ایک ملٹی ماڈل اینڈ پوائنٹ اس ٹریفک کو کم وسائل اور زیادہ لاگت کی بچت کے ساتھ مؤثر طریقے سے پیش کر سکتا ہے۔

ہم نے کچھ منظرنامے بھی دیکھے ہیں جہاں گاہک اپنے تمام ماڈلز کو فٹ کرنے کے لیے کافی مجموعی میموری کی گنجائش کے ساتھ ایک MME کلسٹر تعینات کرتے ہیں، اس طرح ماڈل آف لوڈز سے مکمل طور پر گریز کرتے ہیں پھر بھی مشترکہ انفراسٹرکچر کی وجہ سے لاگت کی بچت حاصل کرتے ہیں۔

ماڈل پیش کرنے والے کنٹینرز

جب آپ SageMaker Inference Toolkit یا MME کے ساتھ مطابقت رکھنے والا پہلے سے بنایا ہوا SageMaker ماڈل استعمال کرتے ہیں، تو آپ کے کنٹینر میں ملٹی ماڈل سرور (JVM عمل) چل رہا ہے۔ ملٹی ماڈل سرور (MMS) کو اپنے ماڈل سرونگ کنٹینر میں شامل کرنے کا سب سے آسان طریقہ استعمال کرنا ہے۔ سیج میکر ماڈل کنٹینرز پیش کر رہا ہے۔ ایم ایم ای کے ساتھ مطابقت رکھتا ہے (جواب ٹائپ = انفرنس اور سی پی یو/ جی پی یو = سی پی یو کے ساتھ تلاش کریں)۔ MMS ایک کھلا ذریعہ ہے، گہرے سیکھنے کے ماڈل پیش کرنے کے لیے استعمال میں آسان ٹول ہے۔ یہ ایک ویب سرور کے ساتھ ایک REST API فراہم کرتا ہے تاکہ ایک ہی میزبان پر متعدد ماڈلز کی خدمت اور ان کا نظم کیا جا سکے۔ تاہم، MMS استعمال کرنا لازمی نہیں ہے۔ آپ اپنے ماڈل سرور کو اس وقت تک لاگو کرسکتے ہیں جب تک کہ یہ لاگو کرتا ہے۔ MME کے لیے درکار APIs.

MME پلیٹ فارم کے حصے کے طور پر استعمال ہونے پر، MMS یا آپ کے اپنے ماڈل سرور پر تمام پیشین گوئی، لوڈ، اور ان لوڈ API کالز MME ڈیٹا پلین کنٹرولر کے ذریعے کی جاتی ہیں۔ ڈیٹا پلین کنٹرولر سے API کالز صرف مقامی میزبان پر کی جاتی ہیں تاکہ مثال کے باہر سے غیر مجاز رسائی کو روکا جا سکے۔ ایم ایم ایس کے اہم فوائد میں سے ایک یہ ہے کہ یہ ڈیپ لرننگ فریم ورک کی وسیع رینج میں مطابقت کے ساتھ ماڈلز کو لوڈ کرنے، اتارنے اور ان کی درخواست کرنے کے لیے معیاری انٹرفیس کو قابل بناتا ہے۔

MMS کی اعلی درجے کی ترتیب

اگر آپ ماڈل سرونگ کے لیے MMS استعمال کرنے کا انتخاب کرتے ہیں، تو اپنے MME مثالوں کے اسکیل ایبلٹی اور تھرو پٹ کو بہتر بنانے کے لیے درج ذیل جدید کنفیگریشنز پر غور کریں۔

فی ماڈل قیاس متوازی میں اضافہ کریں۔

MMS کی قدر کی بنیاد پر فی ماڈل ایک یا زیادہ Python ورکر پروسیس بناتا ہے۔ ڈیفالٹ_ورکرز_پر_ماڈل ترتیب پیرامیٹر یہ Python کارکنان آپ کے فراہم کردہ کسی بھی پری پروسیسنگ، پیشین گوئی، اور پوسٹ پروسیسنگ فنکشنز کو چلا کر ہر انفرادی تخمینہ کی درخواست کو ہینڈل کرتے ہیں۔ مزید معلومات کے لیے، دیکھیں اپنی مرضی کے مطابق سروس ہینڈلر گٹ ہب ریپو۔

ایک سے زیادہ ماڈل ورکر ہونے سے پیشین گوئیوں کی ہم آہنگی بڑھ جاتی ہے جو ایک دیے گئے ماڈل کے ذریعے پیش کی جا سکتی ہیں۔ تاہم، جب بڑی تعداد میں CPUs کے ساتھ ایک مثال پر ماڈلز کی ایک بڑی تعداد کی میزبانی کی جا رہی ہے، تو آپ کو اپنے MME کا لوڈ ٹیسٹ کرنا چاہیے تاکہ اس کی بہترین قیمت معلوم کی جا سکے۔ default_workers_per_model کسی بھی میموری یا CPU وسائل کی تھکن کو روکنے کے لیے۔

ٹریفک اسپائکس کے لیے ڈیزائن

اختتامی نقطہ مثال کے اندر ہر MMS عمل میں ایک درخواست کی قطار ہوتی ہے جسے کے ساتھ کنفیگر کیا جا سکتا ہے۔ کام_قطار_سائز پیرامیٹر (پہلے سے طے شدہ 100 ہے)۔ یہ ان درخواستوں کی تعداد کا تعین کرتا ہے جب کارکن کے تمام عمل مصروف ہوں گے۔ فی ماڈل کارکنوں کی زیادہ سے زیادہ تعداد کا فیصلہ کرنے کے بعد اپنے اختتامی نقطہ کے واقعات کی ردعمل کو ٹھیک کرنے کے لیے اس پیرامیٹر کا استعمال کریں۔

ایک بہترین کارکن فی ماڈل تناسب میں، 100 کا ڈیفالٹ زیادہ تر معاملات کے لیے کافی ہونا چاہیے۔ تاہم، ان صورتوں کے لیے جہاں اختتامی نقطہ پر ٹریفک کی درخواست غیر معمولی طور پر بڑھ جاتی ہے، آپ قطار کا سائز کم کر سکتے ہیں اگر آپ چاہتے ہیں کہ اختتامی نقطہ تیزی سے ناکام ہو جائے تاکہ ایپلیکیشن کو کنٹرول دیا جائے یا قطار کے سائز میں اضافہ ہو، اگر آپ چاہتے ہیں کہ اختتامی نقطہ اسپائک کو جذب کر لے۔ .

فی مثال میموری کے وسائل کو زیادہ سے زیادہ کریں۔

جب فی ماڈل ایک سے زیادہ ورکر پروسیسز استعمال کرتے ہیں، ڈیفالٹ کے طور پر ہر ورکر پروسیس ماڈل کی اپنی کاپی لوڈ کرتا ہے۔ یہ دوسرے ماڈلز کے لیے دستیاب مثالی میموری کو کم کر سکتا ہے۔ آپ کنفیگریشن پیرامیٹر ترتیب دے کر ورکر پروسیس کے درمیان ایک ماڈل کا اشتراک کرکے میموری کے استعمال کو بہتر بنا سکتے ہیں۔ preload_model=true. یہاں آپ زیادہ میموری کی کارکردگی کے ساتھ کم قیاس متوازی (ایک ماڈل مثال کی وجہ سے) کی تجارت کر رہے ہیں۔ متعدد ورکر پروسیسز کے ساتھ یہ ترتیب استعمال کے معاملات کے لیے ایک اچھا انتخاب ہو سکتی ہے جہاں ماڈل میں تاخیر کم ہے لیکن آپ کے پاس بھاری پری پروسیسنگ اور پوسٹ پروسیسنگ (کارکن کے عمل کے ذریعے کی گئی) فی تخمینہ درخواست ہے۔

MMS ایڈوانس کنفیگریشنز کے لیے قدریں سیٹ کریں۔

MMS کنفیگریشنز کو اسٹور کرنے کے لیے config.properties فائل کا استعمال کرتا ہے۔ MMS اس config.properties فائل کو تلاش کرنے کے لیے درج ذیل ترتیب کا استعمال کرتا ہے:

اگر MMS_CONFIG_FILE ماحولیاتی متغیر سیٹ ہے، MMS ماحول کے متغیر سے کنفیگریشن لوڈ کرتا ہے۔
اگر --mms-config پیرامیٹر ایم ایم ایس کو منتقل کیا جاتا ہے، یہ پیرامیٹر سے کنفیگریشن لوڈ کرتا ہے۔
اگر وہاں ہے تو config.properties موجودہ فولڈر میں جہاں صارف MMS شروع کرتا ہے، یہ لوڈ کرتا ہے۔ config.properties موجودہ ورکنگ ڈائرکٹری سے فائل۔

اگر مندرجہ بالا میں سے کوئی بھی متعین نہیں ہے، تو MMS پہلے سے طے شدہ اقدار کے ساتھ بلٹ ان کنفیگریشن کو لوڈ کرتا ہے۔

مندرجہ ذیل ایک واضح کنفیگریشن فائل کے ساتھ MMS شروع کرنے کی کمانڈ لائن مثال ہے۔

multi-model-server --start --mms-config /home/mms/config.properties

آپ کی اختتامی کارکردگی کی نگرانی کے لیے کلیدی میٹرکس

کلیدی میٹرکس جو آپ کے MME کو بہتر بنانے میں آپ کی مدد کر سکتے ہیں وہ عام طور پر CPU اور میموری کے استعمال اور انفرنس لیٹنسی سے متعلق ہیں۔ مثال کی سطح کے میٹرکس MMS کے ذریعے خارج ہوتے ہیں، جب کہ لیٹنسی میٹرکس MME سے آتے ہیں۔ اس سیکشن میں، ہم عام میٹرکس پر بات کرتے ہیں جنہیں آپ اپنے MME کو سمجھنے اور بہتر بنانے کے لیے استعمال کر سکتے ہیں۔

اینڈ پوائنٹ انسٹینس لیول میٹرکس (MMS میٹرکس)

سے MMS میٹرکس کی فہرست, CPUUtilization اور MemoryUtilization آپ کو یہ جانچنے میں مدد کر سکتے ہیں کہ آیا آپ کی مثال یا MME کلسٹر صحیح سائز کا ہے یا نہیں۔ اگر دونوں میٹرکس میں فیصد 50-80% کے درمیان ہے، تو آپ کا MME صحیح سائز کا ہے۔

عام طور پر، کم CPUUtilization اور زیادہ MemoryUtilization ایک زیادہ پروویژنڈ MME کلسٹر کا اشارہ ہے کیونکہ یہ اس بات کی نشاندہی کرتا ہے کہ کبھی کبھار منگائے گئے ماڈلز کو اتارا نہیں جا رہا ہے۔ اس کی وجہ ایم ایم ای کے لیے فراہم کردہ اختتامی نقطہ مثالوں کی زیادہ سے زیادہ تعداد کی وجہ سے ہو سکتا ہے اور اس وجہ سے زیادہ سے زیادہ زیادہ سے زیادہ مجموعی میموری میموری میں رہنے کے لیے کبھی کبھار رسائی حاصل کرنے والے ماڈلز کے لیے دستیاب ہے۔ اس کے برعکس، ان میٹرکس کے 100% کے قریب استعمال کا مطلب یہ ہے کہ آپ کا کلسٹر زیر انتظام ہے، لہذا آپ کو اپنی کلسٹر آٹو اسکیلنگ پالیسی کو ایڈجسٹ کرنے کی ضرورت ہے۔

پلیٹ فارم لیول میٹرکس (MME میٹرکس)

سے ایم ایم ای میٹرکس کی مکمل فہرست، ایک کلیدی میٹرک جو آپ کو آپ کی تخمینہ درخواست کی تاخیر کو سمجھنے میں مدد کر سکتی ہے وہ ہے ModelCacheHit۔ یہ میٹرک ان درخواستوں کا اوسط تناسب دکھاتا ہے جس کے لیے ماڈل پہلے ہی میموری میں لوڈ کیا گیا تھا۔ اگر یہ تناسب کم ہے، تو یہ اس بات کی نشاندہی کرتا ہے کہ آپ کا MME کلسٹر زیر انتظام ہے کیونکہ MME کلسٹر میں منفرد ماڈل کی درخواستوں کی تعداد کے لیے ممکنہ طور پر کافی مجموعی میموری کی گنجائش نہیں ہے، اس وجہ سے ماڈلز کو اکثر میموری سے اتارا جاتا ہے۔

میدان سے اسباق اور MME کو بہتر بنانے کی حکمت عملی

ہم نے متعدد صارفین میں MME کے اعلیٰ پیمانے کے استعمال سے درج ذیل سفارشات دیکھی ہیں۔

چھوٹی مثالوں کے ساتھ افقی اسکیلنگ بڑی مثالوں کے ساتھ عمودی اسکیلنگ سے بہتر ہے

کم اختتامی مثالوں پر فی سیکنڈ اعلی درخواستیں (RPS) چلانے پر آپ ماڈل کی درخواستوں پر تھروٹلنگ کا تجربہ کر سکتے ہیں۔ فی سیکنڈ درخواستوں کی تعداد کی داخلی حدود ہیں (لوڈ اور ان لوڈز جو ایک مثال پر بیک وقت ہو سکتے ہیں)، اور اس لیے چھوٹی مثالوں کی زیادہ تعداد کا ہونا ہمیشہ بہتر ہے۔ چھوٹی مثالوں کی زیادہ تعداد چلانے کا مطلب اختتامی نقطہ کے لیے ان حدود کی زیادہ مجموعی صلاحیت ہے۔

چھوٹی مثالوں کے ساتھ افقی طور پر اسکیلنگ کا ایک اور فائدہ یہ ہے کہ آپ مثال کے طور پر CPU اور میموری کے وسائل کو ختم کرنے کے خطرے کو کم کرتے ہیں جب آپ MMS کو متوازی کی اعلی سطح کے ساتھ چلاتے ہیں، میموری میں ماڈلز کی زیادہ تعداد کے ساتھ (جیسا کہ اس پوسٹ میں پہلے بیان کیا گیا ہے)۔

مار پیٹ سے بچنا مشترکہ ذمہ داری ہے۔

پیٹنا ایم ایم ای میں اس وقت ہوتا ہے جب ماڈلز کو اکثر میموری سے اتارا جاتا ہے اور ناکافی میموری کی وجہ سے دوبارہ لوڈ کیا جاتا ہے، یا تو انفرادی مثال میں یا کلسٹر میں مجموعی طور پر۔

استعمال کے نقطہ نظر سے، آپ کو انفرادی اینڈ پوائنٹ کی مثالوں کو دائیں سائز کرنا چاہیے اور ایم ایم ای کلسٹر کے مجموعی سائز کا دائیں سائز کرنا چاہیے تاکہ یہ یقینی بنایا جا سکے کہ کافی میموری کی گنجائش فی مثال دستیاب ہے اور آپ کے استعمال کے معاملے کے لیے کلسٹر کے لیے مجموعی طور پر بھی۔ ایم ایم ای پلیٹ فارم کا روٹر فلیٹ کیش ہٹ کو بھی زیادہ سے زیادہ کرے گا۔

کم، بڑی میموری مثالوں پر بہت زیادہ ماڈلز کو پیک کرنے کے ساتھ جارحانہ نہ بنیں

یادداشت واحد وسیلہ نہیں ہے جس کے بارے میں آگاہ کیا جائے۔ دیگر وسائل جیسے CPU ایک رکاوٹ کا عنصر ہو سکتا ہے، جیسا کہ درج ذیل لوڈ ٹیسٹ کے نتائج میں دیکھا گیا ہے۔ کچھ دیگر معاملات میں، ہم نے دیگر کرنل وسائل جیسے پروسیس آئی ڈیز کو ایک مثال پر ختم ہونے کا بھی مشاہدہ کیا ہے، جس کی وجہ بہت سارے ماڈلز لوڈ ہونے اور انڈرلینگ ایم ایل فریم ورک (جیسے ٹینسر فلو) اسپننگ تھریڈز فی ماڈل تھے جو دستیاب کے ملٹیز تھے۔ vCPUs

درج ذیل پرفارمنس ٹیسٹ ماڈل کی تاخیر کو متاثر کرنے والی CPU رکاوٹ کی ایک مثال کو ظاہر کرتا ہے۔ اس ٹیسٹ میں، ایک بڑی مثال کے ساتھ ایک واحد مثال کا اختتامی نقطہ، جب کہ چاروں ماڈلز کو میموری میں رکھنے کے لیے کافی سے زیادہ میموری رکھتا ہے، جب چار چھوٹی مثالوں کے ساتھ اختتامی نقطہ کے مقابلے میں نسبتاً بدتر ماڈل لیٹنسیز کو بوجھ کے نیچے پیدا کیا۔

Amazon SageMaker ملٹی ماڈل اینڈ پوائنٹس PlatoBlockchain Data Intelligence کے ساتھ ملٹی ماڈل انفرنس کو چلائیں اور بہتر بنائیں۔ عمودی تلاش۔ عی

سنگل مثال کے اختتامی نقطہ ماڈل میں تاخیر

سنگل مثال کے اختتامی نقطہ سی پی یو اور میموری کا استعمال

چار مثال کے اختتامی نقطہ ماڈل میں تاخیر

چار مثال کے اختتامی نقطہ سی پی یو اور میموری کا استعمال

کارکردگی اور لاگت کی کارکردگی دونوں کو حاصل کرنے کے لیے، اپنے ایم ایم ای کلسٹر کو زیادہ تعداد میں چھوٹی مثالوں کے ساتھ دائیں سائز دیں جو مجموعی طور پر آپ کو زیادہ سے زیادہ میموری اور CPU کی صلاحیت فراہم کرتا ہے جبکہ نسبتاً کم لیکن بڑی میموری مثالوں کے ساتھ لاگت کے برابر ہے۔

ایم ایم ای کو بہتر بنانے کے لیے ذہنی ماڈل

چار کلیدی میٹرکس ہیں جن پر آپ کو اپنے MME کو دائیں سائز کا سائز دیتے وقت ہمیشہ غور کرنا چاہیے:

ماڈلز کی تعداد اور سائز
ایک مخصوص وقت پر منگوائے گئے منفرد ماڈلز کی تعداد
مثال کی قسم اور سائز
اختتامی نقطہ کے پیچھے مثال کی گنتی

پہلے دو نکات سے شروع کریں، کیونکہ وہ تیسرے اور چوتھے کو مطلع کرتے ہیں۔ مثال کے طور پر، اگر آپ کے پاس موجود منفرد ماڈلز کی تعداد یا سائز کے لیے اینڈ پوائنٹ کے پیچھے کافی مثالیں نہیں ہیں، تو اینڈ پوائنٹ کے لیے مجموعی میموری کم ہوگی اور آپ کو اختتامی پوائنٹ کی سطح پر کم کیش ہٹ ریشو اور تھریشنگ نظر آئے گی کیونکہ MME میموری کے اندر اور باہر ماڈل کو کثرت سے لوڈ اور اتارے گا۔

اسی طرح، اگر منفرد ماڈلز کے لیے درخواستیں اختتامی نقطہ کے پیچھے موجود تمام مثالوں کی مجموعی میموری سے زیادہ ہیں، تو آپ کو کیش ہٹ نظر آئے گا۔ یہ اس صورت میں بھی ہو سکتا ہے جب مثالوں کا سائز (خاص طور پر میموری کی گنجائش) بہت چھوٹا ہو۔

واقعی بڑی میموری مثالوں کے ساتھ عمودی طور پر اسکیلنگ بھی مسائل کا باعث بن سکتی ہے کیونکہ اگرچہ ماڈل میموری میں فٹ ہو سکتے ہیں، دوسرے وسائل جیسے CPU اور کرنل کے عمل اور دھاگے کی حدیں ختم ہو سکتی ہیں۔ اپنے MME کے لیے مثالوں کی بہترین تعداد اور سائز حاصل کرنے کے لیے پری پروڈکشن میں ٹیسٹ افقی اسکیلنگ لوڈ کریں۔

خلاصہ

اس پوسٹ میں، آپ کو ایم ایم ای پلیٹ فارم کے بارے میں گہری سمجھ آئی ہے۔ آپ نے سیکھا کہ کون سے تکنیکی استعمال کے کیسز MME کے لیے موزوں ہیں اور MME پلیٹ فارم کے فن تعمیر کا جائزہ لیا۔ آپ نے MME فن تعمیر میں ہر ایک جزو کے کردار کے بارے میں گہری سمجھ حاصل کی اور آپ کن اجزاء کی کارکردگی کو براہ راست متاثر کر سکتے ہیں۔ آخر میں، آپ نے کنفیگریشن کے پیرامیٹرز پر گہری نظر ڈالی جنہیں آپ اپنے استعمال کے کیس کے لیے MME کو بہتر بنانے کے لیے ایڈجسٹ کر سکتے ہیں اور بہترین کارکردگی کو برقرار رکھنے کے لیے آپ کو جن میٹرکس کی نگرانی کرنی چاہیے۔

MME کے ساتھ شروع کرنے کے لیے، جائزہ لیں۔ XGBoost کا استعمال کرتے ہوئے Amazon SageMaker ملٹی ماڈل اینڈ پوائنٹس اور ایک اختتامی نقطہ کے پیچھے ایک کنٹینر میں متعدد ماڈلز کی میزبانی کریں۔.

مصنف کے بارے میں

Amazon SageMaker ملٹی ماڈل اینڈ پوائنٹس PlatoBlockchain Data Intelligence کے ساتھ ملٹی ماڈل انفرنس کو چلائیں اور بہتر بنائیں۔ عمودی تلاش۔ عی سید جعفری AWS کے ساتھ ایک پرنسپل سولیوشن آرکیٹیکٹ ہے۔ وہ درمیانے درجے کی تنظیموں، بڑے اداروں، مالیاتی خدمات اور ISVs کی کمپنیوں کی ایک رینج کے ساتھ کام کرتا ہے تاکہ انہیں کلاؤڈ میں لاگت سے موثر اور قابل توسیع AI/ML ایپلیکیشنز بنانے اور چلانے میں مدد ملے۔

سوربھ تریکنڈے Amazon SageMaker Inference کے لیے ایک سینئر پروڈکٹ مینیجر ہے۔ وہ صارفین کے ساتھ کام کرنے کا شوق رکھتا ہے اور مشین لرننگ کو جمہوری بنانے کے مقصد سے حوصلہ افزائی کرتا ہے۔ وہ پیچیدہ ایم ایل ایپلی کیشنز، ملٹی ٹیننٹ ایم ایل ماڈلز، لاگت کی اصلاح، اور ڈیپ لرننگ ماڈلز کی تعیناتی کو مزید قابل رسائی بنانے سے متعلق بنیادی چیلنجوں پر توجہ مرکوز کرتا ہے۔ اپنے فارغ وقت میں، سوربھ کو پیدل سفر کرنا، اختراعی ٹیکنالوجیز کے بارے میں سیکھنا، TechCrunch کی پیروی کرنا اور اپنے خاندان کے ساتھ وقت گزارنا پسند ہے۔

ٹائم اسٹیمپ: اکتوبر 14، 2022اکتوبر 14، 2022

ٹائم اسٹیمپ: 31 فرمائے، 2023

ایمیزون سیج میکر ملٹی ماڈل اینڈ پوائنٹ کے ساتھ ملٹی ماڈل انفرنس کو چلائیں اور بہتر بنائیں

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ایم ایم ای کے لیے موزوں ترین کیسز استعمال کریں۔

ماڈل پیش کرنے والے کنٹینرز

MMS کی اعلی درجے کی ترتیب

فی ماڈل قیاس متوازی میں اضافہ کریں۔

ٹریفک اسپائکس کے لیے ڈیزائن

فی مثال میموری کے وسائل کو زیادہ سے زیادہ کریں۔

MMS ایڈوانس کنفیگریشنز کے لیے قدریں سیٹ کریں۔

آپ کی اختتامی کارکردگی کی نگرانی کے لیے کلیدی میٹرکس

اینڈ پوائنٹ انسٹینس لیول میٹرکس (MMS میٹرکس)

پلیٹ فارم لیول میٹرکس (MME میٹرکس)

میدان سے اسباق اور MME کو بہتر بنانے کی حکمت عملی

چھوٹی مثالوں کے ساتھ افقی اسکیلنگ بڑی مثالوں کے ساتھ عمودی اسکیلنگ سے بہتر ہے

مار پیٹ سے بچنا مشترکہ ذمہ داری ہے۔

کم، بڑی میموری مثالوں پر بہت زیادہ ماڈلز کو پیک کرنے کے ساتھ جارحانہ نہ بنیں

ایم ایم ای کو بہتر بنانے کے لیے ذہنی ماڈل

خلاصہ

مصنف کے بارے میں

سے زیادہ AWS مشین لرننگ

ایمیزون کینڈر کا استعمال کرتے ہوئے ذہانت سے الفریسکو مواد تلاش کریں۔

حقیقی استعمال کے معاملات کے ذریعے کنارے پر مشین لرننگ کو ختم کرنا

متعارف کرایا جا رہا ہے AWS جنریٹیو AI انوویشن سنٹر کا کسٹم ماڈل پروگرام برائے اینتھروپک کلاڈ | ایمیزون ویب سروسز

امیزون سیج میکر ڈیٹا رینگلر کے ساتھ امیج ڈیٹا تیار کریں۔

Twitter، Amazon SageMaker، اور Hugging Face کے ساتھ خبروں پر مبنی ریئل ٹائم الرٹ سسٹم بنائیں

ڈومین کے لیے مخصوص اور زبان کے لیے مخصوص تخصیص کے ساتھ کثیر لسانی دستاویز کے ترجمے کا ورک فلو بنائیں

Amazon SageMaker Inference Recommender کا استعمال کرتے ہوئے ML ماڈل کی بہتر تعیناتی

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ