ایمیزون سیج میکر ریئل ٹائم انفرنس کے لیے مشین لرننگ (ML) ماڈلز کی تعیناتی کو سیدھا بناتا ہے اور ML مثالوں کا وسیع انتخاب پیش کرتا ہے جس میں CPUs اور ایکسلریٹر جیسے AWS Inferentia. ایک مکمل طور پر منظم سروس کے طور پر، آپ اپنے ماڈل کی تعیناتیوں کو پیمانہ بنا سکتے ہیں، تخمینہ لاگت کو کم کر سکتے ہیں، اور کم آپریشنل بوجھ کے ساتھ پیداوار میں اپنے ماڈلز کو زیادہ مؤثر طریقے سے منظم کر سکتے ہیں۔ ایک سیج میکر ریئل ٹائم انفرنس اینڈ پوائنٹ HTTPs اینڈ پوائنٹ اور ML مثالوں پر مشتمل ہوتا ہے جو زیادہ دستیابی کے لیے متعدد دستیابی زونز میں تعینات ہوتے ہیں۔ سیج میکر ایپلی کیشن آٹو اسکیلنگ کام کے بوجھ میں تبدیلیوں کے جواب میں ماڈل کے لیے فراہم کردہ ML مثالوں کی تعداد کو متحرک طور پر ایڈجسٹ کر سکتا ہے۔ اختتامی نقطہ راؤنڈ رابن الگورتھم کا استعمال کرتے ہوئے ML مثالوں میں آنے والی درخواستوں کو یکساں طور پر تقسیم کرتا ہے۔
جب مثالوں پر تعینات ایم ایل ماڈلز کو کلائنٹس کی ایک بڑی تعداد سے API کالز موصول ہوتی ہیں، تو درخواستوں کی بے ترتیب تقسیم بہت اچھی طرح سے کام کر سکتی ہے جب آپ کی درخواستوں اور جوابات میں بہت زیادہ تغیر نہ ہو۔ لیکن تخلیقی AI کام کے بوجھ والے نظاموں میں، درخواستیں اور جوابات انتہائی متغیر ہو سکتے ہیں۔ ان صورتوں میں، بے ترتیب لوڈ بیلنسنگ کی بجائے مثال کی صلاحیت اور استعمال پر غور کر کے توازن کو لوڈ کرنا اکثر ضروری ہوتا ہے۔
اس پوسٹ میں، ہم SageMaker کی کم از کم بقایا درخواستوں (LOR) کی روٹنگ کی حکمت عملی پر تبادلہ خیال کرتے ہیں اور یہ کہ کس طرح یہ ML مثالوں کی صلاحیت اور استعمال کو مدنظر رکھتے ہوئے ریئل ٹائم انفرنس ورک بوجھ کی مخصوص اقسام کے لیے تاخیر کو کم کر سکتا ہے۔ ہم پہلے سے طے شدہ روٹنگ میکانزم پر اس کے فوائد کے بارے میں بات کرتے ہیں اور آپ اپنے ماڈل کی تعیناتیوں کے لیے LOR کو کیسے فعال کر سکتے ہیں۔ آخر میں، ہم بے ترتیب روٹنگ کی ڈیفالٹ روٹنگ حکمت عملی پر LOR کے ساتھ تاخیر سے ہونے والی بہتری کا تقابلی تجزیہ پیش کرتے ہیں۔
سیج میکر LOR حکمت عملی
پہلے سے طے شدہ طور پر، SageMaker اینڈ پوائنٹس میں ایک بے ترتیب روٹنگ کی حکمت عملی ہوتی ہے۔ سیج میکر اب ایک LOR حکمت عملی کی حمایت کرتا ہے، جو سیج میکر کو درخواستوں کو بہترین طریقے سے اس مثال تک پہنچانے کی اجازت دیتا ہے جو اس درخواست کو پورا کرنے کے لیے بہترین ہے۔ سیج میکر آپ کے اختتامی نقطہ کے پیچھے مثالوں کے بوجھ، اور ہر ایک مثال پر تعینات کردہ ماڈلز یا انفرنس اجزاء کی نگرانی کرکے یہ ممکن بناتا ہے۔
مندرجہ ذیل انٹرایکٹو خاکہ پہلے سے طے شدہ روٹنگ پالیسی کو ظاہر کرتا ہے جہاں ماڈل اینڈ پوائنٹس پر آنے والی درخواستوں کو بے ترتیب طریقے سے ایم ایل مثالوں میں بھیج دیا جاتا ہے۔
مندرجہ ذیل انٹرایکٹو ڈایاگرام روٹنگ کی حکمت عملی کو ظاہر کرتا ہے جہاں سیج میکر درخواست کو اس مثال تک پہنچائے گا جس میں کم سے کم تعداد میں بقایا درخواستیں ہوں۔
عام طور پر، LOR روٹنگ فاؤنڈیشنل ماڈلز یا جنریٹیو AI ماڈلز کے لیے اچھی طرح کام کرتی ہے جب آپ کا ماڈل سینکڑوں ملی سیکنڈ سے منٹوں میں جواب دیتا ہے۔ اگر آپ کے ماڈل کے جواب میں کم تاخیر ہے (سیکڑوں ملی سیکنڈ تک)، تو آپ بے ترتیب روٹنگ سے زیادہ فائدہ اٹھا سکتے ہیں۔ قطع نظر، ہم تجویز کرتے ہیں کہ آپ اپنے کام کے بوجھ کے لیے بہترین روٹنگ الگورتھم کی جانچ اور شناخت کریں۔
سیج میکر روٹنگ کی حکمت عملی کیسے ترتیب دیں۔
سیج میکر اب آپ کو سیٹ کرنے کی اجازت دیتا ہے۔ RoutingStrategy
پیرامیٹر بناتے وقت EndpointConfiguration
اختتامی پوائنٹس کے لیے۔ مختلف RoutingStrategy
SageMaker کے ذریعہ تعاون یافتہ اقدار ہیں:
LEAST_OUTSTANDING_REQUESTS
RANDOM
مندرجہ ذیل مثال کے طور پر ایک ماڈل کی ایک مثال کے اختتامی نقطہ پر تعیناتی ہے جس نے LOR کو فعال کیا ہے:
- ترتیب کے ذریعے اختتامی نقطہ کی ترتیب بنائیں
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - اختتامی نقطہ کی ترتیب (کوئی تبدیلی نہیں):
کارکردگی کے نتائج
ہم نے کارکردگی کی بینچ مارکنگ چلائی تاکہ اختتام سے آخر تک کے انفرنس لیٹینسی اور تھرو پٹ کی پیمائش کی جا سکے۔ codegen2-7B ڈیفالٹ روٹنگ اور سمارٹ روٹنگ اینڈ پوائنٹس کے ساتھ ml.g5.24xl مثالوں پر ہوسٹ کردہ ماڈل۔ CodeGen2 ماڈل خود بخود زبان کے ماڈلز کے خاندان سے تعلق رکھتا ہے اور انگریزی پرامپٹس دیئے جانے پر قابل عمل کوڈ تیار کرتا ہے۔
اپنے تجزیے میں، ہم نے ہر ٹیسٹ کے لیے ہر اختتامی نقطہ کے پیچھے ml.g5.24xl مثالوں کی تعداد میں اضافہ کیا کیونکہ ہم وقتی صارفین کی تعداد میں اضافہ کیا گیا تھا، جیسا کہ درج ذیل جدول میں دکھایا گیا ہے۔
ٹیسٹ | کنکرنٹ صارفین کی تعداد | مثالوں کی تعداد |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
ہم نے دونوں اختتامی پوائنٹس کے لیے اختتام سے آخر تک P99 تاخیر کی پیمائش کی اور جب مثالوں کی تعداد 4 سے 33 تک بڑھا دی گئی تو تاخیر میں 5–20% بہتری دیکھی، جیسا کہ درج ذیل گراف میں دکھایا گیا ہے۔
اسی طرح، ہم نے ایک مثال کے طور پر فی منٹ تھرو پٹ میں 15-16٪ بہتری دیکھی جب مثالوں کی تعداد 5 سے بڑھا کر 20 کر دی گئی۔
یہ واضح کرتا ہے کہ سمارٹ روٹنگ اختتامی مقامات کے درمیان ٹریفک کی تقسیم کو بہتر بنانے کے قابل ہے، جس کے نتیجے میں آخر سے آخر تک تاخیر اور مجموعی طور پر تھروپپٹ میں بہتری آتی ہے۔
نتیجہ
اس پوسٹ میں، ہم نے سیج میکر روٹنگ کی حکمت عملیوں اور LOR روٹنگ کو فعال کرنے کے نئے آپشن کی وضاحت کی۔ ہم نے بتایا کہ LOR کو کیسے فعال کیا جائے اور یہ آپ کے ماڈل کی تعیناتیوں کو کیسے فائدہ پہنچا سکتا ہے۔ ہمارے کارکردگی کے ٹیسٹوں نے ریئل ٹائم انفرنسنگ کے دوران تاخیر اور تھرو پٹ میں بہتری دکھائی۔ SageMaker روٹنگ کی خصوصیات کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ دستاویزات. ہم آپ کی حوصلہ افزائی کرتے ہیں کہ آپ اپنے تخمینے کے کام کے بوجھ کا جائزہ لیں اور اس بات کا تعین کریں کہ آیا آپ روٹنگ کی حکمت عملی کے ساتھ بہترین طریقے سے تشکیل شدہ ہیں۔
مصنفین کے بارے میں
جیمز پارک ایمیزون ویب سروسز میں ایک حل آرکیٹیکٹ ہے۔ وہ Amazon.com کے ساتھ AWS پر ٹکنالوجی کے حل کو ڈیزائن کرنے، بنانے اور ان کی تعیناتی کے لیے کام کرتا ہے، اور اسے AI اور مشین لرننگ میں خاص دلچسپی ہے۔ فارغ وقت میں وہ نئی ثقافتوں، نئے تجربات، اور جدید ترین ٹیکنالوجی کے رجحانات کے ساتھ اپ ٹو ڈیٹ رہنے سے لطف اندوز ہوتا ہے۔ آپ اسے تلاش کر سکتے ہیں۔ لنکڈ.
وینوگوپال پائی AWS میں ایک حل آرکیٹیکٹ ہے۔ وہ بنگلورو، انڈیا میں رہتا ہے، اور ڈیجیٹل مقامی صارفین کو AWS پر اپنی ایپلی کیشنز کو پیمانہ اور بہتر بنانے میں مدد کرتا ہے۔
ڈیوڈ نیگینڈا۔ ایمیزون سیج میکر ٹیم میں ایک سینئر سافٹ ویئر ڈویلپمنٹ انجینئر ہے، جو فی الحال پروڈکشن مشین لرننگ ورک فلو کو بہتر بنانے کے ساتھ ساتھ نئی انفرنس فیچرز شروع کرنے پر کام کر رہا ہے۔ اپنے فارغ وقت میں، وہ اپنے بچوں کے ساتھ رہنے کی کوشش کرتا ہے۔
دیپتی راگھا۔ ایمیزون سیج میکر ٹیم میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ اس کا موجودہ کام مشین لرننگ ماڈلز کو مؤثر طریقے سے میزبانی کرنے کے لیے خصوصیات بنانے پر مرکوز ہے۔ اپنے فارغ وقت میں، وہ سفر، پیدل سفر اور پودوں کو اگانے سے لطف اندوز ہوتی ہے۔
ایلن ٹین SageMaker کے ساتھ ایک سینئر پروڈکٹ مینیجر ہے، جو بڑے ماڈل کے تخمینے کی کوششوں میں سرفہرست ہے۔ وہ تجزیات کے شعبے میں مشین لرننگ کو لاگو کرنے کا شوق رکھتا ہے۔ کام سے باہر، وہ باہر سے لطف اندوز ہوتا ہے۔
دھول پٹیل AWS میں پرنسپل مشین لرننگ آرکیٹیکٹ ہے۔ انہوں نے تقسیم شدہ کمپیوٹنگ اور مصنوعی ذہانت سے متعلق مسائل پر بڑے اداروں سے لے کر درمیانے درجے کے اسٹارٹ اپس تک کی تنظیموں کے ساتھ کام کیا ہے۔ وہ NLP اور کمپیوٹر ویژن ڈومینز سمیت گہری سیکھنے پر توجہ مرکوز کرتا ہے۔ وہ صارفین کو SageMaker پر اعلیٰ کارکردگی کے ماڈل کا اندازہ حاصل کرنے میں مدد کرتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- : ہے
- : ہے
- : نہیں
- :کہاں
- $UP
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- قابلیت
- ہمارے بارے میں
- ایکسلریٹر
- حاصل
- کے پار
- AI
- اے آئی ماڈلز
- ایلن
- یلگورتم
- کی اجازت دیتا ہے
- ایمیزون
- ایمیزون سیج میکر
- ایمیزون ویب سروسز
- Amazon.com
- کے درمیان
- an
- تجزیہ
- تجزیاتی
- اور
- اے پی آئی
- ایپلی کیشنز
- درخواست دینا
- کیا
- رقبہ
- مصنوعی
- مصنوعی ذہانت
- AS
- At
- آٹو
- دستیابی
- AWS
- متوازن
- توازن
- BE
- پیچھے
- تعلق رکھتا ہے
- بینچ مارکنگ
- فائدہ
- فوائد
- BEST
- دونوں
- وسیع
- تعمیر
- عمارت
- بوجھ
- لیکن
- by
- کالز
- کر سکتے ہیں
- اہلیت
- مقدمات
- کچھ
- تبدیل
- تبدیلیاں
- کلائنٹس
- کوڈ
- COM
- آنے والے
- اجزاء
- کمپیوٹر
- کمپیوٹر ویژن
- کمپیوٹنگ
- سمورتی
- ترتیب
- تشکیل شدہ
- غور
- پر غور
- مشتمل
- اخراجات
- تخلیق
- موجودہ
- اس وقت
- گاہکوں
- تاریخ
- گہری
- گہری سیکھنے
- پہلے سے طے شدہ
- تعیناتی
- تعینات
- تعیناتی
- تعینات
- ڈیزائن
- اس بات کا تعین
- ترقی
- مختلف
- بات چیت
- تقسیم کئے
- تقسیم کمپیوٹنگ
- تقسیم
- ڈومینز
- کے دوران
- متحرک طور پر
- ہر ایک
- مؤثر طریقے
- مؤثر طریقے سے
- کوششوں
- کو چالو کرنے کے
- چالو حالت میں
- کی حوصلہ افزائی
- آخر سے آخر تک
- اختتام پوائنٹ
- انجینئر
- انگریزی
- اداروں
- اندازہ
- مثال کے طور پر
- تجربات
- وضاحت کی
- انتہائی
- خاندان
- خصوصیات
- آخر
- مل
- توجہ مرکوز
- کے بعد
- کے لئے
- بنیاد پرست
- سے
- مکمل طور پر
- جنرل
- پیدا ہوتا ہے
- پیداواری
- پیداواری AI۔
- GIF
- دی
- گراف
- بڑھتے ہوئے
- ہے
- he
- مدد کرتا ہے
- اس کی
- ہائی
- اسے
- ان
- میزبان
- میزبانی کی
- کس طرح
- کیسے
- HTML
- HTTPS
- سینکڑوں
- شناخت
- if
- وضاحت کرتا ہے
- کو بہتر بنانے کے
- بہتری
- بہتری
- کو بہتر بنانے کے
- in
- سمیت
- موصولہ
- اضافہ
- بھارت
- مثال کے طور پر
- انٹیلی جنس
- انٹرایکٹو
- دلچسپی
- میں
- IT
- میں
- فوٹو
- رکھیں
- بچوں
- زبان
- بڑے
- بڑے کاروباری اداروں
- تاخیر
- تازہ ترین
- شروع
- معروف
- جانیں
- سیکھنے
- کم سے کم
- لنکڈ
- زندگی
- لوڈ
- بہت
- کم
- مشین
- مشین لرننگ
- بناتا ہے
- انتظام
- میں کامیاب
- مینیجر
- انداز
- مئی..
- پیمائش
- میکانزم
- ملیسیکنڈ
- منٹ
- منٹ
- ML
- ماڈل
- ماڈل
- نگرانی
- زیادہ
- ایک سے زیادہ
- نئی
- ویزا
- نہیں
- اب
- تعداد
- of
- تجویز
- اکثر
- on
- آپریشنل
- کی اصلاح کریں
- اختیار
- or
- تنظیمیں
- ہمارے
- باہر
- باہر
- باہر
- بقایا
- پر
- مجموعی طور پر
- پیرامیٹر
- خاص طور پر
- جذباتی
- فی
- کارکردگی
- پودے
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پالیسی
- ممکن
- پوسٹ
- حال (-)
- پرنسپل
- مسائل
- مصنوعات
- پروڈکٹ مینیجر
- پیداوار
- اشارہ کرتا ہے
- بے ترتیب
- لے کر
- بلکہ
- اصل وقت
- وصول
- سفارش
- کم
- کا حوالہ دیتے ہیں
- بے شک
- متعلقہ
- درخواست
- درخواستوں
- جواب
- جوابات
- روٹ
- روٹنگ
- رن
- sagemaker
- پیمانے
- کی تلاش
- انتخاب
- سینئر
- خدمت
- سروس
- سروسز
- مقرر
- قائم کرنے
- وہ
- سے ظاہر ہوا
- دکھایا گیا
- شوز
- ہوشیار
- سافٹ ویئر کی
- سوفٹ ویئر کی نشوونما
- حل
- تناؤ
- سترٹو
- رہ
- براہ راست
- حکمت عملیوں
- حکمت عملی
- اس طرح
- تائید
- کی حمایت کرتا ہے
- سسٹمز
- ٹیبل
- لینے
- بات
- ٹیم
- ٹیکنالوجی
- ٹیسٹ
- ٹیسٹ
- سے
- کہ
- ۔
- علاقہ
- ان
- وہاں.
- یہ
- اس
- تھرو پٹ
- وقت
- کرنے کے لئے
- ٹریفک
- سفر
- رجحانات
- اقسام
- صارفین
- کا استعمال کرتے ہوئے
- اقدار
- متغیر
- بہت
- نقطہ نظر
- we
- ویب
- ویب خدمات
- اچھا ہے
- تھے
- جب
- جس
- جبکہ
- گے
- ساتھ
- کام
- کام کیا
- کام کے بہاؤ
- کام کر
- کام کرتا ہے
- تم
- اور
- زیفیرنیٹ
- علاقوں