ایمیزون سیج میکر روٹنگ کی حکمت عملیوں کا استعمال کرکے ریئل ٹائم انفرنس لیٹینسی کو کم سے کم کریں ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون سیج میکر ریئل ٹائم انفرنس کے لیے مشین لرننگ (ML) ماڈلز کی تعیناتی کو سیدھا بناتا ہے اور ML مثالوں کا وسیع انتخاب پیش کرتا ہے جس میں CPUs اور ایکسلریٹر جیسے AWS Inferentia. ایک مکمل طور پر منظم سروس کے طور پر، آپ اپنے ماڈل کی تعیناتیوں کو پیمانہ بنا سکتے ہیں، تخمینہ لاگت کو کم کر سکتے ہیں، اور کم آپریشنل بوجھ کے ساتھ پیداوار میں اپنے ماڈلز کو زیادہ مؤثر طریقے سے منظم کر سکتے ہیں۔ ایک سیج میکر ریئل ٹائم انفرنس اینڈ پوائنٹ HTTPs اینڈ پوائنٹ اور ML مثالوں پر مشتمل ہوتا ہے جو زیادہ دستیابی کے لیے متعدد دستیابی زونز میں تعینات ہوتے ہیں۔ سیج میکر ایپلی کیشن آٹو اسکیلنگ کام کے بوجھ میں تبدیلیوں کے جواب میں ماڈل کے لیے فراہم کردہ ML مثالوں کی تعداد کو متحرک طور پر ایڈجسٹ کر سکتا ہے۔ اختتامی نقطہ راؤنڈ رابن الگورتھم کا استعمال کرتے ہوئے ML مثالوں میں آنے والی درخواستوں کو یکساں طور پر تقسیم کرتا ہے۔

جب مثالوں پر تعینات ایم ایل ماڈلز کو کلائنٹس کی ایک بڑی تعداد سے API کالز موصول ہوتی ہیں، تو درخواستوں کی بے ترتیب تقسیم بہت اچھی طرح سے کام کر سکتی ہے جب آپ کی درخواستوں اور جوابات میں بہت زیادہ تغیر نہ ہو۔ لیکن تخلیقی AI کام کے بوجھ والے نظاموں میں، درخواستیں اور جوابات انتہائی متغیر ہو سکتے ہیں۔ ان صورتوں میں، بے ترتیب لوڈ بیلنسنگ کی بجائے مثال کی صلاحیت اور استعمال پر غور کر کے توازن کو لوڈ کرنا اکثر ضروری ہوتا ہے۔

اس پوسٹ میں، ہم SageMaker کی کم از کم بقایا درخواستوں (LOR) کی روٹنگ کی حکمت عملی پر تبادلہ خیال کرتے ہیں اور یہ کہ کس طرح یہ ML مثالوں کی صلاحیت اور استعمال کو مدنظر رکھتے ہوئے ریئل ٹائم انفرنس ورک بوجھ کی مخصوص اقسام کے لیے تاخیر کو کم کر سکتا ہے۔ ہم پہلے سے طے شدہ روٹنگ میکانزم پر اس کے فوائد کے بارے میں بات کرتے ہیں اور آپ اپنے ماڈل کی تعیناتیوں کے لیے LOR کو کیسے فعال کر سکتے ہیں۔ آخر میں، ہم بے ترتیب روٹنگ کی ڈیفالٹ روٹنگ حکمت عملی پر LOR کے ساتھ تاخیر سے ہونے والی بہتری کا تقابلی تجزیہ پیش کرتے ہیں۔

سیج میکر LOR حکمت عملی

پہلے سے طے شدہ طور پر، SageMaker اینڈ پوائنٹس میں ایک بے ترتیب روٹنگ کی حکمت عملی ہوتی ہے۔ سیج میکر اب ایک LOR حکمت عملی کی حمایت کرتا ہے، جو سیج میکر کو درخواستوں کو بہترین طریقے سے اس مثال تک پہنچانے کی اجازت دیتا ہے جو اس درخواست کو پورا کرنے کے لیے بہترین ہے۔ سیج میکر آپ کے اختتامی نقطہ کے پیچھے مثالوں کے بوجھ، اور ہر ایک مثال پر تعینات کردہ ماڈلز یا انفرنس اجزاء کی نگرانی کرکے یہ ممکن بناتا ہے۔

مندرجہ ذیل انٹرایکٹو خاکہ پہلے سے طے شدہ روٹنگ پالیسی کو ظاہر کرتا ہے جہاں ماڈل اینڈ پوائنٹس پر آنے والی درخواستوں کو بے ترتیب طریقے سے ایم ایل مثالوں میں بھیج دیا جاتا ہے۔

Amazon SageMaker روٹنگ کی حکمت عملیوں کا استعمال کرتے ہوئے حقیقی وقت کے تخمینہ میں تاخیر کو کم سے کم کریں۔ ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مندرجہ ذیل انٹرایکٹو ڈایاگرام روٹنگ کی حکمت عملی کو ظاہر کرتا ہے جہاں سیج میکر درخواست کو اس مثال تک پہنچائے گا جس میں کم سے کم تعداد میں بقایا درخواستیں ہوں۔

عام طور پر، LOR روٹنگ فاؤنڈیشنل ماڈلز یا جنریٹیو AI ماڈلز کے لیے اچھی طرح کام کرتی ہے جب آپ کا ماڈل سینکڑوں ملی سیکنڈ سے منٹوں میں جواب دیتا ہے۔ اگر آپ کے ماڈل کے جواب میں کم تاخیر ہے (سیکڑوں ملی سیکنڈ تک)، تو آپ بے ترتیب روٹنگ سے زیادہ فائدہ اٹھا سکتے ہیں۔ قطع نظر، ہم تجویز کرتے ہیں کہ آپ اپنے کام کے بوجھ کے لیے بہترین روٹنگ الگورتھم کی جانچ اور شناخت کریں۔

سیج میکر روٹنگ کی حکمت عملی کیسے ترتیب دیں۔

سیج میکر اب آپ کو سیٹ کرنے کی اجازت دیتا ہے۔ RoutingStrategy پیرامیٹر بناتے وقت EndpointConfiguration اختتامی پوائنٹس کے لیے۔ مختلف RoutingStrategy SageMaker کے ذریعہ تعاون یافتہ اقدار ہیں:

LEAST_OUTSTANDING_REQUESTS
RANDOM

مندرجہ ذیل مثال کے طور پر ایک ماڈل کی ایک مثال کے اختتامی نقطہ پر تعیناتی ہے جس نے LOR کو فعال کیا ہے:

ترتیب کے ذریعے اختتامی نقطہ کی ترتیب بنائیں RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

اختتامی نقطہ کی ترتیب (کوئی تبدیلی نہیں):

create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)

کارکردگی کے نتائج

ہم نے کارکردگی کی بینچ مارکنگ چلائی تاکہ اختتام سے آخر تک کے انفرنس لیٹینسی اور تھرو پٹ کی پیمائش کی جا سکے۔ codegen2-7B ڈیفالٹ روٹنگ اور سمارٹ روٹنگ اینڈ پوائنٹس کے ساتھ ml.g5.24xl مثالوں پر ہوسٹ کردہ ماڈل۔ CodeGen2 ماڈل خود بخود زبان کے ماڈلز کے خاندان سے تعلق رکھتا ہے اور انگریزی پرامپٹس دیئے جانے پر قابل عمل کوڈ تیار کرتا ہے۔

اپنے تجزیے میں، ہم نے ہر ٹیسٹ کے لیے ہر اختتامی نقطہ کے پیچھے ml.g5.24xl مثالوں کی تعداد میں اضافہ کیا کیونکہ ہم وقتی صارفین کی تعداد میں اضافہ کیا گیا تھا، جیسا کہ درج ذیل جدول میں دکھایا گیا ہے۔

ٹیسٹ	کنکرنٹ صارفین کی تعداد	مثالوں کی تعداد
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

ہم نے دونوں اختتامی پوائنٹس کے لیے اختتام سے آخر تک P99 تاخیر کی پیمائش کی اور جب مثالوں کی تعداد 4 سے 33 تک بڑھا دی گئی تو تاخیر میں 5–20% بہتری دیکھی، جیسا کہ درج ذیل گراف میں دکھایا گیا ہے۔

اسی طرح، ہم نے ایک مثال کے طور پر فی منٹ تھرو پٹ میں 15-16٪ بہتری دیکھی جب مثالوں کی تعداد 5 سے بڑھا کر 20 کر دی گئی۔

یہ واضح کرتا ہے کہ سمارٹ روٹنگ اختتامی مقامات کے درمیان ٹریفک کی تقسیم کو بہتر بنانے کے قابل ہے، جس کے نتیجے میں آخر سے آخر تک تاخیر اور مجموعی طور پر تھروپپٹ میں بہتری آتی ہے۔

نتیجہ

اس پوسٹ میں، ہم نے سیج میکر روٹنگ کی حکمت عملیوں اور LOR روٹنگ کو فعال کرنے کے نئے آپشن کی وضاحت کی۔ ہم نے بتایا کہ LOR کو کیسے فعال کیا جائے اور یہ آپ کے ماڈل کی تعیناتیوں کو کیسے فائدہ پہنچا سکتا ہے۔ ہمارے کارکردگی کے ٹیسٹوں نے ریئل ٹائم انفرنسنگ کے دوران تاخیر اور تھرو پٹ میں بہتری دکھائی۔ SageMaker روٹنگ کی خصوصیات کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ دستاویزات. ہم آپ کی حوصلہ افزائی کرتے ہیں کہ آپ اپنے تخمینے کے کام کے بوجھ کا جائزہ لیں اور اس بات کا تعین کریں کہ آیا آپ روٹنگ کی حکمت عملی کے ساتھ بہترین طریقے سے تشکیل شدہ ہیں۔

مصنفین کے بارے میں

Amazon SageMaker روٹنگ کی حکمت عملیوں کا استعمال کرتے ہوئے حقیقی وقت کے تخمینہ میں تاخیر کو کم سے کم کریں۔ ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی جیمز پارک ایمیزون ویب سروسز میں ایک حل آرکیٹیکٹ ہے۔ وہ Amazon.com کے ساتھ AWS پر ٹکنالوجی کے حل کو ڈیزائن کرنے، بنانے اور ان کی تعیناتی کے لیے کام کرتا ہے، اور اسے AI اور مشین لرننگ میں خاص دلچسپی ہے۔ فارغ وقت میں وہ نئی ثقافتوں، نئے تجربات، اور جدید ترین ٹیکنالوجی کے رجحانات کے ساتھ اپ ٹو ڈیٹ رہنے سے لطف اندوز ہوتا ہے۔ آپ اسے تلاش کر سکتے ہیں۔ لنکڈ.

وینوگوپال پائی AWS میں ایک حل آرکیٹیکٹ ہے۔ وہ بنگلورو، انڈیا میں رہتا ہے، اور ڈیجیٹل مقامی صارفین کو AWS پر اپنی ایپلی کیشنز کو پیمانہ اور بہتر بنانے میں مدد کرتا ہے۔

ڈیوڈ نیگینڈا۔ ایمیزون سیج میکر ٹیم میں ایک سینئر سافٹ ویئر ڈویلپمنٹ انجینئر ہے، جو فی الحال پروڈکشن مشین لرننگ ورک فلو کو بہتر بنانے کے ساتھ ساتھ نئی انفرنس فیچرز شروع کرنے پر کام کر رہا ہے۔ اپنے فارغ وقت میں، وہ اپنے بچوں کے ساتھ رہنے کی کوشش کرتا ہے۔

دیپتی راگھا۔ ایمیزون سیج میکر ٹیم میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ اس کا موجودہ کام مشین لرننگ ماڈلز کو مؤثر طریقے سے میزبانی کرنے کے لیے خصوصیات بنانے پر مرکوز ہے۔ اپنے فارغ وقت میں، وہ سفر، پیدل سفر اور پودوں کو اگانے سے لطف اندوز ہوتی ہے۔

ایلن ٹین SageMaker کے ساتھ ایک سینئر پروڈکٹ مینیجر ہے، جو بڑے ماڈل کے تخمینے کی کوششوں میں سرفہرست ہے۔ وہ تجزیات کے شعبے میں مشین لرننگ کو لاگو کرنے کا شوق رکھتا ہے۔ کام سے باہر، وہ باہر سے لطف اندوز ہوتا ہے۔

دھول پٹیل AWS میں پرنسپل مشین لرننگ آرکیٹیکٹ ہے۔ انہوں نے تقسیم شدہ کمپیوٹنگ اور مصنوعی ذہانت سے متعلق مسائل پر بڑے اداروں سے لے کر درمیانے درجے کے اسٹارٹ اپس تک کی تنظیموں کے ساتھ کام کیا ہے۔ وہ NLP اور کمپیوٹر ویژن ڈومینز سمیت گہری سیکھنے پر توجہ مرکوز کرتا ہے۔ وہ صارفین کو SageMaker پر اعلیٰ کارکردگی کے ماڈل کا اندازہ حاصل کرنے میں مدد کرتا ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

ٹائم اسٹیمپ: نومبر 30، 2023

ٹائم اسٹیمپ: جنوری 6، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ایمیزون سیج میکر ماڈل مانیٹر اور ایمیزون سیج میکر ڈیبگر کا استعمال کرتے ہوئے مخالفانہ ان پٹ کا پتہ لگائیں۔

AWS CDK کے ذریعے Amazon SageMaker رول مینیجر کے ساتھ منٹوں میں حسب ضرورت اجازتوں کی وضاحت کریں۔ ایمیزون ویب سروسز

Amazon Transcribe | کے ساتھ اپنے ٹرانسکرپٹس کو پیراگراف میں ترتیب دیں۔ ایمیزون ویب سروسز

Amazon SageMaker کے ساتھ اپنے مشین لرننگ ماڈلز کی گورننس کو بہتر بنائیں

AWS Inferentia اور AWS Trainium ایمیزون سیج میکر جمپ سٹارٹ میں لاما 3 ماڈل کی تعیناتی کے لیے سب سے کم قیمت فراہم کرتے ہیں۔ ایمیزون ویب سروسز

کس طرح تھامسن رائٹرز ایمیزون پرسنلائز کا استعمال کرتے ہوئے پیمانے پر ذاتی مواد کی رکنیت کے منصوبے فراہم کرتا ہے۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ