ایمیزون سیج میکر کے ساتھ سینکڑوں ماڈلز کے لیے اسکیل فاؤنڈیشن ماڈل کا اشارہ – حصہ 1

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

جیسے جیسے فاؤنڈیشن ماڈلز (FMs) کی ڈیموکریٹائزیشن زیادہ مقبول ہوتی جاتی ہے اور AI-Augmented سروسز کی مانگ میں اضافہ ہوتا ہے، سافٹ ویئر بطور سروس (SaaS) فراہم کرنے والے مشین لرننگ (ML) پلیٹ فارمز کو استعمال کرنے کے خواہاں ہیں جو متعدد کرایہ داروں کو سپورٹ کرتے ہیں۔ اور بیرونی صارفین۔ زیادہ سے زیادہ کمپنیاں اپنے صارفین کے لیے انتہائی ذاتی نوعیت کا اور موثر مواد تیار کرنے کے لیے FMs کے استعمال کی اہمیت کو سمجھ رہی ہیں۔ آپ کے اپنے ڈیٹا پر فائن ٹیوننگ FMs آپ کے مخصوص استعمال کے معاملے کے لیے ماڈل کی درستگی کو نمایاں طور پر بڑھا سکتے ہیں، چاہے وہ صفحہ ملاحظہ کرنے کے سیاق و سباق کا استعمال کرتے ہوئے سیلز ای میل جنریشن ہو، کمپنی کی خدمات کے مطابق تلاش کے جوابات تیار کرنا، یا تاریخی بات چیت کی تربیت کے ذریعے کسٹمر سپورٹ کو خودکار بنانا۔

ایک خدمت کے طور پر تخلیقی AI ماڈل ہوسٹنگ فراہم کرنا کسی بھی تنظیم کو آسانی سے انضمام، پائلٹ ٹیسٹ، اور FMs کو لاگت سے موثر انداز میں تعینات کرنے کے قابل بناتا ہے، بغیر گھر میں AI مہارت کی ضرورت کے۔ اس سے کمپنیوں کو AI کے استعمال کے معاملات جیسے ہائپر پرسنلائزڈ سیلز اور مارکیٹنگ کا مواد، ذہین تلاش، اور حسب ضرورت کسٹمر سروس ورک فلو کے ساتھ تجربہ کرنے کی اجازت ملتی ہے۔ بھروسہ مند کسٹمر ڈیٹا پر فائن ٹیونڈ ہوسٹڈ جنریٹو ماڈلز کا استعمال کرکے، کاروبار اپنے صارفین کو بہتر طور پر مشغول کرنے اور ان کی خدمت کرنے کے لیے ذاتی نوعیت کی اور موثر AI ایپلیکیشنز کی اگلی سطح فراہم کر سکتے ہیں۔

ایمیزون سیج میکر مختلف ML inference کے اختیارات پیش کرتا ہے، بشمول ریئل ٹائم، غیر مطابقت پذیر، اور بیچ ٹرانسفارم۔ یہ پوسٹ پیمانے پر لاگت سے مؤثر طریقے سے FMs کی میزبانی کے بارے میں نسخہ جاتی رہنمائی فراہم کرنے پر مرکوز ہے۔ خاص طور پر، ہم ریئل ٹائم انفرنس کی تیز اور جوابدہ دنیا پر تبادلہ خیال کرتے ہیں، FMs کے لیے ریئل ٹائم انفرنس کے لیے مختلف آپشنز کی تلاش کرتے ہیں۔

اندازہ لگانے کے لیے، ملٹی کرایہ دار AI/ML فن تعمیر کو ڈیٹا اور ماڈلز کے ساتھ ساتھ کمپیوٹ کے وسائل پر غور کرنے کی ضرورت ہے جو ان ماڈلز سے اندازہ لگانے کے لیے درکار ہیں۔ اس بات پر غور کرنا ضروری ہے کہ ملٹی کرایہ دار AI/ML ماڈلز کو کس طرح تعینات کیا جاتا ہے—مثالی طور پر، CPUs اور GPUs کو بہترین طریقے سے استعمال کرنے کے لیے، آپ کو ایک ایسے انفرنسنگ حل کو آرکیٹیکٹ کرنے کے قابل ہونا پڑے گا جو سرونگ تھرو پٹ کو بڑھا سکے اور ماڈلز کی تقسیم کو یقینی بنا کر لاگت کو کم کر سکے۔ کمپیوٹ کے بنیادی ڈھانچے میں ایک موثر انداز میں۔ اس کے علاوہ، گاہک ایسے حل تلاش کر رہے ہیں جو انہیں شروع سے سب کچھ بنانے کی ضرورت کے بغیر ایک بہترین پریکٹس کا اندازہ لگانے والے فن تعمیر کو تعینات کرنے میں مدد کرتے ہیں۔

سیج میکر انفرنس ایک مکمل طور پر منظم ایم ایل ہوسٹنگ سروس ہے۔ یہ FedRAMP جیسے ریگولیٹری معیارات پر پورا اترتے ہوئے تخلیقی AI ایپلی کیشنز کی تعمیر میں معاونت کرتا ہے۔ سیج میکر اعلی تھرو پٹ انفرنس ورک بوجھ کے لیے لاگت سے موثر اسکیلنگ کو قابل بناتا ہے۔ یہ متنوع کام کے بوجھ کو سپورٹ کرتا ہے جس میں AWS Inferentia، AWS Graviton، NVIDIA GPUs، اور Intel CPUs جیسے ہارڈ ویئر پر حقیقی وقت، غیر مطابقت پذیر، اور بیچ کے نتائج شامل ہیں۔ سیج میکر آپ کو آپٹیمائزیشن، ورک لوڈ آئسولیشن، اور کنٹینرائزیشن پر مکمل کنٹرول فراہم کرتا ہے۔ یہ آپ کو ملٹی ماڈل اور ملٹی کنٹینر کی تعیناتیوں کی حمایت کے ساتھ پیمانے پر سروس حل کے طور پر جنریٹو AI بنانے کے قابل بناتا ہے۔

پیمانے پر فاؤنڈیشن ماڈلز کی میزبانی کے چیلنجز

پیمانے پر اندازہ لگانے کے لیے ایف ایم کی میزبانی میں کچھ چیلنجز درج ذیل ہیں:

بڑی یادداشت کا نشان - دسیوں یا سینکڑوں بلین ماڈل پیرامیٹرز والے FM اکثر ایک ایکسلیٹر چپ کی میموری کی گنجائش سے زیادہ ہوتے ہیں۔
ٹرانسفارمر سست ہیں۔ – FMs میں خودکار ضابطہ کشائی، خاص طور پر طویل ان پٹ اور آؤٹ پٹ سیکوینس کے ساتھ، میموری I/O آپریشنز کو بڑھا دیتی ہے۔ یہ ناقابل قبول تاخیر کے ادوار میں اختتام پذیر ہوتا ہے، جس سے حقیقی وقت کا اندازہ بری طرح متاثر ہوتا ہے۔
قیمت - FMs کو ML ایکسلریٹر کی ضرورت ہوتی ہے جو ہائی میموری اور ہائی کمپیوٹیشنل پاور دونوں مہیا کرتے ہیں۔ بغیر کسی قربانی کے اعلی تھرو پٹ اور کم تاخیر کا حصول ایک خصوصی کام ہے، جس کے لیے ہارڈویئر-سافٹ ویئر ایکسلریشن کو-آپٹیمائزیشن کی گہری سمجھ کی ضرورت ہوتی ہے۔
مارکیٹ سے زیادہ وقت - FMs سے بہترین کارکردگی سخت ٹیوننگ کا مطالبہ کرتی ہے۔ یہ خصوصی ٹیوننگ عمل، بنیادی ڈھانچے کے انتظام کی پیچیدگیوں کے ساتھ مل کر، لمبا ٹائم ٹو مارکیٹ سائیکل کا نتیجہ ہے۔
کام کا بوجھ تنہائی - پیمانے پر FMs کی میزبانی دھماکے کے رداس کو کم سے کم کرنے اور شور مچانے والے پڑوسیوں سے نمٹنے میں چیلنجوں کو متعارف کراتی ہے۔ ماڈل کے مخصوص ٹریفک پیٹرن کے جواب میں ہر ایف ایم کو پیمانہ کرنے کی صلاحیت کو بھاری اٹھانے کی ضرورت ہوتی ہے۔
سیکڑوں ایف ایم تک اسکیل کرنا - بیک وقت سینکڑوں ایف ایم کو آپریٹ کرنے سے کافی آپریشنل اوور ہیڈ متعارف ہوتا ہے۔ مؤثر اینڈ پوائنٹ مینجمنٹ، مناسب سلائسنگ اور ایکسلریٹر ایلوکیشن، اور ماڈل کے لیے مخصوص اسکیلنگ وہ کام ہیں جو مزید ماڈلز کے تعینات ہونے کی وجہ سے پیچیدگی میں اضافہ کرتے ہیں۔

فٹنس افعال

صحیح ہوسٹنگ آپشن کے بارے میں فیصلہ کرنا ضروری ہے کیونکہ یہ آپ کی ایپلی کیشنز کے ذریعہ فراہم کردہ اختتامی صارفین کو متاثر کرتا ہے۔ اس مقصد کے لیے، ہم کا تصور ادھار لے رہے ہیں۔ فٹنس کے افعال، جسے نیل فورڈ اور ان کے ساتھیوں نے اپنے کام میں AWS پارٹنر تھاٹ ورکس سے تیار کیا تھا۔ ارتقائی فن تعمیرات کی تعمیر. فٹنس فنکشنز آپ کے مقاصد کی بنیاد پر مختلف ہوسٹنگ آپشنز کا نسخہ جات فراہم کرتے ہیں۔ فٹنس فنکشنز آپ کو اپنے فن تعمیر کے منصوبہ بند ارتقا کی اجازت دینے کے لیے ضروری ڈیٹا حاصل کرنے میں مدد کرتے ہیں۔ وہ قابل پیمائش اقدار کا تعین کرتے ہیں تاکہ یہ اندازہ لگایا جا سکے کہ آپ کا حل آپ کے مقرر کردہ اہداف کو حاصل کرنے کے کتنا قریب ہے۔ تندرستی کے فنکشنز مطلوبہ تبدیلی کے عمل کی رہنمائی کے لیے فن تعمیر کے تیار ہونے کے ساتھ ہی ڈھال سکتے ہیں اور ہونا چاہیے۔ یہ آرکیٹیکٹس کو ٹیم کی خود مختاری کو برقرار رکھتے ہوئے اپنی ٹیموں کی رہنمائی کرنے کے لیے ایک ٹول فراہم کرتا ہے۔

ہم درج ذیل فٹنس فنکشنز پر غور کرنے کی تجویز پیش کرتے ہیں جب بات پیمانے پر اور لاگت کے لحاظ سے صحیح FM انفرنس آپشن کو منتخب کرنے کی ہو:

فاؤنڈیشن ماڈل کا سائز - ایف ایم ٹرانسفارمرز پر مبنی ہیں۔ ماڈلز کے سراسر سائز کی وجہ سے ٹرانسفارمرز لمبے ٹیکسٹ سیکوینسز بنانے میں سست اور میموری سے بھوکے ہوتے ہیں۔ بڑے لینگویج ماڈلز (LLMs) FM کی ایک قسم ہیں جو کہ ٹیکسٹ سیکوینس بنانے کے لیے استعمال ہونے پر کمپیوٹنگ پاور کی بے تحاشہ ضرورت ہوتی ہے اور دستیاب ہائی بینڈوڈتھ میموری (HBM) اور کمپیوٹ صلاحیت تک رسائی حاصل کرنے میں دشواری ہوتی ہے۔ اس کی وجہ یہ ہے کہ دستیاب میموری بینڈوڈتھ کا ایک بڑا حصہ ماڈل کے پیرامیٹرز کو لوڈ کرتے ہوئے اور خودکار رجعتی ضابطہ کشائی کا عمل. نتیجے کے طور پر، بھاری مقدار میں کمپیوٹ پاور کے ساتھ بھی، FMs میموری I/O اور کمپیوٹنگ کی حدود سے محدود ہیں۔ لہذا، ماڈل کا سائز بہت سارے فیصلوں کا تعین کرتا ہے، جیسے کہ آیا ماڈل ایک ہی ایکسلریٹر پر فٹ ہو گا یا ایک سے زیادہ ML ایکسلریٹر کی ضرورت ہے مثال کے طور پر ماڈل شارڈنگ کا استعمال کرتے ہوئے ایک اعلی تھرو پٹ پر اندازہ چلانے کے لیے۔ 3 بلین سے زیادہ پیرامیٹرز والے ماڈلز کو عام طور پر ایک سے زیادہ ML ایکسلریٹر کی ضرورت پڑنے لگتی ہے کیونکہ ہو سکتا ہے کہ ماڈل ایک ایکسلریٹر ڈیوائس میں فٹ نہ ہوں۔
کارکردگی اور ایف ایم انفرنس لیٹینسی - بہت سے ML ماڈلز اور ایپلیکیشنز لیٹنسی بہت اہم ہیں، جس میں انفرنس لیٹینسی سروس کی سطح کے مقصد کے ذریعے متعین حدود کے اندر ہونی چاہیے۔ FM inference میں تاخیر کا انحصار بہت سے عوامل پر ہوتا ہے، بشمول:
- ایف ایم ماڈل کا سائز - ماڈل کا سائز، بشمول رن ٹائم پر کوانٹائزیشن۔
- ہارڈ ویئر - کمپیوٹ (TFLOPS)، HBM سائز اور بینڈوتھ، نیٹ ورک بینڈوتھ، انٹرا-انسٹینس انٹر کنیکٹ اسپیڈ، اور اسٹوریج بینڈوڈتھ۔
- سافٹ ویئر ماحول۔ - ماڈل سرور، ماڈل متوازی لائبریری، ماڈل آپٹیمائزیشن انجن، اجتماعی مواصلات کی کارکردگی، ماڈل نیٹ ورک آرکیٹیکچر، کوانٹائزیشن، اور ایم ایل فریم ورک۔
- فوری طور پر - ان پٹ اور آؤٹ پٹ کی لمبائی اور ہائپر پیرامیٹر۔
- اسکیلنگ میں تاخیر - ٹریفک کے جواب میں پیمانے کا وقت۔
- کولڈ اسٹارٹ لیٹنسی - ماڈل لوڈ کو پری وارم کرنے جیسی خصوصیات FM لوڈ کرنے میں کولڈ سٹارٹ لیٹنسی کو کم کر سکتی ہیں۔
کام کا بوجھ تنہائی - اس سے مراد ریگولیٹری اور تعمیل کے نقطہ نظر سے کام کے بوجھ کو الگ تھلگ کرنے کی ضروریات ہیں، بشمول AI ماڈلز اور الگورتھم کی رازداری اور سالمیت کی حفاظت، AI تخمینہ کے دوران ڈیٹا کی رازداری، اور AI انٹلیکچوئل پراپرٹی (IP) کو غیر مجاز رسائی سے یا خطرے کے انتظام کے نقطہ نظر سے تحفظ دینا۔ مثال کے طور پر، آپ جان بوجھ کر دھماکے کے رداس کو کم کرکے یا شور مچانے والے پڑوسیوں کو روک کر سیکیورٹی ایونٹ کے اثرات کو کم کرسکتے ہیں۔
کارکردگی کا تخمینہ - توسیع پذیر فریم ورک پر ایف ایم ماڈل اور ایم ایل ایپلیکیشن کو تعینات کرنا اور برقرار رکھنا ایک اہم کاروباری عمل ہے، اور ماڈل ہوسٹنگ انفراسٹرکچر، ہوسٹنگ آپشن، ایم ایل فریم ورک، ایم ایل ماڈل کی خصوصیات، آپٹیمائزیشن، اسکیلنگ پالیسی کے بارے میں کیے گئے انتخاب کے لحاظ سے اخراجات بہت مختلف ہو سکتے ہیں۔ ، اور مزید. کام کے بوجھ کو ہارڈ ویئر کے بنیادی ڈھانچے کا بہترین استعمال کرنا چاہیے تاکہ اس بات کو یقینی بنایا جا سکے کہ لاگت برقرار رہے۔ یہ فٹنس فنکشن خاص طور پر بنیادی ڈھانچے کی لاگت سے مراد ہے، جو ملکیت کی مجموعی لاگت (TCO) کا حصہ ہے۔ انفراسٹرکچر کے اخراجات اسٹوریج، نیٹ ورک اور کمپیوٹ کے لیے مشترکہ اخراجات ہیں۔ TCO کے دیگر اجزاء کو سمجھنا بھی ضروری ہے، بشمول آپریشنل اخراجات اور سیکورٹی اور تعمیل کے اخراجات۔ آپریشنل اخراجات ML انفراسٹرکچر کو چلانے، نگرانی کرنے اور برقرار رکھنے کے مشترکہ اخراجات ہیں۔ آپریشنل اخراجات کا حساب ہر ایک منظر نامے کی بنیاد پر مطلوبہ انجینئرز کی تعداد اور انجینئروں کی سالانہ تنخواہ کے حساب سے لگایا جاتا ہے، جو ایک مخصوص مدت میں جمع ہوتے ہیں۔ جب لاگت بچانے کے لیے کوئی ٹریفک نہ ہو تو وہ خود بخود فی ماڈل صفر تک پیمانہ ہو جاتے ہیں۔
اسکیل ایبلٹی - اس میں شامل ہے:
- ایک کثیر کرایہ دار پلیٹ فارم میں اندازہ لگانے کے لیے سینکڑوں ایف ایم کے انتظام میں آپریشنل اوور ہیڈ۔
- ایک ہی اینڈ پوائنٹ اور فی ماڈل اسکیل میں متعدد ایف ایم پیک کرنے کی صلاحیت۔
- کام کے بوجھ کے نمونوں کی بنیاد پر مثال کی سطح اور ماڈل کنٹینر کی سطح کی اسکیلنگ کو فعال کرنا۔
- فی اینڈ پوائنٹ سینکڑوں ایف ایمز تک سکیل کرنے کے لیے سپورٹ۔
- بحری بیڑے میں ماڈلز کی ابتدائی جگہ کا تعین اور ناکافی ایکسلریٹر کو سنبھالنے کے لیے معاونت۔

فٹنس افعال میں طول و عرض کی نمائندگی کرنا

فٹنس افعال میں طول و عرض کی نمائندگی کرنے کے لیے ہم ایک مکڑی کا چارٹ استعمال کرتے ہیں، جسے کبھی کبھی ریڈار چارٹ بھی کہا جاتا ہے۔ ایک مکڑی کا چارٹ اکثر اس وقت استعمال ہوتا ہے جب آپ ڈیٹا کو کئی منفرد جہتوں میں ڈسپلے کرنا چاہتے ہیں۔ یہ جہتیں عام طور پر مقداری ہوتی ہیں، اور عام طور پر صفر سے زیادہ سے زیادہ قدر تک ہوتی ہیں۔ ہر ڈائمینشن کی رینج کو ایک دوسرے کے لیے نارملائز کیا جاتا ہے، تاکہ جب ہم اپنا اسپائیڈر چارٹ کھینچیں، تو ایک لائن کی لمبائی صفر سے لے کر ڈائمینشن کی زیادہ سے زیادہ قدر تک ہر ڈائمینشن کے لیے یکساں ہوگی۔

مندرجہ ذیل چارٹ سیج میکر پر اپنے فن تعمیر کا انتخاب کرتے وقت فیصلہ سازی کے عمل کو واضح کرتا ہے۔ اسپائیڈر چارٹ پر موجود ہر ایک رداس فٹنس فنکشنز میں سے ایک ہے جسے آپ اپنا انفرنس سلوشن بناتے وقت ترجیح دیں گے۔

ایمیزون سیج میکر کے ساتھ سینکڑوں ماڈلز کا فاؤنڈیشن ماڈل کا پیمانہ - حصہ 1 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مثالی طور پر، آپ ایک ایسی شکل چاہتے ہیں جو تمام اطراف میں برابر ہو (پینٹاگون)۔ اس سے ظاہر ہوتا ہے کہ آپ فٹنس کے تمام افعال کو بہتر بنانے کے قابل ہیں۔ لیکن حقیقت یہ ہے کہ اس شکل کو حاصل کرنا مشکل ہو گا- جیسا کہ آپ ایک فٹنس فنکشن کو ترجیح دیتے ہیں، یہ دوسرے رداس کی لائنوں کو متاثر کرے گا۔ اس کا مطلب یہ ہے کہ آپ کے جنریٹیو AI ایپلیکیشن کے لیے سب سے اہم چیز اس پر منحصر ہے کہ آپ کے پاس ہمیشہ تجارت ہوتی رہے گی، اور آپ کے پاس ایک گراف ہوگا جو ایک مخصوص رداس کی طرف متوجہ ہوگا۔ یہ وہ معیار ہے جسے آپ دوسروں کے حق میں ترجیح دینے کے لیے تیار ہو سکتے ہیں اس پر منحصر ہے کہ آپ ہر فنکشن کو کس طرح دیکھتے ہیں۔ ہمارے چارٹ میں، ہر فٹنس فنکشن کے میٹرک وزن کی تعریف اس طرح کی گئی ہے — قدر جتنی کم ہوگی، اس فٹنس فنکشن کے لیے یہ اتنا ہی کم بہتر ہوگا (ماڈل سائز کے استثناء کے ساتھ، اس صورت میں قدر جتنی زیادہ ہوگی، اس کا سائز اتنا ہی بڑا ہوگا۔ ماڈل)۔

مثال کے طور پر، آئیے استعمال کا ایک کیس لیں جہاں آپ کیس ڈیٹا اور کسٹمر ہسٹری کی بنیاد پر سروس کیسز اور کسٹمر کی مصروفیات کے کام کے خلاصے بنانے کے لیے ایک بڑے خلاصہ ماڈل (جیسے اینتھروپک کلاڈ) کا استعمال کرنا چاہیں گے۔ ہمارے پاس مندرجہ ذیل مکڑی کا چارٹ ہے۔

چونکہ اس میں کسٹمر کا حساس ڈیٹا شامل ہو سکتا ہے، اس لیے آپ اس کام کے بوجھ کو دوسرے ماڈلز سے الگ کرنے اور اسے سنگل ماڈل اینڈ پوائنٹ پر میزبانی کرنے کا انتخاب کر رہے ہیں، جو اسے پیمانہ بنانا مشکل بنا سکتا ہے کیونکہ آپ کو ہر FM کے لیے الگ الگ اینڈ پوائنٹس کو گھماؤ اور ان کا نظم کرنا پڑتا ہے۔ جنریٹیو AI ایپلیکیشن جس کے ساتھ آپ ماڈل استعمال کر رہے ہیں وہ سروس ایجنٹس کے ذریعے حقیقی وقت میں استعمال کیا جا رہا ہے، اس لیے لیٹنسی اور تھرو پٹ ایک ترجیح ہے، اس لیے P4De جیسی بڑی مثالوں کی اقسام کو استعمال کرنے کی ضرورت ہے۔ اس صورت حال میں، لاگت زیادہ ہو سکتی ہے کیونکہ ترجیح تنہائی، تاخیر، اور تھروپپٹ ہے۔

استعمال کا ایک اور معاملہ ایک سروس آرگنائزیشن ہو گا جو ایک سوال و جواب چیٹ بوٹ ایپلیکیشن بناتی ہے جو کہ صارفین کی ایک بڑی تعداد کے لیے حسب ضرورت ہے۔ درج ذیل مکڑی کا چارٹ ان کی ترجیحات کی عکاسی کرتا ہے۔

ہر چیٹ بوٹ کے تجربے کو ہر مخصوص گاہک کے مطابق بنانے کی ضرورت ہو سکتی ہے۔ استعمال کیے جانے والے ماڈل نسبتاً چھوٹے ہو سکتے ہیں (FLAN-T5-XXL، Llama 7B، اور k-NN)، اور ہر چیٹ بوٹ ہر روز مختلف ٹائم زونز کے لیے گھنٹوں کے ایک مقررہ سیٹ پر کام کرتا ہے۔ اس حل میں ایک ڈیٹا بیس کے ساتھ Retrieval Augmented Generation (RAG) کو بھی شامل کیا جا سکتا ہے جس میں تمام نالج بیس آئٹمز شامل ہوں جو حقیقی وقت میں اندازہ کے ساتھ استعمال کیے جائیں۔ اس چیٹ بوٹ کے ذریعے کسٹمر کے لیے مخصوص ڈیٹا کا تبادلہ نہیں کیا جا رہا ہے۔ کولڈ اسٹارٹ لیٹنسیز قابل برداشت ہیں کیونکہ چیٹ بوٹس ایک طے شدہ شیڈول پر کام کرتے ہیں۔ اس استعمال کے معاملے کے لیے، آپ ایک ملٹی ماڈل اینڈ پوائنٹ فن تعمیر کا انتخاب کر سکتے ہیں، اور چھوٹی مثال کی اقسام (جیسے G5) کا استعمال کر کے لاگت کو کم کرنے کے قابل ہو سکتے ہیں اور ممکنہ طور پر ہر اینڈ پوائنٹ پر ایک سے زیادہ ماڈلز کو پیمانے پر ہوسٹ کر کے آپریشنل اوور ہیڈ کو کم کر سکتے ہیں۔ کام کے بوجھ کی تنہائی کے استثناء کے ساتھ، اس استعمال کے معاملے میں فٹنس کے افعال کو ایک حد تک زیادہ ترجیح دی جا سکتی ہے، اور تجارت کو ایک حد تک کم کیا جاتا ہے۔

اس کی ایک حتمی مثال اسٹیبل ڈفیوژن 2.0 جیسے ماڈل کا استعمال کرتے ہوئے امیج جنریشن ایپلی کیشن ہوگی، جو کہ 3.5 بلین پیرامیٹر ماڈل ہے۔ ہمارا مکڑی کا چارٹ درج ذیل ہے۔

یہ ایک سبسکرپشن پر مبنی ایپلی کیشن ہے جو ہزاروں FMs اور صارفین کی خدمت کرتی ہے۔ ردعمل کا وقت تیز ہونے کی ضرورت ہے کیونکہ ہر گاہک امیج آؤٹ پٹس میں تیزی سے تبدیلی کی توقع کرتا ہے۔ تھرو پٹ بھی اہم ہے کیونکہ کسی بھی سیکنڈ میں لاکھوں درخواستیں ہوں گی، لہذا مثال کی قسم کو ایک بڑی مثال کی قسم ہونا چاہئے، جیسے P4D جس میں کافی GPU اور میموری ہو۔ اس کے لیے آپ ایک ملٹی کنٹینر اینڈ پوائنٹ بنانے پر غور کر سکتے ہیں جس میں ماڈل کی ایک سے زیادہ کاپیوں کی میزبانی کی جائے تاکہ تصویر کی تخلیق کو ایک درخواست سے دوسری سیٹ میں تبدیل کیا جا سکے۔ اس استعمال کے معاملے کے لیے، تاخیر اور تھروپوٹ کو ترجیح دینے اور صارف کی طلب کو ایڈجسٹ کرنے کے لیے، کمپیوٹ کی لاگت اور کام کے بوجھ کو الگ تھلگ کرنا تجارت کا فائدہ ہوگا۔

ایف ایم ہوسٹنگ آپشن کو منتخب کرنے کے لیے فٹنس فنکشنز کا اطلاق کرنا

اس سیکشن میں، ہم آپ کو دکھاتے ہیں کہ SageMaker FMs پر پیمانے پر صحیح FM ہوسٹنگ آپشن کو منتخب کرنے میں سابقہ فٹنس فنکشنز کو کیسے لاگو کیا جائے۔

سیج میکر سنگل ماڈل اینڈ پوائنٹس

سیج میکر سنگل ماڈل اینڈ پوائنٹس آپ کو ایک کنٹینر پر ایک ایف ایم کی میزبانی کرنے کی اجازت دیتے ہیں جس کی میزبانی کم تاخیر اور زیادہ تھرو پٹ کے لیے وقف شدہ مثالوں پر کی جاتی ہے۔ یہ اینڈ پوائنٹس مکمل طور پر منظم ہیں اور آٹو اسکیلنگ کو سپورٹ کرتے ہیں۔ آپ سنگل ماڈل اینڈ پوائنٹ کو ایک پروویژنڈ اینڈ پوائنٹ کے طور پر کنفیگر کر سکتے ہیں جہاں آپ اینڈ پوائنٹ انفراسٹرکچر کنفیگریشن میں پاس ہوتے ہیں جیسے کہ مثال کی قسم اور شمار، جہاں سیج میکر خودکار طور پر کمپیوٹ وسائل کو لانچ کرتا ہے اور آٹو اسکیلنگ پالیسی کے لحاظ سے ان کو اندر اور باہر نکالتا ہے۔ آپ ایک سے زیادہ سنگل ماڈل اینڈ پوائنٹس کا استعمال کرتے ہوئے سینکڑوں ماڈلز کی میزبانی کے لیے پیمانہ بنا سکتے ہیں اور a کو ملازمت دے سکتے ہیں۔ سیل پر مبنی فن تعمیر لچک میں اضافہ اور دھماکے کے رداس کو کم کرنے کے لیے۔

ایک پروویژن شدہ سنگل ماڈل اینڈ پوائنٹ کے لیے فٹنس فنکشنز کا جائزہ لیتے وقت، درج ذیل پر غور کریں:

فاؤنڈیشن ماڈل کا سائز - یہ موزوں ہے اگر آپ کے پاس ایسے ماڈل ہیں جو سنگل ایم ایل ایکسلریٹر کی میموری میں فٹ نہیں ہوسکتے ہیں اور اس وجہ سے ایک مثال میں ایک سے زیادہ ایکسلریٹر کی ضرورت ہے۔
کارکردگی اور ایف ایم انفرنس لیٹینسی - یہ تاخیر سے متعلق اہم جنریٹو AI ایپلی کیشنز کے لیے متعلقہ ہے۔
کام کا بوجھ تنہائی - آپ کی درخواست کی ضرورت ہو سکتی ہے۔ ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون EC2) سیکیورٹی کی تعمیل کی وجوہات کی وجہ سے مثال کی سطح کی تنہائی۔ ہر FM کو ایک الگ انفرنس اینڈ پوائنٹ ملے گا اور وہ EC2 مثال کو دوسرے ماڈل کے ساتھ شیئر نہیں کرے گا۔ مثال کے طور پر، آپ HIPAA سے متعلقہ ماڈل انفرنس ورک بوجھ (جیسے PHI کا پتہ لگانے والا ماڈل) کو نیٹ ورک آئسولیشن کے ساتھ ایک وقف شدہ سیکورٹی گروپ کنفیگریشن کے ساتھ الگ اینڈ پوائنٹ میں الگ کر سکتے ہیں۔ آپ اپنے GPU پر مبنی ماڈل کے انفرنس ورک بوجھ کو Nitro-based EC2 مثالوں جیسے p4dn کی بنیاد پر دوسروں سے الگ کر سکتے ہیں تاکہ انہیں کم بھروسہ مند کام کے بوجھ سے الگ کر سکیں۔ نائٹرو سسٹم پر مبنی EC2 مثالیں ورچوئلائزیشن اور آئسولیشن کے لیے ایک منفرد طریقہ فراہم کرتی ہیں، جو آپ کو ہر وقت AWS آپریٹرز اور سافٹ ویئر سے حساس ڈیٹا پروسیسنگ کو محفوظ اور الگ کرنے کے قابل بناتی ہیں۔ یہ سب سے اہم جہت فراہم کرتا ہے۔ خفیہ کمپیوٹنگ سسٹم سافٹ ویئر اور کلاؤڈ آپریٹرز سے تحفظات کے ایک اندرونی، آن بہ ڈیفالٹ سیٹ کے طور پر۔ یہ آپشن SageMaker پر تھرڈ پارٹی ماڈل فراہم کنندگان کے ذریعہ فراہم کردہ AWS مارکیٹ پلیس ماڈلز کی تعیناتی کی بھی حمایت کرتا ہے۔

سیج میکر ملٹی ماڈل اینڈ پوائنٹس

سیج میکر۔ ملٹی ماڈل اینڈ پوائنٹس (MMEs) آپ کو ایک GPU کور پر ایک سے زیادہ ماڈلز کی مشترکہ میزبانی کرنے، ایک سے زیادہ ماڈلز میں اختتامی نقطہ کے پیچھے GPU مثالوں کا اشتراک کرنے، اور آنے والی ٹریفک کی بنیاد پر ماڈلز کو متحرک طور پر لوڈ اور ان لوڈ کرنے کی اجازت دیتا ہے۔ اس کے ساتھ، آپ لاگت کو نمایاں طور پر بچا سکتے ہیں اور قیمت کی بہترین کارکردگی حاصل کر سکتے ہیں۔

اگر آپ کو چھوٹے ماڈلز کی میزبانی کرنے کی ضرورت ہو تو MMEs بہترین انتخاب ہیں جو ایک مثال کے طور پر ایک ہی ML ایکسلریٹر میں فٹ ہو سکتے ہیں۔ اس حکمت عملی پر غور کیا جانا چاہئے اگر آپ کے پاس ایک جیسے سائز کے ماڈلز کی ایک بڑی تعداد (ہزاروں تک) (1 بلین سے کم پیرامیٹرز) ہیں جو آپ ایک مثال کے اندر مشترکہ کنٹینر کے ذریعے پیش کر سکتے ہیں اور آپ کو تمام ماڈلز تک رسائی کی ضرورت نہیں ہے۔ ایک ہی وقت. آپ اس ماڈل کو لوڈ کر سکتے ہیں جسے استعمال کرنے کی ضرورت ہے اور پھر اسے مختلف ماڈل کے لیے اتار سکتے ہیں۔

MMEs کو کو ہوسٹنگ ماڈلز کے لیے بھی ڈیزائن کیا گیا ہے جو ایک ہی ML فریم ورک کا استعمال کرتے ہیں کیونکہ وہ مشترکہ کنٹینر کو متعدد ماڈلز لوڈ کرنے کے لیے استعمال کرتے ہیں۔ لہذا، اگر آپ کے ماڈل کے بیڑے میں ML فریم ورک کا مرکب ہے (جیسے PyTorch اور TensorFlow)، تو ایک SageMaker اینڈ پوائنٹ کے ساتھ InferenceComponents ایک بہتر انتخاب ہے. ہم بحث کرتے ہیں۔ InferenceComponents مزید بعد میں اس پوسٹ میں۔

آخر میں، MMEs ایپلی کیشنز کے لیے موزوں ہیں جو کبھی کبھار کولڈ سٹارٹ لیٹنسی پنالٹی کو برداشت کر سکتی ہیں کیونکہ اکثر استعمال کیے جانے والے ماڈلز کے حق میں آف لوڈ کیے جا سکتے ہیں۔ اگر آپ کے پاس کبھی کبھار ہی رسائی حاصل کرنے والے ماڈلز کی لمبی دم ہے، تو ایک ملٹی ماڈل اینڈ پوائنٹ اس ٹریفک کو موثر طریقے سے پیش کر سکتا ہے اور قیمت کی اہم بچت کو فعال کر سکتا ہے۔

MMEs کا استعمال کب کرنا ہے اس کا اندازہ کرتے وقت درج ذیل پر غور کریں:

فاؤنڈیشن ماڈل کا سائز - آپ کے پاس ایسے ماڈل ہو سکتے ہیں جو ایک مثال کے طور پر سنگل ML ایکسلریٹر کے HBM میں فٹ ہوتے ہیں اور اس لیے متعدد ایکسلریٹر کی ضرورت نہیں ہے۔
کارکردگی اور ایف ایم انفرنس لیٹینسی - آپ کے پاس جنریٹیو AI ایپلی کیشنز ہو سکتی ہیں جو ماڈل کی درخواست کرنے اور میموری میں نہ ہونے پر کولڈ سٹارٹ لیٹنسی کو برداشت کر سکتی ہیں۔
کام کا بوجھ تنہائی - تمام ماڈلز کو ایک ہی کنٹینر کا اشتراک کرنے پر غور کریں۔
اسکیل ایبلٹی - درج ذیل پر غور کریں:
- آپ متعدد ماڈلز کو ایک ہی اختتامی نقطہ اور پیمانے پر فی ماڈل اور ML مثال میں پیک کر سکتے ہیں۔
- آپ کام کے بوجھ کے نمونوں کی بنیاد پر مثال کی سطح کی آٹو اسکیلنگ کو فعال کر سکتے ہیں۔
- MMEs فی اختتامی نقطہ پر ہزاروں ماڈلز تک اسکیلنگ کی حمایت کرتے ہیں۔ آپ کو فی ماڈل آٹو اسکیلنگ اور تعیناتی کنفیگریشن کو برقرار رکھنے کی ضرورت نہیں ہے۔
- جب بھی ماڈل کی استدعا کی درخواست کی جائے تو آپ گرم تعیناتی کا استعمال کر سکتے ہیں۔
- آپ انفرنس کی درخواست کے مطابق ماڈلز کو متحرک طور پر لوڈ کر سکتے ہیں اور میموری پریشر کے جواب میں ان لوڈ کر سکتے ہیں۔
- آپ بنیادی وسائل کو ماڈلز کے ساتھ بانٹ سکتے ہیں۔
کارکردگی کا تخمینہ - ماڈلز کی متحرک لوڈنگ اور ان لوڈنگ کے ذریعے تمام ماڈلز میں وسائل کو شیئر کرنے پر غور کریں، جس کے نتیجے میں لاگت میں بچت ہوتی ہے۔

InferenceComponents کے ساتھ SageMaker انفرنس اینڈ پوائنٹ

نیا سیج میکر انفرنس اینڈ پوائنٹ کے ساتھ InferenceComponents ایک ہی اختتامی نقطہ میں متعدد FMs کی میزبانی کرنے اور فی ماڈل اسکیلنگ کے لیے ایک قابل توسیع نقطہ نظر فراہم کرتا ہے۔ یہ آپ کو وسائل (ایکسیلیٹر، میموری، سی پی یو) مختص کرنے اور فی ماڈل کی بنیاد پر آٹو اسکیلنگ کی پالیسیاں ترتیب دینے کے لیے بہترین کنٹرول فراہم کرتا ہے تاکہ یقینی تھرو پٹ اور قابل پیشن گوئی کارکردگی حاصل کی جا سکے، اور آپ انفرادی طور پر متعدد ماڈلز میں کمپیوٹ کے استعمال کا انتظام کر سکتے ہیں۔ اگر آپ کے پاس مختلف سائز اور ٹریفک پیٹرن کے بہت سارے ماڈل ہیں جن کی آپ کو میزبانی کرنے کی ضرورت ہے، اور ماڈل کے سائز انہیں ایک ایکسلریٹر کی میموری میں فٹ ہونے کی اجازت نہیں دیتے ہیں، تو یہ بہترین آپشن ہے۔ یہ آپ کو لاگت کو بچانے کے لیے صفر تک پیمانہ کرنے کی بھی اجازت دیتا ہے، لیکن آپ کی درخواست میں تاخیر کے تقاضوں کو کافی لچکدار ہونے کی ضرورت ہے تاکہ ماڈلز کے لیے کولڈ اسٹارٹ ٹائم کا حساب رکھا جا سکے۔ یہ آپشن آپ کو اپنے کمپیوٹ کو استعمال کرنے میں سب سے زیادہ لچک کی اجازت دیتا ہے جب تک کہ کنٹینر لیول آئسولیشن فی گاہک یا FM کافی ہو۔ کے ساتھ نئے SageMaker اینڈ پوائنٹ پر مزید تفصیلات کے لیے InferenceComponents، تفصیلی پوسٹ کا حوالہ دیں۔ Amazon SageMaker کی تازہ ترین خصوصیات کا استعمال کرتے ہوئے ماڈل کی تعیناتی کے اخراجات کو اوسطاً 50% تک کم کریں۔.

اس بات کا تعین کرتے وقت درج ذیل پر غور کریں کہ آپ کو اینڈ پوائنٹ کب استعمال کرنا چاہیے۔ InferenceComponents:

فاؤنڈیشن ماڈل کا سائز - یہ ان ماڈلز کے لیے موزوں ہے جو سنگل ایم ایل ایکسلریٹر کی میموری میں فٹ نہیں ہو سکتے اور اس لیے ایک مثال میں ایک سے زیادہ ایکسلریٹر کی ضرورت ہوتی ہے۔
کارکردگی اور ایف ایم انفرنس لیٹینسی - یہ لیٹنسی اہم جنریٹو AI ایپلی کیشنز کے لیے موزوں ہے۔
کام کا بوجھ تنہائی - آپ کے پاس ایسی ایپلی کیشنز ہوسکتی ہیں جہاں کنٹینر لیول آئسولیشن کافی ہو۔
اسکیل ایبلٹی - درج ذیل پر غور کریں:
- آپ ایک ہی اینڈ پوائنٹ اور اسکیل فی ماڈل میں متعدد ایف ایم پیک کر سکتے ہیں۔
- آپ کام کے بوجھ کے نمونوں کی بنیاد پر مثال کی سطح اور ماڈل کنٹینر کی سطح کی اسکیلنگ کو فعال کر سکتے ہیں۔
- یہ طریقہ سیکڑوں FMs فی اختتامی نقطہ پر اسکیلنگ کی حمایت کرتا ہے۔ آپ کو ہر ماڈل یا کنٹینر کے لیے آٹو اسکیلنگ پالیسی کو ترتیب دینے کی ضرورت نہیں ہے۔
- یہ بیڑے میں ماڈلز کی ابتدائی جگہ کا تعین کرنے اور ناکافی ایکسلریٹروں کو سنبھالنے میں معاون ہے۔
کارکردگی کا تخمینہ - جب لاگت بچانے کے لیے کوئی ٹریفک نہ ہو تو آپ فی ماڈل صفر تک پیمانہ کر سکتے ہیں۔

ایک ہی اختتامی نقطہ پر متعدد ایف ایم پیک کرنا: ماڈل گروپنگ

اس بات کا تعین کرنا کہ آپ SageMaker پر کون سی انفرنس فن تعمیر کی حکمت عملی استعمال کرتے ہیں آپ کی درخواست کی ترجیحات اور تقاضوں پر منحصر ہے۔ کچھ SaaS فراہم کنندگان ریگولیٹڈ ماحول میں فروخت کر رہے ہیں جو سخت تنہائی کے تقاضے عائد کرتے ہیں — ان کے پاس ایک ایسا اختیار ہونا ضروری ہے جو انہیں اپنے کچھ یا تمام FMs کو ایک مخصوص ماڈل میں تعینات ہونے کا اختیار پیش کرنے کے قابل بنائے۔ لیکن لاگت کو بہتر بنانے اور پیمانے کی معیشت حاصل کرنے کے لیے، SaaS فراہم کنندگان کو کثیر کرایہ دار ماحول بھی ہونا چاہیے جہاں وہ SageMaker وسائل کے مشترکہ سیٹ میں متعدد FMs کی میزبانی کرتے ہیں۔ زیادہ تر تنظیموں کے پاس ممکنہ طور پر ایک ہائبرڈ ہوسٹنگ ماحول ہوگا جہاں ان کے SageMaker فن تعمیر کے حصے کے طور پر سنگل ماڈل اینڈ پوائنٹس اور ملٹی ماڈل یا ملٹی کنٹینر اینڈ پوائنٹس دونوں ہیں۔

ایک اہم مشق جو آپ کو اس تقسیم شدہ تخمینے کے ماحول کی تعمیر کے وقت انجام دینے کی ضرورت ہوگی وہ ہے اپنے ماڈلز کو ہر قسم کے فن تعمیر کے لیے گروپ کرنا، آپ کو اپنے سیج میکر کے اختتامی پوائنٹس میں ترتیب دینے کی ضرورت ہوگی۔ پہلا فیصلہ جو آپ کو کرنا پڑے گا وہ کام کے بوجھ سے الگ تھلگ ہونے کی ضروریات کے بارے میں ہے — آپ کو ان FMs کو الگ تھلگ کرنے کی ضرورت ہوگی جنہیں ان کے اپنے مخصوص اختتامی مقامات پر ہونے کی ضرورت ہے، چاہے وہ سیکیورٹی وجوہات کی بناء پر ہو، دھماکے کے رداس اور شور والے پڑوسی کے خطرے کو کم کرنا، یا ملاقات تاخیر کے لیے سخت SLAs۔

دوم، آپ کو یہ تعین کرنے کی ضرورت ہوگی کہ آیا FMs ایک ML ایکسلریٹر میں فٹ ہوتے ہیں یا ایک سے زیادہ ایکسلریٹر کی ضرورت ہوتی ہے، ماڈل کے سائز کیا ہیں، اور ان کے ٹریفک پیٹرن کیا ہیں۔ ملتے جلتے سائز کے ماڈلز جو اجتماعی طور پر ایک مرکزی فنکشن کو سپورٹ کرنے کے لیے کام کرتے ہیں منطقی طور پر ایک اختتامی نقطہ پر متعدد ماڈلز کو شریک میزبانی کے ذریعے ایک ساتھ گروپ کیا جا سکتا ہے، کیونکہ یہ ایک ہی کاروباری ایپلیکیشن کا حصہ ہوں گے جس کا انتظام مرکزی ٹیم کے ذریعے کیا جاتا ہے۔ ایک ہی اختتامی نقطہ پر متعدد ماڈلز کی مشترکہ میزبانی کے لیے، ایک گروپنگ مشق کی ضرورت ہے تاکہ یہ تعین کیا جا سکے کہ کون سے ماڈلز ایک ہی مثال، ایک کنٹینر، یا متعدد کنٹینرز میں بیٹھ سکتے ہیں۔

MMEs کے لیے ماڈلز کی گروپ بندی

MMEs چھوٹے ماڈلز (1 بلین سے کم پیرامیٹرز جو سنگل ایکسلریٹر میں فٹ ہو سکتے ہیں) کے لیے بہترین موزوں ہیں اور سائز اور درخواست میں تاخیر کے لحاظ سے ایک جیسے ہیں۔ ماڈل کے سائز میں کچھ تغیر قابل قبول ہے۔ مثال کے طور پر، زینڈیسک کا ماڈلز کی رینج 10-50 MB تک ہوتی ہے، جو ٹھیک کام کرتی ہے، لیکن سائز میں تغیرات جو 10، 50، یا 100 گنا زیادہ کا عنصر ہیں مناسب نہیں ہیں۔ بڑے ماڈلز زیادہ تعداد میں لوڈ اور چھوٹے ماڈلز کو اتارنے کا سبب بن سکتے ہیں تاکہ میموری کی کافی جگہ مل سکے، جس کے نتیجے میں اختتامی نقطہ پر اضافی تاخیر ہو سکتی ہے۔ بڑے ماڈلز کی کارکردگی کی خصوصیات میں فرق CPU جیسے وسائل کو غیر مساوی طور پر استعمال کر سکتا ہے، جو مثال کے طور پر دوسرے ماڈلز کو متاثر کر سکتا ہے۔

جن ماڈلز کو MME پر ایک ساتھ گروپ کیا گیا ہے ان کے لیے ٹریفک پیٹرن کا حیران کن ہونا ضروری ہے تاکہ آپ کو اندازہ لگانے کے لیے تمام ماڈلز میں کمپیوٹ کا اشتراک کرنے کی اجازت دی جا سکے۔ جب آپ ماڈلز کے درمیان سوئچ کرتے ہیں تو آپ کے رسائی کے نمونوں اور تخمینے میں تاخیر کو بھی کچھ ٹھنڈے وقت کی اجازت دینے کی ضرورت ہوتی ہے۔

MMEs کے لیے ماڈلز کی گروپ بندی کے لیے کچھ تجویز کردہ معیار درج ذیل ہیں:

چھوٹے ماڈلز - 1 بلین سے کم پیرامیٹرز والے ماڈل استعمال کریں۔
ماڈل سائز - ایک جیسے سائز کے ماڈل اور شریک میزبان کو ایک ہی اختتامی نقطہ میں گروپ کریں۔
درخواست میں تاخیر - اسی طرح کی درخواست میں تاخیر کے تقاضوں کے ساتھ گروپ ماڈل جو سرد آغاز کو برداشت کر سکتے ہیں۔
ہارڈ ویئر - ایک ہی بنیادی EC2 مثال کی قسم کا استعمال کرتے ہوئے ماڈلز کو گروپ کریں۔

InferenceComponents کے ساتھ اختتامی نقطہ کے لیے ماڈلز کو گروپ کرنا

ایک سیج میکر اینڈ پوائنٹ کے ساتھ InferenceComponents بڑے پیمانے پر FMs (1 بلین سے زیادہ پیرامیٹرز) کی میزبانی کے لیے بہترین موزوں ہے جس کے لیے EC2 مثال میں ایک سے زیادہ ML ایکسلریٹر یا آلات کی ضرورت ہوتی ہے۔ یہ اختیار تاخیر سے متعلق حساس کام کے بوجھ اور ایپلیکیشنز کے لیے موزوں ہے جہاں کنٹینر کی سطح کی تنہائی کافی ہے۔ ایک سے زیادہ کے ساتھ اختتامی نقطہ کے لیے ماڈلز کو گروپ کرنے کے لیے چند تجویز کردہ معیارات درج ذیل ہیں۔ InferenceComponents:

ہارڈ ویئر - ایک ہی بنیادی EC2 مثال کی قسم کا استعمال کرتے ہوئے ماڈلز کو گروپ کریں۔
ماڈل سائز - ماڈل کے سائز کی بنیاد پر ماڈل کو گروپ کرنے کی سفارش کی جاتی ہے لیکن لازمی نہیں۔

خلاصہ

اس پوسٹ میں، ہم نے تین ریئل ٹائم ایم ایل انفرنس آپشنز کو دیکھا (سنگل اینڈ پوائنٹس، ملٹی ماڈل اینڈ پوائنٹس، اور اینڈ پوائنٹس InferenceComponents) SageMaker میں مؤثر طریقے سے FMs کو پیمانے پر لاگت سے مؤثر طریقے سے میزبانی کرنے کے لیے۔ آپ FMs کے لیے SageMaker ہوسٹنگ کا صحیح آپشن منتخب کرنے میں مدد کے لیے فٹنس کے پانچ فنکشن استعمال کر سکتے ہیں۔ FMs کو گروپ کریں اور تجویز کردہ گروپ بندی کے معیار کو استعمال کرتے ہوئے SageMaker انفرنس اینڈ پوائنٹس پر ان کی شریک میزبانی کریں۔ فٹنس فنکشنز کے علاوہ جن پر ہم نے تبادلہ خیال کیا، آپ مندرجہ ذیل جدول کا استعمال یہ فیصلہ کرنے کے لیے کر سکتے ہیں کہ آپ کے استعمال کے معاملے کے لیے کون سا مشترکہ سیج میکر ہوسٹنگ آپشن بہترین ہے۔ آپ درج ذیل گٹ ہب ریپوز میں سیج میکر پر ایف ایم ہوسٹنگ آپشنز میں سے ہر ایک کے لیے کوڈ کے نمونے تلاش کر سکتے ہیں۔ سنگل سیج میکر اینڈ پوائنٹ, ملٹی ماڈل اینڈ پوائنٹ، اور InferenceComponents اختتامی نقطہ

.	سنگل ماڈل اینڈ پوائنٹ	ملٹی ماڈل اینڈ پوائنٹ	InferenceComponents کے ساتھ اختتامی نقطہ
ماڈل لائف سائیکل	انتظام کے لیے API	ایمیزون S3 راستے کے ذریعے متحرک	انتظام کے لیے API
مثال کی اقسام کی حمایت کی	CPU، سنگل اور ملٹی GPU، AWS Inferentia پر مبنی مثالیں۔	سی پی یو، سنگل جی پی یو پر مبنی مثالیں۔	CPU، سنگل اور ملٹی GPU، AWS Inferentia پر مبنی مثالیں۔
میٹرک گرینولریٹی	اختتام پوائنٹ	اختتام پوائنٹ	اختتامی نقطہ اور کنٹینر
پیمانہ گرانولریٹی	ML مثال	ML مثال	کنٹینر
پیمانے کا رویہ	آزاد ایم ایل مثال کی پیمائش	ماڈلز میموری سے لوڈ اور ان لوڈ کیے جاتے ہیں۔	آزاد کنٹینر اسکیلنگ
ماڈل پننگ	.	میموری کی بنیاد پر ماڈلز کو اتارا جا سکتا ہے۔	ہر کنٹینر کو ہمیشہ لوڈ یا ان لوڈ کرنے کے لیے ترتیب دیا جا سکتا ہے۔
کنٹینر کی ضروریات	سیج میکر پہلے سے بنایا ہوا، سیج میکر سے مطابقت رکھتا ہے اپنا اپنا کنٹینر لائیں (BYOC)	MMS، Triton، BYOC MME معاہدوں کے ساتھ	سیج میکر پہلے سے بنایا ہوا، سیج میکر سے مطابقت رکھنے والا BYOC
روٹنگ کے اختیارات	بے ترتیب یا کم سے کم کنکشن	بے ترتیب، مقبولیت ونڈو کے ساتھ چپچپا	بے ترتیب یا کم سے کم کنکشن
ماڈل کے لیے ہارڈ ویئر مختص	سنگل ماڈل کے لیے وقف	مشترکہ	ہر کنٹینر کے لیے وقف ہے۔
تائید شدہ ماڈلز کی تعداد	سنگل	ہزاروں	سینکڑوں
رسپانس اسٹریمنگ	تائید	سہولت مہیا نہیں کی	تائید
ڈیٹا کیپچر	تائید	سہولت مہیا نہیں کی	سہولت مہیا نہیں کی
شیڈو ٹیسٹنگ	تائید	سہولت مہیا نہیں کی	سہولت مہیا نہیں کی
کثیر متغیرات	تائید	لاگو نہیں	سہولت مہیا نہیں کی
AWS مارکیٹ پلیس ماڈل	تائید	لاگو نہیں	سہولت مہیا نہیں کی

مصنفین کے بارے میں

ایمیزون سیج میکر کے ساتھ سینکڑوں ماڈلز کا فاؤنڈیشن ماڈل کا پیمانہ - حصہ 1 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی مہران نجفی، پی ایچ ڈی، AWS کے لیے ایک سینئر سولیوشن آرکیٹیکٹ ہے جو اسکیل پر AI/ML اور SaaS سلوشنز پر مرکوز ہے۔

دھول پٹیل AWS میں پرنسپل مشین لرننگ آرکیٹیکٹ ہے۔ انہوں نے تقسیم شدہ کمپیوٹنگ اور مصنوعی ذہانت سے متعلق مسائل پر بڑے اداروں سے لے کر درمیانے درجے کے اسٹارٹ اپس تک کی تنظیموں کے ساتھ کام کیا ہے۔ وہ NLP اور کمپیوٹر ویژن ڈومینز سمیت گہری سیکھنے پر توجہ مرکوز کرتا ہے۔ وہ صارفین کو SageMaker پر اعلیٰ کارکردگی کے ماڈل کا اندازہ حاصل کرنے میں مدد کرتا ہے۔

ایمیزون سیج میکر کے ساتھ سینکڑوں ماڈلز کا فاؤنڈیشن ماڈل کا پیمانہ - حصہ 1 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی ریلہ ڈی جیسس AWS میں ایک پرنسپل سولیوشن آرکیٹیکٹ ہے جس نے DC، میری لینڈ اور ورجینیا کے علاقے میں مختلف کاروباری صارفین کو کلاؤڈ پر جانے میں کامیابی سے مدد کی ہے۔ ایک کسٹمر ایڈووکیٹ اور ٹیکنیکل ایڈوائزر، وہ Heroku/Salesforce جیسی تنظیموں کو AWS پلیٹ فارم پر کامیابی حاصل کرنے میں مدد کرتی ہے۔ وہ آئی ٹی میں خواتین کی سخت حامی ہیں اور روزمرہ کے چیلنجوں کو حل کرنے کے لیے ٹیکنالوجی اور ڈیٹا کو تخلیقی طور پر استعمال کرنے کے طریقے تلاش کرنے کے بارے میں بہت پرجوش ہیں۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/scale-foundation-model-inference-to-hundreds-of-models-with-amazon-sagemaker-part-1/

ٹائم اسٹیمپ: نومبر 30، 2023

ٹائم اسٹیمپ: اگست 11، 2022

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ڈیٹا ورژن کنٹرول اور Amazon SageMaker تجربات کے ساتھ اپنے ML تجربات کو آخر سے آخر تک ٹریک کریں۔

انسانی مداخلت کے ساتھ ایمیزون سیج میکر ماڈل رجسٹری کی منظوری اور پروموشن ورک فلو بنائیں۔ ایمیزون ویب سروسز

T-Mobile US, Inc. اپنے صارفین کی پسند کی زبان میں صوتی میل فراہم کرنے کے لیے Amazon Transscribe اور Amazon Translate کے ذریعے مصنوعی ذہانت کا استعمال کرتا ہے۔ ایمیزون ویب سروسز

LLMs کے ساتھ Haystack پائپ لائنز اور Amazon SageMaker JumpStart کا استعمال کرتے ہوئے انٹرپرائز تلاش کے لیے پروڈکشن کے لیے تیار جنریٹو AI ایپلی کیشنز بنائیں۔ ایمیزون ویب سروسز

Amazon SageMaker اور Amazon Augmented AI کا استعمال کرتے ہوئے سیٹلائٹ امیجری کے لیے کمپیوٹر وژن کے ساتھ تباہی کے ردعمل کو تیز کریں۔

متعارف کرایا جا رہا ہے AWS جنریٹیو AI انوویشن سنٹر کا کسٹم ماڈل پروگرام برائے اینتھروپک کلاڈ | ایمیزون ویب سروسز

Amazon Lookout for Metrics کا استعمال کرتے ہوئے ہوا کے معیار کی بے ضابطگی کا پتہ لگانے والا بنائیں

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ