ایمیزون سیج میکر پر ڈیپ اسپیڈ کے ساتھ مانٹیم نے کم تاخیر والے جی پی ٹی-جے کا اندازہ کیسے حاصل کیا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

مینٹیم AI ایپلیکیشنز بنانے اور ان کا بڑے پیمانے پر انتظام کرنے کے لیے ایک عالمی کلاؤڈ پلیٹ فارم فراہم کنندہ ہے۔ مینٹیم کا اینڈ ٹو اینڈ ڈیولپمنٹ پلیٹ فارم تمام سائز کے کاروباری اداروں اور کاروباری اداروں کو AI ایپلی کیشنز اور آٹومیشن کو روایتی طور پر ممکن ہونے سے زیادہ تیز اور آسان بناتا ہے۔ Mantium کے ساتھ، تکنیکی اور غیر تکنیکی ٹیمیں AI ایپلیکیشنز کو پروٹو ٹائپ، تیار، جانچ اور تعینات کر سکتی ہیں، یہ سب کم کوڈ والے اپروچ کے ساتھ۔ خودکار لاگنگ، نگرانی، اور حفاظتی خصوصیات کے ذریعے، Mantium سافٹ ویئر اور DevOps انجینئرز کو وہیل کو دوبارہ ایجاد کرنے میں اپنا وقت صرف کرنے سے بھی رہا کرتا ہے۔ ایک اعلی سطح پر، Mantium فراہم کرتا ہے:

جدید ترین AI - ایک سادہ UI یا API کے ساتھ اوپن سورس اور نجی بڑے لینگوئج ماڈلز کے وسیع انتخاب کے ساتھ تجربہ اور ترقی کریں۔
AI عمل آٹومیشن - انضمام کی بڑھتی ہوئی لائبریری اور مینٹیم کے گرافیکل AI بلڈر کے ساتھ آسانی سے AI سے چلنے والی ایپلی کیشنز بنائیں۔
تیزی سے تعیناتی - ایک کلک کی تعیناتی کے ساتھ پروڈکشن ٹائم لائن کو مہینوں سے ہفتوں یا دنوں تک مختصر کریں۔ یہ فیچر ایک کلک کے ساتھ AI ایپلی کیشنز کو قابل اشتراک ویب ایپس میں بدل دیتا ہے۔
حفاظت اور ضابطہ - گورننس کی پالیسیوں کے ساتھ حفاظت اور تعمیل کو یقینی بنائیں اور انسانوں کے اندر لوپ کے عمل کے لیے تعاون کو یقینی بنائیں۔

Mantium AI بلڈر کے ساتھ، آپ نفیس ورک فلو تیار کر سکتے ہیں جو بیرونی APIs، منطق کے آپریشنز، اور AI ماڈلز کو مربوط کرتے ہیں۔ مندرجہ ذیل اسکرین شاٹ مینٹیم اے آئی ایپ کی ایک مثال دکھاتا ہے، جو ٹویلیو ان پٹ، گورننس پالیسی، اے آئی بلاک (جو GPT-J جیسے اوپن سورس ماڈل پر انحصار کر سکتا ہے) اور ٹویلیو آؤٹ پٹ کو ایک ساتھ جوڑتا ہے۔

اس ایپ کو سپورٹ کرنے کے لیے، Mantium نہ صرف AI فراہم کنندگان جیسے Open AI، Co:here، اور AI21 کے ماڈل APIs تک جامع اور یکساں رسائی فراہم کرتا ہے، بلکہ جدید ترین اوپن سورس ماڈلز تک بھی رسائی فراہم کرتا ہے۔ Mantium میں، ہم سمجھتے ہیں کہ کسی کو بھی جدید AI ایپلی کیشنز بنانے کے قابل ہونا چاہیے جو وہ اپنی ملکیت میں، اینڈ ٹو اینڈ، اور ہم کارکردگی کے لیے موزوں اوپن سورس ماڈلز تک بغیر کوڈ اور کم کوڈ تک رسائی فراہم کر کے اس کی حمایت کرتے ہیں۔

مثال کے طور پر، Mantium کے بنیادی اوپن سورس ماڈلز میں سے ایک ہے۔ GPT-J، ایک جدید ترین قدرتی زبان پروسیسنگ (NLP) ماڈل کی طرف سے تیار کیا گیا ہے۔ ایلیوتھر اے آئی. 6 بلین پیرامیٹرز کے ساتھ، GPT-J سب سے بڑے اور بہترین کارکردگی کا مظاہرہ کرنے والے اوپن سورس ٹیکسٹ جنریشن ماڈلز میں سے ایک ہے۔ Mantium کے صارفین GPT-J کو Mantium کے AI بلڈر کے ذریعے اپنی AI ایپلی کیشنز میں ضم کر سکتے ہیں۔ GPT-J کے معاملے میں، اس میں a کی وضاحت کرنا شامل ہے۔ پرامپٹ (ماڈل کو کیا کرنا چاہئے اس کی قدرتی زبان کی نمائندگی) اور کچھ اختیاری پیرامیٹرز کو ترتیب دینا۔

مثال کے طور پر، مندرجہ ذیل اسکرین شاٹ جذباتی تجزیہ پرامپٹ کا مختصر مظاہرہ دکھاتا ہے جو وضاحتیں اور جذبات کی پیشین گوئیاں پیدا کرتا ہے۔ اس مثال میں، مصنف نے لکھا کہ "کھانا شاندار تھا" اور یہ کہ ان کی "خدمت غیر معمولی تھی۔" اس لیے یہ عبارت مثبت جذبات کا اظہار کرتی ہے۔

تاہم، اوپن سورس ماڈلز کے ساتھ ایک چیلنج یہ ہے کہ وہ شاذ و نادر ہی پروڈکشن گریڈ کی کارکردگی کے لیے ڈیزائن کیے گئے ہیں۔ GPT-J جیسے بڑے ماڈلز کے معاملے میں، یہ استعمال کے معاملے پر منحصر، پیداوار کی تعیناتی کو ناقابل عمل اور ناقابل عمل بھی بنا سکتا ہے۔

اس بات کو یقینی بنانے کے لیے کہ ہمارے صارفین کو بہترین درجے کی کارکردگی تک رسائی حاصل ہے، ہم ہمیشہ اپنے بنیادی ماڈلز کی تاخیر کو کم کرنے کے طریقے تلاش کرتے رہتے ہیں۔ اس پوسٹ میں، ہم انفرنس آپٹیمائزیشن کے تجربے کے نتائج کو بیان کرتے ہیں جس میں ہم ڈیپ اسپیڈ کے انفرنس انجن کا استعمال کرتے ہوئے GPT-J کی انفرنس اسپیڈ کو تقریباً 116% بڑھاتے ہیں۔ ہم یہ بھی بیان کرتے ہیں کہ کس طرح ہم نے اپنی ڈیپ اسپیڈ کے ساتھ GPT-J کے Hugging Face Transformers کو لاگو کیا ہے۔ ایمیزون سیج میکر قیاس کے اختتامی نکات

GPT-J ماڈل کا جائزہ

GPT-J ایک جنریٹو پری ٹرینڈ (GPT) لینگویج ماڈل ہے اور، اس کے فن تعمیر کے لحاظ سے، یہ مقبول، نجی، بڑے زبان کے ماڈلز جیسے Open AI کے GPT-3 سے موازنہ ہے۔ جیسا کہ پہلے ذکر کیا گیا ہے، یہ تقریباً 6 بلین پیرامیٹرز اور 28 تہوں پر مشتمل ہے، جو کہ فیڈ فارورڈ بلاک اور خود توجہ دینے والے بلاک پر مشتمل ہے۔ جب اسے پہلی بار جاری کیا گیا تھا، GPT-J استعمال کرنے والے پہلے بڑے زبان کے ماڈلز میں سے ایک تھا۔ روٹری سرایت، ایک نئی پوزیشن انکوڈنگ حکمت عملی جو مطلق اور رشتہ دار پوزیشن انکوڈرز کو متحد کرتی ہے۔ یہ ایک جدید متوازی حکمت عملی کو بھی استعمال کرتا ہے جہاں گھنے اور فیڈ فارورڈ تہوں کو ایک ہی پرت میں ملایا جاتا ہے، جو مواصلات کو کم سے کم کرتا ہے۔

اگرچہ GPT-J آج کے معیارات کے لحاظ سے کافی حد تک اہل نہیں ہوسکتا ہے — بڑے ماڈلز عام طور پر 100 بلین سے زیادہ پیرامیٹرز پر مشتمل ہوتے ہیں — یہ اب بھی متاثر کن کارکردگی کا مظاہرہ کرتا ہے، اور کچھ فوری انجینئرنگ یا کم سے کم فائن ٹیوننگ کے ساتھ، آپ اسے بہت سے مسائل کو حل کرنے کے لیے استعمال کر سکتے ہیں۔ مزید برآں، اس کے نسبتاً معمولی سائز کا مطلب ہے کہ آپ اسے زیادہ تیزی سے اور بڑے ماڈلز کے مقابلے بہت کم قیمت پر تعینات کر سکتے ہیں۔

اس نے کہا، GPT-J اب بھی کافی بڑا ہے۔ مثال کے طور پر، پورے وزن کی تازہ کاریوں کے ساتھ FP32 میں GPT-J کو تربیت دینے کے لیے اور ایڈم آپٹیمائزر کو 200 GB سے زیادہ میموری کی ضرورت ہوتی ہے: ماڈل پیرامیٹرز کے لیے 24 GB، گریڈیئنٹس کے لیے 24 GB، ایڈم کے مربع گراڈینٹ کے لیے 24 GB، آپٹیمائزر ریاستوں کے لیے 24 GB، اور تربیتی بیچوں کو لوڈ کرنے اور ایکٹیویشن کو ذخیرہ کرنے کے لیے اضافی میموری کی ضروریات۔ بلاشبہ، FP16 میں تربیت ان میموری کی ضروریات کو تقریباً نصف تک کم کر دیتی ہے، لیکن 100 GB سے زیادہ میموری کے نقشے کے لیے اب بھی جدید تربیتی حکمت عملیوں کی ضرورت ہے۔ مثال کے طور پر، SageMaker کے ساتھ مل کر، Mantium کی NLP ٹیم نے a کام کا بہاؤ سیج میکر کی تقسیم شدہ ماڈل متوازی لائبریری کا استعمال کرتے ہوئے تربیت (فائن ٹیوننگ) کے لیے GPT-J۔

اس کے برعکس، GPT-J کو تخمینہ کے لیے پیش کرنے میں میموری کی بہت کم ضرورت ہوتی ہے — FP16 میں، ماڈل کا وزن 13 GB سے کم ہوتا ہے، جس کا مطلب ہے کہ ایک 16 GB GPU پر آسانی سے اندازہ لگایا جا سکتا ہے۔ تاہم، GPT-J کے آؤٹ آف دی باکس نفاذ کے ساتھ اندازہ، جیسے ہیگنگ فیس ٹرانسفارمرز نفاذ جو ہم استعمال کرتے ہیں، نسبتاً سست ہے۔ استعمال کے ایسے معاملات کو سپورٹ کرنے کے لیے جن کے لیے انتہائی جوابی ٹیکسٹ جنریشن کی ضرورت ہوتی ہے، ہم نے GPT-J کے انفرنس لیٹنسی کو کم کرنے پر توجہ مرکوز کی ہے۔

GPT-J کے جوابی تاخیر کے چیلنجز

جوابی تاخیر جنریٹیو پری ٹرینڈ ٹرانسفارمرز (GPTs) جیسے GPT-J کے لیے ایک بنیادی رکاوٹ ہے جو جدید ٹیکسٹ جنریشن کو طاقت دیتی ہے۔ GPT ماڈل تخمینہ کے مراحل کی ترتیب کے ذریعے متن تیار کرتے ہیں۔ ہر تخمینے کے مرحلے پر، ماڈل کو متن ان پٹ کے طور پر دیا جاتا ہے، اور، اس ان پٹ پر مشروط، یہ متن میں شامل کرنے کے لیے اس کی ذخیرہ الفاظ سے ایک لفظ کا نمونہ لیتا ہے۔ مثال کے طور پر، ٹوکن کی ترتیب کو دیکھتے ہوئے "مجھے چھتری کی ضرورت ہے کیونکہ یہ ہے"، اگلا ٹوکن "بارش" کا زیادہ امکان ہو سکتا ہے۔ تاہم، یہ "دھوپ" یا "باؤنڈ" بھی ہو سکتا ہے جو کہ متن کی ترتیب کی طرف پہلا قدم ہو سکتا ہے جیسے کہ "مجھے چھتری کی ضرورت ہے کیونکہ بارش شروع ہونے والی ہے۔"

اس طرح کے منظرنامے GPT ماڈلز کی تعیناتی کے لیے کچھ دلچسپ چیلنجز پیدا کرتے ہیں کیونکہ حقیقی دنیا کے استعمال کے معاملات میں دسیوں، سینکڑوں، یا یہاں تک کہ ہزاروں قیاس کے مراحل شامل ہو سکتے ہیں۔ مثال کے طور پر، 1,000 ٹوکن جواب تیار کرنے کے لیے 1,000 تخمینہ کے مراحل کی ضرورت ہوتی ہے! اس کے مطابق، اگرچہ ایک ماڈل قیاس کی رفتار پیش کر سکتا ہے جو تنہائی میں کافی تیز معلوم ہوتی ہے، لیکن جب لمبی تحریریں تیار کی جاتی ہیں تو تاخیر کے لیے ناقابل برداشت سطح تک پہنچنا آسان ہے۔ ہم نے V280 GPU پر 100 ملی سیکنڈ فی تخمینہ قدم کی اوسط تاخیر کا مشاہدہ کیا۔ یہ 6.7 بلین پیرامیٹر ماڈل کے لیے تیز لگ سکتا ہے، لیکن اس طرح کی تاخیر کے ساتھ، 30 ٹوکن ردعمل پیدا کرنے میں تقریباً 500 سیکنڈ لگتے ہیں، جو صارف کے تجربے کے نقطہ نظر سے مثالی نہیں ہے۔

ڈیپ اسپیڈ انفرنس کے ساتھ قیاس کی رفتار کو بہتر بنانا

ڈیپ اسپیڈ ایک اوپن سورس ڈیپ لرننگ آپٹیمائزیشن لائبریری ہے جسے Microsoft نے تیار کیا ہے۔ اگرچہ یہ بنیادی طور پر بڑے ماڈلز کی تربیت کو بہتر بنانے پر توجہ مرکوز کرتا ہے، ڈیپ اسپیڈ ایک انفرنس آپٹیمائزیشن فریم ورک بھی فراہم کرتا ہے جو ماڈلز کے منتخب سیٹ کو سپورٹ کرتا ہے، بشمول BERT، Megatron، GPT-Neo، GPT2، اور GPT-J۔ ڈیپ اسپیڈ انفرنس بڑے ٹرانسفارمر پر مبنی آرکیٹیکچرز کے ساتھ ماڈل کی ہم آہنگی، قیاس کے مطابق CUDA کرنل، اور کوانٹائزیشن کے امتزاج کے ذریعے اعلی کارکردگی کے تخمینے کی سہولت فراہم کرتا ہے۔

GPT-J کے ساتھ انفرنس اسپیڈ کو بڑھانے کے لیے، ہم ڈیپ اسپیڈ کے انفرنس انجن کا استعمال کرتے ہیں تاکہ آپٹمائزڈ CUDA کرنل کو Hugging Face Transformers GPT-J کے نفاذ میں داخل کریں۔

ڈیپ اسپیڈ کے انفرنس انجن کے رفتار کے فوائد کا جائزہ لینے کے لیے، ہم نے لیٹنسی ٹیسٹوں کی ایک سیریز کا انعقاد کیا جس میں ہم نے مختلف کنفیگریشنز کے تحت GPT-J کا وقت طے کیا۔ خاص طور پر، ہم ڈیپ اسپیڈ کے استعمال ہونے یا نہیں، ہارڈ ویئر، آؤٹ پٹ سیکوینس کی لمبائی، اور ان پٹ تسلسل کی لمبائی میں مختلف تھے۔ ہم نے آؤٹ پٹ اور ان پٹ کی ترتیب کی لمبائی دونوں پر توجہ مرکوز کی، کیونکہ یہ دونوں قیاس کی رفتار کو متاثر کرتے ہیں۔ 50 ٹوکنز کا آؤٹ پٹ سیکوئنس بنانے کے لیے، ماڈل کو 50 انفرنس کے مراحل کو انجام دینا ہوگا۔ مزید برآں، اندازہ لگانے کے لیے درکار وقت کا انحصار ان پٹ کی ترتیب کے سائز پر ہوتا ہے — بڑے ان پٹس کو زیادہ پروسیسنگ وقت درکار ہوتا ہے۔ اگرچہ آؤٹ پٹ سیکوینس سائز کا اثر ان پٹ سیکوینس سائز کے اثر سے بہت بڑا ہے، پھر بھی دونوں عوامل کا حساب لگانا ضروری ہے۔

ہمارے تجربے میں، ہم نے مندرجہ ذیل ڈیزائن کا استعمال کیا:

ڈیپ اسپیڈ انفرنس انجن - کبھی کبھی
ہارڈ ویئر - T4 (ml.g4dn.2xlarge)، V100 (ml.p3.2xlarge)
ان پٹ تسلسل کی لمبائی - 50 ، 200 ، 500 ، 1000۔
آؤٹ پٹ تسلسل کی لمبائی - 50 ، 100 ، 150 ، 200۔

مجموعی طور پر، اس ڈیزائن میں ان چار عوامل کے 64 مجموعے ہیں، اور ہر ایک کے لیے، ہم نے 20 لیٹنسی ٹیسٹ چلائے ہیں۔ ہر ٹیسٹ پہلے سے شروع کردہ SageMaker انفرنس اینڈ پوائنٹ پر چلایا گیا تھا، اس بات کو یقینی بناتے ہوئے کہ ہمارے لیٹنسی ٹیسٹ پیداوار کے اوقات کی عکاسی کرتے ہیں، بشمول API ایکسچینجز اور پری پروسیسنگ۔

ہمارے ٹیسٹ یہ ظاہر کرتے ہیں کہ DeepSpeed کا GPT-J انفرنس انجن بیس لائن Hugging Face Transformers PyTorch کے نفاذ سے کافی تیز ہے۔ مندرجہ ذیل اعداد و شمار ml.g4dn.2xlarge اور ml.p3.2xlarge SageMaker انفرنس اینڈ پوائنٹس پر ڈیپ اسپیڈ ایکسلریشن کے ساتھ اور اس کے بغیر GPT-J کے لیے اوسط ٹیکسٹ جنریشن لیٹینسیز کو واضح کرتا ہے۔

ml.g4dn.2xlarge مثال پر، جو کہ 16 GB NVIDIA T4 GPU سے لیس ہے، ہم نے تقریباً 24% [معیاری انحراف (SD) = 0.05] کی اوسط تاخیر میں کمی دیکھی۔ یہ اوسط 12.5 (SD = 0.91) ٹوکن فی سیکنڈ سے اوسط 16.5 (SD = 2.13) ٹوکن فی سیکنڈ تک بڑھنے کے مساوی ہے۔ خاص طور پر، DeepSpeed کا ایکسلریشن اثر ml.p3.2xlarge مثال پر اور بھی مضبوط تھا، جو NVIDIA V100 GPU سے لیس ہے۔ اس ہارڈ ویئر پر، ہم نے 53% (SD = .07) یعنی تاخیر میں کمی کا مشاہدہ کیا۔ ٹوکن فی سیکنڈ کے لحاظ سے، یہ اوسط 21.9 (SD = 1.97) ٹوکن فی سیکنڈ سے اوسط 47.5 (SD = 5.8) ٹوکن فی سیکنڈ کے اضافے کے مساوی ہے۔

ہم نے یہ بھی مشاہدہ کیا کہ ڈیپ اسپیڈ کی طرف سے پیش کردہ ایکسلریشن دونوں ہارڈویئر کنفیگریشنز پر قدرے کم ہوئی کیونکہ ان پٹ سیکوینسز کے سائز میں اضافہ ہوا۔ تاہم، تمام حالات میں، ڈیپ اسپیڈ کی GPT-J آپٹیمائزیشنز کا اندازہ اب بھی بنیادی لائن سے کافی تیز تھا۔ مثال کے طور پر، g4dn مثال کے طور پر، زیادہ سے زیادہ اور کم از کم تاخیر میں کمی بالترتیب 31% (ان پٹ ترتیب سائز = 50) اور 15% (ان پٹ ترتیب سائز = 1000) تھی۔ اور p3 مثال پر، زیادہ سے زیادہ اور کم از کم تاخیر میں کمی بالترتیب 62% (ان پٹ ترتیب سائز = 50) اور 40% (ان پٹ ترتیب سائز = 1000) تھی۔

سیج میکر انفرنس اینڈ پوائنٹ پر ڈیپ اسپیڈ کے ساتھ GPT-J تعینات کرنا

GPT-J کے لیے ڈرامائی طور پر ٹیکسٹ جنریشن کی رفتار بڑھانے کے علاوہ، ڈیپ اسپیڈ کا انفرنس انجن سیج میکر انفرنس اینڈ پوائنٹ میں ضم کرنا آسان ہے۔ ڈیپ اسپیڈ کو ہمارے انفرنس اسٹیک میں شامل کرنے سے پہلے، ہمارے اینڈ پوائنٹس ایک آفیشل PyTorch امیج پر مبنی اپنی مرضی کے مطابق ڈوکر امیج پر چل رہے تھے۔ سیج میکر حسب ضرورت انفرنس اینڈ پوائنٹس کو تعینات کرنا بہت آسان بناتا ہے، اور ڈیپ اسپیڈ کو انٹیگریٹ کرنا اتنا ہی آسان تھا جتنا کہ انحصار کو شامل کرنا اور کوڈ کی چند لائنیں لکھنا۔ ڈیپ اسپیڈ کے ساتھ GPT-J کو تعینات کرنے کے لیے تعیناتی ورک فلو کے لیے اوپن سورس گائیڈ پر دستیاب ہے۔ GitHub کے.

نتیجہ

مینٹیم معروف جدت طرازی کے لیے وقف ہے تاکہ ہر کوئی AI کے ساتھ تیزی سے تعمیر کر سکے۔ AI سے چلنے والے عمل آٹومیشن سے لے کر سخت حفاظت اور تعمیل کی ترتیبات تک، ہمارا مکمل پلیٹ فارم مضبوط، ذمہ دار AI ایپلی کیشنز کو بڑے پیمانے پر تیار کرنے اور ان کا انتظام کرنے کے لیے تمام ضروری ٹولز فراہم کرتا ہے اور داخلے میں رکاوٹ کو کم کرتا ہے۔ سیج میکر مینٹیم جیسی کمپنیوں کو تیزی سے مارکیٹ میں آنے میں مدد کرتا ہے۔

یہ جاننے کے لیے کہ Mantium آپ کی تنظیم کے لیے پیچیدہ AI سے چلنے والے ورک فلو بنانے میں کس طرح مدد کر سکتا ہے، ملاحظہ کریں۔ www.mantiumai.com.

مصنفین کے بارے میں

جو ہوور مینٹیم کی AI R&D ٹیم میں ایک سینئر اپلائیڈ سائنٹسٹ ہے۔ وہ ایسے ماڈلز، طریقوں اور بنیادی ڈھانچے کو تیار کرنے کے بارے میں پرجوش ہیں جو جدید ترین NLP سسٹمز کے ساتھ حقیقی دنیا کے مسائل حل کرنے میں لوگوں کی مدد کرتے ہیں۔ اپنے فارغ وقت میں، وہ بیک پیکنگ، باغبانی، کھانا پکانے اور اپنے خاندان کے ساتھ گھومنے پھرنے سے لطف اندوز ہوتا ہے۔

دھول پٹیل AWS میں پرنسپل مشین لرننگ آرکیٹیکٹ ہے۔ انہوں نے تقسیم شدہ کمپیوٹنگ اور مصنوعی ذہانت سے متعلق مسائل پر بڑے اداروں سے لے کر درمیانے درجے کے اسٹارٹ اپس تک کی تنظیموں کے ساتھ کام کیا ہے۔ وہ NLP اور کمپیوٹر ویژن ڈومینز سمیت گہری سیکھنے پر توجہ مرکوز کرتا ہے۔ وہ صارفین کو SageMaker پر اعلیٰ کارکردگی کے ماڈل کا اندازہ حاصل کرنے میں مدد کرتا ہے۔

سنیل پدمنابھن AWS میں ایک سٹارٹ اپ سولیوشن آرکیٹیکٹ ہے۔ ایک سابق اسٹارٹ اپ بانی اور CTO کے طور پر، وہ مشین لرننگ کے بارے میں پرجوش ہیں اور سٹارٹ اپس کو ان کے کاروباری نتائج کے لیے AI/ML سے فائدہ اٹھانے میں مدد کرنے پر توجہ مرکوز کرتے ہیں اور ML/AI سلوشنز کو پیمانے پر ڈیزائن اور تعینات کرتے ہیں۔

ٹائم اسٹیمپ: جون 15، 2022

ٹائم اسٹیمپ: اکتوبر 19، 2022

ایمیزون سیج میکر پر ڈیپ اسپیڈ کے ساتھ مینٹیم نے کم تاخیر والے GPT-J کا اندازہ کیسے حاصل کیا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

GPT-J ماڈل کا جائزہ

GPT-J کے جوابی تاخیر کے چیلنجز

ڈیپ اسپیڈ انفرنس کے ساتھ قیاس کی رفتار کو بہتر بنانا

سیج میکر انفرنس اینڈ پوائنٹ پر ڈیپ اسپیڈ کے ساتھ GPT-J تعینات کرنا

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

ایمیزون ریکگنیشن کے ساتھ مالویئر کا پتہ لگانا اور درجہ بندی

ٹیسٹ ورک بینچ کے ساتھ ایمیزون لیکس چیٹ بوٹ ڈویلپمنٹ لائف سائیکل کو تیز کریں۔ ایمیزون ویب سروسز

پہننے کے قابل آلات سے ڈیٹا کا استعمال کرتے ہوئے قریب قریب حقیقی وقت میں کارڈیک بے ضابطگی کا پتہ لگانے کے لیے AWS کلاؤڈ ٹیکنالوجی

Amazon SageMaker JumpStart سلوشنز کے ساتھ نائٹروجن کے لیے مکئی کے ردعمل کا جوابی تجزیہ تیار کریں۔

Abode اپنے سمارٹ ہوم صارفین کو ریئل ٹائم اطلاعات فراہم کرنے کے لیے Amazon Recognition سٹریمنگ ویڈیو ایونٹس کا استعمال کرتا ہے۔

ایمیزون پرسنلائز سفارشات کے کاروباری اثرات کی پیمائش کریں۔

ایمیزون سیج میکر پر سیریل انفرنس کے لیے ڈیزائن پیٹرن

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ