NLP اور CV PyTorch ماڈلز کے لیے Amazon EC2 G5 انسٹینسز کے ساتھ تین گنا کم لاگت فی انفرنس پر چار گنا زیادہ ML انفرنس تھرو پٹ حاصل کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون ای سی 2) G5 مثالیں کلاؤڈ میں NVIDIA A10G Tensor Core GPUs کو نمایاں کرنے والی پہلی اور واحد مثالیں ہیں، جنہیں آپ گرافکس-انٹینسیو اور مشین لرننگ (ML) کے استعمال کے کیسز کی ایک وسیع رینج کے لیے استعمال کر سکتے ہیں۔ G5 مثالوں کے ساتھ، ML صارفین کو قدرتی لینگویج پروسیسنگ (NLP)، کمپیوٹر وژن (CV)، اور تجویز کنندہ انجن کے استعمال کے کیسز کے لیے بڑے اور زیادہ نفیس ماڈلز کی تربیت اور تعینات کرنے کے لیے اعلیٰ کارکردگی اور لاگت سے موثر انفراسٹرکچر ملتا ہے۔

اس پوسٹ کا مقصد بڑے پیمانے پر ML انفرنس ورک بوجھ کے لیے G5 مثالوں کے کارکردگی کے فوائد کو ظاہر کرنا ہے۔ ہم NLP اور CV ماڈلز کے لیے G4dn مثالوں کے ساتھ قیمت کی کارکردگی کا موازنہ کرتے ہوئے کرتے ہیں۔ ہم اپنے بینچ مارکنگ اپروچ کو بیان کرتے ہوئے شروع کرتے ہیں اور پھر بیچ سائز اور ڈیٹا کی قسم کی درستگی میں تھرو پٹ بمقابلہ لیٹنسی منحنی خطوط پیش کرتے ہیں۔ G4dn مثالوں کے مقابلے میں، ہمیں معلوم ہوتا ہے کہ G5 مثالیں NLP اور CV ماڈلز کے لیے مکمل درستگی اور مخلوط درستگی کے طریقوں دونوں کے لیے مسلسل کم لاگت فی ملین تخمینہ فراہم کرتی ہیں جبکہ اعلی تھرو پٹ اور کم تاخیر کو حاصل کرتی ہیں۔

بینچ مارکنگ کا طریقہ

G5 اور G4dn کے درمیان قیمت کی کارکردگی کا مطالعہ تیار کرنے کے لیے، ہمیں بیچ سائز کے فنکشن کے طور پر تھرو پٹ، تاخیر، اور لاگت فی ملین انفرنسز کی پیمائش کرنے کی ضرورت ہے۔ ہم مکمل درستگی بمقابلہ مخلوط درستگی کے اثرات کا بھی مطالعہ کرتے ہیں۔ اندازہ لگانے سے پہلے ماڈل گراف اور ان پٹ دونوں کو CUDA میں لوڈ کیا جاتا ہے۔

جیسا کہ درج ذیل آرکیٹیکچر ڈایاگرام میں دکھایا گیا ہے، ہم پہلے CUDA کے ساتھ بنیادی EC2 مثال (G4dn, G5) کے لیے متعلقہ بیس کنٹینر کی تصاویر بناتے ہیں۔ بیس کنٹینر کی تصاویر بنانے کے لیے، ہم شروع کرتے ہیں۔ AWS ڈیپ لرننگ کنٹینرز، جو منٹوں میں گہرے سیکھنے کے ماحول کو تعینات کرنے کے لیے پہلے سے پیک شدہ Docker امیجز کا استعمال کرتی ہے۔ تصاویر میں مطلوبہ گہری سیکھنے والی PyTorch لائبریریاں اور ٹولز شامل ہیں۔ نگرانی، تعمیل اور ڈیٹا پروسیسنگ پر اعلیٰ درجے کے کنٹرول کے لیے آپ ان تصاویر کے اوپر اپنی لائبریری اور ٹولز شامل کر سکتے ہیں۔

اس کے بعد ہم ایک ماڈل کے لیے مخصوص کنٹینر امیج بناتے ہیں جو ماڈل کنفیگریشن، ماڈل ٹریسنگ، اور متعلقہ کوڈ کو آگے بڑھانے کے لیے شامل کرتا ہے۔ تمام کنٹینر امیجز پر بھری ہوئی ہیں۔ ایمیزون ای سی آر مختلف ماڈل کنفیگریشنز کے لیے ان ماڈلز کی افقی اسکیلنگ کی اجازت دینے کے لیے۔ ہم استعمال کرتے ہیں ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) کنفیگریشن ڈاؤن لوڈ کرنے اور خلاصہ کے لیے بینچ مارک کے نتائج اپ لوڈ کرنے کے لیے ایک عام ڈیٹا اسٹور کے طور پر۔ آپ اس فن تعمیر کو بینچ مارک کے نتائج کو دوبارہ بنانے اور دوبارہ تیار کرنے کے لیے استعمال کر سکتے ہیں اور EC2 مثال کی اقسام (CPU، GPU، Inf1) میں مختلف ماڈل اقسام (جیسے ہیگنگ فیس ماڈلز، PyTorch ماڈلز، دیگر حسب ضرورت ماڈلز) کو بینچ مارک کرنے کے لیے دوبارہ استعمال کر سکتے ہیں۔

اس تجربے کو ترتیب دینے کے ساتھ، ہمارا مقصد تھروپوٹ کے ایک فنکشن کے طور پر تاخیر کا مطالعہ کرنا ہے۔ یہ وکر ایپلی کیشن ڈیزائن کے لیے اہم ہے تاکہ ہدف کی ایپلی کیشن کے لیے لاگت کے بہترین انفراسٹرکچر تک پہنچ سکے۔ اس کو حاصل کرنے کے لیے، ہم متعدد دھاگوں سے سوالات کو قطار میں لگا کر اور پھر ہر مکمل شدہ درخواست کے لیے راؤنڈ ٹرپ کے وقت کی پیمائش کر کے مختلف بوجھ کی نقل کرتے ہیں۔ تھرو پٹ کی پیمائش فی یونٹ کلاک ٹائم مکمل شدہ درخواستوں کی تعداد کی بنیاد پر کی جاتی ہے۔ مزید برآں، آپ بیچ کے سائز اور دیگر متغیرات جیسے ترتیب کی لمبائی اور مکمل درستگی بمقابلہ نصف درستگی کو مختلف کر سکتے ہیں تاکہ اشارے کی کارکردگی کے میٹرکس تک پہنچنے کے لیے ڈیزائن کی جگہ کو مکمل طور پر صاف کیا جا سکے۔ ہمارے مطالعے میں، بیچ کے سائز کے پیرامیٹرک سویپ اور ملٹی تھریڈڈ کلائنٹس کے سوالات کے ذریعے، تھرو پٹ بمقابلہ لیٹنسی وکر کا تعین کیا جاتا ہے۔ ایکسلریٹر کے مکمل استعمال کو یقینی بنانے کے لیے ہر درخواست کو بیچ کیا جا سکتا ہے، خاص طور پر چھوٹی درخواستوں کے لیے جو کمپیوٹ نوڈ کو مکمل طور پر استعمال نہیں کر سکتیں۔ آپ بہترین کارکردگی کے لیے کلائنٹ سائیڈ بیچ سائز کی شناخت کے لیے اس سیٹ اپ کو بھی اپنا سکتے ہیں۔

خلاصہ طور پر، ہم اس مسئلے کو ریاضی کے طور پر اس طرح پیش کر سکتے ہیں: (تھرو پٹ، لیٹنسی) = فنکشن کا (بیچ سائز، دھاگوں کی تعداد، درستگی)۔

اس کا مطلب ہے، مکمل جگہ کو دیکھتے ہوئے، تجربات کی تعداد زیادہ ہو سکتی ہے۔ خوش قسمتی سے، ہر تجربہ آزادانہ طور پر چلایا جا سکتا ہے۔ ہم استعمال کرنے کی سفارش کرتے ہیں۔ AWS بیچ جانچ کے لیے لکیری نقطہ نظر کے مقابلے میں بینچ مارکنگ لاگت میں اضافہ کیے بغیر کمپریسڈ وقت میں اس افقی پیمانے پر بینچ مارکنگ کو انجام دینے کے لیے۔ نتائج کو نقل کرنے کا کوڈ میں موجود ہے۔ GitHub ذخیرہ AWS Re:Invent 2021 کے لیے تیار۔ یہ ذخیرہ مختلف ایکسلریٹروں پر بینچ مارکنگ کرنے کے لیے جامع ہے۔ آپ کنٹینر بنانے کے لیے کوڈ کے GPU پہلو کا حوالہ دے سکتے ہیں (Dockerfile-gpu) اور پھر اندر کا کوڈ دیکھیں Container-Root BERT اور ResNet50 کے لیے مخصوص مثالوں کے لیے۔

ہم نے دو ماڈل اقسام میں پرفارمنس اسٹڈیز تیار کرنے کے لیے سابقہ نقطہ نظر کا استعمال کیا: Bert-base-uncased (110 ملین پیرامیٹرز، NLP) اور ResNet50 (25.6 ملین پیرامیٹرز، CV)۔ مندرجہ ذیل جدول ماڈل کی تفصیلات کا خلاصہ کرتا ہے۔

ماڈل کی قسم	ماڈل	تفصیلات دیکھیں
ینیلپی	twmkn9/bert-base-uncased-squad2	110 ملین پیرامیٹرز تسلسل کی لمبائی = 128
CV	ResNet50	25.6 ملین پیرامیٹرز

مزید برآں، ڈیٹا کی اقسام (مکمل، نصف درستگی) میں بینچ مارک کے لیے ہم استعمال کرتے ہیں۔ torch.cuda.amp، جو مخلوط صحت سے نمٹنے کے لیے آسان طریقے فراہم کرتا ہے جہاں کچھ آپریشنز استعمال کرتے ہیں۔ torch.float32 (فلوٹ) ڈیٹا کی قسم اور دیگر آپریشنز کا استعمال torch.float16 (نصف). مثال کے طور پر، آپریٹرز جیسے لکیری پرتیں اور convolutions float16 کے ساتھ بہت تیز ہیں، جب کہ دیگر کمی جیسے کہ اکثر float32 کی متحرک حد کی ضرورت ہوتی ہے۔ نیٹ ورک کے رن ٹائم اور میموری فوٹ پرنٹ کو بہتر بنانے کے لیے خودکار مخلوط درستگی ہر آپریٹر کو اس کے مناسب ڈیٹا کی قسم سے ملانے کی کوشش کرتی ہے۔

بینچ مارکنگ کے نتائج

منصفانہ موازنہ کے لیے، ہم نے منتخب کیا۔ G4dn.4xlarge اور G5.4x بڑا اسی طرح کی خصوصیات کے ساتھ مثالیں، جیسا کہ درج ذیل جدول میں درج ہے۔

مثال	GPUs	GPU میموری (GiB)	vCPUs	میموری (GiB)	مثال کا ذخیرہ (GB)	نیٹ ورک کی کارکردگی (Gbps)	EBS بینڈوتھ (Gbps)	لینکس آن ڈیمانڈ پرائسنگ (US-east-1)
G5.4x بڑا	1	24	16	64	1x 600 NVMe SSD	اپ 25 پر	8	$ 1.204 / گھنٹے
G4dn.4xlarge	1	16	16	64	1x 225 NVMe SSD	اپ 25 پر	4.75	$ 1.624 / گھنٹے

مندرجہ ذیل حصوں میں، ہم BERT اور RESNET50 ماڈلز کی ML inference کارکردگی کا موازنہ مخصوص بیچ سائز (32, 16, 8, 4, 1) کے لیے گرڈ سویپ اپروچ کے ساتھ کرتے ہیں اور تھرو پٹ تک پہنچنے کے لیے ڈیٹا کی قسم کی درستگی (مکمل اور نصف درستگی) بمقابلہ تاخیر کا وکر۔ مزید برآں، ہم مکمل اور نصف درستگی کے لیے تھرو پٹ بمقابلہ بیچ سائز کے اثر کی تحقیقات کرتے ہیں۔ آخر میں، ہم بیچ سائز کے فنکشن کے طور پر فی ملین لاگت کی پیمائش کرتے ہیں۔ ان تجربات کے مجموعی نتائج کا خلاصہ بعد میں اس پوسٹ میں کیا گیا ہے۔

تھرو پٹ بمقابلہ تاخیر

مندرجہ ذیل اعداد و شمار NLP اور CV کام کے بوجھ کے لیے G4dn اور G5 مثالوں کا مکمل اور نصف درستگی پر موازنہ کرتے ہیں۔ G4dn مثالوں کے مقابلے میں، G5 مثال BERT بیس ماڈل کے لیے تقریباً پانچ گنا زیادہ (مکمل درستگی) اور تقریباً 2.5 گنا زیادہ (نصف درستگی) کا تھرو پٹ فراہم کرتا ہے، اور ResNet2 ماڈل کے لیے تقریباً 2.5-50 گنا زیادہ۔ مجموعی طور پر، G5 ایک ترجیحی انتخاب ہے، جس میں کارکردگی کے نقطہ نظر سے مکمل اور مخلوط درستگی کے لیے دونوں ماڈلز کے بیچ سائز میں اضافہ ہوتا ہے۔

درج ذیل گراف BERT کے لیے مکمل اور نصف درستگی پر تھرو پٹ اور P95 لیٹنسی کا موازنہ کرتے ہیں۔

NLP اور CV PyTorch ماڈلز PlatoBlockchain Data Intelligence کے لیے Amazon EC2 G5 مثالوں کے ساتھ تین گنا کم لاگت پر چار گنا زیادہ ML انفرنس تھرو پٹ حاصل کریں۔ عمودی تلاش۔ عی

مندرجہ ذیل گراف ResNet95 کے لیے مکمل اور نصف درستگی پر تھرو پٹ اور P50 لیٹنسی کا موازنہ کرتے ہیں۔

تھرو پٹ اور لیٹنسی بمقابلہ بیچ سائز

مندرجہ ذیل گراف بیچ سائز کے فنکشن کے طور پر تھرو پٹ کو دکھاتے ہیں۔ کم بیچ سائز پر، ایکسلریٹر اپنی پوری صلاحیت کے مطابق کام نہیں کر رہا ہے اور جیسے جیسے بیچ کا سائز بڑھتا ہے، تاخیر کی قیمت پر تھرو پٹ میں اضافہ ہوتا ہے۔ تھرو پٹ منحنی خطوط کو زیادہ سے زیادہ قدر تک پہنچاتا ہے جو ایکسلریٹر کی کارکردگی کا ایک فنکشن ہے۔ وکر کی دو الگ خصوصیات ہیں: ایک ابھرتا ہوا سیکشن اور ایک فلیٹ اسیمپٹوٹک سیکشن۔ ایک دیے گئے ماڈل کے لیے، ایک پرفارمنٹ ایکسلریٹر (G5) بڑھتے ہوئے حصے کو G4dn سے زیادہ بیچ سائز تک پھیلانے کے قابل ہے اور ایک اعلی تھرو پٹ پر ایسمپوٹوٹ۔ نیز، تاخیر اور بیچ کے سائز کے درمیان ایک لکیری تجارت ہے۔ اس لیے، اگر ایپلیکیشن تاخیر کا پابند ہے، تو ہم بہترین بیچ سائز کا تعین کرنے کے لیے P95 لیٹنسی بمقابلہ بیچ سائز استعمال کر سکتے ہیں۔ تاہم، اگر مقصد سب سے کم تاخیر پر تھرو پٹ کو زیادہ سے زیادہ کرنا ہے، تو بہتر ہے کہ بڑھتے ہوئے اور اسیمپٹوٹک حصوں کے درمیان "گھٹنے" کے مساوی بیچ کا سائز منتخب کریں، کیونکہ بیچ کے سائز میں مزید اضافے کے نتیجے میں ایک ہی تھرو پٹ ہو گا۔ بدتر تاخیر. بہترین قیمت-کارکردگی کا تناسب حاصل کرنے کے لیے، سب سے کم تاخیر پر زیادہ تھرو پٹ کو ہدف بناتے ہوئے، آپ بیچ کے سائز کو بڑھانے کے بجائے متعدد انفرنس سرورز کے ذریعے اس بہترین کو افقی طور پر پیمانہ کرنے سے بہتر ہیں۔

لاگت بمقابلہ بیچ سائز

اس حصے میں، ہم بیچ سائز کے مقابلے میں تخمینہ لاگت ($ فی ملین تخمینہ) کے تقابلی نتائج پیش کرتے ہیں۔ مندرجہ ذیل اعداد و شمار سے، ہم واضح طور پر دیکھ سکتے ہیں کہ لاگت ($ فی ملین کے حساب سے ماپا جاتا ہے) G5 بمقابلہ G4dn دونوں (مکمل اور نصف درستگی) کے ساتھ مسلسل کم ہے۔

مندرجہ ذیل جدول BERT اور RESNET50 ماڈلز کے لیے تھرو پٹ، لیٹنسی، اور لاگت ($ فی ملین تخمینہ) کے موازنہ کا خلاصہ پیش کرتا ہے۔ فی مثال زیادہ لاگت کے باوجود، G5 تمام بیچ کے سائز کے لیے انفرنس لیٹینسی، تھرو پٹ، اور لاگت ($ فی ملین تخمینہ) کے تمام پہلوؤں میں مسلسل G4dn کو پیچھے چھوڑتا ہے۔ مختلف میٹرکس کو لاگت میں ملانا ($ فی ملین تخمینہ)، BERT ماڈل (32 بیچ سائز، مکمل درستگی) G5 کے ساتھ G3.7dn سے 4 گنا زیادہ سازگار ہے، اور ResNet50 ماڈل (32 بیچ سائز، مکمل درستگی) کے ساتھ، یہ 1.6 ہے۔ G4dn سے گنا زیادہ سازگار۔

ماڈل	بیچ کا سائز	صحت سے متعلق	انحصار (بیچ سائز X درخواستیں/سیکنڈ)		لطیسی (ایم ایس)		$/ملین تخمینہ (آن ڈیمانڈ)		لاگت سے فائدہ (G5 سے زیادہ G4dn)
.	.	.	G5	جی 4 ڈی این	G5	جی 4 ڈی این	G5	جی 4 ڈی این
Bert-base-uncased	32	مکمل	723	154	44	208	$0.6	$2.2	3.7X
	32	مخلوط	870	410	37	79	$0.5	$0.8	1.6X
	16	مکمل	651	158	25	102	$0.7	$2.1	3.0X
	16	مخلوط	762	376	21	43	$0.6	$0.9	1.5X
	8	مکمل	642	142	13	57	$0.7	$2.3	3.3X
	8	مخلوط	681	350	12	23	$0.7	$1.0	1.4X
.	1	مکمل	160	116	6	9	$2.8	$2.9	1.0X
.	1	مخلوط	137	102	7	10	$3.3	$3.3	1.0X
ResNet50	32	مکمل	941	397	34	82	$0.5	$0.8	1.6X
	32	مخلوط	1533	851	21	38	$0.3	$0.4	1.3X
	16	مکمل	888	384	18	42	$0.5	$0.9	1.8X
	16	مخلوط	1474	819	11	20	$0.3	$0.4	1.3X
	8	مکمل	805	340	10	24	$0.6	$1.0	1.7X
	8	مخلوط	1419	772	6	10	$0.3	$0.4	1.3X
.	1	مکمل	202	164	5	6	$2.2	$2	0.9X
.	1	مخلوط	196	180	5	6	$2.3	$1.9	0.8X

اضافی تخمینہ بینچ مارکس

پچھلے حصوں میں BERT بیس اور ResNet50 کے نتائج کے علاوہ، ہم PyTorch میں عام طور پر استعمال ہونے والے بڑے NLP اور CV ماڈلز کے لیے اضافی بینچ مارکنگ کے نتائج پیش کرتے ہیں۔ G5dn پر G4 کی کارکردگی کا فائدہ BERT بڑے ماڈلز کے لیے مختلف درستگی کے ساتھ پیش کیا گیا ہے، اور Yolo-v5 ماڈلز مختلف سائز کے لیے۔ بینچ مارک کو نقل کرنے کے کوڈ کے لیے، رجوع کریں۔ ٹینسر کور کے لیے NVIDIA گہری سیکھنے کی مثالیں۔. یہ نتائج G5dn پر G4 استعمال کرنے کے فائدے کو ظاہر کرتے ہیں کہ مختلف قسم کے ماڈلز پر محیط انفرنس کاموں کی ایک وسیع رینج کے لیے۔

ماڈل	صحت سے متعلق	بیچ کا سائز	تسلسل کی لمبائی	تھرو پٹ (بھیجا/سیکنڈ)	تھرو پٹ: G4dn	G4dn سے زیادہ اسپیڈ اپ
BERT-بڑا	FP16	1	128	93.5	40.31	2.3
BERT-بڑا	FP16	4	128	264.2	87.4	3.0
BERT-بڑا	FP16	8	128	392.1	107.5	3.6
BERT-بڑا	FP32	1	128	68.4	22.67	3.0
BERT-بڑا		4	128	118.5	32.21	3.7
BERT-بڑا		8	128	132.4	34.67	3.8

ماڈل	GFLOPS	پیرامیٹرز کی تعداد	پری پروسیسنگ (ms)	اندازہ (ایم ایس)	اندازہ (غیر زیادہ سے زیادہ دبانے) (NMS/تصویر)
YOLOv5s	16.5	7.2M	0.2	3.6	4.5
YOLOv5m	49.1	21M	0.2	6.5	4.5
YOLOv5l	109.3	46M	0.2	9.1	3.5
YOLOv5x	205.9	86M	0.2	14.4	1.3

نتیجہ

اس پوسٹ میں، ہم نے دکھایا کہ بڑے NLP اور CV PyTorch ماڈلز کے بارے میں اندازہ لگانے کے لیے، EC2 G5 مثالیں G4dn مثالوں کے مقابلے میں ایک بہتر انتخاب ہیں۔ اگرچہ G5 مثالوں کے لیے آن ڈیمانڈ فی گھنٹہ لاگت G4dn مثالوں سے زیادہ ہے، لیکن اس کی اعلیٰ کارکردگی NLP اور CV ماڈلز کے لیے کسی بھی درستگی پر 2–5 گنا تھرو پٹ حاصل کر سکتی ہے، جس سے فی ملین تخمینہ لاگت 1.5–3.5 گنا زیادہ سازگار ہوتی ہے۔ G4dn مثالیں حتیٰ کہ لیٹنسی باؤنڈ ایپلی کیشنز کے لیے بھی، G5 NLP اور CV ماڈلز کے لیے G2.5dn سے 5–4 گنا بہتر ہے۔

خلاصہ طور پر، AWS G5 مثالیں کارکردگی اور قیمت فی تخمینہ دونوں نقطہ نظر سے آپ کی تخمینہ ضروریات کے لیے ایک بہترین انتخاب ہیں۔ CUDA فریم ورک کی آفاقیت اور AWS پر G5 مثالی پول کا پیمانہ اور گہرائی آپ کو پیمانے پر اندازہ لگانے کی منفرد صلاحیت فراہم کرتی ہے۔

مصنفین کے بارے میں

انکور سریواستو ایم ایل فریم ورکس ٹیم میں ایک سینئر حل آرکیٹیکٹ ہے۔ وہ AWS پر پیمانے پر خود نظم شدہ تقسیم شدہ تربیت اور تخمینہ کے ساتھ صارفین کی مدد کرنے پر توجہ مرکوز کرتا ہے۔ اس کے تجربے میں صنعتی پیشن گوئی کی دیکھ بھال، ڈیجیٹل جڑواں بچے، امکانی ڈیزائن کی اصلاح شامل ہے اور رائس یونیورسٹی میں مکینیکل انجینئرنگ سے ڈاکٹریٹ کی تعلیم اور میساچوسٹس انسٹی ٹیوٹ آف ٹیکنالوجی سے پوسٹ ڈاکٹریٹ تحقیق مکمل کی ہے۔

سندر رنگناتھن ایمیزون EC2 ٹیم میں بزنس ڈویلپمنٹ کے سربراہ، ایم ایل فریم ورکس ہیں۔ وہ AWS سروسز جیسے Amazon EKS، Amazon ECS، Elastic Fabric Adapter، AWS Batch، اور Amazon SageMaker میں بڑے پیمانے پر ML ورک بوجھ پر توجہ مرکوز کرتا ہے۔ اس کے تجربے میں NetApp، Micron Technology، Qualcomm، اور Mentor Graphics میں پروڈکٹ مینجمنٹ اور مصنوعات کی ترقی میں قائدانہ کردار شامل ہیں۔

مہادیون بالاسوبرامنیم خود مختار کمپیوٹنگ کے لیے ایک پرنسپل سولیوشن آرکیٹیکٹ ہے جس کے پاس فزکس سے متاثر گہری سیکھنے، تعمیر کرنے، اور بڑے پیمانے پر صنعتی نظاموں کے لیے ڈیجیٹل جڑواں بچوں کی تعیناتی کے شعبے میں تقریباً 20 سال کا تجربہ ہے۔ مہادیون نے میساچوسٹس انسٹی ٹیوٹ آف ٹیکنالوجی سے مکینیکل انجینئرنگ میں پی ایچ ڈی کی ڈگری حاصل کی اور اس کے کریڈٹ پر 25 سے زیادہ پیٹنٹ اور اشاعتیں ہیں۔

NLP اور CV PyTorch ماڈلز PlatoBlockchain Data Intelligence کے لیے Amazon EC2 G5 مثالوں کے ساتھ تین گنا کم لاگت پر چار گنا زیادہ ML انفرنس تھرو پٹ حاصل کریں۔ عمودی تلاش۔ عی عمرو راغب AWS کے لیے EC2 Accelerated Platforms کے لیے ایک پرنسپل سلوشنز آرکیٹیکٹ ہے، جو صارفین کو کمپیوٹیشنل ورک بوجھ کو پیمانے پر چلانے میں مدد کرنے کے لیے وقف ہے۔ اپنے فارغ وقت میں وہ سفر کرنا اور ٹیکنالوجی کو روزمرہ کی زندگی میں ضم کرنے کے نئے طریقے تلاش کرنا پسند کرتا ہے۔

ٹائم اسٹیمپ: اکتوبر 3، 2022اکتوبر 6، 2022

ٹائم اسٹیمپ: جون 27، 2023

NLP اور CV PyTorch ماڈلز کے لیے Amazon EC2 G5 مثالوں کے ساتھ تین گنا کم قیمت پر چار گنا زیادہ ML انفرنس تھرو پٹ حاصل کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

بینچ مارکنگ کا طریقہ

بینچ مارکنگ کے نتائج

تھرو پٹ بمقابلہ تاخیر

تھرو پٹ اور لیٹنسی بمقابلہ بیچ سائز

لاگت بمقابلہ بیچ سائز

اضافی تخمینہ بینچ مارکس

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

شناخت کی توثیق کے حل کا جائزہ لینے کے لیے میٹرکس

AWS کا استعمال کرتے ہوئے کسٹمر کے جذبات کا حقیقی وقت کا تجزیہ

ٹاک ڈیسک سی ایکس کلاؤڈ رابطہ مرکز پر ایمیزون لیکس کے ساتھ طاقتور سیلف سروس کے تجربات تخلیق کریں۔

AWS Trainium کے ساتھ تیز رفتار اور سرمایہ کاری مؤثر LLaMA 2 فائن ٹیوننگ | ایمیزون ویب سروسز

Amazon SageMaker اسٹوڈیو لائف سائیکل کنفیگریشنز کو تعینات کرنے کے لیے AWS CDK کا استعمال کریں ایمیزون ویب سروسز

Amazon Personalize | ایمیزون ویب سروسز

AWS Inferentia اور AWS Trainium کے ساتھ Amazon SageMaker جمپ سٹارٹ میں لاما 2 ماڈلز کو فائن ٹیون اور لاگت سے لاگو کریں۔ ایمیزون ویب سروسز

کسٹمر کس طرح کسٹم ڈوکر امیجز اور ایمیزون سیج میکر کو ٹیکسٹ کی درجہ بندی کی پائپ لائن بنانے کے لیے استعمال کرتا ہے۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ