ایمیزون سیج میکر ماڈل متوازی اور ڈیٹا متوازی لائبریریوں کے ساتھ تقسیم شدہ تربیت اور موثر اسکیلنگ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

بڑے لینگوئج ماڈلز (LLMs) کے لیے ڈسٹری بیوٹیڈ ڈیپ لرننگ کے شعبے میں زبردست پیش رفت ہوئی ہے، خاص طور پر دسمبر 2022 میں ChatGPT کے اجراء کے بعد۔ LLMs اربوں یا کھربوں پیرامیٹرز کے ساتھ سائز میں بڑھتے رہتے ہیں، اور وہ اکثر ایسا نہیں کرتے۔ میموری کی حدود کی وجہ سے ایک واحد ایکسلریٹر ڈیوائس جیسے GPU یا یہاں تک کہ ایک نوڈ جیسے ml.p5.32xlarge میں فٹ کریں۔ LLMs کو تربیت دینے والے صارفین کو اکثر اپنے کام کا بوجھ سینکڑوں یا اس سے بھی ہزاروں GPUs میں تقسیم کرنا ہوتا ہے۔ اس پیمانے پر تربیت کو فعال کرنا تقسیم شدہ تربیت میں ایک چیلنج بنی ہوئی ہے، اور اتنے بڑے نظام میں موثر طریقے سے تربیت ایک اور اتنا ہی اہم مسئلہ ہے۔ پچھلے سالوں کے دوران، تقسیم شدہ تربیتی کمیونٹی نے اس طرح کے چیلنجوں سے نمٹنے کے لیے 3D متوازی (ڈیٹا متوازی، پائپ لائن متوازی، اور ٹینسر کی متوازی) اور دیگر تکنیکیں (جیسے کہ ترتیب کے متوازی اور ماہر متوازی) متعارف کروائی ہیں۔

دسمبر 2023 میں، ایمیزون نے جاری کرنے کا اعلان کیا۔ سیج میکر ماڈل متوازی لائبریری 2.0 (SMP)، جو بڑے ماڈل ٹریننگ میں جدید ترین کارکردگی کو حاصل کرتا ہے۔ سیج میکر نے ڈیٹا متوازی لائبریری تقسیم کی۔ (SMDDP)۔ یہ ریلیز 1.x سے ایک اہم اپ ڈیٹ ہے: SMP اب اوپن سورس PyTorch کے ساتھ مربوط ہے۔ مکمل طور پر شارڈ ڈیٹا متوازی (FSDP) APIs، جو آپ کو بڑے ماڈلز کو تربیت دیتے وقت ایک مانوس انٹرفیس استعمال کرنے کی اجازت دیتا ہے، اور اس کے ساتھ مطابقت رکھتا ہے۔ ٹرانسفارمر انجن (TE)، پہلی بار FSDP کے ساتھ ساتھ ٹینسر کے متوازی تکنیکوں کو کھولنا۔ ریلیز کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ ایمیزون سیج میکر ماڈل متوازی لائبریری اب PyTorch FSDP ورک بوجھ کو 20٪ تک تیز کرتی ہے.

اس پوسٹ میں، ہم کارکردگی کے فوائد کو دریافت کرتے ہیں۔ ایمیزون سیج میکر (بشمول SMP اور SMDDP)، اور آپ SageMaker پر بڑے ماڈلز کو موثر طریقے سے تربیت دینے کے لیے لائبریری کا استعمال کیسے کر سکتے ہیں۔ ہم 4 مثالوں تک ml.p24d.128xlarge کلسٹرز پر بینچ مارکس کے ساتھ SageMaker کی کارکردگی کا مظاہرہ کرتے ہیں، اور Llama 16 ماڈل کے لیے bfloat2 کے ساتھ FSDP مخلوط درستگی کا مظاہرہ کرتے ہیں۔ ہم سیج میکر کے لیے قریب کی لکیری اسکیلنگ کی افادیت کے مظاہرے کے ساتھ شروع کرتے ہیں، اس کے بعد بہترین تھرو پٹ کے لیے ہر ایک خصوصیت کے تعاون کا تجزیہ کرتے ہیں، اور ٹینسر متوازی کے ذریعے 32,768 تک مختلف ترتیب کی لمبائی کے ساتھ موثر تربیت کے ساتھ اختتام کرتے ہیں۔

سیج میکر کے ساتھ قریب لکیری اسکیلنگ

LLM ماڈلز کے لیے ٹریننگ کے مجموعی وقت کو کم کرنے کے لیے، بڑے کلسٹرز (ہزاروں GPUs) کو اسکیل کرتے وقت اعلیٰ تھرو پٹ کو محفوظ رکھنا، انٹر نوڈ کمیونیکیشن اوور ہیڈ کو دیکھتے ہوئے بہت ضروری ہے۔ اس پوسٹ میں، ہم P4d مثالوں پر SMP اور SMDDP دونوں کو مدعو کرتے ہوئے مضبوط اور قریب لکیری اسکیلنگ (ایک مقررہ کل مسئلہ کے سائز کے لیے GPUs کی تعداد کو مختلف کرکے) کا مظاہرہ کرتے ہیں۔

اس سیکشن میں، ہم SMP کی قریب لکیری اسکیلنگ کی کارکردگی کا مظاہرہ کرتے ہیں۔ یہاں ہم مختلف سائز کے Llama 2 ماڈلز (7B، 13B، اور 70B پیرامیٹرز) کو 4,096 کی مقررہ ترتیب کی لمبائی کا استعمال کرتے ہوئے تربیت دیتے ہیں، اجتماعی مواصلات کے لیے SMDDP بیک اینڈ، TE فعال، 4 ملین کا عالمی بیچ سائز، 16 سے 128 p4d نوڈس کے ساتھ . مندرجہ ذیل جدول ہماری بہترین ترتیب اور تربیتی کارکردگی کا خلاصہ کرتا ہے (ماڈل TFLOPs فی سیکنڈ)۔

ماڈل سائز	نوڈس کی تعداد	TFLOPs*	ایس ڈی پی*	ٹی پی*	بوجھ کم کرنا*	اسکیلنگ کی کارکردگی
7B	16	136.76	32	1	N	100.0٪
	32	132.65	64	1	N	97.0٪
	64	125.31	64	1	N	91.6٪
	128	115.01	64	1	N	84.1٪
13B	16	141.43	32	1	Y	100.0٪
	32	139.46	256	1	N	98.6٪
	64	132.17	128	1	N	93.5٪
	128	120.75	128	1	N	85.4٪
70B	32	154.33	256	1	Y	100.0٪
	64	149.60	256	1	N	96.9٪
	128	136.52	64	2	N	88.5٪

*دئیے گئے ماڈل کے سائز، ترتیب کی لمبائی، اور نوڈس کی تعداد پر، ہم مختلف sdp، tp، اور ایکٹیویشن آف لوڈنگ کے امتزاج کو تلاش کرنے کے بعد عالمی سطح پر بہترین تھرو پٹ اور کنفیگریشن دکھاتے ہیں۔

پچھلا جدول شارڈڈ ڈیٹا متوازی (sdp) ڈگری (عام طور پر FSDP ہائبرڈ شارڈنگ کا استعمال کرتے ہوئے، اگلے حصے میں مزید تفصیلات کے ساتھ)، ٹینسر متوازی (tp) ڈگری، اور ایکٹیویشن آف لوڈنگ ویلیو تبدیلیوں، ایس ایم ڈی ڈی پی کے ساتھ مل کر ایس ایم پی کے لئے قریب لکیری اسکیلنگ کا مظاہرہ کرنا۔ مثال کے طور پر، Llama 2 ماڈل سائز 7B اور ترتیب کی لمبائی 4,096 کو دیکھتے ہوئے، مجموعی طور پر یہ بالترتیب 97.0، 91.6، اور 84.1 نوڈس پر 16%، 32%، اور 64% (128 نوڈس کے نسبت) کی اسکیلنگ افادیت حاصل کرتا ہے۔ اسکیلنگ کی افادیت مختلف ماڈل سائزوں میں مستحکم ہوتی ہے اور ماڈل کا سائز بڑا ہونے پر قدرے بڑھ جاتا ہے۔

ایس ایم پی اور ایس ایم ڈی ڈی پی دوسرے ترتیب کی لمبائی جیسے 2,048 اور 8,192 کے لئے بھی اسی طرح کی اسکیلنگ کی افادیت کا مظاہرہ کرتے ہیں۔

سیج میکر ماڈل متوازی لائبریری 2.0 کی کارکردگی: لاما 2 70B

LLM کمیونٹی میں بار بار جدید ترین کارکردگی کے اپ ڈیٹس کے ساتھ، پچھلے سالوں میں ماڈل کے سائز میں مسلسل اضافہ ہوتا رہا ہے۔ اس سیکشن میں، ہم Llama 2 ماڈل کے لیے SageMaker میں ایک فکسڈ ماڈل سائز 70B، ترتیب کی لمبائی 4,096، اور 4 ملین کے عالمی بیچ سائز کا استعمال کرتے ہوئے کارکردگی کو واضح کرتے ہیں۔ پچھلے جدول کی عالمی سطح پر بہترین ترتیب اور تھرو پٹ (ایس ایم ڈی ڈی پی بیک اینڈ کے ساتھ، عام طور پر ایف ایس ڈی پی ہائبرڈ شارڈنگ اور ٹی ای) کے ساتھ موازنہ کرنے کے لیے، درج ذیل جدول تقسیم شدہ بیک اینڈ (NCCL اور SMDDP) پر اضافی تفصیلات کے ساتھ دیگر بہترین تھرو پٹس (ممکنہ طور پر ٹینسر کے متوازی کے ساتھ) تک پھیلا ہوا ہے۔ ، FSDP شارڈنگ کی حکمت عملی (مکمل شارڈنگ اور ہائبرڈ شارڈنگ)، اور TE کو فعال کرنا یا نہیں (پہلے سے طے شدہ)۔

ماڈل سائز	نوڈس کی تعداد	ٹی ایف ایل او پی ایس۔				TFLOPs #3 تشکیل			بیس لائن پر TFLOPs میں بہتری
.	.	NCCL مکمل شارڈنگ: #0	SMDDP مکمل شارڈنگ: #1	SMDDP ہائبرڈ شارڈنگ: #2	TE کے ساتھ SMDDP ہائبرڈ شارڈنگ: #3	ایس ڈی پی*	ٹی پی*	بوجھ کم کرنا*	#0 → #1	#1 → #2	#2 → #3	#0 → #3
70B	32	150.82	149.90	150.05	154.33	256	1	Y	-0.6٪	0.1٪	2.9٪	2.3٪
	64	144.38	144.38	145.42	149.60	256	1	N	0.0٪	0.7٪	2.9٪	3.6٪
	128	68.53	103.06	130.66	136.52	64	2	N	50.4٪	26.8٪	4.5٪	99.2٪

SMP اور SMDDP کی تازہ ترین ریلیز متعدد خصوصیات کو سپورٹ کرتی ہے جس میں مقامی PyTorch FSDP، توسیعی اور زیادہ لچکدار ہائبرڈ شارڈنگ، ٹرانسفارمر انجن انٹیگریشن، ٹینسر کی ہم آہنگی، اور آپٹمائزڈ سبھی اجتماعی آپریشن شامل ہیں۔ یہ بہتر طور پر سمجھنے کے لیے کہ SageMaker LLMs کے لیے کس طرح موثر تقسیم شدہ تربیت حاصل کرتا ہے، ہم SMDDP اور درج ذیل SMP سے بڑھتے ہوئے تعاون کو تلاش کرتے ہیں۔ بنیادی خصوصیات:

FSDP مکمل شارڈنگ کے ساتھ NCCL پر SMDDP اضافہ
FSDP مکمل شارڈنگ کو ہائبرڈ شارڈنگ سے تبدیل کرنا، جس سے تھرو پٹ کو بہتر بنانے کے لیے کمیونیکیشن لاگت کم ہو جاتی ہے۔
TE کے ساتھ تھرو پٹ کو مزید فروغ، یہاں تک کہ جب ٹینسر کا ہم آہنگی غیر فعال ہو۔
کم وسائل کی ترتیبات پر، ایکٹیویشن آف لوڈنگ ٹریننگ کو فعال کرنے کے قابل ہو سکتی ہے جو بصورت دیگر ہائی میموری پریشر کی وجہ سے ناقابل عمل یا بہت سست ہو گی۔

FSDP مکمل شارڈنگ: NCCL پر SMDDP اضافہ

جیسا کہ پچھلے جدول میں دکھایا گیا ہے، جب ماڈلز کو FSDP کے ساتھ مکمل طور پر شارڈ کیا جاتا ہے، اگرچہ NCCL (TFLOPs #0) اور SMDDP (TFLOPs #1) تھرو پٹس کا موازنہ 32 یا 64 نوڈس پر ہوتا ہے، NCCL سے SMDDP تک 50.4% کی زبردست بہتری ہوتی ہے۔ 128 نوڈس پر۔

چھوٹے ماڈل سائز میں، ہم NCCL پر SMDDP کے ساتھ مسلسل اور نمایاں بہتری کا مشاہدہ کرتے ہیں، چھوٹے کلسٹر سائز سے شروع ہو کر، کیونکہ SMDDP مواصلت کی رکاوٹ کو مؤثر طریقے سے کم کرنے کے قابل ہے۔

مواصلاتی لاگت کو کم کرنے کے لیے FSDP ہائبرڈ شارڈنگ

SMP 1.0 میں، ہم نے لانچ کیا۔ شارڈ ڈیٹا کی ہم آہنگی، ایک تقسیم شدہ تربیتی تکنیک جو ایمیزون ان ہاؤس کے ذریعے چلتی ہے۔ ایم آئی سی ایس ٹیکنالوجی SMP 2.0 میں، ہم SMP ہائبرڈ شارڈنگ متعارف کراتے ہیں، جو ایک قابل توسیع اور زیادہ لچکدار ہائبرڈ شارڈنگ تکنیک ہے جو تمام تربیتی GPUs کے بجائے ماڈلز کو GPUs کے سب سیٹ کے درمیان شارڈنگ کرنے کی اجازت دیتی ہے، جو کہ FSDP مکمل شارڈنگ کا معاملہ ہے۔ یہ درمیانے درجے کے ماڈلز کے لیے مفید ہے جنہیں فی GPU میموری کی رکاوٹوں کو پورا کرنے کے لیے پورے کلسٹر میں شارڈ کرنے کی ضرورت نہیں ہے۔ یہ ایک سے زیادہ ماڈل ریپلیکا رکھنے والے کلسٹرز کی طرف لے جاتا ہے اور ہر GPU رن ٹائم پر کم ساتھیوں کے ساتھ بات چیت کرتا ہے۔

ایس ایم پی کی ہائبرڈ شارڈنگ ایک وسیع رینج پر موثر ماڈل شارڈنگ کو قابل بناتی ہے، جس میں سب سے چھوٹی شارڈ ڈگری سے لے کر کلسٹر سائز تک (جو مکمل شارڈنگ کے برابر ہے) تک میموری کے مسائل نہیں ہیں۔

درج ذیل اعداد و شمار سادگی کے لیے tp = 1 پر sdp پر تھرو پٹ انحصار کو واضح کرتا ہے۔ اگرچہ یہ ضروری نہیں ہے کہ پچھلے جدول میں NCCL یا SMDDP مکمل شارڈنگ کے لیے بہترین ٹی پی ویلیو جیسا ہو، نمبر کافی قریب ہیں۔ یہ 128 نوڈس کے بڑے کلسٹر سائز پر مکمل شارڈنگ سے ہائبرڈ شارڈنگ پر سوئچ کرنے کی قدر کو واضح طور پر درست کرتا ہے، جو NCCL اور SMDDP دونوں پر لاگو ہوتا ہے۔ چھوٹے ماڈل سائز کے لیے، ہائبرڈ شارڈنگ کے ساتھ نمایاں بہتری چھوٹے کلسٹر سائز سے شروع ہوتی ہے، اور فرق کلسٹر سائز کے ساتھ بڑھتا ہی جاتا ہے۔

ایمیزون سیج میکر ماڈل متوازی اور ڈیٹا متوازی لائبریریوں کے ساتھ تقسیم شدہ تربیت اور موثر اسکیلنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

TE کے ساتھ بہتری

TE کو NVIDIA GPUs پر LLM ٹریننگ کو تیز کرنے کے لیے ڈیزائن کیا گیا ہے۔ FP8 استعمال نہ کرنے کے باوجود کیونکہ یہ p4d مثالوں پر غیر تعاون یافتہ ہے، ہمیں اب بھی p4d پر TE کے ساتھ نمایاں رفتار نظر آتی ہے۔

ایس ایم ڈی ڈی پی بیک اینڈ کے ساتھ تربیت یافتہ ایم آئی سی ایس کے اوپری حصے میں، TE تمام کلسٹر سائزز میں تھرو پٹ کے لیے ایک مستقل فروغ متعارف کراتا ہے (صرف استثناء 128 نوڈس پر مکمل شارڈنگ ہے)، یہاں تک کہ جب ٹینسر متوازی غیر فعال ہو (ٹینسر متوازی ڈگری 1 ہے)۔

چھوٹے ماڈل کے سائز یا مختلف ترتیب کی لمبائی کے لیے، TE فروغ تقریباً 3–7.6% کی حد میں، مستحکم اور غیر معمولی ہے۔

کم وسائل کی ترتیبات پر ایکٹیویشن آف لوڈنگ

کم وسائل کی ترتیبات پر (نوڈس کی ایک چھوٹی سی تعداد کے پیش نظر)، FSDP کو ایکٹیویشن چیک پوائنٹنگ فعال ہونے پر ہائی میموری پریشر (یا بدترین صورت میں میموری سے بھی باہر) کا سامنا ہو سکتا ہے۔ اس طرح کے منظرناموں کے لیے میموری کی طرف سے رکاوٹ، ایکٹیویشن آف لوڈنگ کو آن کرنا ممکنہ طور پر کارکردگی کو بہتر بنانے کا ایک آپشن ہے۔

مثال کے طور پر، جیسا کہ ہم نے پہلے دیکھا، اگرچہ Llama 2 ماڈل سائز 13B اور ترتیب کی لمبائی 4,096 ایکٹیویشن چیک پوائنٹنگ کے ساتھ کم از کم 32 نوڈس کے ساتھ بہترین طریقے سے تربیت دینے کے قابل ہے اور بغیر ایکٹیویشن آف لوڈنگ کے، یہ 16 تک محدود ہونے پر ایکٹیویشن آف لوڈنگ کے ساتھ بہترین تھرو پٹ حاصل کرتا ہے۔ نوڈس

طویل ترتیب کے ساتھ تربیت کو فعال کریں: SMP ٹینسر متوازی

طویل گفتگو اور سیاق و سباق کے لیے طویل ترتیب کی لمبائی مطلوب ہے، اور LLM کمیونٹی میں زیادہ توجہ حاصل کر رہی ہے۔ لہذا، ہم مندرجہ ذیل جدول میں مختلف طویل ترتیب کے ذریعے کی اطلاع دیتے ہیں۔ جدول SageMaker پر Llama 2 کی تربیت کے لیے بہترین تھرو پٹ دکھاتا ہے، جس میں مختلف ترتیب کی لمبائی 2,048 سے 32,768 تک ہے۔ ترتیب کی لمبائی 32,768 پر، مقامی FSDP تربیت 32 ملین کے عالمی بیچ سائز میں 4 نوڈس کے ساتھ ناقابل عمل ہے۔

.	.	.	ٹی ایف ایل او پی ایس۔
ماڈل سائز	تسلسل کی لمبائی	نوڈس کی تعداد	مقامی FSDP اور NCCL	SMP اور SMDDP	ایس ایم پی کی بہتری
7B	2048	32	129.25	138.17	6.9٪
	4096	32	124.38	132.65	6.6٪
	8192	32	115.25	123.11	6.8٪
	16384	32	100.73	109.11	8.3٪
	32768	32	N / A	82.87	.
13B	2048	32	137.75	144.28	4.7٪
	4096	32	133.30	139.46	4.6٪
	8192	32	125.04	130.08	4.0٪
	16384	32	111.58	117.01	4.9٪
	32768	32	N / A	92.38	.
*: زیادہ سے زیادہ	.	.	.	.	8.3٪
*: اوسط	.	.	.	.	5.8٪

جب کلسٹر کا سائز بڑا ہوتا ہے اور ایک مقررہ عالمی بیچ کا سائز دیا جاتا ہے، تو کچھ ماڈل ٹریننگ مقامی PyTorch FSDP کے ساتھ نا ممکن ہو سکتی ہے، جس میں بلٹ ان پائپ لائن یا ٹینسر متوازی سپورٹ کی کمی ہوتی ہے۔ پچھلے جدول میں، عالمی بیچ سائز 4 ملین، 32 نوڈس، اور ترتیب کی لمبائی 32,768 دی گئی ہے، فی GPU مؤثر بیچ کا سائز 0.5 ہے (مثال کے طور پر، بیچ سائز 2 کے ساتھ tp = 1)، جو بصورت دیگر متعارف کرائے بغیر ناقابل عمل ہوگا۔ ٹینسر متوازی

نتیجہ

اس پوسٹ میں، ہم نے p4d مثالوں پر ایس ایم پی اور ایس ایم ڈی ڈی پی کے ساتھ موثر ایل ایل ایم ٹریننگ کا مظاہرہ کیا، جس میں متعدد کلیدی خصوصیات کو منسوب کیا گیا، جیسے NCCL پر SMDDP اضافہ، مکمل شارڈنگ کے بجائے لچکدار FSDP ہائبرڈ شارڈنگ، TE انٹیگریشن، اور ٹینسر کے ہم آہنگی کو فعال کرنا۔ طویل ترتیب کی لمبائی. مختلف ماڈلز، ماڈل کے سائز، اور ترتیب کی لمبائی کے ساتھ سیٹنگز کی ایک وسیع رینج پر جانچ کرنے کے بعد، یہ SageMaker پر 128 p4d مثالوں تک، قریب قریب لکیری اسکیلنگ کی افادیت کو ظاہر کرتا ہے۔ خلاصہ یہ کہ سیج میکر ایل ایل ایم کے محققین اور پریکٹیشنرز کے لیے ایک طاقتور ٹول ہے۔

مزید جاننے کے لیے رجوع کریں۔ سیج میکر ماڈل متوازی لائبریری v2، یا SMP ٹیم سے رابطہ کریں۔ sm-model-parallel-feedback@amazon.com.

منظوریاں

ہم رابرٹ وان ڈوسن، بین سنائیڈر، گوتم کمار، اور لوئس کوئنٹیلا کا ان کے تعمیری تاثرات اور بات چیت کے لیے شکریہ ادا کرنا چاہیں گے۔

مصنفین کے بارے میں

Xinle شیلا لیو ایمیزون سیج میکر میں ایک SDE ہے۔ اپنے فارغ وقت میں، وہ پڑھنے اور بیرونی کھیلوں سے لطف اندوز ہوتی ہے۔

سوہت کوڈگولے AWS مصنوعی ذہانت گروپ کے ساتھ ایک سافٹ ویئر ڈویلپمنٹ انجینئر ہے جو گہری سیکھنے کے فریم ورک پر کام کر رہا ہے۔ اپنے فارغ وقت میں، وہ پیدل سفر، سفر اور کھانا پکانے سے لطف اندوز ہوتا ہے۔

ایمیزون سیج میکر ماڈل متوازی اور ڈیٹا متوازی لائبریریوں کے ساتھ تقسیم شدہ تربیت اور موثر اسکیلنگ | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی وکٹر ژو ایمیزون ویب سروسز میں ڈسٹری بیوٹڈ ڈیپ لرننگ میں سافٹ ویئر انجینئر ہے۔ وہ SF بے ایریا کے آس پاس ہائیکنگ اور بورڈ گیمز سے لطف اندوز ہوتے ہوئے پایا جا سکتا ہے۔

دریا کیودر AWS میں سافٹ ویئر انجینئر کے طور پر کام کرتا ہے۔ اس کی دلچسپیوں میں گہری سیکھنے اور تقسیم شدہ تربیت کی اصلاح شامل ہے۔

ٹینگ سو AWS AI میں تقسیم شدہ ٹریننگ گروپ میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ اسے پڑھنے میں مزہ آتا ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/distributed-training-and-efficient-scaling-with-the-amazon-sagemaker-model-parallel-and-data-parallel-libraries/

ٹائم اسٹیمپ: اپریل 16، 2024

ایمیزون سیج میکر ماڈل متوازی اور ڈیٹا متوازی لائبریریوں کے ساتھ تقسیم شدہ تربیت اور موثر اسکیلنگ | ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سیج میکر کے ساتھ قریب لکیری اسکیلنگ

سیج میکر ماڈل متوازی لائبریری 2.0 کی کارکردگی: لاما 2 70B

FSDP مکمل شارڈنگ: NCCL پر SMDDP اضافہ

مواصلاتی لاگت کو کم کرنے کے لیے FSDP ہائبرڈ شارڈنگ

TE کے ساتھ بہتری

کم وسائل کی ترتیبات پر ایکٹیویشن آف لوڈنگ

طویل ترتیب کے ساتھ تربیت کو فعال کریں: SMP ٹینسر متوازی

نتیجہ

منظوریاں

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

Amazon SageMaker ملٹی ماڈل اینڈ پوائنٹس کے ساتھ GPU پر متعدد ڈیپ لرننگ ماڈلز چلائیں۔

بھرپور انسانی تاثرات سے سیکھ کر LLMs میں ملٹی ہاپ استدلال کو بہتر بنائیں

ایمیزون سیج میکر جغرافیائی صلاحیتوں اور کسٹم سیج میکر ماڈلز کا استعمال کرتے ہوئے نقصان کا اندازہ

انسانی مداخلت کے ساتھ ایمیزون سیج میکر ماڈل رجسٹری کی منظوری اور پروموشن ورک فلو بنائیں۔ ایمیزون ویب سروسز

تاریخ محفوظ کریں: NVIDIA GTC پر AWS میں شامل ہوں، ستمبر 19-22

ایمیزون سیج میکر آٹومیٹک ماڈل ٹیوننگ کے ساتھ ہائپر پیرامیٹرز کو بہتر بنائیں

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ