Tesla مشین لرننگ سلکان کو Dojo PlatoBlockchain Data Intelligence میں لے جانا چاہتا ہے۔ عمودی تلاش۔ عی

ٹیسلا مشین لرننگ سلکان کو ڈوجو میں لے جانا چاہتا ہے۔

ہمیشہ سے بڑے AI اور مشین لرننگ ماڈلز کی پیاس بجھانے کے لیے، Tesla نے Hot Chips 34 میں Dojo نامی اپنے مکمل طور پر کسٹم سپر کمپیوٹنگ فن تعمیر پر بہت ساری تفصیلات کا انکشاف کیا ہے۔

سسٹم بنیادی طور پر ایک بڑے پیمانے پر کمپوز ایبل سپر کمپیوٹر ہے، حالانکہ اس کے برعکس جو ہم پر دیکھتے ہیں۔ اوپر 500، یہ ایک مکمل طور پر حسب ضرورت فن تعمیر سے بنایا گیا ہے جو کمپیوٹ، نیٹ ورکنگ، اور ان پٹ/آؤٹ پٹ (I/O) سلکان سے لے کر انسٹرکشن سیٹ آرکیٹیکچر (ISA)، پاور ڈیلیوری، پیکیجنگ اور کولنگ تک پھیلا ہوا ہے۔ یہ سب کچھ بڑے پیمانے پر تیار کردہ، مخصوص مشین لرننگ ٹریننگ الگورتھم چلانے کے واضح مقصد کے ساتھ کیا گیا تھا۔

Tesla میں ہارڈویئر انجینئرنگ کے سینئر ڈائریکٹر گنیش وینکٹرامنن نے کہا، "حقیقی دنیا کی ڈیٹا پروسیسنگ صرف مشین لرننگ تکنیک کے ذریعے ہی ممکن ہے، چاہے وہ قدرتی زبان کی پروسیسنگ ہو، سڑکوں پر گاڑی چلانا جو روزمرہ کے ماحول کے ساتھ روبوٹکس کے لیے انسانی وژن کے لیے بنائی گئی ہے۔" اپنی کلیدی تقریر کے دوران

تاہم، اس نے استدلال کیا کہ تقسیم شدہ کام کے بوجھ کو پیمانہ کرنے کے روایتی طریقے مشین لرننگ کے تقاضوں کو پورا کرنے کے لیے ضروری شرح کو تیز کرنے میں ناکام رہے ہیں۔ درحقیقت، مور کا قانون اس میں کمی نہیں کر رہا ہے اور نہ ہی AI/ML ٹریننگ کے لیے پیمانے پر سسٹم دستیاب ہیں، یعنی CPU/GPU کا کچھ مجموعہ یا خاص AI ایکسلریٹر استعمال کر کے نایاب حالات میں۔ 

"روایتی طور پر ہم چپس بناتے ہیں، ہم انہیں پیکجوں پر لگاتے ہیں، پیکجز PCBs پر جاتے ہیں، جو سسٹم میں جاتے ہیں۔ سسٹم ریک میں جاتے ہیں،" وینکٹارامانن نے کہا۔ مسئلہ یہ ہے کہ جب بھی ڈیٹا چپ سے پیکج میں اور پیکج سے باہر جاتا ہے، تو اس میں تاخیر اور بینڈوڈتھ کا جرمانہ عائد ہوتا ہے۔

ایک ڈیٹا سینٹر سینڈوچ

لہذا حدود کو پورا کرنے کے لئے، وینکٹرامنن اور ان کی ٹیم نے شروع سے ہی شروعات کی۔

"ایلون کے ساتھ میرے انٹرویو سے ہی، اس نے مجھ سے پوچھا کہ آپ کیا کر سکتے ہیں جو AI کے CPUs اور GPUs سے مختلف ہے۔ مجھے لگتا ہے کہ پوری ٹیم اب بھی اس سوال کا جواب دے رہی ہے۔

ٹیسلا کا ڈوجو ٹریننگ ٹائل

اس کی وجہ سے ڈوجو ٹریننگ ٹائل کی ترقی ہوئی، ایک خود ساختہ کمپیوٹ کلسٹر جس نے آدھے مکعب فٹ پر قبضہ کیا ہے جو 556kW مائع ٹھنڈے پیکج میں FP32 کارکردگی کے 15 TFLOPS کے قابل ہے۔

ہر ٹائل 11GBs SRAM سے لیس ہے اور پورے اسٹیک میں اپنی مرضی کے ٹرانسپورٹ پروٹوکول کا استعمال کرتے ہوئے 9TB/s فیبرک سے منسلک ہے۔

"یہ تربیتی ٹائل کمپیوٹر سے میموری سے لے کر پاور ڈیلیوری، کمیونیکیشن تک، بغیر کسی اضافی سوئچ کی ضرورت کے بے مثال انضمام کی نمائندگی کرتا ہے،" وینکٹارامانن نے کہا۔

ٹریننگ ٹائل کے مرکز میں Tesla کا D1 ہے، جو TSMC کے 50nm عمل پر مبنی 7 بلین ٹرانزسٹر ڈائی ہے۔ Tesla کا کہنا ہے کہ ہر D1 22W کے TDP پر FP32 کارکردگی کے 400 TFLOPS کے قابل ہے۔ تاہم، Tesla نوٹ کرتا ہے کہ چپ فلوٹنگ پوائنٹ کیلکولیشنز کی ایک وسیع رینج کو چلانے کے قابل ہے جس میں چند اپنی مرضی کے مطابق بھی شامل ہیں۔

ٹیسلا کا ڈوجو ڈی 1 ڈائی

ٹیسلا کا ڈوجو ڈی 1 مر گیا۔

"اگر آپ ٹرانزسٹروں کا ملی میٹر مربع سے موازنہ کریں، تو یہ شاید کسی بھی چیز کا خون بہہ رہا ہے،" وینکٹرامنن نے کہا۔

اس کے بعد Tesla نے 25 D1s لیے، انہیں معروف اچھی ڈیز کے لیے بائن کیا، اور پھر TSMC کی سسٹم آن ویفر ٹیکنالوجی کا استعمال کرتے ہوئے انہیں پیک کیا تاکہ "بہت کم تاخیر اور بہت زیادہ بینڈوتھ پر کمپیوٹ انضمام کی ایک بڑی مقدار حاصل کی جا سکے،" انہوں نے کہا۔

تاہم، سسٹم آن ویفر ڈیزائن اور عمودی طور پر اسٹیک شدہ فن تعمیر نے جب بجلی کی فراہمی کی بات کی تو چیلنجز متعارف کرائے گئے۔

وینکٹارامانن کے مطابق، آج کل زیادہ تر ایکسلریٹر پاور کو براہ راست سلیکون کے ساتھ لگاتے ہیں۔ اور ثابت ہونے کے باوجود، اس نقطہ نظر کا مطلب ہے کہ ایکسلریٹر کا ایک بڑا رقبہ ان اجزاء کے لیے وقف ہونا چاہیے، جس نے اسے ڈوجو کے لیے ناقابل عمل بنا دیا، اس نے وضاحت کی۔ اس کے بجائے، ٹیسلا نے اپنے چپس کو ڈائی کے نیچے سے براہ راست بجلی فراہم کرنے کے لیے ڈیزائن کیا۔ 

سب ایک ساتھ ڈال

"ہم اس ٹریننگ ٹائل سے ایک پورا ڈیٹا سینٹر یا ایک پوری عمارت بنا سکتے ہیں، لیکن ٹریننگ ٹائل صرف کمپیوٹ کا حصہ ہے۔ ہمیں اسے کھلانے کی بھی ضرورت ہے،‘‘ وینکٹرامنن نے کہا۔

ٹیسلا کا ڈوجو انٹرفیس پروسیسر

ٹیسلا کا ڈوجو انٹرفیس پروسیسر

اس کے لیے، ٹیسلا نے ڈوجو انٹرفیس پروسیسر (DIP) بھی تیار کیا، جو میزبان CPU اور تربیتی پروسیسرز کے درمیان ایک پل کا کام کرتا ہے۔ DIP مشترکہ ہائی بینڈوڈتھ میموری (HBM) کے ذریعہ اور تیز رفتار 400Gbit/sec NIC کے طور پر بھی کام کرتا ہے۔

ہر DIP میں 32GB HBM کی خصوصیات ہیں اور ان میں سے پانچ کارڈز کو 900GB/s پر ٹریننگ ٹائل سے 4.5TB/s کے مجموعی طور پر میزبان سے کل 160GB HBM فی ٹائل کے لیے منسلک کیا جا سکتا ہے۔

ان ٹائلوں کے ٹیسلا کے V1 کنفیگریشن جوڑے – یا 150 D1 dies – صف میں چار میزبان CPUs کو سپورٹ کرتے ہیں جن میں سے ہر ایک BF16 یا CFP8 کارکردگی کا دعویٰ شدہ exaflop حاصل کرنے کے لیے پانچ DIP کارڈز سے لیس ہے۔

ٹیسلا کا V1 بندوبست

ٹیسلا کا V1 بندوبست

ایک ساتھ رکھیں، وینکٹارامانن کہتے ہیں کہ فن تعمیر - تفصیل سے یہاں کی گہرائی میں by اگلا پلیٹ فارم - ٹیسلا کو Nvidia اور AMD کی پسند سے روایتی ایکسلریٹر سے وابستہ حدود کو دور کرنے کے قابل بناتا ہے۔

"روایتی ایکسلریٹر کیسے کام کرتے ہیں، عام طور پر آپ ہر ایکیلیٹر میں پورے ماڈل کو فٹ کرنے کی کوشش کرتے ہیں۔ اس کی نقل تیار کریں، اور پھر ان میں سے ہر ایک کے ذریعے ڈیٹا بہاؤ،" اس نے کہا۔ "اگر ہمارے پاس بڑے اور بڑے ماڈل ہوں تو کیا ہوگا؟ یہ ایکسلریٹر فلیٹ گر سکتے ہیں کیونکہ ان کی یادداشت ختم ہوجاتی ہے۔

انہوں نے کہا کہ یہ کوئی نیا مسئلہ نہیں ہے۔ مثال کے طور پر Nvidia کا NV-switch GPUs کے بڑے بینکوں میں میموری کو جمع کرنے کے قابل بناتا ہے۔ تاہم، وینکٹارامانن کا استدلال ہے کہ اس سے نہ صرف پیچیدگیوں میں اضافہ ہوتا ہے، بلکہ اس میں تاخیر اور بینڈوتھ پر سمجھوتہ ہوتا ہے۔

"ہم نے جانے سے ہی اس کے بارے میں سوچا۔ ہماری کمپیوٹ ٹائلیں اور ہر ڈائی بڑے ماڈلز کو فٹ کرنے کے لیے بنائی گئی تھی،‘‘ وینکٹرامنن نے کہا۔

سافٹ ویئر کی

اس طرح کا ایک خصوصی کمپیوٹ فن تعمیر ایک خصوصی سافٹ ویئر اسٹیک کا مطالبہ کرتا ہے۔ تاہم، وینکٹارامانن اور ان کی ٹیم نے تسلیم کیا کہ پروگرام کی صلاحیت یا تو ڈوجو کو بنا یا توڑ دے گی۔

انہوں نے کہا کہ جب ہم ان سسٹمز کو ڈیزائن کرتے ہیں تو سافٹ ویئر ہم منصبوں کے لیے پروگرامیبلٹی میں آسانی سب سے اہم ہے۔ "محققین آپ کے سافٹ ویئر کے لوگوں کا انتظار نہیں کریں گے کہ وہ ایک نئے الگورتھم کو اپنانے کے لیے ہاتھ سے لکھا ہوا دانا لکھیں جسے ہم چلانا چاہتے ہیں۔"

ایسا کرنے کے لیے، ٹیسلا نے دانا استعمال کرنے کا خیال چھوڑ دیا، اور مرتب کرنے والوں کے گرد ڈوجو کے فن تعمیر کو ڈیزائن کیا۔

"ہم نے کیا کیا ہم نے PiTorch کا استعمال کیا۔ ہم نے ایک انٹرمیڈیٹ پرت بنائی، جو ہمیں اس کے نیچے ہارڈ ویئر کی پیمائش کرنے میں متوازی مدد کرتی ہے۔ ہر چیز کے نیچے مرتب شدہ کوڈ ہے، "انہوں نے کہا۔ "یہ سافٹ ویئر اسٹیک بنانے کا واحد طریقہ ہے جو ان تمام مستقبل کے کام کے بوجھ کے مطابق ہے۔"

سافٹ ویئر کی لچک پر زور دینے کے باوجود، وینکٹارامانن نوٹ کرتے ہیں کہ پلیٹ فارم، جو فی الحال ان کی لیبز میں چل رہا ہے، فی الحال ٹیسلا کے استعمال تک محدود ہے۔

"ہم سب سے پہلے اپنے اندرونی صارفین پر توجہ مرکوز کرتے ہیں،" انہوں نے کہا۔ "ایلون نے اسے عام کیا ہے کہ وقت گزرنے کے ساتھ، ہم اسے محققین کے لیے دستیاب کرائیں گے، لیکن ہمارے پاس اس کے لیے کوئی ٹائم فریم نہیں ہے۔ ®

ٹائم اسٹیمپ:

سے زیادہ رجسٹر