تريد Tesla أن تأخذ سيليكون التعلم الآلي إلى Dojo PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يريد Tesla أخذ السيليكون للتعلم الآلي إلى Dojo

لإرواء التعطش لنماذج أكبر من الذكاء الاصطناعي والتعلم الآلي ، كشفت Tesla عن ثروة من التفاصيل في Hot Chips 34 على هندسة الحوسبة الفائقة المخصصة بالكامل والتي تسمى Dojo.

النظام هو في الأساس حاسوب عملاق ضخم قابل للإنشاء ، على الرغم من أنه على عكس ما نراه على أعلى 500، لقد تم بناؤه من بنية مخصصة بالكامل تمتد عبر سيليكون الحوسبة والشبكات والإدخال / الإخراج (I / O) إلى بنية مجموعة التعليمات (ISA) ، وتوصيل الطاقة ، والتعبئة ، والتبريد. تم كل ذلك لغرض صريح وهو تشغيل خوارزميات تدريب مخصصة ومحددة لتعلم الآلة على نطاق واسع.

قال غانيش فينكاتارامانان ، المدير الأول لهندسة الأجهزة في Tesla ، "إن معالجة البيانات في العالم الحقيقي ممكنة فقط من خلال تقنيات التعلم الآلي ، سواء كانت معالجة اللغة الطبيعية ، أو القيادة في الشوارع المصممة من أجل رؤية الإنسان لتفاعل الروبوتات مع البيئة اليومية". خلال كلمته الرئيسية.

ومع ذلك ، فقد جادل بأن الأساليب التقليدية لتوسيع أعباء العمل الموزعة قد فشلت في الإسراع بالمعدل اللازم لمواكبة متطلبات التعلم الآلي. في الواقع ، فإن قانون مور لا يقطعه ولا الأنظمة المتاحة لتدريب AI / ML على نطاق واسع ، أي مزيج من وحدة المعالجة المركزية / وحدة معالجة الرسومات أو في ظروف نادرة باستخدام مسرعات الذكاء الاصطناعي المتخصصة. 

"تقليديًا ، نصنع الرقائق ، ونضعها في عبوات ، وتوضع الحزم على ثنائي الفينيل متعدد الكلور ، والتي تدخل في الأنظمة. قال فينكاتارامانان إن الأنظمة تدخل في الرفوف. تكمن المشكلة في أنه في كل مرة تنتقل فيها البيانات من الشريحة إلى الحزمة وخارج الحزمة ، فإنها تفرض عقوبة الكمون وعرض النطاق الترددي.

شطيرة مركز البيانات

لذا ، للتغلب على القيود ، بدأ فينكاتارامانان وفريقه من جديد من الصفر.

"مباشرة من مقابلتي مع Elon ، سألني ما الذي يمكنك فعله بشكل مختلف عن وحدات المعالجة المركزية ووحدات معالجة الرسومات للذكاء الاصطناعي. أشعر أن الفريق بأكمله لا يزال يجيب على هذا السؤال ".

بلاط التدريب دوجو تسلا

أدى ذلك إلى تطوير بلاط التدريب Dojo ، وهو مجموعة حسابية قائمة بذاتها تشغل نصف قدم مكعب قادرة على 556 TFLOPS من أداء FP32 في حزمة تبريد سائل بقدرة 15 كيلو وات.

تم تجهيز كل بلاطة بـ 11 جيجا بايت من ذاكرة SRAM ومتصلة عبر نسيج 9 تيرا بايت / ثانية باستخدام بروتوكول نقل مخصص في جميع أنحاء المجموعة بأكملها.

قال فينكاتارامانان: "تمثل لوحة التدريب هذه كميات لا مثيل لها من التكامل من الكمبيوتر إلى الذاكرة إلى توصيل الطاقة إلى الاتصال ، دون الحاجة إلى أي مفاتيح إضافية".

في قلب لوحة التدريب يوجد Tesla's D1 ، قالب ترانزستور 50 مليار ، يعتمد على عملية TSMC 7 نانومتر. يقول Tesla إن كل D1 قادر على 22 TFLOPS من أداء FP32 عند TDP من 400W. ومع ذلك ، يلاحظ Tesla أن الشريحة قادرة على تشغيل مجموعة واسعة من حسابات الفاصلة العائمة بما في ذلك عدد قليل من الحسابات المخصصة.

يموت Tesla's Dojo D1

موت Tesla's Dojo D1

قال فينكاتارامانان: "إذا قارنت الترانزستورات بالمليمتر المربع ، فمن المحتمل أن تكون هذه هي الحافة النازفة لأي شيء موجود هناك".

بعد ذلك ، أخذ Tesla 25 D1s ، وحرمهم من القوالب الجيدة المعروفة ، ثم قاموا بتعبئتها باستخدام تقنية TSMC's system-on-wfer "لتحقيق قدر هائل من تكامل الحوسبة بزمن انتقال منخفض للغاية وعرض نطاق مرتفع للغاية ،" قال.

ومع ذلك ، فإن تصميم النظام على الرقاقة والبنية المكدسة رأسياً قد أدخلت تحديات عندما يتعلق الأمر بتوصيل الطاقة.

وفقًا لفينكاتارامانان ، فإن معظم المسرعات اليوم تضع الطاقة مباشرة بجوار السيليكون. وأوضح أنه على الرغم من إثبات هذا النهج ، إلا أنه يعني أنه يجب تخصيص مساحة كبيرة من المسرع لتلك المكونات ، مما جعله غير عملي بالنسبة لـ Dojo. بدلاً من ذلك ، صممت Tesla رقائقها لتوصيل الطاقة مباشرة من خلال الجزء السفلي من القالب. 

وضع كل ذلك معا

"يمكننا بناء مركز بيانات كامل أو مبنى كامل من هذا المربع التدريبي ، لكن لوحة التدريب هي جزء من الحساب فقط. قال فينكاتارامانان: "نحن بحاجة أيضًا إلى إطعامه".

معالج واجهة تسلا دوجو

معالج واجهة تسلا دوجو

لهذا ، طورت Tesla أيضًا معالج واجهة Dojo (DIP) ، والذي يعمل كجسر بين وحدة المعالجة المركزية المضيفة ومعالجات التدريب. يعمل DIP أيضًا كمصدر لذاكرة النطاق الترددي العالي المشتركة (HBM) وكبطاقة واجهة شبكة عالية السرعة تبلغ 400 جيجابت / ثانية.

تتميز كل DIP بسعة 32 جيجابايت من HBM ويمكن توصيل ما يصل إلى خمس من هذه البطاقات ببلاط تدريب بسرعة 900 جيجابايت / ثانية بمجموع 4.5 تيرابايت / ثانية للمضيف لما مجموعه 160 جيجابايت من HBM لكل بلاطة.

تدعم أزواج تكوين V1 من Tesla من هذه المربعات - أو 150 قالب D1 - في مصفوفة أربع وحدات معالجة مركزية مضيفة مزودة بخمس بطاقات DIP لتحقيق أداء exaflop المزعوم لأداء BF16 أو CFP8.

ترتيب V1 تسلا

ترتيب V1 تسلا

ضعها معًا ، يقول فينكاتارامانان الهندسة المعمارية - مفصلة في العمق هنا by المنصة التالية - تمكن Tesla من التغلب على القيود المرتبطة بالمسرعات التقليدية من أمثال Nvidia و AMD.

"كيف تعمل المسرعات التقليدية ، عادة ما تحاول ملاءمة نموذج كامل في كل مسرّع. قم بتكرارها ، ثم قم بتدفق البيانات من خلال كل منها "، قال. "ماذا يحدث إذا كان لدينا نماذج أكبر وأكبر؟ يمكن أن تسقط هذه المسرعات بسبب نفاد الذاكرة ".

وأشار إلى أن هذه ليست مشكلة جديدة. على سبيل المثال ، يمكّن مفتاح NV Nvidia من تجميع الذاكرة عبر البنوك الكبيرة لوحدات معالجة الرسومات. ومع ذلك ، يجادل فينكاتارامانان بأن هذا لا يضيف فقط التعقيد ، ولكنه يقدم الكمون والتنازل عن النطاق الترددي.

"لقد فكرنا في هذا من البداية. قال فينكاتارامانان: "لقد صُنعت بلاطاتنا الحاسوبية وكل من القوالب لتناسب النماذج الكبيرة".

تطبيقات الكمبيوتر

تتطلب بنية الحوسبة المتخصصة هذه مجموعة برامج متخصصة. ومع ذلك ، أدرك فينكاتارامانان وفريقه أن قابلية البرمجة ستؤدي إلى إنشاء Dojo أو كسرها.

قال: "إن سهولة البرمجة لنظرائنا من البرامج أمر بالغ الأهمية عندما نصمم هذه الأنظمة". "لن ينتظر الباحثون حتى يقوم برنامجك بكتابة نواة مكتوبة بخط اليد للتكيف مع خوارزمية جديدة نريد تشغيلها."

للقيام بذلك ، تخلى تسلا عن فكرة استخدام النواة ، وصمم بنية Dojo حول المجمعين.

"ما فعلناه هو أننا استخدمنا PiTorch. أنشأنا طبقة وسيطة ، والتي تساعدنا على الموازاة لتوسيع نطاق الأجهزة الموجودة تحتها. تحت كل شيء يتم تجميع التعليمات البرمجية ، "قال. "هذه هي الطريقة الوحيدة لإنشاء حزم برامج قابلة للتكيف مع كل أعباء العمل في المستقبل."

على الرغم من التركيز على مرونة البرامج ، يلاحظ فينكاتارامانان أن النظام الأساسي ، الذي يعمل حاليًا في مختبراتهم ، يقتصر على استخدام Tesla في الوقت الحالي.

قال: "نحن نركز على عملائنا الداخليين أولاً". "أعلن إيلون أنه بمرور الوقت ، سنوفر هذا للباحثين ، لكن ليس لدينا إطار زمني لذلك. ®

الطابع الزمني:

اكثر من السجل