টেসলা মেশিন লার্নিং সিলিকনকে Dojo PlatoBlockchain ডেটা ইন্টেলিজেন্সে নিয়ে যেতে চায়। উল্লম্ব অনুসন্ধান. আ.

টেসলা মেশিন লার্নিং সিলিকনকে ডোজোতে নিয়ে যেতে চায়

চিরকালের বৃহত্তর AI এবং মেশিন লার্নিং মডেলের তৃষ্ণা মেটাতে, Tesla Hot Chips 34-এ তাদের সম্পূর্ণ কাস্টম সুপারকম্পিউটিং আর্কিটেকচারে Dojo নামক বিশদ বিবরণের সম্পদ প্রকাশ করেছে।

সিস্টেমটি মূলত একটি বিশাল কম্পোজেবল সুপার কম্পিউটার, যদিও আমরা যা দেখি তার বিপরীতে শীর্ষ 500, এটি একটি সম্পূর্ণ কাস্টম আর্কিটেকচার থেকে তৈরি করা হয়েছে যা কম্পিউট, নেটওয়ার্কিং এবং ইনপুট/আউটপুট (I/O) সিলিকন থেকে ইনস্ট্রাকশন সেট আর্কিটেকচার (ISA), পাওয়ার ডেলিভারি, প্যাকেজিং এবং কুলিং পর্যন্ত বিস্তৃত। এটি সবই করা হয়েছিল স্কেল অনুযায়ী নির্দিষ্ট মেশিন লার্নিং প্রশিক্ষণ অ্যালগরিদম চালানোর স্পষ্ট উদ্দেশ্য নিয়ে।

টেসলার হার্ডওয়্যার ইঞ্জিনিয়ারিং-এর সিনিয়র ডিরেক্টর গণেশ ভেঙ্কটরামানন বলেন, "বাস্তব বিশ্বের ডেটা প্রসেসিং শুধুমাত্র মেশিন লার্নিং কৌশলের মাধ্যমেই সম্ভব, তা প্রাকৃতিক-ভাষা প্রক্রিয়াকরণই হোক, রাস্তায় ড্রাইভিং যা মানুষের দৃষ্টিভঙ্গির জন্য রোবোটিক্সের প্রতি দৈনন্দিন পরিবেশের সাথে ইন্টারফেস করার জন্য তৈরি করা হয়।" তার মূল বক্তব্যের সময়।

যাইহোক, তিনি যুক্তি দিয়েছিলেন যে বিতরণকৃত কাজের চাপ স্কেলিং করার জন্য ঐতিহ্যগত পদ্ধতিগুলি মেশিন লার্নিং এর চাহিদাগুলি বজায় রাখার জন্য প্রয়োজনীয় হারে ত্বরান্বিত করতে ব্যর্থ হয়েছে। প্রকৃতপক্ষে, মুরের আইন এটিকে কাটছে না এবং AI/ML প্রশিক্ষণের জন্য সিস্টেমগুলিও উপলব্ধ নেই, যেমন CPU/GPU-এর কিছু সংমিশ্রণ বা বিশেষ AI অ্যাক্সিলারেটর ব্যবহার করে বিরল পরিস্থিতিতে। 

“প্রথাগতভাবে আমরা চিপ তৈরি করি, আমরা সেগুলিকে প্যাকেজে রাখি, প্যাকেজগুলি PCB-তে যায়, যা সিস্টেমে যায়৷ সিস্টেমগুলি র্যাকে যায়, "ভেঙ্কটরামানন বলেছিলেন। সমস্যা হল প্রতিবার যখন ডেটা চিপ থেকে প্যাকেজে এবং প্যাকেজের বাইরে চলে যায়, তখন এটি একটি লেটেন্সি এবং ব্যান্ডউইথ পেনাল্টি বহন করে।

একটি ডেটাসেন্টার স্যান্ডউইচ

তাই সীমাবদ্ধতা কাটিয়ে ওঠার জন্য, ভেঙ্কটারমানন এবং তার দল শুরু থেকে শুরু করে।

“ইলনের সাথে আমার সাক্ষাত্কার থেকে, তিনি আমাকে জিজ্ঞাসা করেছিলেন যে আপনি কী করতে পারেন যা এআই-এর জন্য সিপিইউ এবং জিপিইউ থেকে আলাদা। আমি মনে করি পুরো দল এখনও সেই প্রশ্নের উত্তর দিচ্ছে।”

টেসলার ডোজো ট্রেনিং টাইল

এটি ডোজো প্রশিক্ষণ টাইলের বিকাশের দিকে পরিচালিত করে, একটি স্বয়ংসম্পূর্ণ কম্পিউট ক্লাস্টার যা একটি 556kW তরল-ঠান্ডা প্যাকেজে FP32 কার্যকারিতার 15 TFLOPS সক্ষম অর্ধ-কিউবিক ফুট দখল করে।

প্রতিটি টাইল 11GBs SRAM দিয়ে সজ্জিত এবং পুরো স্ট্যাক জুড়ে একটি কাস্টম ট্রান্সপোর্ট প্রোটোকল ব্যবহার করে একটি 9TB/s ফ্যাব্রিকের সাথে সংযুক্ত।

"এই প্রশিক্ষণ টাইলটি কম্পিউটার থেকে মেমরি থেকে পাওয়ার ডেলিভারি, যোগাযোগের জন্য অতুলনীয় পরিমাণে একীকরণের প্রতিনিধিত্ব করে, কোনো অতিরিক্ত সুইচের প্রয়োজন ছাড়াই," ভেঙ্কটারমানন বলেন।

ট্রেনিং টাইলের কেন্দ্রস্থলে রয়েছে টেসলার D1, একটি 50 বিলিয়ন ট্রানজিস্টর ডাই, TSMC এর 7nm প্রক্রিয়ার উপর ভিত্তি করে। টেসলা বলছে প্রতিটি D1 22W এর TDP-তে FP32 পারফরম্যান্সের 400 TFLOPS সক্ষম। যাইহোক, টেসলা নোট করে যে চিপটি কয়েকটি কাস্টম সহ বিভিন্ন ফ্লোটিং পয়েন্ট গণনা চালাতে সক্ষম।

টেসলার ডোজো ডি 1 ডাই

টেসলার ডোজো ডি 1 মারা গেছে

"যদি আপনি মিলিমিটার বর্গক্ষেত্রের জন্য ট্রানজিস্টর তুলনা করেন, এটি সম্ভবত যে কোনও কিছুর রক্তপাতের প্রান্ত," ভেঙ্কটারমানন বলেছিলেন।

টেসলা তখন 25টি D1 নিয়েছিল, পরিচিত ভাল মৃত্যুর জন্য সেগুলিকে বিনে করেছিল এবং তারপর TSMC-এর সিস্টেম-অন-ওয়েফার প্রযুক্তি ব্যবহার করে সেগুলিকে প্যাকেজ করে "খুব কম লেটেন্সি এবং খুব-উচ্চ ব্যান্ডউইথ-এ বিপুল পরিমাণ কম্পিউট ইন্টিগ্রেশন অর্জন করতে," তিনি বলেছিলেন।

যাইহোক, সিস্টেম-অন-ওয়েফার ডিজাইন এবং উল্লম্বভাবে স্ট্যাক করা আর্কিটেকচার যখন পাওয়ার ডেলিভারির ক্ষেত্রে এসেছিল তখন চ্যালেঞ্জগুলি প্রবর্তন করেছিল।

ভেঙ্কটরামাননের মতে, বেশিরভাগ এক্সিলারেটর আজ সরাসরি সিলিকনের সংলগ্ন শক্তি রাখে। এবং প্রমাণিত হওয়ার সময়, এই পদ্ধতির অর্থ হল এক্সিলারেটরের একটি বৃহৎ এলাকাকে সেই উপাদানগুলির জন্য উত্সর্গীকৃত করতে হবে, যা ডোজোর জন্য এটিকে অবাস্তব করে তুলেছে, তিনি ব্যাখ্যা করেছিলেন। পরিবর্তে, টেসলা তাদের চিপগুলি ডিজাইন করেছে যাতে ডাইয়ের নীচে সরাসরি শক্তি সরবরাহ করা যায়। 

সবগুলোকে একত্রে রাখ

“আমরা এই প্রশিক্ষণ টাইল থেকে একটি সম্পূর্ণ ডেটাসেন্টার বা একটি সম্পূর্ণ বিল্ডিং তৈরি করতে পারি, তবে প্রশিক্ষণ টাইলটি কেবল গণনার অংশ। আমাদেরও এটি খাওয়ানো দরকার,” ভেঙ্কটারমানন বলেছিলেন।

টেসলার ডোজো ইন্টারফেস প্রসেসর

টেসলার ডোজো ইন্টারফেস প্রসেসর

এর জন্য, টেসলা ডোজো ইন্টারফেস প্রসেসর (ডিআইপি) তৈরি করেছে, যা হোস্ট সিপিইউ এবং প্রশিক্ষণ প্রসেসরের মধ্যে সেতু হিসাবে কাজ করে। ডিআইপি শেয়ার্ড হাই-ব্যান্ডউইথ মেমরি (HBM) এবং একটি উচ্চ-গতি 400Gbit/sec NIC হিসাবেও কাজ করে।

প্রতিটি ডিআইপি-তে 32GB HBM বৈশিষ্ট্য রয়েছে এবং এই কার্ডগুলির মধ্যে পাঁচটি পর্যন্ত 900GB/s গতিতে একটি প্রশিক্ষণ টাইলের সাথে সংযুক্ত করা যেতে পারে একটি মোট 4.5TB/s এর জন্য হোস্টের সাথে মোট 160GB HBM প্রতি টাইলে।

টেসলার V1 কনফিগারেশন জোড়া এই টাইলগুলির - বা 150 D1 ডাইস - অ্যারে সমর্থিত চারটি হোস্ট সিপিইউ প্রতিটি পাঁচটি ডিআইপি কার্ড দিয়ে সজ্জিত BF16 বা CFP8 কার্যক্ষমতার দাবিকৃত এক্সাফ্লপ অর্জন করতে।

টেসলার V1 ব্যবস্থা

টেসলার V1 ব্যবস্থা

একসাথে রাখুন, ভেঙ্কটারমানন বলেছেন স্থাপত্য-বিস্তারিত এখানে গভীরভাবে by পরবর্তী প্ল্যাটফর্ম - টেসলাকে এনভিডিয়া এবং এএমডি-র পছন্দ থেকে প্রথাগত এক্সিলারেটরের সাথে সম্পর্কিত সীমাবদ্ধতাগুলি কাটিয়ে উঠতে সক্ষম করে।

“প্রথাগত এক্সিলারেটর কীভাবে কাজ করে, সাধারণত আপনি প্রতিটি অ্যাক্সিলারেটরে একটি সম্পূর্ণ মডেল ফিট করার চেষ্টা করেন। এটি প্রতিলিপি করুন এবং তারপরে তাদের প্রত্যেকের মাধ্যমে ডেটা প্রবাহিত করুন, "তিনি বলেছিলেন। “আমাদের বড় এবং বড় মডেল থাকলে কী হবে? এই এক্সিলারেটরগুলি ফ্ল্যাট পড়ে যেতে পারে কারণ তাদের স্মৃতি ফুরিয়ে যায়।"

এটি একটি নতুন সমস্যা নয়, তিনি উল্লেখ করেছেন। Nvidia-এর NV-সুইচ উদাহরণ স্বরূপ GPU-এর বড় ব্যাঙ্ক জুড়ে মেমরি পুল করতে সক্ষম করে। যাইহোক, ভেঙ্কটারমানন যুক্তি দেন যে এটি কেবল জটিলতাই বাড়ায় না, বরং ব্যান্ডউইথের ক্ষেত্রে লেটেন্সি এবং আপস করে।

“আমরা শুরু থেকেই এই বিষয়ে চিন্তা করেছি। আমাদের কম্পিউট টাইলস এবং প্রতিটি ডাই বড় মডেলের ফিট করার জন্য তৈরি করা হয়েছিল,” ভেঙ্কটারমানন বলেছেন।

সফটওয়্যার

এই ধরনের একটি বিশেষায়িত কম্পিউট আর্কিটেকচার একটি বিশেষ সফ্টওয়্যার স্ট্যাকের দাবি করে। যাইহোক, ভেঙ্কটারমানন এবং তার দল স্বীকার করেছিল যে প্রোগ্রামযোগ্যতা হয় ডোজো তৈরি করবে বা ভেঙে দেবে।

"আমরা যখন এই সিস্টেমগুলি ডিজাইন করি তখন সফ্টওয়্যার সমকক্ষগুলির জন্য প্রোগ্রামযোগ্যতার সহজতা সবচেয়ে গুরুত্বপূর্ণ," তিনি বলেছিলেন। "আমরা চালাতে চাই এমন একটি নতুন অ্যালগরিদমের সাথে খাপ খাইয়ে নেওয়ার জন্য আপনার সফ্টওয়্যার লোকেদের হাতে লেখা কার্নেল লেখার জন্য গবেষকরা অপেক্ষা করবেন না।"

এটি করার জন্য, টেসলা কার্নেল ব্যবহার করার ধারণাটি বাদ দিয়েছিলেন এবং কম্পাইলারগুলির চারপাশে ডোজোর আর্কিটেকচার ডিজাইন করেছিলেন।

“আমরা যা করেছি তা হল আমরা PiTorch ব্যবহার করেছি। আমরা একটি মধ্যবর্তী স্তর তৈরি করেছি, যা আমাদেরকে এর নীচে হার্ডওয়্যার স্কেল করতে সমান্তরাল করতে সহায়তা করে। সবকিছুর নীচে সংকলিত কোড রয়েছে, "তিনি বলেছিলেন। "এটি সফ্টওয়্যার স্ট্যাকগুলি তৈরি করার একমাত্র উপায় যা ভবিষ্যতের সমস্ত কাজের চাপের সাথে মানিয়ে নিতে পারে।"

সফ্টওয়্যার নমনীয়তার উপর জোর দেওয়া সত্ত্বেও, ভেঙ্কটারমানন নোট করেছেন যে প্ল্যাটফর্মটি, যা বর্তমানে তাদের ল্যাবে চলছে, আপাতত টেসলা ব্যবহারের জন্য সীমাবদ্ধ।

"আমরা প্রথমে আমাদের অভ্যন্তরীণ গ্রাহকদের উপর দৃষ্টি নিবদ্ধ করি," তিনি বলেছিলেন। “এলন এটাকে জনসাধারণ করেছেন যে সময়ের সাথে সাথে, আমরা এটি গবেষকদের কাছে উপলব্ধ করব, কিন্তু আমাদের কাছে এর জন্য একটি সময়সীমা নেই। ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী