Tesla, makine öğrenimi silikonunu Dojo PlatoBlockchain Veri Zekasına taşımak istiyor. Dikey Arama. Ai.

Tesla, makine öğrenimi silikonunu Dojo'ya götürmek istiyor

Tesla, her zamankinden daha büyük AI ve makine öğrenimi modellerine olan susuzluğu gidermek için Hot Chips 34'te Dojo adı verilen tamamen özel süper bilgi işlem mimarisinde çok sayıda ayrıntı ortaya çıkardı.

Sistem, esasen, bilgisayar üzerinde gördüğümüzden farklı olarak, büyük bir şekillendirilebilir süper bilgisayardır. Üst 500, bilgi işlem, ağ iletişimi ve giriş/çıkış (G/Ç) silikonundan talimat seti mimarisine (ISA), güç dağıtımı, paketleme ve soğutmaya kadar uzanan tamamen özel bir mimariden oluşturulmuştur. Bunların tümü, uygun ölçekte özel makine öğrenimi eğitim algoritmaları çalıştırmanın açık amacı ile yapıldı.

Tesla'da donanım mühendisliği kıdemli direktörü Ganesh Venkataramanan, "Gerçek dünya veri işleme, yalnızca doğal dil işleme, insan vizyonu için yapılmış sokaklarda araba kullanma ve günlük çevreyle robotik arayüz oluşturma gibi makine öğrenme teknikleri ile mümkün" dedi. açılış konuşması sırasında.

Ancak, dağıtılmış iş yüklerini ölçeklendirmeye yönelik geleneksel yöntemlerin, makine öğreniminin taleplerine ayak uydurmak için gereken oranda hızlandırmada başarısız olduğunu savundu. Gerçekte, Moore Yasası onu kesmiyor ve AI/ML eğitimi için geniş ölçekte, yani CPU/GPU'nun bir kombinasyonu veya daha nadir durumlarda özel AI hızlandırıcıları kullanan sistemler de mevcut değil. 

“Geleneksel olarak çipler oluşturuyoruz, onları paketlere koyuyoruz, paketler PCB'lere gidiyor, bu da sistemlere giriyor. Sistemler raflara konur," dedi Venkataramanan. Sorun şu ki, veriler çipten pakete ve paketten her hareket ettiğinde gecikme ve bant genişliği cezasına neden olur.

Bir veri merkezi sandviçi

Venkataramanan ve ekibi sınırlamaları aşmak için sıfırdan başladı.

“Elon ile yaptığım röportajdan hemen sonra, AI için CPU ve GPU'lardan farklı olarak ne yapabileceğinizi sordu. Tüm ekibin hala bu soruyu yanıtladığını hissediyorum.”

Tesla'nın Dojo Eğitim Karosu

Bu, 556kW sıvı soğutmalı bir pakette 32 TFLOPS FP15 performansına sahip yarım kübik bir ayak kaplayan bağımsız bir hesaplama kümesi olan Dojo eğitim döşemesinin geliştirilmesine yol açtı.

Her kutucuk 11 GB SRAM ile donatılmıştır ve tüm yığın boyunca özel bir aktarım protokolü kullanılarak 9 TB/sn'lik bir yapı üzerinden bağlanır.

Venkataramanan, "Bu eğitim döşemesi, bilgisayardan belleğe, güç dağıtımına, iletişime, herhangi bir ek anahtar gerektirmeden benzersiz miktarlarda entegrasyonu temsil ediyor." Dedi.

Eğitim döşemesinin kalbinde, TSMC'nin 1nm sürecine dayanan 50 milyar transistör kalıbı Tesla'nın D7'i yer alıyor. Tesla, her D1'in 22W TDP'de 32 TFLOPS FP400 performansına sahip olduğunu söylüyor. Bununla birlikte Tesla, çipin birkaç özel olanlar da dahil olmak üzere çok çeşitli kayan nokta hesaplamaları yapabildiğini belirtiyor.

Tesla'nın Dojo D1 Die

Tesla'nın Dojo D1'i öldü

Venkataramanan, "Transistörleri milimetre kare için karşılaştırırsanız, bu muhtemelen orada olan her şeyin kanama kenarıdır." Dedi.

Tesla daha sonra 25 D1 aldı, bilinen iyi kalıplar için bunları bindirdi ve daha sonra "çok düşük gecikme süresi ve çok yüksek bant genişliğinde büyük miktarda bilgi işlem entegrasyonu elde etmek" için TSMC'nin gofret üzerinde sistem teknolojisini kullanarak paketledi.

Ancak, gofret üzerinde sistem tasarımı ve dikey olarak yığılmış mimari, güç dağıtımına geldiğinde zorluklar yarattı.

Venkataramanan'a göre, günümüzde çoğu hızlandırıcı, gücü doğrudan silikonun yanına yerleştiriyor. Kanıtlanmış olsa da, bu yaklaşım, hızlandırıcının geniş bir alanının bu bileşenlere ayrılması gerektiği anlamına geliyor ve bu da onu Dojo için pratik olmayan hale getirdi, diye açıkladı. Bunun yerine Tesla, çiplerini doğrudan kalıbın altından güç sağlayacak şekilde tasarladı. 

Hepsini bir araya koy

"Bu eğitim döşemesinden tüm bir veri merkezini veya tüm bir binayı inşa edebiliriz, ancak eğitim döşemesi yalnızca hesaplama kısmıdır. Ayrıca onu beslememiz gerekiyor, ”dedi Venkataramanan.

Tesla'nın Dojo Arayüz İşlemcisi

Tesla'nın Dojo Arayüz İşlemcisi

Bunun için Tesla, ana bilgisayar CPU'su ile eğitim işlemcileri arasında bir köprü görevi gören Dojo Arayüz İşlemcisini (DIP) de geliştirdi. DIP ayrıca paylaşılan yüksek bant genişliğine sahip bellek (HBM) kaynağı ve yüksek hızlı 400 Gbit/sn NIC işlevi görür.

Her DIP, 32 GB HBM içerir ve bu kartların en fazla beşi, kutu başına toplam 900 GB HBM için ana bilgisayara toplam 4.5 TB/sn olmak üzere 160 GB/sn'de bir eğitim kutucuğuna bağlanabilir.

Tesla'nın bu karoların V1 konfigürasyon çiftleri - veya dizideki 150 D1 kalıp - iddia edilen bir BF16 veya CFP8 performansı exaflop'u elde etmek için her biri beş DIP kartıyla donatılmış dört ana CPU'yu destekledi.

Tesla'nın V1 Düzenlemesi

Tesla'nın V1 Düzenlemesi

Venkataramanan, bir araya getirildiğinde mimarinin ayrıntılı olduğunu söylüyor burada derinlemesine by Bir Sonraki Platform - Tesla'nın Nvidia ve AMD gibi geleneksel hızlandırıcılarla ilişkili sınırlamaların üstesinden gelmesini sağlar.

"Geleneksel hızlandırıcılar nasıl çalışır, tipik olarak her hızlandırıcıya bir modelin tamamını sığdırmaya çalışırsınız. Çoğalt ve sonra verileri her birinden akıt” dedi. “Daha büyük ve daha büyük modellerimiz olursa ne olur? Bu hızlandırıcılar, hafızaları tükendiği için düşebilir.”

Bu yeni bir sorun değil, dedi. Örneğin Nvidia'nın NV anahtarı, belleğin büyük GPU bankalarında havuzlanmasını sağlar. Ancak Venkataramanan, bunun yalnızca karmaşıklık eklemekle kalmayıp, gecikme ve bant genişliğinden ödün verilmesini de beraberinde getirdiğini savunuyor.

"Bunu en başından beri düşündük. Hesaplama karolarımız ve kalıpların her biri büyük modellere uyacak şekilde yapıldı,” dedi Venkataramanan.

Yazılım

Böyle özel bir bilgi işlem mimarisi, özel bir yazılım yığını gerektirir. Ancak Venkataramanan ve ekibi, programlanabilirliğin Dojo'yu ya yapacağını ya da bozacağını kabul etti.

"Bu sistemleri tasarlarken yazılım benzerleri için programlanabilirlik kolaylığı çok önemlidir" dedi. "Araştırmacılar, çalıştırmak istediğimiz yeni bir algoritmaya uyum sağlamak için yazılım arkadaşlarınızın el yazısıyla yazılmış bir çekirdek yazmasını beklemezler."

Bunu yapmak için Tesla, çekirdek kullanma fikrinden vazgeçti ve Dojo'nun mimarisini derleyiciler etrafında tasarladı.

"Yaptığımız şey PiTorch'u kullanmaktı. Altındaki donanımı ölçeklendirmek için paralel hale getirmemize yardımcı olan bir ara katman oluşturduk. Her şeyin altında derlenmiş kod var” dedi. "Gelecekteki tüm iş yüklerine uyarlanabilen yazılım yığınları oluşturmanın tek yolu bu."

Yazılım esnekliğine yapılan vurguya rağmen Venktaramanan, şu anda laboratuvarlarında çalışmakta olan platformun şimdilik Tesla kullanımıyla sınırlı olduğunu belirtiyor.

“Önce iç müşterilerimize odaklandık” dedi. "Elon, zaman içinde bunu araştırmacıların kullanımına sunacağımızı açıkladı, ancak bunun için bir zaman çerçevemiz yok. ®

Zaman Damgası:

Den fazla Kayıt