Tesla želi silicij za strojno učenje prenesti v Dojo

Ponovno objavil Platon

Spremljevalci: 0

Da bi potešil žejo po vedno večjih modelih umetne inteligence in strojnega učenja, je Tesla na Hot Chips 34 razkrila veliko podrobnosti o njihovi popolnoma prilagojeni superračunalniški arhitekturi, imenovani Dojo.

Sistem je v bistvu ogromen sestavljiv superračunalnik, čeprav za razliko od tega, kar vidimo na Top 500, je zgrajen iz popolnoma prilagojene arhitekture, ki obsega arhitekturo računalništva, mreženja in vhodno/izhodnih (I/O) naborov ukazov (ISA), dobavo energije, pakiranje in hlajenje. Vse to je bilo narejeno z izrecnim namenom izvajanja prilagojenih, specifičnih algoritmov za usposabljanje strojnega učenja v velikem obsegu.

"Obdelava podatkov v resničnem svetu je izvedljiva le s tehnikami strojnega učenja, pa naj gre za obdelavo naravnega jezika, vožnjo po ulicah, ki so narejene za človeški vid, do robotike, ki se povezuje z vsakdanjim okoljem," je dejal Ganesh Venkataramanan, višji direktor strojne opreme pri Tesli. med njegovim osrednjim govorom.

Vendar pa je trdil, da tradicionalnim metodam za povečevanje porazdeljenih delovnih obremenitev ni uspelo pospešiti s hitrostjo, ki je potrebna za dohajanje zahtev strojnega učenja. Pravzaprav Moorov zakon tega ne omejuje in tudi sistemi niso na voljo za usposabljanje AI/ML v velikem obsegu, in sicer neka kombinacija CPE/GPE ali v redkejših okoliščinah z uporabo posebnih pospeševalnikov AI.

»Tradicionalno izdelujemo čipe, jih damo v pakete, paketi gredo na PCB-je, ki gredo v sisteme. Sistemi gredo v stojala,« je dejal Venkataramanan. Težava je v tem, da vsakič, ko se podatki premaknejo iz čipa v paket in iz paketa, pride do zakasnitve in kazni za pasovno širino.

Sendvič podatkovnega centra

Da bi se izognili omejitvam, sta Venkataramanan in njegova ekipa začela znova iz nič.

»Takoj po intervjuju z Elonom me je vprašal, kaj lahko narediš, kar se razlikuje od CPU-jev in GPE-jev za AI. Čutim, da celotna ekipa še vedno odgovarja na to vprašanje.”

Teslova ploščica za vadbo Dojo

To je vodilo do razvoja vadbene ploščice Dojo, samostojne računalniške gruče, ki zavzema pol kubičnega čevlja in zmore 556 TFLOPS zmogljivosti FP32 v paketu s tekočinskim hlajenjem s 15 kW.

Vsaka ploščica je opremljena z 11 GB pomnilnika SRAM in je povezana prek mreže 9 TB/s z uporabo transportnega protokola po meri skozi celoten sklad.

"Ta vadbena ploščica predstavlja neprimerljive količine integracije od računalnika do pomnilnika do napajanja in komunikacije, ne da bi potrebovali dodatna stikala," je dejal Venkataramanan.

Srce vadbene ploščice je Teslin D1, 50 milijard tranzistorjev, ki temelji na 7nm procesu TSMC. Tesla pravi, da vsak D1 zmore 22 TFLOPS zmogljivosti FP32 pri TDP 400 W. Vendar pa Tesla ugotavlja, da je čip sposoben izvesti širok nabor izračunov s plavajočo vejico, vključno z nekaj izračuni po meri.

Teslin Dojo D1 umre

"Če primerjate tranzistorje za kvadratni milimeter, je to verjetno najhujši rob vsega, kar je tam zunaj," je dejal Venkataramanan.

Tesla je nato vzel 25 D1, jih združil za znano dobre matrice in jih nato zapakiral z uporabo TSMC-jeve tehnologije sistema na rezinah, da bi "dosegel ogromno računalniško integracijo pri zelo nizki zakasnitvi in zelo visoki pasovni širini," je dejal.

Vendar sta zasnova sistema na rezinah in navpično zložena arhitektura predstavljala izzive, ko je prišlo do napajanja.

Po mnenju Venkataramanana večina pospeševalnikov danes daje moč neposredno ob silicij. Čeprav je ta pristop dokazan, pomeni, da je treba tem komponentam posvetiti veliko površino pospeševalnika, zaradi česar je za Dojo nepraktičen, je pojasnil. Namesto tega je Tesla svoje čipe zasnoval tako, da zagotavljajo moč neposredno skozi dno matrice.

Vse skupaj

»Iz te ploščice za usposabljanje bi lahko zgradili celoten podatkovni center ali celotno zgradbo, vendar je ploščica za usposabljanje le računalniški del. Moramo ga tudi nahraniti,« je dejal Venkataramanan.

Teslin procesor vmesnika Dojo

Za to je Tesla razvila tudi vmesniški procesor Dojo (DIP), ki deluje kot most med gostiteljsko CPU in vadbenimi procesorji. DIP služi tudi kot vir skupnega pomnilnika visoke pasovne širine (HBM) in kot hitra omrežna kartica 400 Gbit/s.

Vsak DIP ima 32 GB HBM in do pet teh kartic je mogoče povezati z vadbeno ploščico pri 900 GB/s za skupno 4.5 TB/s do gostitelja za skupno 160 GB HBM na ploščico.

Teslini konfiguracijski pari V1 teh ploščic – ali 150 matric D1 – v matriki so podpirali štiri gostiteljske procesorje, od katerih je vsak opremljen s petimi karticami DIP, da bi dosegli zahtevano zmogljivost BF16 ali CFP8 v eksaflopu.

Teslina ureditev V1

Venkataramanan pravi, da je arhitektura skupaj – podrobna tukaj globoko by Naslednja platforma – omogoča Tesli, da premaga omejitve, povezane s tradicionalnimi pospeševalniki, kot sta Nvidia in AMD.

»Kako delujejo tradicionalni pospeševalniki, običajno poskušate v vsak pospeševalnik vgraditi celoten model. Replicirajte ga in nato pretočite podatke skozi vsakega od njih,« je dejal. »Kaj se zgodi, če imamo vedno večje modele? Ti pospeševalniki lahko padejo, ker jim zmanjka pomnilnika.«

To ni nov problem, je opozoril. Nvidijino NV-stikalo na primer omogoča združevanje pomnilnika v velikih skupinah grafičnih procesorjev. Vendar Venkataramanan trdi, da to ne samo dodaja kompleksnosti, ampak uvaja zakasnitev in kompromise glede pasovne širine.

»O tem smo razmišljali že na samem začetku. Naše računalniške ploščice in vsaka od matric so bili narejeni za namestitev velikih modelov,« je dejal Venkataramanan.

Software

Takšna specializirana računalniška arhitektura zahteva poseben sklad programske opreme. Vendar pa sta Venkataramanan in njegova ekipa spoznala, da bo programirljivost Dojo bodisi naredila bodisi uničila.

"Enostavnost programiranja za podobne programske opreme je najpomembnejša, ko načrtujemo te sisteme," je dejal. "Raziskovalci ne bodo čakali, da vaši programerji napišejo ročno napisano jedro za prilagajanje novemu algoritmu, ki ga želimo izvajati."

Da bi to dosegel, je Tesla opustil idejo o uporabi jeder in zasnoval Dojojevo arhitekturo okoli prevajalnikov.

»Uporabili smo PiTorch. Ustvarili smo vmesno plast, ki nam pomaga paralelizirati, da povečamo strojno opremo pod njo. Pod vsem je sestavljena koda,« je dejal. "To je edini način za ustvarjanje skladov programske opreme, ki so prilagodljivi vsem tem prihodnjim delovnim obremenitvam."

Kljub poudarku na prilagodljivosti programske opreme Venkataramanan ugotavlja, da je platforma, ki trenutno deluje v njihovih laboratorijih, zaenkrat omejena na uporabo Tesle.

"Najprej smo osredotočeni na naše notranje stranke," je dejal. »Elon je javno povedal, da bomo čez čas to dali na voljo raziskovalcem, vendar za to nimamo časovnega okvira. ®

Časovni žig: Avgust 24, 2022Avgust 24, 2022