Tesla soovib masinõpperäni viia Dojo PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Tesla soovib masinõpperäni Dojosse viia

Et kustutada janu üha suuremate tehisintellekti ja masinõppe mudelite järele, on Tesla avaldanud Hot Chips 34-s palju üksikasju oma täielikult kohandatud superarvuti arhitektuuri kohta nimega Dojo.

Süsteem on sisuliselt massiivne komponeeritav superarvuti, kuigi erinevalt sellest, mida me sellel näeme Top 500, on see üles ehitatud täiesti kohandatud arhitektuurist, mis hõlmab arvutus-, võrgu- ja sisend/väljund (I/O) räni kuni käsukomplekti arhitektuuri (ISA), toiteedastuse, pakkimise ja jahutuseni. Kõik see tehti selge eesmärgiga käitada kohandatud spetsiifilisi masinõppe koolitusalgoritme mastaabis.

"Reaalse maailma andmetöötlus on teostatav ainult masinõppetehnikate abil, olgu selleks loomulikkeelne töötlemine, sõitmine tänavatel, mis on loodud inimese nägemiseks ja robootika liidestamiseks igapäevase keskkonnaga," ütles Tesla riistvaratehnika vanemdirektor Ganesh Venkataramanan. oma peakõne ajal.

Siiski väitis ta, et traditsioonilised meetodid hajutatud töökoormuste skaleerimiseks ei ole suutnud kiirendada masinõppe nõudmistega sammu pidamiseks. Tegelikult ei piira Moore'i seadus seda ja ka süsteeme pole saadaval AI/ML-i koolituse jaoks laialdaselt, nimelt CPU/GPU või harvematel juhtudel spetsiaalsete tehisintellekti kiirendite abil. 

“Traditsiooniliselt ehitame kiipe, paneme need pakenditele, pakendid lähevad PCB-dele, mis lähevad süsteemidesse. Süsteemid lähevad riiulitesse, ”ütles Venkataramanan. Probleem on selles, et iga kord, kui andmed liiguvad kiibilt pakendisse ja pakendist välja, kaasneb sellega latentsus- ja ribalaiuse trahv.

Andmekeskuse võileib

Nii et piirangutest ülesaamiseks alustasid Venkataramanan ja tema meeskond nullist.

"Kohe minu intervjuus Eloniga küsis ta minult, mida saate teha, mis erineb AI jaoks mõeldud protsessoritest ja GPU-dest. Ma tunnen, et kogu meeskond vastab sellele küsimusele endiselt.

Tesla Dojo koolitusplaat

Selle tulemusel töötati välja Dojo treeningplaat, iseseisev arvutusklaster, mis võtab enda alla poole kuupjalaga ja suudab FP556 jõudlust 32 TFLOPS-i 15 kW vedelikjahutusega pakendis.

Iga plaat on varustatud 11 GB SRAM-iga ja on ühendatud 9 TB/s kanga kaudu, kasutades kohandatud transpordiprotokolli kogu virna ulatuses.

"See koolitusplaat esindab enneolematult suurt integratsiooni arvutist mälusse toite edastamiseni ja sideni, ilma et oleks vaja täiendavaid lüliteid," ütles Venkataramanan.

Treeningplaadi keskmes on Tesla D1, 50 miljardi transistori stants, mis põhineb TSMC 7 nm protsessil. Tesla sõnul on iga D1 võimeline FP22 jõudlust 32 TFLOPS-i TDP-ga 400 W. Tesla märgib siiski, et kiip on võimeline käivitama laia valikut ujukomaarvutusi, sealhulgas mõnda kohandatud arvutust.

Tesla Dojo D1 Die

Tesla Dojo D1 sureb

"Kui võrrelda transistore millimeetri ruuduga, on see tõenäoliselt kõige selle verine serv," ütles Venkataramanan.

Seejärel võttis Tesla 25 D1-d, eraldas need teadaolevalt heade stantside jaoks ja pakkis need seejärel TSMC süsteem-plaadil tehnoloogia abil, et "saavutada tohutu arvutuste integreerimine väga madala latentsusaja ja väga suure ribalaiusega", ütles ta.

Süsteemi-plaadil konstruktsioon ja vertikaalselt virnastatud arhitektuur tõid aga väljakutseid võimsuse edastamisel.

Venkataramanani sõnul asetab enamik kiirendeid tänapäeval võimsuse otse räni kõrvale. Ja kuigi see lähenemine on tõestatud, tähendab see, et nendele komponentidele tuleb pühendada suur osa kiirendist, mis muutis selle Dojo jaoks ebapraktiliseks, selgitas ta. Selle asemel kujundas Tesla oma kiibid nii, et need edastaksid võimsust otse matriitsi põhja kaudu. 

Haara see kõik koos

„Sellest koolituspaanist võiksime ehitada terve andmekeskuse või terve hoone, kuid koolitusplaat on vaid arvutuslik osa. Peame seda ka toitma, ”ütles Venkataramanan.

Tesla Dojo liidese protsessor

Tesla Dojo liidese protsessor

Selleks töötas Tesla välja ka Dojo liideseprotsessori (DIP), mis toimib sillana host-CPU ja treeningprotsessorite vahel. DIP toimib ka jagatud suure ribalaiusega mälu (HBM) allikana ja kiire 400 Gbit/s NIC-na.

Igal DIP-l on 32 GB HBM-i ja kuni viis neist kaartidest saab ühendada treeningpaaniga kiirusega 900 GB/s, et kogukiirus on 4.5 TB/s hostiga, kokku 160 GB HBM-i ühe paani kohta.

Tesla V1 konfiguratsioonipaarid neist plaatidest – ehk 150 D1 stantsist – toetasid massiivi nelja host-protsessorit, millest igaüks on varustatud viie DIP-kaardiga, et saavutada väidetav BF16 või CFP8 jõudluse eksaflop.

Tesla V1 kokkulepe

Tesla V1 kokkulepe

Kokkupanduna ütleb Venkataramanan, et arhitektuur on üksikasjalik põhjalikult siin by Järgmine platvorm – võimaldab Teslal ületada piirangud, mis on seotud traditsiooniliste kiirenditega nagu Nvidia ja AMD.

"Kuidas traditsioonilised kiirendid töötavad, proovite tavaliselt igasse kiirendisse mahutada terve mudeli. Kopeerige seda ja seejärel edastage andmed nende kaudu, " ütles ta. “Mis juhtub, kui meil on aina suuremad mudelid? Need kiirendid võivad tühjaks kukkuda, kuna neil saab mälu otsa.

Ta märkis, et see pole uus probleem. Näiteks Nvidia NV-lüliti võimaldab koondada mälu suurte GPU-de pankade vahel. Kuid Venkataramanan väidab, et see mitte ainult ei lisa keerukust, vaid toob kaasa latentsuse ja kompromisse ribalaiuse osas.

"Mõtlesime sellele algusest peale. Meie arvutusplaadid ja kõik stantsid valmistati suurte mudelite paigaldamiseks, ”ütles Venkataramanan.

tarkvara

Selline spetsiaalne arvutusarhitektuur nõuab spetsiaalset tarkvarapakki. Kuid Venkataramanan ja tema meeskond tunnistasid, et programmeeritavus muudab Dojo või rikub selle.

"Nende süsteemide kavandamisel on tarkvara analoogide programmeeritavuse lihtsus esmatähtis," ütles ta. "Teadlased ei oota, kuni teie tarkvarainimesed kirjutavad käsitsi kirjutatud kerneli, et kohaneda uue algoritmiga, mida me tahame käivitada."

Selleks loobus Tesla tuumade kasutamise ideest ja kujundas Dojo arhitektuuri kompilaatorite ümber.

"Me kasutasime PiTorchi. Lõime vahekihi, mis aitab meil paralleelselt selle all olevat riistvara skaleerida. Kõige all on kompileeritud kood,” ütles ta. "See on ainus viis tarkvaravirnade loomiseks, mis on kohandatavad kõigi tulevaste töökoormustega."

Vaatamata rõhuasetusele tarkvara paindlikkusele, märgib Venkataramanan, et praegu nende laborites töötav platvorm on praegu piiratud Tesla kasutamisega.

"Keskendume esmalt oma siseklientidele," ütles ta. "Elon on avalikustanud, et aja jooksul teeme selle teadlastele kättesaadavaks, kuid meil pole selleks ajakava. ®

Ajatempel:

Veel alates Register