Tesla haluaa viedä koneoppimispiin Dojo PlatoBlockchain Data Intelligenceen. Pystysuuntainen haku. Ai.

Tesla haluaa viedä koneoppimispiin Dojolle

Tummentaakseen yhä suurempien tekoäly- ja koneoppimismallien janoa Tesla on paljastanut Hot Chips 34:ssä runsaasti yksityiskohtia täysin mukautetusta supertietokonearkkitehtuuristaan ​​nimeltä Dojo.

Järjestelmä on pohjimmiltaan massiivinen komposoitava supertietokone, vaikkakin toisin kuin mitä näemme Top 500, se on rakennettu täysin mukautetusta arkkitehtuurista, joka kattaa laskenta-, verkko- ja input/output (I/O) -piin käskysarjaarkkitehtuuriin (ISA), tehonjakoon, pakkaamiseen ja jäähdytykseen. Kaikki se tehtiin nimenomaan tarkoituksena käyttää räätälöityjä, erityisiä koneoppimisharjoitusalgoritmeja mittakaavassa.

"Reaalimaailman tietojenkäsittely on mahdollista vain koneoppimistekniikoiden avulla, olipa kyseessä luonnollisen kielen käsittely, ajaminen kaduilla, jotka on luotu ihmisen näkemiseen ja robotiikkaan, joka on vuorovaikutuksessa jokapäiväisen ympäristön kanssa", Teslan laitteistotekniikan vanhempi johtaja Ganesh Venkataramanan sanoi. pääpuheensa aikana.

Hän kuitenkin väitti, että perinteiset menetelmät hajautettujen työkuormien skaalaamiseksi eivät ole onnistuneet kiihtymään niin nopeasti, kuin se on tarpeen koneoppimisen vaatimusten tasalla. Käytännössä Mooren laki ei leikkaa sitä, eikä järjestelmiä ole saatavilla AI/ML-harjoitteluun suuressa mittakaavassa, nimittäin jokin CPU/GPU-yhdistelmä tai harvinaisemmissa olosuhteissa käyttämällä erikoistekoälykiihdyttimiä. 

”Perinteisesti rakennamme siruja, laitamme ne pakkauksiin, paketit menevät piirilevyille, jotka menevät järjestelmiin. Järjestelmät menevät telineisiin", Venkataramanan sanoi. Ongelmana on, että aina kun data siirtyy sirulta pakkaukseen ja pois pakkauksesta, siihen kohdistuu latenssi- ja kaistanleveyssakko.

Datakeskuksen sandwich

Joten kiertääkseen rajoitukset Venkataramanan ja hänen tiiminsä aloittivat alusta.

"Haastattelussani Elonin kanssa hän kysyi minulta, mitä voit tehdä, mikä eroaa tekoälyn suorittimista ja grafiikkasuorituksista. Minusta tuntuu, että koko tiimi vastaa edelleen tähän kysymykseen.

Teslan Dojo-harjoituslaatta

Tämä johti Dojo-harjoittelulaatan kehittämiseen. Se on itsenäinen laskentaklusteri, jonka koko on puoli kuutiojalkaa ja joka pystyy tuottamaan 556 TFLOPS FP32-suorituskykyä 15 kW:n nestejäähdytteisessä pakkauksessa.

Jokainen laatta on varustettu 11 Gt:n SRAM-muistilla ja on yhdistetty 9 Tt/s kankaaseen käyttämällä mukautettua siirtoprotokollaa koko pinossa.

"Tämä harjoitusruutu edustaa vertaansa vailla olevaa integraatiota tietokoneesta muistiin virransyöttöön, viestintään ilman lisäkytkimiä", Venkataramanan sanoi.

Harjoitusruudun ytimessä on Teslan D1, 50 miljardin transistorin suutin, joka perustuu TSMC:n 7 nm:n prosessiin. Tesla sanoo, että jokainen D1 pystyy tuottamaan 22 TFLOPS FP32-suorituskykyä 400 W:n TDP:llä. Tesla kuitenkin huomauttaa, että siru pystyy suorittamaan monenlaisia ​​liukulukuja, mukaan lukien muutama räätälöity.

Teslan Dojo D1 Die

Teslan Dojo D1 kuolee

"Jos vertaa transistoreita millimetrin neliöihin, tämä on luultavasti kaiken, mitä siellä on, vuotava reuna", Venkataramanan sanoi.

Tesla otti sitten 25 D1:tä, keräsi ne tunnettujen hyvien muotojen mukaan ja pakkasi ne sitten käyttämällä TSMC:n system-on-wafer-teknologiaa saavuttaakseen valtavan määrän laskentaintegraatiota erittäin alhaisella latenssilla ja erittäin suurella kaistanleveydellä, hän sanoi.

System-on-wafer-suunnittelu ja pystysuoraan pinottu arkkitehtuuri toivat kuitenkin haasteita tehonsiirrossa.

Venkataramananin mukaan useimmat kiihdyttimet asettavat tehon suoraan piin viereen. Ja vaikka tämä lähestymistapa on todistettu, se tarkoittaa, että suuri alue kiihdytintä on omistettava näille komponenteille, mikä teki siitä epäkäytännöllisen Dojolle, hän selitti. Sen sijaan Tesla suunnitteli sirunsa toimittamaan tehoa suoraan muotin pohjan läpi. 

Kokoaminen

"Voisimme rakentaa koko datakeskuksen tai kokonaisen rakennuksen tästä koulutusruudusta, mutta harjoitusruutu on vain laskentaosa. Meidän on myös ruokittava sitä, Venkataramanan sanoi.

Teslan Dojo-liitäntäprosessori

Teslan Dojo-liitäntäprosessori

Tätä varten Tesla kehitti myös Dojo Interface Processorin (DIP), joka toimii siltana isäntäprosessorin ja koulutusprosessorien välillä. DIP toimii myös jaetun suuren kaistanleveyden muistin (HBM) lähteenä ja nopeana 400 Gbit/s NIC:nä.

Jokaisessa DIP:ssä on 32 Gt HBM-muistia, ja jopa viisi näistä korteista voidaan liittää harjoitusruutuun nopeudella 900 Gt/s, jolloin kokonaisnopeus on 4.5 Tt/s isäntään, yhteensä 160 Gt HBM-muistia ruutua kohti.

Teslan V1-konfiguraatioparit näistä laatoista – tai 150 D1-muotetta – tukivat neljää isäntäsuoritinta, joista jokainen on varustettu viidellä DIP-kortilla, jotta saavutetaan väitetty BF16- tai CFP8-suorituskyky.

Teslan V1-järjestely

Teslan V1-järjestely

Kokoonpantu, Venkataramanan sanoo, arkkitehtuuri – yksityiskohtainen täällä by Seuraava alusta – Tesla pystyy voittamaan rajoitukset, jotka liittyvät perinteisiin kiihdyttimiin, kuten Nvidia ja AMD.

”Kuinka perinteiset kaasupolkimet toimivat, tyypillisesti jokaiseen kaasupolkimeen yritetään sovittaa koko malli. Toista se ja siirrä sitten tiedot jokaisen läpi", hän sanoi. "Mitä tapahtuu, jos meillä on yhä suurempia malleja? Nämä kiihdyttimet voivat romahtaa, koska niiden muisti loppuu."

Tämä ei ole uusi ongelma, hän huomautti. Nvidian NV-kytkin mahdollistaa esimerkiksi muistin yhdistämisen suuriin GPU-pankkeihin. Venkataramanan kuitenkin väittää, että tämä ei vain lisää monimutkaisuutta, vaan lisää myös latenssia ja kompromisseja kaistanleveyden suhteen.

"Ajattelimme tätä heti alusta alkaen. Laskentalevymme ja jokainen meistimme tehtiin isoihin malleihin sopivaksi”, Venkataramanan sanoi.

Tuotteemme

Tällainen erikoistunut laskenta-arkkitehtuuri vaatii erikoistuneen ohjelmistopinon. Kuitenkin Venkataramanan ja hänen tiiminsä ymmärsivät, että ohjelmoitavuus joko tekisi Dojosta tai rikkoisi sen.

"Ohjelmistokumppanien ohjelmoitavuuden helppous on ensiarvoisen tärkeää, kun suunnittelemme näitä järjestelmiä", hän sanoi. "Tutkijat eivät odota, että ohjelmistohenkilönne kirjoittavat käsin kirjoitetun ytimen mukautuakseen uuteen algoritmiin, jota haluamme käyttää."

Tätä varten Tesla luopui ytimien käytöstä ja suunnitteli Dojon arkkitehtuurin kääntäjien ympärille.

”Käytimme PiTorchia. Loimme välikerroksen, joka auttaa meitä rinnastamaan sen alla olevan laitteiston skaalaamaan. Kaiken alla on käännetty koodi, hän sanoi. "Tämä on ainoa tapa luoda ohjelmistopinoja, jotka mukautuvat kaikkiin tuleviin työkuormiin."

Ohjelmiston joustavuuden korostamisesta huolimatta Venkataramanan huomauttaa, että heidän laboratorioissaan tällä hetkellä käynnissä oleva alusta on toistaiseksi rajoitettu Teslan käyttöön.

"Keskitymme ensin sisäisiin asiakkaisiimme", hän sanoi. ”Elon on julkistanut, että ajan myötä tuomme tämän tutkijoiden saataville, mutta meillä ei ole sille aikarajaa. ®

Aikaleima:

Lisää aiheesta Rekisteri