Suuremahulise närvivõrgu koolituse kiirendamine protsessoritel ThirdAI ja AWS Gravitoni abil | Amazoni veebiteenused

Suuremahulise närvivõrgu koolituse kiirendamine protsessoritel ThirdAI ja AWS Gravitoni abil | Amazoni veebiteenused

Selle külalispostituse on kirjutanud Vihan Lakshman, Tharun Medini ja Anshumali Shrivastava ThirdAI-st.

Laiaulatuslik süvaõpe on viimasel ajal toonud kaasa revolutsioonilisi edusamme paljudes valdkondades. Kuigi tehisintellekti hämmastav areng on endiselt märkimisväärne, on nende mudelite koolitamiseks vajalikud finantskulud ja energiatarbimine muutunud kriitiliseks kitsaskohaks, kuna on vaja spetsiaalset riistvara, nagu GPU-d. Traditsiooniliselt on isegi tagasihoidliku suurusega närvimudelid nõudnud koolituseks kulukaid riistvarakiirendeid, mis piirab nende organisatsioonide arvu, kellel on rahalisi vahendeid selle tehnoloogia täielikuks kasutamiseks.

2021. aastal asutatud ThirdAI Corp. on idufirma, mis on pühendunud tehisintellektitehnoloogiate demokratiseerimisele algoritmiliste ja tarkvarauuenduste kaudu, mis muudavad põhjalikult süvaõppe majandust. Oleme välja töötanud hõreda süvaõppemootori, mida tuntakse kui BOLT, mis on spetsiaalselt loodud koolitamiseks ja mudelite juurutamiseks standardse CPU riistvaraga, mitte kulukatele ja energiamahukatele kiirenditele nagu GPU-d. Paljudel meie klientidel on teatasid suurest rahulolust ThirdAI võimega koolitada ja juurutada süvaõppemudeleid kriitiliste äriprobleemide lahendamiseks kulutasuval protsessori infrastruktuuril.

Selles postituses uurime AWS Graviton3 protsessori potentsiaali kiirendada närvivõrgu koolitust ThirdAI ainulaadse CPU-põhise süvaõppemootori jaoks.

Suure jõudlusega protsessorite eelised

ThirdAI-s saavutame need läbimurded protsessorite tõhusas närvivõrkude treenimises patenteeritud dünaamiliste hõredate algoritmide abil, mis aktiveerivad antud sisendi jaoks ainult neuronite alamhulga (vt järgmist joonist), vähendades sellega vajadust täielike tihedate arvutuste järele. Erinevalt teistest hõreda närvivõrgu koolituse lähenemisviisidest kasutab ThirdAI asukohatundlik räsimine neuronite dünaamiliseks valimiseks antud sisendi jaoks, nagu on näidatud allolevatel paksudel ridadel. Teatud juhtudel oleme isegi täheldanud, et meie hõredad CPU-põhised mudelid treenida kiiremini kui GPU-de võrreldav tihe arhitektuur.

Tihe närviarhitektuur rasvaste joontega, mis näitavad, millised neuronid on valitud

Arvestades, et paljud meie sihtkliendid tegutsevad pilves – ja nende hulgas enamik kasutab AWS-i –, proovisime põnevusega AWS Graviton3 protsessorit, et näha, kas Amazoni räniuuenduse muljetavaldav hinna ja kvaliteedi paranemine tooks kaasa meie ainulaadse töökoormuse. hõreda närvivõrgu koolituse ja seeläbi klientidele täiendavat kokkuhoidu. Kuigi nii teadlaskond kui ka AWS Gravitoni meeskond on kiirendamisel põnevaid edusamme teinud närvivõrgu järeldus CPU eksemplaride puhul oleme meie, ThirdAI, meie teadmiste kohaselt esimesed, kes uurivad tõsiselt, kuidas tõhusalt protsessoritel närvimudeleid treenida.

Nagu meie tulemused näitavad, täheldasime AWS Graviton3-ga märkimisväärset treeningukiirust võrreldes võrreldavate Inteli ja NVIDIA eksemplaridega mitme tüüpilise modelleerimise töökoormuse korral.

Eksemplaride tüübid

Oma hindamiseks võtsime arvesse kahte võrreldavat AWS-protsessori eksemplari: c6i.8xlarge masinat, mille toiteallikaks on Inteli Ice Lake'i protsessor, ja c7g.8xlarge'i, mida toidab AWS Graviton3. Järgmine tabel võtab kokku iga eksemplari üksikasjad.

Juhtum vCPU RAM (GB) Protsessor Soovi korral hind (us-ida-1)
c7g.8xsuur 32 64 AWS Graviton3 $ 1.1562 / h
c6i.8xlarge 32 64 Inteli jääjärv $ 1.36 / h
g5g.8xlarge (GPU) 32 64 16 GB GPU-mäluga AWS Graviton2 protsessorid 1 NVIDIA T4G GPU-ga $ 1.3720 / h

Hindamine 1: Ekstreemne klassifikatsioon

Esimesel hindamisel keskendume äärmusliku mitme sildi klassifitseerimise (XMC) probleemile, mis on üha populaarsemaks muutuv masinõppe (ML) paradigma, millel on palju praktilisi rakendusi otsingus ja soovitustes (sh Amazon). Oma hindamisel keskendume avalikkusele Amazon-670K toote soovitamise ülesanne, mis sisendtoote põhjal tuvastab sarnased tooted enam kui 670,000 XNUMX kaubast koosnevast kollektsioonist.

Selles katses võrdleme ThirdAI BOLT-mootorit TensorFlow 2.11 ja PyTorch 2.0-ga eespool nimetatud riistvaravalikute põhjal: Intel Ice Lake, AWS Graviton3 ja NVIDIA T4G GPU. Inteli ja AWS Gravitoni katsetes kasutame AWS Deep Learning AMI (Ubuntu 18.04) versiooni 59.0. GPU hindamiseks kasutame NVIDIA GPU-le optimeeritud Arm64 AMI, saadaval AWS Marketplace'i kaudu. Selle hindamise jaoks kasutame SLIDE mudeli arhitektuur, mis saavutab nii konkurentsivõimelise jõudluse selles äärmuslikus klassifitseerimisülesandes kui ka tugeva treeningu jõudluse protsessoritel. Meie TensorFlow ja PyTorchi võrdluste jaoks rakendame SLIDE mitmekihilise perceptroni (MLP) arhitektuuri analoogset versiooni tihedate maatrikskorrutustega. Koolitame iga mudelit viie epohhi jooksul (täielik läbib koolitusandmestiku) fikseeritud partii suurusega 256 ja õppimiskiirusega 0.001. Me täheldasime, et kõik mudelid saavutasid sama testi täpsuse 33.6, XNUMX%.

Järgmises tabelis võrreldakse ThirdAI BOLT-i treeningaega TensorFlow 2.11 ja PyTorch 2.0-ga Amazon670k äärmusliku klassifikatsiooni etalonil. Kõik mudelid saavutavad sama testi täpsuse. Täheldame, et AWS Graviton3 kiirendab oluliselt BOLTi jõudlust, ilma et oleks vaja kohandada – ligikaudu 40%. ThirdAI BOLT AWS Graviton3-l saavutab ka tunduvalt kiirema treeningu kui GPU-l treenitud TensorFlow või PyTorchi mudelid. Pange tähele, et NVIDIA GPU võrdlusalusel pole ThirdAI tulemust, kuna BOLT on loodud töötama protsessorites. Me ei lisa TensorFlow ja PyTorchi CPU võrdlusaluseid liiga pika treeninguaja tõttu.

Amazon 670k Treeningaeg Tulpdiagramm, mis võrdleb eksemplare c6i.8xlarge vs c7g.8xlarge

Järgmises tabelis on kokkuvõte iga protsessori/spetsiaalse protsessori (GPU) treeninguajast ja testimise täpsusest.

Protsessor Mootor Koolitusaeg (a) Testi täpsus
Intel Ice Lake (c6i.8xlarge) BOLT 1470 33.6
AWS Graviton3 (c7g.8xlarge) BOLT 935 33.6
NVIDIA T4G (g5g.8xlarge) TensorFlow 7550 33.6
NVIDIA T4G (g5g.8xlarge) PyTorch 5130 33.6

Hindamine 2: Yelp Polaarsuse sentimentide analüüs

Teiseks hindamiseks keskendume populaarsetele Yelpi polaarsus sentimentanalüüsi võrdlusalus, mis hõlmab arvustuse klassifitseerimist positiivseks või negatiivseks. Selle hindamise jaoks võrdleme ThirdAI-sid Universal Deep Transformers (UDT) mudel peenhäälestatud vastu DistilBERT võrk, tihendatud eelkoolitatud keelemudel, mis saavutab peaaegu tipptasemel jõudluse vähendatud järelduste latentsusega. Kuna DistilBERT-i mudelite peenhäälestus protsessoris võtaks liiga kaua aega (vähemalt mitu päeva), võrdleme ThirdAI protsessoripõhiseid mudeleid GPU-l peenhäälestatud DistilBERT-iga. Koolitame kõik mudelid partii suurusega 256 ühekordseks andmete läbimiseks (üks epohh). Märgime, et BOLT-i abil saame saavutada pisut suurema täpsuse täiendava andmete läbimisega, kuid järjepidevuse huvides piirdume selles hindamises ühe läbimisega.

Nagu on näidatud järgmisel joonisel, kiirendab AWS Graviton3 taas ThirdAI UDT-mudeli treenimist märkimisväärselt. Lisaks suudab UDT saavutada DistilBERT-iga võrreldava testi täpsuse murdosa treeningajast ja ilma GPU-d kasutamata. Märgime, et hiljuti on tööd tehtud ka aastal peenhäälestuse optimeerimine Yelp Polarity kohta protsessoritel. Meie mudelid saavutavad siiski suurema tõhususe ja väldivad eelkoolituskulusid, mis on märkimisväärsed ja nõuavad riistvarakiirendite, näiteks GPU-de, kasutamist.

Treeningaeg Yelp Polarity C7g vs c6i

Järgmine tabel võtab kokku treeningu aja, testi täpsuse ja järelduste latentsuse.

Protsessor Mootor MUDEL Koolitusaeg (a) Testi täpsus Järeldus latentsus (ms)
Intel Icelake (c6i.8xlarge) BOLT UDT 47 93.2 <1
Graviton3 (c7g.8xlarge) BOLT UDT 29 92.9 <1
T4G GPU (g5g.8xlarge) TensorFlow DistilBERT 4200 93.3 8.7
T4G GPU (g5g.8xlarge) PyTorch DistilBERT 3780 93.4 8.3

3. hinnang: mitme klassi teksti klassifikatsioon (DBPedia)

Lõplikuks hindamiseks keskendume teksti mitme klassi klassifitseerimise probleemile, mis hõlmab enam kui kahe väljundklassi komplekti antud sisendtekstile sildi määramist. Keskendume sellele DBPedia etalon, mis koosneb 14 võimalikust väljundklassist. Jällegi näeme, et AWS Graviton3 kiirendab UDT jõudlust võrreldes võrreldava Inteli eksemplariga ligikaudu 40%. Samuti näeme, et BOLT saavutab võrreldavaid tulemusi DistilBERT-i trafopõhise mudeliga, mis on GPU-l peenhäälestatud, saavutades samal ajal alla millisekundilise latentsuse.

Kolmas AI BOLTi treeningaeg mudelil c7g vs c6i

Järgmine tabel võtab kokku treeningu aja, testi täpsuse ja järelduste latentsuse.

Protsessor Mootor MUDEL Koolitusaeg (a) Testi täpsus Järeldus latentsus (ms)
Intel Icelake (c6i.8xlarge) BOLT UDT 23 98.23 <1
Graviton3 (c7g.8xlarge) BOLT UDT 14 98.10 <1
T4G GPU (g5g.8xlarge) TensorFlow DistilBERT 4320 99.23 8.6
T4G GPU (g5g.8xlarge) PyTorch DistilBERT 3480 99.29 8

Alustage ThirdAI-ga AWS Gravitonis

Oleme loonud oma BOLT-tarkvara nii, et see ühilduks kõigi peamiste CPU-arhitektuuridega, sealhulgas AWS Graviton3-ga. Tegelikult ei pidanud me oma koodi AWS Graviton3 töötamiseks kohandama. Seetõttu saate ilma täiendava pingutuseta kasutada ThirdAI-d mudelikoolituseks ja AWS Graviton3 juurutamiseks. Lisaks, nagu on üksikasjalikult kirjeldatud meie hiljutises uurimistöö valge raamat, oleme välja töötanud uudsete matemaatiliste tehnikate komplekti, et automaatselt häälestada meie hõredate mudelitega seotud spetsiaalsed hüperparameetrid, võimaldades meie mudelitel kohe karbist välja võttes hästi töötada.

Samuti märgime, et meie mudelid töötavad hästi peamiselt otsingu-, soovitus- ja loomuliku keele töötlemise ülesannete jaoks, mis tavaliselt sisaldavad suuri ja suuremõõtmelisi väljundruume ja nõuavad äärmiselt madalat järelduste latentsust. Töötame aktiivselt oma meetodite laiendamise nimel täiendavatele domeenidele, nagu arvutinägemine, kuid pidage meeles, et meie tõhususe täiustused ei kehti praegu kõigis ML-domeenides.

Järeldus

Selles postituses uurisime AWS Graviton3 protsessori potentsiaali kiirendada ThirdAI ainulaadse CPU-põhise süvaõppemootori närvivõrgu koolitust. Meie etalonid otsingu, teksti klassifitseerimise ja soovituste võrdlusnäitajate kohta näitavad, et AWS Graviton3 võib kiirendada ThirdAI mudelitreeningu töökoormust 30–40% võrreldes võrreldavate x86 eksemplaridega, kusjuures hinna ja kvaliteedi paranemine on peaaegu 50%. Lisaks, kuna AWS Graviton3 eksemplarid on saadaval madalama hinnaga kui analoogsed Inteli ja NVIDIA masinad ning võimaldavad lühemat treenimis- ja järeldusaega, saate AWS-i väljamaksega kasutusmudeli väärtust veelgi avada, kasutades madalamaid kulusid. masinad lühemaks ajaks.

Oleme AWS Graviton3 hinna ja jõudluse kokkuhoiu üle väga põnevil ning püüame need täiustused oma klientidele edasi anda, et nad saaksid nautida kiiremat ML-treeningut ja soodsate protsessorite parema jõudluse põhjal järeldusi. AWS-i klientidena tunneme rõõmu kiirusest, millega AWS Graviton3 võimaldab meil oma mudeleid katsetada, ja ootame edaspidi AWS-i tipptasemel räniuuendust. Gravitoni tehniline juhend on hea ressurss, mida kaaluda oma ML-i töökoormuse hindamisel Gravitonis töötamiseks. Võite proovida ka Graviton t4g eksemplare tasuta prooviversioon.

Selle postituse sisu ja arvamused on kolmandast osapoolest autori omad ja AWS ei vastuta selle postituse sisu ega täpsuse eest. Ajaveebi kirjutamise ajal olid kõige aktuaalsemad eksemplarid c6i ja seetõttu tehti võrdlust c6i eksemplaridega.


Teave Autor

Vihan Lakshman – Vihan Lakshman on ThirdAI Corp. teadur, kes keskendub ressursitõhusa süvaõppe süsteemide arendamisele. Enne ThirdAI-d töötas ta Amazonis rakendusteadlasena ning omandas Stanfordi ülikoolis bakalaureuse- ja magistrikraadi. Vihan on ka riikliku teadusfondi teadusstipendiumi saaja.

Tharun Medini – Tharun Medini on ThirdAI Corp. kaasasutaja ja tehnoloogiadirektor. Doktorikraadi omandas ta Rice'i ülikoolis teemal „Otsingu- ja teabeotsingu räsimisalgoritmid”. Enne ThirdAI-d töötas Tharun Amazonis ja Targetis. Tharun on oma uurimistöö eest pälvinud mitmeid auhindu, sealhulgas Ken Kennedy Instituudi BP stipendium, Ameerika India Inseneride Seltsi stipendium ja Rice'i ülikooli lõpetajate stipendium.

Anshumali Shrivastava – Anshumali Shrivastava on Rice'i ülikooli arvutiteaduse osakonna dotsent. Ta on ka ettevõtte ThirdAI Corp asutaja ja tegevjuht, mis demokratiseerib tehisintellekti tarbekaupade riistvaraks tarkvarauuenduste kaudu. Tema laialdased uurimishuvid hõlmavad tõenäosuslikke algoritme ressursse säästva süvaõppe jaoks. 2018. aastal nimetas Science News ta üheks parimaks alla 10-aastaseks teadlaseks, keda vaadata. Ta on pälvinud riikliku teadusfondi karjääriauhinna, õhujõudude teadusuuringute büroo noore uurija auhinna, Amazoni masinõppe uurimistöö auhinna ja Adobe andmeteaduse uurimistöö auhinna. Ta on võitnud arvukalt paberauhindu, sealhulgas parima paberi auhinnad NIPS 40 ja MLSys 2014 ning kõige reprodutseeritavama paberi auhinna SIGMOD 2022. Tema tööd tõhusate masinõppetehnoloogiate alal protsessorites on kajastanud populaarne ajakirjandus, sealhulgas Wall Street Journal, New York Times, TechCrunch, NDTV jne.

Ajatempel:

Veel alates AWS-i masinõpe