Vähendage oma masinõppe töökoormuse energiatarbimist kuni 90% AWS-i spetsiaalselt ehitatud kiirenditega | Amazoni veebiteenused

Vähendage oma masinõppe töökoormuse energiatarbimist kuni 90% AWS-i spetsiaalselt ehitatud kiirenditega | Amazoni veebiteenused

Masinõppe (ML) insenerid on traditsiooniliselt keskendunud tasakaalu leidmisele mudelikoolituse ning juurutuskulude ja jõudluse vahel. Jätkusuutlikkus (energiatõhusus) on üha enam muutumas klientide lisaeesmärgiks. See on oluline, kuna ML-mudelite koolitamine ja seejärel treenitud mudelite kasutamine prognooside tegemiseks (järelduste tegemiseks) võivad olla väga energiamahukad ülesanded. Lisaks on üha rohkem meie ümber olevaid rakendusi ML-iga imbunud ja iga päev luuakse uusi ML-toega rakendusi. Populaarne näide on OpenAI ChatGPT, mille toiteallikaks on nüüdisaegne suur keelemudel (LMM). Viitamiseks GPT-3, varasema põlvkonna LLM sellel on 175 miljardit parameetrit ja see nõuab kuudepikkust pidevat koolitust tuhandete kiirendatud protsessorite klastris. The Carbontrackeri uuring hinnangute kohaselt võib GPT-3 nullist väljaõpetamine spetsiaalsete riistvarakiirendite abil eraldada kuni 85 tonni CO2 ekvivalenti.

On mitmeid viise, kuidas AWS võimaldab ML-i praktikutel oma töökoormuse keskkonnamõju vähendada. Üks võimalus on pakkuda ettekirjutavad juhised oma tehisintellekti/ML-i töökoormuste jätkusuutlikkuse tagamiseks kavandamiseks. Teine võimalus on pakkuda hallatud ML koolitus- ja orkestreerimisteenuseid, nagu Amazon SageMaker Studio, mis rebib ja suurendab automaatselt ML-i ressursse, kui seda ei kasutata, ning pakub hulgaliselt kasutusvalmis tööriistu, mis säästab kulusid ja ressursse. Teine oluline tegur on arendamine energiatõhusad, suure jõudlusega, spetsiaalselt ehitatud kiirendid ML mudelite koolitamiseks ja juurutamiseks.

Selle postituse keskmes on riistvara kui jätkusuutliku ML-i hoob. Tutvustame hiljutiste AWS-i läbiviidud jõudlus- ja energiatarbimise katsete tulemusi, mis mõõdavad energiatõhususe eeliseid, mida võite oodata sügava õppetöökoormuse üleviimisel muudelt järeldustele ja koolitustele optimeeritud kiirendatud süsteemidest. Amazon Elastic Compute Cloud (Amazon EC2) eksemplarid AWS Inferentia ja AWS Trainium. Inferentia ja Trainium on AWS-i hiljutine täiendus oma spetsiaalselt ehitatud kiirendite portfelli spetsiaalselt Amazoni loodud Annapurna laborid ML järelduste ja koolituse töökoormuste jaoks.

AWS Inferentia ja AWS Trainium jätkusuutliku ML jaoks

Et pakkuda teile realistlikke numbreid AWS Inferentia ja AWS Trainiumi energiasäästupotentsiaali kohta reaalses rakenduses, oleme läbi viinud mitmeid energiatarbimise võrdluskatseid. Oleme koostanud need võrdlusalused, pidades silmas järgmisi põhikriteeriume.

  • Esiteks tahtsime veenduda, et jäädvustasime testimise töökoormusega seotud otsese energiatarbimise, sealhulgas mitte ainult ML-kiirendi, vaid ka arvutusi, mälu ja võrku. Seetõttu mõõtsime oma testi seadistuses võimsust sellel tasemel.
  • Teiseks tagasime koolituse ja järelduste töökoormuste käitamisel, et kõik eksemplarid töötaksid vastavate füüsilise riistvarapiirangute piires, ja teostasime mõõtmised alles pärast selle piirangu saavutamist, et tagada võrreldavus.
  • Lõpuks tahtsime olla kindlad, et selles postituses kirjeldatud energiasäästu on võimalik saavutada praktilises reaalses rakenduses. Seetõttu kasutasime võrdlusuuringuteks ja testimiseks tavalisi klientidest inspireeritud ML-i kasutusjuhtumeid.

Tulemused on esitatud järgmistes jaotistes.

Järelduskatse: reaalajas dokumentide mõistmine LayoutLM-iga

Järeldus, erinevalt koolitusest, on pidev, piiramatu töökoormus, millel ei ole määratletud lõpetamispunkti. Seetõttu moodustab see suure osa ML-töökoormuse eluaegsest ressursitarbimisest. Õigete järelduste tegemine on suure jõudluse, madalate kulude ja jätkusuutlikkuse (parem energiatõhusus) saavutamise võti kogu ML-i elutsükli jooksul. Järeldusülesannete puhul on kliendid tavaliselt huvitatud teatud järeldusmäära saavutamisest, et olla kursis neelamisnõudlusega.

Selles postituses esitatud eksperiment on inspireeritud reaalajas dokumentide kasutamisest arusaamisest, mis on levinud rakendus sellistes tööstusharudes nagu pangandus või kindlustus (näiteks nõuete või taotlusvormide töötlemiseks). Täpsemalt valime PaigutusLM, eelkoolitatud trafo mudel, mida kasutatakse dokumentide pilditöötluseks ja teabe väljavõtmiseks. Seadsime SLA sihttasemeks 1,000,000 XNUMX XNUMX järeldust tunnis, mida sageli peetakse reaalajaks, ja seejärel määrame kaks riistvarakonfiguratsiooni, mis vastavad sellele nõudele: üks Amazon EC2 Inf1 eksemplarid, millel on AWS Inferentia, ja üks, mis kasutab võrreldavaid kiirendatud EC2 eksemplare, mis on optimeeritud järeldustoimingute jaoks. Kogu katse jooksul jälgime mitmeid näitajaid, et mõõta mõlema riistvarakonfiguratsiooni jõudlust, kulusid ja energiatõhusust. Tulemused on toodud järgmisel joonisel.

Vähendage oma masinõppe töökoormuse energiatarbimist kuni 90% AWS-i spetsiaalselt ehitatud kiirenditega | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järelduste võrdlusaluste jõudluse, kulu ja energiatõhususe tulemused

AWS Inferentia pakub 6.3 korda suuremat järelduste läbilaskevõimet. Selle tulemusel saate Inferentiaga sama reaalajas LayoutLM-põhise dokumendimõistmise töökoormuse käitada vähematel eksemplaridel (6 AWS Inferentia eksemplari vs. 33 muud järelduste jaoks optimeeritud kiirendatud EC2 eksemplari, mis võrdub 82% vähendamisega), kulutab vähem. kui kümnendik (-92%) protsessis kasutatavast energiast, saavutades samal ajal oluliselt madalama järelduse maksumuse (2 USD vs. 25 USD miljoni järelduse kohta, mis võrdub 91% kulude vähendamisega).

Treeningeksperiment: BERT-i koolitus suur nullist

Koolitus, erinevalt järeldamisest, on piiratud protsess, mida korratakse palju harvemini. ML-i insenerid on tavaliselt huvitatud klastri kõrgest jõudlusest, et vähendada treeninguaega, hoides samal ajal kulusid kontrolli all. Energiatõhusus on teisejärguline (samas kasvav) probleem. AWS Trainiumi puhul pole kompromissiotsust: ML-i insenerid saavad kasu kõrgest treeningtulemusest, optimeerides samal ajal kulusid ja vähendades keskkonnamõju.

Selle illustreerimiseks valime BERT Suur, populaarne keelemudel, mida kasutatakse loomuliku keele mõistmiseks, näiteks vestlusrobotipõhine küsimustele vastamine ja vestluse vastuse ennustamine. Hästi toimiva BERT Large mudeli nullist väljaõpetamiseks on tavaliselt vaja töödelda 450 miljonit järjestust. Võrdleme kahte klastri konfiguratsiooni, millest igaühel on fikseeritud suurus 16 eksemplari ja mis on võimelised BERT Large'i nullist välja õpetama (450 miljonit jada töödeldud) vähem kui päevaga. Esimene kasutab traditsioonilisi kiirendatud EC2 eksemplare. Teine seadistus kasutab Amazon EC2 Trn1 eksemplarid funktsiooniga AWS Trainium. Jällegi võrdleme mõlemat konfiguratsiooni nii treeningu tulemuslikkuse, kulude kui ka keskkonnamõjude (energiatõhususe) osas. Tulemused on näidatud järgmisel joonisel.

Vähendage oma masinõppe töökoormuse energiatarbimist kuni 90% AWS-i spetsiaalselt ehitatud kiirenditega | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Koolituse võrdlusaluste jõudlus-, kulu- ja energiatõhususe tulemused

Katsetes ületasid AWS Trainiumil põhinevad eksemplarid võrreldavaid treeningu jaoks optimeeritud kiirendatud EC2 eksemplare 1.7 korda tunnis töödeldud järjestuste osas, vähendades kogu treeninguaega 43% (2.3 tundi võrreldes 4 tunniga võrreldavatel kiirendatud EC2 eksemplaridel). . Selle tulemusel on Trainiumil põhineva eksemplariklastri kasutamisel BERT Large'i nullist väljaõppe kogu energiatarbimine ligikaudu 29% väiksem võrreldes sama suurusega võrreldavate kiirendatud EC2 eksemplaride kobaraga. Need jõudluse ja energiatõhususe eelised kaasnevad ka märkimisväärse kulude paranemisega: BERT ML-i töökoormusega seotud koolituskulud on Trainiumi eksemplaridel ligikaudu 62% madalamad (787 USD versus 2091 USD täistreeningu kohta).

AWS-i spetsiaalselt ML-i jaoks mõeldud kiirenditega alustamine

Kuigi kõik siin läbiviidud katsed kasutavad loomuliku keele töötlemise (NLP) domeeni standardmudeleid, on AWS Inferentia ja AWS Trainium suurepärased paljude teiste keerukate mudeliarhitektuuridega, sealhulgas LLM-idega ja kõige keerulisematega. generatiivne AI arhitektuur, mida kasutajad loovad (nt GPT-3). Need kiirendid saavad eriti hästi hakkama üle 10 miljardi parameetriga mudelite või arvutinägemismudelitega, nagu stabiilne difusioon (vt Mudeli arhitektuuri sobitamise juhised lisateabe saamiseks). Tõepoolest, paljud meie kliendid kasutavad juba Inferentiat ja Trainiumit paljude erinevate asjade jaoks ML kasutusjuhtumid.

Täieliku süvaõppe töökoormuste käitamiseks AWS Inferentia- ja AWS Trainium-põhistel eksemplaridel saate kasutada AWS Neuron. Neuron on täielik tarkvaraarenduskomplekt (SDK), mis sisaldab sügava õppimise kompilaatorit, käitusaega ja tööriistu, mis on integreeritud kõige populaarsematesse ML-i raamistikesse, nagu TensorFlow ja PyTorch. Saate kasutada Neuron SDK-d, et hõlpsasti portida oma olemasolevad TensorFlow või PyTorchi süvaõppe ML-töökoormused Inferentiasse ja Trainiumi ning alustada uute mudelite ehitamist, kasutades samu tuntud ML-raamistikke. Lihtsamaks seadistamiseks kasutage ühte meie Amazon Machine Images (AMI-d) sügavaks õppimiseks, millega on kaasas palju vajalikke pakette ja sõltuvusi. Veelgi lihtsam: saate kasutada Amazon SageMaker Studiot, mis toetab Inferentias ja Trainiumis natiivselt TensorFlow ja PyTorchi (vt aws-samples GitHubi repo näiteks).

Üks viimane märkus: kuigi Inferentia ja Trainium on loodud sügava õppimise töökoormuse jaoks, võivad paljud vähem keerulised ML-algoritmid toimida hästi CPU-põhistel eksemplaridel (nt XGBoost ja LightGBM ja isegi mõned CNN-id). Nendel juhtudel toimub migratsioon AWS Graviton3 võib oluliselt vähendada teie ML töökoormuse keskkonnamõju. AWS Gravitonil põhinevad eksemplarid kasutavad sama jõudluse jaoks kuni 60% vähem energiat kui võrreldavad kiirendatud EC2 eksemplarid.

Järeldus

Levinud on eksiarvamus, et ML-i töökoormuste jätkusuutlik ja energiatõhus kasutamine tähendab ohverdamist jõudluse või kulude osas. AWS-i spetsiaalselt masinõppeks mõeldud kiirenditega ei pea ML-i insenerid seda kompromissi tegema. Selle asemel saavad nad oma sügavat õppekoormust kasutada spetsiaalselt spetsiaalselt loodud süvaõppe riistvaraga, nagu AWS Inferentia ja AWS Trainium, mis edestavad oluliselt võrreldavaid kiirendatud EC2 eksemplaritüüpe, pakkudes madalamaid kulusid, suuremat jõudlust ja paremat energiatõhusust – kuni 90% - kõik samal ajal. ML-i töökoormuste käivitamiseks Inferentias ja Trainiumis vaadake jaotist AWS Neuron dokumentatsioon või keerutage ühte neist näidismärkmikud. Saate vaadata ka AWS re:Invent 2022 vestlust Jätkusuutlikkus ja AWS-räni (SUS206), mis hõlmab paljusid selles postituses käsitletud teemasid.


Autoritest

Vähendage oma masinõppe töökoormuse energiatarbimist kuni 90% AWS-i spetsiaalselt ehitatud kiirenditega | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Karsten Schroer on AWS-i lahenduste arhitekt. Ta toetab kliente andmete ja tehnoloogia võimendamisel, et edendada nende IT-infrastruktuuri jätkusuutlikkust ja luua andmepõhiseid lahendusi, mis võimaldavad jätkusuutlikku tegevust nende vastavates vertikaalides. Karsten liitus AWS-iga pärast doktoriõpinguid rakendusliku masinõppe ja operatsioonide juhtimise alal. Ta on tõeliselt kirglik tehnoloogilistest lahendustest ühiskondlikele väljakutsetele ja armastab sukelduda sügavale nende lahenduste aluseks olevate meetoditesse ja rakendusarhitektuuridesse.

Vähendage oma masinõppe töökoormuse energiatarbimist kuni 90% AWS-i spetsiaalselt ehitatud kiirenditega | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Kamran Khan on AWS Annapurna Labsi vanem tehniline tootejuht. Ta teeb tihedat koostööd AI/ML-i klientidega, et kujundada Amazoni Annapurna Labsist välja tulevate AWS-i sihtotstarbeliste räniuuenduste tegevuskava. Tema konkreetne fookus on kiirendatud süvaõppe kiipidele, sealhulgas AWS Trainium ja AWS Inferentia. Kamranil on pooljuhtide tööstuses 18-aastane kogemus. Kamranil on üle kümne aasta pikkune kogemus, mis aitab arendajatel saavutada oma ML-eesmärke.

Ajatempel:

Veel alates AWS-i masinõpe