Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon

Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon

Inženirji strojnega učenja (ML) so se tradicionalno osredotočali na iskanje ravnovesja med usposabljanjem modela in stroški uvajanja v primerjavi z zmogljivostjo. Vse bolj postaja trajnost (energetska učinkovitost) dodaten cilj za stranke. To je pomembno, ker sta lahko usposabljanje modelov ML in nato uporaba usposobljenih modelov za napovedovanje (sklepanje) zelo energetsko intenzivni nalogi. Poleg tega je vse več aplikacij okoli nas prepojenih z ML in vsak dan se oblikujejo nove aplikacije, ki jih poganja ML. Priljubljen primer je OpenAI-jev ChatGPT, ki ga poganja najsodobnejši veliki jezikovni model (LMM). Za referenco, GPT-3, prejšnja generacija LLM ima 175 milijard parametrov in zahteva mesece neprekinjenega usposabljanja na gruči tisočih pospešenih procesorjev. The Študija Carbontracker ocenjuje, da lahko usposabljanje GPT-3 iz nič izpusti do 85 metričnih ton ekvivalenta CO2 z uporabo skupin specializiranih strojnih pospeševalnikov.

Obstaja več načinov, na katere AWS izvajalcem strojnega upravljanja omogoča zmanjšanje vpliva svojih delovnih obremenitev na okolje. Eden od načinov je zagotavljanje predpisane smernice glede oblikovanja delovnih obremenitev AI/ML za trajnost. Drug način je ponujanje upravljanih storitev ML usposabljanja in orkestracije, kot je npr Amazon SageMaker Studio, ki samodejno raztrga in poveča vire ML, ko niso v uporabi, in zagotavlja množico že pripravljenih orodij, ki prihranijo stroške in vire. Drugi pomemben dejavnik je razvoj energetsko učinkoviti, visoko zmogljivi, namenski pospeševalniki za usposabljanje in uvajanje modelov ML.

Ta objava se osredotoča na strojno opremo kot vzvod za trajnostno ML. Predstavljamo rezultate nedavnih poskusov zmogljivosti in porabe energije, ki jih je izvedel AWS in ki kvantificirajo koristi energetske učinkovitosti, ki jih lahko pričakujete pri selitvi delovnih obremenitev globokega učenja iz drugih pospešenih sistemov, optimiziranih za sklepanje in usposabljanje. Amazonski elastični računalniški oblak (Amazon EC2) primerki za Sklepanje AWS in AWS Trainium. Inferentia in Trainium sta Nedavni dodatek AWS k njegovemu portfelju namenskih pospeševalnikov posebej zasnoval Amazon Laboratoriji Annapurna za sklepanje ML in delovne obremenitve pri usposabljanju.

AWS Inferentia in AWS Trainium za trajnostno ML

Da bi vam zagotovili realne številke potenciala varčevanja z energijo AWS Inferentia in AWS Trainium v ​​aplikaciji v resničnem svetu, smo izvedli več primerjalnih poskusov porabe energije. Ta merila uspešnosti smo oblikovali ob upoštevanju naslednjih ključnih meril:

  • Najprej smo se želeli prepričati, da smo zajeli neposredno porabo energije, ki jo je mogoče pripisati testni delovni obremenitvi, vključno ne samo s pospeševalnikom ML, temveč tudi z računalništvom, pomnilnikom in omrežjem. Zato smo v naši preskusni nastavitvi izmerili porabo energije na tej ravni.
  • Drugič, pri izvajanju delovnih obremenitev za usposabljanje in sklepanje smo zagotovili, da so vse instance delovale pri svojih mejah fizične strojne opreme, in opravili meritve šele, ko je bila ta meja dosežena, da bi zagotovili primerljivost.
  • Nazadnje smo želeli biti prepričani, da je mogoče prihranke energije, navedene v tej objavi, doseči v praktični uporabi v resničnem svetu. Zato smo za primerjalno analizo in testiranje uporabili običajne primere uporabe ML, ki so jih navdihnile stranke.

Rezultati so navedeni v naslednjih razdelkih.

Poskus sklepanja: Razumevanje dokumenta v realnem času z LayoutLM

Sklepanje je v nasprotju z usposabljanjem neprekinjena, neomejena delovna obremenitev, ki nima določene zaključne točke. Zato predstavlja velik del življenjske porabe virov delovne obremenitve ML. Pravilno sklepanje je ključno za doseganje visoke zmogljivosti, nizkih stroškov in trajnosti (boljša energetska učinkovitost) v celotnem življenjskem ciklu ML. Pri nalogah sklepanja so stranke običajno zainteresirane za doseganje določene stopnje sklepanja, da bi sledile povpraševanju po zaužitju.

Eksperiment, predstavljen v tej objavi, se zgleduje po primeru uporabe razumevanja dokumentov v realnem času, ki je običajna aplikacija v panogah, kot sta bančništvo ali zavarovalništvo (na primer za obdelavo zahtevkov ali obrazcev za prijave). Natančneje, izbiramo PostavitevLM, vnaprej pripravljen model transformatorja, ki se uporablja za obdelavo slik dokumentov in pridobivanje informacij. Postavili smo ciljni SLA 1,000,000 sklepanja na uro, kar je vrednost, ki se pogosto obravnava kot realni čas, nato pa določimo dve konfiguraciji strojne opreme, ki lahko izpolnita to zahtevo: ena z Primerov Amazon EC2 Inf1, ki vključuje AWS Inferentia, in enega, ki uporablja primerljive pospešene instance EC2, optimizirane za naloge sklepanja. Med poskusom sledimo več indikatorjem za merjenje zmogljivosti sklepanja, stroškov in energetske učinkovitosti obeh konfiguracij strojne opreme. Rezultati so predstavljeni na naslednji sliki.

Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Rezultati uspešnosti, stroškov in energetske učinkovitosti meril uspešnosti sklepanja

AWS Inferentia zagotavlja 6.3-krat večjo prepustnost sklepanja. Posledično lahko z Inferentio izvajate isto delovno obremenitev razumevanja dokumenta v realnem času, ki temelji na LayoutLM, na manj primerkih (6 primerkov AWS Inferentia v primerjavi s 33 drugimi pospešenimi primerki EC2, optimiziranimi za sklepanje, kar ustreza 82-odstotnemu zmanjšanju), uporabite manj kot desetino (-92 %) energije v procesu, pri tem pa dosega bistveno nižje stroške na sklepanje (2 USD v primerjavi s 25 USD na milijon sklepanja, kar ustreza 91-odstotnemu znižanju stroškov).

Eksperiment usposabljanja: Usposabljanje BERT Large iz nič

Usposabljanje je v nasprotju s sklepanjem končen proces, ki se ponavlja veliko manj pogosto. Inženirji ML so običajno zainteresirani za visoko zmogljivost gruče, da skrajšajo čas usposabljanja in hkrati obdržijo stroške pod nadzorom. Energetska učinkovitost je sekundarna (še vedno naraščajoča) skrb. Z AWS Trainium ni kompromisa: inženirji ML lahko izkoristijo visoko zmogljivost usposabljanja, hkrati pa optimizirajo stroške in zmanjšajo vpliv na okolje.

Za ponazoritev tega izberemo BERT Velik, priljubljen jezikovni model, ki se uporablja za primere uporabe razumevanja naravnega jezika, kot je odgovarjanje na vprašanja na osnovi klepetalnega robota in napovedovanje pogovornih odgovorov. Usposabljanje dobro delujočega velikega modela BERT Large iz nič običajno zahteva 450 milijonov zaporedij za obdelavo. Primerjamo dve konfiguraciji gruče, vsaka s fiksno velikostjo 16 primerkov in zmožnostjo usposabljanja BERT Large iz nič (450 milijonov obdelanih zaporedij) v manj kot enem dnevu. Prvi uporablja tradicionalne pospešene primerke EC2. Druga postavitev uporablja Primerki Amazon EC2 Trn1 vključno z AWS Trainium. Ponovno primerjamo obe konfiguraciji v smislu uspešnosti usposabljanja, stroškov in vpliva na okolje (energetska učinkovitost). Rezultati so prikazani na naslednji sliki.

Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Rezultati uspešnosti, stroškov in energetske učinkovitosti meril uspešnosti usposabljanja

V poskusih so instance, ki temeljijo na AWS Trainium, presegle primerljive pospešene instance EC2, optimizirane za usposabljanje, za faktor 1.7 v smislu zaporedij, obdelanih na uro, kar je skrajšalo skupni čas usposabljanja za 43 % (2.3 ure v primerjavi s 4 urami na primerljivih pospešenih instancah EC2) . Posledično je pri uporabi gruče instanc, ki temelji na Trainiumu, skupna poraba energije za usposabljanje BERT Large od začetka približno 29 % nižja v primerjavi z gručem enake velikosti primerljivih pospešenih instanc EC2. Spet te prednosti glede zmogljivosti in energetske učinkovitosti prihajajo tudi z znatnimi izboljšavami stroškov: stroški usposabljanja za delovno obremenitev BERT ML so približno 62 % nižji na primerkih Trainium (787 USD v primerjavi z 2091 USD na celotno izvedbo usposabljanja).

Začetek uporabe namensko izdelanih pospeševalnikov AWS za ML

Čeprav vsi tukaj izvedeni poskusi uporabljajo standardne modele iz domene obdelave naravnega jezika (NLP), se AWS Inferentia in AWS Trainium odlikujeta s številnimi drugimi kompleksnimi arhitekturami modelov, vključno z LLM-ji in najzahtevnejšimi generativni AI arhitekture, ki jih gradijo uporabniki (kot je GPT-3). Ti pospeševalniki se še posebej dobro obnesejo z modeli z več kot 10 milijardami parametrov ali modeli računalniškega vida, kot je stabilna difuzija (glejte Smernice za prilagajanje arhitekture modela za več podrobnosti). Veliko naših strank dejansko že uporablja Inferentia in Trainium za najrazličnejše Primeri uporabe ML.

Za izvajanje delovnih obremenitev globokega učenja od konca do konca na instancah, ki temeljijo na AWS Inferentia in AWS Trainium, lahko uporabite AWS nevron. Neuron je komplet za razvoj programske opreme (SDK) od konca do konca, ki vključuje prevajalnik za globoko učenje, čas izvajanja in orodja, ki so izvorno integrirana v najbolj priljubljena ogrodja ML, kot sta TensorFlow in PyTorch. Neuron SDK lahko uporabite za preprost prenos svojih obstoječih delovnih obremenitev ML za globoko učenje TensorFlow ali PyTorch v Inferentia in Trainium ter začnete graditi nove modele z uporabo istih dobro znanih ogrodij ML. Za lažjo nastavitev uporabite enega od naših Amazonove strojne slike (AMI) za poglobljeno učenje, ki prihajajo s številnimi zahtevanimi paketi in odvisnostmi. Še preprosteje: uporabite lahko Amazon SageMaker Studio, ki izvorno podpira TensorFlow in PyTorch na Inferentia in Trainium (glejte aws-samples GitHub repo za primer).

Še zadnja opomba: medtem ko sta Inferentia in Trainium namensko izdelana za delovne obremenitve z globokim učenjem, lahko številni manj zapleteni algoritmi ML dobro delujejo na instancah, ki temeljijo na CPE (npr. XGBoost in LightGBM in celo nekaj CNN-jev). V teh primerih selitev v AWS Graviton3 lahko bistveno zmanjša vpliv vaših delovnih obremenitev ML na okolje. Instance, ki temeljijo na AWS Graviton, porabijo do 60 % manj energije za enako zmogljivost kot primerljive pospešene instance EC2.

zaključek

Obstaja splošno napačno prepričanje, da izvajanje delovnih obremenitev ML na trajnosten in energetsko učinkovit način pomeni žrtvovanje glede zmogljivosti ali stroškov. Z namensko izdelanimi pospeševalniki AWS za strojno učenje inženirjem ML ni treba sklepati kompromisov. Namesto tega lahko izvajajo svoje delovne obremenitve globokega učenja na visoko specializirani namensko izdelani strojni opremi za globoko učenje, kot sta AWS Inferentia in AWS Trainium, ki znatno prekaša primerljive vrste pospešenih instanc EC2 ter zagotavlja nižje stroške, višjo zmogljivost in boljšo energetsko učinkovitost – do 90 %—vse hkrati. Če želite začeti izvajati delovne obremenitve ML na Inferentia in Trainium, si oglejte Dokumentacija AWS Neuron ali zavrtite enega od vzorčni zvezki. Ogledate si lahko tudi pogovor AWS re:Invent 2022 Trajnost in silicij AWS (SUS206), ki pokriva številne teme, obravnavane v tej objavi.


O avtorjih

Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Karsten Schroer je arhitekt rešitev pri AWS. Podpira stranke pri izkoriščanju podatkov in tehnologije za spodbujanje trajnosti njihove IT infrastrukture in gradnjo podatkovno usmerjenih rešitev, ki omogočajo trajnostno delovanje v njihovih zadevnih vertikalah. Karsten se je AWS pridružil po doktorskem študiju uporabnega strojnega učenja in upravljanja operacij. Resnično je navdušen nad tehnološko podprtimi rešitvami za družbene izzive in rad se poglobi v metode in arhitekture aplikacij, ki so podlaga za te rešitve.

Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Kamran Khan je višji tehnični produktni vodja pri AWS Annapurna Labs. Tesno sodeluje s strankami AI/ML pri oblikovanju časovnega načrta za namensko izdelane silikonske inovacije AWS, ki prihajajo iz Amazonovih laboratorijev Annapurna. Njegov poseben poudarek je na čipih za pospešeno globoko učenje, vključno z AWS Trainium in AWS Inferentia. Kamran ima 18 let izkušenj v industriji polprevodnikov. Kamran ima več kot desetletje izkušenj s pomočjo razvijalcem pri doseganju njihovih ciljev ML.

Časovni žig:

Več od Strojno učenje AWS