Csökkentse gépi tanulási munkaterhelésének energiafogyasztását akár 90%-kal az AWS célirányos gyorsítóival

Újra kiadta Platón

Követő: 0

A gépi tanulás (ML) mérnökei hagyományosan arra összpontosítottak, hogy egyensúlyt teremtsenek a modellképzés és a telepítési költségek, illetve a teljesítmény között. A fenntarthatóság (energiahatékonyság) egyre inkább a fogyasztók további célkitűzésévé válik. Ez azért fontos, mert az ML modellek betanítása, majd a betanított modellek felhasználása előrejelzések (következtetés) készítésére rendkívül energiaigényes feladat lehet. Emellett egyre több alkalmazást is átitattak körülöttünk az ML, és nap mint nap születnek új, ML-alapú alkalmazások. Népszerű példa az OpenAI ChatGPT-je, amelyet a legmodernebb nagynyelvi modell (LMM) hajt meg. Tájékoztatásul GPT-3, egy korábbi generációs LLM 175 milliárd paraméterrel rendelkezik, és hónapokig tartó folyamatos képzést igényel a több ezer gyorsított processzorból álló klaszteren. A Carbontracker tanulmány becslések szerint a GPT-3 nulláról történő betanítása akár 85 metrikus tonna CO2-egyenértéket is kibocsáthat speciális hardveres gyorsítók csoportjainak felhasználásával.

Az AWS több módon is lehetővé teszi az ML szakemberek számára, hogy csökkentsék a munkaterhelésük környezetre gyakorolt hatását. Az egyik út a biztosítás előíró útmutatást az AI/ML munkaterhelések fenntarthatóság érdekében történő megtervezéséhez. Egy másik lehetőség a menedzselt ML képzési és hangszerelési szolgáltatások, mint pl Amazon SageMaker Studio, amely automatikusan lebontja és felnagyítja az ML erőforrásokat, amikor nincs használatban, és egy sor készen álló eszközt biztosít, amely költséget és erőforrásokat takarít meg. Egy másik fontos tényező a fejlesztés energiahatékony, nagy teljesítményű, erre a célra épített gyorsítók ML modellek betanítására és telepítésére.

Ennek a bejegyzésnek a középpontjában a hardver áll, mint a fenntartható ML-ben. Bemutatjuk az AWS által végzett legutóbbi teljesítmény- és teljesítményfelvételi kísérletek eredményeit, amelyek számszerűsítik azokat az energiahatékonysági előnyöket, amelyekre akkor számíthat, ha átállítja a mély tanulási terheléseket más következtetésekre és képzésekre optimalizált gyorsított rendszerekről. Amazon rugalmas számítási felhő (Amazon EC2) példányait AWS Inferentia és a AWS Trainium. Az Inferentia és a Trainium az Az AWS nemrégiben bővült a célzott gyorsítók portfóliójával kifejezetten az Amazon által tervezett Annapurna Labs az ML következtetéshez és a képzési terhelésekhez.

AWS Inferentia és AWS Trainium a fenntartható ML érdekében

Annak érdekében, hogy valós számokkal szolgálhassuk az AWS Inferentia és az AWS Trainium energiamegtakarítási potenciálját egy valós alkalmazásban, számos teljesítményfelvételi benchmark kísérletet végeztünk. Ezeket a benchmarkokat a következő kulcsfontosságú kritériumok figyelembevételével alakítottuk ki:

Először is meg akartuk győződni arról, hogy rögzítjük a tesztelési munkaterhelésnek tulajdonítható közvetlen energiafogyasztást, beleértve nemcsak az ML-gyorsítót, hanem a számítást, a memóriát és a hálózatot is. Ezért tesztbeállításunkban ezen a szinten mértük a teljesítményfelvételt.
Másodszor, a betanítási és következtetési munkaterhelések futtatásakor gondoskodtunk arról, hogy minden példány a megfelelő fizikai hardverkorlátokon működjön, és csak a határérték elérése után végeztünk méréseket az összehasonlíthatóság érdekében.
Végül biztosak akartunk lenni abban, hogy az ebben a bejegyzésben közölt energiamegtakarítás elérhető egy gyakorlati, valós alkalmazásban. Ezért a benchmarkinghoz és a teszteléshez az ügyfelek által inspirált ML használati eseteket használtuk.

Az eredményeket a következő szakaszokban közöljük.

Következtetési kísérlet: Valós idejű dokumentummegértés a LayoutLM segítségével

A következtetés, ellentétben a képzéssel, egy folyamatos, korlátlan munkaterhelés, amelynek nincs meghatározott teljesítési pontja. Ezért az ML munkaterhelés élettartama alatti erőforrás-felhasználásának nagy részét teszi ki. A helyes következtetés levonása kulcsfontosságú a nagy teljesítmény, az alacsony költség és a fenntarthatóság (jobb energiahatékonyság) eléréséhez az ML teljes életciklusa során. Következtetési feladatokkal az ügyfelek általában egy bizonyos következtetési arány elérésében érdekeltek, hogy lépést tudjanak tartani a fogyasztási igényekkel.

Az ebben a bejegyzésben bemutatott kísérletet egy valós idejű dokumentum-megértési eset ihlette, amely gyakori alkalmazás az olyan iparágakban, mint a banki vagy biztosítási ágazat (például kárigények vagy kérelmezési űrlapok feldolgozásához). Konkrétan kiválasztjuk LayoutLM, egy előre betanított transzformátor modell, amelyet dokumentum képfeldolgozásra és információ kinyerésére használnak. A cél SLA-t óránként 1,000,000 XNUMX XNUMX következtetésre állítjuk be, ezt az értéket gyakran valós idejűnek tekintik, majd meghatározunk két hardverkonfigurációt, amelyek képesek megfelelni ennek a követelménynek: az egyik Amazon EC2 Inf1 példányok, amely az AWS Inferentiát tartalmazza, és egy hasonló gyorsított EC2-példányokat, amelyek következtetési feladatokra vannak optimalizálva. A kísérlet során számos mutatót követünk nyomon, hogy mérjük mindkét hardverkonfiguráció teljesítményét, költségét és energiahatékonyságát. Az eredményeket a következő ábra mutatja be.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A következtetési referenciaértékek teljesítmény-, költség- és energiahatékonysági eredményei

Az AWS Inferentia 6.3-szor nagyobb következtetési átviteli sebességet biztosít. Ennek eredményeként az Inferentiával ugyanazt a valós idejű, LayoutLM-alapú dokumentummegértési munkaterhelést kevesebb példányon futtathatja (6 AWS Inferentia-példány vs. 33 másik, következtetésre optimalizált, gyorsított EC2-példány, ami 82%-os csökkenésnek felel meg), kevesebbet használ. a folyamat során felhasznált energia több mint egytizede (-92%), miközben lényegesen alacsonyabb következtetésenkénti költséget ér el (2 USD vs. 25 USD/millió következtetés, ami 91%-os költségcsökkentésnek felel meg).

Képzési kísérlet: A BERT nagy képzése a semmiből

A képzés, szemben a következtetéssel, véges folyamat, amely sokkal ritkábban ismétlődik. Az ML mérnökei jellemzően a nagy fürtteljesítmény iránt érdeklődnek, hogy csökkentsék a képzési időt, miközben a költségeket kontroll alatt tartják. Az energiahatékonyság másodlagos (még egyre növekvő) probléma. Az AWS Trainium esetében nincs kompromisszumos döntés: az ML mérnökök profitálhatnak a magas képzési teljesítményből, miközben optimalizálják a költségeket és csökkentik a környezeti hatásokat.

Ennek szemléltetésére kiválasztjuk BERT Nagy, egy népszerű nyelvi modell, amelyet a természetes nyelv megértésére használnak, például chatbot-alapú kérdések megválaszolására és társalgási válasz előrejelzésére. Egy jól teljesítő BERT Large modell nulláról való betanításához általában 450 millió sorozatot kell feldolgozni. Összehasonlítunk két fürtkonfigurációt, amelyek mindegyikének fix mérete 16 példány, és képesek a BERT Large betanítására a semmiből (450 millió szekvencia feldolgozva) kevesebb mint egy nap alatt. Az első hagyományos gyorsított EC2 példányokat használ. A második beállítás használja Amazon EC2 Trn1 példányok AWS Trainium szolgáltatással. Ismét összehasonlítjuk mindkét konfigurációt a képzési teljesítmény, a költségek és a környezeti hatás (energiahatékonyság) szempontjából. Az eredményeket a következő ábra mutatja.

A képzési referenciaértékek teljesítmény-, költség- és energiahatékonysági eredményei

A kísérletekben az AWS Trainium alapú példányok 2-szer jobb teljesítményt nyújtottak a hasonló, edzésre optimalizált gyorsított EC1.7 példányoknál az óránként feldolgozott szekvenciák tekintetében, ami 43%-kal csökkentette a teljes képzési időt (2.3 órával szemben a hasonló gyorsított EC4 példányok 2 órájával szemben). . Ennek eredményeként Trainium-alapú példányfürt használata esetén a BERT Large alapból történő betanításának teljes energiafogyasztása körülbelül 29%-kal alacsonyabb, mint a hasonló gyorsított EC2 példányok azonos méretű klasztere. Ezek a teljesítmény- és energiahatékonysági előnyök szintén jelentős költségnövekedéssel járnak: a BERT ML munkaterheléséhez szükséges képzési költségek körülbelül 62%-kal alacsonyabbak a Trainium példányokon (787 USD szemben a 2091 USD-vel teljes edzési futásonként).

Első lépések az AWS célirányosan épített gyorsítóival az ML-hez

Bár az itt elvégzett kísérletek mindegyike a természetes nyelvi feldolgozás (NLP) tartomány szabványos modelljeit használja, az AWS Inferentia és az AWS Trainium számos más összetett modellarchitektúrával kiváló, beleértve az LLM-eket és a legnagyobb kihívást jelentő modelleket. generatív AI a felhasználók által épített architektúrák (például GPT-3). Ezek a gyorsítók különösen jól teljesítenek a több mint 10 milliárd paraméterrel rendelkező modellekkel, vagy a számítógépes látásmodellekkel, például a stabil diffúzióval (lásd Modell-architektúra illeszkedési irányelvei további részletekért). Valójában sok ügyfelünk már most is sokféle célra használja az Inferentiát és a Trainium-ot ML használati esetek.

A végpontok közötti mélytanulási munkaterhelések futtatásához AWS Inferentia- és AWS Trainium-alapú példányokon AWS Neuron. A Neuron egy teljes körű szoftverfejlesztő készlet (SDK), amely mély tanulási fordítót, futtatókörnyezetet és olyan eszközöket tartalmaz, amelyek natívan integrálva vannak a legnépszerűbb ML keretrendszerekbe, mint például a TensorFlow és a PyTorch. A Neuron SDK segítségével könnyedén áthelyezheti meglévő TensorFlow vagy PyTorch mélytanulási ML munkaterheléseit az Inferentia és a Trainium rendszerbe, és elkezdheti új modellek építését ugyanazon jól ismert ML keretrendszer használatával. A könnyebb beállítás érdekében használja valamelyikünket Amazon Machine Images (AMI) a mély tanuláshoz, amelyek számos szükséges csomagot és függőséget tartalmaznak. Még egyszerűbb: használhatja az Amazon SageMaker Studio-t, amely natívan támogatja a TensorFlow-t és a PyTorch-ot Inferentián és Trainiumon (lásd a aws-samples GitHub repo példaként).

Egy utolsó megjegyzés: míg az Inferentia és a Trainium a mély tanulási munkaterheléshez készült, sok kevésbé bonyolult ML algoritmus jól teljesíthet CPU-alapú példányokon (például XGBoost és LightGBM és még néhány CNN). Ezekben az esetekben a migráció ide AWS Graviton3 jelentősen csökkentheti az ML munkaterhelés környezeti hatását. Az AWS Graviton alapú példányok akár 60%-kal kevesebb energiát fogyasztanak ugyanazon teljesítmény mellett, mint a hasonló gyorsított EC2 példányok.

Következtetés

Elterjedt tévhit, hogy az ML munkaterhelések fenntartható és energiahatékony módon való működtetése azt jelenti, hogy a teljesítmény vagy a költség áldozását jelenti. Az AWS gépi tanuláshoz erre a célra épített gyorsítókkal az ML mérnököknek nem kell kompromisszumot kötniük. Ehelyett a mélytanulási munkaterhelést speciális, célzott mély tanulási hardvereken futtathatják, mint például az AWS Inferentia és az AWS Trainium, amelyek jelentősen felülmúlják a hasonló gyorsított EC2 példánytípusokat, alacsonyabb költségeket, nagyobb teljesítményt és jobb energiahatékonyságot biztosítva – akár 90% – egyszerre. Az ML-munkaterhelések Inferentián és Trainiumon való futtatásához tekintse meg a AWS Neuron dokumentáció vagy pörgesd fel az egyiket mintafüzetek. Megnézheti az AWS re:Invent 2022 beszélgetését is Fenntarthatóság és AWS szilícium (SUS206), amely számos, ebben a bejegyzésben tárgyalt témával foglalkozik.

A szerzőkről

Karsten Schroer az AWS megoldási építésze. Támogatja ügyfeleit az adatok és a technológia kihasználásában IT-infrastruktúra fenntarthatóságának előmozdítása és olyan adatvezérelt megoldások kidolgozásában, amelyek lehetővé teszik a fenntartható működést az adott ágazatban. Karsten alkalmazott gépi tanulás és műveletmenedzsment témakörben szerzett PhD tanulmányait követően csatlakozott az AWS-hez. Valóban szenvedélyesen rajong a technológiai megoldásokért a társadalmi kihívásokra, és szeret mélyen belemerülni a megoldások alapjául szolgáló módszerekbe és alkalmazásarchitektúrákba.

Kamran kán az AWS Annapurna Labs idősebb műszaki termékmenedzsere. Szorosan együttműködik az AI/ML-ügyfelekkel, hogy kialakítsa az Amazon Annapurna Labs-tól származó, célzottan épített AWS-szilícium-innovációinak ütemtervét. Különös hangsúlyt fektet a gyorsított mélytanulási chipekre, köztük az AWS Trainiumra és az AWS Inferentiára. Kamran 18 éves tapasztalattal rendelkezik a félvezetőiparban. A Kamran több mint egy évtizedes tapasztalattal segíti a fejlesztőket ML céljaik elérésében.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
EVM Finance. Egységes felület a decentralizált pénzügyekhez. Hozzáférés itt.
Quantum Media Group. IR/PR erősített. Hozzáférés itt.
PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/reduce-energy-consumption-of-your-machine-learning-workloads-by-up-to-90-with-aws-purpose-built-accelerators/

Időbélyeg: Június 20, 2023

Időbélyeg: 9. november 2022.

Csökkentse a gépi tanulási feladatok energiafogyasztását akár 90%-kal az AWS erre a célra épített gyorsítóival | Amazon webszolgáltatások

Újra kiadta Platón

AWS Inferentia és AWS Trainium a fenntartható ML érdekében

Következtetési kísérlet: Valós idejű dokumentummegértés a LayoutLM segítségével

Képzési kísérlet: A BERT nagy képzése a semmiből

Első lépések az AWS célirányosan épített gyorsítóival az ML-hez

Következtetés

A szerzőkről

Még több AWS gépi tanulás

4. rész: Hogyan költöztette át a NatWest Group az ML modelleket az Amazon SageMaker architektúrákra

A Code Llama finomhangolása az Amazon SageMaker JumpStart | Amazon webszolgáltatások

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler segítségével

Az Amazon Rekognition Face Search pontosságának javítása felhasználói vektorokkal | Amazon webszolgáltatások

Hozzon létre, képezzen és telepítsen egy milliárd paraméterű nyelvi modellt terabájtnyi adaton a TensorFlow és az Amazon SageMaker segítségével

Több modell kiszolgálása az Amazon SageMaker és a Triton Inference Server segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók