Vähennä koneoppimiskuormitustesi energiankulutusta jopa 90 % tarkoitukseen rakennetuilla AWS-kiihdyttimillä

Julkaissut Platon

seuraajia: 0

Koneoppimisen (ML) insinöörit ovat perinteisesti keskittyneet tasapainon löytämiseen mallikoulutuksen ja käyttöönottokustannusten ja suorituskyvyn välillä. Kestävyydestä (energiatehokkuudesta) on tulossa yhä useammin asiakkaiden lisätavoite. Tämä on tärkeää, koska ML-mallien harjoitteleminen ja sitten koulutettujen mallien käyttäminen ennusteiden (päätelmien) tekemiseen voivat olla erittäin energiaintensiivisiä tehtäviä. Lisäksi yhä useammat sovellukset ympärillämme ovat infusoituneet ML:llä, ja uusia ML-käyttöisiä sovelluksia syntyy päivittäin. Suosittu esimerkki on OpenAI:n ChatGPT, jonka tehonlähteenä on huippuluokan kielimalli (LMM). Viitteeksi GPT-3, aikaisemman sukupolven LLM sillä on 175 miljardia parametria ja se vaatii kuukausien jatkuvan harjoittelun tuhansien kiihdytettyjen prosessorien klusterissa. The Carbontracker-tutkimus arvioi, että GPT-3:n opettaminen tyhjästä voi päästää jopa 85 tonnia hiilidioksidiekvivalenttia käyttämällä erikoislaitteistokiihdyttimiä.

On olemassa useita tapoja, joilla AWS auttaa ML:n harjoittajia vähentämään työtaakkansa ympäristövaikutuksia. Yksi tapa on tarjota ohjeistusta AI/ML-työkuormien suunnittelussa kestävän kehityksen takaamiseksi. Toinen tapa on tarjota hallittuja ML-koulutus- ja orkestrointipalveluita, kuten Amazon SageMaker Studio, joka purkaa ja skaalaa automaattisesti ML-resursseja, kun niitä ei käytetä, ja tarjoaa joukon valmiita työkaluja, jotka säästävät kustannuksia ja resursseja. Toinen tärkeä mahdollistaja on kehittäminen energiatehokkaat, tehokkaat, tarkoitukseen rakennetut kiihdyttimet ML-mallien koulutukseen ja käyttöönottoon.

Tämän postauksen painopiste on laitteistossa kestävän ML:n vipuna. Esittelemme viimeaikaisten AWS:n suorittamien suorituskyky- ja tehonottokokeiden tulokset, jotka mittaavat energiatehokkuuden hyödyt, joita voit odottaa siirtäessäsi syvän oppimisen työtaakkaa muista päättelyyn ja koulutukseen optimoiduista kiihdytetyistä Amazonin elastinen laskentapilvi (Amazon EC2) -esiintymiin AWS Inferencia ja AWS Trainium. Inferentia ja Trainium ovat AWS:n äskettäinen lisäys tarkoitukseen valmistettujen kiihdyttimien valikoimaansa erityisesti Amazonin suunnittelema Annapurna Labs ML-päättelyyn ja harjoitustyökuormiin.

AWS Inferentia ja AWS Trainium kestävään ML

Olemme tehneet useita tehonkulutuksen vertailukokeita tarjotaksemme sinulle realistisia lukuja AWS Inferentian ja AWS Trainiumin energiansäästöpotentiaalista todellisessa sovelluksessa. Olemme suunnitelleet nämä vertailuarvot seuraavia keskeisiä kriteerejä silmällä pitäen:

Ensinnäkin halusimme varmistaa, että taltioimme testityökuormasta johtuvan suoran energiankulutuksen, mukaan lukien ML-kiihdyttimen lisäksi myös laskennan, muistin ja verkon. Siksi testiasetuksissamme mittasimme tehonkulutuksen tällä tasolla.
Toiseksi harjoittelu- ja päättelykuormia suoritettaessa varmistimme, että kaikki esiintymät toimivat omilla fyysisten laitteistorajoillaan ja teimme mittauksia vasta sen jälkeen, kun raja oli saavutettu vertailukelpoisuuden varmistamiseksi.
Lopuksi halusimme olla varmoja siitä, että tässä viestissä raportoidut energiansäästöt voidaan saavuttaa käytännön reaalimaailmassa. Siksi käytimme yleisiä asiakkaiden inspiroimia ML-käyttötapauksia benchmarkingissa ja testauksessa.

Tulokset raportoidaan seuraavissa osioissa.

Päätelmäkokeilu: Reaaliaikainen asiakirjan ymmärtäminen LayoutLM:n avulla

Päätelmä, toisin kuin koulutus, on jatkuvaa, rajatonta työmäärää, jolla ei ole määriteltyä suorituspistettä. Siksi se muodostaa suuren osan ML-työkuorman elinkaaren resurssien kulutuksesta. Oikeiden päätelmien tekeminen on avainasemassa korkean suorituskyvyn, alhaisten kustannusten ja kestävyyden (paremman energiatehokkuuden) saavuttamiseksi ML:n koko elinkaaren ajan. Päätelmätehtävissä asiakkaat ovat yleensä kiinnostuneita saavuttamaan tietyn päättelysuhteen, jotta ne pysyisivät kysynnän tasalla.

Tässä postauksessa esitetty kokeilu on saanut inspiraationsa reaaliaikaisesta dokumentin käyttötapauksesta, joka on yleinen sovellus pankki- tai vakuutustoimialoilla (esimerkiksi korvausten tai hakemuslomakkeiden käsittelyyn). Nimenomaan valitsemme AsetteluLM, esikoulutettu muuntajamalli, jota käytetään asiakirjojen kuvankäsittelyyn ja tiedon poimimiseen. Asetamme SLA-tavoitteeksi 1,000,000 XNUMX XNUMX päätelmää tunnissa, arvoa pidetään usein reaaliaikaisena, ja määritämme sitten kaksi laitteistokokoonpanoa, jotka pystyvät täyttämään tämän vaatimuksen: toinen Amazon EC2 Inf1 -tapaukset, jossa on AWS Inferentia, ja toinen, joka käyttää vastaavia nopeutettuja EC2-esiintymiä, jotka on optimoitu päättelytehtäviin. Koko kokeilun aikana seuraamme useita indikaattoreita mitataksemme molempien laitteistokokoonpanojen suorituskykyä, kustannuksia ja energiatehokkuutta. Tulokset on esitetty seuraavassa kuvassa.

Vähennä koneoppimisen energiankulutusta jopa 90 % AWS:n tarkoitukseen rakennetuilla kiihdyttimillä | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Päätelmien vertailuarvojen suorituskyky, kustannukset ja energiatehokkuus

AWS Inferentia tarjoaa 6.3 kertaa suuremman päättelyn suorituskyvyn. Tämän seurauksena Inferentian avulla voit suorittaa saman reaaliaikaisen LayoutLM-pohjaisen asiakirjan ymmärtämisen työtaakan harvemmilla instansseilla (6 AWS Inferentia -esiintymää vs. 33 muuta päätelmien perusteella optimoitua kiihdytettyä EC2-instanssia, mikä vastaa 82 %:n vähennystä), kuluttaa vähemmän. yli kymmenesosa (-92 %) prosessin energiasta, ja samalla saavutetaan huomattavasti alhaisemmat kustannukset per päätelmä (2 USD vs. 25 USD miljoonaa päätelmää kohti, mikä vastaa 91 prosentin kustannussäästöä).

Harjoittelukokeilu: BERT:n harjoittaminen Large tyhjästä

Harjoittelu, toisin kuin päättely, on rajallinen prosessi, joka toistetaan paljon harvemmin. ML-insinöörit ovat tyypillisesti kiinnostuneita korkeasta klusterin suorituskyvystä, joka vähentää harjoitusaikaa ja pitää kustannukset hallinnassa. Energiatehokkuus on toissijainen (mutta kasvava) huolenaihe. AWS Trainiumin kanssa ei tehdä kompromisseja: ML-insinöörit voivat hyötyä korkeasta koulutussuorituskyvystä ja samalla optimoida kustannuksia ja vähentää ympäristövaikutuksia.

Tämän havainnollistamiseksi valitsemme BERT Suuri, suosittu kielimalli, jota käytetään luonnollisen kielen ymmärtämiseen, kuten chatbot-pohjaiseen kysymykseen vastaamiseen ja keskusteluvastausten ennustamiseen. Hyvin toimivan BERT Large -mallin kouluttaminen tyhjästä vaatii yleensä 450 miljoonan sekvenssin käsittelyn. Vertailemme kahta klusterikokoonpanoa, joissa kummassakin on kiinteä koko 16 esiintymää ja jotka pystyvät kouluttamaan BERT Largea tyhjästä (450 miljoonaa sekvenssiä käsitelty) alle päivässä. Ensimmäinen käyttää perinteisiä kiihdytettyjä EC2-esiintymiä. Toinen asetus käyttää Amazon EC2 Trn1 -esiintymät mukana AWS Trainium. Jälleen vertaamme molempia kokoonpanoja koulutussuorituskyvyn, kustannusten ja ympäristövaikutusten (energiatehokkuuden) suhteen. Tulokset on esitetty seuraavassa kuvassa.

Koulutuksen vertailuarvojen suorituskyky, kustannukset ja energiatehokkuus

Kokeissa AWS Trainium -pohjaiset esiintymät suoriutuivat vertailukelpoisista harjoitteluun optimoiduista kiihdytetyistä EC2-esiintymistä kertoimella 1.7 tunnissa käsiteltyjen sekvenssien suhteen, mikä lyhensi harjoitusaikaa 43 % (2.3 tuntia verrattuna 4 tuntiin vastaavissa kiihdytetyissä EC2-tapauksissa). . Tämän seurauksena Trainium-pohjaista ilmentymäklusteria käytettäessä kokonaisenergiankulutus BERT Largen koulutukseen tyhjästä on noin 29 % pienempi verrattuna samankokoiseen vastaavien kiihdytettyjen EC2-instanssien klusteriin. Jälleen nämä suorituskyvyn ja energiatehokkuuden edut tuovat mukanaan myös merkittäviä kustannusparannuksia: BERT ML -työkuorman harjoittelukustannukset ovat noin 62 % alhaisemmat Trainium-tapauksissa (787 USD verrattuna 2091 XNUMX USD:iin koko harjoitusajoa kohti).

AWS-kiihdyttimien käytön aloittaminen ML:lle

Vaikka kaikki täällä tehdyt kokeet käyttävät standardinomaisia malleja luonnollisen kielen prosessointialueelta (NLP), AWS Inferentia ja AWS Trainium loistavat monien muiden monimutkaisten malliarkkitehtuurien kanssa, mukaan lukien LLM:t ja haastavimmat. generatiivinen tekoäly arkkitehtuurit, joita käyttäjät rakentavat (kuten GPT-3). Nämä kiihdyttimet toimivat erityisen hyvin malleissa, joissa on yli 10 miljardia parametria, tai tietokonenäkömalleissa, kuten stabiilissa diffuusiossa (katso Mallin arkkitehtuurin sovitusohjeet Lisätietoja). Todellakin, monet asiakkaamme käyttävät jo Inferentiaa ja Trainiumia monenlaisiin tarkoituksiin ML käyttötapaukset.

Voit suorittaa päästä-päähän syväoppimistyökuormituksiasi AWS Inferentia- ja AWS Trainium-pohjaisissa instansseissa AWS Neuron. Neuron on päästä päähän -ohjelmistokehityspaketti (SDK), joka sisältää syvän oppimisen kääntäjän, ajonajan ja työkalut, jotka on integroitu natiivisti suosituimpiin ML-kehyksiin, kuten TensorFlow ja PyTorch. Neuron SDK:n avulla voit helposti siirtää olemassa olevat TensorFlow- tai PyTorch-syväoppimistyökuormasi Inferentiaan ja Trainiumiin ja alkaa rakentaa uusia malleja samoilla tunnetuilla ML-kehyksillä. Asennuksen helpottamiseksi käytä jotakin meidän Amazon Machine Images (AMI) syväoppimiseen, joiden mukana tulee monia tarvittavia paketteja ja riippuvuuksia. Vielä yksinkertaisempi: voit käyttää Amazon SageMaker Studiota, joka tukee natiivisti TensorFlow- ja PyTorchia Inferentiassa ja Trainiumissa (katso aws-samples GitHub repo esimerkiksi).

Viimeinen huomautus: vaikka Inferentia ja Trainium on suunniteltu syvään oppimiseen, monet vähemmän monimutkaiset ML-algoritmit voivat toimia hyvin CPU-pohjaisissa tapauksissa (esim. XGBoost ja LightGBM ja jopa jotkut CNN:t). Näissä tapauksissa siirtyminen kohteeseen AWS Graviton 3 voi merkittävästi vähentää ML-työkuormituksiesi ympäristövaikutuksia. AWS Graviton -pohjaiset ilmentymät kuluttavat jopa 60 % vähemmän energiaa samaan suorituskykyyn verrattuna vastaavat kiihdytetyt EC2-instanssit.

Yhteenveto

On yleinen väärinkäsitys, että ML-työkuormien suorittaminen kestävällä ja energiatehokkaalla tavalla tarkoittaa uhrauksia suorituskyvystä tai kustannuksista. Koneoppimiseen tarkoitettujen AWS-kiihdyttimien ansiosta ML-insinöörien ei tarvitse tehdä tätä kompromissia. Sen sijaan he voivat suorittaa syvän oppimistyökuormituksensa erittäin erikoistuneilla tarkoituksenmukaisilla syväoppimislaitteistoilla, kuten AWS Inferentia ja AWS Trainium, jotka ovat huomattavasti parempia kuin vastaavat kiihdytetyt EC2-instanssityypit ja tarjoavat alhaisemmat kustannukset, paremman suorituskyvyn ja paremman energiatehokkuuden. 90 % – kaikki samaan aikaan. Aloita ML-työkuormien suorittaminen Inferentiassa ja Trainiumissa tutustumalla AWS Neuron -dokumentaatio tai pyöritä yhtä niistä näytekannettavat. Voit myös katsoa AWS re:Invent 2022 -puheen Kestävyys ja AWS-pii (SUS206), joka kattaa monet tässä viestissä käsitellyt aiheet.

Tietoja Tekijät

Karsten Schroer on ratkaisuarkkitehti AWS:ssä. Hän tukee asiakkaita datan ja teknologian hyödyntämisessä IT-infrastruktuurinsa kestävyyden edistämisessä ja tietopohjaisten ratkaisujen rakentamisessa, jotka mahdollistavat kestävän toiminnan omilla toimialoillaan. Karsten liittyi AWS:ään sovelletun koneoppimisen ja toiminnanhallinnan tohtoriopintojensa jälkeen. Hän on todella intohimoinen teknologiapohjaisista ratkaisuista yhteiskunnallisiin haasteisiin ja rakastaa sukeltaa syvälle näiden ratkaisujen taustalla oleviin menetelmiin ja sovellusarkkitehtuureihin.

Kamran Khan on vanhempi tekninen tuotepäällikkö AWS Annapurna Labsissa. Hän tekee tiivistä yhteistyötä AI/ML-asiakkaiden kanssa laatiakseen tiekartan AWS:n tarkoitukseen rakennetuille piiinnovaatioille, jotka tulevat Amazonin Annapurna Labsista. Hän keskittyy erityisesti nopeutettuihin syväoppiviin siruihin, mukaan lukien AWS Trainium ja AWS Inferentia. Kamranilla on 18 vuoden kokemus puolijohdeteollisuudesta. Kamranilla on yli vuosikymmenen kokemus kehittäjien auttamisesta saavuttamaan ML-tavoitteensa.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
EVM Finance. Hajautetun rahoituksen yhtenäinen käyttöliittymä. Pääsy tästä.
Quantum Media Group. IR/PR vahvistettu. Pääsy tästä.
PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/reduce-energy-consumption-of-your-machine-learning-workloads-by-up-to-90-with-aws-purpose-built-accelerators/

Aikaleima: Kesäkuu 20, 2023

Aikaleima: Marraskuu 9, 2022

Vähennä koneoppimisen energiankulutusta jopa 90 % AWS:n tarkoitukseen rakennetuilla kiihdyttimillä | Amazon Web Services

Julkaissut Platon

AWS Inferentia ja AWS Trainium kestävään ML

Päätelmäkokeilu: Reaaliaikainen asiakirjan ymmärtäminen LayoutLM:n avulla

Harjoittelukokeilu: BERT:n harjoittaminen Large tyhjästä

AWS-kiihdyttimien käytön aloittaminen ML:lle

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Osa 4: Kuinka NatWest Group siirsi ML-malleja Amazon SageMaker -arkkitehtuureihin

Hienosäädä Code Llama Amazon SageMaker JumpStartissa | Amazon Web Services

Kustannustehokas tietojen valmistelu koneoppimista varten SageMaker Data Wranglerin avulla

Paranna Amazon Rekognition Face Searchin tarkkuutta käyttäjävektoreilla | Amazon Web Services

Luo, kouluta ja ota käyttöön miljardiparametrinen kielimalli teratavuilla datalla TensorFlown ja Amazon SageMakerin avulla

Tarjoa useita malleja Amazon SageMakerin ja Triton Inference Serverin avulla

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili