Reduceți consumul de energie al sarcinilor de lucru de învățare automată cu până la 90% cu acceleratoarele AWS special create | Amazon Web Services

Reduceți consumul de energie al sarcinilor de lucru de învățare automată cu până la 90% cu acceleratoarele AWS special create | Amazon Web Services

Inginerii de învățare automată (ML) s-au concentrat în mod tradițional pe atingerea unui echilibru între formarea modelului și costul de implementare față de performanță. Din ce în ce mai mult, sustenabilitatea (eficiența energetică) devine un obiectiv suplimentar pentru clienți. Acest lucru este important deoarece antrenarea modelelor ML și apoi utilizarea modelelor antrenate pentru a face predicții (inferență) pot fi sarcini extrem de consumatoare de energie. În plus, din ce în ce mai multe aplicații din jurul nostru au devenit infuzate cu ML, iar noi aplicații bazate pe ML sunt concepute în fiecare zi. Un exemplu popular este ChatGPT de la OpenAI, care este alimentat de un model de limbă mare (LMM) de ultimă generație. Pentru trimitere, GPT-3, un LLM de generație anterioară are 175 de miliarde de parametri și necesită luni de instruire non-stop pe un cluster de mii de procesoare accelerate. The Studiu Carbontracker estimează că antrenarea GPT-3 de la zero poate emite până la 85 de tone metrice de echivalent CO2, folosind grupuri de acceleratoare hardware specializate.

Există mai multe moduri prin care AWS le permite practicienilor ML să reducă impactul asupra mediului al sarcinilor lor de lucru. O modalitate este prin furnizare îndrumări prescriptive cu privire la arhitectura sarcinilor de lucru AI/ML pentru durabilitate. O altă modalitate este oferirea de servicii de instruire și orchestrare gestionate ML, cum ar fi Amazon SageMaker Studio, care demolează și mărește automat resursele ML atunci când nu sunt utilizate și oferă o serie de instrumente gata de fabricație care economisesc costuri și resurse. Un alt factor favorizant major este dezvoltarea acceleratoare eficiente din punct de vedere energetic, de înaltă performanță, construite special pentru instruirea și implementarea modelelor ML.

Accentul acestei postări este pe hardware-ul ca pârghie pentru ML sustenabil. Prezentăm rezultatele recentelor experimente de performanță și consum de energie efectuate de AWS, care cuantifică beneficiile de eficiență energetică la care vă puteți aștepta atunci când vă migrați sarcinile de lucru de învățare profundă din alte accelerații optimizate pentru inferență și antrenament. Cloud Elastic de calcul Amazon (Amazon EC2) instanțe la Inferentia AWS și AWS Trainium. Inferentia și Trainium sunt Adăugarea recentă a AWS la portofoliul său de acceleratoare special create conceput special de Amazon Laboratoarele Annapurna pentru inferența ML și sarcinile de lucru de instruire.

AWS Inferentia și AWS Trainium pentru ML sustenabil

Pentru a vă oferi cifre realiste ale potențialului de economisire a energiei AWS Inferentia și AWS Trainium într-o aplicație reală, am efectuat mai multe experimente de referință privind consumul de energie. Am conceput aceste criterii de referință având în vedere următoarele criterii cheie:

  • În primul rând, am vrut să ne asigurăm că am capturat consumul direct de energie atribuit sarcinii de lucru de testare, inclusiv nu doar acceleratorul ML, ci și calculul, memoria și rețeaua. Prin urmare, în configurația noastră de testare, am măsurat consumul de putere la acel nivel.
  • În al doilea rând, la rularea sarcinilor de lucru de antrenament și inferență, ne-am asigurat că toate instanțele funcționează la limitele hardware fizice respective și am făcut măsurători numai după ce a fost atinsă limita pentru a asigura comparabilitatea.
  • În cele din urmă, am vrut să fim siguri că economiile de energie raportate în această postare ar putea fi realizate într-o aplicație practică din lumea reală. Prin urmare, am folosit cazuri de utilizare ML obișnuite, inspirate de client, pentru evaluare comparativă și testare.

Rezultatele sunt raportate în secțiunile următoare.

Experiment de inferență: înțelegerea documentelor în timp real cu LayoutLM

Inferența, spre deosebire de instruire, este o sarcină de lucru continuă, nelimitată, care nu are un punct de finalizare definit. Prin urmare, reprezintă o mare parte din consumul de resurse pe durata de viață a unei sarcini de lucru ML. Obținerea unei inferențe corecte este cheia pentru a obține performanță ridicată, costuri reduse și durabilitate (eficiență energetică mai bună) de-a lungul întregului ciclu de viață ML. Cu sarcinile de inferență, clienții sunt de obicei interesați să atingă o anumită rată de inferență pentru a ține pasul cu cererea de asimilare.

Experimentul prezentat în această postare este inspirat de un caz de utilizare care înțelege în timp real un document, care este o aplicație obișnuită în industrii precum bancar sau asigurări (de exemplu, pentru procesarea daunelor sau a formularelor de cerere). Mai exact, selectăm LayoutLM, un model de transformator pre-antrenat utilizat pentru procesarea imaginilor documentelor și extragerea informațiilor. Am stabilit un SLA țintă de 1,000,000 de inferențe pe oră, o valoare considerată adesea ca în timp real, și apoi specificăm două configurații hardware capabile să îndeplinească această cerință: una folosind Instanțe Amazon EC2 Inf1, cu AWS Inferentia și unul care utilizează instanțe EC2 accelerate comparabile, optimizate pentru sarcini de inferență. Pe parcursul experimentului, urmărim câțiva indicatori pentru a măsura performanța, costul și eficiența energetică a ambelor configurații hardware. Rezultatele sunt prezentate în figura următoare.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Rezultatele de performanță, cost și eficiență energetică ale benchmark-urilor de inferență

AWS Inferentia oferă un randament de inferență de 6.3 ori mai mare. Ca rezultat, cu Inferentia, puteți rula aceeași încărcătură de lucru de înțelegere a documentelor bazată pe LayoutLM în timp real pe mai puține instanțe (6 instanțe AWS Inferentia față de 33 de alte instanțe EC2 accelerate optimizate pentru inferență, echivalent cu o reducere de 82%), folosiți mai puțin mai mult de o zecime (-92%) din energia din proces, toate în timp ce obținând un cost pe deducție semnificativ mai mic (2 USD față de 25 USD per milion de inferențe, echivalent cu o reducere a costurilor cu 91%).

Experiment de antrenament: Training BERT Large de la zero

Antrenamentul, spre deosebire de inferență, este un proces finit care se repetă mult mai rar. Inginerii ML sunt de obicei interesați de performanța înaltă a clusterului pentru a reduce timpul de antrenament, ținând în același timp costurile sub control. Eficiența energetică este o preocupare secundară (dar în creștere). Cu AWS Trainium, nu există nicio decizie de compromis: inginerii ML pot beneficia de performanțe ridicate de instruire, optimizând în același timp pentru costuri și reducând impactul asupra mediului.

Pentru a ilustra acest lucru, selectăm BERT Mare, un model de limbaj popular utilizat pentru înțelegerea limbajului natural al cazurilor de utilizare, cum ar fi răspunsurile la întrebări bazate pe chatbot și predicția răspunsurilor conversaționale. Antrenarea unui model BERT Large performant de la zero necesită de obicei procesarea a 450 de milioane de secvențe. Comparăm două configurații de cluster, fiecare cu o dimensiune fixă ​​de 16 instanțe și capabilă să antreneze BERT Large de la zero (450 de milioane de secvențe procesate) în mai puțin de o zi. Primul folosește instanțe EC2 accelerate tradiționale. A doua configurare folosește Instanțele Amazon EC2 Trn1 cu AWS Trainium. Din nou, analizăm ambele configurații în ceea ce privește performanța antrenamentului, costul și impactul asupra mediului (eficiență energetică). Rezultatele sunt prezentate în figura următoare.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Rezultatele performanței, costurilor și eficienței energetice ale benchmark-urilor de instruire

În experimente, instanțele bazate pe AWS Trainium au depășit instanțele EC2 accelerate optimizate pentru antrenament comparabile cu un factor de 1.7 în ceea ce privește secvențele procesate pe oră, reducând timpul total de antrenament cu 43% (2.3 ore față de 4 ore pe instanțele EC2 accelerate comparabile) . Ca rezultat, atunci când se utilizează un cluster de instanțe bazat pe Trainium, consumul total de energie pentru antrenarea BERT Large de la zero este cu aproximativ 29% mai mic în comparație cu un cluster de aceeași dimensiune de instanțe EC2 accelerate comparabile. Din nou, aceste beneficii de performanță și eficiență energetică vin și cu îmbunătățiri semnificative ale costurilor: costul de instruire pentru volumul de lucru BERT ML este cu aproximativ 62% mai mic la instanțele Trainium (787 USD față de 2091 USD per cursă completă de antrenament).

Noțiuni introductive cu acceleratoarele AWS create special pentru ML

Deși experimentele efectuate aici folosesc toate modele standard din domeniul procesării limbajului natural (NLP), AWS Inferentia și AWS Trainium excelează cu multe alte arhitecturi de model complexe, inclusiv LLM-uri și cele mai provocatoare AI generativă arhitecturi pe care utilizatorii le construiesc (cum ar fi GPT-3). Aceste acceleratoare se descurcă deosebit de bine cu modele cu peste 10 miliarde de parametri sau cu modele de viziune computerizată precum difuzia stabilă (vezi Ghid de potrivire a arhitecturii modelului pentru mai multe detalii). Într-adevăr, mulți dintre clienții noștri folosesc deja Inferentia și Trainium pentru o mare varietate de cazuri de utilizare ML.

Pentru a rula sarcinile de lucru de deep learning end-to-end pe instanțe bazate pe AWS Inferentia și AWS Trainium, puteți utiliza AWS Neuron. Neuron este un kit de dezvoltare software (SDK) end-to-end care include un compilator de deep learning, runtime și instrumente care sunt integrate nativ în cele mai populare cadre ML precum TensorFlow și PyTorch. Puteți folosi SDK-ul Neuron pentru a porta cu ușurință încărcăturile de lucru ML de învățare profundă TensorFlow sau PyTorch la Inferentia și Trainium și pentru a începe să construiți noi modele folosind aceleași cadre ML binecunoscute. Pentru o configurare mai ușoară, utilizați unul dintre Amazon Machine Images (AMI) pentru învățare profundă, care vin cu multe dintre pachetele și dependențele necesare. Și mai simplu: puteți utiliza Amazon SageMaker Studio, care acceptă nativ TensorFlow și PyTorch pe Inferentia și Trainium (vezi aws-samples GitHub repo de exemplu).

O notă finală: în timp ce Inferentia și Trainium sunt concepute special pentru sarcinile de lucru de învățare profundă, mulți algoritmi ML mai puțin complexi pot funcționa bine pe instanțe bazate pe CPU (de exemplu, XGBoost și LightGBM și chiar unele CNN-uri). În aceste cazuri, o migrare către AWS Graviton3 poate reduce semnificativ impactul asupra mediului al sarcinilor dvs. de lucru ML. Instanțele bazate pe AWS Graviton folosesc până la 60% mai puțină energie pentru aceeași performanță decât instanțele EC2 accelerate comparabile.

Concluzie

Există o concepție greșită comună că rularea sarcinilor de lucru ML într-un mod durabil și eficient din punct de vedere energetic înseamnă sacrificarea performanței sau a costurilor. Cu acceleratoarele AWS create special pentru învățarea automată, inginerii ML nu trebuie să facă acest compromis. În schimb, își pot rula sarcinile de lucru de deep learning pe hardware de deep learning extrem de specializat, conceput special, cum ar fi AWS Inferentia și AWS Trainium, care depășește semnificativ tipurile de instanțe EC2 accelerate comparabile, oferind costuri mai mici, performanțe mai mari și eficiență energetică mai bună - până la 90% — toate în același timp. Pentru a începe să rulați sarcinile de lucru ML pe Inferentia și Trainium, consultați Documentația AWS Neuron sau rotiți unul dintre mostre de caiete. De asemenea, puteți urmări discuția AWS re:Invent 2022 Sustenabilitate și siliciu AWS (SUS206), care acoperă multe dintre subiectele discutate în această postare.


Despre Autori

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Karsten Schroer este arhitect de soluții la AWS. El sprijină clienții în valorificarea datelor și a tehnologiei pentru a stimula sustenabilitatea infrastructurii lor IT și pentru a construi soluții bazate pe date care să permită operațiuni sustenabile în verticalele lor respective. Karsten s-a alăturat AWS în urma studiilor sale de doctorat în învățarea automată aplicată și managementul operațiunilor. El este cu adevărat pasionat de soluțiile bazate pe tehnologie pentru provocările societății și îi place să se scufunde adânc în metodele și arhitecturile de aplicații care stau la baza acestor soluții.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Kamran Khan este manager de produs tehnic senior la AWS Annapurna Labs. El lucrează îndeaproape cu clienții AI/ML pentru a modela foaia de parcurs pentru inovațiile AWS din siliciu create special, care provin de la Annapurna Labs de la Amazon. Accentul său specific este pe cipurile accelerate de învățare profundă, inclusiv AWS Trainium și AWS Inferentia. Kamran are 18 ani de experiență în industria semiconductoarelor. Kamran are peste un deceniu de experiență în a ajuta dezvoltatorii să-și atingă obiectivele ML.

Timestamp-ul:

Mai mult de la Învățare automată AWS