Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med specialbyggda AWS acceleratorer | Amazon webbtjänster

Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med specialbyggda AWS acceleratorer | Amazon webbtjänster

Maskininlärningsingenjörer (ML) har traditionellt fokuserat på att hitta en balans mellan modellträning och driftsättningskostnad kontra prestanda. Hållbarhet (energieffektivitet) blir i allt högre grad ett ytterligare mål för kunderna. Detta är viktigt eftersom att träna ML-modeller och sedan använda de tränade modellerna för att göra förutsägelser (inferens) kan vara mycket energikrävande uppgifter. Dessutom har fler och fler applikationer runt omkring oss blivit infunderade med ML, och nya ML-drivna applikationer skapas varje dag. Ett populärt exempel är OpenAI:s ChatGPT, som drivs av en toppmodern storspråksmodell (LMM). Som referens, GPT-3, en tidigare generation LLM har 175 miljarder parametrar och kräver månader av non-stop träning på ett kluster av tusentals accelererade processorer. De Carbontracker studie uppskattar att träning av GPT-3 från grunden kan släppa ut upp till 85 ton CO2-ekvivalenter, med hjälp av kluster av specialiserade hårdvaruacceleratorer.

Det finns flera sätt som AWS gör det möjligt för ML-utövare att minska miljöpåverkan från sina arbetsbelastningar. Ett sätt är att tillhandahålla föreskrivande vägledning kring att utforma dina AI/ML-arbetsbelastningar för hållbarhet. Ett annat sätt är genom att erbjuda managed ML utbildning och orkestreringstjänster som t.ex Amazon SageMaker Studio, som automatiskt river och skalar upp ML-resurser när de inte används, och ger en mängd färdiga verktyg som sparar kostnader och resurser. En annan viktig möjliggörare är utvecklingen av energieffektiva, högpresterande, specialbyggda acceleratorer för utbildning och implementering av ML-modeller.

Fokus i detta inlägg ligger på hårdvara som en hävstång för hållbar ML. Vi presenterar resultaten av de senaste experimenten med prestanda och kraftdragning utförda av AWS som kvantifierar de energieffektivitetsfördelar du kan förvänta dig när du migrerar dina arbetsbelastningar för djupinlärning från andra slutlednings- och utbildningsoptimerade accelererade Amazon Elastic Compute Cloud (Amazon EC2) instanser till AWS slutledning och AWS Trainium. Inferentia och Trainium är AWS nyligen tillskott till sin portfölj av specialbyggda acceleratorer speciellt designad av Amazons Annapurna Labs för ML slutledning och träningsbelastningar.

AWS Inferentia och AWS Trainium för hållbar ML

För att ge dig realistiska siffror på energibesparingspotentialen hos AWS Inferentia och AWS Trainium i en verklig applikation, har vi genomfört flera benchmarkexperiment för power draw. Vi har utformat dessa riktmärken med följande nyckelkriterier i åtanke:

  • Först ville vi försäkra oss om att vi fångade direkt energiförbrukning som kan hänföras till testarbetsbelastningen, inklusive inte bara ML-acceleratorn utan även beräkningen, minnet och nätverket. Därför mätte vi i vår testuppsättning strömförbrukning på den nivån.
  • För det andra, när vi körde tränings- och slutledningsarbetsbelastningarna, såg vi till att alla instanser fungerade inom sina respektive fysiska hårdvarugränser och gjorde mätningar först efter att den gränsen nåddes för att säkerställa jämförbarhet.
  • Slutligen ville vi vara säkra på att energibesparingarna som rapporterades i det här inlägget kunde uppnås i en praktisk tillämpning i verkligheten. Därför använde vi vanliga kundinspirerade ML-användningsfall för benchmarking och testning.

Resultaten redovisas i följande avsnitt.

Slutledningsexperiment: Dokumentförståelse i realtid med LayoutLM

Inferens, i motsats till träning, är en kontinuerlig, obegränsad arbetsbelastning som inte har en definierad slutpunkt. Den utgör därför en stor del av livstidsresursförbrukningen för en ML-arbetsbelastning. Att få rätt slutsatser är nyckeln till att uppnå hög prestanda, låg kostnad och hållbarhet (bättre energieffektivitet) under hela ML:s livscykel. Med slutledningsuppgifter är kunder vanligtvis intresserade av att uppnå en viss slutledningshastighet för att hänga med efterfrågan på intag.

Experimentet som presenteras i det här inlägget är inspirerat av ett användningsfall för dokumentförståelse i realtid, vilket är en vanlig applikation i branscher som bank eller försäkring (till exempel för fordringar eller ansökningsformulär). Specifikt väljer vi LayoutLM, en förtränad transformatormodell som används för dokumentbildbehandling och informationsextraktion. Vi sätter en mål-SLA på 1,000,000 XNUMX XNUMX slutsatser per timme, ett värde som ofta anses vara realtid, och anger sedan två hårdvarukonfigurationer som kan uppfylla detta krav: en med Amazon EC2 Inf1-instanser, med AWS Inferentia, och en som använder jämförbara accelererade EC2-instanser optimerade för slutledningsuppgifter. Under hela experimentet spårar vi flera indikatorer för att mäta slutledningsprestanda, kostnad och energieffektivitet för båda hårdvarukonfigurationerna. Resultaten presenteras i följande figur.

Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med AWS specialbyggda acceleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Prestanda, kostnad och energieffektivitet Resultat av inferensbenchmarks

AWS Inferentia levererar 6.3 gånger högre slutledningsgenomströmning. Som ett resultat kan du med Inferentia köra samma LayoutLM-baserade dokumentförståelsearbetsbelastning i realtid på färre instanser (6 AWS Inferentia-instanser kontra 33 andra inferensoptimerade accelererade EC2-instanser, motsvarande en 82 % minskning), använda mindre än en tiondel (-92 %) av energin i processen, samtidigt som man uppnår betydligt lägre kostnad per slutledning (2 USD mot 25 USD per miljon slutsatser, vilket motsvarar en kostnadsminskning på 91 %).

Träningsexperiment: Träna BERT Large från grunden

Träning, i motsats till slutledning, är en ändlig process som upprepas mycket mindre ofta. ML-ingenjörer är vanligtvis intresserade av hög klusterprestanda för att minska träningstiden samtidigt som kostnaderna håller sig under kontroll. Energieffektivitet är ett sekundärt (men växande) problem. Med AWS Trainium finns det inget avvägningsbeslut: ML-ingenjörer kan dra nytta av hög träningsprestanda samtidigt som de optimerar för kostnader och minskar miljöpåverkan.

För att illustrera detta väljer vi BERT Stor, en populär språkmodell som används för användningsfall för naturlig språkförståelse som chatbot-baserade frågesvar och förutsägelse av samtalssvar. Att träna en välpresterande BERT Large-modell från grunden kräver vanligtvis att 450 miljoner sekvenser bearbetas. Vi jämför två klusterkonfigurationer, var och en med en fast storlek på 16 instanser och som kan träna BERT Large från grunden (450 miljoner bearbetade sekvenser) på mindre än en dag. Den första använder traditionella accelererade EC2-instanser. Den andra inställningen använder Amazon EC2 Trn1-instanser med AWS Trainium. Återigen jämför vi båda konfigurationerna när det gäller träningsprestanda, kostnad och miljöpåverkan (energieffektivitet). Resultaten visas i följande figur.

Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med AWS specialbyggda acceleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Prestanda, kostnad och energieffektivitet Resultat av träningsriktmärken

I experimenten överträffade AWS Trainium-baserade instanser de jämförbara träningsoptimerade accelererade EC2-instanserna med en faktor 1.7 när det gäller sekvenser bearbetade per timme, vilket minskade den totala träningstiden med 43 % (2.3 timmar mot 4 timmar på jämförbara accelererade EC2-instanser) . Som ett resultat, när du använder ett Trainium-baserat instanskluster, är den totala energiförbrukningen för träning av BERT Large från början cirka 29 % lägre jämfört med ett kluster av samma storlek av jämförbara accelererade EC2-instanser. Återigen kommer dessa prestanda- och energieffektivitetsfördelar också med betydande kostnadsförbättringar: kostnaden för att träna för BERT ML-arbetsbelastningen är cirka 62 % lägre på Trainium-instanser (787 USD mot 2091 XNUMX USD per hel träningskörning).

Komma igång med AWS specialbyggda acceleratorer för ML

Även om experimenten som utförs här alla använder standardmodeller från NLP-domänen (natural language processing), AWS Inferentia och AWS Trainium utmärker sig med många andra komplexa modellarkitekturer inklusive LLM:er och de mest utmanande generativ AI arkitekturer som användarna bygger (som GPT-3). Dessa acceleratorer klarar sig särskilt bra med modeller med över 10 miljarder parametrar, eller datorseende modeller som stabil diffusion (se Riktlinjer för passning av modellarkitektur för mer detaljer). Faktum är att många av våra kunder redan använder Inferentia och Trainium för en mängd olika ML användningsfall.

För att köra dina end-to-end djupinlärningsarbetsbelastningar på AWS Inferentia- och AWS Trainium-baserade instanser kan du använda AWS Neuron. Neuron är ett komplett mjukvaruutvecklingskit (SDK) som inkluderar en kompilator för djupinlärning, runtime och verktyg som är integrerade i de mest populära ML-ramverken som TensorFlow och PyTorch. Du kan använda Neuron SDK för att enkelt porta dina befintliga TensorFlow eller PyTorch djupinlärning ML-arbetsbelastningar till Inferentia och Trainium och börja bygga nya modeller med samma välkända ML-ramverk. För enklare installation, använd en av våra Amazon Machine Images (AMI) för djupinlärning, som kommer med många av de nödvändiga paketen och beroenden. Ännu enklare: du kan använda Amazon SageMaker Studio, som inbyggt stöder TensorFlow och PyTorch på Inferentia och Trainium (se aws-samples GitHub repo till exempel).

En sista anmärkning: medan Inferentia och Trainium är specialbyggda för arbetsbelastningar för djupinlärning, kan många mindre komplexa ML-algoritmer fungera bra på CPU-baserade instanser (till exempel, XGBoost och LightGBM och även vissa CNN). I dessa fall en migration till AWS Graviton3 kan avsevärt minska miljöpåverkan från dina ML-arbetsbelastningar. AWS Graviton-baserade instanser använder upp till 60 % mindre energi för samma prestanda än jämförbara accelererade EC2-instanser.

Slutsats

Det finns en vanlig missuppfattning att att köra ML-arbetsbelastningar på ett hållbart och energieffektivt sätt innebär att man offras på prestanda eller kostnad. Med AWS specialbyggda acceleratorer för maskininlärning behöver ML-ingenjörer inte göra den avvägningen. Istället kan de köra sina arbetsbelastningar för djupinlärning på högspecialiserad specialbyggd hårdvara för djupinlärning, såsom AWS Inferentia och AWS Trainium, som avsevärt överträffar jämförbara accelererade EC2-instanstyper, vilket ger lägre kostnad, högre prestanda och bättre energieffektivitet – upp till 90 % – allt på samma gång. För att börja köra dina ML-arbetsbelastningar på Inferentia och Trainium, kolla in AWS Neuron dokumentation eller snurra upp en av exempel anteckningsböcker. Du kan också se AWS re:Invent 2022 prata om Hållbarhet och AWS-kisel (SUS206), som täcker många av de ämnen som diskuteras i det här inlägget.


Om författarna

Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med AWS specialbyggda acceleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Karsten Schroer är lösningsarkitekt på AWS. Han stödjer kunder i att utnyttja data och teknik för att driva hållbarheten i deras IT-infrastruktur och bygga datadrivna lösningar som möjliggör hållbar verksamhet i sina respektive vertikaler. Karsten började på AWS efter sina doktorandstudier i tillämpad maskininlärning och driftledning. Han brinner verkligen för teknikbaserade lösningar på samhällsutmaningar och älskar att dyka djupt in i de metoder och applikationsarkitekturer som ligger till grund för dessa lösningar.

Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med AWS specialbyggda acceleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Kamran Khan är Sr. teknisk produktchef på AWS Annapurna Labs. Han arbetar nära med AI/ML-kunder för att forma färdplanen för AWS specialbyggda kiselinnovationer som kommer från Amazons Annapurna Labs. Hans specifika fokus är på accelererade djupinlärningschip inklusive AWS Trainium och AWS Inferentia. Kamran har 18 års erfarenhet inom halvledarindustrin. Kamran har över ett decenniums erfarenhet av att hjälpa utvecklare att uppnå sina ML-mål.

Tidsstämpel:

Mer från AWS maskininlärning