Reduser energiforbruket til maskinlæringsarbeidsmengdene dine med opptil 90 % med spesialbygde AWS-akseleratorer | Amazon Web Services

Reduser energiforbruket til maskinlæringsarbeidsmengdene dine med opptil 90 % med spesialbygde AWS-akseleratorer | Amazon Web Services

Maskinlæringsingeniører (ML) har tradisjonelt fokusert på å finne en balanse mellom modelltrening og distribusjonskostnad vs. ytelse. I økende grad blir bærekraft (energieffektivitet) et tilleggsmål for kundene. Dette er viktig fordi å trene ML-modeller og deretter bruke de trente modellene til å lage spådommer (inferens) kan være svært energikrevende oppgaver. I tillegg har flere og flere applikasjoner rundt oss blitt tilført ML, og nye ML-drevne applikasjoner blir unnfanget hver dag. Et populært eksempel er OpenAIs ChatGPT, som drives av en toppmoderne storspråkmodell (LMM). For referanse, GPT-3, en tidligere generasjon LLM har 175 milliarder parametere og krever måneder med non-stop trening på en klynge av tusenvis av akselererte prosessorer. De Carbontracker-studie anslår at trening av GPT-3 fra bunnen av kan slippe ut opptil 85 tonn CO2-ekvivalenter, ved bruk av klynger av spesialiserte maskinvareakseleratorer.

Det er flere måter AWS gjør det mulig for ML-utøvere å redusere miljøpåvirkningen av arbeidsbelastningen deres. En måte er å gi foreskrivende veiledning rundt utforming av AI/ML-arbeidsmengdene dine for bærekraft. En annen måte er å tilby administrerte ML-trenings- og orkestreringstjenester som f.eks Amazon SageMaker Studio, som automatisk river ned og skalerer opp ML-ressurser når de ikke er i bruk, og gir en rekke ut-av-boksen verktøy som sparer kostnader og ressurser. En annen viktig muliggjører er utviklingen av energieffektive, spesialbygde akseleratorer med høy ytelse for opplæring og distribusjon av ML-modeller.

Fokuset i dette innlegget er på maskinvare som en spak for bærekraftig ML. Vi presenterer resultatene av nylige ytelses- og krafttrekk-eksperimenter utført av AWS som kvantifiserer energieffektivitetsfordelene du kan forvente når du migrerer dyplæringsarbeidsmengdene dine fra andre slutnings- og treningsoptimerte akselererte Amazon Elastic Compute Cloud (Amazon EC2) forekomster til AWS slutning og AWS Trainium. Inferentia og Trainium er AWSs nylige tillegg til sin portefølje av spesialbygde akseleratorer spesielt designet av Amazons Annapurna Labs for ML-slutninger og arbeidsbelastninger for opplæring.

AWS Inferentia og AWS Trainium for bærekraftig ML

For å gi deg realistiske tall for energisparepotensialet til AWS Inferentia og AWS Trainium i en virkelig applikasjon, har vi utført flere referanseeksperimenter med krafttrekk. Vi har utviklet disse referansene med følgende nøkkelkriterier i tankene:

  • Først ønsket vi å forsikre oss om at vi fanget opp direkte energiforbruk som kan tilskrives testarbeidsbelastningen, inkludert ikke bare ML-akseleratoren, men også datamaskinen, minnet og nettverket. Derfor målte vi i testoppsettet vårt strømforbruk på det nivået.
  • For det andre, når vi kjørte trenings- og slutningsarbeidsbelastningene, sikret vi at alle forekomster opererte med sine respektive fysiske maskinvaregrenser og tok målinger først etter at grensen var nådd for å sikre sammenlignbarhet.
  • Til slutt ønsket vi å være sikre på at energibesparelsene som er rapportert i dette innlegget kunne oppnås i en praktisk applikasjon i den virkelige verden. Derfor brukte vi vanlige kundeinspirerte ML use cases for benchmarking og testing.

Resultatene er rapportert i de følgende avsnittene.

Inferenseksperiment: Sanntidsdokumentforståelse med LayoutLM

Inferens, i motsetning til trening, er en kontinuerlig, ubegrenset arbeidsbelastning som ikke har et definert fullføringspunkt. Det utgjør derfor en stor del av livstidsressursforbruket til en ML-arbeidsmengde. Å få rett konklusjon er nøkkelen til å oppnå høy ytelse, lave kostnader og bærekraft (bedre energieffektivitet) gjennom hele ML-livssyklusen. Med slutningsoppgaver er kunder vanligvis interessert i å oppnå en viss slutningsrate for å holde tritt med inntaksbehovet.

Eksperimentet som presenteres i dette innlegget er inspirert av en brukscase for sanntidsdokumentforståelse, som er en vanlig applikasjon i bransjer som bank eller forsikring (for eksempel for krav eller behandling av søknadsskjema). Konkret velger vi LayoutLM, en forhåndsopplært transformatormodell som brukes til dokumentbildebehandling og informasjonsutvinning. Vi setter en mål-SLA på 1,000,000 XNUMX XNUMX slutninger per time, en verdi som ofte anses som sanntid, og spesifiserer deretter to maskinvarekonfigurasjoner som kan møte dette kravet: en ved å bruke Amazon EC2 Inf1-forekomster, med AWS Inferentia, og en som bruker sammenlignbare akselererte EC2-instanser optimalisert for slutningsoppgaver. Gjennom eksperimentet sporer vi flere indikatorer for å måle slutningsytelse, kostnad og energieffektivitet for begge maskinvarekonfigurasjonene. Resultatene er presentert i følgende figur.

Reduser energiforbruket til maskinlæringsarbeidsmengdene dine med opptil 90 % med spesialbygde AWS-akseleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Ytelse, kostnad og energieffektivitet Resultater av referansereferanser

AWS Inferentia leverer 6.3 ganger høyere inferensgjennomstrømning. Som et resultat kan du med Inferentia kjøre den samme LayoutLM-baserte dokumentforståelsesarbeidsmengden i sanntid på færre forekomster (6 AWS Inferentia-forekomster vs. 33 andre inferensoptimaliserte akselererte EC2-forekomster, tilsvarende en reduksjon på 82 %), bruke mindre enn en tidel (-92 %) av energien i prosessen, samtidig som man oppnår betydelig lavere kostnad per slutning (2 USD vs. USD 25 per million slutninger, tilsvarende en kostnadsreduksjon på 91 %).

Treningseksperiment: Trening BERT Large fra bunnen av

Trening, i motsetning til inferens, er en begrenset prosess som gjentas mye sjeldnere. ML-ingeniører er vanligvis interessert i høy klyngeytelse for å redusere treningstiden og samtidig holde kostnadene under kontroll. Energieffektivitet er en sekundær (men økende) bekymring. Med AWS Trainium er det ingen avveining: ML-ingeniører kan dra nytte av høy treningsytelse samtidig som de optimerer for kostnader og reduserer miljøpåvirkningen.

For å illustrere dette velger vi BERT Stor, en populær språkmodell som brukes til brukstilfeller for naturlig språkforståelse som chatbot-basert spørsmålssvar og prediksjon av samtalesvar. Trening av en BERT Large-modell med god ytelse fra bunnen av krever vanligvis 450 millioner sekvenser som skal behandles. Vi sammenligner to klyngekonfigurasjoner, hver med en fast størrelse på 16 forekomster og i stand til å trene BERT Large fra bunnen av (450 millioner sekvenser behandlet) på mindre enn en dag. Den første bruker tradisjonelle akselererte EC2-forekomster. Det andre oppsettet bruker Amazon EC2 Trn1-forekomster med AWS Trainium. Igjen, vi benchmarker begge konfigurasjonene når det gjelder treningsytelse, kostnader og miljøpåvirkning (energieffektivitet). Resultatene er vist i følgende figur.

Reduser energiforbruket til maskinlæringsarbeidsmengdene dine med opptil 90 % med spesialbygde AWS-akseleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Ytelse, kostnad og energieffektivitet Resultater av treningsbenchmarks

I eksperimentene overgikk AWS Trainium-baserte forekomster de sammenlignbare treningsoptimaliserte akselererte EC2-forekomstene med en faktor på 1.7 når det gjelder sekvenser behandlet per time, og kuttet den totale treningstiden med 43 % (2.3 timer mot 4 timer på sammenlignbare akselererte EC2-forekomster) . Som et resultat, når du bruker en Trainium-basert instansklynge, er det totale energiforbruket for å trene BERT Large fra bunnen av omtrent 29 % lavere sammenlignet med en klynge av samme størrelse med sammenlignbare akselererte EC2-instanser. Igjen kommer disse ytelses- og energieffektivitetsfordelene også med betydelige kostnadsforbedringer: kostnaden for å trene for BERT ML-arbeidsmengden er omtrent 62 % lavere på Trainium-forekomster (USD 787 versus USD 2091 per full treningsøkt).

Komme i gang med AWS spesialbygde akseleratorer for ML

Selv om eksperimentene som er utført her alle bruker standardmodeller fra NLP-domenet (natural language processing), utmerker AWS Inferentia og AWS Trainium seg med mange andre komplekse modellarkitekturer, inkludert LLM-er og de mest utfordrende generativ AI arkitekturer som brukere bygger (som GPT-3). Disse akseleratorene gjør det spesielt godt med modeller med over 10 milliarder parametere, eller datasynsmodeller som stabil diffusjon (se Retningslinjer for tilpasning av modellarkitektur for flere detaljer). Faktisk bruker mange av våre kunder allerede Inferentia og Trainium for et bredt utvalg av ML brukstilfeller.

For å kjøre ende-til-ende dyplæringsarbeidsmengder på AWS Inferentia- og AWS Trainium-baserte forekomster, kan du bruke AWS nevron. Neuron er et ende-til-ende programvareutviklingssett (SDK) som inkluderer en kompilator for dyp læring, kjøretid og verktøy som er integrert i de mest populære ML-rammeverkene som TensorFlow og PyTorch. Du kan bruke Neuron SDK for enkelt å overføre dine eksisterende TensorFlow- eller PyTorch-deep learning ML-arbeidsmengder til Inferentia og Trainium og begynne å bygge nye modeller ved å bruke de samme velkjente ML-rammeverket. For enklere oppsett, bruk en av våre Amazon Machine Images (AMI) for dyp læring, som kommer med mange av de nødvendige pakkene og avhengighetene. Enda enklere: du kan bruke Amazon SageMaker Studio, som naturlig støtter TensorFlow og PyTorch på Inferentia og Trainium (se aws-samples GitHub repo for et eksempel).

En siste merknad: Selv om Inferentia og Trainium er spesialbygget for arbeidsbelastninger med dyp læring, kan mange mindre komplekse ML-algoritmer fungere godt på CPU-baserte forekomster (f.eks. XGBoost og LightGBM Til og med noen CNN-er). I disse tilfellene vil en migrasjon til AWS Graviton3 kan redusere miljøpåvirkningen av ML-arbeidsbelastningene dine betydelig. AWS Graviton-baserte forekomster bruker opptil 60 % mindre energi for samme ytelse enn sammenlignbare akselererte EC2-forekomster.

konklusjonen

Det er en vanlig misforståelse at å kjøre ML-arbeidsbelastninger på en bærekraftig og energieffektiv måte betyr å ofre ytelse eller kostnad. Med AWS spesialbygde akseleratorer for maskinlæring, trenger ikke ML-ingeniører å gjøre den avveiningen. I stedet kan de kjøre deep learning-arbeidsmengdene sine på høyt spesialisert spesialbygget dyplæringsmaskinvare, som AWS Inferentia og AWS Trainium, som overgår sammenlignbare akselererte EC2-instanstyper betydelig, og gir lavere kostnader, høyere ytelse og bedre energieffektivitet – opptil 90 % – alt på samme tid. For å begynne å kjøre ML-arbeidsbelastningene dine på Inferentia og Trainium, sjekk ut AWS Neuron dokumentasjon eller snurr opp en av eksempel på notatbøker. Du kan også se AWS re:Invent 2022 snakke om Bærekraft og AWS silisium (SUS206), som dekker mange av emnene som diskuteres i dette innlegget.


Om forfatterne

Reduser energiforbruket til maskinlæringsarbeidsmengdene dine med opptil 90 % med spesialbygde AWS-akseleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Karsten Schroer er løsningsarkitekt hos AWS. Han støtter kunder i å utnytte data og teknologi for å drive bærekraftig IT-infrastruktur og bygge datadrevne løsninger som muliggjør bærekraftig drift i deres respektive vertikaler. Karsten begynte i AWS etter sine doktorgradsstudier i anvendt maskinlæring og driftsledelse. Han brenner virkelig for teknologiaktiverte løsninger på samfunnsutfordringer og elsker å dykke dypt inn i metodene og applikasjonsarkitekturene som ligger til grunn for disse løsningene.

Reduser energiforbruket til maskinlæringsarbeidsmengdene dine med opptil 90 % med spesialbygde AWS-akseleratorer | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Kamran Khan er senior teknisk produktsjef ved AWS Annapurna Labs. Han jobber tett med AI/ML-kunder for å forme veikartet for AWS spesialbygde silisiuminnovasjoner som kommer ut av Amazons Annapurna Labs. Hans spesifikke fokus er på akselererte dyplæringsbrikker inkludert AWS Trainium og AWS Inferentia. Kamran har 18 års erfaring i halvlederindustrien. Kamran har over et tiår med erfaring med å hjelpe utviklere med å nå sine ML-mål.

Tidstempel:

Mer fra AWS maskinlæring