Reducer energiforbruget af dine maskinlæringsopgaver med op til 90 % med AWS specialbyggede acceleratorer | Amazon Web Services

Reducer energiforbruget af dine maskinlæringsopgaver med op til 90 % med AWS specialbyggede acceleratorer | Amazon Web Services

Maskinlæringsingeniører (ML) har traditionelt fokuseret på at finde en balance mellem modeltræning og implementeringsomkostninger i forhold til ydeevne. Bæredygtighed (energieffektivitet) bliver i stigende grad et yderligere mål for kunderne. Dette er vigtigt, fordi træning af ML-modeller og derefter at bruge de trænede modeller til at lave forudsigelser (inferens) kan være meget energikrævende opgaver. Derudover er flere og flere applikationer omkring os blevet fyldt med ML, og nye ML-drevne applikationer bliver udtænkt hver dag. Et populært eksempel er OpenAIs ChatGPT, som er drevet af en avanceret storsprogmodel (LMM). Til reference, GPT-3, en tidligere generation LLM har 175 milliarder parametre og kræver måneders non-stop træning på en klynge af tusindvis af accelererede processorer. Det Carbontracker undersøgelse anslår, at træning af GPT-3 fra bunden kan udsende op til 85 tons CO2-ækvivalent ved brug af klynger af specialiserede hardwareacceleratorer.

Der er flere måder, hvorpå AWS gør det muligt for ML-udøvere at sænke miljøpåvirkningen af ​​deres arbejdsbyrder. En måde er ved at yde præskriptiv vejledning omkring arkitektur af dine AI/ML-arbejdsbelastninger med henblik på bæredygtighed. En anden måde er ved at tilbyde managed ML træning og orkestreringstjenester som f.eks Amazon SageMaker Studio, som automatisk river ned og opskalerer ML-ressourcer, når de ikke er i brug, og giver et væld af out-of-the-box værktøjer, der sparer omkostninger og ressourcer. En anden stor muliggører er udviklingen af energieffektive, højtydende, specialbyggede acceleratorer til træning og implementering af ML-modeller.

Fokus i dette indlæg er på hardware som løftestang for bæredygtig ML. Vi præsenterer resultaterne af nylige præstations- og power draw-eksperimenter udført af AWS, der kvantificerer de energieffektivitetsfordele, du kan forvente, når du migrerer dine dybe lærings-arbejdsbelastninger fra andre inferens- og træningsoptimerede accelererede Amazon Elastic Compute Cloud (Amazon EC2) instanser til AWS-inferens , AWS Trainium. Inferentia og Trainium er AWS' nylige tilføjelse til sin portefølje af specialbyggede acceleratorer specielt designet af Amazon's Annapurna Labs for ML-inferens og træningsbelastninger.

AWS Inferentia og AWS Trainium for bæredygtig ML

For at give dig realistiske tal for energibesparelsespotentialet i AWS Inferentia og AWS Trainium i en applikation fra den virkelige verden, har vi udført adskillige power draw benchmark-eksperimenter. Vi har designet disse benchmarks med følgende nøglekriterier i tankerne:

  • For det første ville vi sikre os, at vi fangede det direkte energiforbrug, der kan tilskrives testarbejdsbelastningen, herunder ikke kun ML-acceleratoren, men også computeren, hukommelsen og netværket. Derfor målte vi i vores testopsætning strømforbrug på det niveau.
  • For det andet, når vi kørte trænings- og inferensarbejdsbelastningerne, sikrede vi, at alle instanser fungerede ved deres respektive fysiske hardwaregrænser, og foretog først målinger, efter at denne grænse var nået for at sikre sammenlignelighed.
  • Endelig ønskede vi at være sikre på, at de energibesparelser, der er rapporteret i dette indlæg, kunne opnås i en praktisk anvendelse i den virkelige verden. Derfor brugte vi almindelige kundeinspirerede ML use cases til benchmarking og test.

Resultaterne er rapporteret i de følgende afsnit.

Inferenseksperiment: Dokumentforståelse i realtid med LayoutLM

Inferens, i modsætning til træning, er en kontinuerlig, ubegrænset arbejdsbyrde, der ikke har et defineret afslutningspunkt. Det udgør derfor en stor del af livstidsressourceforbruget for en ML-arbejdsbelastning. Den rigtige konklusion er nøglen til at opnå høj ydeevne, lave omkostninger og bæredygtighed (bedre energieffektivitet) i hele ML-livscyklussen. Med slutningsopgaver er kunder normalt interesserede i at opnå en vis slutningshastighed for at følge med efterspørgslen efter indtagelse.

Eksperimentet, der præsenteres i dette indlæg, er inspireret af en brugscase til dokumentforståelse i realtid, som er en almindelig applikation i brancher som bank eller forsikring (for eksempel til krav eller behandling af ansøgningsskemaer). Konkret vælger vi LayoutLM, en fortrænet transformermodel, der bruges til dokumentbilledbehandling og informationsudtrækning. Vi sætter en mål-SLA på 1,000,000 inferenser i timen, en værdi, der ofte betragtes som realtid, og specificerer derefter to hardwarekonfigurationer, der er i stand til at opfylde dette krav: en vha. Amazon EC2 Inf1-forekomster, med AWS Inferentia, og en, der bruger sammenlignelige accelererede EC2-instanser optimeret til inferensopgaver. Gennem hele eksperimentet sporer vi adskillige indikatorer for at måle slutningsydelse, omkostninger og energieffektivitet for begge hardwarekonfigurationer. Resultaterne er præsenteret i følgende figur.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ydeevne, omkostninger og energieffektivitet Resultater af inferensbenchmarks

AWS Inferentia leverer 6.3 gange højere inferensgennemstrømning. Som et resultat kan du med Inferentia køre den samme LayoutLM-baserede dokumentforståelsesarbejdsbyrde i realtid på færre instanser (6 AWS Inferentia-instanser vs. 33 andre slutningsoptimerede accelererede EC2-instanser, svarende til en reduktion på 82 %), bruge mindre end en tiendedel (-92 %) af energien i processen, alt imens der opnås væsentligt lavere omkostninger pr. slutning (2 USD vs. 25 USD pr. million slutninger, svarende til en omkostningsreduktion på 91 %).

Træningseksperiment: Træning af BERT Large fra bunden

Træning er i modsætning til inferens en begrænset proces, der gentages meget sjældnere. ML-ingeniører er typisk interesserede i høj klyngeydelse for at reducere træningstiden og samtidig holde omkostningerne under kontrol. Energieffektivitet er en sekundær (men stadig voksende) bekymring. Med AWS Trainium er der ingen afvejningsbeslutning: ML-ingeniører kan drage fordel af høj træningsydelse, mens de også optimerer for omkostninger og reducerer miljøpåvirkningen.

For at illustrere dette vælger vi BERT Stor, en populær sprogmodel, der bruges til naturlig sprogforståelse, såsom chatbot-baseret besvarelse af spørgsmål og forudsigelse af samtalesvar. Træning af en velfungerende BERT Large-model fra bunden kræver typisk 450 millioner sekvenser, der skal behandles. Vi sammenligner to klyngekonfigurationer, hver med en fast størrelse på 16 instanser og i stand til at træne BERT Large fra bunden (450 millioner behandlede sekvenser) på mindre end en dag. Den første bruger traditionelle accelererede EC2-instanser. Den anden opsætning bruger Amazon EC2 Trn1-forekomster med AWS Trainium. Igen benchmarker vi begge konfigurationer med hensyn til træningsydelse, omkostninger og miljøpåvirkning (energieffektivitet). Resultaterne er vist i følgende figur.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Resultater for ydeevne, omkostninger og energieffektivitet af træningsbenchmarks

I eksperimenterne udkonkurrerede AWS Trainium-baserede forekomster de sammenlignelige træningsoptimerede accelererede EC2-forekomster med en faktor på 1.7 i form af sekvenser behandlet i timen, hvilket reducerede den samlede træningstid med 43 % (2.3 timer versus 4 timer på sammenlignelige accelererede EC2-forekomster) . Som et resultat, når du bruger en Trainium-baseret instansklynge, er det samlede energiforbrug til træning af BERT Large fra bunden cirka 29 % lavere sammenlignet med en klynge af samme størrelse af sammenlignelige accelererede EC2-instanser. Igen kommer disse ydeevne- og energieffektivitetsfordele også med betydelige omkostningsforbedringer: Udgifterne til at træne til BERT ML-arbejdsbyrden er ca. 62 % lavere på Trainium-forekomster (USD 787 mod USD 2091 pr. fuld træningskørsel).

Kom godt i gang med AWS specialbyggede acceleratorer til ML

Selvom eksperimenterne, der udføres her, alle bruger standardmodeller fra NLP-domænet (natural language processing), udmærker AWS Inferentia og AWS Trainium sig med mange andre komplekse modelarkitekturer, herunder LLM'er og de mest udfordrende generativ AI arkitekturer, som brugerne bygger (såsom GPT-3). Disse acceleratorer klarer sig særligt godt med modeller med over 10 milliarder parametre eller computervisionsmodeller som stabil diffusion (se Retningslinjer for tilpasning til modelarkitektur for flere detaljer). Faktisk bruger mange af vores kunder allerede Inferentia og Trainium til en bred vifte af ML use cases.

For at køre dine end-to-end deep learning-arbejdsbelastninger på AWS Inferentia- og AWS Trainium-baserede forekomster, kan du bruge AWS Neuron. Neuron er et end-to-end softwareudviklingskit (SDK), der inkluderer en deep learning-kompiler, runtime og værktøjer, der er integreret i de mest populære ML-frameworks som TensorFlow og PyTorch. Du kan bruge Neuron SDK til nemt at overføre dine eksisterende TensorFlow- eller PyTorch-deep learning ML-arbejdsbelastninger til Inferentia og Trainium og begynde at bygge nye modeller ved hjælp af de samme velkendte ML-rammer. For nemmere opsætning, brug en af ​​vores Amazon Machine Images (AMI'er) til dyb læring, som kommer med mange af de nødvendige pakker og afhængigheder. Endnu enklere: du kan bruge Amazon SageMaker Studio, som naturligt understøtter TensorFlow og PyTorch på Inferentia og Trainium (se aws-samples GitHub repo for et eksempel).

En sidste bemærkning: Mens Inferentia og Trainium er specialbygget til deep learning-arbejdsbelastninger, kan mange mindre komplekse ML-algoritmer fungere godt på CPU-baserede instanser (f.eks. XGBoost og LightGBM og endog nogle CNN'er). I disse tilfælde vil en migration til AWS Graviton3 kan reducere miljøpåvirkningen af ​​dine ML-arbejdsbelastninger betydeligt. AWS Graviton-baserede instanser bruger op til 60 % mindre energi for den samme ydeevne end sammenlignelige accelererede EC2-instanser.

Konklusion

Der er en almindelig misforståelse, at kørsel af ML-arbejdsbelastninger på en bæredygtig og energieffektiv måde betyder, at man ofrer på ydeevne eller omkostninger. Med AWS specialbyggede acceleratorer til maskinlæring behøver ML-ingeniører ikke at foretage den afvejning. I stedet kan de køre deres deep learning-arbejdsbelastninger på højt specialiseret specialbygget deep learning-hardware, såsom AWS Inferentia og AWS Trainium, der markant overgår sammenlignelige accelererede EC2-instanstyper og leverer lavere omkostninger, højere ydeevne og bedre energieffektivitet – op til 90 % – alt sammen på samme tid. For at begynde at køre dine ML-arbejdsbelastninger på Inferentia og Trainium, tjek AWS Neuron dokumentation eller spin op en af ​​de eksempler på notesbøger. Du kan også se AWS re:Invent 2022 tale om Bæredygtighed og AWS silicium (SUS206), som dækker mange af de emner, der diskuteres i dette indlæg.


Om forfatterne

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Karsten Schroer er Solutions Architect hos AWS. Han støtter kunder i at udnytte data og teknologi til at drive bæredygtigheden af ​​deres it-infrastruktur og bygge datadrevne løsninger, der muliggør bæredygtig drift i deres respektive vertikaler. Karsten kom til AWS efter sine ph.d.-studier i anvendt machine learning & operations management. Han brænder virkelig for teknologi-aktiverede løsninger på samfundsmæssige udfordringer og elsker at dykke dybt ned i de metoder og applikationsarkitekturer, der ligger til grund for disse løsninger.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Kamran Khan er Sr. Technical Product Manager hos AWS Annapurna Labs. Han arbejder tæt sammen med AI/ML-kunder for at forme køreplanen for AWS specialbyggede siliciuminnovationer, der kommer ud af Amazons Annapurna Labs. Hans specifikke fokus er på accelererede deep-learning-chips, herunder AWS Trainium og AWS Inferentia. Kamran har 18 års erfaring i halvlederindustrien. Kamran har over ti års erfaring med at hjælpe udviklere med at nå deres ML-mål.

Tidsstempel:

Mere fra AWS maskinindlæring