Verlaag het energieverbruik van uw machine learning-workloads met tot wel 90% met speciaal voor AWS gebouwde versnellers | Amazon-webservices

Verlaag het energieverbruik van uw machine learning-workloads met tot wel 90% met speciaal voor AWS gebouwde versnellers | Amazon-webservices

Machine learning (ML)-ingenieurs hebben zich van oudsher gericht op het vinden van een balans tussen modeltraining en implementatiekosten versus prestaties. Steeds vaker wordt duurzaamheid (energiezuinigheid) een extra doelstelling voor klanten. Dit is belangrijk omdat het trainen van ML-modellen en het vervolgens gebruiken van de getrainde modellen om voorspellingen te doen (inferentie) zeer energie-intensieve taken kunnen zijn. Bovendien zijn steeds meer applicaties om ons heen doordrenkt met ML en worden er elke dag nieuwe ML-aangedreven applicaties bedacht. Een populair voorbeeld is ChatGPT van OpenAI, dat wordt aangedreven door een geavanceerd groot taalmodel (LMM). Als referentie, GPT-3, een LLM van een eerdere generatie heeft 175 miljard parameters en vereist maanden non-stop training op een cluster van duizenden versnelde processors. De Carbontracker-studie schat dat het helemaal opnieuw trainen van GPT-3 tot 85 ton CO2-equivalent kan uitstoten, met behulp van clusters van gespecialiseerde hardwareversnellers.

Er zijn verschillende manieren waarop AWS ML-beoefenaars in staat stelt de milieu-impact van hun workloads te verminderen. Een manier is door te voorzien prescriptieve richtlijnen voor het ontwerpen van uw AI/ML-workloads voor duurzaamheid. Een andere manier is door beheerde ML-training en orkestratiediensten aan te bieden, zoals Amazon SageMaker Studio, dat ML-resources automatisch afbreekt en opschaalt wanneer ze niet in gebruik zijn, en een groot aantal kant-en-klare tools biedt die kosten en resources besparen. Een andere belangrijke factor is de ontwikkeling van energiezuinige, krachtige, speciaal gebouwde versnellers voor het trainen en implementeren van ML-modellen.

De focus van deze post ligt op hardware als hefboom voor duurzame ML. We presenteren de resultaten van recente prestatie- en stroomverbruikexperimenten uitgevoerd door AWS die de energie-efficiรซntievoordelen kwantificeren die u kunt verwachten bij het migreren van uw deep learning-workloads van andere voor inferentie en training geoptimaliseerde versnelde Amazon Elastic Compute-cloud (Amazon EC2) instanties naar AWS Inferentie en AWS Trainium. Inferentia en Trainium zijn De recente toevoeging van AWS aan zijn portfolio van speciaal gebouwde versnellers speciaal ontworpen door Amazon's Annapurna Labs voor ML-inferentie en trainingsworkloads.

AWS Inferentia en AWS Trainium voor duurzame ML

Om u realistische cijfers te geven over het energiebesparingspotentieel van AWS Inferentia en AWS Trainium in een praktijktoepassing, hebben we verschillende benchmark-experimenten voor stroomverbruik uitgevoerd. We hebben deze benchmarks ontworpen met de volgende belangrijke criteria in gedachten:

  • Ten eerste wilden we ervoor zorgen dat we het directe energieverbruik vastlegden dat toe te schrijven is aan de testwerklast, inclusief niet alleen de ML-versneller, maar ook de rekenkracht, het geheugen en het netwerk. Daarom hebben we in onze testopstelling het stroomverbruik op dat niveau gemeten.
  • Ten tweede hebben we er bij het uitvoeren van de trainings- en inferentieworkloads voor gezorgd dat alle instances aan hun respectieve fysieke hardwarelimieten werkten en namen we pas metingen nadat die limiet was bereikt om vergelijkbaarheid te garanderen.
  • Ten slotte wilden we er zeker van zijn dat de energiebesparingen die in dit bericht worden vermeld, ook in de praktijk kunnen worden gerealiseerd. Daarom hebben we veelgebruikte, door de klant geรฏnspireerde ML-use-cases gebruikt voor benchmarking en testen.

De resultaten worden gerapporteerd in de volgende paragrafen.

Inferentie-experiment: real-time documentbegrip met LayoutLM

Inferentie is, in tegenstelling tot training, een continue, onbeperkte werklast die geen gedefinieerd voltooiingspunt heeft. Het maakt daarom een โ€‹โ€‹groot deel uit van het levenslange resourceverbruik van een ML-workload. De juiste conclusies trekken is de sleutel tot het bereiken van hoge prestaties, lage kosten en duurzaamheid (betere energie-efficiรซntie) gedurende de volledige ML-levenscyclus. Bij inferentietaken zijn klanten meestal geรฏnteresseerd in het bereiken van een bepaald inferentiepercentage om de opnamevraag bij te houden.

Het experiment dat in dit bericht wordt gepresenteerd, is geรฏnspireerd op een real-time gebruiksscenario voor het begrijpen van documenten, wat een veelgebruikte toepassing is in sectoren zoals het bankwezen of het verzekeringswezen (bijvoorbeeld voor de verwerking van claims of aanvraagformulieren). Concreet selecteren we Lay-outLM, een vooraf getraind transformatormodel dat wordt gebruikt voor het verwerken van documentafbeeldingen en het extraheren van informatie. We stellen een doel-SLA in van 1,000,000 gevolgtrekkingen per uur, een waarde die vaak als real-time wordt beschouwd, en specificeren vervolgens twee hardwareconfiguraties die aan deze vereiste kunnen voldoen: een met Amazon EC2 Inf1-instanties, met AWS Inferentia, en een met vergelijkbare versnelde EC2-instanties die zijn geoptimaliseerd voor inferentietaken. Tijdens het experiment houden we verschillende indicatoren bij om de gevolgtrekkingsprestaties, kosten en energie-efficiรซntie van beide hardwareconfiguraties te meten. De resultaten zijn weergegeven in de volgende figuur.

Verminder het energieverbruik van uw machine learning-workloads tot 90% met speciaal gebouwde AWS-accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Resultaten van prestatie-, kosten- en energie-efficiรซntie van inferentiebenchmarks

AWS Inferentia levert 6.3 keer hogere inferentiedoorvoer. Als gevolg hiervan kunt u met Inferentia dezelfde real-time op LayoutLM gebaseerde werklast voor het begrijpen van documenten op minder instanties uitvoeren (6 AWS Inferentia-instanties vs. 33 andere voor inferentie geoptimaliseerde versnelde EC2-instanties, gelijk aan een reductie van 82%), minder verbruiken dan een tiende (-92%) van de energie in het proces, terwijl de kosten per gevolgtrekking aanzienlijk lager zijn (USD 2 vs. USD 25 per miljoen gevolgtrekkingen, gelijk aan een kostenreductie van 91%).

Trainingsexperiment: BERT Large vanaf nul trainen

Training, in tegenstelling tot gevolgtrekking, is een eindig proces dat veel minder vaak wordt herhaald. ML-engineers zijn meestal geรฏnteresseerd in hoge clusterprestaties om de trainingstijd te verkorten en tegelijkertijd de kosten onder controle te houden. Energie-efficiรซntie is een secundaire (maar groeiende) zorg. Met AWS Trainium is er geen afweging: ML-ingenieurs kunnen profiteren van hoge trainingsprestaties en tegelijkertijd optimaliseren voor kosten en het verminderen van de impact op het milieu.

Om dit te illustreren, selecteren we BERT Groot, een populair taalmodel dat wordt gebruikt voor het begrijpen van natuurlijke taal, gebruiksscenario's zoals op chatbots gebaseerde vraagbeantwoording en voorspelling van gespreksreacties. Om een โ€‹โ€‹goed presterend BERT Large-model helemaal opnieuw te trainen, zijn doorgaans 450 miljoen sequenties nodig om te worden verwerkt. We vergelijken twee clusterconfiguraties, elk met een vaste grootte van 16 instances en in staat om BERT Large helemaal opnieuw te trainen (450 miljoen sequenties verwerkt) in minder dan een dag. De eerste maakt gebruik van traditionele versnelde EC2-instanties. De tweede opstelling gebruikt Amazon EC2 Trn1-instanties met AWS Trainium. Nogmaals, we benchmarken beide configuraties op het gebied van trainingsprestaties, kosten en milieu-impact (energie-efficiรซntie). De resultaten zijn weergegeven in de volgende figuur.

Verminder het energieverbruik van uw machine learning-workloads tot 90% met speciaal gebouwde AWS-accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Resultaten van prestatie-, kosten- en energie-efficiรซntie van trainingsbenchmarks

In de experimenten presteerden op AWS Trainium gebaseerde instanties beter dan de vergelijkbare, voor training geoptimaliseerde versnelde EC2-instanties met een factor 1.7 in termen van sequenties die per uur worden verwerkt, waardoor de totale trainingstijd met 43% werd verkort (2.3 uur versus 4 uur op vergelijkbare versnelde EC2-instanties) . Als gevolg hiervan is bij gebruik van een op Trainium gebaseerd instantiecluster het totale energieverbruik voor het vanaf nul trainen van BERT Large ongeveer 29% lager in vergelijking met een cluster van dezelfde grootte van vergelijkbare versnelde EC2-instanties. Nogmaals, deze voordelen op het gebied van prestaties en energie-efficiรซntie gaan ook gepaard met aanzienlijke kostenverbeteringen: de kosten om te trainen voor de BERT ML-workload zijn ongeveer 62% lager op Trainium-exemplaren (USD 787 versus USD 2091 per volledige trainingsrun).

Aan de slag met AWS speciaal gebouwde versnellers voor ML

Hoewel de hier uitgevoerde experimenten allemaal standaardmodellen uit het natural language processing (NLP)-domein gebruiken, blinken AWS Inferentia en AWS Trainium uit met vele andere complexe modelarchitecturen, waaronder LLM's en de meest uitdagende generatieve AI architecturen die gebruikers bouwen (zoals GPT-3). Deze versnellers doen het vooral goed met modellen met meer dan 10 miljard parameters, of computer vision-modellen zoals stabiele diffusie (zie Richtlijnen voor pasvorm van modelarchitectuur voor meer details). Veel van onze klanten gebruiken Inferentia en Trainium al voor een breed scala aan ML-use-cases.

Om uw end-to-end deep learning-workloads uit te voeren op AWS Inferentia- en AWS Trainium-gebaseerde instances, kunt u AWS-neuron. Neuron is een end-to-end software development kit (SDK) die een deep learning-compiler, runtime en tools bevat die native zijn geรฏntegreerd in de meest populaire ML-frameworks zoals TensorFlow en PyTorch. U kunt de Neuron SDK gebruiken om uw bestaande TensorFlow- of PyTorch deep learning ML-workloads eenvoudig over te zetten naar Inferentia en Trainium en nieuwe modellen te bouwen met dezelfde bekende ML-frameworks. Gebruik een van onze voor een eenvoudigere installatie Amazon Machine Images (AMI's) voor diep leren, die met veel van de vereiste pakketten en afhankelijkheden worden geleverd. Nog eenvoudiger: u kunt Amazon SageMaker Studio gebruiken, dat standaard TensorFlow en PyTorch ondersteunt op Inferentia en Trainium (zie de aws-samples GitHub-opslagplaats bijvoorbeeld).

Nog een laatste opmerking: hoewel Inferentia en Trainium speciaal zijn gebouwd voor deep learning-workloads, kunnen veel minder complexe ML-algoritmen goed presteren op CPU-gebaseerde instanties (bijvoorbeeld XGBoost en LightGBM en zelfs sommige CNN's). In deze gevallen is een migratie naar AWS Graviton3 kan de milieu-impact van uw ML-workloads aanzienlijk verminderen. Op AWS Graviton gebaseerde instanties gebruiken tot 60% minder energie voor dezelfde prestaties dan vergelijkbare versnelde EC2-instanties.

Conclusie

Er bestaat een algemene misvatting dat het uitvoeren van ML-workloads op een duurzame en energiezuinige manier betekent dat er moet worden ingeboet aan prestaties of kosten. Met AWS speciaal gebouwde versnellers voor machine learning hoeven ML-engineers die afweging niet te maken. In plaats daarvan kunnen ze hun deep learning-workloads uitvoeren op zeer gespecialiseerde, speciaal gebouwde deep learning-hardware, zoals AWS Inferentia en AWS Trainium, die aanzienlijk beter presteren dan vergelijkbare versnelde EC2-instancetypes, met lagere kosten, hogere prestaties en betere energie-efficiรซntie - tot wel 90% - allemaal tegelijk. Bekijk de AWS Neuron-documentatie of draai een van de voorbeeld notitieboekjes. Je kunt ook de AWS re:Invent 2022 talk bekijken Duurzaamheid en AWS-silicium (SUS206), die veel van de onderwerpen behandelt die in dit bericht worden besproken.


Over de auteurs

Verminder het energieverbruik van uw machine learning-workloads tot 90% met speciaal gebouwde AWS-accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Karsten Schroer is een oplossingsarchitect bij AWS. Hij ondersteunt klanten bij het benutten van data en technologie om de duurzaamheid van hun IT-infrastructuur te stimuleren en datagestuurde oplossingen te bouwen die duurzame operaties in hun respectievelijke branches mogelijk maken. Karsten kwam bij AWS na zijn promotieonderzoek in toegepast machine learning & operations management. Hij is echt gepassioneerd door technologische oplossingen voor maatschappelijke uitdagingen en duikt graag diep in de methoden en applicatie-architecturen die ten grondslag liggen aan deze oplossingen.

Verminder het energieverbruik van uw machine learning-workloads tot 90% met speciaal gebouwde AWS-accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Kamran Khan is Sr. Technical Product Manager bij AWS Annapurna Labs. Hij werkt nauw samen met AI/ML-klanten om de roadmap vorm te geven voor AWS speciaal gebouwde siliciuminnovaties die voortkomen uit Amazon's Annapurna Labs. Zijn specifieke focus ligt op versnelde deep-learning chips, waaronder AWS Trainium en AWS Inferentia. Kamran heeft 18 jaar ervaring in de halfgeleiderindustrie. Kamran heeft meer dan tien jaar ervaring met het helpen van ontwikkelaars om hun ML-doelen te bereiken.

Tijdstempel:

Meer van AWS-machine learning