Reduzieren Sie den Energieverbrauch Ihrer Machine-Learning-Workloads um bis zu 90 % mit speziell entwickelten AWS-Beschleunigern

Neuauflage von Plato

Verfolger: 0

Ingenieure für maschinelles Lernen (ML) haben sich traditionell darauf konzentriert, ein Gleichgewicht zwischen Modellschulung und Bereitstellungskosten im Vergleich zur Leistung zu finden. Nachhaltigkeit (Energieeffizienz) wird zunehmend zu einem zusätzlichen Ziel für Kunden. Dies ist wichtig, da das Training von ML-Modellen und die anschließende Verwendung der trainierten Modelle zur Erstellung von Vorhersagen (Inferenz) äußerst energieintensive Aufgaben sein können. Darüber hinaus sind immer mehr Anwendungen um uns herum mit ML ausgestattet, und jeden Tag werden neue ML-basierte Anwendungen entwickelt. Ein beliebtes Beispiel ist ChatGPT von OpenAI, das auf einem hochmodernen Large Language Model (LMM) basiert. Als Referenz, GPT-3, ein LLM der früheren Generation verfügt über 175 Milliarden Parameter und erfordert monatelanges ununterbrochenes Training auf einem Cluster aus Tausenden beschleunigter Prozessoren. Der Carbontracker-Studie schätzt, dass das Training von GPT-3 von Grund auf bis zu 85 Tonnen CO2-Äquivalent ausstoßen kann, wobei Cluster spezialisierter Hardwarebeschleuniger zum Einsatz kommen.

Es gibt mehrere Möglichkeiten, wie AWS ML-Praktikern ermöglicht, die Umweltauswirkungen ihrer Arbeitsbelastung zu verringern. Eine Möglichkeit ist die Bereitstellung Präskriptive Anleitung zur Gestaltung Ihrer KI/ML-Workloads für Nachhaltigkeit. Eine andere Möglichkeit besteht darin, verwaltete ML-Trainings- und Orchestrierungsdienste anzubieten, z Amazon SageMaker-Studio, das ML-Ressourcen automatisch herunterfährt und hochskaliert, wenn sie nicht verwendet werden, und eine Vielzahl sofort einsatzbereiter Tools bereitstellt, die Kosten und Ressourcen sparen. Ein weiterer wichtiger Wegbereiter ist die Entwicklung von energieeffiziente, leistungsstarke, speziell gebaute Beschleuniger zum Trainieren und Bereitstellen von ML-Modellen.

Der Fokus dieses Beitrags liegt auf Hardware als Hebel für nachhaltiges ML. Wir präsentieren die Ergebnisse kürzlich von AWS durchgeführter Leistungs- und Stromverbrauchsexperimente, die die Energieeffizienzvorteile quantifizieren, die Sie erwarten können, wenn Sie Ihre Deep-Learning-Workloads von anderen inferenz- und trainingsoptimierten beschleunigten Workloads migrieren Amazon Elastic Compute-Cloud (Amazon EC2) Instanzen zu AWS-Inferenz und AWS-Training. Inferentia und Trainium sind Die jüngste Ergänzung von AWS zu seinem Portfolio speziell entwickelter Beschleuniger speziell von Amazon entwickelt Annapurna Labs für ML-Inferenz- und Trainings-Workloads.

AWS Inferentia und AWS Trainium für nachhaltiges ML

Um Ihnen realistische Zahlen zum Energieeinsparpotenzial von AWS Inferentia und AWS Trainium in einer realen Anwendung zu liefern, haben wir mehrere Benchmark-Experimente zum Stromverbrauch durchgeführt. Wir haben diese Benchmarks unter Berücksichtigung der folgenden Schlüsselkriterien entwickelt:

Zunächst wollten wir sicherstellen, dass wir den direkten Energieverbrauch erfassen, der auf die Testarbeitslast zurückzuführen ist, und zwar nicht nur des ML-Beschleunigers, sondern auch der Rechenleistung, des Speichers und des Netzwerks. Daher haben wir in unserem Testaufbau den Stromverbrauch auf diesem Niveau gemessen.
Zweitens stellten wir bei der Ausführung der Trainings- und Inferenz-Workloads sicher, dass alle Instanzen an ihren jeweiligen physischen Hardwaregrenzen arbeiteten, und führten Messungen erst nach Erreichen dieser Grenze durch, um die Vergleichbarkeit sicherzustellen.
Schließlich wollten wir sicher sein, dass die in diesem Beitrag beschriebenen Energieeinsparungen in einer praktischen Anwendung in der Praxis erzielt werden können. Daher haben wir für Benchmarking und Tests gängige, von Kunden inspirierte ML-Anwendungsfälle verwendet.

Die Ergebnisse werden in den folgenden Abschnitten berichtet.

Inferenzexperiment: Dokumentverständnis in Echtzeit mit LayoutLM

Im Gegensatz zum Training handelt es sich bei Inferenz um eine kontinuierliche, unbegrenzte Arbeitsbelastung, für die es keinen definierten Abschlusspunkt gibt. Es macht daher einen großen Teil des lebenslangen Ressourcenverbrauchs einer ML-Workload aus. Die richtige Schlussfolgerung ist der Schlüssel zum Erreichen hoher Leistung, niedriger Kosten und Nachhaltigkeit (bessere Energieeffizienz) entlang des gesamten ML-Lebenszyklus. Bei Inferenzaufgaben sind Kunden in der Regel daran interessiert, eine bestimmte Inferenzrate zu erreichen, um mit der Ingest-Nachfrage Schritt zu halten.

Das in diesem Beitrag vorgestellte Experiment ist von einem Anwendungsfall zum Echtzeit-Dokumentenverständnis inspiriert, der in Branchen wie Banken oder Versicherungen häufig zum Einsatz kommt (z. B. für Schadensfälle oder die Bearbeitung von Antragsformularen). Konkret wählen wir aus LayoutLM, ein vorab trainiertes Transformatormodell, das für die Dokumentenbildverarbeitung und Informationsextraktion verwendet wird. Wir legen ein Ziel-SLA von 1,000,000 Inferenzen pro Stunde fest, ein Wert, der oft als Echtzeit angesehen wird, und geben dann zwei Hardwarekonfigurationen an, die diese Anforderung erfüllen können: eine mit Amazon EC2 Inf1-Instanzenmit AWS Inferentia und eine mit vergleichbaren beschleunigten EC2-Instanzen, die für Inferenzaufgaben optimiert sind. Während des gesamten Experiments verfolgen wir mehrere Indikatoren, um die Inferenzleistung, Kosten und Energieeffizienz beider Hardwarekonfigurationen zu messen. Die Ergebnisse sind in der folgenden Abbildung dargestellt.

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ergebnisse von Inferenz-Benchmarks zu Leistung, Kosten und Energieeffizienz

AWS Inferentia bietet einen 6.3-mal höheren Inferenzdurchsatz. Infolgedessen können Sie mit Inferentia die gleiche Echtzeit-LayoutLM-basierte Dokumentenverständnis-Arbeitslast auf weniger Instanzen ausführen (6 AWS Inferentia-Instanzen gegenüber 33 anderen inferenzoptimierten beschleunigten EC2-Instanzen, was einer Reduzierung um 82 % entspricht) und weniger verbrauchen als ein Zehntel (-92 %) der Energie im Prozess, und das alles bei deutlich geringeren Kosten pro Inferenz (2 USD gegenüber 25 USD pro Million Inferenzen, was einer Kostenreduzierung von 91 % entspricht).

Trainingsexperiment: BERT Large von Grund auf trainieren

Training ist im Gegensatz zu Inferenz ein endlicher Prozess, der viel seltener wiederholt wird. ML-Ingenieure sind in der Regel an einer hohen Clusterleistung interessiert, um die Schulungszeit zu verkürzen und gleichzeitig die Kosten unter Kontrolle zu halten. Energieeffizienz ist ein zweitrangiges (jedoch wachsendes) Anliegen. Mit AWS Trainium gibt es keine Kompromissentscheidung: ML-Ingenieure können von einer hohen Trainingsleistung profitieren und gleichzeitig die Kosten optimieren und die Umweltbelastung reduzieren.

Um dies zu veranschaulichen, wählen wir aus BERT Groß, ein beliebtes Sprachmodell, das für Anwendungsfälle zum Verstehen natürlicher Sprache verwendet wird, wie z. B. die Beantwortung von Fragen auf Chatbot-Basis und die Vorhersage von Konversationsantworten. Um ein leistungsfähiges BERT Large-Modell von Grund auf zu trainieren, müssen in der Regel 450 Millionen Sequenzen verarbeitet werden. Wir vergleichen zwei Clusterkonfigurationen mit jeweils einer festen Größe von 16 Instanzen und können BERT Large in weniger als einem Tag von Grund auf trainieren (450 Millionen verarbeitete Sequenzen). Die erste verwendet herkömmliche beschleunigte EC2-Instanzen. Das zweite Setup verwendet Amazon EC2 Trn1-Instances mit AWS Trainium. Auch hier vergleichen wir beide Konfigurationen im Hinblick auf Trainingsleistung, Kosten und Umweltauswirkungen (Energieeffizienz). Die Ergebnisse sind in der folgenden Abbildung dargestellt.

Ergebnisse von Trainings-Benchmarks zu Leistung, Kosten und Energieeffizienz

In den Experimenten übertrafen AWS Trainium-basierte Instanzen die vergleichbaren, für das Training optimierten, beschleunigten EC2-Instanzen um den Faktor 1.7 in Bezug auf die pro Stunde verarbeiteten Sequenzen, wodurch die gesamte Trainingszeit um 43 % verkürzt wurde (2.3 Stunden gegenüber 4 Stunden bei vergleichbaren beschleunigten EC2-Instanzen). . Infolgedessen ist bei Verwendung eines Trainium-basierten Instanzclusters der Gesamtenergieverbrauch für das Training von BERT Large von Grund auf etwa 29 % niedriger als bei einem gleich großen Cluster vergleichbarer beschleunigter EC2-Instanzen. Auch hier gehen diese Leistungs- und Energieeffizienzvorteile auch mit erheblichen Kostenverbesserungen einher: Die Kosten für das Training der BERT ML-Arbeitslast sind auf Trainium-Instanzen etwa 62 % niedriger (787 USD gegenüber 2091 USD pro vollständigem Trainingslauf).

Erste Schritte mit den von AWS speziell für ML entwickelten Beschleunigern

Obwohl die hier durchgeführten Experimente alle Standardmodelle aus dem Bereich der Verarbeitung natürlicher Sprache (NLP) verwenden, zeichnen sich AWS Inferentia und AWS Trainium durch viele andere komplexe Modellarchitekturen aus, darunter auch LLMs und die anspruchsvollsten generative KI Architekturen, die Benutzer erstellen (z. B. GPT-3). Diese Beschleuniger funktionieren besonders gut mit Modellen mit über 10 Milliarden Parametern oder Computer-Vision-Modellen wie der stabilen Diffusion (siehe Modellarchitektur-Fit-Richtlinien für mehr Details). Tatsächlich nutzen viele unserer Kunden Inferentia und Trainium bereits für eine Vielzahl von Aufgaben ML-Anwendungsfälle.

Um Ihre End-to-End-Deep-Learning-Workloads auf AWS Inferentia- und AWS Trainium-basierten Instanzen auszuführen, können Sie Folgendes verwenden: AWS-Neuron. Neuron ist ein End-to-End-Softwareentwicklungskit (SDK), das einen Deep-Learning-Compiler, eine Laufzeit und Tools umfasst, die nativ in die gängigsten ML-Frameworks wie TensorFlow und PyTorch integriert sind. Sie können das Neuron SDK verwenden, um Ihre vorhandenen TensorFlow- oder PyTorch-Deep-Learning-ML-Workloads einfach auf Inferentia und Trainium zu portieren und mit der Erstellung neuer Modelle unter Verwendung derselben bekannten ML-Frameworks zu beginnen. Für eine einfachere Einrichtung verwenden Sie eines unserer Amazon Machine Images (AMIs) für Deep Learning, die viele der erforderlichen Pakete und Abhängigkeiten enthalten. Noch einfacher: Sie können Amazon SageMaker Studio verwenden, das TensorFlow und PyTorch auf Inferentia und Trainium nativ unterstützt (siehe aws-samples GitHub-Repository zum Beispiel).

Ein letzter Hinweis: Während Inferentia und Trainium speziell für Deep-Learning-Workloads entwickelt wurden, können viele weniger komplexe ML-Algorithmen auf CPU-basierten Instanzen gut funktionieren (z. B. XGBoost und LightGBM und sogar einige CNNs). In diesen Fällen ist eine Migration nach AWS Graviton3 kann die Umweltauswirkungen Ihrer ML-Workloads erheblich reduzieren. AWS Graviton-basierte Instanzen verbrauchen bei gleicher Leistung bis zu 60 % weniger Energie als vergleichbare beschleunigte EC2-Instanzen.

Zusammenfassung

Es besteht ein weit verbreitetes Missverständnis, dass die nachhaltige und energieeffiziente Ausführung von ML-Workloads Einbußen bei der Leistung oder den Kosten bedeutet. Mit den von AWS speziell für maschinelles Lernen entwickelten Beschleunigern müssen ML-Ingenieure diesen Kompromiss nicht eingehen. Stattdessen können sie ihre Deep-Learning-Workloads auf hochspezialisierter, speziell entwickelter Deep-Learning-Hardware wie AWS Inferentia und AWS Trainium ausführen, die vergleichbare beschleunigte EC2-Instance-Typen deutlich übertrifft und niedrigere Kosten, höhere Leistung und bessere Energieeffizienz bietet – bis zu 90 % – alles gleichzeitig. Um mit der Ausführung Ihrer ML-Workloads auf Inferentia und Trainium zu beginnen, sehen Sie sich die an AWS Neuron-Dokumentation oder drehen Sie eines davon hoch Beispielnotizbücher. Sie können sich auch den Vortrag von AWS re:Invent 2022 ansehen Nachhaltigkeit und AWS-Silizium (SUS206), das viele der in diesem Beitrag behandelten Themen abdeckt.

Über die Autoren

Karsten Schröer ist Lösungsarchitekt bei AWS. Er unterstützt Kunden dabei, Daten und Technologie zu nutzen, um die Nachhaltigkeit ihrer IT-Infrastruktur voranzutreiben und datengesteuerte Lösungen zu entwickeln, die einen nachhaltigen Betrieb in ihren jeweiligen Branchen ermöglichen. Karsten kam nach seinem Doktoratsstudium in angewandtem maschinellem Lernen und Betriebsmanagement zu AWS. Er hat eine echte Leidenschaft für technologiegestützte Lösungen für gesellschaftliche Herausforderungen und liebt es, tief in die Methoden und Anwendungsarchitekturen einzutauchen, die diesen Lösungen zugrunde liegen.

Kamran Khan ist Senior Technical Product Manager bei AWS Annapurna Labs. Er arbeitet eng mit KI/ML-Kunden zusammen, um die Roadmap für AWS-spezifische Siliziuminnovationen zu gestalten, die aus den Annapurna Labs von Amazon hervorgehen. Sein besonderer Fokus liegt auf beschleunigten Deep-Learning-Chips, darunter AWS Trainium und AWS Inferentia. Kamran verfügt über 18 Jahre Erfahrung in der Halbleiterindustrie. Kamran verfügt über mehr als ein Jahrzehnt Erfahrung in der Unterstützung von Entwicklern beim Erreichen ihrer ML-Ziele.