Skalierung verteilter Schulungen mit AWS Trainium und Amazon EKS

Neuauflage von Plato

Verfolger: 0

Jüngste Entwicklungen im Deep Learning haben zu immer größeren Modellen wie GPT-3, BLOOM und OPT geführt, von denen einige bereits über 100 Milliarden Parameter umfassen. Obwohl größere Modelle in der Regel leistungsfähiger sind, erfordert das Training solcher Modelle erhebliche Rechenressourcen. Selbst bei der Verwendung fortschrittlicher verteilter Trainingsbibliotheken wie FSDP und DeepSpeed ist es üblich, dass Trainingsjobs mehrere Wochen oder Monate lang Hunderte von Beschleunigergeräten erfordern.

Ende 2022 gab AWS die allgemeine Verfügbarkeit von bekannt Amazon EC2 Trn1-Instances YOGA MODE AWS-Training– ein speziell entwickelter Beschleuniger für maschinelles Lernen (ML), der optimiert wurde, um eine leistungsstarke, kostengünstige und massiv skalierbare Plattform zum Trainieren von Deep-Learning-Modellen in der Cloud bereitzustellen. Trn1-Instanzen sind in verschiedenen Größen (siehe folgende Tabelle) mit bis zu 16 Trainium-Beschleunigern pro Instanz verfügbar.

Instanzgröße	Trainium-Beschleuniger	Beschleunigerspeicher (GB)	vCPUs	Instanzspeicher (GiB)	Netzwerkbandbreite (Gbit/s)
trn1.2xlarge	1	32	8	32	max. 12.5
trn1.32xlarge	16	512	128	512	800
trn1n.32xlarge (bald verfügbar)	16	512	128	512	1600

Trn1-Instanzen können entweder als eigenständige Instanzen für kleinere Trainingsaufgaben oder in hochskalierbaren Ultraclustern bereitgestellt werden, die verteiltes Training über Zehntausende von Trainium-Beschleunigern unterstützen. Alle Trn1-Instances unterstützen die eigenständige Konfiguration, während Trn1-Ultracluster trn1.32xlarge- oder trn1n.32xlarge-Instances erfordern. In einem Ultracluster befinden sich mehrere Trn1-Instances in einer bestimmten AWS-Availability Zone und sind mit Hochgeschwindigkeits-EFA-Netzwerken (Elastic Fabric Adapter) mit geringer Latenz verbunden, die 800 Gbit/s nicht blockierende Netzwerkbandbreite pro Instance für kollektive Rechenoperationen bereitstellen . Der Instanztyp trn1n.32xlarge, der Anfang 2023 auf den Markt kommt, wird diese Bandbreite auf 1600 Gbit/s pro Instanz erhöhen.

Viele Unternehmenskunden entscheiden sich dafür, ihre Deep-Learning-Workloads mit Kubernetes bereitzustellen – dem De-facto-Standard für Container-Orchestrierung in der Cloud. AWS-Kunden stellen diese Workloads häufig mithilfe von bereit Amazon Elastic Kubernetes-Service (Amazon EKS). Amazon EKS ist ein verwalteter Kubernetes-Service, der die Erstellung, Konfiguration, den Lebenszyklus und die Überwachung von Kubernetes-Clustern vereinfacht und gleichzeitig die volle Flexibilität von Upstream-Kubernetes bietet.

Wir freuen uns, heute die offizielle Unterstützung für verteilte Schulungsjobs mit Amazon EKS- und EC2 Trn1-Instances ankündigen zu können. Mit dieser Ankündigung können Sie jetzt problemlos große containerisierte Trainingsjobs innerhalb von Amazon EKS ausführen und gleichzeitig das Preis-Leistungs-Verhältnis, die Skalierbarkeit und die Benutzerfreundlichkeit von Trn1-Instances voll ausnutzen.

Zusammen mit dieser Ankündigung veröffentlichen wir auch ein ausführliches Tutorial, das Sie durch die Schritte führt, die zum Ausführen eines verteilten Trainingsauftrags mit mehreren Instanzen (BERT Phase 1 Vorschulung) mit Amazon EKS- und Trn1-Instances erforderlich sind. In diesem Beitrag lernen Sie die Lösungsarchitektur kennen und sehen sich einige wichtige Schritte aus dem Tutorial an. Beziehen Sie sich auf die offizielles Tutorial-Repository für den kompletten End-to-End-Workflow.

Eine umfassende Vertrautheit mit den wichtigsten AWS-Services wie z Amazon Elastic Compute-Cloud (Amazon EC2) und Amazon EKS ist impliziert, und grundlegende Vertrautheit mit Deep Learning und PyTorch wäre hilfreich.

Lösungsarchitektur

Das folgende Diagramm zeigt die Lösungsarchitektur.

Skalierung verteilter Schulungen mit AWS Trainium und Amazon EKS PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die Lösung besteht aus den folgenden Hauptkomponenten:

Ein EKS-Cluster
Eine EKS-Knotengruppe, die aus trn1.32xlarge-Instances besteht
Das AWS-Neuron SDK
EKS-Plugins für Neuron und EFA
An Amazon Elastic Container-Registrierung (Amazon ECR) RRepository
Ein Trainingscontainer-Image
An Amazon FSx für Lustre Dateisystem
Ein Volcano-Batch-Scheduler und etcd-Server
Der universelle Jobstarter TorchX
Das TorchX DDP-Modul für Trainium

Das Herzstück der Lösung ist ein EKS-Cluster, der Ihnen zentrale Kubernetes-Verwaltungsfunktionen über einen EKS-Service-Endpunkt bereitstellt. Einer der Vorteile von Amazon EKS besteht darin, dass der Service die Steuerungsebene basierend auf der Last aktiv überwacht und skaliert, was eine hohe Leistung für große Workloads wie verteiltes Training gewährleistet. Innerhalb des EKS-Clusters befindet sich eine Knotengruppe, die aus zwei oder mehr trn1.32xlarge Trainium-basierten Instanzen besteht, die sich in derselben Availability Zone befinden.

Das Neuron SDK ist der Software-Stack, der Treiber, Compiler, Laufzeit, Framework-Integration (z. B. PyTorch Neuron) und Benutzertools bereitstellt, mit denen Sie auf die Vorteile der Trainium-Beschleuniger zugreifen können. Der Neuron-Gerätetreiber wird direkt auf den EKS-Knoten (Trn1-Instanzen) ausgeführt und bietet Zugriff auf die Trainium-Chips aus den Trainingscontainern, die auf den Knoten gestartet werden. Neuron- und EFA-Plugins werden innerhalb des EKS-Clusters installiert, um Zugriff auf die Trainium-Chips und EFA-Netzwerkgeräte bereitzustellen, die für verteiltes Training erforderlich sind.

Ein ECR-Repository wird verwendet, um die Schulungscontainer-Images zu speichern. Diese Images enthalten das Neuron-SDK (mit Ausnahme des Neuron-Treibers, der direkt auf den Trn1-Instances ausgeführt wird), das PyTorch-Trainingsskript und erforderliche Abhängigkeiten. Wenn ein Trainingsauftrag auf dem EKS-Cluster gestartet wird, werden die Container-Images zuerst von Amazon ECR auf die EKS-Knoten gezogen und die PyTorch-Worker-Container werden dann aus den Images instanziiert.

Shared Storage wird mithilfe eines leistungsstarken FSx for Lustre-Dateisystems bereitgestellt, das sich in derselben Availability Zone wie die trn1.32xlarge-Instances befindet. Das Erstellen und Anhängen des FSx for Lustre-Dateisystems an den EKS-Cluster wird durch vermittelt Amazon FSx für Lustre CSI-Treiber. In dieser Lösung wird der gemeinsam genutzte Speicher zum Speichern des Trainingsdatensatzes und aller während des Trainingsprozesses erstellten Protokolle oder Artefakte verwendet.

Die Lösung verwendet die TorchX universeller Jobstarter um verteilte Trainingsjobs innerhalb von Amazon EKS zu starten. TorchX hat zwei wichtige Abhängigkeiten: den Volcano-Batch-Scheduler und den etcd-Server. Volcano übernimmt die Planung und Warteschlange von Trainingsjobs, während der etcd-Server ein Schlüsselwertspeicher ist, der von TorchElastic für die Synchronisierung und Peer-Erkennung während des Jobstarts verwendet wird.

Wenn ein Trainingsjob mit TorchX gestartet wird, verwendet der Startbefehl das bereitgestellte TorchX Distributed DDP-Modul für Trainium, um den gesamten Trainingsjob zu konfigurieren und dann die entsprechenden Torchrun-Befehle auf jedem der PyTorch-Worker-Pods auszuführen. Wenn ein Job ausgeführt wird, kann er mit Standard-Kubernetes-Tools (wie kubectl) oder über Standard-ML-Toolsets wie TensorBoard überwacht werden.

Lösungsüberblick

Sehen wir uns die wichtigen Schritte dieser Lösung an. In dieser Übersicht verweisen wir auf die Starten Sie einen Multi-Node-PyTorch-Neuron-Trainingsjob auf Trainium mit TorchX und EKS Anleitung auf GitHub.

Erstellen Sie einen EKS-Cluster

Um mit verteilten Trainingsaufträgen in Amazon EKS mit Trn1-Instances zu beginnen, erstellen Sie zunächst einen EKS-Cluster, wie in beschrieben Anleitung auf GitHub. Die Cluster-Erstellung kann mit Standard-Tools wie z eksctl und AWS CloudFormation.

Erstellen Sie eine EKS-Knotengruppe

Als Nächstes müssen wir eine EKS-Knotengruppe erstellen, die zwei oder mehr trn1.32xlarge-Instances in einer unterstützten Region enthält. Im Tutorium, AWS CloudFormation wird verwendet, um eine Trainium-spezifische EC2-Startvorlage zu erstellen, wodurch sichergestellt wird, dass die Trn1-Instances mit einem geeigneten Amazon Machine Image (AMI) und der richtigen EFA-Netzwerkkonfiguration gestartet werden, die zur Unterstützung des verteilten Trainings erforderlich sind. Das AMI enthält auch den Neuron-Gerätetreiber, der die Trainium-Beschleunigerchips unterstützt. Mit dem eksctl Mit dem Amazon EKS-Verwaltungstool können Sie ganz einfach eine Trainium-Knotengruppe erstellen, indem Sie ein einfaches YAML-Manifest verwenden, das auf die neu erstellte Startvorlage verweist. Zum Beispiel:

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig metadata: name: my-trn1-cluster region: us-west-2 version: "1.23" iam: withOIDC: true availabilityZones: ["us-west-xx","us-west-yy"] managedNodeGroups: - name: trn1-ng1 launchTemplate: id: TRN1_LAUNCH_TEMPLATE_ID minSize: 2 desiredCapacity: 2 maxSize: 2 availabilityZones: ["us-west-xx"] privateNetworking: true efaEnabled: true

Im vorherigen Manifest sind mehrere Attribute konfiguriert, um die Verwendung von Trn1-Instances im EKS-Cluster zu ermöglichen. Erste, metadata.region auf eine der Regionen eingestellt ist, die Trn1-Instanzen unterstützt (aktuell us-east-1 und us-west-2). Als Nächstes erfordert Amazon EKS für AvailabilityZones, dass zwei Availability Zones angegeben werden. Eine dieser Availability Zones muss die Verwendung von Trn1-Instances unterstützen, während die andere zufällig ausgewählt werden kann. Das Tutorial zeigt, wie es geht Bestimmen Sie, welche Availability Zones Trn1-Instances in Ihrem AWS-Konto zulassen. Dieselbe Trn1-unterstützende Availability Zone muss auch mit angegeben werden availabiltyZones Attribut, das der EKS-Knotengruppe zugeordnet ist. efaEnabled eingestellt ist true um die Knoten mit der entsprechenden EFA-Netzwerkkonfiguration zu konfigurieren, die für das verteilte Training erforderlich ist. Zuletzt die launchTemplate.id Das mit der Knotengruppe verknüpfte Attribut verweist auf die EC2-Startvorlage, die in einem früheren Schritt über AWS CloudFormation erstellt wurde.

Angenommen, Sie haben die CloudFormation-Vorlage bereits angewendet und installiert eksctl Management-Tool können Sie eine Trainium-fähige EKS-Knotengruppe erstellen, indem Sie den folgenden Code ausführen:

> eksctl create nodegroup -f TEMPLATE.yaml

Installieren Sie Kubernetes-Plugins für Trainium- und EFA-Geräte

Wenn die Knotengruppe vorhanden ist, besteht der nächste Schritt darin, Kubernetes-Plug-ins zu installieren, die Unterstützung für die Trainium-Beschleuniger (über das Neuron-Plug-in) und die EFA-Geräte (über das EFA-Plug-in) bieten. Diese Plugins lassen sich einfach per Standard auf dem Cluster installieren kubectl Management-Tool, wie im Tutorial gezeigt.

Um den universellen PyTorch-Launcher TorchX zum Starten verteilter Trainingsjobs zu verwenden, sind zwei Voraussetzungen erforderlich: der Volcano-Batch-Scheduler und der etcd-Server. Ähnlich wie die Neuron- und EFA-Plugins können wir die verwenden kubectl Tool, um Volcano und den etcd-Server auf dem EKS-Cluster zu installieren.

Verbinden Sie gemeinsam genutzten Speicher mit dem EKS-Cluster

Im Tutorial wird FSx for Lustre verwendet, um ein hochleistungsfähiges gemeinsam genutztes Dateisystem bereitzustellen, auf das von den verschiedenen EKS-Worker-Pods zugegriffen werden kann. Dieser gemeinsam genutzte Speicher wird zum Hosten des Trainingsdatensatzes sowie aller Artefakte und Protokolle verwendet, die während des Trainingsprozesses erstellt werden. Das Tutorial beschreibt, wie Sie den gemeinsam genutzten Speicher mithilfe von erstellen und an den Cluster anhängen Amazon FSx für Lustre CSI-Treiber.

Erstellen Sie ein Schulungscontainer-Image

Als Nächstes müssen wir ein Trainingscontainer-Image erstellen, das das PyTorch-Trainingsskript zusammen mit allen Abhängigkeiten enthält. Ein Dockerfile-Beispiel ist im Tutorial enthalten, das das BERT-Vortrainingsskript zusammen mit seinen Softwareabhängigkeiten enthält. Das Dockerfile wird verwendet, um das Trainingscontainer-Image zu erstellen, und das Image wird dann in ein ECR-Repository gepusht, aus dem die PyTorch-Worker das Image ziehen können, wenn ein Trainingsjob auf dem Cluster gestartet wird.

Richten Sie die Trainingsdaten ein

Vor dem Starten eines Trainingsjobs werden die Trainingsdaten zunächst auf das freigegebene Speichervolume auf FSx for Lustre kopiert. Das Tutorial beschreibt, wie Sie einen temporären Kubernetes-Pod erstellen, der Zugriff auf das freigegebene Speichervolume hat, und zeigt, wie Sie sich beim Pod anmelden, um das Trainingsdataset mit Standard-Linux-Shell-Befehlen herunterzuladen und zu extrahieren.

Nachdem die verschiedenen Infrastruktur- und Softwarevoraussetzungen vorhanden sind, können wir uns nun auf die Trainium-Aspekte der Lösung konzentrieren.

Kompilieren Sie Ihr Modell vor

Das Neuron SDK unterstützt PyTorch über eine Integrationsschicht namens PyTorch-Neuron. Standardmäßig arbeitet PyTorch Neuron mit Just-in-Time-Kompilierung, bei der die verschiedenen Berechnungsgraphen des neuronalen Netzwerks innerhalb eines Trainingsjobs so kompiliert werden, wie sie während des Trainingsprozesses angetroffen werden. Bei größeren Modellen kann es bequemer sein, die bereitgestellten zu verwenden neuron_parallel_compile Tool zum Vorkompilieren und Zwischenspeichern der verschiedenen Berechnungsgraphen im Voraus, um eine Graphkompilierung zur Trainingszeit zu vermeiden. Vor dem Starten des Trainingsjobs auf dem EKS-Cluster zeigt das Tutorial, wie Sie zuerst einen Vorkompilierungsjob über TorchX mit der neuron_parallel_compile Werkzeug. Nach Abschluss des Vorkompilierungsjobs hat der Neuron-Compiler alle Berechnungsgraphen des neuronalen Netzwerks identifiziert und kompiliert und sie auf dem gemeinsam genutzten Speicherdatenträger zur späteren Verwendung während des eigentlichen BERT-Vortrainingsjobs zwischengespeichert.

Starten Sie den verteilten Trainingsjob

Nach Abschluss der Vorkompilierung wird TorchX verwendet, um einen verteilten Trainingsjob mit 64 Workern über zwei trn1.32xlarge-Instanzen mit 32 Workern pro Instanz zu starten. Wir verwenden 32 Worker pro Instanz, da jede trn1.32xlarge-Instanz 16 Trainium-Beschleuniger enthält, wobei jeder Beschleuniger 2 bereitstellt NeuronCores. Auf jeden NeuronCore kann als Unikat zugegriffen werden PyTorch XLA-Gerät im Trainingsskript. Ein beispielhafter TorchX-Startbefehl aus dem Tutorial sieht wie folgt aus:

 torchx run -s kubernetes --workspace="file:///$PWD/docker" -cfg queue=test,image_repo=$ECR_REPO lib/trn1_dist_ddp.py:generateAppDef --name berttrain --script_args "--batch_size 16 --grad_accum_usteps 32 --data_dir /data/bert_pretrain_wikicorpus_tokenized_hdf5_seqlen128 --output_dir /data/output" --nnodes 2 --nproc_per_node 32 --image $ECR_REPO:bert_pretrain --script dp_bert_large_hf_pretrain_hdf5.py --bf16 True --cacheset bert-large

Die verschiedenen Befehlszeilenargumente im vorhergehenden TorchX-Befehl werden im Tutorial ausführlich beschrieben. Am wichtigsten bei der Konfiguration des Trainingsjobs sind jedoch die folgenden Argumente:

-cfg Warteschlange=test – Gibt die Volcano-Warteschlange an, die für den Trainingsjob verwendet werden soll
-cfg image_repo – Gibt das ECR-Repository an, das für die TorchX-Container-Images verwendet werden soll
–script_args – Gibt alle Argumente an, die an das PyTorch-Trainingsskript übergeben werden sollen
–nnodes und –nproc_per_node – Die Anzahl der Instanzen und Worker pro Instanz, die für den Trainingsjob verwendet werden sollen
-Skript – Der Name des PyTorch-Trainingsskripts, das im Trainingscontainer gestartet werden soll
-Bild – Der Pfad zum Trainingscontainer-Image in Amazon ECR
–bf16 – Ob der Datentyp BF16 aktiviert werden soll oder nicht

Überwachen Sie den Trainingsjob

Nachdem der Trainingsjob gestartet wurde, gibt es verschiedene Möglichkeiten, den Job zu überwachen. Das Tutorial zeigt, wie Sie grundlegende Trainingsskriptmetriken in der Befehlszeile mit überwachen kubectl, wie man den Fortschritt des Trainingsskripts in TensorBoard visuell überwacht (siehe folgenden Screenshot) und wie man die Nutzung des Trainium-Beschleunigers mithilfe von überwacht neuron-top Tool aus dem Neuron SDK.

Skalierung verteilter Schulungen mit AWS Trainium und Amazon EKS PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Reinigen Sie die Umgebung oder verwenden Sie sie wieder

Wenn der Trainingsjob abgeschlossen ist, kann der Cluster für weitere Trainingsjobs wiederverwendet oder neu konfiguriert werden. Beispielsweise kann die EKS-Knotengruppe mithilfe der schnell hochskaliert werden eksctl Befehl, um Trainingsjobs zu unterstützen, die zusätzliche Trn1-Instanzen erfordern. Ebenso können die bereitgestellten Dockerfile- und TorchX-Startbefehle einfach geändert werden, um zusätzliche Deep-Learning-Modelle und die Verteilung von Trainingstopologien zu unterstützen.

Wenn der Cluster nicht mehr benötigt wird, enthält das Tutorial auch alle erforderlichen Schritte zum Entfernen der EKS-Infrastruktur und zugehöriger Ressourcen.

Zusammenfassung

In diesem Beitrag haben wir untersucht, wie Trn1-Instances und Amazon EKS eine verwaltete Plattform für leistungsstarkes, kostengünstiges und massiv skalierbares verteiltes Training von Deep-Learning-Modellen bereitstellen. Wir haben auch ein umfassendes Tutorial geteilt, das zeigt, wie Sie einen verteilten Trainingsauftrag mit mehreren Instanzen in der Praxis in Amazon EKS mit Trn1-Instances ausführen, und einige der wichtigsten Schritte und Komponenten in der Lösung hervorgehoben. Dieser Lernprogramminhalt kann leicht für andere Modelle und Workloads angepasst werden und bietet Ihnen eine grundlegende Lösung für das verteilte Training von Deep-Learning-Modellen in AWS.

Weitere Informationen zu den ersten Schritten mit Trainium-betriebenen Trn1-Instanzen finden Sie unter Neuron-Dokumentation.

Über die Autoren

Scott Perry ist Solutions Architect im Annapurna ML Accelerator-Team bei AWS. Er lebt in Kanada und hilft Kunden bei der Bereitstellung und Optimierung von Deep-Learning-Schulungen und Inferenz-Workloads mit AWS Inferentia und AWS Trainium. Seine Interessen umfassen große Sprachmodelle, Deep Reinforcement Learning, IoT und Genomik.

Lorea Arrizabalaga ist eine auf den britischen öffentlichen Sektor ausgerichtete Lösungsarchitektin, wo sie Kunden bei der Entwicklung von ML-Lösungen mit Amazon SageMaker unterstützt. Sie ist auch Teil der Technical Field Community, die sich der Hardwarebeschleunigung widmet, und hilft beim Testen und Benchmarking von AWS Inferentia- und AWS Trainium-Workloads.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/scaling-distributed-training-with-aws-trainium-and-amazon-eks/

Zeitstempel: 1. Februar 2023

Zeitstempel: 31. Juli 2023

Neuauflage von Plato

AWS bietet neue Leitfäden für künstliche Intelligenz, maschinelles Lernen und generative KI zur Planung Ihrer KI-Strategie | Amazon Web Services

Minimieren Sie die Auswirkungen von ML-Modellaktualisierungen auf die Produktion mit Amazon SageMaker-Schattentests

Verhindern Sie die Kontoübernahme bei der Anmeldung mit dem neuen Account Takeover Insights-Modell in Amazon Fraud Detector

MLOps am Rand mit Amazon SageMaker Edge Manager und AWS IoT Greengrass

Holen Sie sich das End-to-End-Workforce-Management: Amazon Forecast und AWS Step Functions | Amazon Web Services

Beschleunigen Sie den Investitionsprozess mit AWS Low Code-No Code-Services

Beginnen Sie mit Amazon Titan Text Embeddings V2: Ein neues hochmodernes Einbettungsmodell auf Amazon Bedrock | Amazon Web Services

Ermöglichen Sie schnelleres Training mit der parallelen Datenbibliothek von Amazon SageMaker | Amazon Web Services

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto