Erstellen Sie leistungsstarke ML-Modelle mit PyTorch 2.0 auf AWS – Teil 1

Neuauflage von Plato

Verfolger: 0

PyTorch ist ein Framework für maschinelles Lernen (ML), das von AWS-Kunden häufig für eine Vielzahl von Anwendungen verwendet wird, wie z. B. Computer Vision, Verarbeitung natürlicher Sprache, Inhaltserstellung und mehr. Mit der jüngsten Version von PyTorch 2.0 können AWS-Kunden nun die gleichen Dinge tun wie mit PyTorch 1.x, jedoch schneller und in größerem Umfang mit verbesserten Trainingsgeschwindigkeiten, geringerer Speichernutzung und erweiterten verteilten Funktionen. Mehrere neue Technologien, darunter Torch.compile, TorchDynamo, AOTAutograd, PrimTorch und TorchInductor, wurden in die PyTorch2.0-Version aufgenommen. Beziehen auf PyTorch 2.0: Unsere Veröffentlichung der nächsten Generation, die schneller, pythonischer und dynamischer als je zuvor ist für weitere Einzelheiten.

Dieser Beitrag demonstriert die Leistung und Einfachheit der Durchführung groß angelegter, hochleistungsfähiger Schulungen und Bereitstellung verteilter ML-Modelle mit PyTorch 2.0 auf AWS. Dieser Beitrag führt Sie weiter durch die schrittweise Implementierung der Feinabstimmung eines RoBERTa-Modells (Robustly Optimized BERT Pretraining Approach) für die Stimmungsanalyse AWS Deep Learning-AMIs (AWS DLAMI) und AWS Deep Learning Container (DLCs) an Amazon Elastic Compute-Cloud (Amazon EC2 p4d.24xlarge) mit einer beobachteten Geschwindigkeitssteigerung von 42 % bei Verwendung mit PyTorch 2.0 Torch.compile + bf16 + Fused AdamW. Das fein abgestimmte Modell wird dann bereitgestellt AWS Graviton-basierte C7g EC2-Instanz auf Amazon Sage Maker mit einer beobachteten Beschleunigung von 10 % im Vergleich zu PyTorch 1.13.

Die folgende Abbildung zeigt einen Leistungsbenchmark für die Feinabstimmung eines RoBERTa-Modells auf Amazon EC2 p4d.24xlarge mit AWS PyTorch 2.0 DLAMI + DLC.

Erstellen Sie leistungsstarke ML-Modelle mit PyTorch 2.0 auf AWS – Teil 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Beziehen auf Optimierte PyTorch 2.0-Inferenz mit AWS Graviton-Prozessoren Einzelheiten zu AWS Graviton-basierten Instanz-Inferenzleistungs-Benchmarks für PyTorch 2.0.

Unterstützung für PyTorch 2.0 auf AWS

Die PyTorch2.0-Unterstützung ist nicht auf die in diesem Beitrag im Beispielanwendungsfall gezeigten Dienste und Berechnungen beschränkt. es erstreckt sich auf viele andere auf AWS, die wir in diesem Abschnitt besprechen.

Geschäftsanforderung

Viele AWS-Kunden aus den unterschiedlichsten Branchen transformieren ihre Unternehmen durch den Einsatz künstlicher Intelligenz (KI), insbesondere im Bereich generativer KI und großer Sprachmodelle (LLMs), die darauf ausgelegt sind, menschenähnlichen Text zu generieren. Hierbei handelt es sich im Grunde um große Modelle, die auf Deep-Learning-Techniken basieren und mit Hunderten Milliarden Parametern trainiert werden. Durch das Wachstum der Modellgrößen verlängert sich die Trainingszeit von Tagen auf Wochen und in manchen Fällen sogar auf Monate. Dies führt zu einem exponentiellen Anstieg der Schulungs- und Inferenzkosten, was mehr denn je ein Framework wie PyTorch 2.0 mit integrierter Unterstützung für beschleunigtes Modelltraining und die optimierte Infrastruktur von AWS erfordert, die auf die spezifischen Arbeitslasten und Leistungsanforderungen zugeschnitten ist.

Wahl der Rechenleistung

AWS bietet PyTorch 2.0-Unterstützung für die größte Auswahl an leistungsstarken Rechen-, Hochgeschwindigkeitsnetzwerk- und skalierbaren Hochleistungsspeicheroptionen, die Sie für jedes ML-Projekt oder jede ML-Anwendung verwenden und an Ihre Leistungs- und Budgetanforderungen anpassen können. Dies wird im Diagramm im nächsten Abschnitt deutlich; Im unteren Bereich bieten wir eine breite Auswahl an Recheninstanzen mit AWS Graviton-, Nvidia-, AMD- und Intel-Prozessoren.

Für Modellbereitstellungen können Sie ARM-basierte Prozessoren wie die kürzlich angekündigte AWS Graviton-basierte Instanz verwenden, die eine Inferenzleistung für PyTorch 2.0 mit bis zu 3.5-facher Geschwindigkeit für Resnet50 im Vergleich zur vorherigen PyTorch-Version und bis zu 1.4-facher Geschwindigkeit bietet Geschwindigkeit für BERT, was AWS Graviton-basierte Instanzen zu den schnellsten rechenoptimierten Instanzen auf AWS für CPU-basierte Modellinferenzlösungen macht.

Auswahl an ML-Diensten

Um AWS Compute zu nutzen, können Sie aus einer breiten Palette globaler cloudbasierter Dienste für ML-Entwicklung, Computing und Workflow-Orchestrierung auswählen. Mit dieser Wahl können Sie sich an Ihre Geschäfts- und Cloud-Strategien anpassen und PyTorch 2.0-Jobs auf der Plattform Ihrer Wahl ausführen. Wenn Sie beispielsweise lokale Einschränkungen haben oder bereits in Open-Source-Produkte investiert haben, können Sie Amazon EC2 verwenden. AWS-ParallelCluster, oder AWS UltraCluster um verteilte Schulungsarbeitslasten basierend auf einem selbstverwalteten Ansatz auszuführen. Sie können auch einen vollständig verwalteten Dienst wie SageMaker für eine kostenoptimierte, vollständig verwaltete Schulungsinfrastruktur im Produktionsmaßstab nutzen. SageMaker lässt sich außerdem in verschiedene MLOps-Tools integrieren, wodurch Sie Ihre Modellbereitstellung skalieren, Inferenzkosten reduzieren, Modelle in der Produktion effektiver verwalten und den Betriebsaufwand reduzieren können.

Wenn Sie über bestehende Kubernetes-Investitionen verfügen, können Sie diese ebenfalls nutzen Amazon Elastic Kubernetes-Service (Amazon EKS) und Kubeflow auf AWS um eine ML-Pipeline für verteiltes Training zu implementieren oder einen AWS-nativen Container-Orchestrierungsdienst wie zu verwenden Amazon Elastic Container-Service (Amazon ECS) für Modellschulungen und -bereitstellungen. Die Optionen zum Aufbau Ihrer ML-Plattform sind nicht auf diese Dienste beschränkt. Sie können je nach Ihren organisatorischen Anforderungen eine Auswahl für Ihre PyTorch 2.0-Jobs treffen.

Stapel

Aktivieren von PyTorch 2.0 mit AWS DLAMI und AWS DLC

Um den oben genannten Stapel von AWS-Diensten und leistungsstarker Rechenleistung nutzen zu können, müssen Sie eine optimierte kompilierte Version des PyTorch2.0-Frameworks und seiner erforderlichen Abhängigkeiten installieren, von denen es sich bei vielen um unabhängige Projekte handelt, und diese durchgängig testen. Möglicherweise benötigen Sie auch CPU-spezifische Bibliotheken für beschleunigte Mathematikroutinen, GPU-spezifische Bibliotheken für beschleunigte Mathematik- und GPU-Kommunikationsroutinen sowie GPU-Treiber, die mit dem GPU-Compiler abgestimmt werden müssen, der zum Kompilieren der GPU-Bibliotheken verwendet wird. Wenn Ihre Aufgaben umfangreiche Schulungen mit mehreren Knoten erfordern, benötigen Sie ein optimiertes Netzwerk, das niedrigste Latenz und höchsten Durchsatz bietet. Nachdem Sie Ihren Stack erstellt haben, müssen Sie ihn regelmäßig auf Sicherheitslücken scannen und patchen und den Stack nach jedem Upgrade der Framework-Version neu erstellen und testen.

AWS trägt jedoch dazu bei, diese schwere Arbeit zu reduzieren, indem es einen kuratierten und sicheren Satz von Frameworks, Abhängigkeiten und Tools anbietet, um Deep Learning in der Cloud zu beschleunigen AWS-DLAMIs und AWS-DLCs. Diese vorgefertigten und getesteten Maschinen-Images und Container sind für Deep Learning auf EC2 Accelerated Computing-Instanztypen optimiert und ermöglichen Ihnen eine effizientere und einfachere Skalierung auf mehrere Knoten für verteilte Arbeitslasten. Es enthält eine vorgefertigte Adapter aus elastischem Stoff (EFA), Nvidia GPU-Stack und viele Deep-Learning-Frameworks (TensorFlow, MXNet und PyTorch mit der neuesten Version 2.0) für leistungsstarkes verteiltes Deep-Learning-Training. Sie müssen keine Zeit mit der Installation und Fehlerbehebung von Deep-Learning-Software und -Treibern oder dem Aufbau einer ML-Infrastruktur verbringen, noch müssen Sie die wiederkehrenden Kosten für das Patchen dieser Images für Sicherheitslücken oder die Neuerstellung der Images nach jedem Upgrade einer neuen Framework-Version tragen. Stattdessen können Sie sich auf den höheren Mehrwert konzentrieren, indem Sie Jobs in kürzerer Zeit in großem Maßstab trainieren und Ihre ML-Modelle schneller iterieren.

Erstellen Sie leistungsstarke ML-Modelle mit PyTorch 2.0 auf AWS – Teil 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Lösungsüberblick

Da das Training zur GPU und die Inferenz zur CPU ein beliebter Anwendungsfall für AWS-Kunden ist, haben wir in diesen Beitrag eine schrittweise Implementierung einer Hybridarchitektur aufgenommen (wie im folgenden Diagramm dargestellt). Wir werden die Kunst des Möglichen erforschen und eine P4 EC2-Instanz mit BF16-Unterstützung verwenden, die mit Basis-GPU-DLAMI einschließlich NVIDIA-Treibern, CUDA, NCCL, EFA-Stack und PyTorch2.0-DLC initialisiert wurde, um ein RoBERTa-Stimmungsanalysemodell zu optimieren Dies gibt Ihnen die Kontrolle und Flexibilität bei der Verwendung beliebiger Open-Source- oder proprietärer Bibliotheken. Anschließend verwenden wir SageMaker für eine vollständig verwaltete Modell-Hosting-Infrastruktur, um unser Modell auf AWS Graviton3-basiert zu hosten C7g-Instanzen. Wir haben uns bei SageMaker für C7g entschieden, weil es nachweislich die Inferenzkosten im Vergleich zu vergleichbaren EC50-Instanzen um bis zu 2 % senkt Echtzeit-Inferenz auf SageMaker. Das folgende Diagramm veranschaulicht diese Architektur.

sagemaker_final

Das Modelltraining und Hosting besteht in diesem Anwendungsfall aus den folgenden Schritten:

Starten Sie eine GPU-DLAMI-basierte EC2-Ubuntu-Instanz in Ihrer VPC und stellen Sie über SSH eine Verbindung zu Ihrer Instanz her.
Nachdem Sie sich bei Ihrer EC2-Instanz angemeldet haben, laden Sie den AWS PyTorch 2.0 DLC herunter.
Führen Sie Ihren DLC-Container mit einem Modelltrainingsskript aus, um das RoBERTa-Modell zu optimieren.
Nachdem das Modelltraining abgeschlossen ist, packen Sie das gespeicherte Modell, die Inferenzskripte und einige Metadatendateien in eine TAR-Datei, die SageMaker Inference verwenden kann, und laden Sie das Modellpaket auf eine hoch Amazon Simple Storage-Service (Amazon S3) Eimer.
Stellen Sie das Modell mit SageMaker bereit und erstellen Sie einen HTTPS-Inferenzendpunkt. Der SageMaker-Inferenzendpunkt enthält einen Load Balancer und eine oder mehrere Instanzen Ihres Inferenzcontainers in verschiedenen Availability Zones. Sie können hinter diesem einzelnen Endpunkt entweder mehrere Versionen desselben Modells oder völlig unterschiedliche Modelle bereitstellen. In diesem Beispiel hosten wir ein einzelnes Modell.
Rufen Sie Ihren Modellendpunkt auf, indem Sie ihm Testdaten senden und die Inferenzausgabe überprüfen.

In den folgenden Abschnitten zeigen wir die Feinabstimmung eines RoBERTa-Modells für die Stimmungsanalyse. RoBERTa wird von Facebook AI entwickelt und verbessert das beliebte BERT-Modell durch Modifizierung wichtiger Hyperparameter und Vorabtraining auf einem größeren Korpus. Dies führt zu einer verbesserten Leistung im Vergleich zu Vanilla BERT.

Wir nutzen die Transformer Bibliothek von Hugging Face, um das RoBERTa-Modell anhand von etwa 124 Millionen Tweets vorab zu trainieren, und wir optimieren es anhand des Twitter-Datensatzes für die Stimmungsanalyse.

Voraussetzungen:

Stellen Sie sicher, dass Sie die folgenden Voraussetzungen erfüllen:

Du hast ein AWS-Konto.
Stellen Sie sicher, dass Sie in der us-west-2 Region, in der dieses Beispiel ausgeführt werden soll. (Dieses Beispiel wird getestet in us-west-2; Sie können jedoch in jeder anderen Region laufen.)
Erstellen Sie eine Rolle mit der Bezeichnung sagemakerrole. Verwaltete Richtlinien hinzufügen AmazonSageMakerFullAccess und AmazonS3FullAccess um SageMaker Zugriff auf S3-Buckets zu gewähren.
Erstellen Sie eine EC2-Rolle mit der Bezeichnung ec2_role. Verwenden Sie die folgende Berechtigungsrichtlinie:

#Refer - Make sure EC2 role has following policies
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability", "ecr:CompleteLayerUpload", "ecr:GetDownloadUrlForLayer", "ecr:InitiateLayerUpload", "ecr:PutImage", "ecr:UploadLayerPart", "ecr:GetAuthorizationToken", "s3:*", "s3-object-lambda:*", "iam:Get*", "iam:PassRole", "sagemaker:*" ], "Resource": "*" } ]
}

1. Starten Sie Ihre Entwicklungsinstanz

Wir erstellen eine p4d.24xlarge-Instanz, die 8 NVIDIA A100 Tensor Core GPUs bietet us-west-2:

Befolgen Sie bei der Auswahl des AMI die Versionshinweise um diesen Befehl mit dem auszuführen AWS-Befehlszeilenschnittstelle (AWS CLI), um die zu verwendende AMI-ID zu finden us-west-2:

#STEP 1.2 - This requires AWS CLI credentials to call ec2 describe-images api (ec2:DescribeImages).
aws ec2 describe-images --region us-west-2 --owners amazon --filters 'Name=name,Values=Deep Learning Base GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Stellen Sie sicher, dass die Größe des GP3-Root-Volumes 200 GiB beträgt.

Die EBS-Volume-Verschlüsselung ist standardmäßig nicht aktiviert. Erwägen Sie eine Änderung, wenn Sie diese Lösung in die Produktion überführen.

2. Laden Sie einen Deep-Learning-Container herunter

AWS-DLCs sind als Docker-Images in verfügbar Amazon Elastic Container Registry Öffentlich, ein verwalteter AWS-Container-Image-Registrierungsdienst, der sicher, skalierbar und zuverlässig ist. Jedes Docker-Image wird für das Training oder die Inferenz auf einer bestimmten Deep-Learning-Framework-Version, der Python-Version, mit CPU- oder GPU-Unterstützung erstellt. Wählen Sie das PyTorch 2.0-Framework aus der Liste der verfügbaren aus Bilder von Deep-Learning-Containern.

Führen Sie die folgenden Schritte aus, um Ihren DLC herunterzuladen:

A. SSH zur Instanz. Standardmäßig öffnet die mit EC2 verwendete Sicherheitsgruppe den SSH-Port für alle. Bitte beachten Sie Folgendes, wenn Sie diese Lösung in die Produktion verlagern:

#STEP 2.1 - Use Public IP
ssh -i ~/.ssh/<pub_key> ubuntu@<IP_ADDR> #Refer - Output: Notice python3.9 package that we will use to run and install Inference scripts __| __|_ )
_| ( / Deep Learning Base GPU AMI (Ubuntu 20.04)
___|___|___| Welcome to Ubuntu 20.04.6 LTS (GNU/Linux 5.15.0-1035-aws x86_64v) * Please note that Amazon EC2 P2 Instance is not supported on current DLAMI.
* Supported EC2 instances: G3, P3, P3dn, P4d, P4de, G5, G4dn.
NVIDIA driver version: 525.85.12
Default CUDA version: 11.2 Utility libraries are installed in /usr/bin/python3.9.
To access them, use /usr/bin/python3.9.

Standardmäßig öffnet die mit Amazon EC2 verwendete Sicherheitsgruppe den SSH-Port für alle. Erwägen Sie eine Änderung, wenn Sie diese Lösung in die Produktion verlagern.

B. Legen Sie die erforderlichen Umgebungsvariablen fest, um die verbleibenden Schritte dieser Implementierung auszuführen:

#STEP 2.2
Attach the role “ec2_role” to your EC2 instance from the AWS console. #STEP 2.3
Follow the steps here to create a S3 bucket in us-west-2 region #STEP 2.4 - Set Environment variables
#Bucket created in step 2.3
export S3_BUCKET=<your-s3-bucket>
export PYTHON_V=python3.9
export SAGEMAKER_ROLE=$(aws iam get-role --role-name sagemakerrole --output text --query 'Role.Arn')
aws configure set default.region 'us-west-2'

Amazon ECR unterstützt öffentliche Bild-Repositorys mit ressourcenbasierten Berechtigungen AWS Identity and Access Management and (IAM), damit bestimmte Benutzer oder Dienste auf Bilder zugreifen können.

C. Melden Sie sich bei der DLC-Registrierung an:

#STEP 2.5 - login
aws ecr get-login-password --region us-west-2 | docker login --username AWS --password-stdin 763104351884.dkr.ecr.us-west-2.amazonaws.com #Refer - Output
Login Succeeded

D. Ziehen Sie den neuesten PyTorch 2.0-Container mit GPU-Unterstützung ein us-west-2

#STEP 2.6 - pull the latest DLC PyTorch image
docker pull 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2 #Refer - Output
7608715873ec: Pull complete
a0bad51e1731: Pull complete
f7778ea3b9cc: Pull complete
.... Digest: sha256:1ab0d477345a11970d811cc252bc461dd70859f15caa19a65198e7941953e6b8
StaRefertus: Downloaded newer image for 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2

Wenn Sie die Fehlermeldung „Kein Speicherplatz mehr auf dem Gerät“ erhalten, stellen Sie sicher, dass dies der Fall ist Energie das EC2 EBS-Volume auf 200 GiB und dann erweitern das Linux-Dateisystem.

3. Klonen Sie die neuesten an PyTorch 2.0 angepassten Skripte

Klonen Sie die Skripte mit dem folgenden Code:

#STEP 3.1
cd $HOME
git clone https://github.com/aws-samples/aws-deeplearning-labs.git
cd aws-deeplearning-labs/workshop/twitter_lm/scripts/
export ml_working_dir=$PWD

Da wir die Hugging Face-Transformer-API mit der neuesten Version 4.28.1 verwenden, ist die PyTorch 2.0-Unterstützung bereits aktiviert. Wir haben das folgende Argument zur Trainer-API hinzugefügt train_sentiment.py So aktivieren Sie neue PyTorch 2.0-Funktionen:

Torch-Kompilierung – Erleben Sie eine durchschnittliche Beschleunigung von 43 % auf Nvidia A100-GPUs mit einer einzigen Änderungslinie.
BF16-Datentyp – Neue Datentypunterstützung (Brain Floating Point) für Ampere oder neuere GPUs.
Fused AdamW-Optimierer – Fusionierte AdamW-Implementierung, um das Training weiter zu beschleunigen. Diese stochastische Optimierungsmethode modifiziert die typische Implementierung des Gewichtsabfalls in Adam, indem der Gewichtsabfall von der Gradientenaktualisierung entkoppelt wird.

#Refer - updated training config
training_args = TrainingArguments(
do_eval=True,
evaluation_strategy='epoch',
output_dir='test_trainer',
logging_dir='test_trainer',
logging_strategy='epoch',
save_strategy='epoch',
num_train_epochs=10,
learning_rate=1e-05,
# pytorch 2.0.0 specific args
torch_compile=True,
bf16=True,
optim='adamw_torch_fused',
per_device_train_batch_size=16,
per_device_eval_batch_size=16,
load_best_model_at_end=True,
metric_for_best_model='recall',
)

4. Erstellen Sie ein neues Docker-Image mit Abhängigkeiten

Wir erweitern das vorgefertigte PyTorch 2.0 DLC-Image, um den Hugging Face-Transformator und andere Bibliotheken zu installieren, die wir zur Feinabstimmung unseres Modells benötigen. Dadurch können Sie die enthaltenen getesteten und optimierten Deep-Learning-Bibliotheken und -Einstellungen nutzen, ohne ein Image von Grund auf erstellen zu müssen. Siehe den folgenden Code:

#STEP 4.1 - Create Dockerfile with following content
printf 'FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2
RUN pip install scikit-learn evaluate transformers xformers ' > Dockerfile #STEP 4.2 - Build new docker file
docker build -f Dockerfile -t pytorch2.0:roberta-sentiment-analysis .

5. Beginnen Sie mit dem Training mit dem Behälter

Führen Sie den folgenden Docker-Befehl aus, um mit der Feinabstimmung des Modells zu beginnen tweet_eval Stimmungsdatensatz. Wir verwenden die Argumente des Docker-Containers (Größe des gemeinsam genutzten Speichers, maximal gesperrter Speicher und Stapelgröße). Von Nvidia empfohlen für Deep-Learning-Workloads.

#STEP 5.1 - run docker container for model training
docker run --net=host --uts=host --ipc=host --shm-size=1g --ulimit stack=67108864 --ulimit memlock=-1 --gpus all -v "/home/ubuntu:/workspace" pytorch2.0:roberta-sentiment-analysis python /workspace/aws-deeplearning-labs/workshop/twitter_lm/scripts/train_sentiment.py

Sie sollten die folgende Ausgabe erwarten. Das Skript lädt zunächst den TweetEval-Datensatz herunter, der aus sieben heterogenen Aufgaben in Twitter besteht, die alle als Tweet-Klassifizierung mit mehreren Klassen angelegt sind. Zu den Aufgaben gehören Ironie, Hass, Beleidigung, Haltung, Emoji, Emotion und Sentiment.

Das Skript lädt dann das Basismodell herunter und startet den Feinabstimmungsprozess. Trainings- und Bewertungsmetriken werden am Ende jeder Epoche gemeldet.

#Refer - Output
{'loss': 0.6927, 'learning_rate': 9e-06, 'epoch': 1.0}
{'eval_loss': 0.6144512295722961, 'eval_recall': 0.7129473901625799, 'eval_runtime': 3.2694, 'eval_samples_per_second': 611.74, 'eval_steps_per_second': 4.894, 'epoch': 1.0}
{'loss': 0.5554, 'learning_rate': 8.000000000000001e-06, 'epoch': 2.0}
{'eval_loss': 0.5860999822616577, 'eval_recall': 0.7312511094156663, 'eval_runtime': 3.3918, 'eval_samples_per_second': 589.655, 'eval_steps_per_second': 4.717, 'epoch': 2.0}
{'loss': 0.5084, 'learning_rate': 7e-06, 'epoch': 3.0}
{'eval_loss': 0.6119785308837891, 'eval_recall': 0.730757638985487, 'eval_runtime': 3.592, 'eval_samples_per_second': 556.791, 'eval_steps_per_second': 4.454, 'epoch': 3.0}

Leistungsstatistik

Mit PyTorch 2.0 und der neuesten Hugging Face Transformers-Bibliothek 4.28.1 beobachteten wir eine Geschwindigkeitssteigerung von 42 % auf einer einzelnen p4d.24xlarge-Instanz mit 8 A100 40 GB GPUs. Leistungsverbesserungen ergeben sich aus einer Kombination aus Torch.compile, dem Datentyp BF16 und dem verschmolzenen AdamW-Optimierer. Der folgende Code ist das Endergebnis von zwei Trainingsläufen mit und ohne neue Funktionen:

#Refer performance statistics
wihtout torch.compile + bf16 + fused adamw:
{'eval_loss': 0.7532123327255249, 'eval_recall': 0.7315191840508296, 'eval_runtime': 3.7641, 'eval_samples_per_second': 531.341, 'eval_steps_per_second': 4.251, 'epoch': 10.0}
{'train_runtime': 1891.5635, 'train_samples_per_second': 241.15, 'train_steps_per_second': 1.887, 'train_loss': 0.4372138784713104, 'epoch': 10.0} with torch.compile + bf16 + fused adamw
{'eval_loss': 0.7548801898956299, 'eval_recall': 0.7251081080195005, 'eval_runtime': 3.5685, 'eval_samples_per_second': 560.453, 'eval_steps_per_second': 4.484, 'epoch': 10.0}
{'train_runtime': 1095.388, 'train_samples_per_second': 416.428, 'train_steps_per_second': 3.259, 'train_loss': 0.44210514314368327, 'epoch': 10.0}

6. Testen Sie das trainierte Modell lokal, bevor Sie die SageMaker-Inferenz vorbereiten

Die folgenden Dateien finden Sie unter $ml_working_dir/saved_model/ nach dem Training:

#Refer - model training artifacts
config.json
merges.txt
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json

Stellen wir sicher, dass wir die Inferenz lokal ausführen können, bevor wir uns auf die SageMaker-Inferenz vorbereiten. Wir können das gespeicherte Modell laden und die Inferenz lokal ausführen test_trained_model.py Skript:

#STEP 6.1 - run docker container for test model infernce
docker run --net=host --uts=host --ipc=host --ulimit stack=67108864 --ulimit memlock=-1 --gpus all -v "/home/ubuntu:/workspace" pytorch2.0:roberta-sentiment-analysis python /workspace/aws-deeplearning-labs/workshop/twitter_lm/scripts/test_trained_model.py

Bei der Eingabe „Covid-Fälle nehmen schnell zu!“ sollten Sie mit folgender Ausgabe rechnen:

#Refer - Output
[{'label': 'negative', 'score': 0.854185163974762}]

7. Bereiten Sie den Modell-Tarball für die SageMaker-Inferenz vor

Erstellen Sie unter dem Verzeichnis, in dem sich das Modell befindet, ein neues Verzeichnis mit dem Namen code:

#STEP 7.1 - set permissions
cd $ml_working_dir
sudo chown ubuntu:ubuntu saved_model
cd saved_model
mkdir code

Erstellen Sie im neuen Verzeichnis die Datei inference.py und füge Folgendes hinzu:

#STEP 7.2 - write inference.py
printf 'import json
from transformers import pipeline REQUEST_CONTENT_TYPE = "application/x-text"
STR_DECODE_CODE = "utf-8"
RESULT_CLASS = "sentiment"
RESULT_SCORE = "score" def model_fn(model_dir): sentiment_analysis = pipeline( "sentiment-analysis", model=model_dir, tokenizer=model_dir, return_all_scores=True ) return sentiment_analysis def input_fn(request_body, request_content_type): if request_content_type == REQUEST_CONTENT_TYPE: input_data = request_body.decode(STR_DECODE_CODE) return input_data def predict_fn(input_data, model): return model(input_data) def output_fn(prediction, accept): class_label = None score = -1 for _pred in prediction[0]: if _pred["score"] > score: score = _pred["score"] class_label = _pred["label"] return json.dumps({RESULT_CLASS: class_label, RESULT_SCORE: score})' > code/inference.py

Erstellen Sie eine weitere Datei im selben Verzeichnis mit dem Namen requirements.txt und Transformatoren hineinbauen. SageMaker installiert die Abhängigkeiten in requirements.txt im Inferenzcontainer für Sie.

#STEP 7.3 - write requirements.txt
printf 'transformers' > code/requirements.txt

Am Ende sollten Sie folgende Ordnerstruktur haben:

#Refer - inference package folder structure
code/
code/inference.py
code/requirements.txt
config.json
merges.txt
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json

Das Modell kann nun gepackt und auf Amazon S3 hochgeladen werden, um es mit der SageMaker-Inferenz zu verwenden:

#STEP 7.4 - Create inference package tar file and upload it to S3
sudo tar -cvpzf ./personal-roberta-base-sentiment.tar.gz -C ./ .
aws s3 cp ./personal-roberta-base-sentiment.tar.gz s3://$S3_BUCKET

8. Stellen Sie das Modell auf einer SageMaker AWS Graviton-Instanz bereit

Neue CPU-Generationen bieten aufgrund spezieller integrierter Anweisungen eine deutliche Leistungsverbesserung bei der ML-Inferenz. In diesem Anwendungsfall verwenden wir die vollständig verwaltete Hosting-Infrastruktur von SageMaker mit AWS Graviton3-basierten C7g-Instanzen. AWS hat außerdem bis zu 50 % Kosteneinsparungen für PyTorch-Inferenz mit AWS Graviton3-basierten EC2 C7g-Instanzen über Torch Hub ResNet50 und mehrere Hugging Face-Modelle im Vergleich zu vergleichbaren EC2-Instanzen gemessen.

Um die Modelle auf AWS Graviton-Instanzen bereitzustellen, verwenden wir AWS DLCs, die Unterstützung für PyTorch 2.0 und TorchServe 0.8.0 bieten, oder Sie können dies tun Bringen Sie Ihre eigenen Behälter mit die mit der ARMv8.2-Architektur kompatibel sind.

Wir verwenden das zuvor trainierte Modell: s3://<your-s3-bucket>/twitter-roberta-base-sentiment-latest.tar.gz. Wenn Sie SageMaker noch nicht verwendet haben, lesen Sie es noch einmal Erste Schritte mit Amazon SageMaker.

Stellen Sie zunächst sicher, dass das SageMaker-Paket auf dem neuesten Stand ist:

#STEP 8.1 - Install SageMaker library
cd $ml_working_dir
$PYTHON_V -m pip install -U sagemaker

Da es sich hierbei um ein Beispiel handelt, erstellen Sie eine Datei mit dem Namen start_endpoint.py und fügen Sie den folgenden Code hinzu. Dies ist das Python-Skript zum Starten eines SageMaker-Inferenzendpunkts mit dem Modus:

#STEP 8.2 - write start_endpoint.py
printf '# Import some needed modules
from sagemaker import get_execution_role, Session, image_uris
from sagemaker.model import Model
import boto3
import os model_name = "pytorch-roberta-model" # Setup SageMaker session
region = boto3.Session().region_name
role = os.environ.get("SAGEMAKER_ROLE")
sm_client = boto3.client("sagemaker", region_name=region)
sagemaker_session = Session()
bucket = os.environ.get("S3_BUCKET") # Select container. In our case,its graviton
container_uri = image_uris.retrieve(
region="us-west-2",
framework="pytorch",
version="2.0.0",
image_scope="inference_graviton") # Set model parameters
model = Model(
image_uri=container_uri,
model_data=f"s3://{bucket}/personal-roberta-base-sentiment.tar.gz",
role=role,
name=model_name,
sagemaker_session=sagemaker_session
) # Deploy model
endpoint = model.deploy(
initial_instance_count=1,
instance_type="ml.c7g.4xlarge",
endpoint_name="sm-endpoint-" + model_name
)' > start_endpoint.py

Wir verwenden ml.c7g.4xlarge für die Instanz und rufen PT 2.0 mit einem Bildumfang ab inference_graviton. Dies ist unsere AWS Graviton3-Instanz.

Als Nächstes erstellen wir die Datei, die die Vorhersage ausführt. Wir führen diese als separate Skripte aus, sodass wir die Vorhersagen so oft ausführen können, wie wir möchten. Erstellen predict.py mit folgendem Code:

#STEP 8.3 - write predict.py
printf 'import boto3
from boto3 import Session, client model_name = "pytorch-roberta-model"
data = "Writing data to analyze sentiments and see how the data is viewed" sagemaker_runtime = boto3.client("sagemaker-runtime", region_name="us-west-2")
endpoint_name="sm-endpoint-" + model_name
print("Calling model:" + endpoint_name)
response = sagemaker_runtime.invoke_endpoint(
EndpointName=endpoint_name,
Body=bytes(data, "utf-8"),
ContentType="application/x-text",
)
print(response["Body"].read().decode("utf-8"))' > predict.py

Mit den generierten Skripten können wir nun einen Endpunkt starten, Vorhersagen für den Endpunkt treffen und aufräumen, wenn wir fertig sind:

#Step 8.4 - Start the SageMaker Inference endpoint
$PYTHON_V start_endpoint.py #Step 8.5 Do a prediction this can be run as many times as we like
$PYTHON_V predict.py #Refer - Prediction Output
Calling model:sm-endpoint-pytorch-roberta-model
{"sentiment": "neutral", "score": 0.9342969059944153}

9 Aufräumen

Zuletzt wollen wir von diesem Beispiel aufräumen. Erstellen Sie cleanup.py und fügen Sie den folgenden Code hinzu:

#STEP 9.1 CleanUp Script
printf 'from boto3 import client model_name = "pytorch-roberta-model"
endpoint_name="sm-endpoint-" + model_name sagemaker_client = client("sagemaker", region_name="us-west-2")
sagemaker_client.delete_endpoint(EndpointName=endpoint_name)
sagemaker_client.delete_endpoint_config(EndpointConfigName=endpoint_name)
sagemaker_client.delete_model(ModelName=model_name)' > cleanup.py #Step 9.2 Cleanup
$PYTHON_V cleanup.py

Zusammenfassung

AWS DLAMIs und DLCs sind zum Standard für die Ausführung von Deep-Learning-Workloads auf einer breiten Auswahl an Rechen- und ML-Diensten auf AWS geworden. Neben der Verwendung von Framework-spezifischen DLCs auf AWS ML-Services können Sie auch ein einzelnes Framework auf Amazon EC2 verwenden, wodurch Entwicklern die schwere Arbeit entfällt, die für die Erstellung und Wartung von Deep-Learning-Anwendungen erforderlich ist. Beziehen auf Versionshinweise für DLAMI und Verfügbare Deep-Learning-Container-Images um zu starten.

In diesem Beitrag wurde eine von vielen Möglichkeiten zum Trainieren und Bereitstellen Ihres nächsten Modells auf AWS aufgezeigt und mehrere Formate besprochen, die Sie zur Erreichung Ihrer Geschäftsziele übernehmen können. Probieren Sie dieses Beispiel aus oder nutzen Sie unsere anderen AWS ML-Services, um die Datenproduktivität Ihres Unternehmens zu steigern. Wir haben eine einfache Sentiment-Analyse-Aufgabe eingefügt, damit ML-Neulinge verstehen, wie einfach der Einstieg in PyTorch 2.0 auf AWS ist. In den kommenden Blogbeiträgen werden wir auf fortgeschrittenere Anwendungsfälle, Modelle und AWS-Technologien eingehen.

Über die Autoren

Kanwaljit Khurmi ist Principal Solutions Architect bei Amazon Web Services. Er arbeitet mit den AWS-Kunden zusammen, um Anleitungen und technische Unterstützung bereitzustellen, die ihnen helfen, den Wert ihrer Lösungen bei der Verwendung von AWS zu verbessern. Kanwaljit ist darauf spezialisiert, Kunden mit containerisierten und maschinellen Lernanwendungen zu unterstützen.

Erstellen Sie leistungsstarke ML-Modelle mit PyTorch 2.0 auf AWS – Teil 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Mike Schneider ist ein Systementwickler mit Sitz in Phoenix AZ. Er ist Mitglied von Deep-Learning-Containern und unterstützt verschiedene Framework-Container-Images, einschließlich Graviton Inference. Er widmet sich der Effizienz und Stabilität der Infrastruktur.

Lai Wei ist Senior Software Engineer bei Amazon Web Services. Er konzentriert sich auf die Entwicklung benutzerfreundlicher, leistungsstarker und skalierbarer Deep-Learning-Frameworks zur Beschleunigung des verteilten Modelltrainings. Außerhalb der Arbeit verbringt er gerne Zeit mit seiner Familie, beim Wandern und Skifahren.