PyTorch ist ein Framework für maschinelles Lernen (ML), das von AWS-Kunden häufig für eine Vielzahl von Anwendungen verwendet wird, wie z. B. Computer Vision, Verarbeitung natürlicher Sprache, Inhaltserstellung und mehr. Mit der jüngsten Version von PyTorch 2.0 können AWS-Kunden nun die gleichen Dinge tun wie mit PyTorch 1.x, jedoch schneller und in größerem Umfang mit verbesserten Trainingsgeschwindigkeiten, geringerer Speichernutzung und erweiterten verteilten Funktionen. Mehrere neue Technologien, darunter Torch.compile, TorchDynamo, AOTAutograd, PrimTorch und TorchInductor, wurden in die PyTorch2.0-Version aufgenommen. Beziehen auf PyTorch 2.0: Unsere Veröffentlichung der nächsten Generation, die schneller, pythonischer und dynamischer als je zuvor ist für weitere Einzelheiten.
Dieser Beitrag demonstriert die Leistung und Einfachheit der Durchführung groß angelegter, hochleistungsfähiger Schulungen und Bereitstellung verteilter ML-Modelle mit PyTorch 2.0 auf AWS. Dieser Beitrag führt Sie weiter durch die schrittweise Implementierung der Feinabstimmung eines RoBERTa-Modells (Robustly Optimized BERT Pretraining Approach) für die Stimmungsanalyse AWS Deep Learning-AMIs (AWS DLAMI) und AWS Deep Learning Container (DLCs) an Amazon Elastic Compute-Cloud (Amazon EC2 p4d.24xlarge) mit einer beobachteten Geschwindigkeitssteigerung von 42 % bei Verwendung mit PyTorch 2.0 Torch.compile + bf16 + Fused AdamW. Das fein abgestimmte Modell wird dann bereitgestellt AWS Graviton-basierte C7g EC2-Instanz auf Amazon Sage Maker mit einer beobachteten Beschleunigung von 10 % im Vergleich zu PyTorch 1.13.
Die folgende Abbildung zeigt einen Leistungsbenchmark für die Feinabstimmung eines RoBERTa-Modells auf Amazon EC2 p4d.24xlarge mit AWS PyTorch 2.0 DLAMI + DLC.
Beziehen auf Optimierte PyTorch 2.0-Inferenz mit AWS Graviton-Prozessoren Einzelheiten zu AWS Graviton-basierten Instanz-Inferenzleistungs-Benchmarks für PyTorch 2.0.
Unterstützung für PyTorch 2.0 auf AWS
Die PyTorch2.0-Unterstützung ist nicht auf die in diesem Beitrag im Beispielanwendungsfall gezeigten Dienste und Berechnungen beschränkt. es erstreckt sich auf viele andere auf AWS, die wir in diesem Abschnitt besprechen.
Geschäftsanforderung
Viele AWS-Kunden aus den unterschiedlichsten Branchen transformieren ihre Unternehmen durch den Einsatz künstlicher Intelligenz (KI), insbesondere im Bereich generativer KI und großer Sprachmodelle (LLMs), die darauf ausgelegt sind, menschenähnlichen Text zu generieren. Hierbei handelt es sich im Grunde um große Modelle, die auf Deep-Learning-Techniken basieren und mit Hunderten Milliarden Parametern trainiert werden. Durch das Wachstum der Modellgrößen verlängert sich die Trainingszeit von Tagen auf Wochen und in manchen Fällen sogar auf Monate. Dies führt zu einem exponentiellen Anstieg der Schulungs- und Inferenzkosten, was mehr denn je ein Framework wie PyTorch 2.0 mit integrierter Unterstützung für beschleunigtes Modelltraining und die optimierte Infrastruktur von AWS erfordert, die auf die spezifischen Arbeitslasten und Leistungsanforderungen zugeschnitten ist.
Wahl der Rechenleistung
AWS bietet PyTorch 2.0-Unterstützung für die größte Auswahl an leistungsstarken Rechen-, Hochgeschwindigkeitsnetzwerk- und skalierbaren Hochleistungsspeicheroptionen, die Sie für jedes ML-Projekt oder jede ML-Anwendung verwenden und an Ihre Leistungs- und Budgetanforderungen anpassen können. Dies wird im Diagramm im nächsten Abschnitt deutlich; Im unteren Bereich bieten wir eine breite Auswahl an Recheninstanzen mit AWS Graviton-, Nvidia-, AMD- und Intel-Prozessoren.
Für Modellbereitstellungen können Sie ARM-basierte Prozessoren wie die kürzlich angekündigte AWS Graviton-basierte Instanz verwenden, die eine Inferenzleistung für PyTorch 2.0 mit bis zu 3.5-facher Geschwindigkeit für Resnet50 im Vergleich zur vorherigen PyTorch-Version und bis zu 1.4-facher Geschwindigkeit bietet Geschwindigkeit für BERT, was AWS Graviton-basierte Instanzen zu den schnellsten rechenoptimierten Instanzen auf AWS für CPU-basierte Modellinferenzlösungen macht.
Auswahl an ML-Diensten
Um AWS Compute zu nutzen, können Sie aus einer breiten Palette globaler cloudbasierter Dienste für ML-Entwicklung, Computing und Workflow-Orchestrierung auswählen. Mit dieser Wahl können Sie sich an Ihre Geschäfts- und Cloud-Strategien anpassen und PyTorch 2.0-Jobs auf der Plattform Ihrer Wahl ausführen. Wenn Sie beispielsweise lokale Einschränkungen haben oder bereits in Open-Source-Produkte investiert haben, können Sie Amazon EC2 verwenden. AWS-ParallelCluster, oder AWS UltraCluster um verteilte Schulungsarbeitslasten basierend auf einem selbstverwalteten Ansatz auszuführen. Sie können auch einen vollständig verwalteten Dienst wie SageMaker für eine kostenoptimierte, vollständig verwaltete Schulungsinfrastruktur im Produktionsmaßstab nutzen. SageMaker lässt sich außerdem in verschiedene MLOps-Tools integrieren, wodurch Sie Ihre Modellbereitstellung skalieren, Inferenzkosten reduzieren, Modelle in der Produktion effektiver verwalten und den Betriebsaufwand reduzieren können.
Wenn Sie über bestehende Kubernetes-Investitionen verfügen, können Sie diese ebenfalls nutzen Amazon Elastic Kubernetes-Service (Amazon EKS) und Kubeflow auf AWS um eine ML-Pipeline für verteiltes Training zu implementieren oder einen AWS-nativen Container-Orchestrierungsdienst wie zu verwenden Amazon Elastic Container-Service (Amazon ECS) für Modellschulungen und -bereitstellungen. Die Optionen zum Aufbau Ihrer ML-Plattform sind nicht auf diese Dienste beschränkt. Sie können je nach Ihren organisatorischen Anforderungen eine Auswahl für Ihre PyTorch 2.0-Jobs treffen.
Aktivieren von PyTorch 2.0 mit AWS DLAMI und AWS DLC
Um den oben genannten Stapel von AWS-Diensten und leistungsstarker Rechenleistung nutzen zu können, müssen Sie eine optimierte kompilierte Version des PyTorch2.0-Frameworks und seiner erforderlichen Abhängigkeiten installieren, von denen es sich bei vielen um unabhängige Projekte handelt, und diese durchgängig testen. Möglicherweise benötigen Sie auch CPU-spezifische Bibliotheken für beschleunigte Mathematikroutinen, GPU-spezifische Bibliotheken für beschleunigte Mathematik- und GPU-Kommunikationsroutinen sowie GPU-Treiber, die mit dem GPU-Compiler abgestimmt werden müssen, der zum Kompilieren der GPU-Bibliotheken verwendet wird. Wenn Ihre Aufgaben umfangreiche Schulungen mit mehreren Knoten erfordern, benötigen Sie ein optimiertes Netzwerk, das niedrigste Latenz und höchsten Durchsatz bietet. Nachdem Sie Ihren Stack erstellt haben, müssen Sie ihn regelmäßig auf Sicherheitslücken scannen und patchen und den Stack nach jedem Upgrade der Framework-Version neu erstellen und testen.
AWS trägt jedoch dazu bei, diese schwere Arbeit zu reduzieren, indem es einen kuratierten und sicheren Satz von Frameworks, Abhängigkeiten und Tools anbietet, um Deep Learning in der Cloud zu beschleunigen AWS-DLAMIs und AWS-DLCs. Diese vorgefertigten und getesteten Maschinen-Images und Container sind für Deep Learning auf EC2 Accelerated Computing-Instanztypen optimiert und ermöglichen Ihnen eine effizientere und einfachere Skalierung auf mehrere Knoten für verteilte Arbeitslasten. Es enthält eine vorgefertigte Adapter aus elastischem Stoff (EFA), Nvidia GPU-Stack und viele Deep-Learning-Frameworks (TensorFlow, MXNet und PyTorch mit der neuesten Version 2.0) für leistungsstarkes verteiltes Deep-Learning-Training. Sie müssen keine Zeit mit der Installation und Fehlerbehebung von Deep-Learning-Software und -Treibern oder dem Aufbau einer ML-Infrastruktur verbringen, noch müssen Sie die wiederkehrenden Kosten für das Patchen dieser Images für Sicherheitslücken oder die Neuerstellung der Images nach jedem Upgrade einer neuen Framework-Version tragen. Stattdessen können Sie sich auf den höheren Mehrwert konzentrieren, indem Sie Jobs in kürzerer Zeit in großem Maßstab trainieren und Ihre ML-Modelle schneller iterieren.
Lösungsüberblick
Da das Training zur GPU und die Inferenz zur CPU ein beliebter Anwendungsfall für AWS-Kunden ist, haben wir in diesen Beitrag eine schrittweise Implementierung einer Hybridarchitektur aufgenommen (wie im folgenden Diagramm dargestellt). Wir werden die Kunst des Möglichen erforschen und eine P4 EC2-Instanz mit BF16-Unterstützung verwenden, die mit Basis-GPU-DLAMI einschließlich NVIDIA-Treibern, CUDA, NCCL, EFA-Stack und PyTorch2.0-DLC initialisiert wurde, um ein RoBERTa-Stimmungsanalysemodell zu optimieren Dies gibt Ihnen die Kontrolle und Flexibilität bei der Verwendung beliebiger Open-Source- oder proprietärer Bibliotheken. Anschließend verwenden wir SageMaker für eine vollständig verwaltete Modell-Hosting-Infrastruktur, um unser Modell auf AWS Graviton3-basiert zu hosten C7g-Instanzen. Wir haben uns bei SageMaker für C7g entschieden, weil es nachweislich die Inferenzkosten im Vergleich zu vergleichbaren EC50-Instanzen um bis zu 2 % senkt Echtzeit-Inferenz auf SageMaker. Das folgende Diagramm veranschaulicht diese Architektur.
Das Modelltraining und Hosting besteht in diesem Anwendungsfall aus den folgenden Schritten:
- Starten Sie eine GPU-DLAMI-basierte EC2-Ubuntu-Instanz in Ihrer VPC und stellen Sie über SSH eine Verbindung zu Ihrer Instanz her.
- Nachdem Sie sich bei Ihrer EC2-Instanz angemeldet haben, laden Sie den AWS PyTorch 2.0 DLC herunter.
- Führen Sie Ihren DLC-Container mit einem Modelltrainingsskript aus, um das RoBERTa-Modell zu optimieren.
- Nachdem das Modelltraining abgeschlossen ist, packen Sie das gespeicherte Modell, die Inferenzskripte und einige Metadatendateien in eine TAR-Datei, die SageMaker Inference verwenden kann, und laden Sie das Modellpaket auf eine hoch Amazon Simple Storage-Service (Amazon S3) Eimer.
- Stellen Sie das Modell mit SageMaker bereit und erstellen Sie einen HTTPS-Inferenzendpunkt. Der SageMaker-Inferenzendpunkt enthält einen Load Balancer und eine oder mehrere Instanzen Ihres Inferenzcontainers in verschiedenen Availability Zones. Sie können hinter diesem einzelnen Endpunkt entweder mehrere Versionen desselben Modells oder völlig unterschiedliche Modelle bereitstellen. In diesem Beispiel hosten wir ein einzelnes Modell.
- Rufen Sie Ihren Modellendpunkt auf, indem Sie ihm Testdaten senden und die Inferenzausgabe überprüfen.
In den folgenden Abschnitten zeigen wir die Feinabstimmung eines RoBERTa-Modells für die Stimmungsanalyse. RoBERTa wird von Facebook AI entwickelt und verbessert das beliebte BERT-Modell durch Modifizierung wichtiger Hyperparameter und Vorabtraining auf einem größeren Korpus. Dies führt zu einer verbesserten Leistung im Vergleich zu Vanilla BERT.
Wir nutzen die Transformer Bibliothek von Hugging Face, um das RoBERTa-Modell anhand von etwa 124 Millionen Tweets vorab zu trainieren, und wir optimieren es anhand des Twitter-Datensatzes für die Stimmungsanalyse.
Voraussetzungen:
Stellen Sie sicher, dass Sie die folgenden Voraussetzungen erfüllen:
- Du hast ein AWS-Konto.
- Stellen Sie sicher, dass Sie in der
us-west-2
Region, in der dieses Beispiel ausgeführt werden soll. (Dieses Beispiel wird getestet inus-west-2
; Sie können jedoch in jeder anderen Region laufen.) - Erstellen Sie eine Rolle mit der Bezeichnung
sagemakerrole
. Verwaltete Richtlinien hinzufügenAmazonSageMakerFullAccess
undAmazonS3FullAccess
um SageMaker Zugriff auf S3-Buckets zu gewähren. - Erstellen Sie eine EC2-Rolle mit der Bezeichnung
ec2_role
. Verwenden Sie die folgende Berechtigungsrichtlinie:
1. Starten Sie Ihre Entwicklungsinstanz
Wir erstellen eine p4d.24xlarge-Instanz, die 8 NVIDIA A100 Tensor Core GPUs bietet us-west-2
:
Befolgen Sie bei der Auswahl des AMI die Versionshinweise um diesen Befehl mit dem auszuführen AWS-Befehlszeilenschnittstelle (AWS CLI), um die zu verwendende AMI-ID zu finden us-west-2
:
Stellen Sie sicher, dass die Größe des GP3-Root-Volumes 200 GiB beträgt.
Die EBS-Volume-Verschlüsselung ist standardmäßig nicht aktiviert. Erwägen Sie eine Änderung, wenn Sie diese Lösung in die Produktion überführen.
2. Laden Sie einen Deep-Learning-Container herunter
AWS-DLCs sind als Docker-Images in verfügbar Amazon Elastic Container Registry Öffentlich, ein verwalteter AWS-Container-Image-Registrierungsdienst, der sicher, skalierbar und zuverlässig ist. Jedes Docker-Image wird für das Training oder die Inferenz auf einer bestimmten Deep-Learning-Framework-Version, der Python-Version, mit CPU- oder GPU-Unterstützung erstellt. Wählen Sie das PyTorch 2.0-Framework aus der Liste der verfügbaren aus Bilder von Deep-Learning-Containern.
Führen Sie die folgenden Schritte aus, um Ihren DLC herunterzuladen:
A. SSH zur Instanz. Standardmäßig öffnet die mit EC2 verwendete Sicherheitsgruppe den SSH-Port für alle. Bitte beachten Sie Folgendes, wenn Sie diese Lösung in die Produktion verlagern:
Standardmäßig öffnet die mit Amazon EC2 verwendete Sicherheitsgruppe den SSH-Port für alle. Erwägen Sie eine Änderung, wenn Sie diese Lösung in die Produktion verlagern.
B. Legen Sie die erforderlichen Umgebungsvariablen fest, um die verbleibenden Schritte dieser Implementierung auszuführen:
Amazon ECR unterstützt öffentliche Bild-Repositorys mit ressourcenbasierten Berechtigungen AWS Identity and Access Management and (IAM), damit bestimmte Benutzer oder Dienste auf Bilder zugreifen können.
C. Melden Sie sich bei der DLC-Registrierung an:
D. Ziehen Sie den neuesten PyTorch 2.0-Container mit GPU-Unterstützung ein us-west-2
Wenn Sie die Fehlermeldung „Kein Speicherplatz mehr auf dem Gerät“ erhalten, stellen Sie sicher, dass dies der Fall ist Energie das EC2 EBS-Volume auf 200 GiB und dann erweitern das Linux-Dateisystem.
3. Klonen Sie die neuesten an PyTorch 2.0 angepassten Skripte
Klonen Sie die Skripte mit dem folgenden Code:
Da wir die Hugging Face-Transformer-API mit der neuesten Version 4.28.1 verwenden, ist die PyTorch 2.0-Unterstützung bereits aktiviert. Wir haben das folgende Argument zur Trainer-API hinzugefügt train_sentiment.py
So aktivieren Sie neue PyTorch 2.0-Funktionen:
- Torch-Kompilierung – Erleben Sie eine durchschnittliche Beschleunigung von 43 % auf Nvidia A100-GPUs mit einer einzigen Änderungslinie.
- BF16-Datentyp – Neue Datentypunterstützung (Brain Floating Point) für Ampere oder neuere GPUs.
- Fused AdamW-Optimierer – Fusionierte AdamW-Implementierung, um das Training weiter zu beschleunigen. Diese stochastische Optimierungsmethode modifiziert die typische Implementierung des Gewichtsabfalls in Adam, indem der Gewichtsabfall von der Gradientenaktualisierung entkoppelt wird.
4. Erstellen Sie ein neues Docker-Image mit Abhängigkeiten
Wir erweitern das vorgefertigte PyTorch 2.0 DLC-Image, um den Hugging Face-Transformator und andere Bibliotheken zu installieren, die wir zur Feinabstimmung unseres Modells benötigen. Dadurch können Sie die enthaltenen getesteten und optimierten Deep-Learning-Bibliotheken und -Einstellungen nutzen, ohne ein Image von Grund auf erstellen zu müssen. Siehe den folgenden Code:
5. Beginnen Sie mit dem Training mit dem Behälter
Führen Sie den folgenden Docker-Befehl aus, um mit der Feinabstimmung des Modells zu beginnen tweet_eval
Stimmungsdatensatz. Wir verwenden die Argumente des Docker-Containers (Größe des gemeinsam genutzten Speichers, maximal gesperrter Speicher und Stapelgröße). Von Nvidia empfohlen für Deep-Learning-Workloads.
Sie sollten die folgende Ausgabe erwarten. Das Skript lädt zunächst den TweetEval-Datensatz herunter, der aus sieben heterogenen Aufgaben in Twitter besteht, die alle als Tweet-Klassifizierung mit mehreren Klassen angelegt sind. Zu den Aufgaben gehören Ironie, Hass, Beleidigung, Haltung, Emoji, Emotion und Sentiment.
Das Skript lädt dann das Basismodell herunter und startet den Feinabstimmungsprozess. Trainings- und Bewertungsmetriken werden am Ende jeder Epoche gemeldet.
Leistungsstatistik
Mit PyTorch 2.0 und der neuesten Hugging Face Transformers-Bibliothek 4.28.1 beobachteten wir eine Geschwindigkeitssteigerung von 42 % auf einer einzelnen p4d.24xlarge-Instanz mit 8 A100 40 GB GPUs. Leistungsverbesserungen ergeben sich aus einer Kombination aus Torch.compile, dem Datentyp BF16 und dem verschmolzenen AdamW-Optimierer. Der folgende Code ist das Endergebnis von zwei Trainingsläufen mit und ohne neue Funktionen:
6. Testen Sie das trainierte Modell lokal, bevor Sie die SageMaker-Inferenz vorbereiten
Die folgenden Dateien finden Sie unter $ml_working_dir/saved_model/
nach dem Training:
Stellen wir sicher, dass wir die Inferenz lokal ausführen können, bevor wir uns auf die SageMaker-Inferenz vorbereiten. Wir können das gespeicherte Modell laden und die Inferenz lokal ausführen test_trained_model.py
Skript:
Bei der Eingabe „Covid-Fälle nehmen schnell zu!“ sollten Sie mit folgender Ausgabe rechnen:
7. Bereiten Sie den Modell-Tarball für die SageMaker-Inferenz vor
Erstellen Sie unter dem Verzeichnis, in dem sich das Modell befindet, ein neues Verzeichnis mit dem Namen code
:
Erstellen Sie im neuen Verzeichnis die Datei inference.py
und füge Folgendes hinzu:
Am Ende sollten Sie folgende Ordnerstruktur haben:
Das Modell kann nun gepackt und auf Amazon S3 hochgeladen werden, um es mit der SageMaker-Inferenz zu verwenden:
8. Stellen Sie das Modell auf einer SageMaker AWS Graviton-Instanz bereit
Neue CPU-Generationen bieten aufgrund spezieller integrierter Anweisungen eine deutliche Leistungsverbesserung bei der ML-Inferenz. In diesem Anwendungsfall verwenden wir die vollständig verwaltete Hosting-Infrastruktur von SageMaker mit AWS Graviton3-basierten C7g-Instanzen. AWS hat außerdem bis zu 50 % Kosteneinsparungen für PyTorch-Inferenz mit AWS Graviton3-basierten EC2 C7g-Instanzen über Torch Hub ResNet50 und mehrere Hugging Face-Modelle im Vergleich zu vergleichbaren EC2-Instanzen gemessen.
Um die Modelle auf AWS Graviton-Instanzen bereitzustellen, verwenden wir AWS DLCs, die Unterstützung für PyTorch 2.0 und TorchServe 0.8.0 bieten, oder Sie können dies tun Bringen Sie Ihre eigenen Behälter mit die mit der ARMv8.2-Architektur kompatibel sind.
Wir verwenden das zuvor trainierte Modell: s3://<your-s3-bucket>/twitter-roberta-base-sentiment-latest.tar.gz
. Wenn Sie SageMaker noch nicht verwendet haben, lesen Sie es noch einmal Erste Schritte mit Amazon SageMaker.
Stellen Sie zunächst sicher, dass das SageMaker-Paket auf dem neuesten Stand ist:
Da es sich hierbei um ein Beispiel handelt, erstellen Sie eine Datei mit dem Namen start_endpoint.py
und fügen Sie den folgenden Code hinzu. Dies ist das Python-Skript zum Starten eines SageMaker-Inferenzendpunkts mit dem Modus:
Wir verwenden ml.c7g.4xlarge für die Instanz und rufen PT 2.0 mit einem Bildumfang ab inference_graviton
. Dies ist unsere AWS Graviton3-Instanz.
Als Nächstes erstellen wir die Datei, die die Vorhersage ausführt. Wir führen diese als separate Skripte aus, sodass wir die Vorhersagen so oft ausführen können, wie wir möchten. Erstellen predict.py
mit folgendem Code:
Mit den generierten Skripten können wir nun einen Endpunkt starten, Vorhersagen für den Endpunkt treffen und aufräumen, wenn wir fertig sind:
9 Aufräumen
Zuletzt wollen wir von diesem Beispiel aufräumen. Erstellen Sie cleanup.py und fügen Sie den folgenden Code hinzu:
Zusammenfassung
AWS DLAMIs und DLCs sind zum Standard für die Ausführung von Deep-Learning-Workloads auf einer breiten Auswahl an Rechen- und ML-Diensten auf AWS geworden. Neben der Verwendung von Framework-spezifischen DLCs auf AWS ML-Services können Sie auch ein einzelnes Framework auf Amazon EC2 verwenden, wodurch Entwicklern die schwere Arbeit entfällt, die für die Erstellung und Wartung von Deep-Learning-Anwendungen erforderlich ist. Beziehen auf Versionshinweise für DLAMI und Verfügbare Deep-Learning-Container-Images um zu starten.
In diesem Beitrag wurde eine von vielen Möglichkeiten zum Trainieren und Bereitstellen Ihres nächsten Modells auf AWS aufgezeigt und mehrere Formate besprochen, die Sie zur Erreichung Ihrer Geschäftsziele übernehmen können. Probieren Sie dieses Beispiel aus oder nutzen Sie unsere anderen AWS ML-Services, um die Datenproduktivität Ihres Unternehmens zu steigern. Wir haben eine einfache Sentiment-Analyse-Aufgabe eingefügt, damit ML-Neulinge verstehen, wie einfach der Einstieg in PyTorch 2.0 auf AWS ist. In den kommenden Blogbeiträgen werden wir auf fortgeschrittenere Anwendungsfälle, Modelle und AWS-Technologien eingehen.
Über die Autoren
Kanwaljit Khurmi ist Principal Solutions Architect bei Amazon Web Services. Er arbeitet mit den AWS-Kunden zusammen, um Anleitungen und technische Unterstützung bereitzustellen, die ihnen helfen, den Wert ihrer Lösungen bei der Verwendung von AWS zu verbessern. Kanwaljit ist darauf spezialisiert, Kunden mit containerisierten und maschinellen Lernanwendungen zu unterstützen.
Mike Schneider ist ein Systementwickler mit Sitz in Phoenix AZ. Er ist Mitglied von Deep-Learning-Containern und unterstützt verschiedene Framework-Container-Images, einschließlich Graviton Inference. Er widmet sich der Effizienz und Stabilität der Infrastruktur.
Lai Wei ist Senior Software Engineer bei Amazon Web Services. Er konzentriert sich auf die Entwicklung benutzerfreundlicher, leistungsstarker und skalierbarer Deep-Learning-Frameworks zur Beschleunigung des verteilten Modelltrainings. Außerhalb der Arbeit verbringt er gerne Zeit mit seiner Familie, beim Wandern und Skifahren.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
- Die Zukunft prägen mit Adryenn Ashley. Hier zugreifen.
- Kaufen und verkaufen Sie Anteile an PRE-IPO-Unternehmen mit PREIPO®. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/part-1-build-high-performance-ml-models-using-pytorch-2-0-on-aws/
- :hast
- :Ist
- :nicht
- :Wo
- $UP
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15%
- 16
- 17
- 20
- 200
- 23
- 25
- 26%
- 28
- 31
- 7
- 8
- 9
- a
- beschleunigen
- beschleunigt
- beschleunigend
- Akzeptieren
- Zugang
- über
- Action
- Marcus
- hinzufügen
- hinzugefügt
- adoptieren
- advanced
- Nach der
- gegen
- AI
- ausrichten
- ausgerichtet
- Alle
- erlauben
- Zulassen
- erlaubt
- entlang
- bereits
- ebenfalls
- Amazon
- Amazon EC2
- Amazon Web Services
- AMD
- Betrag
- an
- Analyse
- analysieren
- und
- angekündigt
- Ein anderer
- jedem
- Bienen
- Anwendung
- Anwendungen
- Ansatz
- ca.
- Architektur
- SIND
- Bereich
- Argument
- Argumente
- künstlich
- künstliche Intelligenz
- Künstliche Intelligenz (AI)
- AS
- Hilfe
- At
- Verfügbarkeit
- verfügbar
- durchschnittlich
- AWS
- Balancer
- Base
- basierend
- Grundsätzlich gilt
- BE
- weil
- werden
- war
- Bevor
- beginnen
- hinter
- Benchmark
- Benchmarks
- Big
- Milliarden
- BIN
- Blog
- Blog-Beiträge
- Körper
- Boden
- Gehirn
- breit
- Haushalt
- bauen
- Building
- erbaut
- eingebaut
- Last
- Geschäft
- Unternehmen
- aber
- by
- rufen Sie uns an!
- namens
- Aufruf
- CAN
- Fähigkeiten
- Häuser
- Fälle
- CD
- Übernehmen
- Ändern
- Wahl
- Auswählen
- Einstufung
- Auftraggeber
- Cloud
- Code
- COM
- Kombination
- kommt
- Kommunikation
- vergleichbar
- verglichen
- kompatibel
- abschließen
- Berechnen
- Computer
- Computer Vision
- Computing
- Vernetz Dich
- Geht davon
- besteht
- Konsul (Console)
- Container
- Behälter
- Inhalt
- Inhaltserstellung
- Smartgeräte App
- Kernbereich
- Kosten
- Einsparmaßnahmen
- Kosten
- könnte
- Abdeckung
- erstellen
- erstellt
- Schaffung
- Referenzen
- kuratiert
- Strom
- Kunden
- anpassen
- technische Daten
- Datum
- Tage
- gewidmet
- tief
- tiefe Lernen
- Standard
- zeigt
- Abhängig
- einsetzen
- Einsatz
- Einsatz
- Implementierungen
- entworfen
- Details
- entwickelt
- Entwickler:in / Unternehmen
- Entwickler
- Entwicklung
- anders
- Digest
- diskutieren
- diskutiert
- verteilt
- verteiltes Training
- verschieden
- do
- Docker
- erledigt
- Nicht
- herunterladen
- Downloads
- Fahrer
- Treiber
- Fahren
- zwei
- dynamisch
- jeder
- Früher
- erleichtern
- leicht
- Einfache
- bewirken
- effektiv
- Effizienz
- effizient
- Anstrengung
- entweder
- ermöglichen
- freigegeben
- Verschlüsselung
- Ende
- Endpunkt
- Ingenieur
- verbesserte
- vollständig
- Arbeitsumfeld
- Epoche
- Fehler
- bewerten
- Auswertung
- Sogar
- ÜBERHAUPT
- Jedes
- Beispiel
- vorhandenen
- Erweitern Sie die Funktionalität der
- erwarten
- ERFAHRUNGEN
- ERKUNDEN
- exponentiell
- exportieren
- erweitern
- erweitert
- Stoff
- Gesicht
- Familie
- beschleunigt
- schnellsten
- Eigenschaften
- wenige
- Abbildung
- Reichen Sie das
- Mappen
- Finale
- Finden Sie
- Vorname
- passen
- Flexibilität
- schweben
- Setzen Sie mit Achtsamkeit
- Fokussierung
- folgen
- Folgende
- Aussichten für
- Unser Ansatz
- Gerüste
- für
- voll
- weiter
- erzeugen
- erzeugt
- Generation
- Generationen
- generativ
- Generative KI
- bekommen
- Git
- GitHub
- ABSICHT
- gibt
- Global
- GPU
- GPUs
- Gruppe an
- Wachstum
- die Vermittlung von Kompetenzen,
- Haben
- mit
- he
- schwer
- schweres Heben
- Unternehmen
- hilft
- Hohe Leistungsfähigkeit
- höher
- höchste
- seine
- hält
- Gastgeber
- Hosting
- Ultraschall
- aber
- HTML
- http
- HTTPS
- Nabe
- hunderte
- Hybrid
- ID
- Identitätsschutz
- if
- zeigt
- Image
- Bilder
- implementieren
- Implementierung
- importieren
- zu unterstützen,
- verbessert
- Verbesserung
- Verbesserungen
- Verbesserung
- in
- das
- inklusive
- Dazu gehören
- Einschließlich
- Erhöhung
- zunehmend
- unabhängig
- Branchen
- Infrastruktur
- Varianten des Eingangssignals:
- installieren
- installiert
- Installieren
- Instanz
- beantragen müssen
- Anleitung
- Integriert
- Intel
- Intelligenz
- in
- Investments
- IP
- Ironie
- IT
- SEINE
- Jobs
- jpg
- JSON
- Wesentliche
- Label
- Sprache
- grosse
- großflächig
- größer
- Latency
- neueste
- neueste Erscheinung
- starten
- umwandeln
- lernen
- links
- Bibliotheken
- Bibliothek
- Facelift
- Gefällt mir
- Limitiert
- Line
- linux
- Liste
- Belastung
- örtlich
- located
- verschlossen
- Log
- login
- Verlust
- senken
- niedrigste
- Maschine
- Maschinelles Lernen
- halten
- um
- Making
- verwalten
- verwaltet
- viele
- Mathe
- max
- Kann..
- Triff
- Mitglied
- Memory
- verschmilzt
- Metadaten
- Methode
- Metrik
- Million
- ML
- MLOps
- Model
- Modell
- für
- Module
- Monat
- mehr
- ziehen um
- mehrere
- Name
- Natürliche
- Verarbeitung natürlicher Sprache
- notwendig,
- Need
- erforderlich
- Bedürfnisse
- Negativ
- Netzwerk
- Vernetzung
- Neutral
- Neu
- Neue Funktionen
- Neue Technologien
- weiter
- Fiber Node
- Notizen
- Notiz..
- jetzt an
- Nvidia
- of
- Offensive
- bieten
- bieten
- Angebote
- on
- EINEM
- Open-Source-
- öffnet
- Betriebs-
- Optimierung
- optimiert
- Optionen
- or
- Orchesterbearbeitung
- organisatorisch
- OS
- Andere
- Anders
- UNSERE
- Möglichkeiten für das Ausgangssignal:
- aussen
- besitzen
- Paket
- verpackt
- Parameter
- Teil
- Patch
- Patchen
- Leistung
- Erlaubnis
- Berechtigungen
- Phönix
- wählen
- abgeholt
- Pipeline
- Plattform
- Plato
- Datenintelligenz von Plato
- PlatoData
- Bitte
- Points
- Politik durchzulesen
- Datenschutzrichtlinien
- Beliebt
- Möglichkeiten
- Post
- BLOG-POSTS
- angetriebene
- größte treibende
- vorhersagen
- Prognose
- Prognosen
- Danach
- Vorbereitung
- Voraussetzungen
- früher
- Principal
- Aufgabenstellung:
- Prozessdefinierung
- Verarbeitung
- Prozessoren
- Produktion
- PRODUKTIVITÄT
- Produkte
- Projekt
- Projekte
- Eigentums-
- zuverlässig
- die
- bietet
- Öffentlichkeit
- setzen
- Python
- Pytorch
- bereit
- kürzlich
- kürzlich
- wiederkehrend
- Veteran
- Region
- Registratur
- regelmäßig
- relativ
- Release
- zuverlässig
- verbleibenden
- Berichtet
- erfordern
- falls angefordert
- Voraussetzungen:
- erfordert
- Ressourcen
- Antwort
- Einschränkungen
- Folge
- Rückkehr
- Überprüfen
- Rollen
- Wurzel
- Führen Sie
- Laufen
- sagemaker
- SageMaker-Inferenz
- gleich
- Ersparnisse
- skalierbaren
- Skalieren
- Scan
- scikit-lernen
- Umfang
- Ergebnis
- kratzen
- Skripte
- Abschnitt
- Abschnitte
- Verbindung
- Sicherheitdienst
- sehen
- Auswahl
- Auswahl
- Sendung
- Senior
- Gefühl
- getrennte
- brauchen
- Lösungen
- Sitzung
- kompensieren
- Einstellungen
- Setup
- sieben
- mehrere
- SHA256
- von Locals geführtes
- sollte
- Vitrine
- zeigte
- gezeigt
- Konzerte
- signifikant
- Einfacher
- Single
- Größe
- Größen
- So
- Software
- Software IngenieurIn
- Lösung
- Lösungen
- einige
- Raumfahrt
- spezialisiert
- spezialisiert
- spezifisch
- speziell
- Geschwindigkeit
- Geschwindigkeiten
- verbringen
- Ausgabe
- Stabilität
- Stapel
- Standard
- Anfang
- begonnen
- beginnt
- Erklärung
- Statistiken
- Schritt
- Shritte
- Lagerung
- Speichermöglichkeiten
- Strategien
- Struktur
- so
- Support
- Unterstützte
- Unterstützung
- Unterstützt
- System
- Systeme und Techniken
- zugeschnitten
- und Aufgaben
- Technische
- Techniken
- Technologies
- Tensorfluss
- Test
- getestet
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- Die Gegend
- ihr
- Sie
- dann
- Diese
- vom Nutzer definierten
- fehlen uns die Worte.
- obwohl?
- Durch
- Durchsatz
- Tier
- Zeit
- mal
- zu
- Werkzeuge
- Fackel
- Training
- trainiert
- Ausbildung
- Transformator
- Transformer
- Transformieren
- versuchen
- Tweet
- Tweets
- XNUMX
- tippe
- Typen
- typisch
- Ubuntu
- für
- verstehen
- anstehende
- Aktualisierung
- aktualisiert
- mehr Stunden
- hochgeladen
- Anwendungsbereich
- -
- Anwendungsfall
- benutzt
- Nutzer
- Verwendung von
- Nutzen
- Wert
- Vielfalt
- verschiedene
- überprüfen
- Version
- Seh-
- Volumen
- Sicherheitslücken
- wollen
- we
- Netz
- Web-Services
- Wochen
- Gewicht
- willkommen
- wann
- welche
- weit
- werden wir
- mit
- ohne
- Arbeiten
- Arbeitsablauf.
- Werk
- schreiben
- Schreiben
- X
- Du
- Ihr
- Zephyrnet
- Zonen