Lösen Sie effektiv Probleme bei der verteilten Trainingskonvergenz mit der automatischen Modelloptimierung von Amazon SageMaker Hyperband

Neuauflage von Plato

Verfolger: 0

Die letzten Jahre haben ein erstaunliches Wachstum bei Deep-Learning-Neuronalen Netzen (DNNs) gezeigt. Dieses Wachstum zeigt sich in genaueren Modellen und eröffnet sogar neue Möglichkeiten mit generativer KI: große Sprachmodelle (LLMs), die natürliche Sprache synthetisieren, Text-zu-Bild-Generatoren und mehr. Diese erhöhten Fähigkeiten von DNNs gehen mit den Kosten für umfangreiche Modelle einher, deren Training erhebliche Rechenressourcen erfordert. Das verteilte Training löst dieses Problem mit zwei Techniken: Datenparallelität und Modellparallelität. Datenparallelität wird verwendet, um den Trainingsprozess über mehrere Knoten und Worker zu skalieren, und Modellparallelität teilt ein Modell auf und passt es an die vorgesehene Infrastruktur an. Amazon Sage Maker verteiltes Training Mit Jobs können Sie mit einem Klick (oder einem API-Aufruf) einen verteilten Rechencluster einrichten, ein Modell trainieren und das Ergebnis speichern Amazon Simple Storage-Service (Amazon S3) und fahren Sie den Cluster herunter, wenn er fertig ist. Darüber hinaus hat SageMaker im verteilten Schulungsbereich kontinuierlich Innovationen hervorgebracht, indem es Funktionen wie eingeführt hat heterogene Cluster und verteilte Schulungsbibliotheken für Datenparallelität und Modellparallelität.

Für ein effizientes Training in einer verteilten Umgebung müssen Hyperparameter angepasst werden. Ein gängiges Beispiel für eine bewährte Vorgehensweise beim Training auf mehreren GPUs ist das Multiplizieren der Batch- (oder Mini-Batch-)Größe mit der GPU-Nummer, um die gleiche Batch-Größe pro GPU beizubehalten. Die Anpassung von Hyperparametern wirkt sich jedoch häufig auf die Modellkonvergenz aus. Daher muss das verteilte Training drei Faktoren ausbalancieren: Verteilung, Hyperparameter und Modellgenauigkeit.

In diesem Beitrag untersuchen wir die Auswirkung von verteiltem Training auf die Konvergenz und deren Verwendung Automatische Modelloptimierung von Amazon SageMaker zur Feinabstimmung von Modellhyperparametern für verteiltes Training mithilfe von Datenparallelität.

Der in diesem Beitrag erwähnte Quellcode ist auf der zu finden GitHub-Repository (Eine m5.xlarge-Instanz wird empfohlen).

Skalieren Sie das Training von einer einzelnen auf eine verteilte Umgebung

Datenparallelität ist eine Möglichkeit, den Trainingsprozess auf mehrere Rechenressourcen zu skalieren und eine schnellere Trainingszeit zu erreichen. Bei der Datenparallelität werden die Daten auf die Rechenknoten aufgeteilt, und jeder Knoten berechnet die Gradienten basierend auf seiner Aufteilung und aktualisiert das Modell. Diese Aktualisierungen können mithilfe eines oder mehrerer Parameterserver asynchron, eins-zu-viele oder alle-zu-alle durchgeführt werden. Eine andere Möglichkeit kann die Verwendung eines AllReduce-Algorithmus sein. Beispielsweise kommuniziert beim Ring-Allreduce-Algorithmus jeder Knoten nur mit zwei seiner Nachbarknoten, wodurch die Gesamtdatenübertragungen reduziert werden. Weitere Informationen zu Parameterservern und Ring-Allreduce finden Sie unter Einfaches Starten des verteilten TensorFlow-Trainings mit Horovod oder Parameterservern in Amazon SageMaker. Im Hinblick auf die Datenpartitionierung, falls vorhanden n Rechenknoten, dann sollte jeder Knoten eine Teilmenge der Daten erhalten, ungefähr 1/n in Größe.

Um die Auswirkung des Scale-out-Trainings auf die Modellkonvergenz zu demonstrieren, führen wir zwei einfache Experimente durch:

Jedes Modelltraining wurde zweimal ausgeführt: auf einer einzelnen Instanz und verteilt auf mehrere Instanzen. Für das verteilte DNN-Training haben wir die Mini-Batch-Größe mit der Anzahl der Instanzen (vier) multipliziert, um die verteilten Prozessoren vollständig auszunutzen. Die folgende Tabelle fasst den Aufbau und die Ergebnisse zusammen.

Problemtyp	Bildklassifizierung		Binäre Klassifizierung
Modell	DNN		XGBoost
Beispiel	ml.c4.xlarge		ml.m5.2xgroß
Datensatz	MNIST (Beschriftete Bilder)		Direktmarketing (tabellarische, numerische und vektorisierte Kategorien)
Validierungsmetrik	Genauigkeit		AUC
Epocs/Runden	20		150
Anzahl der Instanzen	1	4	1	3
Verteilungsart	N / A	Parameterserver	N / A	AllReduce
Trainingszeit (Minuten)	8	3	3	1
Endergebnis der Validierung	0.97	0.11	0.78	0.63

Bei beiden Modellen wurde die Trainingszeit nahezu linear durch den Verteilungsfaktor reduziert. Allerdings erlitt die Modellkonvergenz einen deutlichen Rückgang. Dieses Verhalten ist für die beiden unterschiedlichen Modelle, die unterschiedlichen Recheninstanzen, die unterschiedlichen Verteilungsmethoden und die unterschiedlichen Datentypen konsistent. Warum wirkte sich die Verteilung des Trainingsprozesses auf die Modellgenauigkeit aus?

Es gibt eine Reihe von Theorien, die diesen Effekt zu erklären versuchen:

Wenn Tensoraktualisierungen sehr umfangreich sind, kann der Datenverkehr zwischen Workern und dem Parameterserver überlastet werden. Daher leiden asynchrone Parameterserver aufgrund von Verzögerungen bei der Aktualisierung der Gewichtungen unter einer deutlich schlechteren Konvergenz [1].
Eine zunehmende Chargengröße kann zu einer Überanpassung und einer schlechten Generalisierung führen und dadurch die Validierungsgenauigkeit verringern [2].
Bei der asynchronen Aktualisierung von Modellparametern verwenden einige DNNs möglicherweise nicht die zuletzt aktualisierten Modellgewichte. Daher berechnen sie Farbverläufe auf der Grundlage von Gewichten, die einige Iterationen zurückliegen. Dies führt zu Übergewicht [3] und kann verschiedene Ursachen haben.
Einige Hyperparameter sind modell- oder optimiererspezifisch. In der offiziellen XGBoost-Dokumentation heißt es beispielsweise, dass die exact Wert für die tree_mode Hyperparameter unterstützt kein verteiltes Training, da XGBoost eine zeilenaufteilende Datenverteilung verwendet, während die exact Die Baummethode arbeitet mit einem sortierten Spaltenformat.
Einige Forscher schlugen vor, dass die Konfiguration einer größeren Mini-Charge zu Gradienten mit geringerer Stochastik führen könnte. Dies kann passieren, wenn die Verlustfunktion lokale Minima und Sattelpunkte enthält und keine Änderung an der Schrittgröße vorgenommen wird, was dazu führen kann, dass die Optimierung in solchen lokalen Minima oder Sattelpunkten stecken bleibt [4].

Optimieren Sie für verteiltes Training

Unter Hyperparameteroptimierung (HPO) versteht man den Prozess der Suche und Auswahl einer Reihe von Hyperparametern, die für einen Lernalgorithmus optimal sind. SageMaker Automatic Model Tuning (AMT) stellt HPO als verwalteten Dienst bereit, indem es mehrere Trainingsjobs für den bereitgestellten Datensatz ausführt. SageMaker AMT durchsucht die von Ihnen angegebenen Bereiche der Hyperparameter und gibt die besten Werte zurück, gemessen anhand einer von Ihnen gewählten Metrik. Sie können SageMaker AMT mit den integrierten Algorithmen verwenden oder Ihre benutzerdefinierten Algorithmen und Container verwenden.

Die Optimierung für verteiltes Training unterscheidet sich jedoch vom herkömmlichen HPO, da nicht eine einzelne Instanz pro Trainingsjob gestartet wird, sondern jeder Job tatsächlich einen Cluster von Instanzen startet. Dies bedeutet eine größere Auswirkung auf die Kosten (insbesondere wenn man kostspielige GPU-beschleunigte Instanzen berücksichtigt, die typisch für DNN sind). Zusätzlich zu AMT-Grenzwerte, du könntest möglicherweise treffen Limits für SageMaker-Konten für die gleichzeitige Anzahl von Trainingsinstanzen. Schließlich kann das Starten von Clustern aufgrund der längeren Startzeit zu einem betrieblichen Mehraufwand führen. SageMaker AMT verfügt über spezielle Funktionen zur Behebung dieser Probleme. Hyperband mit Frühstopp Stellt sicher, dass gut funktionierende Hyperparameterkonfigurationen optimiert werden und solche mit schlechter Leistung automatisch gestoppt werden. Dies ermöglicht eine effiziente Nutzung der Schulungszeit und reduziert unnötige Kosten. Darüber hinaus unterstützt SageMaker AMT vollständig die Verwendung von Amazon EC2 Spot-Instances, wodurch die Optimierung möglich ist Schulungskosten bis zu 90 % über On-Demand-Instanzen. Im Hinblick auf lange Startzeiten verwendet SageMaker AMT automatisch Trainingsinstanzen innerhalb jedes Tuning-Jobs wieder und reduziert so die durchschnittliche Startzeit jedes einzelnen Ausbildungsauftrag um das 20-fache. Darüber hinaus sollten Sie folgen AMT-Best PracticesB. die Auswahl der relevanten Hyperparameter, ihrer geeigneten Bereiche und Skalen sowie der besten Anzahl gleichzeitiger Trainingsjobs und das Festlegen eines zufälligen Startwerts zur Reproduktion der Ergebnisse.

Im nächsten Abschnitt sehen wir diese Funktionen in Aktion, während wir einen AMT-Job anhand des zuvor besprochenen XGBoost-Beispiels konfigurieren, ausführen und analysieren.

Konfigurieren, ausführen und analysieren Sie einen Optimierungsjob

Wie bereits erwähnt, finden Sie den Quellcode auf der GitHub Repo. In den Schritten 1–5 laden wir die Daten herunter, bereiten sie vor und erstellen die xgb3 Schätzer (der verteilte XGBoost-Schätzer ist auf die Verwendung von drei Instanzen eingestellt), führen Sie die Trainingsjobs aus und beobachten Sie die Ergebnisse. In diesem Abschnitt beschreiben wir, wie Sie den Optimierungsjob für diesen Schätzer einrichten, vorausgesetzt, Sie haben die Schritte 1–5 bereits durchlaufen.

Ein Optimierungsjob berechnet optimale Hyperparameter für die von ihm gestarteten Trainingsjobs, indem er eine Metrik zur Leistungsbewertung verwendet. Du kannst Konfigurieren Sie Ihre eigene Metrik, den SageMaker basierend auf der von Ihnen konfigurierten und an ihn gesendeten Regex analysiert stdout, oder verwenden Sie die Metriken von Integrierte SageMaker-Algorithmen. In diesem Beispiel verwenden wir die integrierte XGBoost-Zielmetrik, daher müssen wir keinen regulären Ausdruck konfigurieren. Um die Modellkonvergenz zu optimieren, optimieren wir basierend auf der Validierungs-AUC-Metrik:

objective_metric_name="validation:auc"

Wir optimieren sieben Hyperparameter:

num_round – Anzahl der Boost-Runden während des Trainings.
eta – Schrumpfung der Schrittgröße, die in Updates verwendet wird, um eine Überanpassung zu verhindern.
Alpha – L1-Regularisierungsterm für Gewichte.
min_child_weight – Mindestsumme des Instanzgewichts (Hessian), das bei einem Kind benötigt wird. Wenn der Baumpartitionierungsschritt zu einem Blattknoten führt, dessen Summe der Instanzgewichte kleiner ist als min_child_weight, der Bauprozess verzichtet auf eine weitere Partitionierung.
maximale Tiefe – Maximale Tiefe eines Baumes.
colsample_bylevel – Teilstichprobenverhältnis der Spalten für jede Aufteilung auf jeder Ebene. Diese Unterabtastung erfolgt einmal für jede neue Tiefenebene, die in einem Baum erreicht wird.
colsample_bytree – Teilstichprobenverhältnis der Spalten beim Aufbau jedes Baums. Für jeden erstellten Baum erfolgt die Unterabtastung einmal.

Weitere Informationen zu XGBoost-Hyperparametern finden Sie unter XGBoost-Hyperparameter. Der folgende Code zeigt die sieben Hyperparameter und ihre Bereiche:

hyperparameter_ranges = { "num_round": IntegerParameter(100, 200), "eta": ContinuousParameter(0, 1), "min_child_weight": ContinuousParameter(1, 10), "alpha": ContinuousParameter(0, 2), "max_depth": IntegerParameter(1, 10), "colsample_bylevel": ContinuousParameter(0, 1), "colsample_bytree": ContinuousParameter(0, 1),
}

Als nächstes stellen wir die bereit Konfiguration für die Hyperband-Strategie und die Tuner-Objektkonfiguration mit dem SageMaker SDK. HyperbandStrategyConfig kann zwei Parameter verwenden: max_resource (optional) für die maximale Anzahl von Iterationen, die für einen Trainingsjob verwendet werden sollen, um das Ziel zu erreichen, und min_resource – die Mindestanzahl von Iterationen, die ein Trainingsjob verwenden muss, bevor das Training beendet wird. Wir gebrauchen HyperbandStrategyConfig konfigurieren StrategyConfig, der später von der Optimierungsjobdefinition verwendet wird. Siehe den folgenden Code:

hsc = HyperbandStrategyConfig(max_resource=30, min_resource=1)
sc = StrategyConfig(hyperband_strategy_config=hsc)

Jetzt erstellen wir eine HyperparameterTuner Objekt, an das wir folgende Informationen weitergeben:

Der XGBoost-Schätzer, der mit drei Instanzen ausgeführt werden soll
Der Name und die Definition der objektiven Metrik
Unsere Hyperparameterbereiche
Optimieren Sie Ressourcenkonfigurationen, z. B. die Anzahl der insgesamt auszuführenden Trainingsjobs und die Anzahl der Trainingsjobs, die parallel ausgeführt werden können
Hyperband-Einstellungen (die Strategie und Konfiguration, die wir im letzten Schritt konfiguriert haben)
Frühes Anhalten (early_stopping_type) einstellen Off

Warum stellen wir „Frühes Stoppen“ auf „Aus“? Trainingsjobs können frühzeitig gestoppt werden, wenn es unwahrscheinlich ist, dass sie die objektive Metrik des Hyperparameter-Tuning-Jobs verbessern. Dies kann dazu beitragen, die Rechenzeit zu verkürzen und eine Überanpassung Ihres Modells zu vermeiden. Hyperband verwendet jedoch einen fortschrittlichen integrierten Mechanismus, um ein frühzeitiges Stoppen vorzunehmen. Daher der Parameter early_stopping_type muss auf eingestellt sein Off bei Verwendung der internen Frühstoppfunktion von Hyperband. Siehe den folgenden Code:

tuner = HyperparameterTuner( xgb3, objective_metric_name, hyperparameter_ranges, max_jobs=30, max_parallel_jobs=4, strategy="Hyperband", early_stopping_type="Off", strategy_config=sc
)

Abschließend starten wir den Job zur automatischen Modelloptimierung durch den Aufruf von passen Methode. Wenn Sie den Job asynchron starten möchten, legen Sie fest wait zu False. Siehe folgenden Code:

tuner.fit(
{"train": s3_input_train, "validation": s3_input_validation},
include_cls_metadata=False,
wait=True,
)

Sie können den Auftragsfortschritt und die Zusammenfassung auf der SageMaker-Konsole verfolgen. Im Navigationsbereich unter Ausbildung, wählen Hyperparameter-Tuning-Jobs, und wählen Sie dann den entsprechenden Tuning-Job aus. Der folgende Screenshot zeigt den Tuning-Job mit Details zum Status und der Leistung der Trainingsjobs.

Lösen Sie effektiv Konvergenzprobleme beim verteilten Training mit Amazon SageMaker Hyperband Automatic Model Tuning | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn die Tuningarbeiten abgeschlossen sind, können wir die Ergebnisse überprüfen. Im Notebook-Beispiel zeigen wir, wie Ergebnisse mit dem SageMaker SDK extrahiert werden. Zunächst untersuchen wir, wie die Optimierungsaufgabe die Modellkonvergenz erhöhte. Sie können das anhängen HyperparameterTuner Objekt mithilfe des Jobnamens und rufen Sie das auf beschreiben Methode. Die Methode gibt ein Wörterbuch zurück, das Metadaten und Ergebnisse des Optimierungsjobs enthält.

Im folgenden Code rufen wir den Wert des Trainingsjobs mit der besten Leistung ab, gemessen anhand unserer objektiven Metrik (Validierungs-AUC):

tuner = HyperparameterTuner.attach(tuning_job_name=tuning_job_name)
tuner.describe()["BestTrainingJob"]["FinalHyperParameterTuningJobObjectiveMetric"]["Value"]

Lösen Sie effektiv Konvergenzprobleme beim verteilten Training mit Amazon SageMaker Hyperband Automatic Model Tuning | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Das Ergebnis beträgt 0.78 AUC im Validierungssatz. Das ist eine deutliche Verbesserung gegenüber den anfänglichen 0.63!

Schauen wir uns als Nächstes an, wie schnell unser Trainingsjob lief. Dafür verwenden wir die HyperparameterTuningJobAnalytics Methode im SDK, um Ergebnisse zum Optimierungsauftrag abzurufen und zur Analyse und Visualisierung in einen Pandas-Datenrahmen einzulesen:

tuner_analytics = sagemaker.HyperparameterTuningJobAnalytics(tuning_job_name)
full_df = tuner_analytics.dataframe()
full_df.sort_values(by=["FinalObjectiveValue"], ascending=False).head()

Sehen wir uns die durchschnittliche Zeit an, die ein Schulungsjob mit der Hyperband-Strategie in Anspruch genommen hat:

full_df["TrainingElapsedTimeSeconds"].mean()

Lösen Sie effektiv Konvergenzprobleme beim verteilten Training mit Amazon SageMaker Hyperband Automatic Model Tuning | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die durchschnittliche Zeit betrug etwa 1 Minute. Dies steht im Einklang mit dem Hyperband-Strategiemechanismus, der leistungsschwache Trainingsjobs frühzeitig stoppt. Was die Kosten angeht, haben wir für den Tuning-Auftrag insgesamt 30 Minuten Schulungszeit in Rechnung gestellt. Ohne die vorzeitige Beendigung von Hyperband würde die gesamte abrechenbare Schulungsdauer voraussichtlich 90 Minuten betragen (30 Jobs * 1 Minute pro Job * 3 Instanzen pro Job). Das ist eine dreimal bessere Kosteneinsparung! Schließlich sehen wir, dass der Tuning-Job 30 Trainingsjobs ausgeführt hat und insgesamt 12 Minuten gedauert hat. Das ist fast 50 % weniger als die erwartete Zeit (30 Jobs/4 Jobs parallel * 3 Minuten pro Job).

Zusammenfassung

In diesem Beitrag haben wir einige beobachtete Konvergenzprobleme beim Training von Modellen mit verteilten Umgebungen beschrieben. Wir haben gesehen, dass SageMaker AMT mithilfe von Hyperband die Hauptprobleme ausgeräumt hat, die durch die Optimierung des datenparallel verteilten Trainings entstanden sind: Konvergenz (die sich um mehr als 10 % verbesserte) und betriebliche Effizienz (der Optimierungsauftrag nahm 50 % weniger Zeit in Anspruch als ein sequenzieller, nicht optimierter Auftrag). in Anspruch genommen haben) und Kosteneffizienz (30 vs. 90 abrechenbare Minuten Trainingszeit). Die folgende Tabelle fasst unsere Ergebnisse zusammen:

Verbesserungsmetrik	Keine Tuning-/naive Modelloptimierungsimplementierung	SageMaker Hyperband Automatische Modelloptimierung	Gemessene Verbesserung
Modellqualität (Gemessen anhand der Validierungs-AUC)	0.63	0.78	15%
Kosten (Gemessen an abrechenbaren Schulungsminuten)	90	30	66%
Betriebseffizienz (Gemessen an der Gesamtlaufzeit)	24	12	50%

Zur Feinabstimmung im Hinblick auf die Skalierung (Clustergröße) können Sie den Optimierungsauftrag mit mehreren Clusterkonfigurationen wiederholen und die Ergebnisse vergleichen, um die optimalen Hyperparameter zu finden, die Geschwindigkeit und Modellgenauigkeit erfüllen.

Wir haben die Schritte, um dies zu erreichen, im letzten Abschnitt des aufgeführt Notizbuch.

Bibliographie

[1] Lian, Xiangru et al. „Asynchroner dezentraler paralleler stochastischer Gradientenabstieg.“ Internationale Konferenz zum maschinellen Lernen. PMLR, 2018.

[2] Keskar, Nitish Shirish et al. „Zum Großserientraining für Deep Learning: Generalisierungslücke und scharfe Minima.“ arXiv-Vorabdruck arXiv: 1609.04836 (2016).

[3] Dai, Wei et al. „Auf dem Weg zum Verständnis der Auswirkungen von Veraltung beim verteilten maschinellen Lernen.“ arXiv-Vorabdruck arXiv: 1810.03264 (2018).

[4] Dauphin, Yann N., et al. „Identifizierung und Bekämpfung des Sattelpunktproblems bei der hochdimensionalen nichtkonvexen Optimierung.“ Fortschritte in neuronalen Informationsverarbeitungssystemen 27 (2014).

Über den Autor

Lösen Sie effektiv Konvergenzprobleme beim verteilten Training mit Amazon SageMaker Hyperband Automatic Model Tuning | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Uri Rosenberg ist der AI & ML Specialist Technical Manager für Europa, den Nahen Osten und Afrika. Uri hat seinen Sitz in Israel und arbeitet daran, Unternehmenskunden in die Lage zu versetzen, ML-Workloads in großem Maßstab zu entwerfen, aufzubauen und zu betreiben. In seiner Freizeit fährt er gerne Rad, wandert und beschäftigt sich gerne mit der Datenaufbereitung.