Heutzutage müssen Datenwissenschaftler, die Deep-Learning-Modelle trainieren, Probleme beim Modelltraining identifizieren und beheben, um Genauigkeitsziele für den Produktionseinsatz zu erreichen, und benötigen eine Möglichkeit, Standardtools zum Debuggen des Modelltrainings zu verwenden. In der Datenwissenschaftler-Community ist TensorBoard ein beliebtes Toolkit, mit dem Datenwissenschaftler verschiedene Aspekte ihrer Modelle und Trainingsprozesse für maschinelles Lernen (ML) visualisieren und analysieren können. Es bietet eine Reihe von Tools zur Visualisierung von Trainingsmetriken, zur Untersuchung von Modellarchitekturen, zur Erkundung von Einbettungen und mehr. TensorFlow- und PyTorch-Projekte unterstützen und verwenden TensorBoard in ihrer offiziellen Dokumentation und ihren Beispielen.
Amazon Sage Maker with TensorBoard ist eine Funktion, die die Visualisierungstools von TensorBoard zu SageMaker bringt. Integriert in SageMaker-Schulungsjobs und -Domänen bietet es SageMaker-Domänenbenutzern Zugriff auf die TensorBoard-Daten und hilft Domänenbenutzern bei der Durchführung von Modell-Debugging-Aufgaben mithilfe der SageMaker TensorBoard-Visualisierungs-Plugins. Wenn sie einen SageMaker-Trainingsauftrag erstellen, können Domänenbenutzer TensorBoard mithilfe des SageMaker Python SDK oder der Boto3-API verwenden. SageMaker mit TensorBoard wird durch das SageMaker Data Manager-Plugin unterstützt, mit dem Domänenbenutzer an einem Ort innerhalb der TensorBoard-Anwendung auf viele Schulungsjobs zugreifen können.
In diesem Beitrag zeigen wir, wie Sie mit dem SageMaker Python SDK einen Trainingsjob mit TensorBoard in SageMaker einrichten, auf SageMaker TensorBoard zugreifen, in TensorBoard visualisierte Trainingsausgabedaten erkunden und nicht verwendete TensorBoard-Anwendungen löschen.
Lösungsüberblick
Ein typischer Trainingsjob für Deep Learning in SageMaker besteht aus zwei Hauptschritten: Vorbereiten eines Trainingsskripts und Konfigurieren eines SageMaker-Trainingsjob-Starters. In diesem Beitrag führen wir Sie durch die erforderlichen Änderungen zum Sammeln von TensorBoard-kompatiblen Daten aus der SageMaker-Schulung.
Voraussetzungen:
Um SageMaker mit TensorBoard verwenden zu können, müssen Sie eine SageMaker-Domäne mit einer Amazon VPC unter einem AWS-Konto einrichten. Für den Zugriff auf das TensorBoard auf SageMaker sind Domänenbenutzerprofile für jeden einzelnen Benutzer erforderlich AWS Identity and Access Management and (IAM)-Ausführungsrolle erfordert einen Mindestsatz an Berechtigungen, einschließlich der folgenden:
sagemaker:CreateApp
sagemaker:DeleteApp
sagemaker:DescribeTrainingJob
sagemaker:Search
s3:GetObject
s3:ListBucket
Weitere Informationen zum Einrichten der SageMaker-Domäne und Benutzerprofile finden Sie unter Integrieren Sie die Amazon SageMaker-Domäne mithilfe der Schnelleinrichtung und Benutzerprofile hinzufügen und entfernen.
Verzeichnisstruktur
Beim Benutzen Amazon SageMaker-Studio, kann die Verzeichnisstruktur wie folgt organisiert werden:
Hier script/train.py
ist Ihr Trainingsskript und simple_tensorboard.ipynb
startet den SageMaker-Trainingsjob.
Ändern Sie Ihr Trainingsskript
Sie können eines der folgenden Tools zum Sammeln von Tensoren und Skalaren verwenden: TensorBoardX, TensorFlow Summary Writer, PyTorch Summary Writer oder Amazon SageMaker-Debuggerund geben Sie den Datenausgabepfad als Protokollverzeichnis im Trainingscontainer an (log_dir
). In diesem Beispielcode verwenden wir TensorFlow, um ein einfaches, vollständig verbundenes neuronales Netzwerk für eine Klassifizierungsaufgabe zu trainieren. Weitere Optionen finden Sie unter Bereiten Sie einen Trainingsauftrag mit einer TensorBoard-Ausgabedatenkonfiguration vor. In dem train()
Funktion verwenden wir die tensorflow.keras.callbacks
.TensorBoard-Tool zum Sammeln von Tensoren und Skalaren, spezifizieren /opt/ml/output/tensorboard
als Protokollverzeichnis im Trainingscontainer und übergeben Sie es an das Argument „Model Training Callbacks“. Siehe den folgenden Code:
Erstellen Sie einen SageMaker-Trainings-Launcher mit einer TensorBoard-Datenkonfiguration
Verwenden Sie sagemaker.debugger.TensorBoardOutputConfig beim Konfigurieren eines SageMaker-Framework-Schätzers, der das abbildet Amazon Simple Storage-Service (Amazon S3)-Bucket, den Sie zum Speichern von TensorBoard-Daten mit dem lokalen Pfad im Trainingscontainer angeben (z. B. /opt/ml/output/tensorboard
). Sie können einen anderen lokalen Ausgabepfad für den Container verwenden. Es muss jedoch mit dem Wert des übereinstimmen LOG_DIR
Variable, wie im vorherigen Schritt angegeben, damit SageMaker den lokalen Pfad im Trainingscontainer erfolgreich durchsucht und die TensorBoard-Daten im S3-Ausgabe-Bucket speichert.
Übergeben Sie als Nächstes das Objekt des Moduls an tensorboard_output_config
Parameter der Schätzerklasse. Der folgende Codeausschnitt zeigt ein Beispiel für die Vorbereitung eines TensorFlow-Schätzers mit dem TensorBoard-Ausgabekonfigurationsparameter.
Das Folgende ist der Boilerplate-Code:
Der folgende Code gilt für den Trainingscontainer:
Der folgende Code ist die TensorBoard-Konfiguration:
Starten Sie den Trainingsjob mit dem folgenden Code:
Greifen Sie auf TensorBoard auf SageMaker zu
Sie können auf TensorBoard mit zwei Methoden zugreifen: programmgesteuert mit sagemaker.interactive_apps.tensorboard
Modul, das die URL generiert, oder mithilfe der TensorBoard-Landingpage auf der SageMaker-Konsole. Nachdem Sie TensorBoard geöffnet haben, führt SageMaker das TensorBoard-Plugin aus und findet und lädt automatisch alle Trainingsjob-Ausgabedaten in einem TensorBoard-kompatiblen Dateiformat aus S3-Buckets, die mit Trainingsjobs während oder nach dem Training gepaart sind.
Der folgende Code generiert automatisch die URL zur TensorBoard-Konsolen-Landingpage:
Dadurch wird die folgende Nachricht mit einer URL zurückgegeben, die die TensorBoard-Landingpage öffnet.
Informationen zum Öffnen von TensorBoard über die SageMaker-Konsole finden Sie unter So greifen Sie auf TensorBoard auf SageMaker zu.
Wenn Sie die TensorBoard-Anwendung öffnen, wird TensorBoard mit dem geöffnet SageMaker-Datenmanager Tab. Der folgende Screenshot zeigt die vollständige Ansicht des SageMaker-Datenmanager Registerkarte in der TensorBoard-Anwendung.
Auf dem SageMaker-Datenmanager Auf der Registerkarte können Sie einen beliebigen Trainingsjob auswählen und TensorBoard-kompatible Trainingsausgabedaten von Amazon S3 laden.
- Im Trainingsjob hinzufügen Verwenden Sie im Abschnitt „Training“ die Kontrollkästchen, um Trainingsjobs auszuwählen, aus denen Sie Daten abrufen und zum Debuggen visualisieren möchten.
- Auswählen Ausgewählte Jobs hinzufügen.
Die ausgewählten Jobs sollten im angezeigt werden Verfolgte Schulungsjobs .
Aktualisieren Sie den Viewer, indem Sie das Aktualisierungssymbol in der oberen rechten Ecke auswählen. Die Visualisierungsregisterkarten sollten angezeigt werden, nachdem die Auftragsdaten erfolgreich geladen wurden.
Entdecken Sie die in TensorBoard visualisierten Trainingsausgabedaten
Auf dem Zeitfolgen Registerkarte und andere grafikbasierte Registerkarten können Sie die Liste sehen Verfolgte Schulungsjobs im linken Bereich. Sie können auch die Kontrollkästchen der Trainingsjobs verwenden, um Visualisierungen ein- oder auszublenden. Die dynamischen TensorBoard-Plugins werden dynamisch aktiviert, je nachdem, wie Sie Ihr Trainingsskript so eingestellt haben, dass es Zusammenfassungsschreiber und Übergaberückrufe für die Tensor- und Skalarsammlung enthält, und die Grafikregisterkarten werden ebenfalls dynamisch angezeigt. Die folgenden Screenshots zeigen Beispielansichten jeder Registerkarte mit Visualisierungen der gesammelten Metriken von zwei Trainingsjobs. Zu den Metriken gehören Zeitreihen-, Skalar-, Diagramm-, Verteilungs- und Histogramm-Plugins.
Der folgende Screenshot ist der Zeitfolgen Tab-Ansicht.
Der folgende Screenshot ist der Skalare Tab-Ansicht.
Der folgende Screenshot ist der Graphs Tab-Ansicht.
Der folgende Screenshot ist der Distributionen Tab-Ansicht.
Der folgende Screenshot ist der Histogramme Tab-Ansicht.
Aufräumen
Nachdem Sie mit der Überwachung und dem Experimentieren mit Jobs in TensorBoard fertig sind, fahren Sie die TensorBoard-Anwendung herunter:
- Wählen Sie in der SageMaker-Konsole Domains im Navigationsbereich.
- Wählen Sie Ihre Domäne.
- Wählen Sie Ihr Benutzerprofil.
- Der Apps, wählen App löschen für die TensorBoard-Zeile.
- Auswählen Ja, App löschen.
- Geben Sie „Löschen“ in das Textfeld ein und wählen Sie dann aus Löschen.
Oben auf der Seite sollte eine Meldung erscheinen: „Standard wird gelöscht“.
Zusammenfassung
TensorBoard ist ein leistungsstarkes Tool zum Visualisieren, Analysieren und Debuggen von Deep-Learning-Modellen. In diesem Beitrag stellen wir eine Anleitung zur Verwendung von SageMaker mit TensorBoard zur Verfügung, einschließlich der Einrichtung von TensorBoard in einem SageMaker-Trainingsjob mit dem SageMaker Python SDK, des Zugriffs auf SageMaker TensorBoard, der Untersuchung der in TensorBoard visualisierten Trainingsausgabedaten und des Löschens nicht verwendeter TensorBoard-Anwendungen. Wenn Sie diese Schritte befolgen, können Sie TensorBoard in SageMaker für Ihre Arbeit verwenden.
Wir ermutigen Sie, mit verschiedenen Funktionen und Techniken zu experimentieren.
Über die Autoren
Dr. Baichuan Sonne ist Senior Data Scientist bei AWS AI/ML. Er ist leidenschaftlich daran interessiert, strategische Geschäftsprobleme mit Kunden mithilfe datengesteuerter Methoden in der Cloud zu lösen, und er hat Projekte in anspruchsvollen Bereichen geleitet, darunter Robotik, Computer Vision, Zeitreihenprognose, Preisoptimierung, vorausschauende Wartung, pharmazeutische Entwicklung, Produktempfehlungssystem, usw. In seiner Freizeit reist er gerne und trifft sich gerne mit seiner Familie.
Manoj Ravi ist Senior Product Manager für Amazon SageMaker. Er entwickelt leidenschaftlich KI-Produkte der nächsten Generation und arbeitet an Software und Tools, um das maschinelle Lernen in großem Umfang für Kunden zu vereinfachen. Er hat einen MBA der Haas School of Business und einen Master in Information Systems Management der Carnegie Mellon University. In seiner Freizeit spielt Manoj gerne Tennis und betreibt Landschaftsfotografie.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
- Die Zukunft prägen mit Adryenn Ashley. Hier zugreifen.
- Kaufen und verkaufen Sie Anteile an PRE-IPO-Unternehmen mit PREIPO®. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-with-tensorboard-overview-of-a-hosted-tensorboard-experience/
- :hast
- :Ist
- $UP
- 1
- 10
- 100
- 11
- 15%
- 26%
- 28
- 7
- 8
- 9
- a
- Über Uns
- Zugang
- Konto
- Genauigkeit
- Marcus
- Nach der
- AI
- AI / ML
- Alle
- erlaubt
- ebenfalls
- Amazon
- Amazon Sage Maker
- unter
- an
- analysieren
- Analyse
- und
- jedem
- Bienen
- App
- erscheinen
- Anwendung
- Anwendungen
- SIND
- Bereiche
- Argument
- AS
- Aspekte
- At
- Im Prinzip so, wie Sie es von Google Maps kennen.
- AWS
- BE
- war
- Sein
- beide
- Box
- Boxen
- Brings
- Building
- Geschäft
- by
- CAN
- Carnegie Mellon
- herausfordernd
- Änderungen
- aus der Ferne überprüfen
- Auswählen
- Auswahl
- Klasse
- Cloud
- Code
- sammeln
- Sammlung
- community
- Computer
- Computer Vision
- Konfiguration
- Sie
- konsistent
- Konsul (Console)
- Container
- Ecke
- erstellen
- Kunden
- technische Daten
- Datenwissenschaftler
- datengesteuerte
- Datensätze
- datetime
- tief
- tiefe Lernen
- zeigen
- Abhängig
- Einsatz
- Entwicklung
- Verteilung
- Dokumentation
- Domain
- Domains
- erledigt
- nach unten
- im
- dynamisch
- dynamisch
- jeder
- einfacher
- sonst
- ermutigen
- befürworten
- Epochen
- etc
- Bewerten
- Untersuchen
- Beispiel
- Beispiele
- Ausführung
- ERFAHRUNGEN
- Experiment
- ERKUNDEN
- Möglichkeiten sondieren
- Familie
- Eigenschaften
- passen
- Folgende
- folgt
- Aussichten für
- Format
- Unser Ansatz
- für
- voller
- voll
- Funktion
- erzeugt
- Graph
- Grafik
- Guide
- Haben
- he
- hilft
- Verbergen
- seine
- hält
- gehostet
- Ultraschall
- Hilfe
- aber
- HTML
- http
- HTTPS
- ICON
- identifizieren
- Identitätsschutz
- if
- importieren
- in
- das
- Einschließlich
- Krankengymnastik
- Information
- Information Systems
- integriert
- in
- Probleme
- IT
- Job
- Jobs
- jpg
- JSON
- keras
- Landung
- Landschaft
- großflächig
- startet
- Lagen
- führenden
- lernen
- links
- Liste
- Belastung
- Belastungen
- aus einer regionalen
- Log
- Verlust
- Maschine
- Maschinelles Lernen
- Main
- Wartung
- um
- Management
- Manager
- viele
- Landkarten
- Triff
- Mellon
- Nachricht
- Methodik
- Methoden
- Metrik
- Minimum
- ML
- Modell
- für
- Modul
- Überwachung
- mehr
- sollen
- Navigieren
- Menü
- Need
- Bedürfnisse
- Netzwerk
- neuronale Netzwerk
- Anzahl
- Objekt
- of
- on
- EINEM
- XNUMXh geöffnet
- Eröffnung
- öffnet
- Optimierung
- Optionen
- or
- Organisiert
- OS
- Andere
- Möglichkeiten für das Ausgangssignal:
- Überblick
- Seite
- gepaart
- Brot
- Parameter
- passieren
- leidenschaftlich
- Weg
- Ausführen
- Berechtigungen
- Biowissenschaften
- Fotografie
- Ort
- Plato
- Datenintelligenz von Plato
- PlatoData
- spielend
- Bitte
- Plugin
- Plugins
- Beliebt
- Post
- größte treibende
- Vorbereitung
- früher
- Preis
- Probleme
- anpassen
- Produkt
- Produkt-Manager
- Produktion
- Produkte
- Projekte
- die
- bietet
- Python
- Pytorch
- Direkt
- Software Empfehlungen
- Region
- entfernen
- erfordern
- falls angefordert
- Rückkehr
- Rückgabe
- Robotik
- Rollen
- REIHE
- sagemaker
- Speichern
- Einsparung
- Schule
- Wissenschaftler
- Wissenschaftler
- Screenshots
- Sdk
- Suche
- sehen
- ausgewählt
- Senior
- Modellreihe
- Sitzung
- kompensieren
- Setup
- sollte
- erklären
- Konzerte
- Einfacher
- Software
- Auflösung
- Standard
- Anfang
- Schritt
- Shritte
- Lagerung
- speichern
- Strategisch
- strategisches Geschäft
- Struktur
- Studio Adressen
- Erfolgreich
- Suite
- ZUSAMMENFASSUNG
- Unterstützte
- System
- Systeme und Techniken
- Ziele
- Aufgabe
- und Aufgaben
- Techniken
- Tensorfluss
- Testen
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- ihr
- dann
- Diese
- vom Nutzer definierten
- fehlen uns die Worte.
- Durch
- Zeit
- Zeitfolgen
- zu
- Werkzeug
- Toolkit
- Werkzeuge
- Top
- Training
- Ausbildung
- Reise
- XNUMX
- tippe
- typisch
- für
- Universität
- ungenutzt
- URL
- -
- Mitglied
- Nutzer
- Verwendung von
- Nutzen
- Wert
- verschiedene
- Anzeigen
- Ansichten
- Seh-
- Visualisierung
- wollen
- Weg..
- we
- wann
- welche
- während
- WHO
- mit
- .
- Arbeiten
- Werk
- Schriftsteller
- Du
- Ihr
- Zephyrnet