Amazon SageMaker Studio Lab ist eine kostenlose Entwicklungsumgebung für maschinelles Lernen (ML), die auf Open-Source-JupyterLab basiert und in der jeder mit AWS ML-Rechenressourcen lernen und damit experimentieren kann. Es basiert auf der gleichen Architektur und Benutzeroberfläche wie Amazon SageMaker-Studio, aber mit einer Teilmenge der Studio-Funktionen.
Wenn Sie mit der Arbeit an ML-Initiativen beginnen, müssen Sie eine explorative Datenanalyse (EDA) oder Datenvorbereitung durchführen, bevor Sie mit der Modellerstellung fortfahren. Amazon SageMaker Data Wrangler ist eine Fähigkeit von Amazon Sage Maker Dadurch können Data Scientists und Ingenieure Daten für ML-Anwendungen über eine visuelle Schnittstelle schneller aufbereiten. Data Wrangler reduziert die Zeit, die zum Sammeln und Vorbereiten von Daten für ML benötigt wird, von Wochen auf Minuten.
Ein wichtiger Beschleuniger der Feature-Vorbereitung in Data Wrangler ist die Datenqualitäts- und Insights-Bericht. Dieser Bericht überprüft die Datenqualität und hilft dabei, Anomalien in Ihren Daten zu erkennen, sodass Sie das erforderliche Data Engineering durchführen können, um Ihren Datensatz zu reparieren. Sie können den Datenqualitäts- und Einblicksbericht verwenden, um eine Analyse Ihrer Daten durchzuführen, um Einblicke in Ihren Datensatz zu erhalten, z. B. die Anzahl der fehlenden Werte und die Anzahl der Ausreißer. Wenn Sie Probleme mit Ihren Daten haben, wie z. B. Target Leakage oder Ungleichgewicht, kann der Insights-Bericht Sie auf diese Probleme aufmerksam machen und Ihnen dabei helfen, die Schritte zur Datenvorbereitung zu identifizieren, die Sie durchführen müssen.
Benutzer von Studio Lab können von Data Wrangler profitieren, da Datenqualität und Feature-Engineering entscheidend für die Vorhersageleistung Ihres Modells sind. Data Wrangler hilft bei der Datenqualität und dem Feature-Engineering, indem es Einblicke in Datenqualitätsprobleme gibt und mithilfe einer Low-Code-Benutzeroberfläche auf einfache Weise eine schnelle Feature-Iteration und -Engineering ermöglicht.
In diesem Beitrag zeigen wir Ihnen, wie Sie eine explorative Datenanalyse durchführen, Daten mit Data Wrangler vorbereiten und transformieren und die transformierten und vorbereiteten Daten nach Studio Lab exportieren, um die Modellerstellung durchzuführen.
Lösungsüberblick
Die Lösung umfasst die folgenden allgemeinen Schritte:
- Erstellen Sie ein AWS-Konto und einen Administratorbenutzer. Dies ist eine Voraussetzung
- Laden Sie den Datensatz herunter churn.csv.
- Laden Sie den Datensatz in Amazon Simple Storage-Service (Amazon S3).
- Erstellen Sie eine SageMaker Studio-Domäne und starten Sie Data Wrangler.
- Importieren Sie das Dataset aus Amazon S3 in den Data Wrangler-Flow.
- Erstellen Sie den Data Quality and Insights Report und ziehen Sie Schlussfolgerungen zum notwendigen Feature Engineering.
- Führen Sie die erforderlichen Datentransformationen in Data Wrangler durch.
- Laden Sie den Data Quality and Insights Report und das transformierte Dataset herunter.
- Laden Sie die Daten zum Modelltraining in ein Studio Lab-Projekt hoch.
Das folgende Diagramm veranschaulicht diesen Workflow.
Voraussetzungen:
Um Data Wrangler und Studio Lab zu verwenden, benötigen Sie die folgenden Voraussetzungen:
Erstellen Sie mit Data Wrangler einen Datenvorbereitungs-Workflow
Führen Sie zunächst die folgenden Schritte aus:
- Laden Sie Ihren Datensatz auf Amazon S3 hoch.
- Auf der SageMaker-Konsole unter Bedienfeld Wählen Sie im Navigationsbereich Studio.
- Auf dem App starten Menü neben Ihrem Benutzerprofil, wählen Sie Studio.
Nachdem Sie sich erfolgreich bei Studio angemeldet haben, sollten Sie eine Entwicklungsumgebung wie im folgenden Screenshot sehen. - Um einen neuen Data Wrangler-Workflow zu erstellen, auf der Reichen Sie das Menü, wählen Sie Neu, Dann wählen Daten-Wrangler-Flow.
Der erste Schritt in Data Wrangler ist importieren deine Daten. Sie können Daten aus mehreren Datenquellen importieren, z. B. Amazon S3, Amazonas Athena, Amazon RedShift, Schneeflocke und Databricks. In diesem Beispiel verwenden wir Amazon S3. Wenn Sie nur sehen möchten, wie Data Wrangler funktioniert, haben Sie immer die Wahl Beispieldatensatz verwenden. - Auswählen
Daten importieren.
- Auswählen
Amazon S3.
- Wählen Sie den hochgeladenen Datensatz und wählen Sie Import.
Mit Data Wrangler können Sie entweder den gesamten Datensatz importieren oder einen Teil davon abtasten. - Um schnell Einblicke in den Datensatz zu erhalten, wählen Sie aus Erst k für Probennahme und geben Sie 50000 für ein Stichprobenumfang.
Verstehen Sie die Datenqualität und erhalten Sie Einblicke
Lassen Sie uns den Data Quality and Insights Report verwenden, um eine Analyse der Daten durchzuführen, die wir in Data Wrangler importiert haben. Sie können den Bericht verwenden, um zu verstehen, welche Schritte Sie unternehmen müssen, um Ihre Daten zu bereinigen und zu verarbeiten. Dieser Bericht enthält Informationen wie die Anzahl der fehlenden Werte und die Anzahl der Ausreißer. Wenn Sie Probleme mit Ihren Daten haben, wie z. B. Target Leakage oder Ungleichgewicht, kann der Insights-Bericht Sie auf diese Probleme aufmerksam machen.
- Wählen Sie das Pluszeichen neben Datentypen und wählen Sie Erhalten Sie Dateneinblicke.
- Aussichten für Analysetyp, wählen Datenqualitäts- und Insights-Bericht.
- Aussichten für Zielspalte, wählen Abwanderung?.
- Aussichten für Problemtypwählen Klassifikation.
- Auswählen
Erstellen.
Ihnen wird ein detaillierter Bericht angezeigt, den Sie überprüfen und herunterladen können. Der Bericht enthält mehrere Abschnitte, z. B. Schnellmodell, Feature-Zusammenfassung, Feature-Korrelation und Dateneinblicke. Die folgenden Screenshots zeigen Beispiele für diese Abschnitte.
Beobachtungen aus dem Bericht
Aus dem Bericht können wir folgende Beobachtungen machen:
- Es wurden keine doppelten Zeilen gefunden.
- Das
State
Spalte scheint ziemlich gleichmäßig verteilt zu sein, so dass die Daten in Bezug auf die Bevölkerung des Bundesstaates ausgeglichen sind. - Das
Phone
-Spalte enthält zu viele eindeutige Werte, um von praktischem Nutzen zu sein. Zu viele eindeutige Werte machen diese Spalte unbrauchbar. Wir können die fallen lassenPhone
Spalte in unserer Transformation. - Basierend auf dem Abschnitt „Funktionskorrelation“ des Berichts,
Mins
undCharge
sind stark korreliert. Wir können einen von ihnen entfernen.
Transformation
Basierend auf unseren Beobachtungen wollen wir die folgenden Transformationen vornehmen:
- Entferne das
Phone
-Spalte, weil sie viele eindeutige Werte hat. - Wir sehen auch mehrere Merkmale, die im Wesentlichen zu 100 % miteinander korrelieren. Das Einbeziehen dieser Merkmalspaare in einige ML-Algorithmen kann zu unerwünschten Problemen führen, während es in anderen nur zu geringfügiger Redundanz und Verzerrung führt. Lassen Sie uns ein Merkmal aus jedem der stark korrelierten Paare entfernen:
Day Charge
aus dem Paar mitDay Mins
,Night Charge
aus dem Paar mitNight Mins
undIntl Charge
aus dem Paar mitIntl Mins
. - Konvertieren
True
orFalse
derChurn
Spalte muss ein numerischer Wert von 1 oder 0 sein.
- Kehren Sie zum Datenfluss zurück und wählen Sie das Pluszeichen neben aus Datentypen.
- Auswählen
Transformation hinzufügen.
- Auswählen
Schritt hinzufügen.
- Sie können nach der gesuchten Transformation suchen (in unserem Fall Spalten verwalten).
- Auswählen
Spalten verwalten.
- Aussichten für Transformierenwählen Spalte löschen.
- Aussichten für Spalten zum Ablegenwählen
Phone
,Day Charge
,Eve Charge
,Night Charge
undIntl Charge
. - Auswählen
Vorspann, Dann wählen Aktualisierung.
Lassen Sie uns eine weitere Transformation hinzufügen, um eine kategoriale Codierung für die durchzuführenChurn?
Spalte. - Wählen Sie die Transformation Kategorial kodieren.
- Aussichten für Transformieren, wählen Ordnungscodierung.
- Aussichten für Eingabespalten, wählen Sie das
Churn?
Spalte. - Aussichten für Ungültige Behandlungsstrategie, wählen Durch NaN ersetzen.
- Auswählen
Vorspann, Dann wählen Aktualisierung.
True
und False
werden in 1 bzw. 0 umgewandelt.
Nachdem wir die Daten gut verstanden und für die Modellerstellung vorbereitet und transformiert haben, können wir die Daten für die Modellerstellung in Studio Lab verschieben.
Laden Sie die Daten in Studio Lab hoch
Führen Sie die folgenden Schritte aus, um die Daten in Studio Lab zu verwenden:
- Auswählen
Datenexport zu exportieren zu einem S3-Bucket.
- Aussichten für Amazon S3-Standort, geben Sie Ihren S3-Pfad ein.
- Geben Sie den Dateityp an.
- Auswählen
Datenexport.
- Nachdem Sie die Daten exportiert haben, können Sie die Daten aus dem S3-Bucket auf Ihren lokalen Computer herunterladen.
- Jetzt können Sie zu Studio Lab gehen und die Datei in Studio Lab hochladen.
Alternativ können Sie von Studio Lab aus eine Verbindung zu Amazon S3 herstellen. Weitere Informationen finden Sie unter Verwenden Sie externe Ressourcen in Amazon SageMaker Studio Lab. - Lassen Sie uns SageMaker installieren und Pandas importieren.
- Importieren Sie alle Bibliotheken nach Bedarf.
- Jetzt können wir die CSV-Datei lesen.
- Lassen Sie uns drucken
churn
um zu bestätigen, dass der Datensatz korrekt ist.
Nachdem Sie nun den verarbeiteten Datensatz in Studio Lab haben, können Sie weitere Schritte ausführen, die für die Modellerstellung erforderlich sind.
Data Wrangler-Preise
Sie können alle Schritte in diesem Beitrag für EDA oder Datenvorbereitung in Data Wrangler und ausführen zahlen für die einfache Instanz, Jobs und Speicherpreise basierend auf Nutzung oder Verbrauch. Es sind keine Vorauszahlungen oder Lizenzgebühren erforderlich.
Aufräumen
Wenn Sie Data Wrangler nicht verwenden, ist es wichtig, die Instanz, auf der es ausgeführt wird, herunterzufahren, um zusätzliche Gebühren zu vermeiden. Um zu vermeiden, dass Arbeit verloren geht, speichern Sie Ihren Datenfluss, bevor Sie Data Wrangler herunterfahren.
- Um Ihren Datenfluss in Studio zu speichern, wählen Sie Reichen Sie das, Dann wählen Data Wrangler-Flow speichern Save.
Data Wrangler speichert Ihren Datenfluss automatisch alle 60 Sekunden. - Um die Data Wrangler-Instanz herunterzufahren, wählen Sie in Studio Ausführen von Instanzen und Kernels.
- Der LAUFENDE APPS, wählen Sie das Symbol zum Herunterfahren neben dem
sagemaker-data-wrangler-1.0 app
. - Auswählen
Alles schließen zu bestätigen.
Data Wrangler wird auf einer ml.m5.4xlarge-Instanz ausgeführt. Diese Instanz verschwindet aus LAUFENDE INSTANZEN wenn Sie die Data Wrangler-App schließen.
Nachdem Sie die Data Wrangler-App heruntergefahren haben, muss sie beim nächsten Öffnen einer Data Wrangler-Flussdatei neu gestartet werden. Das kann ein Paar Minuten dauern.
Zusammenfassung
In diesem Beitrag haben wir gesehen, wie Sie Einblicke in Ihr Dataset gewinnen, explorative Datenanalysen durchführen, Daten mit Data Wrangler in Studio vorbereiten und transformieren und die transformierten und vorbereiteten Daten nach Studio Lab exportieren und die Modellerstellung und andere Schritte durchführen können.
Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und Feature-Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich Datenauswahl, -bereinigung, -exploration und -visualisierung, über eine einzige visuelle Oberfläche abschließen.
Über die Autoren
Rajakumar Sampathkumar ist Principal Technical Account Manager bei AWS, berät Kunden bei der Ausrichtung von Unternehmen und Technologien und unterstützt die Neuerfindung ihrer Cloud-Betriebsmodelle und -prozesse. Seine Leidenschaft gilt der Cloud und dem maschinellen Lernen. Raj ist auch ein Spezialist für maschinelles Lernen und arbeitet mit AWS-Kunden zusammen, um ihre AWS-Workloads und -Architekturen zu entwerfen, bereitzustellen und zu verwalten.
Meenakshisundaram Thandavarayan ist ein Senior AI/ML-Spezialist mit einer Leidenschaft für die Gestaltung, Erstellung und Förderung menschenzentrierter Daten- und Analyseerfahrungen. Er unterstützt AWS Strategic-Kunden bei ihrer Transformation hin zu einer datengesteuerten Organisation.
James Wu ist Senior AI/ML Specialist Solution Architect bei AWS. Unterstützung von Kunden bei der Entwicklung und Erstellung von KI/ML-Lösungen. Die Arbeit von James deckt ein breites Spektrum von ML-Anwendungsfällen ab, wobei sein Hauptinteresse auf Computer Vision, Deep Learning und der Skalierung von ML im gesamten Unternehmen liegt. Bevor er zu AWS kam, war James über 10 Jahre lang Architekt, Entwickler und Technologieführer, davon 6 Jahre im Ingenieurwesen und 4 Jahre in der Marketing- und Werbebranche.
- AI
- Kunst
- KI-Kunstgenerator
- KI-Roboter
- Amazon Sage Maker
- Amazon SageMaker Data Wrangler
- künstliche Intelligenz
- Zertifizierung für künstliche Intelligenz
- Künstliche Intelligenz im Bankwesen
- Roboter mit künstlicher Intelligenz
- Roboter mit künstlicher Intelligenz
- Software für künstliche Intelligenz
- AWS Maschinelles Lernen
- Blockchain
- Blockchain-Konferenz ai
- Einfallsreichtum
- dialogorientierte künstliche Intelligenz
- Krypto-Konferenz ai
- Dalls
- tiefe Lernen
- Google Ai
- Maschinelles Lernen
- Plato
- platon ai
- Datenintelligenz von Plato
- Plato-Spiel
- PlatoData
- Platogaming
- Skala ai
- Syntax
- Zephyrnet