Verwenden Sie Amazon SageMaker Data Wrangler für die Datenvorbereitung und Studio-Labs, um ML zu lernen und damit zu experimentieren

Neuauflage von Plato

Verfolger: 0

Amazon SageMaker Studio Lab ist eine kostenlose Entwicklungsumgebung für maschinelles Lernen (ML), die auf Open-Source-JupyterLab basiert und in der jeder mit AWS ML-Rechenressourcen lernen und damit experimentieren kann. Es basiert auf der gleichen Architektur und Benutzeroberfläche wie Amazon SageMaker-Studio, aber mit einer Teilmenge der Studio-Funktionen.

Wenn Sie mit der Arbeit an ML-Initiativen beginnen, müssen Sie eine explorative Datenanalyse (EDA) oder Datenvorbereitung durchführen, bevor Sie mit der Modellerstellung fortfahren. Amazon SageMaker Data Wrangler ist eine Fähigkeit von Amazon Sage Maker Dadurch können Data Scientists und Ingenieure Daten für ML-Anwendungen über eine visuelle Schnittstelle schneller aufbereiten. Data Wrangler reduziert die Zeit, die zum Sammeln und Vorbereiten von Daten für ML benötigt wird, von Wochen auf Minuten.

Ein wichtiger Beschleuniger der Feature-Vorbereitung in Data Wrangler ist die Datenqualitäts- und Insights-Bericht. Dieser Bericht überprüft die Datenqualität und hilft dabei, Anomalien in Ihren Daten zu erkennen, sodass Sie das erforderliche Data Engineering durchführen können, um Ihren Datensatz zu reparieren. Sie können den Datenqualitäts- und Einblicksbericht verwenden, um eine Analyse Ihrer Daten durchzuführen, um Einblicke in Ihren Datensatz zu erhalten, z. B. die Anzahl der fehlenden Werte und die Anzahl der Ausreißer. Wenn Sie Probleme mit Ihren Daten haben, wie z. B. Target Leakage oder Ungleichgewicht, kann der Insights-Bericht Sie auf diese Probleme aufmerksam machen und Ihnen dabei helfen, die Schritte zur Datenvorbereitung zu identifizieren, die Sie durchführen müssen.

Benutzer von Studio Lab können von Data Wrangler profitieren, da Datenqualität und Feature-Engineering entscheidend für die Vorhersageleistung Ihres Modells sind. Data Wrangler hilft bei der Datenqualität und dem Feature-Engineering, indem es Einblicke in Datenqualitätsprobleme gibt und mithilfe einer Low-Code-Benutzeroberfläche auf einfache Weise eine schnelle Feature-Iteration und -Engineering ermöglicht.

In diesem Beitrag zeigen wir Ihnen, wie Sie eine explorative Datenanalyse durchführen, Daten mit Data Wrangler vorbereiten und transformieren und die transformierten und vorbereiteten Daten nach Studio Lab exportieren, um die Modellerstellung durchzuführen.

Lösungsüberblick

Die Lösung umfasst die folgenden allgemeinen Schritte:

Erstellen Sie ein AWS-Konto und einen Administratorbenutzer. Dies ist eine Voraussetzung
Laden Sie den Datensatz herunter churn.csv.
Laden Sie den Datensatz in Amazon Simple Storage-Service (Amazon S3).
Erstellen Sie eine SageMaker Studio-Domäne und starten Sie Data Wrangler.
Importieren Sie das Dataset aus Amazon S3 in den Data Wrangler-Flow.
Erstellen Sie den Data Quality and Insights Report und ziehen Sie Schlussfolgerungen zum notwendigen Feature Engineering.
Führen Sie die erforderlichen Datentransformationen in Data Wrangler durch.
Laden Sie den Data Quality and Insights Report und das transformierte Dataset herunter.
Laden Sie die Daten zum Modelltraining in ein Studio Lab-Projekt hoch.

Das folgende Diagramm veranschaulicht diesen Workflow.

Voraussetzungen:

Um Data Wrangler und Studio Lab zu verwenden, benötigen Sie die folgenden Voraussetzungen:

Erstellen Sie mit Data Wrangler einen Datenvorbereitungs-Workflow

Führen Sie zunächst die folgenden Schritte aus:

Laden Sie Ihren Datensatz auf Amazon S3 hoch.
Auf der SageMaker-Konsole unter Bedienfeld Wählen Sie im Navigationsbereich Studio.
Auf dem App starten Menü neben Ihrem Benutzerprofil, wählen Sie Studio.

Nachdem Sie sich erfolgreich bei Studio angemeldet haben, sollten Sie eine Entwicklungsumgebung wie im folgenden Screenshot sehen.
Um einen neuen Data Wrangler-Workflow zu erstellen, auf der Reichen Sie das Menü, wählen Sie Neu, Dann wählen Daten-Wrangler-Flow.

Der erste Schritt in Data Wrangler ist importieren deine Daten. Sie können Daten aus mehreren Datenquellen importieren, z. B. Amazon S3, Amazonas Athena, Amazon RedShift, Schneeflocke und Databricks. In diesem Beispiel verwenden wir Amazon S3. Wenn Sie nur sehen möchten, wie Data Wrangler funktioniert, haben Sie immer die Wahl Beispieldatensatz verwenden.
Auswählen Daten importieren.
Auswählen Amazon S3.
Wählen Sie den hochgeladenen Datensatz und wählen Sie Import.

Mit Data Wrangler können Sie entweder den gesamten Datensatz importieren oder einen Teil davon abtasten.
Um schnell Einblicke in den Datensatz zu erhalten, wählen Sie aus Erst k für Probennahme und geben Sie 50000 für ein Stichprobenumfang.

Verstehen Sie die Datenqualität und erhalten Sie Einblicke

Lassen Sie uns den Data Quality and Insights Report verwenden, um eine Analyse der Daten durchzuführen, die wir in Data Wrangler importiert haben. Sie können den Bericht verwenden, um zu verstehen, welche Schritte Sie unternehmen müssen, um Ihre Daten zu bereinigen und zu verarbeiten. Dieser Bericht enthält Informationen wie die Anzahl der fehlenden Werte und die Anzahl der Ausreißer. Wenn Sie Probleme mit Ihren Daten haben, wie z. B. Target Leakage oder Ungleichgewicht, kann der Insights-Bericht Sie auf diese Probleme aufmerksam machen.

Wählen Sie das Pluszeichen neben Datentypen und wählen Sie Erhalten Sie Dateneinblicke.
Aussichten für Analysetyp, wählen Datenqualitäts- und Insights-Bericht.
Aussichten für Zielspalte, wählen Abwanderung?.
Aussichten für Problemtypwählen Klassifikation.
Auswählen Erstellen.

Ihnen wird ein detaillierter Bericht angezeigt, den Sie überprüfen und herunterladen können. Der Bericht enthält mehrere Abschnitte, z. B. Schnellmodell, Feature-Zusammenfassung, Feature-Korrelation und Dateneinblicke. Die folgenden Screenshots zeigen Beispiele für diese Abschnitte.

Beobachtungen aus dem Bericht

Aus dem Bericht können wir folgende Beobachtungen machen:

Es wurden keine doppelten Zeilen gefunden.
Das State Spalte scheint ziemlich gleichmäßig verteilt zu sein, so dass die Daten in Bezug auf die Bevölkerung des Bundesstaates ausgeglichen sind.
Das Phone -Spalte enthält zu viele eindeutige Werte, um von praktischem Nutzen zu sein. Zu viele eindeutige Werte machen diese Spalte unbrauchbar. Wir können die fallen lassen Phone Spalte in unserer Transformation.
Basierend auf dem Abschnitt „Funktionskorrelation“ des Berichts, Mins und Charge sind stark korreliert. Wir können einen von ihnen entfernen.

Transformation

Basierend auf unseren Beobachtungen wollen wir die folgenden Transformationen vornehmen:

Entferne das Phone -Spalte, weil sie viele eindeutige Werte hat.
Wir sehen auch mehrere Merkmale, die im Wesentlichen zu 100 % miteinander korrelieren. Das Einbeziehen dieser Merkmalspaare in einige ML-Algorithmen kann zu unerwünschten Problemen führen, während es in anderen nur zu geringfügiger Redundanz und Verzerrung führt. Lassen Sie uns ein Merkmal aus jedem der stark korrelierten Paare entfernen: Day Charge aus dem Paar mit Day Mins, Night Charge aus dem Paar mit Night Mins und Intl Charge aus dem Paar mit Intl Mins.
Konvertieren True or False der Churn Spalte muss ein numerischer Wert von 1 oder 0 sein.

Kehren Sie zum Datenfluss zurück und wählen Sie das Pluszeichen neben aus Datentypen.
Auswählen Transformation hinzufügen.
Auswählen Schritt hinzufügen.
Sie können nach der gesuchten Transformation suchen (in unserem Fall Spalten verwalten).
Auswählen Spalten verwalten.
Aussichten für Transformierenwählen Spalte löschen.
Aussichten für Spalten zum Ablegenwählen Phone, Day Charge, Eve Charge, Night Charge und Intl Charge.
Auswählen Vorspann, Dann wählen Aktualisierung.

Lassen Sie uns eine weitere Transformation hinzufügen, um eine kategoriale Codierung für die durchzuführen Churn? Spalte.
Wählen Sie die Transformation Kategorial kodieren.
Aussichten für Transformieren, wählen Ordnungscodierung.
Aussichten für Eingabespalten, wählen Sie das Churn? Spalte.
Aussichten für Ungültige Behandlungsstrategie, wählen Durch NaN ersetzen.
Auswählen Vorspann, Dann wählen Aktualisierung.

True und False werden in 1 bzw. 0 umgewandelt.

Nachdem wir die Daten gut verstanden und für die Modellerstellung vorbereitet und transformiert haben, können wir die Daten für die Modellerstellung in Studio Lab verschieben.

Laden Sie die Daten in Studio Lab hoch

Führen Sie die folgenden Schritte aus, um die Daten in Studio Lab zu verwenden:

Auswählen Datenexport zu exportieren zu einem S3-Bucket.
Aussichten für Amazon S3-Standort, geben Sie Ihren S3-Pfad ein.
Geben Sie den Dateityp an.
Auswählen Datenexport.
Nachdem Sie die Daten exportiert haben, können Sie die Daten aus dem S3-Bucket auf Ihren lokalen Computer herunterladen.
Jetzt können Sie zu Studio Lab gehen und die Datei in Studio Lab hochladen.

Alternativ können Sie von Studio Lab aus eine Verbindung zu Amazon S3 herstellen. Weitere Informationen finden Sie unter Verwenden Sie externe Ressourcen in Amazon SageMaker Studio Lab.
Lassen Sie uns SageMaker installieren und Pandas importieren.
Importieren Sie alle Bibliotheken nach Bedarf.
Jetzt können wir die CSV-Datei lesen.
Lassen Sie uns drucken churn um zu bestätigen, dass der Datensatz korrekt ist.

Nachdem Sie nun den verarbeiteten Datensatz in Studio Lab haben, können Sie weitere Schritte ausführen, die für die Modellerstellung erforderlich sind.

Data Wrangler-Preise

Sie können alle Schritte in diesem Beitrag für EDA oder Datenvorbereitung in Data Wrangler und ausführen zahlen für die einfache Instanz, Jobs und Speicherpreise basierend auf Nutzung oder Verbrauch. Es sind keine Vorauszahlungen oder Lizenzgebühren erforderlich.

Aufräumen

Wenn Sie Data Wrangler nicht verwenden, ist es wichtig, die Instanz, auf der es ausgeführt wird, herunterzufahren, um zusätzliche Gebühren zu vermeiden. Um zu vermeiden, dass Arbeit verloren geht, speichern Sie Ihren Datenfluss, bevor Sie Data Wrangler herunterfahren.

Um Ihren Datenfluss in Studio zu speichern, wählen Sie Reichen Sie das, Dann wählen Data Wrangler-Flow speichern Save.
Data Wrangler speichert Ihren Datenfluss automatisch alle 60 Sekunden.
Um die Data Wrangler-Instanz herunterzufahren, wählen Sie in Studio Ausführen von Instanzen und Kernels.
Der LAUFENDE APPS, wählen Sie das Symbol zum Herunterfahren neben dem sagemaker-data-wrangler-1.0 app.
Auswählen Alles schließen zu bestätigen.

Data Wrangler wird auf einer ml.m5.4xlarge-Instanz ausgeführt. Diese Instanz verschwindet aus LAUFENDE INSTANZEN wenn Sie die Data Wrangler-App schließen.

Nachdem Sie die Data Wrangler-App heruntergefahren haben, muss sie beim nächsten Öffnen einer Data Wrangler-Flussdatei neu gestartet werden. Das kann ein Paar Minuten dauern.

Zusammenfassung

In diesem Beitrag haben wir gesehen, wie Sie Einblicke in Ihr Dataset gewinnen, explorative Datenanalysen durchführen, Daten mit Data Wrangler in Studio vorbereiten und transformieren und die transformierten und vorbereiteten Daten nach Studio Lab exportieren und die Modellerstellung und andere Schritte durchführen können.

Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und Feature-Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich Datenauswahl, -bereinigung, -exploration und -visualisierung, über eine einzige visuelle Oberfläche abschließen.

Über die Autoren

Rajakumar Sampathkumar ist Principal Technical Account Manager bei AWS, berät Kunden bei der Ausrichtung von Unternehmen und Technologien und unterstützt die Neuerfindung ihrer Cloud-Betriebsmodelle und -prozesse. Seine Leidenschaft gilt der Cloud und dem maschinellen Lernen. Raj ist auch ein Spezialist für maschinelles Lernen und arbeitet mit AWS-Kunden zusammen, um ihre AWS-Workloads und -Architekturen zu entwerfen, bereitzustellen und zu verwalten.

Meenakshisundaram Thandavarayan ist ein Senior AI/ML-Spezialist mit einer Leidenschaft für die Gestaltung, Erstellung und Förderung menschenzentrierter Daten- und Analyseerfahrungen. Er unterstützt AWS Strategic-Kunden bei ihrer Transformation hin zu einer datengesteuerten Organisation.

James Wu ist Senior AI/ML Specialist Solution Architect bei AWS. Unterstützung von Kunden bei der Entwicklung und Erstellung von KI/ML-Lösungen. Die Arbeit von James deckt ein breites Spektrum von ML-Anwendungsfällen ab, wobei sein Hauptinteresse auf Computer Vision, Deep Learning und der Skalierung von ML im gesamten Unternehmen liegt. Bevor er zu AWS kam, war James über 10 Jahre lang Architekt, Entwickler und Technologieführer, davon 6 Jahre im Ingenieurwesen und 4 Jahre in der Marketing- und Werbebranche.

Zeitstempel: 15. September 202215. September 2022

Zeitstempel: 8. Juli 2022

Verwenden Sie Amazon SageMaker Data Wrangler für die Datenvorbereitung und Studio Labs, um ML zu lernen und damit zu experimentieren

Neuauflage von Plato

Lösungsüberblick

Voraussetzungen:

Erstellen Sie mit Data Wrangler einen Datenvorbereitungs-Workflow

Verstehen Sie die Datenqualität und erhalten Sie Einblicke

Beobachtungen aus dem Bericht

Transformation

Laden Sie die Daten in Studio Lab hoch

Data Wrangler-Preise

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

AWS DeepRacer ermöglicht Entwicklern aller Erfahrungsstufen, sich weiterzubilden und mit maschinellem Lernen zu beginnen | Amazon Web Services

Erkennen Sie Betrug in mobilorientierten Unternehmen mit GrabDefence Device Intelligence und Amazon Fraud Detector

Bieten Sie Ihren Chatbot-Benutzern Live-Agentenunterstützung mit Amazon Lex und Talkdesk Cloud Contact Center | Amazon Web Services

Führen Sie mehrere Deep-Learning-Modelle auf der GPU mit Amazon SageMaker-Multimodell-Endpunkten aus

Wie Amp auf Amazon Daten nutzte, um die Kundenbindung zu steigern, Teil 1: Aufbau einer Datenanalyseplattform

Verhindern Sie die Kontoübernahme bei der Anmeldung mit dem neuen Account Takeover Insights-Modell in Amazon Fraud Detector

Integrieren Sie PaddleOCR in Amazon SageMaker Projects für MLOps, um eine optische Zeichenerkennung auf Ausweisdokumenten durchzuführen

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto