Bereiten Sie Daten aus Amazon EMR für maschinelles Lernen mit Amazon SageMaker Data Wrangler vor

Neuauflage von Plato

Verfolger: 0

Die Datenvorbereitung ist eine Hauptkomponente von Pipelines für maschinelles Lernen (ML). Tatsächlich verbringen Datenexperten schätzungsweise etwa 80 Prozent ihrer Zeit mit der Datenaufbereitung. In diesem wettbewerbsintensiven Markt wollen Teams Daten analysieren und schnell aussagekräftigere Erkenntnisse gewinnen. Kunden wenden effizientere und visuellere Methoden zum Aufbau von Datenverarbeitungssystemen an.

Amazon SageMaker Data Wrangler vereinfacht die Datenvorbereitung und den Feature-Engineering-Prozess und verkürzt den Zeitaufwand von Wochen auf Minuten, indem Data Scientists eine einzige visuelle Schnittstelle zur Auswahl, Bereinigung von Daten, Erstellung von Features und zur Automatisierung der Datenvorbereitung in ML-Workflows bereitstellen, ohne Code schreiben zu müssen. Sie können Daten aus mehreren Datenquellen importieren, z Einfacher Amazon-Speicherdienst (Amazon S3), Amazonas Athena, Amazon RedShift, und Schneeflocke. Sie können jetzt auch verwenden Amazon EMR als Datenquelle in Data Wrangler, um Daten einfach für ML vorzubereiten.

Das Analysieren, Transformieren und Vorbereiten großer Datenmengen ist ein grundlegender Schritt jedes Data Science- und ML-Workflows. Datenexperten wie Data Scientists möchten die Leistungsfähigkeit von nutzen Apache Funken, Bienenstock und Presto Läuft auf Amazon EMR für eine schnelle Datenvorbereitung, aber die Lernkurve ist steil. Unsere Kunden wollten die Möglichkeit, sich mit Amazon EMR zu verbinden, um Ad-hoc-SQL-Abfragen auf Hive oder Presto auszuführen, um Daten im internen oder externen Metastore (z. B. AWS Glue Data Catalog) abzufragen und Daten mit wenigen Klicks vorzubereiten.

In diesem Blogartikel wird erläutert, wie Kunden mithilfe einer visuellen Erfahrung in SageMaker Data Wrangler jetzt vorhandene Amazon EMR-Cluster finden und sich mit ihnen verbinden können. Sie können die Datenbank, Tabellen, Schemas und Presto-Abfragen visuell überprüfen, um sich auf die Modellierung oder Berichterstellung vorzubereiten. Sie können dann mithilfe einer visuellen Schnittstelle schnell ein Profil der Daten erstellen, um die Datenqualität zu bewerten, Anomalien oder fehlende oder fehlerhafte Daten zu identifizieren und Informationen und Empfehlungen zur Behebung dieser Probleme zu erhalten. Darüber hinaus können sie Funktionen mit Hilfe von mehr als einem Dutzend zusätzlicher integrierter Analysen und über 300 zusätzlicher integrierter Transformationen, die von Spark unterstützt werden, analysieren, bereinigen und entwickeln, ohne eine einzige Codezeile schreiben zu müssen.

Lösungsüberblick

Datenexperten können mithilfe von SageMaker Studio-Konfigurationen schnell vorhandene EMR-Cluster finden und sich mit ihnen verbinden. Darüber hinaus können Datenprofis EMR-Cluster mit nur wenigen Klicks beenden SageMaker Studio mit vordefinierten Vorlagen und On-Demand-Erstellung von EMR-Clustern. Mithilfe dieser Tools können Kunden direkt in das universelle SageMaker Studio-Notebook einsteigen und Code in Apache Spark, Hive, Presto oder PySpark schreiben, um die Datenvorbereitung in großem Maßstab durchzuführen. Aufgrund einer steilen Lernkurve zum Erstellen von Spark-Code zum Vorbereiten von Daten sind nicht alle Datenexperten mit diesem Verfahren vertraut. Mit Amazon EMR als Datenquelle für Amazon SageMaker Data Wrangler können Sie jetzt schnell und einfach eine Verbindung zu Amazon EMR herstellen, ohne eine einzige Codezeile schreiben zu müssen.

Das folgende Diagramm zeigt die verschiedenen in dieser Lösung verwendeten Komponenten.

Wir demonstrieren zwei Authentifizierungsoptionen, die verwendet werden können, um eine Verbindung zum EMR-Cluster herzustellen. Für jede Option stellen wir einen einzigartigen Stack von bereit AWS CloudFormation Templates.

Die CloudFormation-Vorlage führt die folgenden Aktionen aus, wenn jede Option ausgewählt wird:

Erstellt eine Studio-Domäne im Nur-VPC-Modus zusammen mit einem Benutzerprofil mit dem Namen studio-user.
Erstellt Bausteine, einschließlich VPC, Endpunkte, Subnetze, Sicherheitsgruppen, EMR-Cluster und andere erforderliche Ressourcen, um die Beispiele erfolgreich auszuführen.
Verbindet für den EMR-Cluster den AWS Glue-Datenkatalog als Metastore für EMR Hive und Presto, erstellt eine Hive-Tabelle in EMR und füllt sie mit Daten aus einem US-Flughafendatensatz.
Erstellt für die LDAP-CloudFormation-Vorlage eine Amazon Elastic Compute Cloud (Amazon EC2) Instanz zum Hosten des LDAP-Servers zum Authentifizieren des Hive- und Presto-LDAP-Benutzers.

Option 1: Lightweight Access Directory Protocol

Für die CloudFormation-Vorlage für die LDAP-Authentifizierung stellen wir eine Amazon EC2-Instance mit einem LDAP-Server bereit und konfigurieren den EMR-Cluster so, dass dieser Server für die Authentifizierung verwendet wird. Dies ist TLS-fähig.

Option 2: Keine Authentifizierung

In der No-Auth-Authentifizierungs-CloudFormation-Vorlage verwenden wir einen standardmäßigen EMR-Cluster ohne aktivierte Authentifizierung.

Stellen Sie die Ressourcen mit AWS CloudFormation bereit

Führen Sie die folgenden Schritte aus, um die Umgebung bereitzustellen:

Melden Sie sich bei der an AWS-Managementkonsole als AWS Identitäts- und Zugriffsverwaltung (IAM) Benutzer, vorzugsweise ein Admin-Benutzer.
Auswählen Stack starten um die CloudFormation-Vorlage für das entsprechende Authentifizierungsszenario zu starten. Stellen Sie sicher, dass die Region, die zum Bereitstellen des CloudFormation-Stacks verwendet wird, keine vorhandene Studio-Domäne hat. Wenn Sie bereits eine Studio-Domain in einer Region haben, können Sie eine andere Region auswählen.
- LDAP-Launch-Stack
- Kein Auth-Launch-Stack
Auswählen Weiter.
Aussichten für StapelnameGeben Sie einen Namen für den Stapel ein (z. B. dw-emr-blog).
Belassen Sie die anderen Werte als Standard.
Um fortzufahren, wählen Sie Weiter von der Stack-Detailseite und den Stack-Optionen. Der LDAP-Stack verwendet die folgenden Anmeldeinformationen:
- Benutzername: david
- Passwort: welcome123
Aktivieren Sie auf der Überprüfungsseite das Kontrollkästchen, um zu bestätigen, dass AWS CloudFormation möglicherweise Ressourcen erstellt.
Auswählen Stapel erstellen. Warten Sie, bis sich der Status des Stacks ändert CREATE_IN_PROGRESS zu CREATE_COMPLETE. Der Vorgang dauert normalerweise 10 bis 15 Minuten.

Hinweis: Wenn Sie mehrere Stacks ausprobieren möchten, befolgen Sie bitte die Schritte im Abschnitt Bereinigen. Denken Sie daran, dass Sie müssen Löschen Sie die SageMaker Studio-Domäne bevor der nächste Stack erfolgreich gestartet werden kann.

Richten Sie Amazon EMR als Datenquelle in Data Wrangler ein

In diesem Abschnitt behandeln wir die Verbindung mit dem vorhandenen Amazon EMR-Cluster, der über die CloudFormation-Vorlage als Datenquelle in Data Wrangler erstellt wurde.

Erstellen Sie einen neuen Datenfluss

Führen Sie die folgenden Schritte aus, um Ihren Datenfluss zu erstellen:

Wählen Sie in der SageMaker-Konsole Amazon SageMaker-Studio im Navigationsbereich.
Auswählen Offenes Atelier.
Wählen Sie im Launcher Neuer Datenfluss. Alternativ auf der Reichen Sie das Wählen Sie im Drop-down-Menü Neu und dann Data Wrangler-Fluss aus.
Das Erstellen eines neuen Flows kann einige Minuten dauern. Nachdem der Flow erstellt wurde, sehen Sie die Daten importieren

Fügen Sie Amazon EMR als Datenquelle in Data Wrangler hinzu

Wählen Sie im Menü Datenquelle hinzufügen aus Amazon EMR.

Sie können alle EMR-Cluster durchsuchen, zu deren Anzeige Ihre Studio-Ausführungsrolle berechtigt ist. Sie haben zwei Möglichkeiten, sich mit einem Cluster zu verbinden; eine erfolgt über die interaktive Benutzeroberfläche und die andere über die erste Erstellen Sie ein Geheimnis mit AWS Secrets Manager mit JDBC-URL, einschließlich EMR-Clusterinformationen, und geben Sie dann den gespeicherten geheimen AWS-ARN in der Benutzeroberfläche an, um eine Verbindung zu Presto herzustellen. In diesem Blog folgen wir der ersten Option. Wählen Sie einen der folgenden Cluster aus, den Sie verwenden möchten. Klicke auf Weiter, und wählen Sie Endpunkte.

Auswählen Presto, verbunden mit Amazon EMR, Erstellen Sie einen Namen, um Ihre Verbindung zu identifizieren, und klicken Sie auf Weiter.

Auswählen Authentifizierung Geben Sie entweder LDAP oder Keine Authentifizierung ein und klicken Sie auf Vernetz Dich.

Geben Sie für Lightweight Directory Access Protocol (LDAP) den Benutzernamen und das Kennwort für die Authentifizierung an.

Bei „Keine Authentifizierung“ werden Sie mit EMR Presto verbunden, ohne Benutzeranmeldeinformationen innerhalb von VPC bereitzustellen. Rufen Sie die SQL-Explorer-Seite von Data Wrangler für EMR auf.

Sobald die Verbindung hergestellt ist, können Sie interaktiv einen Datenbankbaum und eine Tabellenvorschau oder ein Schema anzeigen. Sie können auch Daten von EMR abfragen, untersuchen und visualisieren. Für die Vorschau sehen Sie standardmäßig ein Limit von 100 Datensätzen. Für benutzerdefinierte Abfragen können Sie SQL-Anweisungen im Abfrageeditorfeld bereitstellen und sobald Sie auf klicken Führen Sie klicken, wird die Abfrage auf der Presto-Engine von EMR ausgeführt.

Das Abfrage abbrechen Mit der Schaltfläche können laufende Abfragen abgebrochen werden, wenn sie ungewöhnlich lange dauern.

Der letzte Schritt ist der Import. Sobald Sie mit den abgefragten Daten fertig sind, haben Sie die Möglichkeit, die Stichprobeneinstellungen für die Datenauswahl entsprechend dem Stichprobentyp (FirstK, Random oder Stratified) und der Stichprobengröße für den Import von Daten in Data Wrangler zu aktualisieren.

Klicken Sie auf Kostenlos erhalten und dann auf Installieren. Import. Die Vorbereitungsseite wird geladen, sodass Sie dem Datensatz verschiedene Transformationen und grundlegende Analysen hinzufügen können.

Navigieren Sie vom oberen Bildschirm zu DataFlow und fügen Sie dem Ablauf je nach Bedarf weitere Schritte für Transformationen und Analysen hinzu. Sie können einen Data-Insight-Bericht ausführen, um Datenqualitätsprobleme zu identifizieren und Empfehlungen zur Behebung dieser Probleme zu erhalten. Sehen wir uns einige Beispieltransformationen an.

Gehen Sie zu Ihrem Datenfluss, und dies ist der Bildschirm, den Sie sehen sollten. Es zeigt uns, dass wir EMR als Datenquelle mit dem Presto-Konnektor verwenden.

Klicken wir auf die Schaltfläche + rechts neben Datentypen und wählen Sie Transformation hinzufügen aus. Wenn Sie das tun, sollte der folgende Bildschirm erscheinen:

Lassen Sie uns die Daten untersuchen. Wir sehen, dass es mehrere Funktionen hat, wie z iata_code, Flughafen, Stadt, Zustand, Land, Breite und Länge. Wir können sehen, dass der gesamte Datensatz in einem Land basiert, nämlich den USA, und es fehlende Werte in Breiten- und Längengrad gibt. Fehlende Daten können zu Verzerrungen bei der Schätzung von Parametern führen und die Repräsentativität der Stichproben verringern, sodass wir einige durchführen müssen Anrechnung und behandeln Sie fehlende Werte in unserem Datensatz.

Klicken wir auf die Schritt hinzufügen Schaltfläche rechts in der Navigationsleiste. Auswählen Griff fehlt. Die Konfigurationen sind in den folgenden Screenshots zu sehen. Unter Verwandeln, wählen unterstellen. Wählen Sie den Spaltentyp als aus Numerisch und Spaltennamen Breite und Längengrad. Wir werden die fehlenden Werte unter Verwendung eines ungefähren Medianwerts imputieren. Vorschau anzeigen und Transformation hinzufügen.

Sehen wir uns nun eine weitere Beispieltransformation an. Beim Erstellen eines Modells für maschinelles Lernen werden Spalten entfernt, wenn sie redundant sind oder Ihrem Modell nicht helfen. Die häufigste Methode zum Entfernen einer Spalte besteht darin, sie zu löschen. In unserem Datensatz ist das Feature Land kann gelöscht werden, da der Datensatz speziell für US-Flughafendaten vorgesehen ist. Mal sehen, wie wir Spalten verwalten können. Klicken wir auf die Schritt hinzufügen Schaltfläche rechts in der Navigationsleiste. Auswählen Spalten verwalten. Die Konfigurationen sind in den folgenden Screenshots zu sehen. Unter TransformierenWählen Spalte löschen, und unter Spalten zum AblegenWählen Land.

Sie können weitere Schritte basierend auf den verschiedenen Transformationen hinzufügen, die für Ihr Dataset erforderlich sind. Kommen wir zurück zu unserem Datenfluss. Sie sehen nun zwei weitere Blöcke, die die von uns durchgeführten Transformationen zeigen. In unserem Szenario können Sie sehen unterstellen und Spalte löschen.

ML-Praktiker verbringen viel Zeit damit, Feature-Engineering-Code zu erstellen, ihn auf ihre ursprünglichen Datensätze anzuwenden, Modelle auf den konstruierten Datensätzen zu trainieren und die Modellgenauigkeit zu bewerten. Angesichts des experimentellen Charakters dieser Arbeit wird selbst das kleinste Projekt zu mehreren Iterationen führen. Derselbe Feature-Engineering-Code wird oft immer wieder ausgeführt, wodurch Zeit und Rechenressourcen für die Wiederholung derselben Vorgänge verschwendet werden. In großen Organisationen kann dies zu noch größeren Produktivitätsverlusten führen, da verschiedene Teams oft identische Jobs ausführen oder sogar doppelten Feature-Engineering-Code schreiben, weil sie keine Kenntnis von früheren Arbeiten haben. Um die erneute Verarbeitung von Features zu vermeiden, exportieren wir jetzt unsere transformierten Features nach Amazon Feature Store. Klicken wir auf die + Knopf rechts neben Spalte löschen. Wählen Exportieren nach und wählen Sie Sagemaker Feature Store (über Jupyter-Notebook).

Sie können Ihre generierten Features ganz einfach nach exportieren SageMaker Feature Store indem Sie es als Ziel auswählen. Sie können die Features in einer vorhandenen Feature-Gruppe speichern oder eine neue erstellen.

Wir haben jetzt Features mit Data Wrangler erstellt und diese Features einfach im Feature Store gespeichert. Wir haben einen Beispiel-Workflow für Feature-Engineering in der Data Wrangler-Benutzeroberfläche gezeigt. Dann haben wir diese Features direkt aus Data Wrangler im Feature Store gespeichert, indem wir eine neue Feature-Gruppe erstellt haben. Schließlich haben wir einen Verarbeitungsjob ausgeführt, um diese Features in den Feature Store aufzunehmen. Data Wrangler und Feature Store haben uns zusammen dabei geholfen, automatische und wiederholbare Prozesse zu entwickeln, um unsere Datenvorbereitungsaufgaben mit minimalem Programmieraufwand zu rationalisieren. Data Wrangler bietet uns auch die Flexibilität, denselben Datenvorbereitungsfluss zu automatisieren geplante Jobs. Wir können auch das Training oder Feature-Engineering mit SageMaker-Pipelines (über Jupyter Notebook) automatisieren und mit der SageMaker-Inferenz-Pipeline (über Jupyter Notebook) auf dem Inference-Endpunkt bereitstellen.

Aufräumen

Wenn Ihre Arbeit mit Data Wrangler abgeschlossen ist, wählen Sie den auf der CloudFormation-Seite erstellten Stack aus und löschen Sie ihn, um zusätzliche Gebühren zu vermeiden.

Zusammenfassung

In diesem Beitrag haben wir erläutert, wie Sie Amazon EMR als Datenquelle in Data Wrangler einrichten, wie Sie einen Datensatz transformieren und analysieren und wie Sie die Ergebnisse in einen Datenfluss zur Verwendung in einem Jupyter-Notebook exportieren. Nach der Visualisierung unseres Datensatzes mit den integrierten Analysefunktionen von Data Wrangler haben wir unseren Datenfluss weiter verbessert. Die Tatsache, dass wir eine Datenvorbereitungspipeline erstellt haben, ohne eine einzige Codezeile zu schreiben, ist von Bedeutung.

Informationen zu den ersten Schritten mit Data Wrangler finden Sie unter Vorbereiten von ML-Daten mit Amazon SageMaker Data Wrangler, und sehen Sie sich die neuesten Informationen über die an Data Wrangler-Produktseite.

Über die Autoren

Ajjay Govindaram ist Senior Solutions Architect bei AWS. Er arbeitet mit strategischen Kunden zusammen, die KI/ML einsetzen, um komplexe Geschäftsprobleme zu lösen. Seine Erfahrung liegt in der Bereitstellung von technischer Anleitung sowie Designunterstützung für bescheidene bis große KI/ML-Anwendungsbereitstellungen. Sein Wissen reicht von Anwendungsarchitektur bis hin zu Big Data, Analytik und maschinellem Lernen. Er genießt es, Musik zu hören, während er sich ausruht, die Natur zu erleben und Zeit mit seinen Lieben zu verbringen.

Isha Dua ist ein Senior Solutions Architect mit Sitz in der San Francisco Bay Area. Sie hilft AWS-Unternehmenskunden beim Wachstum, indem sie ihre Ziele und Herausforderungen versteht, und leitet sie an, wie sie ihre Anwendungen auf Cloud-native Weise gestalten und gleichzeitig sicherstellen können, dass sie belastbar und skalierbar sind. Sie interessiert sich leidenschaftlich für maschinelle Lerntechnologien und ökologische Nachhaltigkeit.

Rui Jiang ist Softwareentwicklungsingenieur bei AWS in der Gegend von New York City. Sie ist Mitglied des SageMaker Data Wrangler-Teams und hilft bei der Entwicklung technischer Lösungen für AWS-Unternehmenskunden, um ihre Geschäftsanforderungen zu erfüllen. Außerhalb der Arbeit entdeckt sie gerne neue Lebensmittel, Fitness, Outdoor-Aktivitäten und Reisen.

Zeitstempel: 8. Dezember 20228. Dezember 2022

Zeitstempel: 30. Mai 2023

Parallele Datenverarbeitung mit RStudio auf Amazon SageMaker

Quellcluster:

AWS Maschinelles Lernen

Quellknoten: 1671065

Zeitstempel: 19. September 2022

Bereiten Sie Daten aus Databricks für maschinelles Lernen mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence vor. Vertikale Suche. Ai.

Bereiten Sie Daten aus Databricks für maschinelles Lernen mit Amazon SageMaker Data Wrangler vor

Quellcluster:

AWS Maschinelles Lernen

Quellknoten: 1243552

Zeitstempel: 31. März 2022

Beschleunigen Sie die Amazon SageMaker-Inferenz mit C6i Intel-basierten Amazon EC2-Instances

Quellcluster:

AWS Maschinelles Lernen

Quellknoten: 1816297

Zeitstempel: 20. März 2023

Bereiten Sie Daten aus Amazon EMR für maschinelles Lernen mit Amazon SageMaker Data Wrangler vor

Neuauflage von Plato

Lösungsüberblick

Option 1: Lightweight Access Directory Protocol

Option 2: Keine Authentifizierung

Stellen Sie die Ressourcen mit AWS CloudFormation bereit

Richten Sie Amazon EMR als Datenquelle in Data Wrangler ein

Erstellen Sie einen neuen Datenfluss

Fügen Sie Amazon EMR als Datenquelle in Data Wrangler hinzu

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Verbinden Sie Amazon EMR und RStudio auf Amazon SageMaker

Verbinden Sie Amazon Athena nahtlos mit Amazon Lookout for Metrics, um Anomalien zu erkennen

Wie VistaPrint mit Amazon Personalize personalisierte Produktempfehlungen liefert | Amazon Web Services

Anomalieerkennung mit Amazon SageMaker Edge Manager unter Verwendung von AWS IoT Greengrass V2

Durchsuchen Sie Adobe Experience Manager-Inhalte intelligent mit Amazon Kendra | Amazon Web Services

Verwenden Sie eine vorsignierte URL, um Ihren Geschäftsanalysten sicheren Zugriff auf Amazon SageMaker Canvas zu gewähren

Parallele Datenverarbeitung mit RStudio auf Amazon SageMaker

Bereiten Sie Daten aus Databricks für maschinelles Lernen mit Amazon SageMaker Data Wrangler vor

Beschleunigen Sie die Amazon SageMaker-Inferenz mit C6i Intel-basierten Amazon EC2-Instances

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto