Amazon SageMaker Data Wrangler ist ein speziell entwickeltes Datenaggregations- und Aufbereitungstool für maschinelles Lernen (ML). Es ermöglicht Ihnen, eine visuelle Schnittstelle zu verwenden, um auf Daten zuzugreifen und explorative Datenanalysen (EDA) und Feature-Engineering durchzuführen. Die EDA-Funktion verfügt über integrierte Datenanalysefunktionen für Diagramme (z. B. Streudiagramm oder Histogramm) und zeitsparende Modellanalysefunktionen wie Merkmalswichtigkeit, Zielleckage und Modellerklärbarkeit. Die Feature-Engineering-Funktion verfügt über mehr als 300 integrierte Transformationen und kann benutzerdefinierte Transformationen mit Python, PySpark oder Spark SQL-Laufzeit ausführen.
Für benutzerdefinierte Visualisierungen und Transformationen bietet Data Wrangler jetzt Beispielcodeausschnitte für gängige Arten von Visualisierungen und Transformationen. In diesem Beitrag zeigen wir, wie Sie diese Code-Snippets verwenden, um Ihr EDA in Data Wrangler schnell zu starten.
Lösungsüberblick
Zum Zeitpunkt der Erstellung dieses Artikels können Sie Datensätze aus Data Wrangler importieren Amazon Simple Storage-Service (Amazon S3), Amazonas Athena, Amazon RedShift, Databricks und Schneeflocke. Für diesen Beitrag verwenden wir Amazon S3, um die Amazon 2014 zu speichern Bewertungsdatensatz. Das Folgende ist ein Beispiel des Datensatzes:
In diesem Beitrag führen wir EDA mit drei Spalten durch:asin
, reviewTime
und overall
– die jeweils der Produkt-ID, dem Datum der Bewertung und der Bewertungsgesamtpunktzahl zugeordnet sind. Wir verwenden diese Daten, um die Dynamik für die Anzahl der Bewertungen über Monate und Jahre hinweg zu visualisieren.
Verwenden eines Beispiel-Code-Snippets für EDA in Data Wrangler
Führen Sie die folgenden Schritte aus, um mit der Durchführung von EDA in Data Wrangler zu beginnen:
- Laden Sie die Digital Music Review-Datensatz JSON und laden Sie es auf Amazon S3 hoch.
Wir verwenden dies als Rohdatensatz für die EDA. - Offen Amazon SageMaker-Studio und erstellen Sie einen neuen Data Wrangler-Flow und importieren Sie den Datensatz aus Amazon S3.
Dieser Datensatz hat neun Spalten, aber wir verwenden nur drei:
asin
,reviewTime
undoverall
. Wir müssen die anderen sechs Spalten löschen. - Erstellen Sie eine benutzerdefinierte Transformation und wählen Sie aus Python (PySpark).
- Erweitern Sie die Funktionalität der Beispiel-Snippets suchen und wählen Sie Löschen Sie alle Spalten außer einigen.
- Geben Sie das bereitgestellte Snippet in Ihre benutzerdefinierte Transformation ein und befolgen Sie die Anweisungen zum Ändern des Codes.
Da wir nun alle benötigten Spalten haben, filtern wir die Daten nach unten, um nur Bewertungen zwischen 2000 und 2020 zu behalten.
- Verwenden Sie das Filterzeitstempel außerhalb des Bereichs Ausschnitt zum Löschen der Daten vor dem Jahr 2000 und nach 2020:
Als nächstes extrahieren wir das Jahr und den Monat aus der Spalte reviewTime.
- Verwenden Sie das Präsentieren Sie Datum/Uhrzeit verwandeln.
- Aussichten für Spalten extrahieren, wählen Jahr und Monat.
Als Nächstes möchten wir die Anzahl der Bewertungen nach Jahr und Monat aggregieren, die wir im vorherigen Schritt erstellt haben.
- Verwenden Sie das Berechnen Sie Statistiken in Gruppen Ausschnitt:
- Benennen Sie die Aggregation des vorherigen Schritts um von
count(overall)
zureviews_num
durch Auswählen Spalten verwalten und für Spalte umbenennen verwandeln.
Abschließend möchten wir eine Heatmap erstellen, um die Verteilung der Bewertungen nach Jahr und Monat zu visualisieren. - Wählen Sie auf der Registerkarte Analyse aus Benutzerdefinierte Visualisierung.
- Erweitern Sie die Funktionalität der Schnipsel suchen und wählen Sie Heatmap im Dropdown-Menü.
- Geben Sie das bereitgestellte Snippet in Ihre benutzerdefinierte Visualisierung ein:
Wir erhalten die folgende Visualisierung.
Wenn Sie die Heatmap weiter verbessern möchten, können Sie die Daten so aufteilen, dass nur Bewertungen vor 2011 angezeigt werden. Diese sind in der Heatmap, die wir gerade erstellt haben, aufgrund der großen Anzahl von Bewertungen seit 2012 schwer zu identifizieren. - Fügen Sie Ihrer benutzerdefinierten Visualisierung eine Codezeile hinzu:
Wir erhalten die folgende Heatmap.
Jetzt spiegelt die Heatmap die Bewertungen vor 2011 deutlicher wider: Wir können die saisonalen Effekte beobachten (das Jahresende bringt mehr Käufe und damit mehr Bewertungen) und können anomale Monate wie Oktober 2003 und März 2005 identifizieren. Es lohnt sich, weiter nachzuforschen um die Ursache dieser Anomalien zu ermitteln.
Zusammenfassung
Data Wrangler ist ein speziell entwickeltes Tool zur Datenaggregation und -vorbereitung für ML. In diesem Beitrag haben wir gezeigt, wie Sie EDA durchführen und Ihre Daten mithilfe von Code-Snippets, die von Data Wrangler bereitgestellt werden, schnell transformieren. Sie müssen nur ein Snippet finden, den Code eingeben und die Parameter an Ihren Datensatz anpassen. Sie können Ihr Skript weiter iterieren, um komplexere Visualisierungen und Transformationen zu erstellen.
Weitere Informationen zu Data Wrangler finden Sie unter Erstellen und verwenden Sie einen Data Wrangler-Flow.
Über die Autoren
Nikita Iwkin ist ein angewandter Wissenschaftler, Amazon SageMaker Data Wrangler.
Haider Naqvi ist Lösungsarchitekt bei AWS. Er verfügt über umfangreiche Erfahrung in der Softwareentwicklung und Unternehmensarchitektur. Er konzentriert sich darauf, Kunden zu ermöglichen, mit AWS Geschäftsergebnisse zu erzielen. Er hat seinen Sitz in New York.
Harish Rajagopalan ist Senior Solutions Architect bei Amazon Web Services. Harish arbeitet mit Unternehmenskunden zusammen und hilft ihnen bei ihrer Cloud-Reise.
James Wu ist Senior AI/ML Specialist SA bei AWS. Er arbeitet mit Kunden zusammen, um ihre Reise in die Cloud zu beschleunigen und ihre Geschäftswertrealisierung zu beschleunigen. Darüber hinaus beschäftigt sich James leidenschaftlich mit der Entwicklung und Skalierung großer KI/ML-Lösungen in verschiedenen Bereichen. Bevor er zu AWS kam, leitete er ein multidisziplinäres Innovationstechnologieteam mit ML-Ingenieuren und Softwareentwicklern für ein weltweit führendes Unternehmen in der Markt- und Werbebranche.
- Coinsmart. Europas beste Bitcoin- und Krypto-Börse.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. DEN FREIEN ZUGANG.
- CryptoHawk. Altcoin-Radar. Kostenlose Testphase.
- Quelle: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Über uns
- beschleunigen
- Zugang
- Erreichen
- über
- Zusatz
- Marketings
- Alle
- erlaubt
- Amazon
- Amazon Web Services
- Analyse
- angewandt
- Architektur
- verfügbar
- AWS
- Achse
- weil
- Bevor
- zwischen
- eingebaut
- Geschäft
- Fähigkeiten
- Verursachen
- Charts
- Auswählen
- Cloud
- Code
- Kolonne
- gemeinsam
- abschließen
- Komplex
- fortsetzen
- Steuerung
- erstellen
- erstellt
- Original
- Kunden
- technische Daten
- Datenanalyse
- zeigen
- weisen nach, dass
- Bestimmen
- Entwickler
- Entwicklung
- Entwicklung
- Verteilung
- Domains
- nach unten
- Drop
- Dynamik
- Effekten
- ermöglichen
- Entwicklung
- Ingenieure
- Enter
- Unternehmen
- Beispiel
- Außer
- ERFAHRUNGEN
- umfangreiche
- beschleunigt
- Merkmal
- Endlich
- Fest
- Vorname
- Fluss
- konzentriert
- folgen
- Folgende
- für
- Funktion
- Funktionen
- weiter
- Global
- groß
- Gruppen
- mit
- hilfreich
- hilft
- Ultraschall
- Hilfe
- HTTPS
- identifizieren
- Bedeutung
- Energiegewinnung
- Innovation
- Schnittstelle
- IT
- Reise
- Behalten
- grosse
- LERNEN
- lernen
- geführt
- Line
- Liste
- Maschine
- Maschinelles Lernen
- Karte
- März
- Markt
- Spiel
- ML
- Modell
- Monat
- Monat
- mehr
- Musik
- Namen
- New York
- Anzahl
- Andere
- Gesamt-
- leidenschaftlich
- Durchführung
- spielend
- Danach
- früher
- Produkt
- die
- vorausgesetzt
- bietet
- Kauf
- Einkäufe
- quantitativ
- schnell
- Roh
- Aufzeichnungen
- spiegelt
- Überprüfen
- Bewertungen
- Skalierung
- Wissenschaftler
- Leistungen
- Einfacher
- da
- SIX
- Software
- Software-Entwicklung
- Lösungen
- Spezialist
- Anfang
- Statistiken
- Lagerung
- speichern
- Target
- Team
- Technologie
- Das
- deswegen
- nach drei
- Zeit
- Werkzeug
- Top
- Transformieren
- Transformationen
- Typen
- -
- Wert
- verschiedene
- Visualisierung
- Volumen
- Netz
- Web-Services
- WHO
- wunderbar
- Werk
- wert
- Schreiben
- X
- Jahr
- Jahr
- Ihr