Wir stellen die neuen eingebetteten Visualisierungen von Amazon SageMaker Data Wrangler vor

Neuauflage von Plato

Verfolger: 0

Die manuelle Überprüfung der Datenqualität und die Bereinigung von Daten ist ein schmerzhafter und zeitaufwändiger Prozess, der einen großen Teil der Zeit eines Datenwissenschaftlers für ein Projekt in Anspruch nehmen kann. Laut einer von Anaconda durchgeführten Umfrage unter Data Scientists aus dem Jahr 2020 verbringen Data Scientists etwa 66 % ihrer Zeit mit Datenvorbereitungs- und Analyseaufgaben, einschließlich Laden (19 %), Säubern (26 %) und Visualisieren von Daten (21 %). Amazon Sage Maker bietet eine Reihe von Datenvorbereitungstools, um den unterschiedlichen Kundenanforderungen und -präferenzen gerecht zu werden. Für Benutzer, die eine GUI-basierte interaktive Schnittstelle bevorzugen, SageMaker Data Wrangler bietet mehr als 300 integrierte Visualisierungen, Analysen und Transformationen zur effizienten Verarbeitung von Daten, die von Spark unterstützt werden, ohne eine einzige Codezeile schreiben zu müssen.

Die Datenvisualisierung beim maschinellen Lernen (ML) ist ein iterativer Prozess und erfordert eine kontinuierliche Visualisierung des Datensatzes zur Entdeckung, Untersuchung und Validierung. Um Daten ins rechte Licht zu rücken, muss jede der Spalten betrachtet werden, um mögliche Datenfehler, fehlende Werte, falsche Datentypen, irreführende/falsche Daten, Ausreißerdaten und mehr zu verstehen.

In diesem Beitrag zeigen wir Ihnen wie Amazon SageMaker Data Wrangler generiert automatisch wichtige Visualisierungen der Datenverteilung, erkennt Datenqualitätsprobleme und zeigt Datenerkenntnisse wie Ausreißer für jedes Feature an, ohne eine einzige Codezeile zu schreiben. Es trägt dazu bei, das Datengrid-Erlebnis mit automatischen Qualitätswarnungen (z. B. fehlende Werte oder ungültige Werte) zu verbessern. Auch die automatisch generierten Visualisierungen sind interaktiv. Beispielsweise können Sie eine tabellarische Auflistung der fünf häufigsten Elemente nach Prozent sortiert anzeigen und den Mauszeiger über die Leiste bewegen, um zwischen Anzahl und Prozentsatz zu wechseln.

Voraussetzungen:

Amazon SageMaker Data Wrangler ist eine SageMaker-Funktion, die in SageMaker Studio verfügbar ist. Du kannst Folgen den Studio-Onboarding-Prozess um die Studio-Umgebung und Notebooks hochzufahren. Obwohl Sie aus einigen wenigen Authentifizierungsmethoden auswählen können, ist die einfachste Methode zum Erstellen einer Studio-Domain, die zu befolgen Schnellstartanweisungen. Der Schnellstart verwendet die gleichen Standardeinstellungen wie das Standard-Studio-Setup. Sie können sich auch für das Onboarding mit entscheiden AWS Identity and Access Management (IAM) Identitätszentrum (Nachfolger von AWS Single Sign-On) zur Authentifizierung (vgl Integrieren in die Amazon SageMaker-Domäne mithilfe von IAM Identity Center).

Lösungsdurchgang

Deine Reise SageMaker-Studio Umwelt und erstellen Sie eine neue Data Wrangler-Fluss. Sie können entweder Ihren eigenen Datensatz importieren oder einen Beispieldatensatz verwenden (Titanisch) wie im folgenden Bild zu sehen. Diese beiden Knoten (die Quelle Knoten und die technische Daten Typ Knoten) sind anklickbar – wenn Sie auf diese beiden Knoten doppelklicken, zeigt Data Wrangler die Tabelle an.

In unserem Fall klicken wir mit der rechten Maustaste auf die Datentypen Symbol und Fügen Sie eine Transformation hinzu:

Sie sollten jetzt Visualisierungen über jeder Spalte sehen. Bitte warten Sie einige Zeit, bis die Diagramme geladen sind. Die Latenz hängt von der Größe des Datensatzes ab (für den Titanic-Datensatz sollte es in der Standardinstanz 1-2 Sekunden dauern).

Wir stellen die neuen eingebetteten Visualisierungen PlatoBlockchain Data Intelligence von Amazon SageMaker Data Wrangler vor. Vertikale Suche. Ai.

Scrollen Sie zur horizontalen oberen Leiste, indem Sie den Mauszeiger über den Tooltip bewegen. Nachdem die Diagramme geladen wurden, können Sie die Datenverteilung, ungültige Werte und fehlende Werte sehen. Ausreißer und fehlende Werte sind Merkmale fehlerhafter Daten, und es ist wichtig, sie zu identifizieren, da sie Ihre Ergebnisse beeinflussen könnten. Das bedeutet, dass Ihre Ergebnisse möglicherweise nicht auf Situationen außerhalb Ihrer Studie verallgemeinerbar sind, da Ihre Daten aus einer nicht repräsentativen Stichprobe stammen. Die Klassifizierung der Werte ist in den Diagrammen unten zu sehen gültig Werte werden in weiß dargestellt, ungültig Werte in blau, und Kommt demnächst... Werte in lila. Sie können sich auch die anschauen Ausreißer dargestellt durch die blauen Punkte links oder rechts von einem Diagramm.

Wir stellen die neuen eingebetteten Visualisierungen PlatoBlockchain Data Intelligence von Amazon SageMaker Data Wrangler vor. Vertikale Suche. Ai.

Alle Visualisierungen erfolgen in Form von Histogrammen. Für nicht kategoriale Daten wird für jeden Bin ein Bucket-Set definiert. Bei kategorialen Daten wird jeder eindeutige Wert als Bin behandelt. Über dem Histogramm befindet sich ein Balkendiagramm, das die ungültigen und fehlenden Werte anzeigt. Wir können das Verhältnis gültiger Werte für die Typen Numeric, Categorical, Binary, Text und Datetime sowie das Verhältnis fehlender Werte basierend auf den gesamten Null- und leeren Zellen und schließlich das Verhältnis ungültiger Werte anzeigen. Sehen wir uns einige Beispiele an, um zu verstehen, wie Sie diese verwenden können Data Wranglers vorinstallierter Beispiel-Titanic-Datensatz.

Beispiel 1 – Wir können uns die 20 % fehlenden Werte für die ansehen Alter Funktion/Spalte. Es ist entscheidend, mit fehlenden Daten im Bereich der datenbezogenen Forschung/ML umzugehen, entweder durch Entfernen oder Imputieren (Handhabung der fehlenden Werte mit einer gewissen Schätzung).

Wir stellen die neuen eingebetteten Visualisierungen PlatoBlockchain Data Intelligence von Amazon SageMaker Data Wrangler vor. Vertikale Suche. Ai.
Fehlende Werte können Sie mit bearbeiten Behandeln Sie fehlende Werte Gruppe umwandeln. Verwenden Sie die Zuschreibung fehlt transformieren, um imputierte Werte zu generieren, wenn in der Eingabespalte fehlende Werte gefunden wurden. Die Konfiguration hängt von Ihrem Datentyp ab.

In diesem Beispiel Alter Spalte hat einen numerischen Datentyp. Um die Strategie zu imputieren, können wir uns dafür entscheiden, die zu imputieren bedeuten oder im ungefährer Mittelwert über die Werte, die in Ihrem Datensatz vorhanden sind.

Nachdem wir nun die Transformation hinzugefügt haben, können wir sehen, dass die Alter Spalte hat keine fehlenden Werte mehr.

Beispiel 2 – Wir können uns die 27% ungültigen Werte für die ansehen FAHRKARTE Funktion/Spalte, die von der ist STRING Typ. Ungültige Daten können zu verzerrten Schätzungen führen, die die Genauigkeit eines Modells verringern und zu falschen Schlussfolgerungen führen können. Lassen Sie uns einige Transformationen untersuchen, die wir verwenden können, um die ungültigen Daten in der zu behandeln FAHRKARTE Spalte.

Wenn wir uns den Screenshot ansehen, sehen wir, dass einige der Eingaben in einem Format geschrieben sind, das Buchstaben vor Ziffern enthält.PC 17318“ und andere sind nur Zahlen wie „11769".

Wir können eine Transformation anwenden, um nach bestimmten Mustern in Zeichenfolgen zu suchen und diese zu bearbeiten, z. B. „PC“ und ersetzen Sie sie. Als nächstes können wir unsere werfen Schnur Spalte in einen neuen Typ wie z Lang für Benutzerfreundlichkeit.

Damit bleiben immer noch 19 % fehlende Werte auf der FAHRKARTE Besonderheit. Ähnlich wie in Beispiel 1 können wir nun die fehlenden Werte mittels Mittelwert oder ungefährem Median imputieren. Das Merkmal FAHRKARTE sollte keine ungültigen oder fehlenden Werte mehr haben, wie im Bild unten gezeigt.

Um sicherzustellen, dass Ihnen nach dem Absolvieren dieses Tutorials keine Kosten entstehen, stellen Sie sicher, dass Sie Beenden Sie die Data Wrangler-App.

Zusammenfassung

In diesem Beitrag haben wir das Neue vorgestellt Amazon Sagemaker Data Wrangler Widget, das hilft, die zu entfernen undifferenziertes schweres Heben für Endbenutzer während der Datenvorbereitung mit automatisch erscheinenden Visualisierungen und Erkenntnissen aus der Datenprofilerstellung für jede Funktion. Dieses Widget erleichtert das Visualisieren von Daten (z. B. kategoriales/nicht kategoriales Histogramm), das Erkennen von Datenqualitätsproblemen (z. B. fehlende und ungültige Werte) und das Aufdecken von Dateneinblicken (z. B. Ausreißer und Top-N-Element).

Sie können diese Funktion noch heute in allen Regionen nutzen, in denen SageMaker Studio verfügbar ist. Probieren Sie es aus, und teilen Sie uns Ihre Meinung mit. Wir freuen uns immer auf Ihr Feedback, entweder über Ihre üblichen AWS-Support-Kontakte oder auf der AWS-Forum für SageMaker.

Über die Autoren

Isha Dua ist ein Senior Solutions Architect mit Sitz in der San Francisco Bay Area. Sie hilft AWS Enterprise-Kunden beim Wachstum, indem sie ihre Ziele und Herausforderungen versteht, und leitet sie an, wie sie ihre Anwendungen auf Cloud-native Weise gestalten und gleichzeitig sicherstellen können, dass sie belastbar und skalierbar sind. Sie interessiert sich leidenschaftlich für maschinelle Lerntechnologien und ökologische Nachhaltigkeit.

Teil Patel ist Lösungsarchitekt bei AWS in der San Francisco Bay Area. Parth leitet Kunden an, ihren Weg in die Cloud zu beschleunigen und hilft ihnen, die AWS Cloud erfolgreich einzuführen. Er konzentriert sich auf ML und Anwendungsmodernisierung.

Zeitstempel: 13. Dezember 202213. Dezember 2022

Zeitstempel: 29. September 2022

Wir stellen die neuen eingebetteten Visualisierungen von Amazon SageMaker Data Wrangler vor

Neuauflage von Plato

Voraussetzungen:

Lösungsdurchgang

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Stellen Sie große Modelle auf Amazon SageMaker mit DJLServing und paralleler DeepSpeed-Modellinferenz bereit

Steuern Sie den Zugriff auf den Amazon SageMaker Feature Store offline mit AWS Lake Formation

Verbessern Sie die Suchgenauigkeit mit der Rechtschreibprüfung in Amazon Kendra

Analysieren Sie den Nagetierbefall mit den Geodatenfunktionen von Amazon SageMaker | Amazon Web Services

Enträtseln Sie das Wissen in Slack-Workspaces mit intelligenter Suche mit dem Amazon Kendra Slack-Konnektor

Wie Sophos mit Amazon SageMaker einen leistungsstarken, leichten PDF-Malware-Erkenner im Ultramaßstab trainiert

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto