Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler

Neuauflage von Plato

Verfolger: 0

In diesem Beitrag stellen wir eine neue Analyse vor Datenqualitäts- und Insights-Bericht of Amazon SageMaker Data Wrangler. Diese Analyse unterstützt Sie bei der Validierung von Textmerkmalen auf Korrektheit und beim Aufdecken ungültiger Zeilen zur Reparatur oder Auslassung.

Data Wrangler reduziert die Zeit, die zum Sammeln und Vorbereiten von Daten für maschinelles Lernen (ML) benötigt wird, von Wochen auf Minuten. Sie können den Prozess der Datenvorbereitung und des Feature-Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich Datenauswahl, -bereinigung, -exploration und -visualisierung, über eine einzige visuelle Oberfläche abschließen.

Lösungsüberblick

Die Datenvorverarbeitung umfasst häufig die Bereinigung von Textdaten wie E-Mail-Adressen, Telefonnummern und Produktnamen. Diese Daten können zugrunde liegende Integritätsbeschränkungen haben, die durch reguläre Ausdrücke beschrieben werden können. Um beispielsweise als gültig angesehen zu werden, muss eine lokale Telefonnummer möglicherweise einem Muster wie folgen [1-9][0-9]{2}-[0-9]{4}, was einer Ziffer ungleich Null entsprechen würde, gefolgt von zwei weiteren Ziffern, gefolgt von einem Bindestrich, gefolgt von vier weiteren Ziffern.

Häufige Szenarien, die zu ungültigen Daten führen, können inkonsistente menschliche Eingaben umfassen, z. B. Telefonnummern in verschiedenen Formaten (5551234 vs. 555 1234 vs. 555-1234) oder unerwartete Daten wie 0, 911 oder 411. Für ein Kunden-Callcenter: Es ist wichtig, Zahlen wie 0, 911 oder 411 wegzulassen und Einträge wie 5551234 oder 555 1234 zu validieren (und möglicherweise zu korrigieren).

Obwohl Textbeschränkungen bestehen, werden sie leider möglicherweise nicht mit den Daten bereitgestellt. Daher muss ein Datenwissenschaftler, der einen Datensatz vorbereitet, die Einschränkungen manuell aufdecken, indem er sich die Daten ansieht. Dies kann mühsam, fehleranfällig und zeitaufwändig sein.

Musterlernen analysiert Ihre Daten automatisch und zeigt Textbeschränkungen auf, die möglicherweise für Ihren Datensatz gelten. Für das Beispiel mit Telefonnummern kann Musterlernen die Daten analysieren und feststellen, dass die überwiegende Mehrheit der Telefonnummern der Textbeschränkung entspricht [1-9][0-9]{2}-[0-9][4]. Es kann Sie auch darauf hinweisen, dass es Beispiele für ungültige Daten gibt, damit Sie diese ausschließen oder korrigieren können.

In den folgenden Abschnitten demonstrieren wir, wie Sie Musterlernen in Data Wrangler verwenden, indem wir einen fiktiven Datensatz von Produktkategorien und SKU-Codes (Stock Keeping Unit) verwenden.

Dieser Datensatz enthält Merkmale, die Produkte nach Unternehmen, Marke und Energieverbrauch beschreiben. Insbesondere enthält es eine Funktions-SKU, die schlecht formatiert ist. Alle Daten in diesem Datensatz sind fiktiv und werden zufällig unter Verwendung zufälliger Markennamen und Gerätenamen erstellt.

Voraussetzungen:

Bevor Sie mit der Verwendung von Data Wrangler beginnen, herunterladen den Beispieldatensatz und laden Sie ihn an einen Ort in hoch Amazon Simple Storage-Service (Amazon S3). Anweisungen finden Sie unter Hochladen von Objekten.

Importieren Sie Ihren Datensatz

Führen Sie die folgenden Schritte aus, um Ihr Dataset zu importieren:

Wählen Sie in Data Wrangler Importieren und erkunden Sie Daten für ML.
Auswählen Import.
Aussichten für Daten importieren, wählen Amazon S3.
Suchen Sie die Datei in Amazon S3 und wählen Sie sie aus Import.

Nach dem Import können wir zum Datenfluss navigieren.

Erhalten Sie Dateneinblicke

In diesem Schritt erstellen wir einen Data-Insight-Bericht, der Informationen zur Datenqualität enthält. Weitere Informationen finden Sie unter Erhalten Sie Einblicke in Daten und Datenqualität. Führen Sie die folgenden Schritte aus:

Auf dem Datenfluss Wählen Sie auf der Registerkarte das Pluszeichen neben aus Datentypen.
Auswählen Erhalten Sie Dateneinblicke.
Aussichten für Analysetyp, wählen Datenqualitäts- und Insights-Bericht.
Für diesen Beitrag verlassen Zielspalte und Problemtyp leer. Wenn Sie beabsichtigen, Ihr Dataset für eine Regressions- oder Klassifizierungsaufgabe mit einem Zielmerkmal zu verwenden, können Sie diese Optionen auswählen und der Bericht enthält eine Analyse darüber, wie sich Ihre Eingabemerkmale auf Ihr Ziel beziehen. Beispielsweise kann es Berichte über Zielverluste erstellen. Weitere Informationen finden Sie unter Zielspalte.
Auswählen Erstellen.

Wir haben jetzt einen Data Quality and Data Insights Report. Wenn wir nach unten scrollen zu den SKU Abschnitt sehen wir ein Beispiel für Musterlernen, das die SKU beschreibt. Diese Funktion scheint einige ungültige Daten zu enthalten, und eine umsetzbare Behebung ist erforderlich.

Bevor wir die SKU-Funktion bereinigen, scrollen wir nach oben zur Marke Abschnitt, um weitere Einblicke zu erhalten. Hier sehen wir, dass zwei Muster aufgedeckt wurden, die darauf hindeuten, dass die meisten Markennamen aus einzelnen Wörtern bestehen, die aus Wortzeichen oder Buchstaben bestehen. EIN Wortzeichen ist entweder ein Unterstrich oder ein Zeichen, das in einem Wort in jeder Sprache vorkommen kann. Zum Beispiel die Saiten Hello_world und écoute beide bestehen aus Wortzeichen: H und é.

Für diesen Beitrag bereinigen wir diese Funktion nicht.

Zeigen Sie Musterlerneinblicke an

Kehren wir zum Reinigen von SKUs zurück und vergrößern das Muster und die Warnmeldung.

Wie im folgenden Screenshot gezeigt, zeigt Musterlernen ein Muster mit hoher Genauigkeit, das mit 97.78 % der Daten übereinstimmt. Es zeigt auch einige Beispiele, die mit dem Muster übereinstimmen, sowie Beispiele, die nicht mit dem Muster übereinstimmen. In den Nichtübereinstimmungen sehen wir einige ungültige SKUs.

Zusätzlich zu den angezeigten Mustern wird möglicherweise eine Warnung angezeigt, die auf eine mögliche Aktion zum Bereinigen von Daten hinweist, wenn ein Muster mit hoher Genauigkeit vorhanden ist, sowie einige Daten, die nicht dem Muster entsprechen.

Wir können die ungültigen Daten weglassen. Wenn wir den regulären Ausdruck auswählen (Rechtsklick), können wir den Ausdruck kopieren [A-Z]{3}-[0-9]{4,5}.

Ungültige Daten entfernen

Lassen Sie uns eine Transformation erstellen, um nicht konforme Daten auszulassen, die nicht mit diesem Muster übereinstimmen.

Auf dem Datenfluss Wählen Sie auf der Registerkarte das Pluszeichen neben aus Datentypen.
Auswählen Transformation hinzufügen.
Auswählen Schritt hinzufügen.
Suchen Sie nach HEIF-Bilderweiterungen. regex und wählen Sie Suchen und bearbeiten.
Aussichten für Transformieren, wählen Wandeln Sie Nichtübereinstimmungen in Fehlende um.
Aussichten für Eingabespalten, wählen SKU.
Aussichten für Schnittmuster, geben Sie unseren regulären Ausdruck ein.
Auswählen Vorspann, Dann wählen Speichern.

Jetzt wurden die überflüssigen Daten aus den Features entfernt.
Um die Zeilen zu entfernen, fügen Sie den Schritt hinzu Griff fehlt und wählen Sie die Transformation Tropfen fehlt.
Auswählen SKU als Eingabespalte.

Wir kehren zu unserem Datenfluss zurück, wobei die fehlerhaften Daten entfernt sind.

Zusammenfassung

In diesem Beitrag haben wir Ihnen gezeigt, wie Sie die Musterlernfunktion in Data Insights verwenden, um ungültige Textdaten in Ihrem Datensatz zu finden, und wie Sie diese Daten korrigieren oder weglassen können.

Nachdem Sie eine Textspalte bereinigt haben, können Sie Ihr Dataset mithilfe von visualisieren Analyse oder Sie können sich bewerben eingebaute Transformationen zur weiteren Verarbeitung Ihrer Daten. Wenn Sie mit Ihren Daten zufrieden sind, können Sie das tun ein Modell trainieren mit Amazon SageMaker-Autopilot, oder Exportieren Sie Ihre Daten an eine Datenquelle wie Amazon S3.

Wir möchten Nikita Ivkin für seine aufmerksame Bewertung danken.

Über die Autoren

Vishaal Kapoor ist Senior Applied Scientist bei AWS AI. Er ist leidenschaftlich daran interessiert, Kunden dabei zu helfen, ihre Daten in Data Wrangler zu verstehen. In seiner Freizeit fährt er Mountainbike, Snowboard und verbringt Zeit mit seiner Familie.

Zohar Karnin ist leitender Wissenschaftler bei Amazon AI. Seine Forschungsinteressen liegen in den Bereichen Large-Scale- und Online-Machine-Learning-Algorithmen. Er entwickelt unendlich skalierbare Algorithmen für maschinelles Lernen für Amazon SageMaker.

Ajai Sharma ist Principal Product Manager für Amazon SageMaker, wo er sich auf Data Wrangler konzentriert, ein visuelles Datenvorbereitungstool für Data Scientists. Vor AWS war Ajai Data Science Expert bei McKinsey and Company, wo er ML-fokussierte Engagements für führende Finanz- und Versicherungsunternehmen weltweit leitete. Ajai interessiert sich leidenschaftlich für Data Science und liebt es, die neuesten Algorithmen und maschinellen Lerntechniken zu erforschen.

Derek Baron ist Softwareentwicklungsmanager für Amazon SageMaker Data Wrangler

Zeitstempel: 24. Oktober 202224. Oktober 2022

Zeitstempel: 15. September 2022

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler

Neuauflage von Plato

Lösungsüberblick

Voraussetzungen:

Importieren Sie Ihren Datensatz

Erhalten Sie Dateneinblicke

Zeigen Sie Musterlerneinblicke an

Ungültige Daten entfernen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

AWS Panorama unterstützt jetzt NVIDIA JetPack SDK 4.6.2

Erste Schritte mit der Bereitstellung von Echtzeitmodellen auf Amazon SageMaker

Wissensdatenbanken in Amazon Bedrock vereinfachen jetzt das Stellen von Fragen zu einem einzelnen Dokument | Amazon Web Services

Wöchentliche Prognosen können jetzt mit Amazon Forecast am Sonntag beginnen

Vereinfachen Sie das kontinuierliche Lernen von benutzerdefinierten Amazon Comprehend-Modellen mit Comprehend Flywheel

Durchsuchen Sie Ihre Jira-Projekte intelligent mit dem Amazon Kendra Jira Cloud Connector

Die Amazon EC2 DL2q-Instanz für kosteneffiziente, leistungsstarke KI-Inferenz ist jetzt allgemein verfügbar | Amazon Web Services

Verwenden Sie Amazon SageMaker Data Wrangler für die Datenvorbereitung und Studio Labs, um ML zu lernen und damit zu experimentieren

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto