Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler

In diesem Beitrag stellen wir eine neue Analyse vor Datenqualitäts- und Insights-Bericht of Amazon SageMaker Data Wrangler. Diese Analyse unterstützt Sie bei der Validierung von Textmerkmalen auf Korrektheit und beim Aufdecken ungültiger Zeilen zur Reparatur oder Auslassung.

Data Wrangler reduziert die Zeit, die zum Sammeln und Vorbereiten von Daten für maschinelles Lernen (ML) benötigt wird, von Wochen auf Minuten. Sie können den Prozess der Datenvorbereitung und des Feature-Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich Datenauswahl, -bereinigung, -exploration und -visualisierung, über eine einzige visuelle Oberfläche abschließen.

Lösungsüberblick

Die Datenvorverarbeitung umfasst häufig die Bereinigung von Textdaten wie E-Mail-Adressen, Telefonnummern und Produktnamen. Diese Daten können zugrunde liegende Integritätsbeschränkungen haben, die durch reguläre Ausdrücke beschrieben werden können. Um beispielsweise als gültig angesehen zu werden, muss eine lokale Telefonnummer möglicherweise einem Muster wie folgen [1-9][0-9]{2}-[0-9]{4}, was einer Ziffer ungleich Null entsprechen würde, gefolgt von zwei weiteren Ziffern, gefolgt von einem Bindestrich, gefolgt von vier weiteren Ziffern.

Häufige Szenarien, die zu ungültigen Daten führen, können inkonsistente menschliche Eingaben umfassen, z. B. Telefonnummern in verschiedenen Formaten (5551234 vs. 555 1234 vs. 555-1234) oder unerwartete Daten wie 0, 911 oder 411. Für ein Kunden-Callcenter: Es ist wichtig, Zahlen wie 0, 911 oder 411 wegzulassen und Einträge wie 5551234 oder 555 1234 zu validieren (und möglicherweise zu korrigieren).

Obwohl Textbeschränkungen bestehen, werden sie leider möglicherweise nicht mit den Daten bereitgestellt. Daher muss ein Datenwissenschaftler, der einen Datensatz vorbereitet, die Einschränkungen manuell aufdecken, indem er sich die Daten ansieht. Dies kann mühsam, fehleranfällig und zeitaufwändig sein.

Musterlernen analysiert Ihre Daten automatisch und zeigt Textbeschränkungen auf, die möglicherweise für Ihren Datensatz gelten. Für das Beispiel mit Telefonnummern kann Musterlernen die Daten analysieren und feststellen, dass die überwiegende Mehrheit der Telefonnummern der Textbeschränkung entspricht [1-9][0-9]{2}-[0-9][4]. Es kann Sie auch darauf hinweisen, dass es Beispiele für ungültige Daten gibt, damit Sie diese ausschließen oder korrigieren können.

In den folgenden Abschnitten demonstrieren wir, wie Sie Musterlernen in Data Wrangler verwenden, indem wir einen fiktiven Datensatz von Produktkategorien und SKU-Codes (Stock Keeping Unit) verwenden.

Dieser Datensatz enthält Merkmale, die Produkte nach Unternehmen, Marke und Energieverbrauch beschreiben. Insbesondere enthält es eine Funktions-SKU, die schlecht formatiert ist. Alle Daten in diesem Datensatz sind fiktiv und werden zufällig unter Verwendung zufälliger Markennamen und Gerätenamen erstellt.

Voraussetzungen:

Bevor Sie mit der Verwendung von Data Wrangler beginnen, herunterladen den Beispieldatensatz und laden Sie ihn an einen Ort in hoch Amazon Simple Storage-Service (Amazon S3). Anweisungen finden Sie unter Hochladen von Objekten.

Importieren Sie Ihren Datensatz

Führen Sie die folgenden Schritte aus, um Ihr Dataset zu importieren:

  1. Wählen Sie in Data Wrangler Importieren und erkunden Sie Daten für ML.
  2. Auswählen Import.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  3. Aussichten für Daten importieren, wählen Amazon S3.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  4. Suchen Sie die Datei in Amazon S3 und wählen Sie sie aus Import.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Nach dem Import können wir zum Datenfluss navigieren.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Erhalten Sie Dateneinblicke

In diesem Schritt erstellen wir einen Data-Insight-Bericht, der Informationen zur Datenqualität enthält. Weitere Informationen finden Sie unter Erhalten Sie Einblicke in Daten und Datenqualität. Führen Sie die folgenden Schritte aus:

  1. Auf dem Datenfluss Wählen Sie auf der Registerkarte das Pluszeichen neben aus Datentypen.
  2. Auswählen Erhalten Sie Dateneinblicke.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  3. Aussichten für Analysetyp, wählen Datenqualitäts- und Insights-Bericht.
  4. Für diesen Beitrag verlassen Zielspalte und Problemtyp leer. Wenn Sie beabsichtigen, Ihr Dataset für eine Regressions- oder Klassifizierungsaufgabe mit einem Zielmerkmal zu verwenden, können Sie diese Optionen auswählen und der Bericht enthält eine Analyse darüber, wie sich Ihre Eingabemerkmale auf Ihr Ziel beziehen. Beispielsweise kann es Berichte über Zielverluste erstellen. Weitere Informationen finden Sie unter Zielspalte.
  5. Auswählen Erstellen.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir haben jetzt einen Data Quality and Data Insights Report. Wenn wir nach unten scrollen zu den SKU Abschnitt sehen wir ein Beispiel für Musterlernen, das die SKU beschreibt. Diese Funktion scheint einige ungültige Daten zu enthalten, und eine umsetzbare Behebung ist erforderlich.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Bevor wir die SKU-Funktion bereinigen, scrollen wir nach oben zur Marke Abschnitt, um weitere Einblicke zu erhalten. Hier sehen wir, dass zwei Muster aufgedeckt wurden, die darauf hindeuten, dass die meisten Markennamen aus einzelnen Wörtern bestehen, die aus Wortzeichen oder Buchstaben bestehen. EIN Wortzeichen ist entweder ein Unterstrich oder ein Zeichen, das in einem Wort in jeder Sprache vorkommen kann. Zum Beispiel die Saiten Hello_world und écoute beide bestehen aus Wortzeichen: H und é.

Für diesen Beitrag bereinigen wir diese Funktion nicht.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Zeigen Sie Musterlerneinblicke an

Kehren wir zum Reinigen von SKUs zurück und vergrößern das Muster und die Warnmeldung.

Wie im folgenden Screenshot gezeigt, zeigt Musterlernen ein Muster mit hoher Genauigkeit, das mit 97.78 % der Daten übereinstimmt. Es zeigt auch einige Beispiele, die mit dem Muster übereinstimmen, sowie Beispiele, die nicht mit dem Muster übereinstimmen. In den Nichtübereinstimmungen sehen wir einige ungültige SKUs.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Zusätzlich zu den angezeigten Mustern wird möglicherweise eine Warnung angezeigt, die auf eine mögliche Aktion zum Bereinigen von Daten hinweist, wenn ein Muster mit hoher Genauigkeit vorhanden ist, sowie einige Daten, die nicht dem Muster entsprechen.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir können die ungültigen Daten weglassen. Wenn wir den regulären Ausdruck auswählen (Rechtsklick), können wir den Ausdruck kopieren [A-Z]{3}-[0-9]{4,5}.

Ungültige Daten entfernen

Lassen Sie uns eine Transformation erstellen, um nicht konforme Daten auszulassen, die nicht mit diesem Muster übereinstimmen.

  1. Auf dem Datenfluss Wählen Sie auf der Registerkarte das Pluszeichen neben aus Datentypen.
  2. Auswählen Transformation hinzufügen.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  3. Auswählen Schritt hinzufügen.
  4. Suchen Sie nach HEIF-Bilderweiterungen. regex und wählen Sie Suchen und bearbeiten.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  5. Aussichten für Transformieren, wählen Wandeln Sie Nichtübereinstimmungen in Fehlende um.
  6. Aussichten für Eingabespalten, wählen SKU.
  7. Aussichten für Schnittmuster, geben Sie unseren regulären Ausdruck ein.
  8. Auswählen Vorspann, Dann wählen Speichern.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
    Jetzt wurden die überflüssigen Daten aus den Features entfernt.
  9. Um die Zeilen zu entfernen, fügen Sie den Schritt hinzu Griff fehlt und wählen Sie die Transformation Tropfen fehlt.
  10. Auswählen SKU als Eingabespalte.
    Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir kehren zu unserem Datenfluss zurück, wobei die fehlerhaften Daten entfernt sind.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Zusammenfassung

In diesem Beitrag haben wir Ihnen gezeigt, wie Sie die Musterlernfunktion in Data Insights verwenden, um ungültige Textdaten in Ihrem Datensatz zu finden, und wie Sie diese Daten korrigieren oder weglassen können.

Nachdem Sie eine Textspalte bereinigt haben, können Sie Ihr Dataset mithilfe von visualisieren Analyse oder Sie können sich bewerben eingebaute Transformationen zur weiteren Verarbeitung Ihrer Daten. Wenn Sie mit Ihren Daten zufrieden sind, können Sie das tun ein Modell trainieren mit Amazon SageMaker-Autopilot, oder Exportieren Sie Ihre Daten an eine Datenquelle wie Amazon S3.

Wir möchten Nikita Ivkin für seine aufmerksame Bewertung danken.


Über die Autoren

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Vishaal Kapoor ist Senior Applied Scientist bei AWS AI. Er ist leidenschaftlich daran interessiert, Kunden dabei zu helfen, ihre Daten in Data Wrangler zu verstehen. In seiner Freizeit fährt er Mountainbike, Snowboard und verbringt Zeit mit seiner Familie.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Zohar Karnin ist leitender Wissenschaftler bei Amazon AI. Seine Forschungsinteressen liegen in den Bereichen Large-Scale- und Online-Machine-Learning-Algorithmen. Er entwickelt unendlich skalierbare Algorithmen für maschinelles Lernen für Amazon SageMaker.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Ajai Sharma ist Principal Product Manager für Amazon SageMaker, wo er sich auf Data Wrangler konzentriert, ein visuelles Datenvorbereitungstool für Data Scientists. Vor AWS war Ajai Data Science Expert bei McKinsey and Company, wo er ML-fokussierte Engagements für führende Finanz- und Versicherungsunternehmen weltweit leitete. Ajai interessiert sich leidenschaftlich für Data Science und liebt es, die neuesten Algorithmen und maschinellen Lerntechniken zu erforschen.

Erkennen Sie Muster in Textdaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Derek Baron ist Softwareentwicklungsmanager für Amazon SageMaker Data Wrangler

Zeitstempel:

Mehr von AWS Maschinelles Lernen