Benutzerdefinierte Pandas-Funktionen sind jetzt in Amazon SageMaker Data Wrangler verfügbar

Neuauflage von Plato

Verfolger: 0

Amazon SageMaker Data Wrangler reduziert die Zeit für die Aggregation und Vorbereitung von Daten für maschinelles Lernen (ML) von Wochen auf Minuten. Mit Data Wrangler können Sie Daten mit nur wenigen Klicks auswählen und abfragen, Daten mit über 300 integrierten Datentransformationen schnell transformieren und Ihre Daten mit integrierten Visualisierungen verstehen, ohne Code schreiben zu müssen.

Darüber hinaus können Sie erstellen benutzerdefinierte Transformationen individuell auf Ihre Anforderungen zugeschnitten. Mit benutzerdefinierten Transformationen können Sie benutzerdefinierte Transformationen mit PySpark, Pandas oder SQL schreiben.

Data Wrangler unterstützt jetzt eine benutzerdefinierte Benutzerdefinierte Pandas-Funktion (UDF)-Transformation, die große Datenmengen effizient verarbeiten kann. Sie können zwischen zwei benutzerdefinierten Pandas-UDF-Modi wählen: Pandas und Python. Beide Modi bieten eine effiziente Lösung zur Verarbeitung von Datensätzen. Welchen Modus Sie wählen, hängt von Ihren Vorlieben ab.

In diesem Beitrag zeigen wir, wie Sie die neue Pandas UDF-Transformation in beiden Modi verwenden.

Lösungsüberblick

Zum Zeitpunkt der Erstellung dieses Artikels können Sie Datensätze aus Data Wrangler importieren Amazon Simple Storage-Service (Amazon S3), Amazonas Athena, Amazon RedShift, Databricks und Snowflake. Für diesen Beitrag verwenden wir Amazon S3 zum Speichern des Jahres 2014 Amazon-Rezensionsdatensatz.

Die Daten haben eine Spalte namens reviewText Enthält benutzergenerierten Text. Der Text enthält auch mehrere stoppe Wörter, das sind gebräuchliche Wörter, die nicht viele Informationen liefern, wie zum Beispiel „ein“, „ein“ und „der“. Das Entfernen von Stoppwörtern ist ein häufiger Vorverarbeitungsschritt in NLP-Pipelines (Natural Language Processing). Wir können eine benutzerdefinierte Funktion erstellen, um die Stoppwörter aus den Bewertungen zu entfernen.

Erstellen Sie eine benutzerdefinierte Pandas-UDF-Transformation

Lassen Sie uns den Prozess der Erstellung zweier benutzerdefinierter Pandas-UDF-Transformationen von Data Wrangler im Pandas- und Python-Modus durchgehen.

Laden Sie die Digital Music Review-Datensatz und laden Sie es auf Amazon S3 hoch.
Offen Amazon SageMaker-Studio und erstellen Sie einen neuen Data Wrangler-Flow.
Der Daten importieren, wählen Amazon S3 und navigieren Sie zum Speicherort des Datensatzes.
Aussichten für Dateityp, wählen jsonl.

In der Tabelle sollte eine Vorschau der Daten angezeigt werden.

Auswählen Import fortfahren.
Nachdem Ihre Daten importiert wurden, wählen Sie das Pluszeichen daneben Datentypen und wählen Sie Transformation hinzufügen.
Auswählen Benutzerdefinierte Transformation.
Im Dropdown-Menü Python (benutzerdefinierte Funktion).

Jetzt erstellen wir unsere benutzerdefinierte Transformation, um Stoppwörter zu entfernen.

Geben Sie Ihre Eingabespalte, Ausgabespalte, Rückgabetyp und Modus an.

Das folgende Beispiel verwendet den Pandas-Modus. Das bedeutet, dass die Funktion eine Pandas-Reihe derselben Länge akzeptieren und zurückgeben sollte. Sie können sich eine Pandas-Reihe als eine Spalte in einer Tabelle oder als einen Teil der Spalte vorstellen. Dies ist der leistungsstärkste UDF-Modus von Pandas, da Pandas Vorgänge über Wertestapel hinweg vektorisieren kann, statt nur einen nach dem anderen. Der pd.Series Typhinweise sind im Pandas-Modus erforderlich.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Wenn Sie statt der Pandas-API lieber reines Python verwenden möchten, können Sie im Python-Modus eine reine Python-Funktion angeben, die ein einzelnes Argument akzeptiert und einen einzelnen Wert zurückgibt. Das folgende Beispiel entspricht hinsichtlich der Ausgabe dem vorherigen Pandas-Code. Typhinweise sind im Python-Modus nicht erforderlich.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Auswählen Speichern um Ihre benutzerdefinierte Transformation hinzuzufügen.

Zusammenfassung

Data Wrangler verfügt über über 300 integrierte Transformationen, und Sie können auch benutzerdefinierte Transformationen hinzufügen, die speziell auf Ihre Anforderungen zugeschnitten sind. In diesem Beitrag haben wir gezeigt, wie Datensätze mit der neuen benutzerdefinierten Pandas-UDF-Transformation von Data Wrangler verarbeitet werden, wobei sowohl der Pandas- als auch der Python-Modus verwendet werden. Sie können je nach Wunsch einen der beiden Modi verwenden. Weitere Informationen zu Data Wrangler finden Sie unter Erstellen und verwenden Sie einen Data Wrangler-Flow.

Über die Autoren

Ben Harris ist ein Softwareentwickler mit Erfahrung im Entwerfen, Bereitstellen und Warten skalierbarer Datenpipelines und Lösungen für maschinelles Lernen in verschiedenen Bereichen. Ben hat unter anderem Systeme für die Datenerfassung und -kennzeichnung, Bild- und Textklassifizierung, Sequenz-zu-Sequenz-Modellierung, Einbettung und Clustering entwickelt.

Haider Naqvi ist Lösungsarchitekt bei AWS. Er verfügt über umfassende Erfahrung in der Softwareentwicklung und Unternehmensarchitektur. Er konzentriert sich darauf, Kunden dabei zu unterstützen, mit AWS Geschäftsergebnisse zu erzielen. Er hat seinen Sitz in New York.

Vishal Srivastava ist Technical Account Manager bei AWS. Mit einem Hintergrund in Softwareentwicklung und Analyse arbeitet er hauptsächlich mit Kunden aus dem Finanzdienstleistungssektor und Digital-Native-Geschäftskunden und unterstützt sie bei der Umstellung auf die Cloud. In seiner Freizeit reist er gerne mit seiner Familie.

Zeitstempel: 28. April 2022

Zeitstempel: 20. Juli 2022

Benutzerdefinierte Funktionen von Pandas sind jetzt in Amazon SageMaker Data Wrangler verfügbar

Neuauflage von Plato

Lösungsüberblick

Erstellen Sie eine benutzerdefinierte Pandas-UDF-Transformation

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Leistungsempfehlung und Suche mit einem IMDb Knowledge Graph – Teil 1

Metriken zur Bewertung der Inhaltsmoderation in Amazon Rekognition und anderen Inhaltsmoderationsdiensten

Erkennen Sie gegnerische Eingaben mit Amazon SageMaker Model Monitor und Amazon SageMaker Debugger

Neue erweiterte Datenformatunterstützung in Amazon Kendra

Beschleunigen Sie die Bereitstellung von Geschäftseinblicken mit der direkten Verbindung von Amazon SageMaker Data Wrangler zu Snowflake | Amazon Web Services

Erstellen Sie taxonomiebasiertes Kontext-Targeting mit AWS Media Intelligence und Hugging Face BERT

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto