Amazon SageMaker Data Wrangler reduziert die Zeit für die Aggregation und Vorbereitung von Daten für maschinelles Lernen (ML) von Wochen auf Minuten. Mit Data Wrangler können Sie Daten mit nur wenigen Klicks auswählen und abfragen, Daten mit über 300 integrierten Datentransformationen schnell transformieren und Ihre Daten mit integrierten Visualisierungen verstehen, ohne Code schreiben zu müssen.
Darüber hinaus können Sie erstellen benutzerdefinierte Transformationen individuell auf Ihre Anforderungen zugeschnitten. Mit benutzerdefinierten Transformationen können Sie benutzerdefinierte Transformationen mit PySpark, Pandas oder SQL schreiben.
Data Wrangler unterstützt jetzt eine benutzerdefinierte Benutzerdefinierte Pandas-Funktion (UDF)-Transformation, die große Datenmengen effizient verarbeiten kann. Sie können zwischen zwei benutzerdefinierten Pandas-UDF-Modi wählen: Pandas und Python. Beide Modi bieten eine effiziente Lösung zur Verarbeitung von Datensätzen. Welchen Modus Sie wählen, hängt von Ihren Vorlieben ab.
In diesem Beitrag zeigen wir, wie Sie die neue Pandas UDF-Transformation in beiden Modi verwenden.
Lösungsüberblick
Zum Zeitpunkt der Erstellung dieses Artikels können Sie Datensätze aus Data Wrangler importieren Amazon Simple Storage-Service (Amazon S3), Amazonas Athena, Amazon RedShift, Databricks und Snowflake. Für diesen Beitrag verwenden wir Amazon S3 zum Speichern des Jahres 2014 Amazon-Rezensionsdatensatz.
Die Daten haben eine Spalte namens reviewText
Enthält benutzergenerierten Text. Der Text enthält auch mehrere stoppe Wörter, das sind gebräuchliche Wörter, die nicht viele Informationen liefern, wie zum Beispiel „ein“, „ein“ und „der“. Das Entfernen von Stoppwörtern ist ein häufiger Vorverarbeitungsschritt in NLP-Pipelines (Natural Language Processing). Wir können eine benutzerdefinierte Funktion erstellen, um die Stoppwörter aus den Bewertungen zu entfernen.
Erstellen Sie eine benutzerdefinierte Pandas-UDF-Transformation
Lassen Sie uns den Prozess der Erstellung zweier benutzerdefinierter Pandas-UDF-Transformationen von Data Wrangler im Pandas- und Python-Modus durchgehen.
- Laden Sie die Digital Music Review-Datensatz und laden Sie es auf Amazon S3 hoch.
- Offen Amazon SageMaker-Studio und erstellen Sie einen neuen Data Wrangler-Flow.
- Der Daten importieren, wählen Amazon S3 und navigieren Sie zum Speicherort des Datensatzes.
- Aussichten für Dateityp, wählen jsonl.
In der Tabelle sollte eine Vorschau der Daten angezeigt werden.
- Auswählen
Import fortfahren.
- Nachdem Ihre Daten importiert wurden, wählen Sie das Pluszeichen daneben Datentypen und wählen Sie Transformation hinzufügen.
- Auswählen
Benutzerdefinierte Transformation.
- Im Dropdown-Menü Python (benutzerdefinierte Funktion).
Jetzt erstellen wir unsere benutzerdefinierte Transformation, um Stoppwörter zu entfernen.
- Geben Sie Ihre Eingabespalte, Ausgabespalte, Rückgabetyp und Modus an.
Das folgende Beispiel verwendet den Pandas-Modus. Das bedeutet, dass die Funktion eine Pandas-Reihe derselben Länge akzeptieren und zurückgeben sollte. Sie können sich eine Pandas-Reihe als eine Spalte in einer Tabelle oder als einen Teil der Spalte vorstellen. Dies ist der leistungsstärkste UDF-Modus von Pandas, da Pandas Vorgänge über Wertestapel hinweg vektorisieren kann, statt nur einen nach dem anderen. Der pd.Series
Typhinweise sind im Pandas-Modus erforderlich.
Wenn Sie statt der Pandas-API lieber reines Python verwenden möchten, können Sie im Python-Modus eine reine Python-Funktion angeben, die ein einzelnes Argument akzeptiert und einen einzelnen Wert zurückgibt. Das folgende Beispiel entspricht hinsichtlich der Ausgabe dem vorherigen Pandas-Code. Typhinweise sind im Python-Modus nicht erforderlich.
- Auswählen Speichern um Ihre benutzerdefinierte Transformation hinzuzufügen.
Zusammenfassung
Data Wrangler verfügt über über 300 integrierte Transformationen, und Sie können auch benutzerdefinierte Transformationen hinzufügen, die speziell auf Ihre Anforderungen zugeschnitten sind. In diesem Beitrag haben wir gezeigt, wie Datensätze mit der neuen benutzerdefinierten Pandas-UDF-Transformation von Data Wrangler verarbeitet werden, wobei sowohl der Pandas- als auch der Python-Modus verwendet werden. Sie können je nach Wunsch einen der beiden Modi verwenden. Weitere Informationen zu Data Wrangler finden Sie unter Erstellen und verwenden Sie einen Data Wrangler-Flow.
Über die Autoren
Ben Harris ist ein Softwareentwickler mit Erfahrung im Entwerfen, Bereitstellen und Warten skalierbarer Datenpipelines und Lösungen für maschinelles Lernen in verschiedenen Bereichen. Ben hat unter anderem Systeme für die Datenerfassung und -kennzeichnung, Bild- und Textklassifizierung, Sequenz-zu-Sequenz-Modellierung, Einbettung und Clustering entwickelt.
Haider Naqvi ist Lösungsarchitekt bei AWS. Er verfügt über umfassende Erfahrung in der Softwareentwicklung und Unternehmensarchitektur. Er konzentriert sich darauf, Kunden dabei zu unterstützen, mit AWS Geschäftsergebnisse zu erzielen. Er hat seinen Sitz in New York.
Vishal Srivastava ist Technical Account Manager bei AWS. Mit einem Hintergrund in Softwareentwicklung und Analyse arbeitet er hauptsächlich mit Kunden aus dem Finanzdienstleistungssektor und Digital-Native-Geschäftskunden und unterstützt sie bei der Umstellung auf die Cloud. In seiner Freizeit reist er gerne mit seiner Familie.
- Coinsmart. Europas beste Bitcoin- und Krypto-Börse.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. DEN FREIEN ZUGANG.
- CryptoHawk. Altcoin-Radar. Kostenlose Testphase.
- Quelle: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Über Uns
- Konto
- über
- Amazon
- unter
- Analytik
- Bienen
- Architektur
- verfügbar
- AWS
- Hintergrund
- eingebaut
- Geschäft
- Auswählen
- Einstufung
- Cloud
- Code
- Sammlung
- Kolonne
- gemeinsam
- enthält
- erstellen
- Erstellen
- Original
- Kunden
- technische Daten
- zeigen
- Synergie
- hängt
- Bereitstellen
- Entwerfen
- Entwicklung
- digital
- Domains
- effizient
- effizient
- ermöglichen
- Ingenieur
- Unternehmen
- Beispiel
- ERFAHRUNGEN
- umfangreiche
- Familie
- Revolution
- Finanzdienstleistungen
- Fluss
- konzentriert
- Folgende
- Frei
- Funktion
- Ultraschall
- Hilfe
- HTTPS
- Image
- Information
- Varianten des Eingangssignals:
- IT
- Joins
- Beschriftung
- Sprache
- grosse
- LERNEN
- lernen
- Standorte
- Maschine
- Maschinelles Lernen
- Manager
- Spiel
- ML
- mehr
- vor allem warme
- Musik
- Natürliche
- New York
- Einkauf & Prozesse
- Danach
- Vorspann
- Prozessdefinierung
- Verarbeitung
- die
- Direkt
- schnell
- falls angefordert
- Voraussetzungen:
- Rückkehr
- Rückgabe
- Bewertungen
- skalierbaren
- Bibliotheken
- Modellreihe
- Lösungen
- Einfacher
- Software
- Software-Entwicklung
- Software IngenieurIn
- Lösung
- Lösungen
- Räume
- Lagerung
- speichern
- Unterstützt
- Systeme und Techniken
- Technische
- Durch
- Zeit
- Zeichen
- Tokens
- Transformieren
- reisen
- verstehen
- einzigartiges
- -
- Wert
- Vielfalt
- ohne
- Worte
- Werk
- Schreiben