Passen Sie trainierte Parameter für große Datensätze mit Amazon SageMaker Data Wrangler an

Neuauflage von Plato

Verfolger: 0

Amazon SageMaker Data Wrangler hilft Ihnen, Daten für maschinelles Lernen (ML) über eine einzige visuelle Oberfläche zu verstehen, zu aggregieren, zu transformieren und vorzubereiten. Es enthält über 300 integrierte Datentransformationen, sodass Sie Funktionen schnell normalisieren, transformieren und kombinieren können, ohne Code schreiben zu müssen.

Data-Science-Praktiker generieren, beobachten und verarbeiten Daten, um Geschäftsprobleme zu lösen, wenn sie Funktionen aus Datensätzen transformieren und extrahieren müssen. Transformationen wie ordinale Kodierung oder One-Hot-Kodierung lernen Kodierungen in Ihrem Dataset. Diese codierten Ausgaben werden als trainierte Parameter bezeichnet. Da sich Datensätze im Laufe der Zeit ändern, kann es erforderlich sein, Codierungen für zuvor nicht sichtbare Daten neu anzupassen, um den Transformationsfluss für Ihre Daten relevant zu halten.

Wir freuen uns, die Funktion „Trainierte Parameter neu anpassen“ ankündigen zu können, mit der Sie zuvor trainierte Parameter verwenden und nach Wunsch neu anpassen können. In diesem Beitrag zeigen wir, wie Sie diese Funktion verwenden.

Überblick über die Refit-Funktion von Data Wrangler

Wir veranschaulichen, wie diese Funktion mit dem folgenden Beispiel funktioniert, bevor wir uns mit den Besonderheiten der Funktion zum erneuten Anpassen trainierter Parameter befassen.

Angenommen, Ihr Kundendatensatz hat eine kategoriale Funktion für country dargestellt als Zeichenfolgen wie Australia und Singapore. ML-Algorithmen erfordern numerische Eingaben; Daher müssen diese kategorialen Werte in numerische Werte codiert werden. Das Codieren von kategorialen Daten ist der Prozess der Erstellung einer numerischen Darstellung für Kategorien. Zum Beispiel, wenn Ihre Kategorie Land Werte hat Australia und Singapore, können Sie diese Informationen in zwei Vektoren codieren: [1, 0] zur Darstellung Australia und [0, 1] zur Darstellung Singapore. Die hier verwendete Transformation ist One-Hot-Codierung, und die neue codierte Ausgabe spiegelt die trainierten Parameter wider.

Nach dem Training des Modells können Ihre Kunden im Laufe der Zeit zunehmen und Sie haben deutlichere Werte in der Länderliste. Der neue Datensatz könnte eine andere Kategorie enthalten, India, das nicht Teil des ursprünglichen Datasets war, was die Modellgenauigkeit beeinträchtigen kann. Daher ist es notwendig, Ihr Modell mit den neuen Daten, die im Laufe der Zeit gesammelt wurden, neu zu trainieren.

Um dieses Problem zu lösen, müssen Sie die Codierung aktualisieren, um die neue Kategorie einzuschließen, und die Vektordarstellung gemäß Ihrem neuesten Datensatz aktualisieren. In unserem Beispiel sollte die Codierung die neue Kategorie für die widerspiegeln country, Das ist India. Wir bezeichnen diesen Vorgang des Aktualisierens einer Codierung üblicherweise als Refit-Vorgang. Nachdem Sie den Refit-Vorgang durchgeführt haben, erhalten Sie die neue Codierung: Australia: [1], Singapore: [0, 1, 0] und India: [0, 0, 1]. Das erneute Anpassen der One-Hot-Codierung und das anschließende erneute Trainieren des Modells auf dem neuen Datensatz führt zu qualitativ besseren Vorhersagen.

Die Refit-Trained-Parameter-Funktion von Data Wrangler ist in den folgenden Fällen nützlich:

Dem Datensatz werden neue Daten hinzugefügt – Das ML-Modell muss neu trainiert werden, wenn der Datensatz mit neuen Daten angereichert wird. Um optimale Ergebnisse zu erzielen, müssen wir die trainierten Parameter an den neuen Datensatz anpassen.
Training mit einem vollständigen Dataset nach der Durchführung von Feature-Engineering an Beispieldaten – Bei einem großen Datensatz wird eine Stichprobe des Datensatzes zum Lernen trainierter Parameter in Betracht gezogen, die möglicherweise nicht Ihren gesamten Datensatz darstellen. Wir müssen die trainierten Parameter für den vollständigen Datensatz neu lernen.

Im Folgenden sind einige der häufigsten Data Wrangler-Transformationen aufgeführt, die für das Dataset ausgeführt werden und von der Option zum erneuten Anpassen trainierter Parameter profitieren:

Weitere Informationen zu Transformationen in Data Wrangler finden Sie unter Daten transformieren.

In diesem Beitrag zeigen wir, wie diese trainierten Parameter auf Datensätzen mit Data Wrangler verarbeitet werden. Sie können Data Wrangler-Flows in Produktionsjobs verwenden, um Ihre Daten erneut zu verarbeiten, wenn sie wachsen und sich ändern.

Lösungsüberblick

In diesem Beitrag demonstrieren wir, wie Sie die Refit-Trained-Parameter-Funktion von Data Wrangler mit dem öffentlich verfügbaren Datensatz verwenden Kaggle: US-Wohnungsdaten von Zillow, zum Verkauf stehende Immobilien in den Vereinigten Staaten. Es hat die Hausverkaufspreise über verschiedene geografische Verteilungen von Häusern.

Das folgende Diagramm veranschaulicht die High-Level-Architektur von Data Wrangler unter Verwendung des Refit-Trained-Parameter-Features. Wir zeigen auch die Auswirkung auf die Datenqualität ohne den refit trainierten Parameter und stellen die Ergebnisse am Ende gegenüber.

Der Workflow umfasst die folgenden Schritte:

Führen Sie eine explorative Datenanalyse durch – Erstellen Sie einen neuen Flow auf Data Wrangler, um die explorative Datenanalyse (EDA) zu starten. Importieren Sie Geschäftsdaten, um Ihre Daten zu verstehen, zu bereinigen, zu aggregieren, zu transformieren und für Schulungen vorzubereiten. Beziehen auf Erkunden Sie die Funktionen von Amazon SageMaker Data Wrangler mit Beispieldatensätzen für weitere Details zur Durchführung von EDA mit Data Wrangler.
Erstellen Sie einen Datenverarbeitungsauftrag – Dieser Schritt exportiert alle Transformationen, die Sie am Dataset vorgenommen haben, als Flow-Datei, die in der konfigurierten Datei gespeichert ist Amazon Simple Storage-Service (Amazon S3) Standort. Der Datenverarbeitungsauftrag mit der von Data Wrangler generierten Flow-Datei wendet die Transformationen und trainierten Parameter an, die auf Ihrem Datensatz gelernt wurden. Wenn der Datenverarbeitungsauftrag abgeschlossen ist, werden die Ausgabedateien an den im Zielknoten konfigurierten Amazon S3-Speicherort hochgeladen. Beachten Sie, dass die Refit-Option standardmäßig deaktiviert ist. Anstatt den Verarbeitungsauftrag sofort auszuführen, können Sie das auch Planen Sie einen Verarbeitungsauftrag ein mit wenigen Klicks mit Data Wrangler – Job erstellen, der zu bestimmten Zeiten ausgeführt wird.
Erstellen Sie einen Datenverarbeitungsauftrag mit der Funktion zum erneuten Anpassen trainierter Parameter – Wählen Sie beim Erstellen des Jobs die Funktion „Neu anpassen trainierter Parameter“, um das Neulernen Ihrer trainierten Parameter für Ihren vollständigen oder verstärkten Datensatz zu erzwingen. Gemäß der Amazon S3-Standortkonfiguration zum Speichern der Flow-Datei erstellt oder aktualisiert der Datenverarbeitungsauftrag die neue Flow-Datei. Wenn Sie denselben Amazon S3-Standort wie in Schritt 2 konfigurieren, aktualisiert der Datenverarbeitungsauftrag die in Schritt 2 generierte Flow-Datei, die verwendet werden kann, um Ihren Flow für Ihre Daten relevant zu halten. Nach Abschluss des Verarbeitungsauftrags werden die Ausgabedateien in den für den Zielknoten konfigurierten S3-Bucket hochgeladen. Sie können den aktualisierten Ablauf für Ihren gesamten Datensatz für einen Produktionsworkflow verwenden.

Voraussetzungen:

Bevor Sie beginnen, laden Sie das Dataset in einen S3-Bucket hoch und importieren Sie es dann in Data Wrangler. Anweisungen finden Sie unter Importieren Sie Daten aus Amazon S3.

Gehen wir nun die im Architekturdiagramm erwähnten Schritte durch.

Führen Sie EDA in Data Wrangler durch

Richten Sie die folgende Analyse und Transformation in Data Wrangler ein, um die Funktion zum erneuten Anpassen trainierter Parameter auszuprobieren. Am Ende der Einrichtung von EDA erstellt Data Wrangler eine Flussdatei, die mit trainierten Parametern aus dem Datensatz erfasst wurde.

Erstellen Sie einen neuen Flow in Amazon SageMaker Data Wrangler für die explorative Datenanalyse.
Importieren Sie die Geschäftsdaten, die Sie in Amazon S3 hochgeladen haben.
Sie können eine Vorschau der Daten und Optionen zum Auswählen des Dateityps, Trennzeichens, Samplings usw. anzeigen. Für dieses Beispiel verwenden wir die Erst k Sampling-Option von Data Wrangler zum Importieren der ersten 50,000 Datensätze aus dem Datensatz.
Auswählen Import.