Erstellen Sie mit Amazon SageMaker Data Wrangler zufällige und stratifizierte Datenproben

Neuauflage von Plato

Verfolger: 0

In diesem Beitrag führen wir Sie durch zwei Sampling-Techniken Amazon SageMaker Data Wrangler So können Sie schnell Verarbeitungsworkflows für Ihre Daten erstellen. Wir decken sowohl zufällige Stichproben- als auch geschichtete Stichprobentechniken ab, um Ihnen zu helfen, Ihre Daten basierend auf Ihren spezifischen Anforderungen zu erfassen.

Data Wrangler reduziert die Zeit, die zum Sammeln und Vorbereiten von Daten für maschinelles Lernen (ML) benötigt wird, von Wochen auf Minuten. Sie können den Prozess der Datenvorbereitung und des Feature-Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich Datenauswahl, -bereinigung, -exploration und -visualisierung, über eine einzige visuelle Oberfläche abschließen. Mit dem Datenauswahltool von Data Wrangler können Sie die gewünschten Daten aus verschiedenen Datenquellen auswählen und mit einem einzigen Klick importieren. Data Wrangler enthält über 300 integrierte Datentransformationen, sodass Sie Funktionen schnell normalisieren, transformieren und kombinieren können, ohne Code schreiben zu müssen. Mit den Visualisierungsvorlagen von Data Wrangler können Sie schnell eine Vorschau anzeigen und überprüfen, ob diese Transformationen wie beabsichtigt abgeschlossen sind, indem Sie sie anzeigen Amazon SageMaker-Studio, die erste vollständig integrierte Entwicklungsumgebung (IDE) für ML. Nachdem Ihre Daten vorbereitet sind, können Sie vollautomatisierte ML-Workflows mit erstellen Amazon SageMaker-Pipelines und speichern Sie sie zur Wiederverwendung in Amazon SageMaker Feature Store.

Was ist Sampling und wie kann es helfen?

In der statistischen Analyse wird die Gesamtheit der Beobachtungen als bezeichnet Bevölkerung. Bei der Arbeit mit Daten ist es rechnerisch oft nicht möglich, jede Beobachtung aus der Population zu messen. Statistische Stichproben ist ein Verfahren, mit dem Sie Ihre Daten verstehen können, indem Sie Teilmengen aus der Grundgesamtheit auswählen.

Das Sampling bietet eine praktische Lösung, bei der zugunsten der Praktikabilität und Einfachheit etwas Genauigkeit geopfert wird. Um sicherzustellen, dass Ihre Stichprobe die Gesamtpopulation gut repräsentiert, können Sie Stichprobenstrategien anwenden. Data Wrangler unterstützt zwei der gängigsten Strategien: Stichproben machen geschichtete Stichprobe.

Stichproben

Wenn Sie über ein großes Dataset verfügen, kann das Experimentieren mit diesem Dataset zeitaufwändig sein. Data Wrangler bietet Stichproben, damit Sie Ihre Daten effizient verarbeiten und visualisieren können. Beispielsweise möchten Sie möglicherweise die durchschnittliche Anzahl der Einkäufe für einen Kunden innerhalb eines Zeitrahmens oder die Fluktuationsrate eines Abonnenten berechnen. Sie können eine Zufallsstichprobe verwenden, um Annäherungen an diese Metriken zu visualisieren.

Aus Ihrem Datensatz wird eine Zufallsstichprobe ausgewählt, sodass jedes Element mit gleicher Wahrscheinlichkeit ausgewählt wird. Dieser Vorgang wird auf effiziente Weise ausgeführt, die für große Datasets geeignet ist, sodass die zurückgegebene Stichprobengröße ungefähr der angeforderten Größe entspricht und nicht unbedingt der angeforderten Größe entspricht.

Sie können Zufallsstichproben verwenden, wenn Sie schnelle Näherungsberechnungen durchführen möchten, um Ihren Datensatz zu verstehen. Mit zunehmender Stichprobengröße kann die Zufallsstichprobe den gesamten Datensatz besser annähern, aber wenn Sie nicht alle Datenpunkte einbeziehen, enthält Ihre Zufallsstichprobe möglicherweise nicht alle Ausreißer und Grenzfälle. Wenn Sie Ihren gesamten Datensatz interaktiv aufbereiten möchten, können Sie auch auf einen größeren Instanztyp umsteigen.

Als allgemeine Regel gilt, dass der Stichprobenfehler bei der Berechnung des Mittelwerts der Grundgesamtheit unter Verwendung einer Zufallsstichprobe gegen 0 tendiert, wenn die Stichprobe größer wird. Mit zunehmender Stichprobengröße nimmt der Fehler als Kehrwert der Quadratwurzel der Stichprobengröße ab. Grundsätzlich gilt: Je größer die Stichprobe, desto besser die Annäherung.

Geschichtete Stichprobe

In einigen Fällen kann Ihre Bevölkerung in Schichten oder sich gegenseitig ausschließende Bereiche unterteilt werden, z. B. geografischer Standort für Adressen, Veröffentlichungsjahr für Songs oder Steuerklassen für Einkommen. Zufallsstichproben sind die beliebteste Stichprobentechnik, aber wenn einige Schichten in Ihrer Population ungewöhnlich sind, können Sie in Data Wrangler geschichtete Stichproben verwenden, um sicherzustellen, dass jede Schicht proportional in Ihrer Stichprobe vertreten ist. Dies kann nützlich sein, um Stichprobenfehler zu reduzieren und sicherzustellen, dass Sie während Ihrer Experimente Grenzfälle erfassen.

In der realen Welt sind betrügerische Kreditkartentransaktionen seltene Ereignisse und machen normalerweise weniger als 1 % Ihrer Daten aus. Wenn wir nach dem Zufallsprinzip Stichproben ziehen, ist es nicht ungewöhnlich, dass die Stichprobe nur sehr wenige oder gar keine betrügerischen Transaktionen enthält. Infolgedessen hätten wir beim Trainieren eines Modells zu wenige betrügerische Beispiele, um ein genaues Modell zu lernen. Wir können geschichtete Stichproben verwenden, um sicherzustellen, dass betrügerische Transaktionen proportional vertreten sind.

Bei der geschichteten Stichprobe ist die Größe jeder Schicht in der Stichprobe proportional zur Größe der Schichten in der Grundgesamtheit. Dies funktioniert, indem Sie Ihre Daten basierend auf Ihrer angegebenen Spalte in Schichten unterteilen, Zufallsstichproben aus jeder Schicht mit dem richtigen Anteil auswählen und diese Stichproben zu einer geschichteten Stichprobe der Grundgesamtheit kombinieren.

Geschichtete Stichproben sind eine nützliche Technik, wenn Sie verstehen möchten, wie sich verschiedene Gruppen in Ihren Daten im Vergleich zueinander darstellen, und Sie sicherstellen möchten, dass jede Gruppe angemessen dargestellt wird.

Stichproben beim Import aus Amazon S3

In diesem Abschnitt verwenden wir Zufallsstichproben mit einem Datensatz, der sowohl aus betrügerischen als auch nicht betrügerischen Ereignissen aus unserem Betrugserkennungssystem besteht. Sie können herunterladen der Datensatz, der zusammen mit diesem Beitrag folgen soll (CC 4.0 internationale Namensnennungslizenz).

Zum Zeitpunkt des Schreibens dieses Artikels können Sie Datensätze aus importieren Amazon Simple Storage-Service (Amazon S3), Amazonas Athena, Amazon RedShift, und Schneeflocke. Unser Datensatz ist sehr groß und enthält 1 Million Zeilen. In diesem Fall möchten wir 1,0000 Zeilen beim Import aus Amazon S3 für einige interaktive Experimente in Data Wrangler abtasten.

Öffnen Sie SageMaker Studio und erstellen Sie einen neuen Data Wrangler-Flow.
Der Daten importieren, wählen Amazon S3.
Wählen Sie den zu importierenden Datensatz aus.
Im Details Geben Sie im Bereich Ihren Dataset-Namen und Dateityp an.
Aussichten für Probennahme , wählen Zufällig.
Aussichten für Stichprobenumfang, eingeben 10000.
Auswählen Import um den Datensatz in Data Wrangler zu laden.

Sie können zwei unterschiedliche Schritte auf der Datenflussseite in Data Wrangler visualisieren. Der erste Schritt zeigt das Laden des Stichprobendatensatzes basierend auf der von Ihnen definierten Stichprobenstrategie an. Nachdem die Daten geladen wurden, führt Data Wrangler eine automatische Erkennung der Datentypen für jede Spalte im Dataset durch. Dieser Schritt wird standardmäßig für alle Datensätze hinzugefügt.

Sie können jetzt die zufällig ausgewählten Daten in Data Wrangler überprüfen, indem Sie eine Analyse hinzufügen.

Wählen Sie das Pluszeichen neben Datentypen und wählen Sie Analyse.
Aussichten für Analysetypwählen Streudiagramm.
Auswählen feat_1 machen feat_2 wie für X Achse machen Y-Achse, Bzw.
Aussichten für Farbe nach, wählen ist_betrug.

Wenn Sie mit dem Datensatz vertraut sind, fahren Sie mit weiteren Datentransformationen gemäß Ihren Geschäftsanforderungen fort, um Ihre Daten für ML vorzubereiten.

Im folgenden Screenshot können wir die betrügerischen (dunkelblau) und nicht betrügerischen (hellblau) Transaktionen in unserer Analyse beobachten.

Im nächsten Abschnitt erörtern wir die Verwendung von geschichteten Stichproben, um sicherzustellen, dass die betrügerischen Fälle proportional ausgewählt werden.

Geschichtetes Sampling mit einer Transformation

Data Wrangler ermöglicht Ihnen das Sampling beim Import sowie das Sampling über eine Transformation. In diesem Abschnitt besprechen wir die Verwendung von geschichteter Stichprobenziehung über eine Transformation, nachdem Sie Ihr Dataset in Data Wrangler importiert haben.

Um die Probenahme zu initiieren, auf der Datenfluss wählen Sie das Pluszeichen neben dem importierten Datensatz und wählen Sie Transformation hinzufügen.

Zum Zeitpunkt des Schreibens dieses Artikels bietet Data Wrangler mehr als 300 eingebaute Transformationen. Zusätzlich zu den integrierten Transformationen können Sie Ihre eigenen benutzerdefinierten Transformationen in Pandas oder PySpark schreiben.

Von dem Transformation hinzufügen Liste, wählen Sie Probennahme .

Sie können jetzt drei unterschiedliche Stichprobenstrategien verwenden: Limit, Random und Stratified.

Aussichten für Probenahmeverfahren, wählen Geschichtet.
Verwenden Sie das is_fraud Spalte als Stratifizierungsspalte.
Auswählen Vorspann , um eine Vorschau der Transformation anzuzeigen, und wählen Sie dann aus Speichern um diese Transformation als Schritt zu Ihrem Transformationsrezept hinzuzufügen.

Ihr Datenfluss spiegelt jetzt den hinzugefügten Sampling-Schritt wider.

Jetzt können wir die zufällig ausgewählten Daten überprüfen, indem wir eine Analyse hinzufügen.

Wählen Sie das Pluszeichen und wählen Sie aus Analyse.
Aussichten für Analysetypwählen Histogramm.
Auswählen ist_betrug sowohl X Achse machen Farbe nach.
Auswählen Vorspann.

Im folgenden Screenshot können wir die Aufschlüsselung der betrügerischen (dunkelblau) und nicht betrügerischen (hellblau) Fälle beobachten, die durch geschichtete Stichproben in den richtigen Anteilen von 20 % betrügerisch und 80 % nicht betrügerisch ausgewählt wurden.

Zusammenfassung

Bei der Arbeit mit extrem großen Datensätzen ist es wichtig, Daten korrekt zu sampeln und die richtige Sampling-Strategie zu wählen, um Ihre Geschäftsanforderungen zu erfüllen. Die Effektivität Ihres Samplings hängt von verschiedenen Faktoren ab, darunter Geschäftsergebnis, Datenverfügbarkeit und Verteilung. In diesem Beitrag haben wir behandelt, wie Sie Data Wrangler und seine integrierten Sampling-Strategien verwenden, um Ihre Daten vorzubereiten.

Sie können diese Funktion noch heute in allen Regionen nutzen, in denen SageMaker Studio verfügbar ist. Um loszulegen, besuchen Sie Vorbereiten von ML-Daten mit Amazon SageMaker Data Wrangler.

Danksagung

Die Autoren möchten Jonathan Chung (Applied Scientist) für seine Überprüfung und sein wertvolles Feedback zu diesem Artikel danken.

Über die Autoren

Ben Harris ist ein Softwareentwickler mit Erfahrung in der Entwicklung, Bereitstellung und Wartung skalierbarer Datenpipelines und Lösungen für maschinelles Lernen in einer Vielzahl von Bereichen.

Vishaal Kapoor ist Senior Applied Scientist bei AWS AI. Er ist leidenschaftlich daran interessiert, Kunden dabei zu helfen, ihre Daten in Data Wrangler zu verstehen. In seiner Freizeit fährt er Mountainbike, Snowboard und verbringt Zeit mit seiner Familie.

Meenakshisundaram Thandavarayan ist Senior AI/ML-Spezialist bei AWS. Er hilft strategischen Hi-Tech-Kunden auf ihrer KI- und ML-Reise. Er interessiert sich sehr für datengetriebene KI.

Ajai Sharma ist Principal Product Manager für Amazon SageMaker, wo er sich auf Data Wrangler konzentriert, ein visuelles Datenvorbereitungstool für Data Scientists. Vor AWS war Ajai Data Science Expert bei McKinsey and Company, wo er ML-fokussierte Engagements für führende Finanz- und Versicherungsunternehmen weltweit leitete. Ajai interessiert sich leidenschaftlich für Data Science und liebt es, die neuesten Algorithmen und maschinellen Lerntechniken zu erforschen.

Zeitstempel: 26. April 2022

Zeitstempel: 6. Februar 2024

Erstellen Sie zufällige und geschichtete Datenstichproben mit Amazon SageMaker Data Wrangler

Neuauflage von Plato

Was ist Sampling und wie kann es helfen?

Stichproben

Geschichtete Stichprobe

Stichproben beim Import aus Amazon S3

Geschichtetes Sampling mit einer Transformation

Zusammenfassung

Danksagung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Feinabstimmung von Whisper-Modellen auf Amazon SageMaker mit LoRA | Amazon Web Services

Durchsuchen Sie Adobe Experience Manager-Inhalte intelligent mit Amazon Kendra | Amazon Web Services

Erstellen Sie synthetische Daten für Computer-Vision-Pipelines auf AWS

Operationalisieren Sie Ihre Amazon SageMaker Studio-Notebooks als geplante Notebook-Jobs

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto