Bereiten Sie Zeitreihendaten mit Amazon SageMaker Data Wrangler vor

Neuauflage von Plato

Verfolger: 0

Zeitreihendaten sind in unserem Leben weit verbreitet. Aktienkurse, Immobilienpreise, Wetterinformationen und im Laufe der Zeit erfasste Verkaufsdaten sind nur einige Beispiele. Da Unternehmen zunehmend nach neuen Wegen suchen, um aussagekräftige Erkenntnisse aus Zeitreihendaten zu gewinnen, ist die Fähigkeit, Daten zu visualisieren und gewünschte Transformationen anzuwenden, ein grundlegender Schritt. Zeitreihendaten besitzen jedoch im Vergleich zu anderen Arten von Tabellendaten einzigartige Merkmale und Nuancen und erfordern besondere Überlegungen. Beispielsweise werden Standard-Tabellen- oder Querschnittsdaten zu einem bestimmten Zeitpunkt erhoben. Im Gegensatz dazu werden Zeitreihendaten im Laufe der Zeit wiederholt erfasst, wobei jeder aufeinanderfolgende Datenpunkt von seinen vergangenen Werten abhängt.

Da sich die meisten Zeitreihenanalysen auf die Informationen stützen, die über einen zusammenhängenden Satz von Beobachtungen gesammelt wurden, können fehlende Daten und inhärente Spärlichkeit die Genauigkeit von Prognosen verringern und zu Verzerrungen führen. Darüber hinaus verlassen sich die meisten Zeitreihenanalyseansätze auf gleiche Abstände zwischen Datenpunkten, mit anderen Worten, auf Periodizität. Daher ist die Fähigkeit, Unregelmäßigkeiten bei den Datenabständen zu beheben, eine entscheidende Voraussetzung. Schließlich erfordert die Zeitreihenanalyse häufig die Erstellung zusätzlicher Merkmale, die helfen können, die inhärente Beziehung zwischen Eingabedaten und zukünftigen Vorhersagen zu erklären. All diese Faktoren unterscheiden Zeitreihenprojekte von traditionellen maschinellen Lernszenarien (ML) und erfordern einen eigenen Ansatz für ihre Analyse.

Dieser Beitrag führt durch die Verwendung Amazon SageMaker Data Wrangler um Zeitreihentransformationen anzuwenden und Ihren Datensatz für Zeitreihen-Anwendungsfälle vorzubereiten.

Anwendungsfälle für Data Wrangler

Data Wrangler bietet eine No-Code/Low-Code-Lösung für die Zeitreihenanalyse mit Funktionen zum schnelleren Bereinigen, Transformieren und Vorbereiten von Daten. Es ermöglicht Datenwissenschaftlern auch, Zeitreihendaten in Übereinstimmung mit den Anforderungen an das Eingabeformat ihres Prognosemodells vorzubereiten. Im Folgenden finden Sie einige Möglichkeiten, wie Sie diese Funktionen nutzen können:

Beschreibende Analyse– Normalerweise besteht der erste Schritt eines Data-Science-Projekts darin, die Daten zu verstehen. Wenn wir Zeitreihendaten darstellen, erhalten wir einen allgemeinen Überblick über ihre Muster, wie z. B. Trend, Saisonalität, Zyklen und zufällige Variationen. Es hilft uns bei der Entscheidung über die richtige Prognosemethode zur genauen Darstellung dieser Muster. Das Plotten kann auch dabei helfen, Ausreißer zu identifizieren und unrealistische und ungenaue Prognosen zu vermeiden. Data Wrangler kommt mit a Visualisierung von Saisonabhängigkeitstrendzerlegungen zur Darstellung von Komponenten einer Zeitreihe und an Visualisierung der Ausreißererkennung Ausreißer zu identifizieren.
Erklärende Analyse– Bei multivariaten Zeitreihen ist die Fähigkeit, die Beziehung zwischen zwei oder mehr Zeitreihen zu untersuchen, zu identifizieren und zu modellieren, unerlässlich, um aussagekräftige Prognosen zu erhalten. Die Gruppiere nach transform in Data Wrangler erstellt mehrere Zeitreihen, indem Daten für bestimmte Zellen gruppiert werden. Darüber hinaus ermöglichen Data Wrangler-Zeitreihentransformationen, wo zutreffend, die Angabe zusätzlicher ID-Spalten für die Gruppierung, was eine komplexe Zeitreihenanalyse ermöglicht.
Datenaufbereitung und Feature-Engineering– Zeitreihendaten haben selten das von Zeitreihenmodellen erwartete Format. Häufig ist eine Datenaufbereitung erforderlich, um Rohdaten in zeitreihenspezifische Merkmale umzuwandeln. Möglicherweise möchten Sie vor der Analyse überprüfen, ob Zeitreihendaten regelmäßig oder in gleichen Abständen vorliegen. Für Prognoseanwendungsfälle möchten Sie möglicherweise auch zusätzliche Zeitreihenmerkmale wie Autokorrelation und statistische Eigenschaften integrieren. Mit Data Wrangler können Sie schnell Zeitreihenfunktionen wie Verzögerungsspalten für mehrere Verzögerungsperioden erstellen, Daten auf mehrere Zeitgranularitäten neu abtasten und statistische Eigenschaften einer Zeitreihe automatisch extrahieren, um nur einige Funktionen zu nennen.

Lösungsüberblick

In diesem Beitrag wird erläutert, wie Data Scientists und Analysten Data Wrangler verwenden können, um Zeitreihendaten zu visualisieren und vorzubereiten. Wir verwenden den Bitcoin-Kryptowährungsdatensatz von Kryptodaten herunterladen mit Bitcoin-Handelsdetails, um diese Fähigkeiten zu demonstrieren. Wir bereinigen, validieren und transformieren den Rohdatensatz mit Zeitreihenmerkmalen und erstellen auch Bitcoin-Volumenpreisprognosen unter Verwendung des transformierten Datensatzes als Eingabe.

Die Stichprobe der Bitcoin-Handelsdaten stammt vom 1. Januar bis 19. November 2021 mit 464,116 Datenpunkten. Die Datensatzattribute umfassen einen Zeitstempel der Preisaufzeichnung, den Eröffnungs- oder ersten Preis, zu dem die Münze an einem bestimmten Tag umgetauscht wurde, den höchsten Preis, zu dem die Münze an dem Tag umgetauscht wurde, den letzten Preis, zu dem die Münze umgetauscht wurde des Tages, das in der Kryptowährung ausgetauschte Volumen am Tag in BTC und der entsprechenden USD-Währung.

Voraussetzungen:

Laden Sie die Bitstamp_BTCUSD_2021_minute.csv Datei von Kryptodaten herunterladen und lade es hoch auf Einfacher Amazon-Speicherdienst (Amazon S3).

Importieren Sie den Bitcoin-Datensatz in Data Wrangler

Führen Sie die folgenden Schritte aus, um den Erfassungsprozess für Data Wrangler zu starten:

Auf dem SageMaker-Studio Konsole, auf der Reichen Sie das Menü, wählen Sie Neu, Dann wählen Daten-Wrangler-Flow.
Benennen Sie den Flow wie gewünscht um.
Aussichten für Daten importieren, wählen Amazon S3.
Laden Sie die Bitstamp_BTCUSD_2021_minute.csv Datei aus Ihrem S3-Bucket.

Sie können jetzt eine Vorschau Ihres Datensatzes anzeigen.

Im Details Fenster, wählen Sie Erweiterte Konfiguration und abwählen Probenahme aktivieren.

Dies ist ein relativ kleiner Datensatz, daher brauchen wir kein Sampling.

Auswählen Import.

Sie haben das Flussdiagramm erfolgreich erstellt und können Transformationsschritte hinzufügen.

Transformationen hinzufügen

Um Datentransformationen hinzuzufügen, wählen Sie das Pluszeichen neben aus Datentypen und wählen Sie Datentypen bearbeiten.

Stellen Sie sicher, dass Data Wrangler automatisch die richtigen Datentypen für die Datenspalten abgeleitet hat.

In unserem Fall sind die abgeleiteten Datentypen korrekt. Angenommen, ein Datentyp war falsch. Sie können sie einfach über die Benutzeroberfläche ändern, wie im folgenden Screenshot gezeigt.

Datentypen bearbeiten und überprüfen

Lassen Sie uns mit der Analyse beginnen und Transformationen hinzufügen.

Datenreinigung

Wir führen zunächst mehrere Datenbereinigungstransformationen durch.

Spalte löschen

Beginnen wir mit dem Ablegen der unix Spalte, weil wir die verwenden date Spalte als Index.

Auswählen Zurück zum Datenfluss.
Wählen Sie das Pluszeichen neben Datentypen und wählen Sie Transformation hinzufügen.
Auswählen + Schritt hinzufügen der VERWANDELT Feld.
Auswählen Spalten verwalten.
Aussichten für Transformieren, wählen Spalte löschen.
Aussichten für Spalte zum Ablegen, wählen Unix.
Auswählen Vorspann.
Auswählen Speichern um den Schritt zu speichern.

Griff fehlt

Fehlende Daten sind ein bekanntes Problem in realen Datensätzen. Daher ist es eine bewährte Methode, das Vorhandensein fehlender oder Nullwerte zu überprüfen und entsprechend zu behandeln. Unser Datensatz enthält keine fehlenden Werte. Aber wenn es welche gäbe, würden wir die nutzen Griff fehlt Zeitreihentransformation, um sie zu beheben. Häufig verwendete Strategien zum Umgang mit fehlenden Daten umfassen das Löschen von Zeilen mit fehlenden Werten oder das Füllen der fehlenden Werte mit angemessenen Schätzungen. Da Zeitreihendaten auf einer zeitlichen Abfolge von Datenpunkten beruhen, ist das Auffüllen fehlender Werte der bevorzugte Ansatz. Der Vorgang des Füllens fehlender Werte wird als bezeichnet Anrechnungdem „Vermischten Geschmack“. Seine Griff fehlt Die Zeitreihentransformation ermöglicht Ihnen die Auswahl aus mehreren Imputationsstrategien.

Auswählen + Schritt hinzufügen der VERWANDELT Feld.
Wähle die Zeitfolgen verwandeln.
Aussichten für TransformierenWählen Sie Griff fehlt.
Aussichten für Eingabetyp für Zeitreihen, wählen Entlang Spalte.
Aussichten für Methode zum Imputieren von Werten, wählen Füllen nach vorne.

Das Füllen nach vorne -Methode ersetzt die fehlenden Werte durch die nicht fehlenden Werte vor den fehlenden Werten.

Umgang mit fehlender Zeitreihentransformation

Rückwärtsfüllung, Konstanter Wert, Häufigster Wert und Interpolieren sind andere Imputationsstrategien in Data Wrangler verfügbar. Interpolationstechniken verlassen sich auf benachbarte Werte zum Füllen fehlender Werte. Zeitreihendaten weisen häufig eine Korrelation zwischen benachbarten Werten auf, was die Interpolation zu einer effektiven Füllstrategie macht. Weitere Einzelheiten zu den Funktionen, die Sie zum Anwenden der Interpolation verwenden können, finden Sie unter pandas.DataFrame.interpolate.

Zeitstempel validieren

Bei der Zeitreihenanalyse fungiert die Timestamp-Spalte als Indexspalte, um die sich die Analyse dreht. Daher ist es wichtig sicherzustellen, dass die Zeitstempelspalte keine ungültigen oder falsch formatierten Zeitstempelwerte enthält. Weil wir die verwenden date als Timestamp-Spalte und Index, lassen Sie uns bestätigen, dass ihre Werte richtig formatiert sind.

Auswählen + Schritt hinzufügen der VERWANDELT Feld.
Wähle die Zeitfolgen verwandeln.
Aussichten für Verwandeln, wählen Zeitstempel validieren.

Das Zeitstempel validieren transform können Sie überprüfen, ob die Zeitstempelspalte in Ihrem Dataset keine Werte mit einem falschen Zeitstempel oder fehlenden Werten enthält.

Aussichten für Zeitstempel-Spalte, wählen Datum.
Aussichten für Rückgabepolitik Dropdown, wählen Sie Zeigen.

Das Zeigen policy-Option erstellt eine boolesche Spalte, die angibt, ob der Wert in der timestamp-Spalte ein gültiges Datums-/Uhrzeitformat ist. Andere Optionen für Rückgabepolitik -System umfasst:

Fehler – Löst einen Fehler aus, wenn die Zeitstempelspalte fehlt oder ungültig ist
Drop – Löscht die Zeile, wenn die Zeitstempelspalte fehlt oder ungültig ist

Auswählen Vorspann.

Eine neue boolesche Spalte mit dem Namen date_is_valid erstellt wurde, mit true Werte, die korrektes Format und Nicht-Null-Einträge angeben. Unser Datensatz enthält keine ungültigen Zeitstempelwerte in der date Säule. Wenn dies jedoch der Fall wäre, könnten Sie die neue boolesche Spalte verwenden, um diese Werte zu identifizieren und zu korrigieren.

Validieren Sie die Timestamp-Zeitreihentransformation

Auswählen Speichern um diesen Schritt zu speichern.

Visualisierung von Zeitreihen

Nachdem wir den Datensatz bereinigt und validiert haben, können wir die Daten besser visualisieren, um ihre verschiedenen Komponenten zu verstehen.

Resampling

Da wir an täglichen Vorhersagen interessiert sind, wandeln wir die Häufigkeit der Daten in täglich um.

Das Resampling Die Transformation ändert die Häufigkeit der Zeitreihenbeobachtungen auf eine bestimmte Granularität und bietet sowohl Upsampling- als auch Downsampling-Optionen. Die Anwendung von Upsampling erhöht die Häufigkeit der Beobachtungen (z. B. von täglich auf stündlich), während Downsampling die Häufigkeit der Beobachtungen verringert (z. B. von stündlich auf täglich).

Da unser Datensatz eine winzige Granularität aufweist, verwenden wir die Downsampling-Option.

Auswählen + Schritt hinzufügen.
Wähle die Zeitfolgen verwandeln.
Aussichten für Transformieren, wählen Resampling.
Aussichten für Timestamp, wählen Datum.
Aussichten für Frequenzeinheit, wählen Kalendertag.
Aussichten für Frequenzmenge, 1 eingeben.
Aussichten für Methode zum Aggregieren numerischer Werte, wählen bedeuten.
Auswählen Vorspann.

Die Häufigkeit unseres Datensatzes hat sich von pro Minute auf täglich geändert.

Auswählen Speichern um diesen Schritt zu speichern.

Saisonale Trendzerlegung

Nach dem Resampling können wir die transformierten Reihen und die zugehörigen STL-Komponenten (Saison- und Trendzerlegung mit LOESS) mithilfe von visualisieren Saison-Trend-Zerlegung Visualisierung. Dies zerlegt die ursprünglichen Zeitreihen in unterschiedliche Trend-, Saisonalitäts- und Restkomponenten, was uns ein gutes Verständnis dafür gibt, wie sich jedes Muster verhält. Wir können die Informationen auch bei der Modellierung von Prognoseproblemen verwenden.

Data Wrangler verwendet LOESS, eine robuste und vielseitige statistische Methode zur Modellierung von Trend- und saisonalen Komponenten. Die zugrunde liegende Implementierung verwendet die Polynomregression zum Schätzen nichtlinearer Beziehungen, die in den Zeitreihenkomponenten (Saisonalität, Trend und Residuum) vorhanden sind.

Auswählen Zurück zum Datenfluss.
Wählen Sie das Pluszeichen neben dem Shritte on Datenfluss.
Auswählen Analyse hinzufügen.
Im Analyse erstellen Scheibe, z Analysetyp, wählen Zeitfolgen.
Aussichten für Visualisierung, wählen Saisonale Trendzerlegung.
Aussichten für Analysename, Geben Sie einen Namen ein.
Aussichten für Spalte Zeitstempel, wählen Datum.
Aussichten für Wertspalte, wählen Volumen USD.
Auswählen Vorspann.

Die Analyse ermöglicht es uns, die Eingabezeitreihen und die zerlegten Saisonalitäten, Trends und Residuen zu visualisieren.

Bereiten Sie Zeitreihendaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence vor. Vertikale Suche. Ai.

Auswählen Speichern um die Analyse zu speichern.

Mit der Visualisierung saisonaler Trendzerlegung, können wir vier Muster generieren, wie im vorherigen Screenshot gezeigt:

Original – Die ursprünglichen Zeitreihen, die auf tägliche Granularität neu abgetastet wurden.
Trend – Der polynomiale Trend mit einem insgesamt negativen Trendmuster für das Jahr 2021, was auf einen Rückgang hindeutet Volume USD Wert.
Jahreszeit – Die multiplikative Saisonalität, dargestellt durch die unterschiedlichen Schwingungsmuster. Wir sehen eine Abnahme der saisonalen Schwankungen, gekennzeichnet durch eine abnehmende Amplitude der Oszillationen.
Restwert – Das verbleibende Rest- oder Zufallsrauschen. Die Residualreihe ist die resultierende Reihe, nachdem Trend- und saisonale Komponenten entfernt wurden. Bei genauerer Betrachtung beobachten wir Spitzen zwischen Januar und März sowie zwischen April und Juni, was darauf hindeutet, dass Raum für die Modellierung solcher besonderen Ereignisse unter Verwendung historischer Daten besteht.

Diese Visualisierungen liefern Data Scientists und Analysten wertvolle Hinweise zu bestehenden Mustern und können Ihnen bei der Auswahl einer Modellierungsstrategie helfen. Es ist jedoch immer empfehlenswert, die Ausgabe der STL-Zerlegung mit den Informationen zu validieren, die durch deskriptive Analyse und Fachkenntnisse gesammelt wurden.

Zusammenfassend beobachten wir einen Abwärtstrend im Einklang mit der ursprünglichen Serienvisualisierung, was unser Vertrauen in die Einbeziehung der durch die Trendvisualisierung vermittelten Informationen in die nachgelagerte Entscheidungsfindung erhöht. Im Gegensatz dazu hilft die Saisonalitätsvisualisierung, das Vorhandensein von Saisonalität und die Notwendigkeit ihrer Entfernung durch Anwendung von Techniken wie Differenzierung zu informieren, sie bietet nicht den gewünschten Grad an detailliertem Einblick in verschiedene vorhandene saisonale Muster und erfordert daher eine tiefere Analyse.

Feature Engineering

Nachdem wir die in unserem Datensatz vorhandenen Muster verstanden haben, können wir mit der Entwicklung neuer Funktionen beginnen, die darauf abzielen, die Genauigkeit der Prognosemodelle zu erhöhen.

Versehen Sie datetime mit Funktionen

Beginnen wir den Feature-Engineering-Prozess mit einfacheren Datums-/Uhrzeit-Features. Datums-/Zeitfunktionen werden aus der erstellt timestamp Spalte und bieten Data Scientists einen optimalen Weg, um mit dem Feature-Engineering-Prozess zu beginnen. Wir beginnen mit der Versehen Sie datetime mit Funktionen Zeitreihentransformation, um unserem Datensatz die Merkmale Monat, Tag des Monats, Tag des Jahres, Woche des Jahres und Quartal hinzuzufügen. Da wir die Datums-/Uhrzeitkomponenten als separate Funktionen bereitstellen, ermöglichen wir ML-Algorithmen, Signale und Muster zu erkennen, um die Vorhersagegenauigkeit zu verbessern.

Auswählen + Schritt hinzufügen.
Wähle die Zeitfolgen verwandeln.
Aussichten für Verwandeln, wählen Versehen Sie datetime mit Funktionen.
Aussichten für Eingabespalte, wählen Datum.
Aussichten für Ausgabespalte, eingeben date (Dieser Schritt ist optional).
Aussichten für Ausgabemodus, wählen Ordinal.
Aussichten für Ausgabeformat, wählen Spalten.
Wählen Sie zum Extrahieren von Datums-/Uhrzeitmerkmalen aus Monat, Tag, Woche des Jahres, Tag des Jahres und Quartal.
Auswählen Vorspann.

Das Dataset enthält jetzt neue Spalten mit dem Namen date_month, date_day, date_week_of_year, date_day_of_year und date_quarter. Die aus diesen neuen Features abgerufenen Informationen könnten Data Scientists helfen, zusätzliche Erkenntnisse aus den Daten und in die Beziehung zwischen Eingabe-Features und Ausgabe-Features abzuleiten.

Funktionieren Sie mit der Datum/Uhrzeit-Zeitreihentransformation

Auswählen Speichern um diesen Schritt zu speichern.

Kategorial kodieren

Datums-/Zeitfunktionen sind nicht auf ganzzahlige Werte beschränkt. Sie können auch bestimmte extrahierte Datums-/Uhrzeitmerkmale als kategoriale Variablen betrachten und sie als One-Hot-codierte Merkmale darstellen, wobei jede Spalte Binärwerte enthält. Das neu Geschaffene date_quarter Spalte enthält Werte zwischen 0-3 und kann mit vier binären Spalten One-Hot-codiert werden. Lassen Sie uns vier neue binäre Features erstellen, die jeweils das entsprechende Quartal des Jahres darstellen.

Auswählen + Schritt hinzufügen.
Wähle die Kategorial kodieren verwandeln.
Aussichten für Transformieren, wählen One-Hot-Codierung.
Aussichten für Eingabespalte, wählen Datum_Quartal.
Aussichten für Ausgabestil, wählen Spalten.
Auswählen Vorspann.
Auswählen Speichern um den Schritt hinzuzufügen.

Bereiten Sie Zeitreihendaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence vor. Vertikale Suche. Ai.

Verzögerungsfunktion

Als Nächstes erstellen wir Verzögerungsfunktionen für die Zielspalte Volume USD. Verzögerungsmerkmale in der Zeitreihenanalyse sind Werte zu früheren Zeitstempeln, die als hilfreich beim Ableiten zukünftiger Werte angesehen werden. Sie helfen auch bei der Identifizierung der Autokorrelation (auch als serielle Korrelation) Muster in der Residuenreihe durch Quantifizierung der Beziehung der Beobachtung zu Beobachtungen in früheren Zeitschritten. Die Autokorrelation ähnelt der regulären Korrelation, jedoch zwischen den Werten in einer Reihe und ihren vergangenen Werten. Es bildet die Grundlage für die autoregressiven Prognosemodelle der ARIMA-Reihe.

Mit dem Datawrangler Verzögerungsfunktion transformieren, können Sie einfach Verzögerungsfunktionen im Abstand von n Perioden erstellen. Darüber hinaus möchten wir häufig mehrere Verzögerungsfunktionen mit unterschiedlichen Verzögerungen erstellen und das Modell die aussagekräftigsten Funktionen bestimmen lassen. Für ein solches Szenario ist die Verzögerungsfunktionen transform hilft beim Erstellen mehrerer Verzögerungsspalten über eine bestimmte Fenstergröße.

Auswählen Zurück zum Datenfluss.
Wählen Sie das Pluszeichen neben dem Shritte on Datenfluss.
Auswählen + Schritt hinzufügen.
Auswählen Zeitfolgen verwandeln.
Aussichten für Transformieren, wählen Verzögerungsfunktionen.
Aussichten für Generieren Sie Verzögerungsfunktionen für diese Spalte, wählen Volumen USD.
Aussichten für Zeitstempel-Spalte, wählen Datum.
Aussichten für Schlüsselschrauben, eingeben 7.
Da wir daran interessiert sind, bis zu den vorherigen sieben Verzögerungswerten zu beobachten, lassen Sie uns auswählen Schließen Sie das gesamte Verzögerungsfenster ein.
Um eine neue Spalte für jeden Verzögerungswert zu erstellen, wählen Sie aus Glätten Sie die Ausgabe.
Auswählen Vorspann.

Sieben neue Spalten werden hinzugefügt, mit dem Suffix lag_number Schlüsselwort für die Zielspalte Volume USD.

Zeitreihentransformation für Verzögerungsfunktion

Auswählen Speichern um den Schritt zu speichern.

Rollfensterfunktionen

Wir können auch aussagekräftige statistische Zusammenfassungen über eine Reihe von Werten berechnen und diese als Eingabemerkmale einbeziehen. Lassen Sie uns allgemeine statistische Zeitreihenmerkmale extrahieren.

Data Wrangler implementiert automatische Zeitreihen-Feature-Extraktionsfunktionen unter Verwendung von Open Source tsfrisch Paket. Mit den Zeitreihen-Feature-Extraktionstransformationen können Sie den Feature-Extraktionsprozess automatisieren. Dies eliminiert den Zeit- und Arbeitsaufwand, der sonst für die manuelle Implementierung von Signalverarbeitungsbibliotheken aufgewendet würde. Für diesen Beitrag extrahieren wir Funktionen mit der Rollfensterfunktionen verwandeln. Diese Methode berechnet statistische Eigenschaften über eine Reihe von Beobachtungen hinweg, die durch die Fenstergröße definiert sind.

Auswählen + Schritt hinzufügen.
Wähle die Zeitfolgen verwandeln.
Aussichten für Transformieren, wählen Rollfensterfunktionen.
Aussichten für Rolling-Window-Features für diese Spalte generieren, wählen Volumen USD.
Aussichten für Zeitstempel-Spalte, wählen Datum.
Aussichten für Fenstergröße, eingeben 7.

Festlegen einer Fenstergröße von 7 berechnet Merkmale durch Kombinieren des Werts zum aktuellen Zeitstempel und der Werte für die vorherigen sieben Zeitstempel.

Auswählen Ebnen um für jedes berechnete Feature eine neue Spalte zu erstellen.
Wählen Sie Ihre Strategie als Minimale Teilmenge.

Diese Strategie extrahiert acht Merkmale, die für nachgelagerte Analysen nützlich sind. Andere Strategien umfassen Effiziente Teilmenge, Benutzerdefinierte Teilmenge und Alle Funktionen. Eine vollständige Liste der für die Extraktion verfügbaren Funktionen finden Sie unter Überblick über extrahierte Merkmale.

Auswählen Vorspann.

Wir können acht neue Spalten mit der angegebenen Fenstergröße von sehen 7 in ihrem Namen, an unseren Datensatz angehängt.

Auswählen Speichern um den Schritt zu speichern.

Bereiten Sie Zeitreihendaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence vor. Vertikale Suche. Ai.

Exportieren Sie den Datensatz

Wir haben den Zeitreihendatensatz transformiert und sind bereit, den transformierten Datensatz als Eingabe für einen Prognosealgorithmus zu verwenden. Der letzte Schritt besteht darin, den transformierten Datensatz nach Amazon S3 zu exportieren. In Data Wrangler können Sie wählen Exportschritt zum automatischen Generieren eines Jupyter-Notebooks mit Amazon SageMaker-Verarbeitungscode zum Verarbeiten und Exportieren des transformierten Datensatzes in einen S3-Bucket. Da unser Datensatz jedoch etwas mehr als 300 Datensätze enthält, nutzen wir die Datenexport Option in der Transformation hinzufügen view, um das transformierte Dataset direkt von Data Wrangler nach Amazon S3 zu exportieren.

Auswählen Datenexport.

Bereiten Sie Zeitreihendaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence vor. Vertikale Suche. Ai.

Aussichten für S3 Standort, wählen Browser und wählen Sie Ihren S3-Bucket aus.
Auswählen Datenexport.

Bereiten Sie Zeitreihendaten mit Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence vor. Vertikale Suche. Ai.

Nachdem wir den Bitcoin-Datensatz erfolgreich transformiert haben, können wir ihn verwenden Amazon-Prognose um Bitcoin-Vorhersagen zu generieren.

Aufräumen

Wenn Sie mit diesem Anwendungsfall fertig sind, bereinigen Sie die von Ihnen erstellten Ressourcen, um zusätzliche Kosten zu vermeiden. Für Data Wrangler können Sie die zugrunde liegende Instanz herunterfahren, wenn Sie fertig sind. Beziehen auf Beenden Sie Data Wrangler Dokumentation für Details. Alternativ können Sie auch fortfahren Teil 2 dieser Serie, um diesen Datensatz für Prognosen zu verwenden.

Zusammenfassung

In diesem Beitrag wurde gezeigt, wie Data Wrangler verwendet werden kann, um die Zeitreihenanalyse mithilfe seiner integrierten Zeitreihenfunktionen zu vereinfachen und zu beschleunigen. Wir haben untersucht, wie Datenwissenschaftler Zeitreihendaten für eine aussagekräftige Analyse einfach und interaktiv bereinigen, formatieren, validieren und in das gewünschte Format umwandeln können. Wir haben auch untersucht, wie Sie Ihre Zeitreihenanalyse bereichern können, indem Sie mit Data Wrangler einen umfassenden Satz statistischer Funktionen hinzufügen. Weitere Informationen zu Zeitreihentransformationen in Data Wrangler finden Sie unter Daten transformieren.

Über den Autor

Roop-Bains ist ein Lösungsarchitekt bei AWS mit Schwerpunkt auf KI/ML. Er ist leidenschaftlich daran interessiert, Kunden dabei zu helfen, Innovationen zu entwickeln und ihre Geschäftsziele mithilfe von künstlicher Intelligenz und maschinellem Lernen zu erreichen. In seiner Freizeit liest und wandert Roop gerne.

Nikita Iwkin ist ein angewandter Wissenschaftler, Amazon SageMaker Data Wrangler.

Zeitstempel: 16. Februar 2022

Zeitstempel: 20. Juli 2023

Verbraucher schützen und Innovationen fördern – KI-Regulierung und Vertrauen in verantwortungsbewusste KI aufbauen

Quellcluster:

AWS Maschinelles Lernen

Quellknoten: 1765573

Zeitstempel: 1. Dezember 2022

Bereiten Sie Zeitreihendaten mit Amazon SageMaker Data Wrangler vor

Neuauflage von Plato

Anwendungsfälle für Data Wrangler

Lösungsüberblick

Voraussetzungen:

Transformationen hinzufügen

Datenreinigung

Spalte löschen

Griff fehlt

Zeitstempel validieren

Visualisierung von Zeitreihen

Resampling

Saisonale Trendzerlegung

Feature Engineering

Versehen Sie datetime mit Funktionen

Kategorial kodieren

Verzögerungsfunktion

Rollfensterfunktionen

Exportieren Sie den Datensatz

Aufräumen

Zusammenfassung

Über den Autor

Mehr von AWS Maschinelles Lernen

Verfolgen Sie Ihre ML-Experimente durchgängig mit Data Version Control und Amazon SageMaker Experiments

Erste Schritte mit Amazon Titan Text Embeddings | Amazon Web Services

Aktivieren Sie CI/CD von Amazon SageMaker-Endpunkten mit mehreren Regionen

AI21 Jurassic-1 Foundation Model ist jetzt auf Amazon SageMaker verfügbar

Bongo Learn bietet Echtzeit-Feedback zur Verbesserung der Lernergebnisse mit Amazon Transcribe

Ermöglichen Sie eine intelligente Entscheidungsfindung mit Amazon SageMaker Canvas und Amazon QuickSight

Mit Amazon SageMaker | können Sie benutzerdefinierte Ensembles effizient trainieren, optimieren und bereitstellen Amazon Web Services

Verbraucher schützen und Innovationen fördern – KI-Regulierung und Vertrauen in verantwortungsbewusste KI aufbauen

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto