Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Préparez des données de séries temporelles avec Amazon SageMaker Data Wrangler

Les données de séries chronologiques sont largement présentes dans nos vies. Les prix des actions, les prix des maisons, les informations météorologiques et les données de vente capturées au fil du temps ne sont que quelques exemples. Alors que les entreprises recherchent de plus en plus de nouvelles façons d'obtenir des informations significatives à partir de données de séries chronologiques, la capacité de visualiser les données et d'appliquer les transformations souhaitées sont des étapes fondamentales. Cependant, les données de séries chronologiques possèdent des caractéristiques et des nuances uniques par rapport à d'autres types de données tabulaires et nécessitent des considérations particulières. Par exemple, des données tabulaires ou transversales standard sont collectées à un moment précis. En revanche, les données de séries chronologiques sont capturées à plusieurs reprises dans le temps, chaque point de données successif dépendant de ses valeurs passées.

Étant donné que la plupart des analyses de séries chronologiques reposent sur les informations recueillies dans un ensemble contigu d'observations, les données manquantes et la rareté inhérente peuvent réduire l'exactitude des prévisions et introduire des biais. De plus, la plupart des approches d'analyse de séries chronologiques reposent sur un espacement égal entre les points de données, en d'autres termes, sur la périodicité. Par conséquent, la capacité à corriger les irrégularités d'espacement des données est une condition préalable essentielle. Enfin, l'analyse de séries chronologiques nécessite souvent la création de fonctionnalités supplémentaires qui peuvent aider à expliquer la relation inhérente entre les données d'entrée et les prévisions futures. Tous ces facteurs différencient les projets de séries chronologiques des scénarios traditionnels d'apprentissage automatique (ML) et exigent une approche distincte de son analyse.

Cet article explique comment utiliser Gestionnaire de données Amazon SageMaker pour appliquer des transformations de séries chronologiques et préparer votre jeu de données pour les cas d'utilisation de séries chronologiques.

Cas d'utilisation de Data Wrangler

Data Wrangler fournit une solution sans code/à faible code pour l'analyse de séries chronologiques avec des fonctionnalités pour nettoyer, transformer et préparer les données plus rapidement. Il permet également aux scientifiques des données de préparer des données de séries chronologiques conformément aux exigences de format d'entrée de leur modèle de prévision. Voici quelques façons d'utiliser ces fonctionnalités :

  • Analyse descriptive– Habituellement, la première étape de tout projet de science des données consiste à comprendre les données. Lorsque nous traçons des données de séries chronologiques, nous obtenons un aperçu de haut niveau de ses modèles, tels que la tendance, la saisonnalité, les cycles et les variations aléatoires. Cela nous aide à décider de la méthodologie de prévision correcte pour représenter avec précision ces modèles. Le traçage peut également aider à identifier les valeurs aberrantes, empêchant ainsi les prévisions irréalistes et inexactes. Data Wrangler est livré avec un visualisation de la décomposition des tendances saisonnières pour représenter les composants d'une série temporelle, et un visualisation de la détection des valeurs aberrantes pour identifier les valeurs aberrantes.
  • Analyse explicative– Pour les séries chronologiques multivariées, la capacité d'explorer, d'identifier et de modéliser la relation entre deux ou plusieurs séries chronologiques est essentielle pour obtenir des prévisions significatives. le Par groupe transform in Data Wrangler crée plusieurs séries chronologiques en regroupant les données pour des cellules spécifiées. De plus, les transformations de séries chronologiques de Data Wrangler, le cas échéant, permettent de spécifier des colonnes d'ID supplémentaires à regrouper, ce qui permet une analyse complexe des séries chronologiques.
  • Préparation des données et ingénierie des fonctionnalités– Les données de séries chronologiques sont rarement au format attendu par les modèles de séries chronologiques. Cela nécessite souvent une préparation des données pour convertir les données brutes en caractéristiques spécifiques aux séries chronologiques. Vous souhaiterez peut-être valider que les données de la série chronologique sont régulièrement ou régulièrement espacées avant l'analyse. Pour prévoir des cas d'utilisation, vous pouvez également souhaiter incorporer des caractéristiques de série chronologique supplémentaires, telles que l'autocorrélation et les propriétés statistiques. Avec Data Wrangler, vous pouvez créer rapidement des fonctionnalités de séries chronologiques telles que des colonnes de décalage pour plusieurs périodes de décalage, rééchantillonner les données à plusieurs granularités temporelles et extraire automatiquement les propriétés statistiques d'une série chronologique, pour n'en nommer que quelques fonctionnalités.

Vue d'ensemble de la solution

Cet article explique comment les data scientists et les analystes peuvent utiliser Data Wrangler pour visualiser et préparer des données de séries chronologiques. Nous utilisons l'ensemble de données de crypto-monnaie bitcoin de téléchargement de cryptodonnées avec des détails sur le trading de bitcoins pour mettre en valeur ces capacités. Nous nettoyons, validons et transformons l'ensemble de données brutes avec des fonctionnalités de séries chronologiques et générons également des prévisions de prix de volume de bitcoins en utilisant l'ensemble de données transformé comme entrée.

L'échantillon de données de trading de bitcoins va du 1er janvier au 19 novembre 2021, avec 464,116 XNUMX points de données. Les attributs de l'ensemble de données incluent un horodatage de l'enregistrement de prix, l'ouverture ou le premier prix auquel la pièce a été échangée pour un jour particulier, le prix le plus élevé auquel la pièce a été échangée le jour, le dernier prix auquel la pièce a été échangée le le jour, le volume échangé dans la valeur de la crypto-monnaie le jour en BTC et la devise USD correspondante.

Pré-requis

Télécharger Bitstamp_BTCUSD_2021_minute.csv fichier de téléchargement de cryptodonnées et téléchargez-le sur Service de stockage simple Amazon (Amazon S3).

Importer un jeu de données bitcoin dans Data Wrangler

Pour démarrer le processus d'ingestion dans Data Wrangler, procédez comme suit :

  1. Sur le Studio SageMaker console, sur le Déposez votre dernière attestation menu, choisissez Nouveauté, Puis choisissez Flux de Wrangler de données.
  2. Renommez le flux comme vous le souhaitez.
  3. Pour Importer des dates, choisissez Amazon S3.
  4. Télécharger le Bitstamp_BTCUSD_2021_minute.csv fichier de votre compartiment S3.

Vous pouvez maintenant prévisualiser votre ensemble de données.

  1. Dans le Détails volet, choisissez Configuration avancée et désélectionner Activer l'échantillonnage.

Il s'agit d'un ensemble de données relativement petit, nous n'avons donc pas besoin d'échantillonnage.

  1. Selectionnez L’.

Vous avez créé avec succès le diagramme de flux et êtes prêt à ajouter des étapes de transformation.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Ajouter des transformations

Pour ajouter des transformations de données, choisissez le signe plus à côté de Types de données et choisissez Modifier les types de données.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Assurez-vous que Data Wrangler a automatiquement déduit les types de données corrects pour les colonnes de données.

Dans notre cas, les types de données inférés sont corrects. Cependant, supposons qu'un type de données soit incorrect. Vous pouvez facilement les modifier via l'interface utilisateur, comme indiqué dans la capture d'écran suivante.

modifier et revoir les types de données

Commençons l'analyse et commençons à ajouter des transformations.

Nettoyage des données

Nous effectuons d'abord plusieurs transformations de nettoyage des données.

Déposer la colonne

Commençons par déposer le unix colonne, parce que nous utilisons la date colonne comme index.

  1. Selectionnez Retour au flux de données.
  2. Choisissez le signe plus à côté de Types de données et choisissez Ajouter une transformation.
  3. Selectionnez + Ajouter une étape dans l' SE TRANSFORME vitre.
  4. Selectionnez Gérer les colonnes.
  5. Pour Transformer, choisissez Déposer la colonne.
  6. Pour Colonne à supprimer, choisissez unix.
  7. Selectionnez Aperçu.
  8. Selectionnez Ajouter pour enregistrer l'étape.

Poignée manquante

Les données manquantes sont un problème bien connu dans les ensembles de données du monde réel. Par conséquent, il est recommandé de vérifier la présence de valeurs manquantes ou nulles et de les gérer de manière appropriée. Notre ensemble de données ne contient pas de valeurs manquantes. Mais s'il y en avait, nous utiliserions le Poignée manquante transformation de séries chronologiques pour les corriger. Les stratégies couramment utilisées pour gérer les données manquantes consistent à supprimer des lignes avec des valeurs manquantes ou à remplir les valeurs manquantes avec des estimations raisonnables. Étant donné que les données de séries chronologiques reposent sur une séquence de points de données dans le temps, le remplissage des valeurs manquantes est l'approche préférée. Le processus de remplissage des valeurs manquantes est appelé imputationL’ Poignée manquante la transformation de séries chronologiques vous permet de choisir parmi plusieurs stratégies d'imputation.

  1. Selectionnez + Ajouter une étape dans l' SE TRANSFORME vitre.
  2. Choisissez le Des séries chronologiques transformer.
  3. Pour Transformer, Choisissez Poignée manquante.
  4. Pour Type d'entrée de série chronologique, choisissez Le long de la colonne.
  5. Pour Méthode d'imputation des valeurs, choisissez Remplissage vers l'avant.

Les Remplissage vers l'avant remplace les valeurs manquantes par les valeurs non manquantes précédant les valeurs manquantes.

gérer la transformation de série temporelle manquante

Remplissage arrière, Valeur constante, Valeur la plus courante ainsi que Interpoler sont d'autres stratégies d'imputation disponibles dans Data Wrangler. Les techniques d'interpolation reposent sur des valeurs voisines pour combler les valeurs manquantes. Les données de séries chronologiques présentent souvent une corrélation entre les valeurs voisines, faisant de l'interpolation une stratégie de remplissage efficace. Pour plus de détails sur les fonctions que vous pouvez utiliser pour appliquer l'interpolation, reportez-vous à pandas.DataFrame.interpoler.

Valider l'horodatage

Dans l'analyse des séries chronologiques, la colonne d'horodatage agit comme la colonne d'index, autour de laquelle l'analyse tourne. Par conséquent, il est essentiel de s'assurer que la colonne d'horodatage ne contient pas de valeurs d'horodatage invalides ou mal formatées. Parce que nous utilisons le date colonne comme colonne d'horodatage et index, confirmons que ses valeurs sont correctement formatées.

  1. Selectionnez + Ajouter une étape dans l' SE TRANSFORME vitre.
  2. Choisissez le Des séries chronologiques transformer.
  3. Pour Transformer, '; '; ; Valider les horodatages.

Les Valider les horodatages transform vous permet de vérifier que la colonne d'horodatage de votre ensemble de données ne contient pas de valeurs avec un horodatage incorrect ou des valeurs manquantes.

  1. Pour Colonne d'horodatage, choisissez données.
  2. Pour Politique menu déroulant, choisissez Indiquer.

Les Indiquer L'option de stratégie crée une colonne booléenne indiquant si la valeur de la colonne d'horodatage est un format de date/heure valide. D'autres options pour Politique consistent à

  • Erreur – Génère une erreur si la colonne d'horodatage est manquante ou invalide
  • Goutte – Supprime la ligne si la colonne d'horodatage est manquante ou invalide
  1. Selectionnez Aperçu.

Une nouvelle colonne booléenne nommée date_is_valid a été créé, avec true valeurs indiquant le format correct et les entrées non nulles. Notre ensemble de données ne contient pas de valeurs d'horodatage invalides dans le date colonne. Mais si c'était le cas, vous pourriez utiliser la nouvelle colonne booléenne pour identifier et corriger ces valeurs.

Valider la transformation de série temporelle d'horodatage

  1. Selectionnez Ajouter pour enregistrer cette étape.

Visualisation de séries chronologiques

Après avoir nettoyé et validé le jeu de données, nous pouvons mieux visualiser les données pour comprendre ses différentes composantes.

resample

Comme nous nous intéressons aux prédictions quotidiennes, transformons la fréquence des données en quotidienne.

Les resample La transformation modifie la fréquence des observations de la série chronologique à une granularité spécifiée et est fournie avec des options de suréchantillonnage et de sous-échantillonnage. L'application d'un suréchantillonnage augmente la fréquence des observations (par exemple de quotidienne à horaire), tandis que le sous-échantillonnage diminue la fréquence des observations (par exemple d'une heure à une journée).

Étant donné que notre ensemble de données est d'une granularité infime, utilisons l'option de sous-échantillonnage.

  1. Selectionnez + Ajouter une étape.
  2. Choisissez le Des séries chronologiques transformer.
  3. Pour Transformer, choisissez resample.
  4. Pour Horodatage, choisissez données.
  5. Pour Unité de fréquence, choisissez Jour de calendrier.
  6. Pour Quantité de fréquence, entrez 1.
  7. Pour Méthode pour agréger des valeurs numériques, choisissez signifier.
  8. Selectionnez Aperçu.

La fréquence de notre ensemble de données est passée de par minute à quotidienne.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Selectionnez Ajouter pour enregistrer cette étape.

Décomposition des tendances saisonnières

Après le rééchantillonnage, nous pouvons visualiser la série transformée et ses composants STL (Seasonal and Trend decomposition using LOESS) associés à l'aide de l'outil Décomposition des tendances saisonnières visualisation. Cela décompose les séries chronologiques originales en tendances, saisonnalités et composantes résiduelles distinctes, ce qui nous donne une bonne compréhension du comportement de chaque modèle. Nous pouvons également utiliser les informations lors de la modélisation des problèmes de prévision.

Data Wrangler utilise LOESS, une méthode statistique robuste et polyvalente pour modéliser les tendances et les composantes saisonnières. Son implémentation sous-jacente utilise la régression polynomiale pour estimer les relations non linéaires présentes dans les composants de la série chronologique (saisonnalité, tendance et résiduel).

  1. Selectionnez Retour au flux de données.
  2. Choisissez le signe plus à côté du Étapes on Flux de données.
  3. Selectionnez Ajouter une analyse.
  4. Dans le Créer une analyse vitre, pour Type d'analyse, '; '; ; Des séries chronologiques.
  5. Pour Visualisation, choisissez Décomposition des tendances saisonnières.
  6. Pour Nom de l'analyse, entrez un nom.
  7. Pour Colonne Horodatage, choisissez données.
  8. Pour Colonne de valeur, choisissez Volume USD.
  9. Selectionnez Aperçu.

L'analyse nous permet de visualiser les séries chronologiques d'entrée et la saisonnalité, la tendance et le résidu décomposés.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Selectionnez Épargnez pour enregistrer l'analyse.

Avec la visualisation de la décomposition des tendances saisonnières, nous pouvons générer quatre modèles, comme illustré dans la capture d'écran précédente :

  • ORIGINALE – La série chronologique d'origine rééchantillonnée à la granularité quotidienne.
  • Trend – La tendance polynomiale avec une tendance globale négative pour l'année 2021, indiquant une diminution de Volume USD valeur.
  • Saison – La saisonnalité multiplicative représentée par les différents modèles d'oscillation. On observe une diminution de la variation saisonnière, caractérisée par une diminution de l'amplitude des oscillations.
  • Résiduel – Le bruit résiduel ou aléatoire restant. La série résiduelle est la série résultante après suppression des composantes tendance et saisonnière. En y regardant de plus près, nous observons des pics entre janvier et mars, et entre avril et juin, suggérant qu'il est possible de modéliser ces événements particuliers à l'aide de données historiques.

Ces visualisations fournissent des pistes précieuses aux scientifiques et aux analystes de données sur les modèles existants et peuvent vous aider à choisir une stratégie de modélisation. Cependant, il est toujours recommandé de valider le résultat de la décomposition STL avec les informations recueillies grâce à l'analyse descriptive et à l'expertise du domaine.

Pour résumer, nous observons une tendance à la baisse cohérente avec la visualisation des séries originales, ce qui augmente notre confiance dans l'intégration des informations véhiculées par la visualisation des tendances dans la prise de décision en aval. En revanche, la visualisation de la saisonnalité aide à informer la présence de la saisonnalité et la nécessité de sa suppression en appliquant des techniques telles que la différenciation, elle ne fournit pas le niveau souhaité d'informations détaillées sur les divers modèles saisonniers présents, nécessitant ainsi une analyse plus approfondie.

Ingénierie des fonctionnalités

Après avoir compris les modèles présents dans notre ensemble de données, nous pouvons commencer à concevoir de nouvelles fonctionnalités visant à augmenter la précision des modèles de prévision.

Caractériser la date et l'heure

Commençons le processus d'ingénierie des fonctionnalités avec des fonctionnalités de date/heure plus simples. Les fonctions de date/heure sont créées à partir du timestamp colonne et fournir une voie optimale aux scientifiques des données pour démarrer le processus d'ingénierie des fonctionnalités. Nous commençons par le Caractériser la date et l'heure transformation de séries chronologiques pour ajouter les caractéristiques du mois, du jour du mois, du jour de l'année, de la semaine de l'année et du trimestre à notre ensemble de données. Étant donné que nous fournissons les composants de date/heure en tant que fonctionnalités distinctes, nous permettons aux algorithmes ML de détecter les signaux et les modèles afin d'améliorer la précision des prédictions.

  1. Selectionnez + Ajouter une étape.
  2. Choisissez le Des séries chronologiques transformer.
  3. Pour Transformer, '; '; ; Caractériser la date et l'heure.
  4. Pour Colonne d'entrée, choisissez données.
  5. Pour Colonne de sortie, Entrer date (cette étape est facultative).
  6. Pour Mode de sortie, choisissez Ordinal.
  7. Pour Format de sortie, choisissez Colonnes.
  8. Pour les caractéristiques de date/heure à extraire, sélectionnez Mois, Jour, Semaine de l'année, Jour de l'annéeet Trimestre.
  9. Selectionnez Aperçu.

Le jeu de données contient maintenant de nouvelles colonnes nommées date_month, date_day, date_week_of_year, date_day_of_yearet date_quarter. Les informations extraites de ces nouvelles fonctionnalités pourraient aider les scientifiques des données à tirer des informations supplémentaires des données et de la relation entre les fonctionnalités d'entrée et les fonctionnalités de sortie.

caractériser la transformation de série temporelle datetime

  1. Selectionnez Ajouter pour enregistrer cette étape.

Encoder catégorique

Les fonctionnalités de date/heure ne sont pas limitées aux valeurs entières. Vous pouvez également choisir de considérer certaines caractéristiques de date/heure extraites comme des variables catégorielles et de les représenter comme des caractéristiques codées à chaud, chaque colonne contenant des valeurs binaires. Le nouvellement créé date_quarter La colonne contient des valeurs comprises entre 0 et 3 et peut être encodée à chaud à l'aide de quatre colonnes binaires. Créons quatre nouvelles entités binaires, chacune représentant le trimestre correspondant de l'année.

  1. Selectionnez + Ajouter une étape.
  2. Choisissez le Encoder catégorique transformer.
  3. Pour Transformer, choisissez Encodage à chaud.
  4. Pour Colonne d'entrée, choisissez date_trimestre.
  5. Pour Style de sortie, choisissez Colonnes.
  6. Selectionnez Aperçu.
  7. Selectionnez Ajouter pour ajouter l'étape.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Fonction de décalage

Ensuite, créons des fonctionnalités de décalage pour la colonne cible Volume USD. Les caractéristiques de décalage dans l'analyse des séries chronologiques sont des valeurs à des horodatages antérieurs qui sont considérées comme utiles pour déduire des valeurs futures. Ils aident également à identifier l'autocorrélation (également appelée corrélation sérielle) dans la série résiduelle en quantifiant la relation de l'observation avec les observations aux pas de temps précédents. L'autocorrélation est similaire à la corrélation régulière mais entre les valeurs d'une série et ses valeurs passées. Il constitue la base des modèles de prévision autorégressifs de la série ARIMA.

Avec le Data Wrangler Fonction de décalage transform, vous pouvez facilement créer des caractéristiques de décalage à n périodes d'intervalle. De plus, nous souhaitons souvent créer plusieurs fonctionnalités de décalage à différents décalages et laisser le modèle décider des fonctionnalités les plus significatives. Pour un tel scénario, le Fonctions de décalage transform permet de créer plusieurs colonnes de décalage sur une taille de fenêtre spécifiée.

  1. Selectionnez Retour au flux de données.
  2. Choisissez le signe plus à côté du Étapes on Flux de données.
  3. Selectionnez + Ajouter une étape.
  4. Selectionnez Des séries chronologiques transformer.
  5. Pour Transformer, choisissez Fonctions de décalage.
  6. Pour Générer des fonctionnalités de décalage pour cette colonne, choisissez Volume USD.
  7. Pour Colonne d'horodatage, choisissez données.
  8. Pour Lag, Entrer 7.
  9. Étant donné que nous souhaitons observer jusqu'aux sept valeurs de décalage précédentes, sélectionnons Inclure toute la fenêtre de décalage.
  10. Pour créer une nouvelle colonne pour chaque valeur de décalage, sélectionnez Aplatir la sortie.
  11. Selectionnez Aperçu.

Sept nouvelles colonnes sont ajoutées, suffixées par le lag_number mot clé pour la colonne cible Volume USD.

Transformation de la série temporelle de la fonctionnalité de décalage

  1. Selectionnez Ajouter pour enregistrer l'étape.

Caractéristiques de la fenêtre roulante

Nous pouvons également calculer des résumés statistiques significatifs sur une plage de valeurs et les inclure en tant qu'entités d'entrée. Extrayons les caractéristiques communes des séries chronologiques statistiques.

Data Wrangler implémente des capacités d'extraction automatique de caractéristiques de séries chronologiques à l'aide de l'open source frais emballer. Avec les transformations d'extraction de caractéristiques de séries chronologiques, vous pouvez automatiser le processus d'extraction de caractéristiques. Cela élimine le temps et les efforts autrement consacrés à la mise en œuvre manuelle des bibliothèques de traitement du signal. Pour cet article, nous extrayons des fonctionnalités à l'aide de Caractéristiques de la fenêtre roulante transformer. Cette méthode calcule les propriétés statistiques sur un ensemble d'observations définies par la taille de la fenêtre.

  1. Selectionnez + Ajouter une étape.
  2. Choisissez le Des séries chronologiques transformer.
  3. Pour Transformer, choisissez Caractéristiques de la fenêtre roulante.
  4. Pour Générer des fonctionnalités de fenêtre déroulante pour cette colonne, choisissez Volume USD.
  5. Pour Colonne d'horodatage, choisissez données.
  6. Pour La taille de la fenêtre, Entrer 7.

Spécification d'une taille de fenêtre de 7 calcule les caractéristiques en combinant la valeur à l'horodatage actuel et les valeurs des sept horodatages précédents.

  1. Sélectionnez Aplatir pour créer une nouvelle colonne pour chaque entité calculée.
  2. Choisissez votre stratégie comme Sous-ensemble minimal.

Cette stratégie extrait huit caractéristiques utiles dans les analyses en aval. D'autres stratégies comprennent Sous-ensemble efficace, Sous-ensemble personnaliséet Toutes les caractéristiques. Pour la liste complète des fonctionnalités disponibles pour l'extraction, reportez-vous à Présentation des fonctionnalités extraites.

  1. Selectionnez Aperçu.

Nous pouvons voir huit nouvelles colonnes avec une taille de fenêtre spécifiée de 7 en leur nom, annexé à notre jeu de données.

  1. Selectionnez Ajouter pour enregistrer l'étape.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Exporter le jeu de données

Nous avons transformé l'ensemble de données de séries chronologiques et sommes prêts à utiliser l'ensemble de données transformé comme entrée pour un algorithme de prévision. La dernière étape consiste à exporter l'ensemble de données transformé vers Amazon S3. Dans Data Wrangler, vous pouvez choisir Étape d'exportation pour générer automatiquement un bloc-notes Jupyter avec le code de traitement Amazon SageMaker pour traiter et exporter l'ensemble de données transformé vers un compartiment S3. Cependant, comme notre ensemble de données contient un peu plus de 300 enregistrements, profitons de la Exporter les données option dans la Ajouter une transformation view pour exporter l'ensemble de données transformé directement vers Amazon S3 à partir de Data Wrangler.

  1. Selectionnez Exporter les données.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Pour Emplacement S3, choisissez Navigateur et choisissez votre compartiment S3.
  2. Selectionnez Exporter les données.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Maintenant que nous avons réussi à transformer l'ensemble de données bitcoin, nous pouvons utiliser Prévisions Amazon pour générer des prédictions bitcoin.

Nettoyer

Si vous en avez terminé avec ce cas d'utilisation, nettoyez les ressources que vous avez créées pour éviter des frais supplémentaires. Pour Data Wrangler, vous pouvez arrêter l'instance sous-jacente lorsque vous avez terminé. Faire référence à Arrêter Data Wrangler documentation pour plus de détails. Alternativement, vous pouvez continuer à Partie 2 de cette série pour utiliser cet ensemble de données à des fins de prévision.

Résumé

Cet article a montré comment utiliser Data Wrangler pour simplifier et accélérer l'analyse des séries chronologiques à l'aide de ses fonctionnalités intégrées de séries chronologiques. Nous avons exploré comment les scientifiques des données peuvent facilement et de manière interactive nettoyer, formater, valider et transformer les données de séries chronologiques dans le format souhaité, pour une analyse significative. Nous avons également exploré comment vous pouvez enrichir votre analyse de séries chronologiques en ajoutant un ensemble complet de fonctionnalités statistiques à l'aide de Data Wrangler. Pour en savoir plus sur les transformations de séries chronologiques dans Data Wrangler, consultez Transformer les données.


À propos de l’auteur

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Roop Bains est un architecte de solutions chez AWS spécialisé dans l'IA/ML. Il est passionné d'aider les clients à innover et à atteindre leurs objectifs commerciaux en utilisant l'intelligence artificielle et l'apprentissage automatique. Dans ses temps libres, Roop aime lire et faire de la randonnée.

Préparez des données de séries chronologiques avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Nikita Ivkine est un scientifique appliqué, Amazon SageMaker Data Wrangler.

Horodatage:

Plus de Apprentissage automatique AWS