Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler

Τα δεδομένα χρονοσειρών είναι ευρέως παρόντα στη ζωή μας. Οι τιμές των μετοχών, οι τιμές των κατοικιών, οι πληροφορίες καιρού και τα δεδομένα πωλήσεων που συλλέγονται με την πάροδο του χρόνου είναι μερικά μόνο παραδείγματα. Καθώς οι επιχειρήσεις αναζητούν ολοένα και περισσότερο νέους τρόπους για να αποκτήσουν ουσιαστικές γνώσεις από δεδομένα χρονοσειρών, η ικανότητα οπτικοποίησης δεδομένων και εφαρμογής επιθυμητών μετασχηματισμών είναι θεμελιώδη βήματα. Ωστόσο, τα δεδομένα χρονοσειρών διαθέτουν μοναδικά χαρακτηριστικά και αποχρώσεις σε σύγκριση με άλλα είδη δεδομένων σε πίνακα και απαιτούν ειδικές εκτιμήσεις. Για παράδειγμα, τυπικά δεδομένα σε πίνακα ή συγχρονικά δεδομένα συλλέγονται σε μια συγκεκριμένη χρονική στιγμή. Αντίθετα, τα δεδομένα χρονοσειρών συλλαμβάνονται επανειλημμένα με την πάροδο του χρόνου, με κάθε διαδοχικό σημείο δεδομένων να εξαρτάται από τις προηγούμενες τιμές του.

Επειδή οι περισσότερες αναλύσεις χρονοσειρών βασίζονται στις πληροφορίες που συγκεντρώνονται σε ένα συνεχόμενο σύνολο παρατηρήσεων, τα δεδομένα που λείπουν και η εγγενής αραιότητα μπορούν να μειώσουν την ακρίβεια των προβλέψεων και να εισάγουν μεροληψία. Επιπλέον, οι περισσότερες προσεγγίσεις ανάλυσης χρονοσειρών βασίζονται στην ίση απόσταση μεταξύ των σημείων δεδομένων, με άλλα λόγια, στην περιοδικότητα. Ως εκ τούτου, η δυνατότητα διόρθωσης των ανωμαλιών της απόστασης δεδομένων αποτελεί κρίσιμη προϋπόθεση. Τέλος, η ανάλυση χρονοσειρών απαιτεί συχνά τη δημιουργία πρόσθετων χαρακτηριστικών που μπορούν να βοηθήσουν στην εξήγηση της εγγενούς σχέσης μεταξύ των δεδομένων εισόδου και των μελλοντικών προβλέψεων. Όλοι αυτοί οι παράγοντες διαφοροποιούν τα έργα χρονοσειρών από τα παραδοσιακά σενάρια μηχανικής μάθησης (ML) και απαιτούν μια ξεχωριστή προσέγγιση στην ανάλυσή τους.

Αυτή η ανάρτηση περιγράφει τον τρόπο χρήσης Amazon SageMaker Data Wrangler για να εφαρμόσετε μετασχηματισμούς χρονοσειρών και να προετοιμάσετε το σύνολο δεδομένων σας για περιπτώσεις χρήσης χρονοσειρών.

Χρησιμοποιήστε θήκες για Data Wrangler

Το Data Wrangler παρέχει μια λύση χωρίς κώδικα/χαμηλό κώδικα για ανάλυση χρονοσειρών με λειτουργίες για τον ταχύτερο καθαρισμό, μετατροπή και προετοιμασία δεδομένων. Επιτρέπει επίσης στους επιστήμονες δεδομένων να προετοιμάσουν δεδομένα χρονοσειρών σύμφωνα με τις απαιτήσεις μορφής εισόδου του μοντέλου πρόβλεψής τους. Ακολουθούν μερικοί τρόποι με τους οποίους μπορείτε να χρησιμοποιήσετε αυτές τις δυνατότητες:

  • Περιγραφική ανάλυση– Συνήθως, το πρώτο βήμα κάθε έργου επιστήμης δεδομένων είναι η κατανόηση των δεδομένων. Όταν σχεδιάζουμε δεδομένα χρονοσειρών, έχουμε μια επισκόπηση υψηλού επιπέδου των προτύπων τους, όπως τάση, εποχικότητα, κύκλοι και τυχαίες παραλλαγές. Μας βοηθά να αποφασίσουμε τη σωστή μεθοδολογία πρόβλεψης για την ακριβή αναπαράσταση αυτών των προτύπων. Η γραφική παράσταση μπορεί επίσης να βοηθήσει στον εντοπισμό ακραίων τιμών, αποτρέποντας μη ρεαλιστικές και ανακριβείς προβλέψεις. Το Data Wrangler συνοδεύεται από ένα οπτικοποίηση αποσύνθεσης εποχικότητας-τάσης για την αναπαράσταση συνιστωσών μιας χρονοσειράς, και ένα οπτικοποίηση ανίχνευσης ακραίων στοιχείων για τον εντοπισμό ακραίων στοιχείων.
  • Επεξηγηματική ανάλυση– Για χρονοσειρές πολλαπλών μεταβλητών, η ικανότητα διερεύνησης, αναγνώρισης και μοντελοποίησης της σχέσης μεταξύ δύο ή περισσότερων χρονοσειρών είναι απαραίτητη για τη λήψη ουσιαστικών προβλέψεων. ο Ομαδοποίηση από transform in Data Wrangler δημιουργεί πολλαπλές χρονικές σειρές ομαδοποιώντας δεδομένα για καθορισμένα κελιά. Επιπλέον, οι μετασχηματισμοί χρονολογικών σειρών Data Wrangler, όπου ισχύει, επιτρέπουν την προδιαγραφή πρόσθετων στηλών ID για ομαδοποίηση, επιτρέποντας την ανάλυση σύνθετων χρονοσειρών.
  • Προετοιμασία δεδομένων και μηχανική χαρακτηριστικών– Τα δεδομένα χρονοσειρών σπάνια έχουν τη μορφή που αναμένεται από τα μοντέλα χρονοσειρών. Συχνά απαιτεί προετοιμασία δεδομένων για τη μετατροπή ακατέργαστων δεδομένων σε χαρακτηριστικά ειδικά για χρονικές σειρές. Ίσως θέλετε να επιβεβαιώσετε ότι τα δεδομένα χρονοσειρών είναι τακτικά ή ίσα σε απόσταση πριν από την ανάλυση. Για περιπτώσεις χρήσης πρόβλεψης, μπορεί επίσης να θέλετε να ενσωματώσετε πρόσθετα χαρακτηριστικά χρονοσειρών, όπως αυτοσυσχέτιση και στατιστικές ιδιότητες. Με το Data Wrangler, μπορείτε να δημιουργήσετε γρήγορα χαρακτηριστικά χρονοσειρών, όπως στήλες καθυστέρησης για πολλαπλές περιόδους καθυστέρησης, επαναδειγματοληψία δεδομένων σε πολλαπλές χρονικές λεπτομέρειες και αυτόματη εξαγωγή στατιστικών ιδιοτήτων μιας χρονοσειράς, για να αναφέρετε μερικές δυνατότητες.

Επισκόπηση λύσεων

Αυτή η ανάρτηση επεξεργάζεται πώς οι επιστήμονες και οι αναλυτές δεδομένων μπορούν να χρησιμοποιήσουν το Data Wrangler για να οπτικοποιήσουν και να προετοιμάσουν δεδομένα χρονοσειρών. Χρησιμοποιούμε το σύνολο δεδομένων κρυπτονομισμάτων bitcoin από cryptodata λήψη με λεπτομέρειες συναλλαγών bitcoin για να επιδείξετε αυτές τις δυνατότητες. Καθαρίζουμε, επικυρώνουμε και μετασχηματίζουμε το ακατέργαστο σύνολο δεδομένων με χαρακτηριστικά χρονοσειρών και επίσης δημιουργούμε προβλέψεις τιμής όγκου bitcoin χρησιμοποιώντας το μετασχηματισμένο σύνολο δεδομένων ως είσοδο.

Το δείγμα των δεδομένων συναλλαγών bitcoin είναι από 1 Ιανουαρίου – 19 Νοεμβρίου 2021, με 464,116 σημεία δεδομένων. Τα χαρακτηριστικά δεδομένων περιλαμβάνουν μια χρονική σήμανση της εγγραφής τιμής, το άνοιγμα ή την πρώτη τιμή στην οποία ανταλλάχθηκε το νόμισμα για μια συγκεκριμένη ημέρα, την υψηλότερη τιμή στην οποία ανταλλάχθηκε το κέρμα την ημέρα, την τελευταία τιμή στην οποία ανταλλάχθηκε το κέρμα την την ημέρα, ο όγκος που ανταλλάσσεται στην τιμή του κρυπτονομίσματος την ημέρα σε BTC και στο αντίστοιχο νόμισμα USD.

Προϋποθέσεις

Κατεβάστε το Bitstamp_BTCUSD_2021_minute.csv αρχείο από cryptodata λήψη και ανεβάστε το σε Υπηρεσία απλής αποθήκευσης Amazon (Amazon S3).

Εισαγάγετε σύνολο δεδομένων bitcoin στο Data Wrangler

Για να ξεκινήσετε τη διαδικασία απορρόφησης στο Data Wrangler, ολοκληρώστε τα ακόλουθα βήματα:

  1. Στις SageMaker Στούντιο κονσόλα, στο Αρχεία μενού, επιλέξτε Νέα, κατόπιν επιλέξτε Ροή Wrangler δεδομένων.
  2. Μετονομάστε τη ροή όπως θέλετε.
  3. Για Εισαγωγή δεδομένων, επιλέξτε Amazon S3.
  4. Ανεβάστε το Bitstamp_BTCUSD_2021_minute.csv αρχείο από τον κάδο S3 σας.

Τώρα μπορείτε να κάνετε προεπισκόπηση του συνόλου δεδομένων σας.

  1. Στο Περιγραφή παράθυρο, επιλέξτε Προηγμένη διαμόρφωση και αποεπιλέξτε Ενεργοποίηση δειγματοληψίας.

Αυτό είναι ένα σχετικά μικρό σύνολο δεδομένων, επομένως δεν χρειαζόμαστε δειγματοληψία.

  1. Επιλέξτε εισαγωγή.

Έχετε δημιουργήσει με επιτυχία το διάγραμμα ροής και είστε έτοιμοι να προσθέσετε βήματα μετασχηματισμού.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Προσθήκη μετασχηματισμών

Για να προσθέσετε μετασχηματισμούς δεδομένων, επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων Και επιλέξτε Επεξεργασία τύπων δεδομένων.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Βεβαιωθείτε ότι το Data Wrangler συνήγαγε αυτόματα τους σωστούς τύπους δεδομένων για τις στήλες δεδομένων.

Στην περίπτωσή μας, οι συναγόμενοι τύποι δεδομένων είναι σωστοί. Ωστόσο, ας υποθέσουμε ότι ένας τύπος δεδομένων ήταν λανθασμένος. Μπορείτε εύκολα να τα τροποποιήσετε μέσω του UI, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

επεξεργασία και έλεγχος τύπων δεδομένων

Ας ξεκινήσουμε την ανάλυση και ας αρχίσουμε να προσθέτουμε μετασχηματισμούς.

Καθαρισμός δεδομένων

Πρώτα εκτελούμε πολλούς μετασχηματισμούς καθαρισμού δεδομένων.

Πτώση στήλης

Ας ξεκινήσουμε ρίχνοντας το unix στήλη, επειδή χρησιμοποιούμε το date στήλη ως ευρετήριο.

  1. Επιλέξτε Επιστροφή στη ροή δεδομένων.
  2. Επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων Και επιλέξτε Προσθήκη μετασχηματισμού.
  3. Επιλέξτε + Προσθήκη βήματος στο ΜΕΤΑΤΡΟΦΕΣ τζάμι.
  4. Επιλέξτε Διαχείριση στηλών.
  5. Για Μεταμορφώστε, επιλέξτε Πτώση στήλης.
  6. Για Στήλη προς πτώση, επιλέξτε unix.
  7. Επιλέξτε Προβολή.
  8. Επιλέξτε Πρόσθεση για να αποθηκεύσετε το βήμα.

Λείπει η λαβή

Η έλλειψη δεδομένων είναι ένα πολύ γνωστό πρόβλημα στα σύνολα δεδομένων του πραγματικού κόσμου. Ως εκ τούτου, είναι μια βέλτιστη πρακτική να επαληθεύσετε την παρουσία τυχόν τιμών που λείπουν ή μηδενικές και να τις χειρίζεστε κατάλληλα. Το σύνολο δεδομένων μας δεν περιέχει τιμές που λείπουν. Αλλά αν υπήρχαν, θα χρησιμοποιούσαμε το Λείπει η λαβή μετασχηματισμός χρονοσειρών για να τις διορθώσετε. Οι κοινώς χρησιμοποιούμενες στρατηγικές για το χειρισμό των δεδομένων που λείπουν περιλαμβάνουν την απόθεση σειρών με τιμές που λείπουν ή τη συμπλήρωση των τιμών που λείπουν με λογικές εκτιμήσεις. Επειδή τα δεδομένα χρονοσειρών βασίζονται σε μια ακολουθία σημείων δεδομένων σε βάθος χρόνου, η συμπλήρωση των τιμών που λείπουν είναι η προτιμώμενη προσέγγιση. Η διαδικασία συμπλήρωσης των τιμών που λείπουν αναφέρεται ως απόδοση. ο Λείπει η λαβή Ο μετασχηματισμός χρονοσειρών σάς επιτρέπει να επιλέξετε από πολλαπλές στρατηγικές καταλογισμού.

  1. Επιλέξτε + Προσθήκη βήματος στο ΜΕΤΑΤΡΟΦΕΣ τζάμι.
  2. Επιλέξτε Χρονική σειρά μεταμορφώνω.
  3. Για Μεταμορφώστε, Επιλέξτε Λείπει η λαβή.
  4. Για Τύπος εισόδου χρονοσειράς, επιλέξτε Κατά μήκος στήλης.
  5. Για Μέθοδος απόδοσης τιμών, επιλέξτε Εμπρός γέμισμα.

Η Εμπρός γέμισμα Η μέθοδος αντικαθιστά τις τιμές που λείπουν με τις τιμές που δεν λείπουν που προηγούνται των τιμών που λείπουν.

χειριστεί τον μετασχηματισμό χρονολογικής σειράς που λείπει

Γέμισμα προς τα πίσω, Σταθερή Αξία, Η πιο κοινή τιμή και Παρεμβάλλω είναι άλλες στρατηγικές καταλογισμού διαθέσιμες στο Data Wrangler. Οι τεχνικές παρεμβολής βασίζονται σε γειτονικές τιμές για την πλήρωση τιμών που λείπουν. Τα δεδομένα χρονοσειρών συχνά εμφανίζουν συσχέτιση μεταξύ γειτονικών τιμών, καθιστώντας την παρεμβολή μια αποτελεσματική στρατηγική πλήρωσης. Για πρόσθετες λεπτομέρειες σχετικά με τις λειτουργίες που μπορείτε να χρησιμοποιήσετε για την εφαρμογή παρεμβολής, ανατρέξτε στο pandas.DataFrame.interpolate.

Επικύρωση χρονικής σφραγίδας

Στην ανάλυση χρονοσειρών, η στήλη χρονικής σήμανσης λειτουργεί ως στήλη ευρετηρίου, γύρω από την οποία περιστρέφεται η ανάλυση. Επομένως, είναι σημαντικό να βεβαιωθείτε ότι η στήλη χρονικής σήμανσης δεν περιέχει μη έγκυρες ή εσφαλμένα μορφοποιημένες τιμές χρονικής σφραγίδας. Επειδή χρησιμοποιούμε το date στήλη ως στήλη χρονικής σήμανσης και ευρετήριο, ας επιβεβαιώσουμε ότι οι τιμές της έχουν μορφοποιηθεί σωστά.

  1. Επιλέξτε + Προσθήκη βήματος στο ΜΕΤΑΤΡΟΦΕΣ τζάμι.
  2. Επιλέξτε Χρονική σειρά μεταμορφώνω.
  3. Για Μεταμορφώνω, Choose Επικύρωση χρονικών σημάνσεων.

Η Επικύρωση χρονικών σημάνσεων Ο μετασχηματισμός σάς επιτρέπει να ελέγξετε ότι η στήλη χρονικής σήμανσης στο σύνολο δεδομένων σας δεν έχει τιμές με εσφαλμένη χρονική σήμανση ή τιμές που λείπουν.

  1. Για Στήλη χρονοσήμανσης, επιλέξτε Ραντεβού .
  2. Για Όροι αναπτυσσόμενο μενού, επιλέξτε Υποδεικνύω.

Η Υποδεικνύω Η επιλογή πολιτικής δημιουργεί μια στήλη Boolean που υποδεικνύει εάν η τιμή στη στήλη χρονικής σήμανσης είναι έγκυρη μορφή ημερομηνίας/ώρας. Άλλες επιλογές για Όροι συμπεριλαμβάνω:

  • Λάθος – Παρουσιάζει σφάλμα εάν η στήλη χρονικής σφραγίδας λείπει ή δεν είναι έγκυρη
  • Πτώση – Καταργεί τη σειρά εάν η στήλη χρονικής σφραγίδας λείπει ή δεν είναι έγκυρη
  1. Επιλέξτε Προβολή.

Μια νέα στήλη Boolean με το όνομα date_is_valid δημιουργήθηκε, με true τιμές που υποδεικνύουν σωστή μορφή και μη μηδενικές καταχωρήσεις. Το σύνολο δεδομένων μας δεν περιέχει μη έγκυρες τιμές χρονικής σήμανσης στο date στήλη. Αλλά αν το έκανε, θα μπορούσατε να χρησιμοποιήσετε τη νέα στήλη Boolean για να προσδιορίσετε και να διορθώσετε αυτές τις τιμές.

Επικύρωση μετασχηματισμού χρονολογικής σειράς Timestamp

  1. Επιλέξτε Πρόσθεση για να αποθηκεύσετε αυτό το βήμα.

Οπτικοποίηση χρονοσειρών

Αφού καθαρίσουμε και επικυρώσουμε το σύνολο δεδομένων, μπορούμε να οπτικοποιήσουμε καλύτερα τα δεδομένα για να κατανοήσουμε το διαφορετικό συστατικό του.

Επαναλάβετε

Επειδή μας ενδιαφέρουν οι καθημερινές προβλέψεις, ας μετατρέψουμε τη συχνότητα των δεδομένων σε καθημερινή.

Η Επαναλάβετε Ο μετασχηματισμός αλλάζει τη συχνότητα των παρατηρήσεων της χρονοσειράς σε μια καθορισμένη ευαισθησία και συνοδεύεται από επιλογές ανερχόμενης και μειωμένης δειγματοληψίας. Η εφαρμογή της ανοδικής δειγματοληψίας αυξάνει τη συχνότητα των παρατηρήσεων (για παράδειγμα από ημερήσια σε ωριαία), ενώ η μείωση δειγματοληψίας μειώνει τη συχνότητα των παρατηρήσεων (για παράδειγμα από ωριαία σε καθημερινή).

Επειδή το σύνολο δεδομένων μας έχει λεπτομερή ακρίβεια, ας χρησιμοποιήσουμε την επιλογή μείωσης δειγματοληψίας.

  1. Επιλέξτε + Προσθήκη βήματος.
  2. Επιλέξτε Χρονική σειρά μεταμορφώνω.
  3. Για Μεταμορφώστε, επιλέξτε Επαναλάβετε.
  4. Για Timestamp, επιλέξτε Ραντεβού .
  5. Για Μονάδα συχνότητας, επιλέξτε Ημερολογιακή ημέρα.
  6. Για Ποσότητα συχνότητας, εισαγάγετε 1.
  7. Για Μέθοδος άθροισης αριθμητικών τιμών, επιλέξτε εννοώ.
  8. Επιλέξτε Προβολή.

Η συχνότητα του συνόλου δεδομένων μας έχει αλλάξει από ανά λεπτό σε καθημερινή.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Επιλέξτε Πρόσθεση για να αποθηκεύσετε αυτό το βήμα.

Εποχιακή-Τάση αποσύνθεσης

Μετά την επαναδειγματοληψία, μπορούμε να οπτικοποιήσουμε τη μετασχηματισμένη σειρά και τα σχετιζόμενα στοιχεία STL (εποχιακή και τάση αποσύνθεσης με χρήση LOESS) χρησιμοποιώντας το Εποχιακή-Τάση-αποσύνθεση οραματισμός. Αυτό αναλύει τις αρχικές χρονοσειρές σε διακριτές τάσεις, εποχικότητα και υπολειπόμενα στοιχεία, δίνοντάς μας μια καλή κατανόηση του πώς συμπεριφέρεται κάθε μοτίβο. Μπορούμε επίσης να χρησιμοποιήσουμε τις πληροφορίες κατά τη μοντελοποίηση προβλημάτων πρόβλεψης.

Το Data Wrangler χρησιμοποιεί LOESS, μια ισχυρή και ευέλικτη στατιστική μέθοδο για τη μοντελοποίηση τάσεων και εποχιακών στοιχείων. Η υποκείμενη εφαρμογή του χρησιμοποιεί πολυωνυμική παλινδρόμηση για την εκτίμηση των μη γραμμικών σχέσεων που υπάρχουν στις συνιστώσες της χρονοσειράς (εποχικότητα, τάση και υπολειπόμενο).

  1. Επιλέξτε Επιστροφή στη ροή δεδομένων.
  2. Επιλέξτε το σύμβολο συν δίπλα στο Βήματα on Ροή δεδομένων.
  3. Επιλέξτε Προσθέστε ανάλυση.
  4. Στο Δημιουργία ανάλυσης τζάμι, για Τύπος ανάλυσης, Choose Χρονική σειρά.
  5. Για Οραματισμός, επιλέξτε Εποχιακή-Τάση αποσύνθεσης.
  6. Για Όνομα ανάλυσης, πληκτρολογήστε ένα όνομα.
  7. Για Στήλη χρονοσήμανσης, επιλέξτε Ραντεβού .
  8. Για Στήλη τιμής, επιλέξτε Όγκος USD.
  9. Επιλέξτε Προβολή.

Η ανάλυση μας επιτρέπει να απεικονίσουμε τις χρονοσειρές εισόδου και την αποσυντιθέμενη εποχικότητα, την τάση και το υπόλοιπο.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Επιλέξτε Αποθήκευση για να αποθηκεύσετε την ανάλυση.

Με την οπτικοποίηση αποσύνθεσης εποχικής τάσης, μπορούμε να δημιουργήσουμε τέσσερα μοτίβα, όπως φαίνεται στο προηγούμενο στιγμιότυπο οθόνης:

  • Πρωτότυπο – Η αρχική χρονοσειρά έγινε εκ νέου δειγματοληψία σε καθημερινή ευαισθησία.
  • τάση – Η πολυωνυμική τάση με συνολική αρνητική τάση για το έτος 2021, που υποδηλώνει μείωση Volume USD αξία.
  • Εποχή – Η πολλαπλασιαστική εποχικότητα που αντιπροσωπεύεται από τα ποικίλα μοτίβα ταλάντωσης. Βλέπουμε μείωση της εποχιακής διακύμανσης, που χαρακτηρίζεται από μείωση του πλάτους των ταλαντώσεων.
  • Υπολειπόμενο – Ο υπολειπόμενος ή τυχαίος θόρυβος. Η υπολειπόμενη σειρά είναι η σειρά που προκύπτει μετά την αφαίρεση των τάσεων και των εποχιακών στοιχείων. Κοιτάζοντας προσεκτικά, παρατηρούμε αιχμές μεταξύ Ιανουαρίου και Μαρτίου και μεταξύ Απριλίου και Ιουνίου, υποδηλώνοντας χώρο για μοντελοποίηση τέτοιων συγκεκριμένων γεγονότων χρησιμοποιώντας ιστορικά δεδομένα.

Αυτές οι απεικονίσεις παρέχουν πολύτιμους οδηγούς σε επιστήμονες δεδομένων και αναλυτές σε υπάρχοντα μοτίβα και μπορούν να σας βοηθήσουν να επιλέξετε μια στρατηγική μοντελοποίησης. Ωστόσο, είναι πάντα καλή πρακτική να επικυρώνετε τα αποτελέσματα της αποσύνθεσης STL με τις πληροφορίες που συλλέγονται μέσω περιγραφικής ανάλυσης και εμπειρογνωμοσύνης στον τομέα.

Συνοψίζοντας, παρατηρούμε μια πτωτική τάση που συνάδει με την οπτικοποίηση της αρχικής σειράς, η οποία αυξάνει την εμπιστοσύνη μας στην ενσωμάτωση των πληροφοριών που μεταφέρονται από την οπτικοποίηση τάσης στη λήψη αποφάσεων κατάντη. Αντίθετα, η οπτικοποίηση εποχικότητας συμβάλλει στην ενημέρωση της παρουσίας της εποχικότητας και της ανάγκης για την αφαίρεσή της με την εφαρμογή τεχνικών όπως η διαφοροποίηση, δεν παρέχει το επιθυμητό επίπεδο λεπτομερούς εικόνας για διάφορα υπάρχοντα εποχιακά μοτίβα, απαιτώντας έτσι βαθύτερη ανάλυση.

Μηχανική χαρακτηριστικών

Αφού κατανοήσουμε τα μοτίβα που υπάρχουν στο σύνολο δεδομένων μας, μπορούμε να αρχίσουμε να σχεδιάζουμε νέα χαρακτηριστικά που στοχεύουν στην αύξηση της ακρίβειας των μοντέλων πρόβλεψης.

Προβολή ώρας ημερομηνίας

Ας ξεκινήσουμε τη διαδικασία σχεδιασμού χαρακτηριστικών με πιο ξεκάθαρα χαρακτηριστικά ημερομηνίας/ώρας. Τα χαρακτηριστικά ημερομηνίας/ώρας δημιουργούνται από το timestamp στήλη και παρέχουν μια βέλτιστη λεωφόρο για τους επιστήμονες δεδομένων για να ξεκινήσουν τη διαδικασία σχεδιασμού χαρακτηριστικών. Ξεκινάμε με το Προβολή ώρας ημερομηνίας Μετασχηματισμός χρονοσειρών για να προσθέσετε τα χαρακτηριστικά του μήνα, της ημέρας του μήνα, της ημέρας του έτους, της εβδομάδας του έτους και του τριμήνου στο σύνολο δεδομένων μας. Επειδή παρέχουμε τα στοιχεία ημερομηνίας/ώρας ως ξεχωριστά χαρακτηριστικά, ενεργοποιούμε τους αλγόριθμους ML για την ανίχνευση σημάτων και μοτίβων για τη βελτίωση της ακρίβειας πρόβλεψης.

  1. Επιλέξτε + Προσθήκη βήματος.
  2. Επιλέξτε Χρονική σειρά μεταμορφώνω.
  3. Για Μεταμορφώνω, Choose Προβολή ώρας ημερομηνίας.
  4. Για Στήλη εισαγωγής, επιλέξτε Ραντεβού .
  5. Για Στήλη εξόδου, εισαγω date (αυτό το βήμα είναι προαιρετικό).
  6. Για Λειτουργία εξόδου, επιλέξτε Τακτικός.
  7. Για Μορφή εξόδου, επιλέξτε Στήλες.
  8. Για εξαγωγή χαρακτηριστικών ημερομηνίας/ώρας, επιλέξτε Μήνας, Ημέρα, Εβδομάδα του χρόνου, Ημέρα του χρόνου, να Τέταρτο.
  9. Επιλέξτε Προβολή.

Το σύνολο δεδομένων περιέχει τώρα νέες στήλες με όνομα date_month, date_day, date_week_of_year, date_day_of_year, να date_quarter. Οι πληροφορίες που ανακτώνται από αυτά τα νέα χαρακτηριστικά θα μπορούσαν να βοηθήσουν τους επιστήμονες δεδομένων να αντλήσουν πρόσθετες πληροφορίες από τα δεδομένα και τη σχέση μεταξύ των χαρακτηριστικών εισόδου και των χαρακτηριστικών εξόδου.

χαρακτηρίζει τον μετασχηματισμό χρονολογικής σειράς ημερομηνίας ώρας

  1. Επιλέξτε Πρόσθεση για να αποθηκεύσετε αυτό το βήμα.

Κωδικοποιήστε κατηγορηματικά

Οι λειτουργίες ημερομηνίας/ώρας δεν περιορίζονται σε ακέραιες τιμές. Μπορείτε επίσης να επιλέξετε να λάβετε υπόψη ορισμένα χαρακτηριστικά ημερομηνίας/ώρας που έχουν εξαχθεί ως κατηγορικές μεταβλητές και να τα αναπαραστήσετε ως κωδικοποιημένα χαρακτηριστικά μεμονωμένα, με κάθε στήλη να περιέχει δυαδικές τιμές. Το νεοσύστατο date_quarter Η στήλη περιέχει τιμές μεταξύ 0-3 και μπορεί να κωδικοποιηθεί μία φορά χρησιμοποιώντας τέσσερις δυαδικές στήλες. Ας δημιουργήσουμε τέσσερα νέα δυαδικά χαρακτηριστικά, καθένα από τα οποία αντιπροσωπεύει το αντίστοιχο τρίμηνο του έτους.

  1. Επιλέξτε + Προσθήκη βήματος.
  2. Επιλέξτε Κωδικοποιήστε κατηγορηματικά μεταμορφώνω.
  3. Για Μεταμορφώστε, επιλέξτε One-hot κωδικοποίηση.
  4. Για Στήλη εισαγωγής, επιλέξτε ημερομηνία_τέταρτο.
  5. Για Στυλ εξόδου, επιλέξτε Στήλες.
  6. Επιλέξτε Προβολή.
  7. Επιλέξτε Πρόσθεση για να προσθέσετε το βήμα.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Χαρακτηριστικό καθυστέρησης

Στη συνέχεια, ας δημιουργήσουμε χαρακτηριστικά καθυστέρησης για τη στήλη προορισμού Volume USD. Τα χαρακτηριστικά καθυστέρησης στην ανάλυση χρονοσειρών είναι τιμές σε προηγούμενες χρονικές σημάνσεις που θεωρούνται χρήσιμες για την εξαγωγή μελλοντικών τιμών. Βοηθούν επίσης στον εντοπισμό της αυτοσυσχέτισης (επίσης γνωστή ως σειριακή συσχέτιση) μοτίβα στην υπολειπόμενη σειρά ποσοτικοποιώντας τη σχέση της παρατήρησης με τις παρατηρήσεις σε προηγούμενα χρονικά βήματα. Η αυτοσυσχέτιση είναι παρόμοια με την κανονική συσχέτιση αλλά μεταξύ των τιμών μιας σειράς και των προηγούμενων τιμών της. Αποτελεί τη βάση για τα μοντέλα αυτοπαλίνδρομης πρόβλεψης της σειράς ARIMA.

Με το Data Wrangler Χαρακτηριστικό καθυστέρησης μετασχηματισμός, μπορείτε εύκολα να δημιουργήσετε χαρακτηριστικά καθυστέρησης n περιόδους μεταξύ τους. Επιπλέον, συχνά θέλουμε να δημιουργήσουμε πολλαπλές δυνατότητες καθυστέρησης σε διαφορετικές καθυστερήσεις και να αφήσουμε το μοντέλο να αποφασίσει τα πιο σημαντικά χαρακτηριστικά. Για ένα τέτοιο σενάριο, το Χαρακτηριστικά καθυστέρησης Ο μετασχηματισμός βοηθά στη δημιουργία πολλαπλών στηλών καθυστέρησης σε ένα καθορισμένο μέγεθος παραθύρου.

  1. Επιλέξτε Επιστροφή στη ροή δεδομένων.
  2. Επιλέξτε το σύμβολο συν δίπλα στο Βήματα on Ροή δεδομένων.
  3. Επιλέξτε + Προσθήκη βήματος.
  4. Επιλέξτε Χρονική σειρά μεταμορφώνω.
  5. Για Μεταμορφώστε, επιλέξτε Χαρακτηριστικά καθυστέρησης.
  6. Για Δημιουργήστε χαρακτηριστικά καθυστέρησης για αυτήν τη στήλη, επιλέξτε Όγκος USD.
  7. Για Στήλη χρονοσήμανσης, επιλέξτε Ραντεβού .
  8. Για ομάδα, εισαγω 7.
  9. Επειδή μας ενδιαφέρει να παρατηρήσουμε μέχρι τις προηγούμενες επτά τιμές καθυστέρησης, ας επιλέξουμε Συμπεριλάβετε ολόκληρο το παράθυρο καθυστέρησης.
  10. Για να δημιουργήσετε μια νέα στήλη για κάθε τιμή καθυστέρησης, επιλέξτε Ισιώνετε την έξοδο.
  11. Επιλέξτε Προβολή.

Προστίθενται επτά νέες στήλες, με επίθημα το lag_number λέξη-κλειδί για τη στήλη προορισμού Volume USD.

Μετασχηματισμός χρονολογικής σειράς χαρακτηριστικών υστέρησης

  1. Επιλέξτε Πρόσθεση για να αποθηκεύσετε το βήμα.

Χαρακτηριστικά κυλιόμενου παραθύρου

Μπορούμε επίσης να υπολογίσουμε σημαντικές στατιστικές περιλήψεις σε ένα εύρος τιμών και να τις συμπεριλάβουμε ως χαρακτηριστικά εισόδου. Ας εξαγάγουμε κοινά χαρακτηριστικά στατιστικών χρονοσειρών.

Το Data Wrangler εφαρμόζει δυνατότητες αυτόματης εξαγωγής χαρακτηριστικών χρονοσειρών χρησιμοποιώντας τον ανοιχτό κώδικα tsfresh πακέτο. Με τους μετασχηματισμούς εξαγωγής χαρακτηριστικών χρονοσειρών, μπορείτε να αυτοματοποιήσετε τη διαδικασία εξαγωγής χαρακτηριστικών. Αυτό εξαλείφει τον χρόνο και την προσπάθεια που δαπανώνται διαφορετικά για τη μη αυτόματη εφαρμογή βιβλιοθηκών επεξεργασίας σήματος. Για αυτήν την ανάρτηση, εξάγουμε λειτουργίες χρησιμοποιώντας το Χαρακτηριστικά κυλιόμενου παραθύρου μεταμορφώνω. Αυτή η μέθοδος υπολογίζει τις στατιστικές ιδιότητες σε ένα σύνολο παρατηρήσεων που ορίζονται από το μέγεθος του παραθύρου.

  1. Επιλέξτε + Προσθήκη βήματος.
  2. Επιλέξτε Χρονική σειρά μεταμορφώνω.
  3. Για Μεταμορφώστε, επιλέξτε Χαρακτηριστικά κυλιόμενου παραθύρου.
  4. Για Δημιουργήστε λειτουργίες κυλιόμενου παραθύρου για αυτήν τη στήλη, επιλέξτε Όγκος USD.
  5. Για Στήλη χρονοσήμανσης, επιλέξτε Ραντεβού .
  6. Για Μέγεθος παραθύρου, εισαγω 7.

Καθορισμός μεγέθους παραθύρου 7 υπολογίζει χαρακτηριστικά συνδυάζοντας την τιμή στην τρέχουσα χρονική σήμανση και τις τιμές για τις προηγούμενες επτά χρονικές σημάνσεις.

  1. Αγορά Ισοπεδώνω για να δημιουργήσετε μια νέα στήλη για κάθε υπολογισμένο χαρακτηριστικό.
  2. Επιλέξτε τη στρατηγική σας ως Ελάχιστο υποσύνολο.

Αυτή η στρατηγική εξάγει οκτώ χαρακτηριστικά που είναι χρήσιμα στις μεταγενέστερες αναλύσεις. Άλλες στρατηγικές περιλαμβάνουν Αποτελεσματικό υποσύνολο, Προσαρμοσμένο υποσύνολο, να Όλα τα χαρακτηριστικά. Για την πλήρη λίστα των δυνατοτήτων που είναι διαθέσιμες για εξαγωγή, ανατρέξτε στο Επισκόπηση των εξαγόμενων δυνατοτήτων.

  1. Επιλέξτε Προβολή.

Μπορούμε να δούμε οκτώ νέες στήλες με καθορισμένο μέγεθος παραθύρου 7 στο όνομά τους, προσαρτημένο στο σύνολο δεδομένων μας.

  1. Επιλέξτε Πρόσθεση για να αποθηκεύσετε το βήμα.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εξαγωγή του συνόλου δεδομένων

Μεταμορφώσαμε το σύνολο δεδομένων χρονοσειρών και είμαστε έτοιμοι να χρησιμοποιήσουμε το μετασχηματισμένο σύνολο δεδομένων ως είσοδο για έναν αλγόριθμο πρόβλεψης. Το τελευταίο βήμα είναι η εξαγωγή του μετασχηματισμένου δεδομένων στο Amazon S3. Στο Data Wrangler, μπορείτε να επιλέξετε Βήμα εξαγωγής για να δημιουργήσετε αυτόματα ένα σημειωματάριο Jupyter με κώδικα επεξεργασίας Amazon SageMaker για επεξεργασία και εξαγωγή του μετασχηματισμένου δεδομένων σε έναν κάδο S3. Ωστόσο, επειδή το σύνολο δεδομένων μας περιέχει λίγο περισσότερες από 300 εγγραφές, ας εκμεταλλευτούμε το Εξαγωγή δεδομένων επιλογή του Προσθήκη μετασχηματισμού προβολή για εξαγωγή του μετασχηματισμένου δεδομένων απευθείας στο Amazon S3 από το Data Wrangler.

  1. Επιλέξτε Εξαγωγή δεδομένων.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Για S3 τοποθεσία, επιλέξτε πρόγραμμα περιήγησης και επιλέξτε τον κάδο S3 σας.
  2. Επιλέξτε Εξαγωγή δεδομένων.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τώρα που έχουμε μεταμορφώσει με επιτυχία το σύνολο δεδομένων bitcoin, μπορούμε να χρησιμοποιήσουμε Πρόβλεψη του Αμαζονίου για τη δημιουργία προβλέψεων bitcoin.

εκκαθάριση

Εάν τελειώσετε με αυτήν την περίπτωση χρήσης, καθαρίστε τους πόρους που δημιουργήσατε για να αποφύγετε πρόσθετες χρεώσεις. Για το Data Wrangler μπορείτε να τερματίσετε τη λειτουργία της υποκείμενης παρουσίας όταν τελειώσετε. Αναφέρομαι σε Τερματίστε το Data Wrangler τεκμηρίωση για λεπτομέρειες. Εναλλακτικά, μπορείτε να συνεχίσετε Μέρος 2 αυτής της σειράς για να χρησιμοποιήσετε αυτό το σύνολο δεδομένων για πρόβλεψη.

Χαρακτηριστικά

Αυτή η ανάρτηση έδειξε πώς να χρησιμοποιήσετε το Data Wrangler για να απλοποιήσετε και να επιταχύνετε την ανάλυση χρονοσειρών χρησιμοποιώντας τις ενσωματωμένες δυνατότητες χρονοσειρών του. Εξερευνήσαμε πώς οι επιστήμονες δεδομένων μπορούν εύκολα και διαδραστικά να καθαρίσουν, να μορφοποιήσουν, να επικυρώσουν και να μετατρέψουν δεδομένα χρονοσειρών στην επιθυμητή μορφή, για ουσιαστική ανάλυση. Εξερευνήσαμε επίσης πώς μπορείτε να εμπλουτίσετε την ανάλυση χρονοσειρών σας προσθέτοντας ένα ολοκληρωμένο σύνολο στατιστικών χαρακτηριστικών χρησιμοποιώντας το Data Wrangler. Για να μάθετε περισσότερα σχετικά με τους μετασχηματισμούς χρονοσειρών στο Data Wrangler, βλ Μετασχηματισμός Δεδομένων.


Σχετικά με το Συγγραφέας

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Roop Bains είναι αρχιτέκτονας λύσεων στο AWS με επίκεντρο την AI/ML. Είναι παθιασμένος με το να βοηθά τους πελάτες να καινοτομούν και να επιτύχουν τους επιχειρηματικούς τους στόχους χρησιμοποιώντας την Τεχνητή Νοημοσύνη και τη Μηχανική Μάθηση. Στον ελεύθερο χρόνο του, ο Ρουπ απολαμβάνει το διάβασμα και την πεζοπορία.

Προετοιμάστε δεδομένα χρονοσειρών με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Νικήτα Ίβκιν είναι Εφαρμοσμένος Επιστήμονας, Amazon SageMaker Data Wrangler.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS

Το Amazon Q Business και το Amazon Q στο QuickSight δίνουν τη δυνατότητα στους υπαλλήλους να βασίζονται περισσότερο στα δεδομένα και να λαμβάνουν καλύτερες και ταχύτερες αποφάσεις χρησιμοποιώντας τη γνώση της εταιρείας | Υπηρεσίες Ιστού της Amazon

Κόμβος πηγής: 1969885
Σφραγίδα ώρας: 30 Απριλίου 2024