Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αποκτήστε περισσότερο έλεγχο των φόρτων εργασίας σας στο Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες

Τα δεδομένα μεταμορφώνουν κάθε τομέα και κάθε επιχείρηση. Ωστόσο, με τα δεδομένα να αυξάνονται ταχύτερα από ό,τι μπορούν να παρακολουθούν οι περισσότερες εταιρείες, η συλλογή δεδομένων και η απόκτηση αξίας από αυτά τα δεδομένα είναι μια πρόκληση. ΕΝΑ σύγχρονη στρατηγική δεδομένων μπορεί να σας βοηθήσει να δημιουργήσετε καλύτερα επιχειρηματικά αποτελέσματα με δεδομένα. Η AWS παρέχει το πιο πλήρες σύνολο υπηρεσιών για το διαδρομή δεδομένων από άκρο σε άκρο για να σας βοηθήσει ξεκλειδώστε την τιμή από τα δεδομένα σας και μετατρέψτε το σε διορατικότητα.

Οι επιστήμονες δεδομένων μπορούν να αφιερώσουν έως και το 80% του χρόνου τους για την προετοιμασία δεδομένων για έργα μηχανικής μάθησης (ML). Αυτή η διαδικασία προετοιμασίας είναι σε μεγάλο βαθμό αδιαφοροποίητη και κουραστική εργασία και μπορεί να περιλαμβάνει πολλαπλά API προγραμματισμού και προσαρμοσμένες βιβλιοθήκες. Amazon SageMaker Data Wrangler βοηθά τους επιστήμονες δεδομένων και τους μηχανικούς δεδομένων να απλοποιήσουν και να επιταχύνουν την προετοιμασία δεδομένων πινάκων και χρονοσειρών και τη μηχανική χαρακτηριστικών μέσω μιας οπτικής διεπαφής. Μπορείτε να εισάγετε δεδομένα από πολλές πηγές δεδομένων, όπως π.χ Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, ή ακόμα και λύσεις τρίτων όπως Νιφάδα χιονιού or DataBricksκαι επεξεργαστείτε τα δεδομένα σας με πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων και μια βιβλιοθήκη αποσπασμάτων κώδικα, ώστε να μπορείτε γρήγορα να κανονικοποιείτε, να μετασχηματίζετε και να συνδυάζετε λειτουργίες χωρίς να γράφετε κώδικα. Μπορείτε επίσης να φέρετε τους προσαρμοσμένους μετασχηματισμούς σας σε PySpark, SQL ή Pandas.

Αυτή η ανάρτηση δείχνει πώς μπορείτε να προγραμματίσετε τις εργασίες προετοιμασίας δεδομένων να εκτελούνται αυτόματα. Εξερευνούμε επίσης τη νέα δυνατότητα Data Wrangler των παραμετροποιημένων συνόλων δεδομένων, η οποία σας επιτρέπει να καθορίσετε τα αρχεία που θα συμπεριληφθούν σε μια ροή δεδομένων μέσω παραμετροποιημένων URI.

Επισκόπηση λύσεων

Το Data Wrangler υποστηρίζει πλέον την εισαγωγή δεδομένων χρησιμοποιώντας ένα παραμετροποιημένο URI. Αυτό επιτρέπει περαιτέρω ευελιξία επειδή μπορείτε πλέον να εισάγετε όλα τα σύνολα δεδομένων που ταιριάζουν με τις καθορισμένες παραμέτρους, οι οποίες μπορεί να είναι τύπου String, Number, Datetime και Pattern, στο URI. Επιπλέον, μπορείτε τώρα να ενεργοποιήσετε τις εργασίες μετασχηματισμού του Data Wrangler σε ένα χρονοδιάγραμμα.

Σε αυτήν την ανάρτηση, δημιουργούμε ένα δείγμα ροής με το σύνολο δεδομένων Titanic για να δείξουμε πώς μπορείτε να αρχίσετε να πειραματίζεστε με αυτές τις δύο νέες δυνατότητες του Data Wrangler. Για λήψη του συνόλου δεδομένων, ανατρέξτε στο Τιτανικός – Μηχανική Μάθηση από Καταστροφές.

Προϋποθέσεις

Για να λάβετε όλες τις δυνατότητες που περιγράφονται σε αυτήν την ανάρτηση, πρέπει να εκτελείτε την πιο πρόσφατη έκδοση πυρήνα του Data Wrangler. Για περισσότερες πληροφορίες, ανατρέξτε στο Ενημερώστε το Data Wrangler. Επιπλέον, πρέπει να τρέχετε Στούντιο Amazon SageMaker JupyterLab 3. Για να δείτε την τρέχουσα έκδοση και να την ενημερώσετε, ανατρέξτε στο JupyterLab Versioning.

Δομή αρχείων

Για αυτήν την επίδειξη, ακολουθούμε μια απλή δομή αρχείου που πρέπει να αντιγράψετε για να αναπαράγετε τα βήματα που περιγράφονται σε αυτήν την ανάρτηση.

  1. Στο στούντιο, δημιουργήστε ένα νέο σημειωματάριο.
  2. Εκτελέστε το ακόλουθο απόσπασμα κώδικα για να δημιουργήσετε τη δομή φακέλου που χρησιμοποιούμε (βεβαιωθείτε ότι βρίσκεστε στον επιθυμητό φάκελο στο δέντρο αρχείων σας):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. αντιγράψτε το train.csv και test.csv αρχεία από το αρχικό σύνολο δεδομένων του Titanic στους φακέλους titanic_dataset/train και titanic_dataset/test, Αντίστοιχα.
  4. Εκτελέστε το ακόλουθο απόσπασμα κώδικα για να συμπληρώσετε τους φακέλους με τα απαραίτητα αρχεία:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Χωρίσαμε το train.csv αρχείο του συνόλου δεδομένων του Τιτανικού σε εννέα διαφορετικά αρχεία, με όνομα part_x, όπου x είναι ο αριθμός του τμήματος. Το μέρος 0 έχει τις πρώτες 100 εγγραφές, το μέρος 1 τις επόμενες 100 και ούτω καθεξής μέχρι το μέρος 8. Κάθε φάκελος κόμβου του δέντρου αρχείων περιέχει ένα αντίγραφο των εννέα τμημάτων των δεδομένων εκπαίδευσης εκτός από το train και test φακέλους, που περιέχουν train.csv και test.csv.

Παραμετροποιημένα σύνολα δεδομένων

Οι χρήστες του Data Wrangler μπορούν πλέον να καθορίσουν παραμέτρους για τα σύνολα δεδομένων που εισάγονται από το Amazon S3. Οι παράμετροι συνόλου δεδομένων καθορίζονται στο URI των πόρων και η τιμή του μπορεί να αλλάξει δυναμικά, επιτρέποντας μεγαλύτερη ευελιξία στην επιλογή των αρχείων που θέλουμε να εισαγάγουμε. Οι παράμετροι μπορούν να είναι τεσσάρων τύπων δεδομένων:

  • αριθμός – Μπορεί να πάρει την τιμή οποιουδήποτε ακέραιου αριθμού
  • Σπάγγος – Μπορεί να πάρει την τιμή οποιασδήποτε συμβολοσειράς κειμένου
  • πρότυπο – Μπορεί να πάρει την αξία οποιασδήποτε τυπικής έκφρασης
  • Ημερομηνία ώρα – Μπορεί να λάβει την τιμή οποιασδήποτε από τις υποστηριζόμενες μορφές ημερομηνίας/ώρας

Σε αυτήν την ενότητα, παρέχουμε μια περιγραφή αυτής της νέας δυνατότητας. Αυτό είναι διαθέσιμο μόνο αφού εισαγάγετε το σύνολο δεδομένων σας στην τρέχουσα ροή σας και μόνο για σύνολα δεδομένων που εισάγονται από το Amazon S3.

  1. Από τη ροή δεδομένων σας, επιλέξτε το σύμβολο συν (+) δίπλα στο βήμα εισαγωγής και επιλέξτε Επεξεργασία συνόλου δεδομένων.
  2. Η προτιμώμενη (και πιο εύκολη) μέθοδος δημιουργίας νέων παραμέτρων είναι να επισημάνετε ένα τμήμα του URI σας και να επιλέξετε Δημιουργία προσαρμοσμένης παραμέτρου στο αναπτυσσόμενο μενού. Πρέπει να καθορίσετε τέσσερα πράγματα για κάθε παράμετρο που θέλετε να δημιουργήσετε:
    1. Όνομα
    2. Χαρακτηριστικά
    3. Προεπιλεγμένη τιμή
    4. Περιγραφή

    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Εδώ έχουμε δημιουργήσει μια παράμετρο τύπου String που ονομάζεται filename_param με προεπιλεγμένη τιμή train.csv. Τώρα μπορείτε να δείτε το όνομα της παραμέτρου που περικλείεται σε διπλές αγκύλες, αντικαθιστώντας το τμήμα του URI που επισημάναμε προηγουμένως. Επειδή η καθορισμένη τιμή για αυτήν την παράμετρο ήταν train.csv, τώρα βλέπουμε το αρχείο train.csv αναγράφονται στον πίνακα εισαγωγής.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  3. Όταν προσπαθούμε να δημιουργήσουμε μια δουλειά μετασχηματισμού, στο Διαμόρφωση εργασίας βήμα, βλέπουμε τώρα α παράμετροι ενότητα, όπου μπορούμε να δούμε μια λίστα με όλες τις καθορισμένες παραμέτρους μας.
  4. Η επιλογή της παραμέτρου μας δίνει την επιλογή να αλλάξουμε την τιμή της παραμέτρου, σε αυτήν την περίπτωση, αλλάζοντας το σύνολο δεδομένων εισόδου που θα μετασχηματιστεί σύμφωνα με την καθορισμένη ροή.
    Υποθέτοντας ότι αλλάξουμε την τιμή του filename_param από train.csv προς την part_0.csv, η δουλειά του μετασχηματισμού χρειάζεται τώρα part_0.csv (υπό την προϋπόθεση ότι υπάρχει ένα αρχείο με το όνομα part_0.csv υπάρχει στον ίδιο φάκελο) ως νέα δεδομένα εισόδου του.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  5. Επιπλέον, εάν επιχειρήσετε να εξαγάγετε τη ροή σας σε έναν προορισμό Amazon S3 (μέσω ενός σημειωματάριου Jupyter), θα δείτε τώρα ένα νέο κελί που περιέχει τις παραμέτρους που ορίσατε.
    Σημειώστε ότι η παράμετρος παίρνει την προεπιλεγμένη τιμή της, αλλά μπορείτε να την αλλάξετε αντικαθιστώντας την τιμή της στο parameter_overrides λεξικό (ενώ αφήνουμε αμετάβλητα τα πλήκτρα του λεξικού).
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Επιπλέον, μπορείτε να δημιουργήσετε νέες παραμέτρους από το παράμετροι Διεπαφή χρήστη
  6. Ανοίξτε το επιλέγοντας το εικονίδιο παραμέτρων ({{}}) που βρίσκεται δίπλα στο Go επιλογή; και τα δύο βρίσκονται δίπλα στην τιμή διαδρομής URI.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ανοίγει ένας πίνακας με όλες τις παραμέτρους που υπάρχουν αυτήν τη στιγμή στο αρχείο ροής (filename_param σε αυτό το σημείο).
  7. Μπορείτε να δημιουργήσετε νέες παραμέτρους για τη ροή σας επιλέγοντας Δημιουργία παραμέτρου.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Ανοίγει ένα αναδυόμενο παράθυρο που σας επιτρέπει να δημιουργήσετε μια νέα προσαρμοσμένη παράμετρο.
  8. Εδώ, δημιουργήσαμε ένα νέο example_parameter ως τύπος αριθμού με προεπιλεγμένη τιμή 0. Αυτή η παράμετρος που δημιουργήθηκε πρόσφατα παρατίθεται τώρα στο παράμετροι τραπέζι. Η τοποθέτηση του ποντικιού πάνω από την παράμετρο εμφανίζει τις επιλογές Αλλαγή, Διαγραφή, να Κύριο θέμα.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  9. Από μέσα στο παράμετροι UI, μπορείτε να εισαγάγετε μία από τις παραμέτρους σας στο URI επιλέγοντας την επιθυμητή παράμετρο και επιλέγοντας Κύριο θέμα.
    Αυτό προσθέτει την παράμετρο στο τέλος του URI σας. Πρέπει να το μετακινήσετε στην επιθυμητή ενότητα στο URI σας.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  10. Αλλάξτε την προεπιλεγμένη τιμή της παραμέτρου, εφαρμόστε την αλλαγή (από το modal), επιλέξτε Goκαι επιλέξτε το εικονίδιο ανανέωσης για να ενημερώσετε τη λίστα προεπισκόπησης χρησιμοποιώντας το επιλεγμένο σύνολο δεδομένων με βάση την τιμή της πρόσφατα καθορισμένης παραμέτρου.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ας εξερευνήσουμε τώρα άλλους τύπους παραμέτρων. Ας υποθέσουμε ότι τώρα έχουμε ένα σύνολο δεδομένων χωρισμένο σε πολλά μέρη, όπου κάθε αρχείο έχει έναν αριθμό τμήματος.
  11. Εάν θέλουμε να αλλάξουμε δυναμικά τον αριθμό του αρχείου, μπορούμε να ορίσουμε μια παράμετρο Number όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Σημειώστε ότι το επιλεγμένο αρχείο είναι αυτό που ταιριάζει με τον αριθμό που καθορίζεται στην παράμετρο.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τώρα ας δείξουμε πώς να χρησιμοποιήσετε μια παράμετρο Pattern. Ας υποθέσουμε ότι θέλουμε να εισάγουμε όλα τα part_1.csv αρχεία σε όλους τους φακέλους κάτω από το titanic-dataset/ ντοσιέ. Οι παράμετροι του μοτίβου μπορούν να λάβουν οποιαδήποτε έγκυρη τυπική έκφραση. υπάρχουν ορισμένα μοτίβα regex που εμφανίζονται ως παραδείγματα.
  12. Δημιουργήστε μια παράμετρο Pattern που ονομάζεται any_pattern για να ταιριάζει με οποιονδήποτε φάκελο ή αρχείο κάτω από το titanic-dataset/ φάκελο με προεπιλεγμένη τιμή .*.Παρατηρήστε ότι ο χαρακτήρας μπαλαντέρ δεν είναι ένα * (αστερίσκος) αλλά έχει και μια τελεία.
  13. Επισημάνετε το titanic-dataset/ μέρος της διαδρομής και δημιουργήστε μια προσαρμοσμένη παράμετρο. Αυτή τη φορά επιλέγουμε το πρότυπο τύπος.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Αυτό το μοτίβο επιλέγει όλα τα αρχεία που καλούνται part-1.csv από οποιονδήποτε από τους φακέλους κάτω titanic-dataset/.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Μια παράμετρος μπορεί να χρησιμοποιηθεί περισσότερες από μία φορές σε μια διαδρομή. Στο παρακάτω παράδειγμα, χρησιμοποιούμε την παράμετρο που δημιουργήσαμε πρόσφατα any_pattern δύο φορές στο URI μας για να ταιριάζει με οποιοδήποτε από τα αρχεία μερών σε οποιονδήποτε από τους φακέλους κάτω titanic-dataset/.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τέλος, ας δημιουργήσουμε μια παράμετρο Datetime. Οι παράμετροι ώρας ημερομηνίας είναι χρήσιμες όταν έχουμε να κάνουμε με διαδρομές που είναι χωρισμένες κατά ημερομηνία και ώρα, όπως αυτές που δημιουργούνται από Firehose δεδομένων Amazon Kinesis (Βλ. Dynamic Partitioning σε Kinesis Data Firehose). Για αυτήν την επίδειξη, χρησιμοποιούμε τα δεδομένα στον φάκελο datetime-data.
  14. Επιλέξτε το τμήμα της διαδρομής σας που είναι ημερομηνία/ώρα και δημιουργήστε μια προσαρμοσμένη παράμετρο. Επιλέξτε το Ημερομηνία ώρα τύπος παραμέτρου.
    Όταν επιλέγετε τον τύπο δεδομένων Datetime, πρέπει να συμπληρώσετε περισσότερες λεπτομέρειες.
  15. Πρώτα απ 'όλα, πρέπει να δώσετε μια μορφή ημερομηνίας. Μπορείτε να επιλέξετε οποιαδήποτε από τις προκαθορισμένες μορφές ημερομηνίας/ώρας ή να δημιουργήσετε μια προσαρμοσμένη.
    Για τις προκαθορισμένες μορφές ημερομηνίας/ώρας, το υπόμνημα παρέχει ένα παράδειγμα ημερομηνίας που ταιριάζει με την επιλεγμένη μορφή. Για αυτήν την επίδειξη, επιλέγουμε τη μορφή εεεε/ΜΜ/ηη.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  16. Στη συνέχεια, καθορίστε μια ζώνη ώρας για τις τιμές ημερομηνίας/ώρας.
    Για παράδειγμα, η τρέχουσα ημερομηνία μπορεί να είναι η 1η Ιανουαρίου 2022, σε μία ζώνη ώρας, αλλά μπορεί να είναι η 2η Ιανουαρίου 2022, σε άλλη ζώνη ώρας.
  17. Τέλος, μπορείτε να επιλέξετε το χρονικό εύρος, το οποίο σας επιτρέπει να επιλέξετε το εύρος των αρχείων που θέλετε να συμπεριλάβετε στη ροή δεδομένων σας.
    Μπορείτε να καθορίσετε το εύρος του χρόνου σας σε ώρες, ημέρες, εβδομάδες, μήνες ή χρόνια. Για αυτό το παράδειγμα, θέλουμε να λάβουμε όλα τα αρχεία από το προηγούμενο έτος.
  18. Δώστε μια περιγραφή της παραμέτρου και επιλέξτε Δημιουργία.
    Εάν χρησιμοποιείτε πολλά σύνολα δεδομένων με διαφορετικές ζώνες ώρας, η ώρα δεν μετατρέπεται αυτόματα. πρέπει να προεπεξεργαστείτε κάθε αρχείο ή πηγή για να το μετατρέψετε σε μία ζώνη ώρας.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τα επιλεγμένα αρχεία είναι όλα τα αρχεία κάτω από τους φακέλους που αντιστοιχούν στα δεδομένα του περασμένου έτους.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  19. Τώρα, εάν δημιουργήσουμε μια εργασία μετασχηματισμού δεδομένων, μπορούμε να δούμε μια λίστα με όλες τις καθορισμένες παραμέτρους μας και μπορούμε να παρακάμψουμε τις προεπιλεγμένες τιμές τους, ώστε οι εργασίες μετασχηματισμού μας να επιλέξουν τα καθορισμένα αρχεία.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Προγραμματίστε εργασίες επεξεργασίας

Τώρα μπορείτε να προγραμματίσετε εργασίες επεξεργασίας για να αυτοματοποιήσετε την εκτέλεση των εργασιών μετασχηματισμού δεδομένων και την εξαγωγή των μετασχηματισμένων δεδομένων σας είτε στο Amazon S3 είτε Κατάστημα χαρακτηριστικών Amazon SageMaker. Μπορείτε να προγραμματίσετε τις εργασίες με το χρόνο και την περιοδικότητα που ταιριάζει στις ανάγκες σας.

Προγραμματισμένη χρήση εργασιών επεξεργασίας Amazon EventBridge κανόνες για να προγραμματίσετε την εκτέλεση της εργασίας. Επομένως, ως προαπαιτούμενο, πρέπει να βεβαιωθείτε ότι η Διαχείριση ταυτότητας και πρόσβασης AWS ρόλος (IAM) που χρησιμοποιείται από την Data Wrangler, δηλαδή το Amazon Sage Maker ρόλος εκτέλεσης της παρουσίας του Studio, έχει δικαιώματα για τη δημιουργία κανόνων EventBridge.

Διαμόρφωση IAM

Συνεχίστε με τις ακόλουθες ενημερώσεις για τον ρόλο εκτέλεσης του IAM SageMaker που αντιστοιχεί στην παρουσία του Studio όπου εκτελείται η ροή δεδομένων Wrangler:

  1. Συνδέστε το AmazonEventBridgeFullAccess διαχειριζόμενη πολιτική.
  2. Επισυνάψτε μια πολιτική για τη χορήγηση άδειας για τη δημιουργία μιας εργασίας επεξεργασίας:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Παραχωρήστε άδεια EventBridge για να αναλάβει το ρόλο προσθέτοντας την ακόλουθη πολιτική εμπιστοσύνης:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

Εναλλακτικά, εάν χρησιμοποιείτε διαφορετικό ρόλο για την εκτέλεση της εργασίας επεξεργασίας, εφαρμόστε τις πολιτικές που περιγράφονται στα βήματα 2 και 3 σε αυτόν τον ρόλο. Για λεπτομέρειες σχετικά με τη διαμόρφωση IAM, ανατρέξτε στο Δημιουργήστε ένα χρονοδιάγραμμα για την αυτόματη επεξεργασία νέων δεδομένων.

Δημιουργήστε ένα πρόγραμμα

Για να δημιουργήσετε ένα χρονοδιάγραμμα, ανοίξτε τη ροή σας στο πρόγραμμα επεξεργασίας ροής δεδομένων Wrangler.

  1. Στις Ροή δεδομένων καρτέλα, επιλέξτε Δημιουργήστε εργασία.
  2. Διαμορφώστε τα απαιτούμενα πεδία και επιλέξτε Στη συνέχεια, 2. Διαμόρφωση εργασίας.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Ανάπτυξη Δρομολόγια συνεργατών.
  4. Επιλέξτε Δημιουργήστε νέο πρόγραμμα.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Η Δημιουργήστε νέο πρόγραμμα ανοίγει το παράθυρο διαλόγου, όπου ορίζετε τις λεπτομέρειες του χρονοδιαγράμματος εργασιών επεξεργασίας.
    Το παράθυρο διαλόγου προσφέρει μεγάλη ευελιξία για να σας βοηθήσει να ορίσετε το χρονοδιάγραμμα. Μπορείτε, για παράδειγμα, η εργασία επεξεργασίας να εκτελείται σε συγκεκριμένη ώρα ή κάθε Χ ώρες, συγκεκριμένες ημέρες της εβδομάδας.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Η περιοδικότητα μπορεί να είναι κοκκώδης στο επίπεδο των λεπτών.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  5. Καθορίστε το όνομα και την περιοδικότητα του προγράμματος και, στη συνέχεια, επιλέξτε Δημιουργία για να αποθηκεύσετε το πρόγραμμα.
  6. Έχετε την επιλογή να ξεκινήσετε την εργασία επεξεργασίας αμέσως μαζί με τον προγραμματισμό, ο οποίος φροντίζει για μελλοντικές εκτελέσεις ή να αφήσετε την εργασία να εκτελεστεί μόνο σύμφωνα με το χρονοδιάγραμμα.
  7. Μπορείτε επίσης να ορίσετε ένα επιπλέον χρονοδιάγραμμα για την ίδια εργασία επεξεργασίας.
    Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  8. Για να ολοκληρώσετε το χρονοδιάγραμμα για την εργασία επεξεργασίας, επιλέξτε Δημιουργία.
    Βλέπετε ένα μήνυμα "Η εργασία προγραμματίστηκε με επιτυχία". Επιπλέον, εάν επιλέξατε να αφήσετε την εργασία να εκτελείται μόνο σύμφωνα με το χρονοδιάγραμμα, θα δείτε έναν σύνδεσμο προς τον κανόνα EventBridge που μόλις δημιουργήσατε.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εάν επιλέξετε τη σύνδεση προγραμματισμού, ανοίγει μια νέα καρτέλα στο πρόγραμμα περιήγησης, η οποία εμφανίζει τον κανόνα EventBridge. Σε αυτήν τη σελίδα, μπορείτε να κάνετε περαιτέρω τροποποιήσεις στον κανόνα και να παρακολουθείτε το ιστορικό επίκλησής του. Για να σταματήσετε την εκτέλεση της προγραμματισμένης εργασίας επεξεργασίας, διαγράψτε τον κανόνα συμβάντος που περιέχει το όνομα του χρονοδιαγράμματος.

Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ο κανόνας EventBridge εμφανίζει ως στόχο μια διοχέτευση SageMaker, η οποία ενεργοποιείται σύμφωνα με το καθορισμένο χρονοδιάγραμμα και την εργασία επεξεργασίας που επικαλείται ως μέρος της διοχέτευσης.

Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Για να παρακολουθήσετε τις εκτελέσεις του αγωγού SageMaker, μπορείτε να επιστρέψετε στο Studio και να επιλέξετε το Πόροι SageMaker εικονίδιο, επιλέξτε Αγωγοίκαι επιλέξτε το όνομα του αγωγού που θέλετε να παρακολουθήσετε. Τώρα μπορείτε να δείτε έναν πίνακα με όλες τις τρέχουσες και προηγούμενες εκτελέσεις και την κατάσταση αυτού του αγωγού.

Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε να δείτε περισσότερες λεπτομέρειες κάνοντας διπλό κλικ σε μια συγκεκριμένη καταχώρηση.

Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

εκκαθάριση

Όταν δεν χρησιμοποιείτε το Data Wrangler, συνιστάται να απενεργοποιείτε την παρουσία στην οποία εκτελείται για να αποφύγετε την επιβολή πρόσθετων χρεώσεων.

Για να αποφύγετε την απώλεια εργασίας, αποθηκεύστε τη ροή δεδομένων σας προτού απενεργοποιήσετε το Data Wrangler.

  1. Για να αποθηκεύσετε τη ροή δεδομένων σας στο Studio, επιλέξτε Αρχεία, κατόπιν επιλέξτε Αποθήκευση ροής Wrangler δεδομένων. Το Data Wrangler αποθηκεύει αυτόματα τη ροή δεδομένων σας κάθε 60 δευτερόλεπτα.
  2. Για να τερματίσετε την παρουσία του Data Wrangler, στο Studio, επιλέξτε Τρέχουσες παρουσίες και πυρήνες.
  3. Κάτω από ΕΦΑΡΜΟΓΕΣ ΕΚΤΕΛΕΣΗΣ, επιλέξτε το εικονίδιο τερματισμού λειτουργίας δίπλα στο sagemaker-data-wrangler-1.0 app.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  4. Επιλέξτε Κλείσε όλα για να επιβεβαιώσετε.Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το Data Wrangler εκτελείται σε ένα στιγμιότυπο ml.m5.4x. Αυτή η περίπτωση εξαφανίζεται από ΕΚΔΗΛΩΣΕΙΣ ΠΕΡΙΠΤΩΣΕΩΝ όταν τερματίζετε την εφαρμογή Data Wrangler.

Αφού τερματίσετε τη λειτουργία της εφαρμογής Data Wrangler, πρέπει να επανεκκινήσει την επόμενη φορά που θα ανοίξετε ένα αρχείο ροής Data Wrangler. Αυτό μπορεί να διαρκέσει μερικά λεπτά.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς μπορείτε να χρησιμοποιήσετε παραμέτρους για να εισαγάγετε τα σύνολα δεδομένων σας χρησιμοποιώντας ροές Data Wrangler και να δημιουργήσετε εργασίες μετασχηματισμού δεδομένων σε αυτές. Τα παραμετροποιημένα σύνολα δεδομένων επιτρέπουν μεγαλύτερη ευελιξία στα σύνολα δεδομένων που χρησιμοποιείτε και σας επιτρέπουν να επαναχρησιμοποιείτε τις ροές σας. Επίσης, δείξαμε πώς μπορείτε να ρυθμίσετε τις προγραμματισμένες εργασίες για να αυτοματοποιήσετε τους μετασχηματισμούς και τις εξαγωγές δεδομένων σας είτε στο Amazon S3 είτε στο Feature Store, τη στιγμή και την περιοδικότητα που ταιριάζει στις ανάγκες σας, απευθείας από τη διεπαφή χρήστη του Data Wrangler.

Για να μάθετε περισσότερα σχετικά με τη χρήση ροών δεδομένων με το Data Wrangler, ανατρέξτε στο Δημιουργήστε και χρησιμοποιήστε μια ροή δεδομένων Wrangler και Τιμολόγηση του Amazon SageMaker. Για να ξεκινήσετε με το Data Wrangler, βλ Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler.


Σχετικά με τους συγγραφείς

Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ντέιβιντ Λαρέδο είναι Αρχιτέκτονας Πρωτοτύπων για την ομάδα Μηχανικών Πρωτοτύπων και Cloud της Amazon Web Services, όπου έχει βοηθήσει στην ανάπτυξη πολλαπλών πρωτοτύπων μηχανικής εκμάθησης για πελάτες AWS. Εργάζεται στη μηχανική εκμάθηση τα τελευταία 6 χρόνια, εκπαιδεύει και βελτιώνει τα μοντέλα ML και εφαρμόζει αγωγούς από άκρο σε άκρο για την παραγωγή αυτών των μοντέλων. Οι τομείς ενδιαφέροντός του είναι το NLP, οι εφαρμογές ML και το end-to-end ML.

Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζιβανίλντο Άλβες είναι Αρχιτέκτονας Πρωτοτύπων με την ομάδα Prototyping and Cloud Engineering στο Amazon Web Services, βοηθώντας τους πελάτες να καινοτομήσουν και να επιταχύνουν δείχνοντας την τέχνη του δυνατού στο AWS, έχοντας ήδη εφαρμόσει πολλά πρωτότυπα γύρω από την τεχνητή νοημοσύνη. Έχει μακρά καριέρα στη μηχανική λογισμικού και στο παρελθόν εργάστηκε ως Μηχανικός Ανάπτυξης Λογισμικού στο Amazon.com.br.

Αποκτήστε περισσότερο έλεγχο του φόρτου εργασίας του Amazon SageMaker Data Wrangler με παραμετροποιημένα σύνολα δεδομένων και προγραμματισμένες εργασίες PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Άντριαν Φουέντες είναι Διευθυντής Προγράμματος με την ομάδα Πρωτοτύπων και Μηχανικής Cloud στο Amazon Web Services, καινοτομώντας για πελάτες στη μηχανική μάθηση, το IoT και το blockchain. Έχει πάνω από 15 χρόνια εμπειρία στη διαχείριση και υλοποίηση έργων και 1 χρόνο θητείας στο AWS.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS