Τα δεδομένα μεταμορφώνουν κάθε τομέα και κάθε επιχείρηση. Ωστόσο, με τα δεδομένα να αυξάνονται ταχύτερα από ό,τι μπορούν να παρακολουθούν οι περισσότερες εταιρείες, η συλλογή δεδομένων και η απόκτηση αξίας από αυτά τα δεδομένα είναι μια πρόκληση. ΕΝΑ σύγχρονη στρατηγική δεδομένων μπορεί να σας βοηθήσει να δημιουργήσετε καλύτερα επιχειρηματικά αποτελέσματα με δεδομένα. Η AWS παρέχει το πιο πλήρες σύνολο υπηρεσιών για το διαδρομή δεδομένων από άκρο σε άκρο για να σας βοηθήσει ξεκλειδώστε την τιμή από τα δεδομένα σας και μετατρέψτε το σε διορατικότητα.
Οι επιστήμονες δεδομένων μπορούν να αφιερώσουν έως και το 80% του χρόνου τους για την προετοιμασία δεδομένων για έργα μηχανικής μάθησης (ML). Αυτή η διαδικασία προετοιμασίας είναι σε μεγάλο βαθμό αδιαφοροποίητη και κουραστική εργασία και μπορεί να περιλαμβάνει πολλαπλά API προγραμματισμού και προσαρμοσμένες βιβλιοθήκες. Amazon SageMaker Data Wrangler βοηθά τους επιστήμονες δεδομένων και τους μηχανικούς δεδομένων να απλοποιήσουν και να επιταχύνουν την προετοιμασία δεδομένων πινάκων και χρονοσειρών και τη μηχανική χαρακτηριστικών μέσω μιας οπτικής διεπαφής. Μπορείτε να εισάγετε δεδομένα από πολλές πηγές δεδομένων, όπως π.χ Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, ή ακόμα και λύσεις τρίτων όπως Νιφάδα χιονιού or DataBricksκαι επεξεργαστείτε τα δεδομένα σας με πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων και μια βιβλιοθήκη αποσπασμάτων κώδικα, ώστε να μπορείτε γρήγορα να κανονικοποιείτε, να μετασχηματίζετε και να συνδυάζετε λειτουργίες χωρίς να γράφετε κώδικα. Μπορείτε επίσης να φέρετε τους προσαρμοσμένους μετασχηματισμούς σας σε PySpark, SQL ή Pandas.
Αυτή η ανάρτηση δείχνει πώς μπορείτε να προγραμματίσετε τις εργασίες προετοιμασίας δεδομένων να εκτελούνται αυτόματα. Εξερευνούμε επίσης τη νέα δυνατότητα Data Wrangler των παραμετροποιημένων συνόλων δεδομένων, η οποία σας επιτρέπει να καθορίσετε τα αρχεία που θα συμπεριληφθούν σε μια ροή δεδομένων μέσω παραμετροποιημένων URI.
Επισκόπηση λύσεων
Το Data Wrangler υποστηρίζει πλέον την εισαγωγή δεδομένων χρησιμοποιώντας ένα παραμετροποιημένο URI. Αυτό επιτρέπει περαιτέρω ευελιξία επειδή μπορείτε πλέον να εισάγετε όλα τα σύνολα δεδομένων που ταιριάζουν με τις καθορισμένες παραμέτρους, οι οποίες μπορεί να είναι τύπου String, Number, Datetime και Pattern, στο URI. Επιπλέον, μπορείτε τώρα να ενεργοποιήσετε τις εργασίες μετασχηματισμού του Data Wrangler σε ένα χρονοδιάγραμμα.
Σε αυτήν την ανάρτηση, δημιουργούμε ένα δείγμα ροής με το σύνολο δεδομένων Titanic για να δείξουμε πώς μπορείτε να αρχίσετε να πειραματίζεστε με αυτές τις δύο νέες δυνατότητες του Data Wrangler. Για λήψη του συνόλου δεδομένων, ανατρέξτε στο Τιτανικός – Μηχανική Μάθηση από Καταστροφές.
Προϋποθέσεις
Για να λάβετε όλες τις δυνατότητες που περιγράφονται σε αυτήν την ανάρτηση, πρέπει να εκτελείτε την πιο πρόσφατη έκδοση πυρήνα του Data Wrangler. Για περισσότερες πληροφορίες, ανατρέξτε στο Ενημερώστε το Data Wrangler. Επιπλέον, πρέπει να τρέχετε Στούντιο Amazon SageMaker JupyterLab 3. Για να δείτε την τρέχουσα έκδοση και να την ενημερώσετε, ανατρέξτε στο JupyterLab Versioning.
Δομή αρχείων
Για αυτήν την επίδειξη, ακολουθούμε μια απλή δομή αρχείου που πρέπει να αντιγράψετε για να αναπαράγετε τα βήματα που περιγράφονται σε αυτήν την ανάρτηση.
- Στο στούντιο, δημιουργήστε ένα νέο σημειωματάριο.
- Εκτελέστε το ακόλουθο απόσπασμα κώδικα για να δημιουργήσετε τη δομή φακέλου που χρησιμοποιούμε (βεβαιωθείτε ότι βρίσκεστε στον επιθυμητό φάκελο στο δέντρο αρχείων σας):
- αντιγράψτε το
train.csv
καιtest.csv
αρχεία από το αρχικό σύνολο δεδομένων του Titanic στους φακέλουςtitanic_dataset/train
καιtitanic_dataset/test
, Αντίστοιχα. - Εκτελέστε το ακόλουθο απόσπασμα κώδικα για να συμπληρώσετε τους φακέλους με τα απαραίτητα αρχεία:
Χωρίσαμε το train.csv
αρχείο του συνόλου δεδομένων του Τιτανικού σε εννέα διαφορετικά αρχεία, με όνομα part_x
, όπου x είναι ο αριθμός του τμήματος. Το μέρος 0 έχει τις πρώτες 100 εγγραφές, το μέρος 1 τις επόμενες 100 και ούτω καθεξής μέχρι το μέρος 8. Κάθε φάκελος κόμβου του δέντρου αρχείων περιέχει ένα αντίγραφο των εννέα τμημάτων των δεδομένων εκπαίδευσης εκτός από το train
και test
φακέλους, που περιέχουν train.csv
και test.csv
.
Παραμετροποιημένα σύνολα δεδομένων
Οι χρήστες του Data Wrangler μπορούν πλέον να καθορίσουν παραμέτρους για τα σύνολα δεδομένων που εισάγονται από το Amazon S3. Οι παράμετροι συνόλου δεδομένων καθορίζονται στο URI των πόρων και η τιμή του μπορεί να αλλάξει δυναμικά, επιτρέποντας μεγαλύτερη ευελιξία στην επιλογή των αρχείων που θέλουμε να εισαγάγουμε. Οι παράμετροι μπορούν να είναι τεσσάρων τύπων δεδομένων:
- αριθμός – Μπορεί να πάρει την τιμή οποιουδήποτε ακέραιου αριθμού
- Σπάγγος – Μπορεί να πάρει την τιμή οποιασδήποτε συμβολοσειράς κειμένου
- πρότυπο – Μπορεί να πάρει την αξία οποιασδήποτε τυπικής έκφρασης
- Ημερομηνία ώρα – Μπορεί να λάβει την τιμή οποιασδήποτε από τις υποστηριζόμενες μορφές ημερομηνίας/ώρας
Σε αυτήν την ενότητα, παρέχουμε μια περιγραφή αυτής της νέας δυνατότητας. Αυτό είναι διαθέσιμο μόνο αφού εισαγάγετε το σύνολο δεδομένων σας στην τρέχουσα ροή σας και μόνο για σύνολα δεδομένων που εισάγονται από το Amazon S3.
- Από τη ροή δεδομένων σας, επιλέξτε το σύμβολο συν (+) δίπλα στο βήμα εισαγωγής και επιλέξτε Επεξεργασία συνόλου δεδομένων.
- Η προτιμώμενη (και πιο εύκολη) μέθοδος δημιουργίας νέων παραμέτρων είναι να επισημάνετε ένα τμήμα του URI σας και να επιλέξετε Δημιουργία προσαρμοσμένης παραμέτρου στο αναπτυσσόμενο μενού. Πρέπει να καθορίσετε τέσσερα πράγματα για κάθε παράμετρο που θέλετε να δημιουργήσετε:
- Όνομα
- Χαρακτηριστικά
- Προεπιλεγμένη τιμή
- Περιγραφή
Εδώ έχουμε δημιουργήσει μια παράμετρο τύπου String που ονομάζεταιfilename_param
με προεπιλεγμένη τιμήtrain.csv
. Τώρα μπορείτε να δείτε το όνομα της παραμέτρου που περικλείεται σε διπλές αγκύλες, αντικαθιστώντας το τμήμα του URI που επισημάναμε προηγουμένως. Επειδή η καθορισμένη τιμή για αυτήν την παράμετρο ήτανtrain.csv
, τώρα βλέπουμε το αρχείοtrain.csv
αναγράφονται στον πίνακα εισαγωγής. - Όταν προσπαθούμε να δημιουργήσουμε μια δουλειά μετασχηματισμού, στο Διαμόρφωση εργασίας βήμα, βλέπουμε τώρα α παράμετροι ενότητα, όπου μπορούμε να δούμε μια λίστα με όλες τις καθορισμένες παραμέτρους μας.
- Η επιλογή της παραμέτρου μας δίνει την επιλογή να αλλάξουμε την τιμή της παραμέτρου, σε αυτήν την περίπτωση, αλλάζοντας το σύνολο δεδομένων εισόδου που θα μετασχηματιστεί σύμφωνα με την καθορισμένη ροή.
Υποθέτοντας ότι αλλάξουμε την τιμή τουfilename_param
απόtrain.csv
προς τηνpart_0.csv
, η δουλειά του μετασχηματισμού χρειάζεται τώραpart_0.csv
(υπό την προϋπόθεση ότι υπάρχει ένα αρχείο με το όνομαpart_0.csv
υπάρχει στον ίδιο φάκελο) ως νέα δεδομένα εισόδου του. - Επιπλέον, εάν επιχειρήσετε να εξαγάγετε τη ροή σας σε έναν προορισμό Amazon S3 (μέσω ενός σημειωματάριου Jupyter), θα δείτε τώρα ένα νέο κελί που περιέχει τις παραμέτρους που ορίσατε.
Σημειώστε ότι η παράμετρος παίρνει την προεπιλεγμένη τιμή της, αλλά μπορείτε να την αλλάξετε αντικαθιστώντας την τιμή της στοparameter_overrides
λεξικό (ενώ αφήνουμε αμετάβλητα τα πλήκτρα του λεξικού).
Επιπλέον, μπορείτε να δημιουργήσετε νέες παραμέτρους από το παράμετροι Διεπαφή χρήστη - Ανοίξτε το επιλέγοντας το εικονίδιο παραμέτρων ({{}}) που βρίσκεται δίπλα στο Go επιλογή; και τα δύο βρίσκονται δίπλα στην τιμή διαδρομής URI.
Ανοίγει ένας πίνακας με όλες τις παραμέτρους που υπάρχουν αυτήν τη στιγμή στο αρχείο ροής (filename_param
σε αυτό το σημείο). - Μπορείτε να δημιουργήσετε νέες παραμέτρους για τη ροή σας επιλέγοντας Δημιουργία παραμέτρου.
Ανοίγει ένα αναδυόμενο παράθυρο που σας επιτρέπει να δημιουργήσετε μια νέα προσαρμοσμένη παράμετρο. - Εδώ, δημιουργήσαμε ένα νέο
example_parameter
ως τύπος αριθμού με προεπιλεγμένη τιμή 0. Αυτή η παράμετρος που δημιουργήθηκε πρόσφατα παρατίθεται τώρα στο παράμετροι τραπέζι. Η τοποθέτηση του ποντικιού πάνω από την παράμετρο εμφανίζει τις επιλογές Αλλαγή, Διαγραφή, να Κύριο θέμα. - Από μέσα στο παράμετροι UI, μπορείτε να εισαγάγετε μία από τις παραμέτρους σας στο URI επιλέγοντας την επιθυμητή παράμετρο και επιλέγοντας Κύριο θέμα.
Αυτό προσθέτει την παράμετρο στο τέλος του URI σας. Πρέπει να το μετακινήσετε στην επιθυμητή ενότητα στο URI σας. - Αλλάξτε την προεπιλεγμένη τιμή της παραμέτρου, εφαρμόστε την αλλαγή (από το modal), επιλέξτε Goκαι επιλέξτε το εικονίδιο ανανέωσης για να ενημερώσετε τη λίστα προεπισκόπησης χρησιμοποιώντας το επιλεγμένο σύνολο δεδομένων με βάση την τιμή της πρόσφατα καθορισμένης παραμέτρου.Ας εξερευνήσουμε τώρα άλλους τύπους παραμέτρων. Ας υποθέσουμε ότι τώρα έχουμε ένα σύνολο δεδομένων χωρισμένο σε πολλά μέρη, όπου κάθε αρχείο έχει έναν αριθμό τμήματος.
- Εάν θέλουμε να αλλάξουμε δυναμικά τον αριθμό του αρχείου, μπορούμε να ορίσουμε μια παράμετρο Number όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.Σημειώστε ότι το επιλεγμένο αρχείο είναι αυτό που ταιριάζει με τον αριθμό που καθορίζεται στην παράμετρο.
Τώρα ας δείξουμε πώς να χρησιμοποιήσετε μια παράμετρο Pattern. Ας υποθέσουμε ότι θέλουμε να εισάγουμε όλα ταpart_1.csv
αρχεία σε όλους τους φακέλους κάτω από τοtitanic-dataset/
ντοσιέ. Οι παράμετροι του μοτίβου μπορούν να λάβουν οποιαδήποτε έγκυρη τυπική έκφραση. υπάρχουν ορισμένα μοτίβα regex που εμφανίζονται ως παραδείγματα. - Δημιουργήστε μια παράμετρο Pattern που ονομάζεται
any_pattern
για να ταιριάζει με οποιονδήποτε φάκελο ή αρχείο κάτω από τοtitanic-dataset/
φάκελο με προεπιλεγμένη τιμή.*
.Παρατηρήστε ότι ο χαρακτήρας μπαλαντέρ δεν είναι ένα * (αστερίσκος) αλλά έχει και μια τελεία. - Επισημάνετε το
titanic-dataset/
μέρος της διαδρομής και δημιουργήστε μια προσαρμοσμένη παράμετρο. Αυτή τη φορά επιλέγουμε το πρότυπο τύπος.Αυτό το μοτίβο επιλέγει όλα τα αρχεία που καλούνταιpart-1.csv
από οποιονδήποτε από τους φακέλους κάτωtitanic-dataset/
.
Μια παράμετρος μπορεί να χρησιμοποιηθεί περισσότερες από μία φορές σε μια διαδρομή. Στο παρακάτω παράδειγμα, χρησιμοποιούμε την παράμετρο που δημιουργήσαμε πρόσφαταany_pattern
δύο φορές στο URI μας για να ταιριάζει με οποιοδήποτε από τα αρχεία μερών σε οποιονδήποτε από τους φακέλους κάτωtitanic-dataset/
.
Τέλος, ας δημιουργήσουμε μια παράμετρο Datetime. Οι παράμετροι ώρας ημερομηνίας είναι χρήσιμες όταν έχουμε να κάνουμε με διαδρομές που είναι χωρισμένες κατά ημερομηνία και ώρα, όπως αυτές που δημιουργούνται από Firehose δεδομένων Amazon Kinesis (Βλ. Dynamic Partitioning σε Kinesis Data Firehose). Για αυτήν την επίδειξη, χρησιμοποιούμε τα δεδομένα στον φάκελο datetime-data. - Επιλέξτε το τμήμα της διαδρομής σας που είναι ημερομηνία/ώρα και δημιουργήστε μια προσαρμοσμένη παράμετρο. Επιλέξτε το Ημερομηνία ώρα τύπος παραμέτρου.
Όταν επιλέγετε τον τύπο δεδομένων Datetime, πρέπει να συμπληρώσετε περισσότερες λεπτομέρειες. - Πρώτα απ 'όλα, πρέπει να δώσετε μια μορφή ημερομηνίας. Μπορείτε να επιλέξετε οποιαδήποτε από τις προκαθορισμένες μορφές ημερομηνίας/ώρας ή να δημιουργήσετε μια προσαρμοσμένη.
Για τις προκαθορισμένες μορφές ημερομηνίας/ώρας, το υπόμνημα παρέχει ένα παράδειγμα ημερομηνίας που ταιριάζει με την επιλεγμένη μορφή. Για αυτήν την επίδειξη, επιλέγουμε τη μορφή εεεε/ΜΜ/ηη. - Στη συνέχεια, καθορίστε μια ζώνη ώρας για τις τιμές ημερομηνίας/ώρας.
Για παράδειγμα, η τρέχουσα ημερομηνία μπορεί να είναι η 1η Ιανουαρίου 2022, σε μία ζώνη ώρας, αλλά μπορεί να είναι η 2η Ιανουαρίου 2022, σε άλλη ζώνη ώρας. - Τέλος, μπορείτε να επιλέξετε το χρονικό εύρος, το οποίο σας επιτρέπει να επιλέξετε το εύρος των αρχείων που θέλετε να συμπεριλάβετε στη ροή δεδομένων σας.
Μπορείτε να καθορίσετε το εύρος του χρόνου σας σε ώρες, ημέρες, εβδομάδες, μήνες ή χρόνια. Για αυτό το παράδειγμα, θέλουμε να λάβουμε όλα τα αρχεία από το προηγούμενο έτος. - Δώστε μια περιγραφή της παραμέτρου και επιλέξτε Δημιουργία.
Εάν χρησιμοποιείτε πολλά σύνολα δεδομένων με διαφορετικές ζώνες ώρας, η ώρα δεν μετατρέπεται αυτόματα. πρέπει να προεπεξεργαστείτε κάθε αρχείο ή πηγή για να το μετατρέψετε σε μία ζώνη ώρας.Τα επιλεγμένα αρχεία είναι όλα τα αρχεία κάτω από τους φακέλους που αντιστοιχούν στα δεδομένα του περασμένου έτους. - Τώρα, εάν δημιουργήσουμε μια εργασία μετασχηματισμού δεδομένων, μπορούμε να δούμε μια λίστα με όλες τις καθορισμένες παραμέτρους μας και μπορούμε να παρακάμψουμε τις προεπιλεγμένες τιμές τους, ώστε οι εργασίες μετασχηματισμού μας να επιλέξουν τα καθορισμένα αρχεία.
Προγραμματίστε εργασίες επεξεργασίας
Τώρα μπορείτε να προγραμματίσετε εργασίες επεξεργασίας για να αυτοματοποιήσετε την εκτέλεση των εργασιών μετασχηματισμού δεδομένων και την εξαγωγή των μετασχηματισμένων δεδομένων σας είτε στο Amazon S3 είτε Κατάστημα χαρακτηριστικών Amazon SageMaker. Μπορείτε να προγραμματίσετε τις εργασίες με το χρόνο και την περιοδικότητα που ταιριάζει στις ανάγκες σας.
Προγραμματισμένη χρήση εργασιών επεξεργασίας Amazon EventBridge κανόνες για να προγραμματίσετε την εκτέλεση της εργασίας. Επομένως, ως προαπαιτούμενο, πρέπει να βεβαιωθείτε ότι η Διαχείριση ταυτότητας και πρόσβασης AWS ρόλος (IAM) που χρησιμοποιείται από την Data Wrangler, δηλαδή το Amazon Sage Maker ρόλος εκτέλεσης της παρουσίας του Studio, έχει δικαιώματα για τη δημιουργία κανόνων EventBridge.
Διαμόρφωση IAM
Συνεχίστε με τις ακόλουθες ενημερώσεις για τον ρόλο εκτέλεσης του IAM SageMaker που αντιστοιχεί στην παρουσία του Studio όπου εκτελείται η ροή δεδομένων Wrangler:
- Συνδέστε το AmazonEventBridgeFullAccess διαχειριζόμενη πολιτική.
- Επισυνάψτε μια πολιτική για τη χορήγηση άδειας για τη δημιουργία μιας εργασίας επεξεργασίας:
- Παραχωρήστε άδεια EventBridge για να αναλάβει το ρόλο προσθέτοντας την ακόλουθη πολιτική εμπιστοσύνης:
Εναλλακτικά, εάν χρησιμοποιείτε διαφορετικό ρόλο για την εκτέλεση της εργασίας επεξεργασίας, εφαρμόστε τις πολιτικές που περιγράφονται στα βήματα 2 και 3 σε αυτόν τον ρόλο. Για λεπτομέρειες σχετικά με τη διαμόρφωση IAM, ανατρέξτε στο Δημιουργήστε ένα χρονοδιάγραμμα για την αυτόματη επεξεργασία νέων δεδομένων.
Δημιουργήστε ένα πρόγραμμα
Για να δημιουργήσετε ένα χρονοδιάγραμμα, ανοίξτε τη ροή σας στο πρόγραμμα επεξεργασίας ροής δεδομένων Wrangler.
- Στις Ροή δεδομένων καρτέλα, επιλέξτε Δημιουργήστε εργασία.
- Διαμορφώστε τα απαιτούμενα πεδία και επιλέξτε Στη συνέχεια, 2. Διαμόρφωση εργασίας.
- Ανάπτυξη Δρομολόγια συνεργατών.
- Επιλέξτε Δημιουργήστε νέο πρόγραμμα.
Η Δημιουργήστε νέο πρόγραμμα ανοίγει το παράθυρο διαλόγου, όπου ορίζετε τις λεπτομέρειες του χρονοδιαγράμματος εργασιών επεξεργασίας.
Το παράθυρο διαλόγου προσφέρει μεγάλη ευελιξία για να σας βοηθήσει να ορίσετε το χρονοδιάγραμμα. Μπορείτε, για παράδειγμα, η εργασία επεξεργασίας να εκτελείται σε συγκεκριμένη ώρα ή κάθε Χ ώρες, συγκεκριμένες ημέρες της εβδομάδας.
Η περιοδικότητα μπορεί να είναι κοκκώδης στο επίπεδο των λεπτών. - Καθορίστε το όνομα και την περιοδικότητα του προγράμματος και, στη συνέχεια, επιλέξτε Δημιουργία για να αποθηκεύσετε το πρόγραμμα.
- Έχετε την επιλογή να ξεκινήσετε την εργασία επεξεργασίας αμέσως μαζί με τον προγραμματισμό, ο οποίος φροντίζει για μελλοντικές εκτελέσεις ή να αφήσετε την εργασία να εκτελεστεί μόνο σύμφωνα με το χρονοδιάγραμμα.
- Μπορείτε επίσης να ορίσετε ένα επιπλέον χρονοδιάγραμμα για την ίδια εργασία επεξεργασίας.
- Για να ολοκληρώσετε το χρονοδιάγραμμα για την εργασία επεξεργασίας, επιλέξτε Δημιουργία.
Βλέπετε ένα μήνυμα "Η εργασία προγραμματίστηκε με επιτυχία". Επιπλέον, εάν επιλέξατε να αφήσετε την εργασία να εκτελείται μόνο σύμφωνα με το χρονοδιάγραμμα, θα δείτε έναν σύνδεσμο προς τον κανόνα EventBridge που μόλις δημιουργήσατε.
Εάν επιλέξετε τη σύνδεση προγραμματισμού, ανοίγει μια νέα καρτέλα στο πρόγραμμα περιήγησης, η οποία εμφανίζει τον κανόνα EventBridge. Σε αυτήν τη σελίδα, μπορείτε να κάνετε περαιτέρω τροποποιήσεις στον κανόνα και να παρακολουθείτε το ιστορικό επίκλησής του. Για να σταματήσετε την εκτέλεση της προγραμματισμένης εργασίας επεξεργασίας, διαγράψτε τον κανόνα συμβάντος που περιέχει το όνομα του χρονοδιαγράμματος.
Ο κανόνας EventBridge εμφανίζει ως στόχο μια διοχέτευση SageMaker, η οποία ενεργοποιείται σύμφωνα με το καθορισμένο χρονοδιάγραμμα και την εργασία επεξεργασίας που επικαλείται ως μέρος της διοχέτευσης.
Για να παρακολουθήσετε τις εκτελέσεις του αγωγού SageMaker, μπορείτε να επιστρέψετε στο Studio και να επιλέξετε το Πόροι SageMaker εικονίδιο, επιλέξτε Αγωγοίκαι επιλέξτε το όνομα του αγωγού που θέλετε να παρακολουθήσετε. Τώρα μπορείτε να δείτε έναν πίνακα με όλες τις τρέχουσες και προηγούμενες εκτελέσεις και την κατάσταση αυτού του αγωγού.
Μπορείτε να δείτε περισσότερες λεπτομέρειες κάνοντας διπλό κλικ σε μια συγκεκριμένη καταχώρηση.
εκκαθάριση
Όταν δεν χρησιμοποιείτε το Data Wrangler, συνιστάται να απενεργοποιείτε την παρουσία στην οποία εκτελείται για να αποφύγετε την επιβολή πρόσθετων χρεώσεων.
Για να αποφύγετε την απώλεια εργασίας, αποθηκεύστε τη ροή δεδομένων σας προτού απενεργοποιήσετε το Data Wrangler.
- Για να αποθηκεύσετε τη ροή δεδομένων σας στο Studio, επιλέξτε Αρχεία, κατόπιν επιλέξτε Αποθήκευση ροής Wrangler δεδομένων. Το Data Wrangler αποθηκεύει αυτόματα τη ροή δεδομένων σας κάθε 60 δευτερόλεπτα.
- Για να τερματίσετε την παρουσία του Data Wrangler, στο Studio, επιλέξτε Τρέχουσες παρουσίες και πυρήνες.
- Κάτω από ΕΦΑΡΜΟΓΕΣ ΕΚΤΕΛΕΣΗΣ, επιλέξτε το εικονίδιο τερματισμού λειτουργίας δίπλα στο
sagemaker-data-wrangler-1.0
app. - Επιλέξτε Κλείσε όλα για να επιβεβαιώσετε.
Το Data Wrangler εκτελείται σε ένα στιγμιότυπο ml.m5.4x. Αυτή η περίπτωση εξαφανίζεται από ΕΚΔΗΛΩΣΕΙΣ ΠΕΡΙΠΤΩΣΕΩΝ όταν τερματίζετε την εφαρμογή Data Wrangler.
Αφού τερματίσετε τη λειτουργία της εφαρμογής Data Wrangler, πρέπει να επανεκκινήσει την επόμενη φορά που θα ανοίξετε ένα αρχείο ροής Data Wrangler. Αυτό μπορεί να διαρκέσει μερικά λεπτά.
Συμπέρασμα
Σε αυτήν την ανάρτηση, δείξαμε πώς μπορείτε να χρησιμοποιήσετε παραμέτρους για να εισαγάγετε τα σύνολα δεδομένων σας χρησιμοποιώντας ροές Data Wrangler και να δημιουργήσετε εργασίες μετασχηματισμού δεδομένων σε αυτές. Τα παραμετροποιημένα σύνολα δεδομένων επιτρέπουν μεγαλύτερη ευελιξία στα σύνολα δεδομένων που χρησιμοποιείτε και σας επιτρέπουν να επαναχρησιμοποιείτε τις ροές σας. Επίσης, δείξαμε πώς μπορείτε να ρυθμίσετε τις προγραμματισμένες εργασίες για να αυτοματοποιήσετε τους μετασχηματισμούς και τις εξαγωγές δεδομένων σας είτε στο Amazon S3 είτε στο Feature Store, τη στιγμή και την περιοδικότητα που ταιριάζει στις ανάγκες σας, απευθείας από τη διεπαφή χρήστη του Data Wrangler.
Για να μάθετε περισσότερα σχετικά με τη χρήση ροών δεδομένων με το Data Wrangler, ανατρέξτε στο Δημιουργήστε και χρησιμοποιήστε μια ροή δεδομένων Wrangler και Τιμολόγηση του Amazon SageMaker. Για να ξεκινήσετε με το Data Wrangler, βλ Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler.
Σχετικά με τους συγγραφείς
Ντέιβιντ Λαρέδο είναι Αρχιτέκτονας Πρωτοτύπων για την ομάδα Μηχανικών Πρωτοτύπων και Cloud της Amazon Web Services, όπου έχει βοηθήσει στην ανάπτυξη πολλαπλών πρωτοτύπων μηχανικής εκμάθησης για πελάτες AWS. Εργάζεται στη μηχανική εκμάθηση τα τελευταία 6 χρόνια, εκπαιδεύει και βελτιώνει τα μοντέλα ML και εφαρμόζει αγωγούς από άκρο σε άκρο για την παραγωγή αυτών των μοντέλων. Οι τομείς ενδιαφέροντός του είναι το NLP, οι εφαρμογές ML και το end-to-end ML.
Τζιβανίλντο Άλβες είναι Αρχιτέκτονας Πρωτοτύπων με την ομάδα Prototyping and Cloud Engineering στο Amazon Web Services, βοηθώντας τους πελάτες να καινοτομήσουν και να επιταχύνουν δείχνοντας την τέχνη του δυνατού στο AWS, έχοντας ήδη εφαρμόσει πολλά πρωτότυπα γύρω από την τεχνητή νοημοσύνη. Έχει μακρά καριέρα στη μηχανική λογισμικού και στο παρελθόν εργάστηκε ως Μηχανικός Ανάπτυξης Λογισμικού στο Amazon.com.br.
Άντριαν Φουέντες είναι Διευθυντής Προγράμματος με την ομάδα Πρωτοτύπων και Μηχανικής Cloud στο Amazon Web Services, καινοτομώντας για πελάτες στη μηχανική μάθηση, το IoT και το blockchain. Έχει πάνω από 15 χρόνια εμπειρία στη διαχείριση και υλοποίηση έργων και 1 χρόνο θητείας στο AWS.
- AI
- αι τέχνη
- ι γεννήτρια τέχνης
- ρομπότ ai
- Εκμάθηση μηχανών του Αμαζονίου
- Amazon SageMaker Data Wrangler
- Ανακοινώσεις
- τεχνητή νοημοσύνη
- πιστοποίηση τεχνητής νοημοσύνης
- τεχνητή νοημοσύνη στον τραπεζικό τομέα
- ρομπότ τεχνητής νοημοσύνης
- ρομπότ τεχνητής νοημοσύνης
- λογισμικό τεχνητής νοημοσύνης
- Μηχανική εκμάθηση AWS
- blockchain
- συνέδριο blockchain ai
- Coingenius
- συνομιλητική τεχνητή νοημοσύνη
- κρυπτοσυνεδριο αι
- του νταλ
- επεξεργασία δεδομένων
- βαθιά μάθηση
- έχεις google
- Ενδιάμεσο (200)
- μάθηση μηχανής
- Παραμετροποιημένα σύνολα δεδομένων
- Πλάτων
- πλάτων αι
- Πληροφορία δεδομένων Plato
- Παιχνίδι Πλάτωνας
- Πλάτωνα δεδομένα
- platogaming
- κλίμακα αι
- Προγραμματισμένες εργασίες
- σύνταξη
- Τεχνικός τρόπος
- zephyrnet