Χρησιμοποιήστε δείγματα Github με το Amazon SageMaker Data Wrangler

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Amazon SageMake r Data Wrangler είναι ένα εργαλείο προετοιμασίας δεδομένων που βασίζεται σε διεπαφή χρήστη που βοηθά στην ανάλυση δεδομένων, την προεπεξεργασία και την οπτικοποίηση με λειτουργίες για τον ταχύτερο καθαρισμό, μετατροπή και προετοιμασία δεδομένων. Τα προκατασκευασμένα πρότυπα ροής του Data Wrangler βοηθούν στην ταχύτερη προετοιμασία των δεδομένων για τους επιστήμονες δεδομένων και τους επαγγελματίες της μηχανικής μάθησης (ML), βοηθώντας σας να επιταχύνετε και να κατανοήσετε τα πρότυπα βέλτιστων πρακτικών για ροές δεδομένων χρησιμοποιώντας κοινά σύνολα δεδομένων.

Μπορείτε να χρησιμοποιήσετε τις ροές Data Wrangler για να εκτελέσετε τις ακόλουθες εργασίες:

Οπτικοποίηση δεδομένων - Εξέταση στατιστικών ιδιοτήτων για κάθε στήλη στο σύνολο δεδομένων, δημιουργία ιστογραμμάτων, μελέτη ακραίων τιμών
Καθαρισμός δεδομένων - Αφαίρεση αντιγράφων, πτώση ή συμπλήρωση καταχωρήσεων με τιμές που λείπουν, αφαίρεση ακραίων τιμών
Εμπλουτισμός δεδομένων και μηχανική χαρακτηριστικών - Επεξεργασία στηλών για τη δημιουργία πιο εκφραστικών χαρακτηριστικών, επιλέγοντας ένα υποσύνολο χαρακτηριστικών για εκπαίδευση

Αυτή η ανάρτηση θα σας βοηθήσει να κατανοήσετε το Data Wrangler χρησιμοποιώντας τα ακόλουθα δείγματα προ-ενσωματωμένων ροών GitHub. Το αποθετήριο παρουσιάζει μετασχηματισμό δεδομένων σε πίνακα, μετασχηματισμούς δεδομένων χρονοσειρών και συνδυασμένους μετασχηματισμούς δεδομένων. Το καθένα απαιτεί διαφορετικό τύπο μετασχηματισμών λόγω της βασικής του φύσης. Τα τυπικά δεδομένα σε πίνακα ή συγχρονικά συλλέγονται σε μια συγκεκριμένη χρονική στιγμή. Αντίθετα, τα δεδομένα χρονοσειρών συλλαμβάνονται επανειλημμένα με την πάροδο του χρόνου, με κάθε διαδοχικό σημείο δεδομένων να εξαρτάται από τις προηγούμενες τιμές του.

Ας δούμε ένα παράδειγμα για το πώς μπορούμε να χρησιμοποιήσουμε το δείγμα ροής δεδομένων για δεδομένα σε πίνακα.

Προϋποθέσεις

Το Data Wrangler είναι ένα Amazon Sage Maker χαρακτηριστικό διαθέσιμο εντός Στούντιο Amazon SageMaker, επομένως πρέπει να ακολουθήσουμε τη διαδικασία ενσωμάτωσης του Studio για να αναπτύξουμε το περιβάλλον και τα σημειωματάρια του Studio. Αν και μπορείτε να επιλέξετε από μερικές μεθόδους ελέγχου ταυτότητας, ο απλούστερος τρόπος για να δημιουργήσετε έναν τομέα Studio είναι να ακολουθήσετε το Γρήγορη εκίνηση οδηγίες. Η Γρήγορη εκκίνηση χρησιμοποιεί τις ίδιες προεπιλεγμένες ρυθμίσεις με το τυπική εγκατάσταση στούντιο. Μπορείτε επίσης να επιλέξετε να επιβιβαστείτε χρησιμοποιώντας Κέντρο Ταυτότητας AWS IAM (διάδοχος του AWS Single Sign-On) για έλεγχο ταυτότητας (βλ Ενσωματωθείτε στον τομέα Amazon SageMaker με χρήση του Κέντρου Ταυτότητας IAM).

Εισαγάγετε το σύνολο δεδομένων και τα αρχεία ροής στο Data Wrangler χρησιμοποιώντας το Studio

Τα ακόλουθα βήματα περιγράφουν τον τρόπο εισαγωγής δεδομένων στο SageMaker για κατανάλωση από το Data Wrangler:

Εκκινήστε το Data Wrangler μέσω του Studio UI επιλέγοντας Νέα ροή δεδομένων.

Κλωνοποιήστε το GitHub repo για να πραγματοποιήσετε λήψη των αρχείων ροής στο περιβάλλον του Studio σας.

Χρησιμοποιήστε τα δείγματα Github με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Όταν ολοκληρωθεί ο κλώνος, θα πρέπει να μπορείτε να δείτε το περιεχόμενο του αποθετηρίου στο αριστερό παράθυρο.

Επιλέξτε το αρχείο Ξενοδοχείο-Κρατήσεις-Ταξινόμηση.ροή για να εισαγάγετε το αρχείο ροής στο Data Wrangler.

Εάν χρησιμοποιείτε τη χρονοσειρά ή τη συνδεδεμένη ροή δεδομένων, η ροή θα εμφανιστεί ως διαφορετικό όνομα. Μετά την εισαγωγή της ροής, θα πρέπει να δείτε το ακόλουθο στιγμιότυπο οθόνης. Αυτό μας δείχνει σφάλματα επειδή πρέπει να βεβαιωθούμε ότι το αρχείο ροής οδηγεί στη σωστή πηγή δεδομένων Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3).

Επιλέξτε Επεξεργασία συνόλου δεδομένων για να εμφανίσετε όλους τους κάδους S3 σας. Στη συνέχεια, επιλέξτε το σύνολο δεδομένων hotel_bookings.csv από τον κάδο S3 για τρέξιμο μέσα από το ροή δεδομένων.

Σημειώστε ότι εάν χρησιμοποιείτε το ενωμένη ροή δεδομένων, ίσως χρειαστεί να εισαγάγετε πολλά σύνολα δεδομένων στο Data Wrangler Χρησιμοποιήστε τα δείγματα Github με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στο δεξί παράθυρο, βεβαιωθείτε ΠΑΡΑΓΡΑΦΟΣ επιλέγεται ως οριοθέτης και Δειγματοληψία έχει οριστεί σε Πρώτα ο Κ. Το σύνολο δεδομένων μας είναι αρκετά μικρό για την εκτέλεση μετασχηματισμών Data Wrangler στο πλήρες σύνολο δεδομένων, αλλά θέλαμε να επισημάνουμε πώς μπορείτε να εισαγάγετε το σύνολο δεδομένων. Εάν έχετε ένα μεγάλο σύνολο δεδομένων, εξετάστε το ενδεχόμενο να χρησιμοποιήσετε δειγματοληψία. Επιλέγω εισαγωγή για να εισαγάγετε αυτό το σύνολο δεδομένων στο Data Wrangler.

Μετά την εισαγωγή του συνόλου δεδομένων, το Data Wrangler επικυρώνει αυτόματα το σύνολο δεδομένων και εντοπίζει τους τύπους δεδομένων. Μπορείτε να δείτε ότι τα σφάλματα έχουν εξαφανιστεί επειδή υποδεικνύουμε το σωστό σύνολο δεδομένων. Το πρόγραμμα επεξεργασίας ροής εμφανίζει τώρα δύο μπλοκ που δείχνουν ότι τα δεδομένα εισήχθησαν από μια πηγή και οι τύποι δεδομένων αναγνωρίστηκαν. Μπορείτε επίσης να επεξεργαστείτε τους τύπους δεδομένων εάν χρειάζεται.

Το παρακάτω στιγμιότυπο οθόνης δείχνει τους τύπους δεδομένων μας.

Ας δούμε μερικούς από τους μετασχηματισμούς που έγιναν ως μέρος αυτής της ροής πίνακα. Εάν χρησιμοποιείτε το χρονική σειρά or εντάχθηκαν ροές δεδομένων, ελέγξτε μερικούς συνήθεις μετασχηματισμούς στο GitHub repo. Πραγματοποιήσαμε κάποιες βασικές διερευνητικές αναλύσεις δεδομένων χρησιμοποιώντας αναφορές πληροφοριών δεδομένων που μελετούσαν τη διαρροή στόχου και τη συγγραμμικότητα των χαρακτηριστικών στο σύνολο δεδομένων, τις αναλύσεις σύνοψης πινάκων και τη δυνατότητα γρήγορης μοντελοποίησης. Εξερευνήστε τα βήματα στο GitHub repo.

Τώρα ρίχνουμε στήλες με βάση τις προτάσεις που παρέχονται από την αναφορά δεδομένων και ποιότητας δεδομένων.

Για διαρροή στόχου, πέστε reservation_status.
Για περιττές στήλες, αποθέστε ημέρες_σε_λίστα_αναμονής, ξενοδοχείο, τύπος_κράτησης_δωμάτιου, ημερομηνία_ άφιξης_μήνας, ημερομηνία_κατάστασης_κράτησης, μωρά, και άφιξη_ημερομηνία_ημέρα_μήνα.
Με βάση τα αποτελέσματα γραμμικής συσχέτισης, αποθέστε στήλες άφιξη_ημερομηνία_εβδομάδας_αριθμός και άφιξη_ημερομηνία_έτος επειδή οι τιμές συσχέτισης για αυτά τα ζεύγη χαρακτηριστικών (στήλες) είναι μεγαλύτερες από το συνιστώμενο όριο του 0.90.
Με βάση τα αποτελέσματα μη γραμμικής συσχέτισης, πτώση reservation_status. Αυτή η στήλη είχε ήδη επισημανθεί ως απόρριψη βάσει της ανάλυσης διαρροής στόχου.
Επεξεργαστείτε αριθμητικές τιμές (ελάχιστη-μέγιστη κλίμακα) για lead_time, stays_in_weekend_nights, stays_in_weekday_nights, is_repeated_guest, prev_cancellations, prev_bookings_not_canceded, booking_changes, adr, total_of_specical_ requests, και απαιτούμενα_αυτοκίνητα_χώροι στάθμευσης.
Ένα-hot κωδικοποιούν κατηγορικές μεταβλητές όπως γεύμα, is_repeated_guest, market_segment, assigned_room_type, deposit_type, και πελάτη_τύπος.
Εξισορροπήστε τη μεταβλητή στόχου Τυχαίο υπερδείγμα για ανισορροπία κλάσης. Χρησιμοποιήστε τη δυνατότητα γρήγορης μοντελοποίησης για να χειριστείτε ακραίες τιμές και τιμές που λείπουν.

Εξαγωγή στο Amazon S3

Τώρα έχουμε περάσει από τους διαφορετικούς μετασχηματισμούς και είμαστε έτοιμοι να εξαγάγουμε τα δεδομένα στο Amazon S3. Αυτή η επιλογή δημιουργεί μια εργασία επεξεργασίας του SageMaker, η οποία εκτελεί τη ροή επεξεργασίας του Data Wrangler και αποθηκεύει το σύνολο δεδομένων που προκύπτει σε έναν καθορισμένο κάδο S3. Ακολουθήστε τα επόμενα βήματα για να ρυθμίσετε την εξαγωγή στο Amazon S3:

Επιλέξτε το σύμβολο συν δίπλα σε μια συλλογή στοιχείων μετασχηματισμού και επιλέξτε Προσθήκη προορισμού, Τότε Amazon S3.

Για Όνομα στοιχείου δεδομένων, εισαγάγετε ένα όνομα για το νέο σύνολο δεδομένων, για παράδειγμα NYC_export.
Για Τύπος αρχείου, επιλέξτε CSV.
Για Διαχωριστής, επιλέξτε Κόμμα.
Για Συμπίεση, επιλέξτε Κανένας.
Για Τοποθεσία Amazon S3, χρησιμοποιήστε το ίδιο όνομα κάδου που δημιουργήσαμε νωρίτερα.
Επιλέξτε Προσθήκη προορισμού.

Επιλέξτε Δημιουργήστε εργασία.

Για Όνομα εργασίας, πληκτρολογήστε ένα όνομα ή διατηρήστε την επιλογή που δημιουργείται αυτόματα και επιλέξτε προορισμός. Έχουμε μόνο έναν προορισμό, S3:testingtabulardata, αλλά μπορεί να έχετε πολλούς προορισμούς από διαφορετικά βήματα στη ροή εργασίας σας. ΑΣΕ το Κλειδί KMS ARN άδειο πεδίο και επιλέξτε Επόμενο.

Τώρα πρέπει να διαμορφώσετε την υπολογιστική ικανότητα για μια εργασία. Μπορείτε να διατηρήσετε όλες τις προεπιλεγμένες τιμές για αυτό το παράδειγμα.

Για Τύπος παρουσίας, χρησιμοποιήστε ml.m5.4xlarge.
Για Πλήθος παρουσιών, χρήση 2.
Μπορείτε να εξερευνήσετε Επιπλέον διαμόρφωση, αλλά διατηρήστε τις προεπιλεγμένες ρυθμίσεις.
Επιλέξτε τρέξιμο.

Τώρα η δουλειά σας έχει ξεκινήσει και χρειάζεται λίγος χρόνος για να επεξεργαστείτε 6 GB δεδομένων σύμφωνα με τη ροή επεξεργασίας του Data Wrangler. Το κόστος για αυτήν την εργασία θα είναι περίπου 2 $ USD, επειδή το ml.m5.4xlarge κοστίζει 0.922 $ ανά ώρα και χρησιμοποιούμε δύο από αυτά.

Εάν επιλέξετε το όνομα της εργασίας, θα ανακατευθυνθείτε σε ένα νέο παράθυρο με τις λεπτομέρειες της εργασίας.

Στη σελίδα λεπτομερειών εργασίας, μπορείτε να δείτε όλες τις παραμέτρους από τα προηγούμενα βήματα.

Όταν η κατάσταση της εργασίας αλλάξει σε Ολοκληρώθηκε, μπορείτε επίσης να ελέγξετε το Χρόνος επεξεργασίας (δευτερόλεπτα) αξία. Αυτή η εργασία επεξεργασίας διαρκεί περίπου 5–10 λεπτά για να ολοκληρωθεί.

Όταν ολοκληρωθεί η εργασία, τα αρχεία εξόδου τρένου και δοκιμής είναι διαθέσιμα στους αντίστοιχους φακέλους εξόδου S3. Μπορείτε να βρείτε τη θέση εξόδου από τις διαμορφώσεις εργασίας επεξεργασίας.

Αφού ολοκληρωθεί η εργασία επεξεργασίας του Data Wrangler, μπορούμε να ελέγξουμε τα αποτελέσματα που είναι αποθηκευμένα στον κάδο S3. Μην ξεχάσετε να ενημερώσετε το job_name μεταβλητή με το όνομα της εργασίας σας.

Τώρα μπορείτε να χρησιμοποιήσετε αυτά τα εξαγόμενα δεδομένα για την εκτέλεση μοντέλων ML.

εκκαθάριση

Διαγράψτε τους κάδους S3 σας και σας Ροή δεδομένων Wrangler για να διαγράψετε τους υποκείμενους πόρους και να αποτρέψετε ανεπιθύμητα κόστη αφού ολοκληρώσετε το πείραμα.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς μπορείτε να εισαγάγετε την προ-ενσωματωμένη ροή δεδομένων σε πίνακα στο Data Wrangler, να τη συνδέσετε στο σύνολο δεδομένων μας και να εξάγετε τα αποτελέσματα στο Amazon S3. Εάν οι περιπτώσεις χρήσης σας απαιτούν να χειριστείτε δεδομένα χρονοσειρών ή να ενώσετε πολλά σύνολα δεδομένων, μπορείτε να περάσετε από τις άλλες προκατασκευασμένες ροές δειγμάτων στο GitHub repo.

Αφού εισαγάγετε μια προκατασκευασμένη ροή εργασίας προετοιμασίας δεδομένων, μπορείτε να την ενσωματώσετε με το Amazon SageMaker Processing, Αγωγοί Amazon SageMaker, να Κατάστημα χαρακτηριστικών Amazon SageMaker να απλοποιήσει το έργο της επεξεργασίας, της κοινής χρήσης και της αποθήκευσης δεδομένων εκπαίδευσης ML. Μπορείτε επίσης να εξαγάγετε αυτό το δείγμα ροής δεδομένων σε ένα σενάριο Python και να δημιουργήσετε μια προσαρμοσμένη γραμμή προετοιμασίας δεδομένων ML, επιταχύνοντας έτσι την ταχύτητα κυκλοφορίας σας.

Σας ενθαρρύνουμε να δείτε το δικό μας Αποθετήριο GitHub για πρακτική εξάσκηση και εύρεση νέων τρόπων βελτίωσης της ακρίβειας του μοντέλου! Για να μάθετε περισσότερα σχετικά με το SageMaker, επισκεφτείτε το Οδηγός προγραμματιστή Amazon SageMaker.

Σχετικά με τους Συγγραφείς

Isha Dua είναι Senior Solutions Architect με έδρα την περιοχή του κόλπου του Σαν Φρανσίσκο. Βοηθά τους πελάτες της AWS Enterprise να αναπτυχθούν κατανοώντας τους στόχους και τις προκλήσεις τους, και τους καθοδηγεί για το πώς μπορούν να αρχιτεκτονήσουν τις εφαρμογές τους με τρόπο που είναι εγγενής στο cloud, διασφαλίζοντας ταυτόχρονα ότι είναι ανθεκτικές και επεκτάσιμες. Είναι παθιασμένη με τις τεχνολογίες μηχανικής μάθησης και την περιβαλλοντική βιωσιμότητα.