Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler σας βοηθά να κατανοήσετε, να συγκεντρώσετε, να μετασχηματίσετε και να προετοιμάσετε δεδομένα για μηχανική εκμάθηση (ML) από μια ενιαία οπτική διεπαφή. Περιέχει πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων, ώστε να μπορείτε γρήγορα να κανονικοποιείτε, να μετασχηματίζετε και να συνδυάζετε λειτουργίες χωρίς να χρειάζεται να γράψετε κώδικα.

Οι επαγγελματίες της επιστήμης δεδομένων παράγουν, παρατηρούν και επεξεργάζονται δεδομένα για την επίλυση επιχειρηματικών προβλημάτων όπου χρειάζεται να μετασχηματίσουν και να εξάγουν χαρακτηριστικά από σύνολα δεδομένων. Οι μετασχηματισμοί, όπως η τακτική κωδικοποίηση ή η απλή κωδικοποίηση, μαθαίνουν κωδικοποιήσεις στο σύνολο δεδομένων σας. Αυτές οι κωδικοποιημένες έξοδοι αναφέρονται ως εκπαιδευμένες παράμετροι. Καθώς τα σύνολα δεδομένων αλλάζουν με την πάροδο του χρόνου, μπορεί να είναι απαραίτητο να επανατοποθετήσετε κωδικοποιήσεις σε δεδομένα που δεν είχαν εμφανιστεί προηγουμένως για να διατηρήσετε τη ροή μετασχηματισμού σχετική με τα δεδομένα σας.

Είμαστε στην ευχάριστη θέση να ανακοινώσουμε τη δυνατότητα ανανέωσης εκπαιδευμένων παραμέτρων, η οποία σας επιτρέπει να χρησιμοποιείτε προηγούμενες εκπαιδευμένες παραμέτρους και να τις επανατοποθετείτε όπως επιθυμείτε. Σε αυτήν την ανάρτηση, δείχνουμε πώς να χρησιμοποιήσετε αυτήν τη δυνατότητα.

Επισκόπηση της δυνατότητας ανανέωσης του Data Wrangler

Επεξηγούμε πώς λειτουργεί αυτή η δυνατότητα με το ακόλουθο παράδειγμα, προτού βουτήξουμε στις ιδιαιτερότητες της δυνατότητας εκπαιδευμένης παραμέτρου ανανέωσης.

Ας υποθέσουμε ότι το σύνολο δεδομένων πελατών σας έχει ένα κατηγορηματικό χαρακτηριστικό για country παριστάνεται ως χορδές όπως Australia και Singapore. Οι αλγόριθμοι ML απαιτούν αριθμητικές εισόδους. Επομένως, αυτές οι κατηγορικές τιμές πρέπει να κωδικοποιηθούν σε αριθμητικές τιμές. Η κωδικοποίηση κατηγορικών δεδομένων είναι η διαδικασία δημιουργίας μιας αριθμητικής αναπαράστασης για κατηγορίες. Για παράδειγμα, εάν η χώρα της κατηγορίας σας έχει τιμές Australia και Singapore, μπορείτε να κωδικοποιήσετε αυτές τις πληροφορίες σε δύο διανύσματα: [1, 0] για αναπαράσταση Australia και [0, 1] για να αντιπροσωπεύουν Singapore. Ο μετασχηματισμός που χρησιμοποιείται εδώ είναι κωδικοποίηση one-hot και η νέα κωδικοποιημένη έξοδος αντικατοπτρίζει τις εκπαιδευμένες παραμέτρους.

Μετά την εκπαίδευση του μοντέλου, με την πάροδο του χρόνου οι πελάτες σας μπορεί να αυξηθούν και να έχετε πιο ξεχωριστές αξίες στη λίστα χωρών. Το νέο σύνολο δεδομένων θα μπορούσε να περιέχει μια άλλη κατηγορία, India, το οποίο δεν ήταν μέρος του αρχικού συνόλου δεδομένων, γεγονός που μπορεί να επηρεάσει την ακρίβεια του μοντέλου. Επομένως, είναι απαραίτητο να επανεκπαιδεύσετε το μοντέλο σας με τα νέα δεδομένα που έχουν συλλεχθεί με την πάροδο του χρόνου.

Για να ξεπεράσετε αυτό το πρόβλημα, πρέπει να ανανεώσετε την κωδικοποίηση για να συμπεριλάβετε τη νέα κατηγορία και να ενημερώσετε τη διανυσματική αναπαράσταση σύμφωνα με το πιο πρόσφατο σύνολο δεδομένων σας. Στο παράδειγμά μας, η κωδικοποίηση πρέπει να αντικατοπτρίζει τη νέα κατηγορία για το country, Η οποία είναι India. Συνήθως αναφερόμαστε σε αυτή τη διαδικασία ανανέωσης μιας κωδικοποίησης ως λειτουργία επανατοποθέτησης. Αφού εκτελέσετε τη λειτουργία επανατοποθέτησης, λαμβάνετε τη νέα κωδικοποίηση: Australia: [1, 0, 0], Singapore: [0, 1, 0] και India: [0, 0, 1]. Η επανατοποθέτηση της κωδικοποίησης one-hot και στη συνέχεια η επανεκπαίδευση του μοντέλου στο νέο σύνολο δεδομένων οδηγεί σε προβλέψεις καλύτερης ποιότητας.

Η λειτουργία παραμέτρων εκπαίδευσης του Data Wrangler είναι χρήσιμη στις ακόλουθες περιπτώσεις:

  • Νέα δεδομένα προστίθενται στο σύνολο δεδομένων – Η επανεκπαίδευση του μοντέλου ML είναι απαραίτητη όταν το σύνολο δεδομένων εμπλουτίζεται με νέα δεδομένα. Για να επιτύχουμε βέλτιστα αποτελέσματα, πρέπει να επανατοποθετήσουμε τις εκπαιδευμένες παραμέτρους στο νέο σύνολο δεδομένων.
  • Εκπαίδευση σε ένα πλήρες σύνολο δεδομένων μετά την εκτέλεση μηχανικής χαρακτηριστικών σε δεδομένα δείγματος – Για ένα μεγάλο σύνολο δεδομένων, ένα δείγμα του συνόλου δεδομένων λαμβάνεται υπόψη για την εκμάθηση εκπαιδευμένων παραμέτρων, οι οποίες ενδέχεται να μην αντιπροσωπεύουν ολόκληρο το σύνολο δεδομένων σας. Πρέπει να μάθουμε ξανά τις εκπαιδευμένες παραμέτρους στο πλήρες σύνολο δεδομένων.

Ακολουθούν μερικοί από τους πιο συνηθισμένους μετασχηματισμούς Data Wrangler που πραγματοποιούνται στο σύνολο δεδομένων και οι οποίοι επωφελούνται από την επιλογή παραμέτρων εκπαιδεύσεως αναπροσαρμογής:

Για περισσότερες πληροφορίες σχετικά με τους μετασχηματισμούς στο Data Wrangler, ανατρέξτε στο Μετασχηματισμός Δεδομένων.

Σε αυτήν την ανάρτηση, δείχνουμε πώς να επεξεργάζεστε αυτές τις εκπαιδευμένες παραμέτρους σε σύνολα δεδομένων χρησιμοποιώντας το Data Wrangler. Μπορείτε να χρησιμοποιήσετε τις ροές Data Wrangler σε εργασίες παραγωγής για την επανεπεξεργασία των δεδομένων σας καθώς μεγαλώνουν και αλλάζουν.

Επισκόπηση λύσεων

Για αυτήν την ανάρτηση, δείχνουμε πώς να χρησιμοποιήσετε τη δυνατότητα παραμέτρου εκπαίδευσης του Data Wrangler's refit με το δημοσίως διαθέσιμο σύνολο δεδομένων στο Kaggle: Στοιχεία Στέγασης ΗΠΑ από Zillow, Ακίνητα προς πώληση στις Ηνωμένες Πολιτείες. Έχει τις τιμές πώλησης κατοικιών σε διάφορες γεωγραφικές διανομές κατοικιών.

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική υψηλού επιπέδου του Data Wrangler χρησιμοποιώντας τη λειτουργία παραμέτρων εκπαιδευμένης ανανέωσης. Δείχνουμε επίσης την επίδραση στην ποιότητα των δεδομένων χωρίς την παράμετρο refit trained και αντιπαραβάλλουμε τα αποτελέσματα στο τέλος.

Η ροή εργασίας περιλαμβάνει τα ακόλουθα βήματα:

  1. Εκτελέστε διερευνητική ανάλυση δεδομένων – Δημιουργήστε μια νέα ροή στο Data Wrangler για να ξεκινήσει η διερευνητική ανάλυση δεδομένων (EDA). Εισαγάγετε επιχειρηματικά δεδομένα για να κατανοήσετε, να καθαρίσετε, να συγκεντρώσετε, να μετατρέψετε και να προετοιμάσετε τα δεδομένα σας για εκπαίδευση. Αναφέρομαι σε Εξερευνήστε τις δυνατότητες του Amazon SageMaker Data Wrangler με δείγματα συνόλων δεδομένων για περισσότερες λεπτομέρειες σχετικά με την εκτέλεση EDA με το Data Wrangler.
  2. Δημιουργήστε μια εργασία επεξεργασίας δεδομένων – Αυτό το βήμα εξάγει όλους τους μετασχηματισμούς που κάνατε στο σύνολο δεδομένων ως αρχείο ροής που είναι αποθηκευμένο στο διαμορφωμένο Απλή υπηρεσία αποθήκευσης Amazon Τοποθεσία (Amazon S3). Η εργασία επεξεργασίας δεδομένων με το αρχείο ροής που δημιουργείται από το Data Wrangler εφαρμόζει τους μετασχηματισμούς και τις εκπαιδευμένες παραμέτρους που μαθαίνονται στο σύνολο δεδομένων σας. Όταν ολοκληρωθεί η εργασία επεξεργασίας δεδομένων, τα αρχεία εξόδου μεταφορτώνονται στη θέση Amazon S3 που έχει διαμορφωθεί στον κόμβο προορισμού. Σημειώστε ότι η επιλογή επανατοποθέτησης είναι απενεργοποιημένη από προεπιλογή. Ως εναλλακτική λύση για την άμεση εκτέλεση της εργασίας επεξεργασίας, μπορείτε επίσης προγραμματίστε μια εργασία επεξεργασίας σε μερικά κλικ χρησιμοποιώντας το Data Wrangler – Create Job για εκτέλεση σε συγκεκριμένες ώρες.
  3. Δημιουργήστε μια εργασία επεξεργασίας δεδομένων με τη λειτουργία παραμέτρων εκπαιδευμένης ανανέωσης – Επιλέξτε τη νέα δυνατότητα ανανέωσης εκπαιδευμένης παραμέτρου ενώ δημιουργείτε την εργασία για να επιβάλετε την εκ νέου εκμάθηση των εκπαιδευμένων παραμέτρων στο πλήρες ή ενισχυμένο σύνολο δεδομένων σας. Σύμφωνα με τη διαμόρφωση θέσης Amazon S3 για την αποθήκευση του αρχείου ροής, η εργασία επεξεργασίας δεδομένων δημιουργεί ή ενημερώνει το νέο αρχείο ροής. Εάν διαμορφώσετε την ίδια τοποθεσία Amazon S3 όπως στο Βήμα 2, η εργασία επεξεργασίας δεδομένων ενημερώνει το αρχείο ροής που δημιουργήθηκε στο Βήμα 2, το οποίο μπορεί να χρησιμοποιηθεί για να διατηρήσει τη ροή σας σχετική με τα δεδομένα σας. Με την ολοκλήρωση της εργασίας επεξεργασίας, τα αρχεία εξόδου μεταφορτώνονται στον κάδο S3 που έχει διαμορφωθεί από τον κόμβο προορισμού. Μπορείτε να χρησιμοποιήσετε την ενημερωμένη ροή σε ολόκληρο το σύνολο δεδομένων σας για μια ροή εργασιών παραγωγής.

Προϋποθέσεις

Πριν ξεκινήσετε, ανεβάστε το σύνολο δεδομένων σε έναν κάδο S3 και, στη συνέχεια, εισαγάγετε το στο Data Wrangler. Για οδηγίες, ανατρέξτε στο Εισαγωγή δεδομένων από το Amazon S3.

Ας δούμε τώρα τα βήματα που αναφέρονται στο διάγραμμα αρχιτεκτονικής.

Εκτελέστε EDA στο Data Wrangler

Για να δοκιμάσετε τη δυνατότητα παραμέτρου εκπαιδευμένης ανανέωσης, ρυθμίστε την ακόλουθη ανάλυση και μετασχηματισμό στο Data Wrangler. Στο τέλος της ρύθμισης του EDA, το Data Wrangler δημιουργεί ένα αρχείο ροής που καταγράφεται με εκπαιδευμένες παραμέτρους από το σύνολο δεδομένων.

  1. Δημιουργήστε μια νέα ροή στο Amazon SageMaker Data Wrangler για διερευνητική ανάλυση δεδομένων.
  2. Εισαγάγετε τα επιχειρηματικά δεδομένα που ανεβάσατε στο Amazon S3.
  3. Μπορείτε να κάνετε προεπισκόπηση των δεδομένων και των επιλογών για την επιλογή του τύπου αρχείου, του οριοθέτη, της δειγματοληψίας και ούτω καθεξής. Για αυτό το παράδειγμα, χρησιμοποιούμε το Πρώτα ο Κ Η επιλογή δειγματοληψίας παρέχεται από την Data Wrangler για εισαγωγή των πρώτων 50,000 εγγραφών από το σύνολο δεδομένων.
  4. Επιλέξτε εισαγωγή.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Αφού ελέγξετε την αντιστοίχιση τύπων δεδομένων που εφαρμόζεται από το Data Wrangler, προσθέστε μια νέα ανάλυση.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Για Τύπος ανάλυσης, επιλέξτε Αναφορά ποιότητας δεδομένων και πληροφοριών.
  2. Επιλέξτε Δημιουργία.

Με την Αναφορά ποιότητας δεδομένων και πληροφοριών, λαμβάνετε μια σύντομη περίληψη του συνόλου δεδομένων με γενικές πληροφορίες, όπως τιμές που λείπουν, μη έγκυρες τιμές, τύπους χαρακτηριστικών, μετρήσεις ακραίων τιμών και πολλά άλλα. Μπορείτε να επιλέξετε χαρακτηριστικά property_type και city για την εφαρμογή μετασχηματισμών στο σύνολο δεδομένων για την κατανόηση της δυνατότητας παραμέτρου εκπαιδευμένης ανανέωσης.

Ας εστιάσουμε στο χαρακτηριστικό property_type από το σύνολο δεδομένων. Στην έκθεση Λεπτομέρειες χαρακτηριστικών ενότητα, μπορείτε να δείτε το property_type, το οποίο είναι ένα κατηγορηματικό χαρακτηριστικό και έξι μοναδικές τιμές που προέρχονται από το σύνολο δεδομένων των 50,000 δειγμάτων από το Data Wrangler. Το πλήρες σύνολο δεδομένων μπορεί να έχει περισσότερες κατηγορίες για το χαρακτηριστικό property_type. Για ένα χαρακτηριστικό με πολλές μοναδικές τιμές, μπορείτε να προτιμήσετε την τακτική κωδικοποίηση. Εάν το χαρακτηριστικό έχει μερικές μοναδικές τιμές, μπορεί να χρησιμοποιηθεί μια προσέγγιση κωδικοποίησης one-hot. Για αυτό το παράδειγμα, επιλέγουμε την κωδικοποίηση one-hot on property_type.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ομοίως, για την city χαρακτηριστικό, που είναι ένας τύπος δεδομένων κειμένου με μεγάλο αριθμό μοναδικών τιμών, ας εφαρμόσουμε την τακτική κωδικοποίηση σε αυτό το χαρακτηριστικό.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Μεταβείτε στη ροή δεδομένων Wrangler, επιλέξτε το σύμβολο συν και επιλέξτε Προσθήκη μετασχηματισμού.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Επιλέξτε Κωδικοποιήστε κατηγορηματικά επιλογή μετατροπής κατηγορικών χαρακτηριστικών.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Από την Αναφορά ποιότητας δεδομένων και πληροφοριών, χαρακτηριστικό property_type δείχνει έξι μοναδικές κατηγορίες: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, να TOWNHOUSE.

  1. Για Μεταμορφώστε, επιλέξτε One-hot κωδικοποίηση.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μετά την εφαρμογή one-hot κωδικοποίησης στο χαρακτηριστικό property_type, μπορείτε να κάνετε προεπισκόπηση και των έξι κατηγοριών ως ξεχωριστές δυνατότητες που προστέθηκαν ως νέες στήλες. Λάβετε υπόψη ότι δειγματολήφθηκαν 50,000 εγγραφές από το σύνολο δεδομένων σας για τη δημιουργία αυτής της προεπισκόπησης. Κατά την εκτέλεση μιας εργασίας επεξεργασίας δεδομένων Wrangler με αυτήν τη ροή, αυτοί οι μετασχηματισμοί εφαρμόζονται σε ολόκληρο το σύνολο δεδομένων σας.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Προσθέστε έναν νέο μετασχηματισμό και επιλέξτε Κωδικοποίηση κατηγοριοποίησης για να εφαρμόσετε έναν μετασχηματισμό στο χαρακτηριστικό city, το οποίο έχει μεγαλύτερο αριθμό μοναδικών κατηγορικών τιμών κειμένου.
  2. Για να κωδικοποιήσετε αυτό το χαρακτηριστικό σε μια αριθμητική αναπαράσταση, επιλέξτε Κανονική κωδικοποίηση for Μεταμορφώστε.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Επιλέξτε Προεπισκόπηση σε αυτόν τον μετασχηματισμό.

Μπορείτε να δείτε ότι το κατηγορηματικό χαρακτηριστικό city αντιστοιχίζεται σε τακτικές τιμές στη στήλη εξόδου e_city.

  1. Προσθέστε αυτό το βήμα επιλέγοντας Ενημέρωση.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Μπορείτε να ορίσετε τον προορισμό σε Amazon S3 για να αποθηκεύσετε τους εφαρμοσμένους μετασχηματισμούς στο σύνολο δεδομένων για να δημιουργήσετε την έξοδο ως αρχείο CSV.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το Data Wrangler αποθηκεύει τη ροή εργασίας που ορίσατε στη διεπαφή χρήστη ως αρχείο ροής και μεταφορτώνει στη θέση Amazon S3 της διαμορφωμένης εργασίας επεξεργασίας δεδομένων. Αυτό το αρχείο ροής χρησιμοποιείται όταν δημιουργείτε εργασίες επεξεργασίας Data Wrangler για να εφαρμόσετε τους μετασχηματισμούς σε μεγαλύτερα σύνολα δεδομένων ή για να μετατρέψετε νέα δεδομένα ενίσχυσης για να επανεκπαιδεύσετε το μοντέλο.

Εκκινήστε μια εργασία επεξεργασίας δεδομένων Data Wrangler χωρίς ενεργοποιημένη επανατοποθέτηση

Τώρα μπορείτε να δείτε πώς η επιλογή ανανέωσης χρησιμοποιεί εκπαιδευμένες παραμέτρους σε νέα σύνολα δεδομένων. Για αυτήν την επίδειξη, ορίζουμε δύο εργασίες επεξεργασίας Data Wrangler που λειτουργούν με τα ίδια δεδομένα. Η πρώτη εργασία επεξεργασίας δεν θα ενεργοποιήσει την επανατοποθέτηση. για τη δεύτερη εργασία επεξεργασίας, χρησιμοποιούμε refit. Συγκρίνουμε τα αποτελέσματα στο τέλος.

  1. Επιλέξτε Δημιουργήστε εργασία για να ξεκινήσετε μια εργασία επεξεργασίας δεδομένων με το Data Wrangler.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Για Όνομα εργασίας, πληκτρολογήστε ένα όνομα.
  2. Κάτω από Εκπαιδευμένες παράμετροι, μην επιλέξετε Επισκευή.
  3. Επιλέξτε Διαμόρφωση εργασίας.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Διαμορφώστε τις παραμέτρους εργασίας, όπως τύπους παρουσιών, μέγεθος τόμου και θέση Amazon S3 για την αποθήκευση του αρχείου ροής εξόδου.
  2. Το Data Wrangler δημιουργεί ένα αρχείο ροής στη θέση του αρχείου ροής S3. Η ροή χρησιμοποιεί μετασχηματισμούς για να εκπαιδεύσει τις παραμέτρους και αργότερα χρησιμοποιούμε την επιλογή refit για να επανεκπαιδεύσουμε αυτές τις παραμέτρους.
  3. Επιλέξτε Δημιουργία.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Περιμένετε να ολοκληρωθεί η εργασία επεξεργασίας δεδομένων για να δείτε τα μετασχηματισμένα δεδομένα στον κάδο S3 διαμορφωμένα στον κόμβο προορισμού.

Εκκινήστε μια εργασία επεξεργασίας δεδομένων Data Wrangler με ενεργοποιημένη την επανατοποθέτηση

Ας δημιουργήσουμε μια άλλη εργασία επεξεργασίας ενεργοποιημένη με ενεργοποιημένη τη δυνατότητα παραμέτρου εκπαιδευμένης επαναφοράς. Αυτή η επιλογή επιβάλλει τις εκπαιδευμένες παραμέτρους που μαθαίνονται εκ νέου σε ολόκληρο το σύνολο δεδομένων. Όταν ολοκληρωθεί αυτή η εργασία επεξεργασίας δεδομένων, δημιουργείται ή ενημερώνεται ένα αρχείο ροής στη διαμορφωμένη θέση Amazon S3.

  1. Επιλέξτε Δημιουργήστε εργασία.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Για Όνομα εργασίας, πληκτρολογήστε ένα όνομα.
  2. Για Εκπαιδευμένες παράμετροι, Επιλέξτε Επισκευή.
  3. Εάν επιλέξετε Προβολή όλων, μπορείτε να ελέγξετε όλες τις εκπαιδευμένες παραμέτρους.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Επιλέξτε Διαμόρφωση εργασίας.
  2. Εισαγάγετε τη θέση του αρχείου ροής Amazon S3.
  3. Επιλέξτε Δημιουργία.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Περιμένετε να ολοκληρωθεί η εργασία επεξεργασίας δεδομένων.

Ανατρέξτε στον διαμορφωμένο κάδο S3 στον κόμβο προορισμού για να προβάλετε τα δεδομένα που δημιουργούνται από την εργασία επεξεργασίας δεδομένων που εκτελεί τους καθορισμένους μετασχηματισμούς.

Εξαγωγή σε κώδικα Python για την εκτέλεση εργασιών επεξεργασίας Data Wrangler

Ως εναλλακτική λύση για την έναρξη των εργασιών επεξεργασίας χρησιμοποιώντας την επιλογή Δημιουργία εργασίας στο Data Wrangler, μπορείτε να ενεργοποιήσετε τις εργασίες επεξεργασίας δεδομένων εξάγοντας τη ροή δεδομένων Wrangler σε ένα σημειωματάριο Jupyter. Το Data Wrangler δημιουργεί ένα σημειωματάριο Jupyter με εισόδους, εξόδους, διαμορφώσεις εργασιών επεξεργασίας και κώδικα για ελέγχους κατάστασης εργασίας. Μπορείτε να αλλάξετε ή να ενημερώσετε τις παραμέτρους σύμφωνα με τις απαιτήσεις μετασχηματισμού δεδομένων σας.

  1. Επιλέξτε το σύμβολο συν δίπλα στον τελικό Μεταμορφώστε κόμβος.
  2. Επιλέξτε εξαγωγή σε και Amazon S3 (Μέσω Notebook Jupyter).

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε να δείτε ένα σημειωματάριο Jupyter ανοιχτό με εισόδους, εξόδους, διαμορφώσεις εργασίας επεξεργασίας και κωδικό για ελέγχους κατάστασης εργασίας.

  1. Για να επιβάλετε την επιλογή refit trained parameters μέσω κωδικού, ορίστε το refit παράμετρος για την True.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Συγκρίνετε τα αποτελέσματα της εργασίας επεξεργασίας δεδομένων

Αφού ολοκληρωθούν οι εργασίες επεξεργασίας του Data Wrangler, πρέπει να δημιουργήσετε δύο νέες ροές Data Wrangler με την έξοδο που δημιουργείται από τις εργασίες επεξεργασίας δεδομένων που είναι αποθηκευμένες στον διαμορφωμένο προορισμό Amazon S3.

Μπορείτε να ανατρέξετε στη διαμορφωμένη τοποθεσία στον φάκελο προορισμού Amazon S3 για να ελέγξετε τα αποτελέσματα των εργασιών επεξεργασίας δεδομένων.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Για να επιθεωρήσετε τα αποτελέσματα της εργασίας επεξεργασίας, δημιουργήστε δύο νέες ροές δεδομένων Wrangler χρησιμοποιώντας την Αναφορά Ποιότητας δεδομένων και Πληροφορίες για να συγκρίνετε τα αποτελέσματα μετασχηματισμού.

  1. Δημιουργήστε μια νέα ροή στο Amazon SageMaker Data Wrangler.
  2. Εισαγάγετε την εργασία επεξεργασίας δεδομένων χωρίς δυνατότητα επανατοποθέτησης αρχείου εξόδου από το Amazon S3.
  3. Προσθέστε μια νέα ανάλυση.
  4. Για Τύπος ανάλυσης, επιλέξτε Αναφορά ποιότητας δεδομένων και πληροφοριών.
  5. Επιλέξτε Δημιουργία.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επαναλάβετε τα παραπάνω βήματα και δημιουργήστε νέα ροή wrangler δεδομένων για να αναλύσετε την έξοδο της εργασίας επεξεργασίας δεδομένων με ενεργοποιημένη την επανατοποθέτηση.

Τώρα ας δούμε τα αποτελέσματα των εργασιών επεξεργασίας για το χαρακτηριστικό property_type χρησιμοποιώντας τις Αναφορές ποιότητας δεδομένων και πληροφοριών. Μεταβείτε με κύλιση στις λεπτομέρειες της λειτουργίας στη λίστα Αναφορές δεδομένων και πληροφοριών feature_type.

Η εργασία επεξεργασίας παραμέτρων εκπαιδεύσεως επανατοποθετεί εκ νέου τις εκπαιδευμένες παραμέτρους σε ολόκληρο το σύνολο δεδομένων και έχει κωδικοποιήσει τη νέα τιμή APARTMENT με επτά διακριτές τιμές στο πλήρες σύνολο δεδομένων.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η κανονική εργασία επεξεργασίας εφάρμοσε τις εκπαιδευμένες παραμέτρους του δείγματος δεδομένων, οι οποίες έχουν μόνο έξι διακριτές τιμές για το property_type χαρακτηριστικό. Για δεδομένα με feature_type APARTMENT, τη μη έγκυρη στρατηγική χειρισμού Εφαρμόζεται παράβλεψη και η εργασία επεξεργασίας δεδομένων δεν μαθαίνει αυτήν τη νέα κατηγορία. Η μοναδική κωδικοποίηση έχει παραλείψει αυτήν τη νέα κατηγορία που υπάρχει στα νέα δεδομένα και η κωδικοποίηση παραλείπει την κατηγορία APARTMENT.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ας εστιάσουμε τώρα σε ένα άλλο χαρακτηριστικό, city. Η εργασία επεξεργασίας παραμέτρων που έχει εκπαιδευτεί με επαναπροσαρμογή έχει μάθει ξανά όλες τις διαθέσιμες τιμές για το city χαρακτηριστικό, λαμβάνοντας υπόψη τα νέα δεδομένα.

Όπως φαίνεται στο Σύνοψη χαρακτηριστικών ενότητα της αναφοράς, η νέα κωδικοποιημένη στήλη χαρακτηριστικών e_city έχει 100% έγκυρες παραμέτρους με τη χρήση της δυνατότητας refit trained parameter.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αντίθετα, η κανονική εργασία επεξεργασίας έχει το 82.4% των τιμών που λείπουν στη νέα κωδικοποιημένη στήλη χαρακτηριστικών e_city. Αυτό το φαινόμενο οφείλεται στο ότι μόνο το σύνολο δείγματος των μαθησιακών εκπαιδευμένων παραμέτρων εφαρμόζεται στο πλήρες σύνολο δεδομένων και δεν εφαρμόζεται εκ νέου προσαρμογή από την εργασία επεξεργασίας δεδομένων.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα ακόλουθα ιστογράμματα απεικονίζουν το τακτικό κωδικοποιημένο χαρακτηριστικό e_city. Το πρώτο ιστόγραμμα είναι του χαρακτηριστικού που μετασχηματίστηκε με την επιλογή επανατοποθέτησης.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το επόμενο ιστόγραμμα είναι του χαρακτηριστικού που μετασχηματίστηκε χωρίς την επιλογή επανατοποθέτησης. Η πορτοκαλί στήλη εμφανίζει τιμές που λείπουν (NaN) στην αναφορά ποιότητας δεδομένων και πληροφοριών. Οι νέες τιμές που δεν μαθαίνονται από το δείγμα δεδομένων αντικαθίστανται ως Not a Number (NaN) όπως έχει διαμορφωθεί στο Data Wrangler UI μη έγκυρη στρατηγική χειρισμού.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η εργασία επεξεργασίας δεδομένων με την παράμετρο refit trained επαναμάθαινε το property_type και city χαρακτηριστικά λαμβάνοντας υπόψη τις νέες τιμές από ολόκληρο το σύνολο δεδομένων. Χωρίς την παράμετρο refit trained, η εργασία επεξεργασίας δεδομένων χρησιμοποιεί μόνο τις προεκπαιδευμένες παραμέτρους του δειγματοληπτικού συνόλου δεδομένων. Στη συνέχεια, τις εφαρμόζει στα νέα δεδομένα, αλλά οι νέες τιμές δεν λαμβάνονται υπόψη για κωδικοποίηση. Αυτό θα έχει επιπτώσεις στην ακρίβεια του μοντέλου.

εκκαθάριση

Όταν δεν χρησιμοποιείτε το Data Wrangler, είναι σημαντικό να απενεργοποιείτε την παρουσία στην οποία εκτελείται για να αποφύγετε την επιβολή πρόσθετων χρεώσεων.

Για να αποφύγετε την απώλεια εργασίας, αποθηκεύστε τη ροή δεδομένων σας προτού απενεργοποιήσετε το Data Wrangler.

  1. Για να αποθηκεύσετε τη ροή δεδομένων σας Στούντιο Amazon SageMaker, επιλέξτε Αρχεία, κατόπιν επιλέξτε Αποθήκευση ροής Wrangler δεδομένων. Το Data Wrangler αποθηκεύει αυτόματα τη ροή δεδομένων σας κάθε 60 δευτερόλεπτα.
  2. Για να τερματίσετε την παρουσία του Data Wrangler, στο Studio, επιλέξτε Τρέχουσες παρουσίες και πυρήνες.
  3. Κάτω από ΕΦΑΡΜΟΓΕΣ ΕΚΤΕΛΕΣΗΣ, επιλέξτε το εικονίδιο τερματισμού λειτουργίας δίπλα στην εφαρμογή Sagemaker-data-wrangler-1.0.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Επιλέξτε Κλείσε όλα για να επιβεβαιώσετε.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το Data Wrangler εκτελείται σε ένα στιγμιότυπο ml.m5.4x. Αυτή η περίπτωση εξαφανίζεται από ΕΚΔΗΛΩΣΕΙΣ ΠΕΡΙΠΤΩΣΕΩΝ όταν τερματίζετε την εφαρμογή Data Wrangler.

Αφού τερματίσετε τη λειτουργία της εφαρμογής Data Wrangler, πρέπει να επανεκκινήσει την επόμενη φορά που θα ανοίξετε ένα αρχείο ροής Data Wrangler. Αυτό μπορεί να διαρκέσει μερικά λεπτά.

Συμπέρασμα

Σε αυτήν την ανάρτηση, παρέχουμε μια επισκόπηση της δυνατότητας παραμέτρων εκπαιδευμένης ανανέωσης στο Data Wrangler. Με αυτήν τη νέα δυνατότητα, μπορείτε να αποθηκεύσετε τις εκπαιδευμένες παραμέτρους στη ροή δεδομένων Wrangler και οι εργασίες επεξεργασίας δεδομένων χρησιμοποιούν τις εκπαιδευμένες παραμέτρους για να εφαρμόσουν τους μαθητευόμενους μετασχηματισμούς σε μεγάλα σύνολα δεδομένων ή ενισχυτικά σύνολα δεδομένων. Μπορείτε να εφαρμόσετε αυτήν την επιλογή στη διανυσματική διαμόρφωση χαρακτηριστικών κειμένου, αριθμητικών δεδομένων και χειρισμού ακραίων στοιχείων.

Η διατήρηση των εκπαιδευμένων παραμέτρων καθ' όλη τη διάρκεια της επεξεργασίας δεδομένων του κύκλου ζωής ML απλοποιεί και μειώνει τα βήματα επεξεργασίας δεδομένων, υποστηρίζει την ισχυρή μηχανική χαρακτηριστικών και υποστηρίζει την εκπαίδευση μοντέλων και την εκπαίδευση ενίσχυσης σε νέα δεδομένα.

Σας συνιστούμε να δοκιμάσετε αυτήν τη νέα δυνατότητα για τις απαιτήσεις επεξεργασίας δεδομένων σας.


Σχετικά με τους συγγραφείς

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Hariharan Suresh είναι Senior Solutions Architect στην AWS. Είναι παθιασμένος με τις βάσεις δεδομένων, τη μηχανική μάθηση και το σχεδιασμό καινοτόμων λύσεων. Πριν από την ένταξή του στην AWS, ο Hariharan ήταν αρχιτέκτονας προϊόντων, βασικός ειδικός στην υλοποίηση τραπεζικών εργασιών και προγραμματιστής, και συνεργάστηκε με οργανισμούς BFSI για περισσότερα από 11 χρόνια. Εκτός τεχνολογίας, του αρέσει το αλεξίπτωτο πλαγιάς και το ποδήλατο.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Santosh Kulkarni είναι αρχιτέκτονας Enterprise Solutions στην Amazon Web Services που συνεργάζεται με πελάτες αθλητικών ειδών στην Αυστραλία. Είναι παθιασμένος με τη δημιουργία κατανεμημένων εφαρμογών μεγάλης κλίμακας για την επίλυση επιχειρηματικών προβλημάτων χρησιμοποιώντας τις γνώσεις του σε AI/ML, μεγάλα δεδομένα και ανάπτυξη λογισμικού.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Βισάαλ Καπούρ είναι Ανώτερος Εφαρμοσμένος Επιστήμονας με AWS AI. Είναι παθιασμένος με το να βοηθά τους πελάτες να κατανοήσουν τα δεδομένα τους στο Data Wrangler. Στον ελεύθερο χρόνο του, κάνει ποδήλατα βουνού, snowboard και περνά χρόνο με την οικογένειά του.

Επανατοποθετήστε εκπαιδευμένες παραμέτρους σε μεγάλα σύνολα δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ανίκεθ Μαντζουνάθ είναι Μηχανικός Ανάπτυξης Λογισμικού στο Amazon SageMaker. Βοηθά στην υποστήριξη του Amazon SageMaker Data Wrangler και είναι παθιασμένος με τα κατανεμημένα συστήματα μηχανικής μάθησης. Εκτός δουλειάς, του αρέσει η πεζοπορία, η παρακολούθηση ταινιών και το κρίκετ.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS