Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler

Amazon SageMaker Data Wrangler είναι μια ικανότητα του Amazon Sage Maker Αυτό καθιστά ταχύτερο για τους επιστήμονες δεδομένων και τους μηχανικούς την προετοιμασία δυνατοτήτων υψηλής ποιότητας για εφαρμογές μηχανικής μάθησης (ML) μέσω μιας οπτικής διεπαφής. Το Data Wrangler μειώνει τον χρόνο που χρειάζεται για τη συγκέντρωση και την προετοιμασία δεδομένων για ML από εβδομάδες σε λεπτά. Με το Data Wrangler, μπορείτε να απλοποιήσετε τη διαδικασία προετοιμασίας δεδομένων και τη μηχανική χαρακτηριστικών και να ολοκληρώσετε κάθε βήμα της ροής εργασιών προετοιμασίας δεδομένων, συμπεριλαμβανομένης της επιλογής δεδομένων, του καθαρισμού, της εξερεύνησης και της οπτικοποίησης από μια ενιαία οπτική διεπαφή.

Σε αυτήν την ανάρτηση, εξετάζουμε διάφορες πτυχές της προετοιμασίας δεδομένων και τις σχετικές δυνατότητες του Data Wrangler για να κατανοήσουμε τα στοιχεία κόστους της προετοιμασίας δεδομένων και πώς το Data Wrangler προσφέρει μια οικονομικά αποδοτική προσέγγιση για την προετοιμασία δεδομένων. Καλύπτουμε επίσης τις βέλτιστες πρακτικές βελτιστοποίησης κόστους για περαιτέρω μείωση του κόστους προετοιμασίας δεδομένων στο Data Wrangler.

Επισκόπηση διερευνητικής ανάλυσης δεδομένων (EDA) και προετοιμασίας δεδομένων στο Data Wrangler

Για να κατανοήσετε τη σχέση κόστους-αποτελεσματικότητας του Data Wrangler, είναι σημαντικό να εξετάσετε διάφορες πτυχές του EDA και τη φάση προετοιμασίας δεδομένων του ML. Αυτό το ιστολόγιο δεν θα συγκρίνει διαφορετικές πλατφόρμες ή υπηρεσίες για EDA, αλλά κατανοεί τα διαφορετικά βήματα στο EDA, τις εκτιμήσεις κόστους τους και τον τρόπο με τον οποίο το Data Wrangler διευκολύνει την EDA με οικονομικά αποδοτικό τρόπο.

Η τυπική εμπειρία EDA ενός επιστήμονα δεδομένων αποτελείται από τα ακόλουθα βήματα:

  1. Εκκινήστε ένα στιγμιότυπο σημειωματάριου Jupyter για να πραγματοποιήσετε EDA.
  2. Εισαγάγετε απαιτούμενα πακέτα για ανάλυση και οπτικοποίηση δεδομένων.
  3. Εισαγάγετε τα δεδομένα από πολλές πηγές.
  4. Πραγματοποιήστε μετασχηματισμούς, όπως χειρισμό τιμών και ακραίων τιμών που λείπουν, κωδικοποίηση μεμονωμένα, εξισορροπώντας δεδομένα και άλλα, για να καθαρίσετε τα δεδομένα και να τα καταστήσετε έτοιμα για μοντελοποίηση.
  5. Οπτικοποιήστε τα δεδομένα.
  6. Δημιουργήστε μηχανισμούς για να επαναλάβετε τα βήματα.
  7. Εξαγωγή επεξεργασμένων δεδομένων για μεταγενέστερες αναλύσεις ή ML.

Αυτά τα βήματα είναι πολύπλοκα και απαιτούν ευελιξία στις απαιτήσεις υπολογισμού και μνήμης, ώστε να μπορείτε να εκτελέσετε κάθε βήμα με την κατάλληλη υπολογιστική και μνήμη. Χρειάζεστε επίσης ένα ολοκληρωμένο σύστημα που μπορεί να εισάγει δεδομένα από πολλαπλές πηγές και μηχανισμούς για επανάληψη ή επαναχρησιμοποίηση, ώστε να μπορείτε να εφαρμόσετε τα ίδια βήματα EDA που έχετε ήδη δημιουργήσει σε μεγαλύτερα, παρόμοια ή διαφορετικά σύνολα δεδομένων, όπως απαιτείται από τη διοχέτευση ML κατάντη.

Εκτιμήσεις κόστους EDA

Ακολουθούν ορισμένες από τις εκτιμήσεις κόστους για την EDA:

Υπολογίστε

  • Ορισμένα περιβάλλοντα EDA απαιτούν δεδομένα σε συγκεκριμένη μορφή. Σε τέτοιες περιπτώσεις, πρέπει να επεξεργαστείτε τα δεδομένα στη μορφή που είναι αποδεκτή από το περιβάλλον EDA. Για παράδειγμα, εάν το περιβάλλον δέχεται μόνο μορφή CSV, αλλά έχετε δεδομένα σε Parquet ή άλλη μορφή, πρέπει να μετατρέψετε το σύνολο δεδομένων σας σε μορφή CSV. Η αναδιαμόρφωση δεδομένων απαιτεί υπολογισμό.
  • Δεν έχουν όλα τα περιβάλλοντα την ευελιξία να αλλάζουν τη διαμόρφωση υπολογιστών ή μνήμης με το πάτημα ενός κουμπιού. Ίσως χρειαστεί να έχετε την υψηλότερη χωρητικότητα υπολογισμού και αποτύπωμα μνήμης, όπως ισχύει για κάθε μετασχηματισμό που εκτελείτε.

Αποθήκευση και μεταφορά δεδομένων

  • Πρέπει να συλλέγονται δεδομένα σε πολλαπλές πηγές. Εάν μόνο επιλεγμένες πηγές υποστηρίζονται από το περιβάλλον EDA, ενδέχεται να χρειαστεί να μετακινήσετε τα δεδομένα σας από διαφορετικές πηγές σε αυτήν τη μοναδική υποστηριζόμενη πηγή, γεγονός που αυξάνει τόσο το κόστος αποθήκευσης όσο και το κόστος μεταφοράς δεδομένων.

Κόστος εργασίας και τεχνογνωσία

  • Η διαχείριση της πλατφόρμας EDA και της υποκείμενης υπολογιστικής υποδομής απαιτεί τεχνογνωσία, προσπάθεια και κόστος. Όταν διαχειρίζεστε την υποδομή, έχετε το λειτουργικό βάρος της διαχείρισης λειτουργικών συστημάτων και εφαρμογών όπως η παροχή, η ενημέρωση κώδικα και η αναβάθμιση. Φροντίστε να εντοπίσετε τα προβλήματα γρήγορα. Εάν δεν επικυρώσετε τα δεδομένα πριν δημιουργήσετε το μοντέλο σας, έχετε σπαταλήσει πολλούς πόρους καθώς και χρόνο μηχανικού.
  • Σημειώστε ότι το EDA απαιτεί εξειδίκευση στην επιστήμη των δεδομένων και την εμπειρία δεδομένων.
  • Επιπλέον, ορισμένα περιβάλλοντα EDA δεν προσφέρουν διεπαφή σημείου-και-κλικ και απαιτούν από εσάς να γράψετε κώδικα για να εξερευνήσετε, να οπτικοποιήσετε και να μετασχηματίσετε δεδομένα, κάτι που συνεπάγεται κόστος εργασίας.

Κόστος λειτουργίας

  • Για να μετακινήσετε τα δεδομένα από την πηγή για να πραγματοποιήσετε μετασχηματισμούς και, στη συνέχεια, σε αγωγούς ML κατάντη, ίσως χρειαστεί να εκτελέσετε τα επαναλαμβανόμενα βήματα EDA ξανά από την αρχή της ανάκτησης των δεδομένων σε κάθε φάση του EDA, η οποία είναι χρονοβόρα και φέρει αθροιστική κόστος εργασίας. Εάν μπορείτε να χρησιμοποιήσετε τα μετασχηματισμένα δεδομένα από το προηγούμενο βήμα, δεν αυξάνει αθροιστικά το κόστος.
  • Έχοντας έναν εύκολο μηχανισμό για την επανάληψη του ίδιου συνόλου βημάτων EDA σε παρόμοια ή αυξητικά σύνολα δεδομένων εξοικονομεί χρόνο καθώς και κόστος από την άποψη των ανθρώπων και των πόρων υπολογισμού.

Ας δούμε πώς το Data Wrangler διευκολύνει την EDA ή την προετοιμασία δεδομένων με οικονομικά αποδοτικό τρόπο σε σχέση με αυτούς τους διαφορετικούς τομείς.

Υπολογίστε

Όταν πραγματοποιείτε EDA σε φορητό υπολογιστή, ενδέχεται να μην έχετε την ευελιξία να κλιμακώσετε τον υπολογισμό ή τη μνήμη κατά παραγγελία, κάτι που μπορεί να σας αναγκάσει να εκτελέσετε το μετασχηματισμός και οπτικοποιήσεις σε υπερμεγέθη περιβάλλον. Εάν έχετε περιβάλλον μικρού μεγέθους, ενδέχεται να αντιμετωπίσετε προβλήματα μνήμης. Στο Data Wrangler, μπορείτε να επιλέξετε έναν μικρότερο τύπο παρουσίας για συγκεκριμένους μετασχηματισμούς ή ανάλυση και, στη συνέχεια, να αναβαθμίσετε το στιγμιότυπο σε μεγαλύτερο τύπο και να πραγματοποιήσετε σύνθετους μετασχηματισμούς. Όταν ολοκληρωθεί ο σύνθετος μετασχηματισμός, μπορείτε να μειώσετε την κλίμακα της παρουσίας του Data Wrangler σε έναν μικρότερο τύπο παρουσίας. Αυτό σας δίνει την ευελιξία να κλιμακώσετε τον υπολογισμό σας με βάση τις απαιτήσεις μετασχηματισμού.

Το Data Wrangler υποστηρίζει α ποικιλία τύπων παραδειγμάτων, και μπορείτε να επιλέξετε το κατάλληλο για τον φόρτο εργασίας σας, εξαλείφοντας έτσι το κόστος περιβαλλόντων μεγάλου ή μικρού μεγέθους.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αποθήκευση και μεταφορά δεδομένων

Σε αυτήν την ενότητα, συζητάμε μερικές από τις εκτιμήσεις κόστους για την αποθήκευση και τη μεταφορά δεδομένων.

εισαγωγή

Τα δεδομένα για ML είναι συχνά διαθέσιμα από πολλές πηγές και σε διαφορετικές μορφές. Με το Data Wrangler, μπορείτε εισαγωγή δεδομένα από τις ακόλουθες πηγές δεδομένων: Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, Σχηματισμός Λίμνης AWS, Κατάστημα χαρακτηριστικών Amazon SageMaker και Νιφάδα χιονιού. Τα δεδομένα μπορούν να είναι σε οποιαδήποτε από τις ακόλουθες μορφές: CSV, Parquet, JSON και Optimized Row Columnar (ORC) και θα προστεθούν περισσότερες μορφές δεδομένων με βάση τη ζήτηση των πελατών. Επειδή οι σημαντικές πηγές δεδομένων υποστηρίζονται ήδη στο Data Wrangler, τα δεδομένα μπορούν να εισαχθούν απευθείας από τις αντίστοιχες πηγές και πληρώνετε μόνο για το μήνα GB της προβλεπόμενης αποθήκευσης. Για περισσότερες πληροφορίες, ανατρέξτε στο Τιμολόγηση του Amazon SageMaker.

Όλη η επαναληπτική εξερεύνηση δεδομένων, ο μετασχηματισμός δεδομένων και η οπτικοποίηση μπορούν να πραγματοποιηθούν μέσα στο ίδιο το Data Wrangler. Αυτό εξαλείφει την περαιτέρω μετακίνηση δεδομένων σε σύγκριση με άλλα περιβάλλοντα όπου μπορεί να χρειαστεί να μετακινήσετε τα δεδομένα σε διαφορετικές τοποθεσίες για απορρόφηση, μετατροπή και επεξεργασία. Από την άποψη του κόστους, αυτό εξαλείφει την αποθήκευση διπλών δεδομένων καθώς και τη μειωμένη κίνηση δεδομένων.

Κόστος ποιότητας δεδομένων

Εάν δεν εντοπίσετε κακά δεδομένα και δεν τα διορθώσετε νωρίς, θα γίνει ένα δαπανηρό πρόβλημα για να λυθεί αργότερα. ο Αναφορά ποιότητας δεδομένων και πληροφοριών σας βοηθά να εξαλείψετε αυτό το πρόβλημα. Μπορείτε να χρησιμοποιήσετε την Αναφορά ποιότητας δεδομένων και πληροφοριών για να εκτελέσετε μια ανάλυση των δεδομένων σας για να αποκτήσετε πληροφορίες για το σύνολο δεδομένων σας, όπως ο αριθμός των τιμών που λείπουν και ο αριθμός των ακραίων τιμών. Εάν αντιμετωπίζετε προβλήματα με τα δεδομένα σας, όπως διαρροή στόχου ή ανισορροπία, η αναφορά πληροφοριών μπορεί να φέρει αυτά τα ζητήματα στην προσοχή σας. Μόλις εισαγάγετε τα δεδομένα σας, μπορείτε να εκτελέσετε μια αναφορά πληροφοριών με ένα πάτημα ενός κουμπιού. Αυτό μειώνει την προσπάθεια εισαγωγής βιβλιοθηκών και σύνταξης κώδικα για τη λήψη των απαιτούμενων πληροφοριών σχετικά με το σύνολο δεδομένων, γεγονός που μειώνει το κόστος εργασίας και την απαιτούμενη τεχνογνωσία.

Όταν δημιουργείτε την αναφορά ποιότητας δεδομένων και πληροφοριών, το Data Wrangler σάς δίνει την επιλογή να επιλέξετε μια στήλη-στόχο (τη στήλη που προσπαθείτε να προβλέψετε). Όταν επιλέγετε μια στήλη προορισμού, το Data Wrangler δημιουργεί αυτόματα μια ανάλυση στήλης στόχου. Επίσης, ταξινομεί τα χαρακτηριστικά με τη σειρά της προγνωστικής τους ισχύος (δείτε το παρακάτω στιγμιότυπο οθόνης). Αυτό συμβάλλει στο άμεσο επιχειρηματικό όφελος των χαρακτηριστικών υψηλής ποιότητας για τη μεταγενέστερη διαδικασία ML.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μεταμόρφωση

Εάν το εργαλείο EDA υποστηρίζει μόνο ορισμένους μετασχηματισμούς, ίσως χρειαστεί να μετακινήσετε τα δεδομένα σε διαφορετικό περιβάλλον για να πραγματοποιήσετε τους προσαρμοσμένους μετασχηματισμούς, όπως εργασίες Spark. Υποστηρίζει Data Wrangler προσαρμοσμένες μετατροπές, το οποίο μπορεί να γραφτεί σε PySpark, Pandas και SQL (δείτε το παρακάτω στιγμιότυπο οθόνης για παράδειγμα). Είναι φιλικά προς τους προγραμματιστές και όλα συσκευάζονται απρόσκοπτα σε ένα μέρος, μειώνοντας τη μετακίνηση δεδομένων και εξοικονομώντας κόστος που σχετίζεται με τη μεταφορά και αποθήκευση δεδομένων.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορεί επίσης να χρειαστεί να πραγματοποιήσετε μαθηματικές πράξεις στα σύνολα δεδομένων σας, όπως η λήψη μιας απόλυτης τιμής μιας στήλης. Εάν το εργαλείο EDA που διαθέτετε δεν υποστηρίζει μαθηματικές πράξεις, ίσως χρειαστεί να εκτελέσετε τις λειτουργίες εξωτερικά, κάτι που απαιτεί πρόσθετη προσπάθεια και κόστος. Ορισμένα εργαλεία ενδέχεται να υποστηρίζουν μαθηματικές πράξεις στο σύνολο δεδομένων, αλλά απαιτούν την εισαγωγή βιβλιοθηκών, κάτι που απαιτεί πρόσθετη προσπάθεια. Στο Data Wrangler, μπορείτε επίσης να χρησιμοποιήσετε α προσαρμοσμένη φόρμουλα για να ορίσετε μια νέα στήλη χρησιμοποιώντας μια έκφραση Spark SQL για να ρωτήσετε δεδομένα στο τρέχον πλαίσιο δεδομένων χωρίς να επιβαρυνθείτε με επιπλέον κόστος για προσαρμοσμένους μετασχηματισμούς ή προσαρμοσμένα ερωτήματα.

Κόστος εργασίας και τεχνογνωσία

Η διαχείριση της πλατφόρμας EDA και της υποκείμενης υπολογιστικής υποδομής απαιτεί τεχνογνωσία, προσπάθεια και κόστος. Το Data Wrangler προσφέρει μια επιλογή από πάνω από 300 προδιαμορφωμένους μετασχηματισμούς δεδομένων γραμμένους στο PySpark, ώστε να μπορείτε να επεξεργάζεστε σύνολα δεδομένων έως και εκατοντάδες gigabyte αποτελεσματικά χωρίς να χρειάζεται να ανησυχείτε για τη σύνταξη κώδικα για τη μετατροπή των δεδομένων. Μπορείτε να χρησιμοποιήσετε μετασχηματισμούς, όπως μετατροπή τύπου στήλης, μία ενεργή κωδικοποίηση, να υπολογίσετε δεδομένα που λείπουν με μέση ή διάμεσο, στήλες επανακλιμάκωσης και ενσωματώσεις δεδομένων/χρόνου για να μετατρέψετε τα δεδομένα σας σε μορφές που μπορούν να χρησιμοποιήσουν τα μοντέλα χωρίς να γράψουν ούτε μια γραμμή κώδικα. Αυτό μειώνει τον χρόνο και την προσπάθεια, μειώνοντας έτσι το κόστος εργασίας.

Το Data Wrangler προσφέρει μια διεπαφή point-and-click για οπτικοποίηση και επικύρωση δεδομένων (δείτε το παρακάτω στιγμιότυπο οθόνης). Δεν απαιτείται εξειδίκευση στη μηχανική δεδομένων ή στην ανάλυση, επειδή όλη η προετοιμασία των δεδομένων μπορεί να γίνει με απλό σημείο και κλικ.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οραματισμός

Το Data Wrangler σάς βοηθά να κατανοήσετε τα δεδομένα σας και να εντοπίσετε πιθανά σφάλματα και ακραίες τιμές με ένα σύνολο ισχυρών προδιαμορφωμένων προτύπων οπτικοποίησης. Δεν χρειάζεστε εξοικείωση ή να αφιερώσετε επιπλέον χρόνο για να εισαγάγετε εξωτερικές βιβλιοθήκες ή εξαρτήσεις για να πραγματοποιήσετε τις απεικονίσεις. Ιστογράμματα, διαγράμματα διασποράς, γραφικές παραστάσεις πλαισίου και μουστάκια, γραφήματα γραμμών και γραφήματα ράβδων είναι όλα διαθέσιμα (δείτε τα παρακάτω στιγμιότυπα οθόνης για μερικά παραδείγματα). Πρότυπα όπως τα ιστογράμματα διευκολύνουν τη δημιουργία και την επεξεργασία των δικών σας οπτικοποιήσεων χωρίς να γράφετε κώδικα.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επικύρωση

Το Data Wrangler σάς δίνει τη δυνατότητα να εντοπίζετε γρήγορα ασυνέπειες στη ροή εργασιών προετοιμασίας δεδομένων και να διαγνώσετε προβλήματα πριν από την ανάπτυξη των μοντέλων στην παραγωγή (δείτε το παρακάτω στιγμιότυπο οθόνης). Μπορείτε να προσδιορίσετε γρήγορα εάν τα προετοιμασμένα δεδομένα σας θα οδηγήσουν σε ένα ακριβές μοντέλο, ώστε να μπορείτε να προσδιορίσετε εάν απαιτείται πρόσθετη μηχανική χαρακτηριστικών για τη βελτίωση της απόδοσης. Όλα αυτά συμβαίνουν πριν από τη φάση κατασκευής του μοντέλου, επομένως δεν υπάρχει πρόσθετο κόστος εργασίας για την κατασκευή ενός μοντέλου που δεν αποδίδει τα αναμενόμενα (μετρήσεις χαμηλής απόδοσης) που θα οδηγούσαν σε πρόσθετους μετασχηματισμούς μετά την κατασκευή του μοντέλου. Η επικύρωση οδηγεί επίσης στο επιχειρηματικό όφελος από χαρακτηριστικά καλύτερης ποιότητας.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Δημιουργήστε επεκτάσιμους αγωγούς προετοιμασίας δεδομένων

Όταν πραγματοποιείτε EDA, πρέπει να δημιουργήσετε αγωγούς προετοιμασίας δεδομένων που μπορούν να κλιμακωθούν με σύνολα δεδομένων (δείτε το παρακάτω στιγμιότυπο οθόνης). Αυτό είναι σημαντικό για την επανάληψη καθώς και για τις μεταγενέστερες διαδικασίες ML. Συνήθως, οι πελάτες χρησιμοποιούν το Spark για την κατανεμημένη, επεκτάσιμη και στη μνήμη χαρακτήρα επεξεργασίας του. Ωστόσο, αυτό απαιτεί μεγάλη τεχνογνωσία στο Spark. Η ρύθμιση ενός περιβάλλοντος Spark είναι χρονοβόρα και απαιτεί εξειδίκευση για βέλτιστη διαμόρφωση. Με το Data Wrangler, μπορείτε να δημιουργήσετε εργασίες επεξεργασίας δεδομένων και να εξάγετε στο Amazon S3 και στο κατάστημα χαρακτηριστικών Amazon καθαρά μέσω της οπτικής διεπαφής χωρίς να χρειάζεται να δημιουργήσετε, να εκτελέσετε ή να διαχειριστείτε φορητούς υπολογιστές Jupyter, κάτι που διευκολύνει επεκτάσιμους αγωγούς προετοιμασίας δεδομένων χωρίς τεχνογνωσία στο Spark. Για περισσότερες πληροφορίες, ανατρέξτε στο Εκκινήστε εργασίες επεξεργασίας με μερικά κλικ χρησιμοποιώντας το Amazon SageMaker Data Wrangler.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Κόστος λειτουργίας

Η ενσωμάτωση μπορεί να μην είναι άμεσο όφελος κόστους. Ωστόσο, υπάρχουν έμμεσα οφέλη κόστους όταν εργάζεστε σε ένα ολοκληρωμένο περιβάλλον όπως το SageMaker. Επειδή το Data Wrangler είναι ενσωματωμένο με υπηρεσίες AWS, μπορείτε να εξαγάγετε τη ροή εργασιών προετοιμασίας δεδομένων σας σε ένα σημειωματάριο εργασιών Data Wrangler και να εκκινήσετε Αυτόματος πιλότος Amazon SageMaker πείραμα εκπαίδευσης, Αγωγοί Amazon SageMaker σημειωματάριο ή σενάριο κώδικα. Μπορείτε επίσης να δημιουργήσετε μια εργασία επεξεργασίας δεδομένων Wrangler με ένα κλικ χωρίς να χρειάζεται να ρυθμίσετε και να διαχειριστείτε υποδομή για την εκτέλεση επαναλαμβανόμενων βημάτων ή αυτοματισμού σε μια ροή εργασίας ML.

Στη ροή δεδομένων Wrangler, μπορείτε εξαγωγή ορισμένους ή όλους τους μετασχηματισμούς που κάνατε στους αγωγούς επεξεργασίας δεδομένων σας. Όταν εξάγετε τη ροή δεδομένων σας, χρεώνεστε για τους πόρους AWS που χρησιμοποιείτε. Από την άποψη του κόστους, η εξαγωγή του μετασχηματισμού σάς δίνει τη δυνατότητα να επαναλάβετε τον μετασχηματισμό σε πρόσθετα σύνολα δεδομένων χωρίς αυξητική προσπάθεια.

Με το Data Wrangler, μπορείτε εξαγάγετε όλους τους μετασχηματισμούς που κάνατε σε ένα σύνολο δεδομένων σε έναν κόμβο προορισμού με λίγα μόνο κλικ. Αυτό σας επιτρέπει να δημιουργείτε εργασίες επεξεργασίας δεδομένων και να εξάγετε στο Amazon S3 αποκλειστικά μέσω της οπτικής διεπαφής χωρίς να χρειάζεται να δημιουργείτε, να εκτελείτε ή να διαχειρίζεστε φορητούς υπολογιστές Jupyter, βελτιώνοντας έτσι την εμπειρία χαμηλού κώδικα.

Το Data Wrangler σάς επιτρέπει να εξάγετε τα βήματα προετοιμασίας δεδομένων ή τη ροή δεδομένων σας σε διαφορετικά περιβάλλοντα. Το Data Wrangler έχει απρόσκοπτη ενοποίηση με άλλες υπηρεσίες και δυνατότητες AWS, όπως τα ακόλουθα:

  • Κατάστημα χαρακτηριστικών SageMaker – Μπορείτε να σχεδιάσετε τα χαρακτηριστικά του μοντέλου σας χρησιμοποιώντας το Data Wrangler και μετά απορρόφηση στο κατάστημα χαρακτηριστικών σας, το οποίο είναι ένα κεντρικό κατάστημα για λειτουργίες και τα σχετικά μεταδεδομένα τους
  • Αγωγοί SageMaker – Μπορείτε να χρησιμοποιήσετε τη ροή δεδομένων που εξάγεται από το Data Wrangler στις αγωγές SageMaker, οι οποίες χρησιμοποιούνται για τη δημιουργία και την ανάπτυξη ροών εργασίας ML μεγάλης κλίμακας
  • Amazon S3 – Μπορείτε να εξαγάγετε τα δεδομένα στο Amazon S3 και να τα χρησιμοποιήσετε για να δημιουργήσετε εργασίες Data Wrangler
  • Python – Τέλος, μπορείτε να εξαγάγετε όλα τα βήματα στη ροή δεδομένων σας σε ένα αρχείο Python, το οποίο μπορείτε να ενσωματώσετε χειροκίνητα σε οποιαδήποτε ροή εργασίας επεξεργασίας δεδομένων.

Μια τέτοια στενή ενοποίηση συμβάλλει στη μείωση της προσπάθειας, του χρόνου, της τεχνογνωσίας και του κόστους.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Βέλτιστες πρακτικές βελτιστοποίησης κόστους

Σε αυτήν την ενότητα, συζητάμε τις βέλτιστες πρακτικές για την περαιτέρω βελτιστοποίηση του κόστους στο Data Wrangler.

Ενημερώστε το Data Wrangler στην πιο πρόσφατη έκδοση

Όταν ενημερώστε το Data Wrangler στην πιο πρόσφατη έκδοση, λαμβάνετε όλες τις πιο πρόσφατες δυνατότητες, την ασφάλεια και τις συνολικές βελτιστοποιήσεις που έγιναν στο Data Wrangler, οι οποίες ενδέχεται να βελτιώσουν τη σχέση κόστους-αποτελεσματικότητάς του.

Χρησιμοποιήστε ενσωματωμένους μετασχηματιστές Data Wrangler

Χρησιμοποιήστε τους ενσωματωμένους μετασχηματιστές Data Wrangler πάνω από προσαρμοσμένους μετασχηματισμούς Panda κατά την επεξεργασία μεγαλύτερων και ευρύτερων συνόλων δεδομένων.

Επιλέξτε τον σωστό τύπο παρουσίας για τη ροή δεδομένων Wrangler

Υπάρχουν δύο οικογένειες τύπων στιγμιότυπων ml που υποστηρίζονται για το Data Wrangler: m5 και r5. Τα στιγμιότυπα m5 είναι στιγμιότυπα γενικού σκοπού που παρέχουν μια ισορροπία μεταξύ υπολογισμού και μνήμης, ενώ τα στιγμιότυπα r5 έχουν σχεδιαστεί για να παρέχουν γρήγορη απόδοση για την επεξεργασία μεγάλων συνόλων δεδομένων στη μνήμη.

Συνιστούμε να επιλέξετε μια παρουσία που είναι καλύτερα βελτιστοποιημένη γύρω από τον φόρτο εργασίας σας. Για παράδειγμα, το r5.8xlarge μπορεί να έχει υψηλότερη τιμή από το m5.4xlarge, αλλά το r5.8xlarge μπορεί να είναι καλύτερα βελτιστοποιημένο για τον φόρτο εργασίας σας. Με καλύτερα βελτιστοποιημένες παρουσίες, μπορείτε να εκτελέσετε τις ροές δεδομένων σας σε λιγότερο χρόνο με χαμηλότερο κόστος.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων

Για σύνολα δεδομένων μεγαλύτερα από δεκάδες gigabyte, συνιστούμε τη χρήση ενσωματωμένων μετασχηματισμών ή τη δειγματοληψία δεδομένων κατά την εισαγωγή για την διαδραστική εκτέλεση προσαρμοσμένων μετασχηματισμών Panda. Στο θέση, μοιραζόμαστε τα ευρήματά μας από δύο δοκιμές αναφοράς για να δείξουμε πώς να το κάνουμε αυτό.

Τερματίστε τις αχρησιμοποίητες παρουσίες

Χρεώνεστε για όλες τις περιπτώσεις που εκτελούνται. Για να αποφύγετε την επιβολή πρόσθετων χρεώσεων, κλείστε τις περιπτώσεις που δεν χρησιμοποιείτε με μη αυτόματο τρόπο. Για να τερματίσετε μια παρουσία που εκτελείται, ολοκληρώστε τα ακόλουθα βήματα:

  1. Στη σελίδα ροής δεδομένων, επιλέξτε το εικονίδιο παρουσίας στο παράθυρο πλοήγησης κάτω Εκτελούμενες περιπτώσεις.Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Επιλέξτε τερματίστε.

Εάν τερματίσετε μια παρουσία που χρησιμοποιείται για την εκτέλεση μιας ροής, δεν μπορείτε να αποκτήσετε προσωρινή πρόσβαση στη ροή. Εάν λάβετε ένα σφάλμα κατά το άνοιγμα της ροής που εκτελείται σε μια περίπτωση που είχατε κλείσει προηγουμένως, περιμένετε περίπου 5 λεπτά και προσπαθήστε να την ανοίξετε ξανά.

Όταν δεν χρησιμοποιείτε το Data Wrangler, είναι σημαντικό να απενεργοποιείτε την παρουσία στην οποία εκτελείται για να αποφύγετε την επιβολή πρόσθετων χρεώσεων. Για περισσότερες πληροφορίες, ανατρέξτε στο Τερματίστε το Data Wrangler.

Για πληροφορίες σχετικά με τον αυτόματο τερματισμό των πόρων του Data Wrangler, ανατρέξτε στο Εξοικονομήστε κόστος κλείνοντας αυτόματα τους αδρανούς πόρους στο Amazon SageMaker Studio.

εξαγωγή

Όταν εξάγετε τη ροή ή τους μετασχηματισμούς του Data Wrangler, μπορείτε να χρησιμοποιήσετε ετικέτες κατανομής κόστους για να οργανώσετε και να διαχειριστείτε το κόστος αυτών των πόρων. Δημιουργείτε αυτές τις ετικέτες για το προφίλ χρήστη σας και το Data Wrangler τις εφαρμόζει αυτόματα στους πόρους που χρησιμοποιούνται για την εξαγωγή της ροής δεδομένων. Για περισσότερες πληροφορίες, βλ Χρήση ετικετών κατανομής κόστους.

Τιμοκατάλογος

Η τιμολόγηση του Data Wrangler έχει τρία στοιχεία: Παρουσίες Data Wrangler, εργασίες Data Wrangler και αποθήκευση ML. Μπορείτε να εκτελέσετε όλα τα βήματα για την EDA ή την προετοιμασία δεδομένων στο Data Wrangler και πληρώνετε για την τιμολόγηση παρουσίας, θέσεων εργασίας και αποθήκευσης με βάση τη χρήση ή την κατανάλωση, χωρίς προκαταβολές ή χρεώσεις άδειας χρήσης. Για περισσότερες πληροφορίες, ανατρέξτε στο Τιμολόγηση κατ' απαίτηση.

Συμπέρασμα

Σε αυτήν την ανάρτηση, εξετάσαμε διάφορες πτυχές κόστους του EDA και της προετοιμασίας δεδομένων για να ανακαλύψουμε πώς το πλούσιο σε χαρακτηριστικά και ενσωματωμένο Data Wrangler μειώνει τον χρόνο που χρειάζεται για τη συγκέντρωση και την προετοιμασία δεδομένων για περιπτώσεις χρήσης ML από εβδομάδες σε λεπτά, διευκολύνοντας έτσι την οικονομικά αποδοτική προετοιμασία δεδομένων για ML. Επιθεωρήσαμε επίσης τα στοιχεία τιμολόγησης του Data Wrangler και τις βέλτιστες πρακτικές για βελτιστοποίηση κόστους κατά τη χρήση του Data Wrangler για τις απαιτήσεις προετοιμασίας δεδομένων ML.

Για περισσότερες πληροφορίες, ανατρέξτε στους ακόλουθους πόρους:


Σχετικά με τους Συγγραφείς

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Rajakumar Sampathkumar είναι Κύριος Τεχνικός Διευθυντής Λογαριασμού στην AWS, παρέχοντας καθοδήγηση πελατών σχετικά με την ευθυγράμμιση επιχειρηματικής τεχνολογίας και υποστηρίζοντας την επανεφεύρεση των μοντέλων και διαδικασιών λειτουργίας cloud. Είναι παθιασμένος με το cloud και τη μηχανική μάθηση. Ο Raj είναι επίσης ειδικός στη μηχανική εκμάθηση και συνεργάζεται με πελάτες AWS για το σχεδιασμό, την ανάπτυξη και τη διαχείριση του φόρτου εργασίας και των αρχιτεκτονικών τους AWS.

Οικονομική προετοιμασία δεδομένων για μηχανική εκμάθηση χρησιμοποιώντας το SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ραχούλ Ναμπέρα είναι Σύμβουλος Data Analytics στην AWS Professional Services. Η τρέχουσα δουλειά του επικεντρώνεται στο να δίνει τη δυνατότητα στους πελάτες να δημιουργούν τα δεδομένα τους και τους φόρτους εργασίας μηχανικής εκμάθησης στο AWS. Στον ελεύθερο χρόνο του, του αρέσει να παίζει κρίκετ και βόλεϊ.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS