Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler μειώνει τον χρόνο συγκέντρωσης και προετοιμασίας δεδομένων για μηχανική εκμάθηση (ML) από εβδομάδες σε λεπτά Στούντιο Amazon SageMaker. Το Data Wrangler μπορεί να απλοποιήσει την προετοιμασία των δεδομένων σας και τις διαδικασίες μηχανικής και να σας βοηθήσει με την επιλογή, τον καθαρισμό, την εξερεύνηση και την οπτικοποίηση δεδομένων. Το Data Wrangler έχει πάνω από 300 ενσωματωμένους μετασχηματισμούς γραμμένους στο PySpark, ώστε να μπορείτε να επεξεργάζεστε σύνολα δεδομένων έως και εκατοντάδες gigabyte αποτελεσματικά στην προεπιλεγμένη παρουσία, ml.m5.4xlarge.

Ωστόσο, όταν εργάζεστε με σύνολα δεδομένων έως και terabyte δεδομένων χρησιμοποιώντας ενσωματωμένους μετασχηματισμούς, ενδέχεται να αντιμετωπίσετε μεγαλύτερο χρόνο επεξεργασίας ή πιθανά σφάλματα εκτός μνήμης. Με βάση τις απαιτήσεις δεδομένων σας, μπορείτε πλέον να χρησιμοποιήσετε πρόσθετα Amazon Elastic Compute Cloud (Amazon EC2) Στιγμιότυπα M5 και Περιπτώσεις R5. Για παράδειγμα, μπορείτε να ξεκινήσετε με μια προεπιλεγμένη παρουσία (ml.m5.4xlarge) και στη συνέχεια να μεταβείτε σε ml.m5.24xlarge ή ml.r5.24xlarge. Έχετε την επιλογή να επιλέξετε διαφορετικούς τύπους παρουσιών και να βρείτε την καλύτερη αντιστάθμιση του κόστους λειτουργίας και των χρόνων επεξεργασίας. Την επόμενη φορά που θα εργάζεστε στον μετασχηματισμό χρονοσειρών και θα εκτελείτε βαρείς μετασχηματιστές για να εξισορροπήσετε τα δεδομένα σας, μπορείτε να προσαρμόσετε το σωστό μέγεθος της παρουσίας του Data Wrangler για να εκτελέσετε αυτές τις διεργασίες πιο γρήγορα.

Όταν επεξεργάζεστε δεκάδες gigabyte ή ακόμα περισσότερα με έναν προσαρμοσμένο μετασχηματισμό Panda, ενδέχεται να αντιμετωπίσετε σφάλματα εκτός μνήμης. Μπορείτε να αλλάξετε από την προεπιλεγμένη παρουσία (ml.m5.4xlarge) σε ml.m5.24xlarge και ο μετασχηματισμός θα ολοκληρωθεί χωρίς σφάλματα. Συγκρίναμε διεξοδικά και παρατηρήσαμε γραμμική επιτάχυνση καθώς αυξήσαμε το μέγεθος του στιγμιότυπου σε ένα χαρτοφυλάκιο συνόλων δεδομένων.

Σε αυτήν την ανάρτηση, μοιραζόμαστε τα ευρήματά μας από δύο δοκιμές αναφοράς για να δείξουμε πώς μπορείτε να επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Data Wrangler.

Δοκιμές αναφοράς δεδομένων Wrangler

Ας αναθεωρήσουμε δύο δοκιμές που εκτελέσαμε, τα ερωτήματα συνάθροισης και την κωδικοποίηση μιας άμεσης χρήσης, με διαφορετικούς τύπους παρουσιών που χρησιμοποιούν ενσωματωμένους μετασχηματιστές PySpark και προσαρμοσμένους μετασχηματισμούς Panda. Οι μετασχηματισμοί που δεν απαιτούν συνάθροιση ολοκληρώνονται γρήγορα και λειτουργούν καλά με τον προεπιλεγμένο τύπο παρουσίας, επομένως εστιάσαμε στα ερωτήματα συνάθροισης και στους μετασχηματισμούς με συγκέντρωση. Αποθηκεύσαμε το δοκιμαστικό μας σύνολο Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3). Το διευρυμένο μέγεθος αυτού του συνόλου δεδομένων είναι περίπου 100 GB με 80 εκατομμύρια σειρές και 300 στήλες. Χρησιμοποιήσαμε μετρήσεις διεπαφής χρήστη για τη χρονική συγκριτική αξιολόγηση και τη μέτρηση του λανθάνοντος χρόνου που αντιμετωπίζει ο πελάτης από άκρο σε άκρο. Κατά την εισαγωγή του δοκιμαστικού μας συνόλου, απενεργοποιήσαμε τη δειγματοληψία. Η δειγματοληψία είναι ενεργοποιημένη από προεπιλογή και το Data Wrangler επεξεργάζεται μόνο τις πρώτες 100 σειρές όταν είναι ενεργοποιημένο.x

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Καθώς αυξήσαμε το μέγεθος της παρουσίας του Data Wrangler, παρατηρήσαμε μια περίπου γραμμική επιτάχυνση των ενσωματωμένων μετασχηματισμών του Data Wrangler και του προσαρμοσμένου Spark SQL. Οι δοκιμές ερωτημάτων συνάθροισης Panda ολοκληρώθηκαν μόνο όταν χρησιμοποιούσαμε παρουσίες μεγαλύτερες από ml.m5.16xl και τα Panda χρειάζονταν 180 GB μνήμης για την επεξεργασία ερωτημάτων συγκέντρωσης για αυτό το σύνολο δεδομένων.

Ο παρακάτω πίνακας συνοψίζει τα αποτελέσματα της δοκιμής ερωτήματος συνάθροισης.

Παράδειγμα vCPU Μνήμη (GiB) Ενσωματωμένος χρόνος μετατροπής Spark Data Wrangler Ώρα των Πάντα
(Προσαρμοσμένος μετασχηματισμός)
ml.m5.4xl 16 64 229 δευτερόλεπτα Έξω από τη μνήμη
ml.m5.8xl 32 128 130 δευτερόλεπτα Έξω από τη μνήμη
ml.m5.16xl 64 256 52 δευτερόλεπτα 30 λεπτά

Ο ακόλουθος πίνακας συνοψίζει τα αποτελέσματα της δοκιμής κωδικοποίησης μίας συντομίας.

Παράδειγμα vCPU Μνήμη (GiB) Ενσωματωμένος χρόνος μετατροπής Spark Data Wrangler Ώρα των Πάντα
(Προσαρμοσμένος μετασχηματισμός)
ml.m5.4xl 16 64 228 δευτερόλεπτα Έξω από τη μνήμη
ml.m5.8xl 32 128 130 δευτερόλεπτα Έξω από τη μνήμη
ml.m5.16xl 64 256 52 δευτερόλεπτα Έξω από τη μνήμη

Αλλάξτε τον τύπο παρουσίας μιας ροής δεδομένων

Για να αλλάξετε τον τύπο παρουσίας της ροής σας, ολοκληρώστε τα ακόλουθα βήματα:

  1. Στην κονσόλα Amazon SageMaker Data Wrangler, μεταβείτε στη ροή δεδομένων που χρησιμοποιείτε αυτήν τη στιγμή.
  2. Επιλέξτε τον τύπο παρουσίας στη γραμμή πλοήγησης.
    Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Επιλέξτε τον τύπο παρουσίας που θέλετε να χρησιμοποιήσετε.
  4. Επιλέξτε Αποθήκευση.
    Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εμφανίζεται ένα μήνυμα προόδου.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Όταν ολοκληρωθεί η αλλαγή, εμφανίζεται ένα μήνυμα επιτυχίας.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το Data Wrangler χρησιμοποιεί τον επιλεγμένο τύπο παρουσίας για ανάλυση δεδομένων και μετασχηματισμούς δεδομένων. Η προεπιλεγμένη παρουσία και η παρουσία στην οποία αλλάξατε (ml.m5.16xlarge) εκτελούνται και οι δύο. Μπορείτε να αλλάξετε τον τύπο παρουσίας ή να επιστρέψετε στην προεπιλεγμένη παρουσία πριν εκτελέσετε έναν συγκεκριμένο μετασχηματισμό.

Τερματίστε τις αχρησιμοποίητες παρουσίες

Χρεώνεστε για όλες τις περιπτώσεις που εκτελούνται. Για να αποφύγετε την επιβολή πρόσθετων χρεώσεων, κλείστε τις περιπτώσεις που δεν χρησιμοποιείτε με μη αυτόματο τρόπο. Για να τερματίσετε μια παρουσία που εκτελείται, ολοκληρώστε τα ακόλουθα βήματα:

  1. Στη σελίδα ροής δεδομένων, επιλέξτε το εικονίδιο παρουσίας στο αριστερό τμήμα του UI κάτω από Εκτελούμενες περιπτώσεις.
    Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Επιλέξτε τερματίστε.

Εάν τερματίσετε μια παρουσία που χρησιμοποιείται για την εκτέλεση μιας ροής, δεν μπορείτε να αποκτήσετε προσωρινή πρόσβαση στη ροή. Εάν λάβετε ένα σφάλμα κατά το άνοιγμα της ροής που εκτελείται σε μια περίπτωση που είχατε κλείσει προηγουμένως, περιμένετε περίπου 5 λεπτά και προσπαθήστε να την ανοίξετε ξανά.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς να επεξεργάζεστε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Data Wrangler, αλλάζοντας παρουσίες σε μεγαλύτερους τύπους παρουσιών M5 ή R5. Στιγμιότυπα M5 προσφέρουν μια ισορροπία πόρων υπολογισμού, μνήμης και δικτύωσης. Περιπτώσεις R5 είναι περιπτώσεις βελτιστοποιημένες για τη μνήμη. Τόσο το M5 όσο και το R5 παρέχουν τύπους περιπτώσεων για τη βελτιστοποίηση του κόστους και της απόδοσης για τον φόρτο εργασίας σας.

Για να μάθετε περισσότερα σχετικά με τη χρήση ροών δεδομένων με το Data Wrangler, ανατρέξτε στο Δημιουργήστε και χρησιμοποιήστε μια ροή δεδομένων Wrangler και Τιμολόγηση του Amazon SageMaker. Για να ξεκινήσετε με το Data Wrangler, βλ Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler.


Σχετικά με τους Συγγραφείς

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Haider Naqvi είναι αρχιτέκτονας λύσεων στην AWS. Διαθέτει εκτενή εμπειρία ανάπτυξης λογισμικού και αρχιτεκτονικής επιχειρήσεων. Επικεντρώνεται στο να δίνει τη δυνατότητα στους πελάτες να επιτύχουν επιχειρηματικά αποτελέσματα με το AWS. Έχει έδρα εκτός Νέας Υόρκης.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Huong Nguyen είναι Sr. Product Manager στην AWS. Πρωτοστατεί στην ενσωμάτωση του οικοσυστήματος δεδομένων για το SageMaker, με 14 χρόνια εμπειρίας στην κατασκευή προϊόντων με επίκεντρο τον πελάτη και δεδομένα για επιχειρήσεις και καταναλωτικούς χώρους.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Meenakshisundaram Thandavarayan είναι Ανώτερος ειδικός AI/ML με AWS. Βοηθά στρατηγικούς λογαριασμούς υψηλής τεχνολογίας στο ταξίδι τους σε AI και ML. Είναι πολύ παθιασμένος με την τεχνητή νοημοσύνη που βασίζεται σε δεδομένα.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Sriharsha M Sr είναι Αρχιτέκτονας Specialist Solutions AI/ML στην ομάδα Strategic Specialist της Amazon Web Services. Συνεργάζεται με στρατηγικούς πελάτες AWS που εκμεταλλεύονται το AI/ML για την επίλυση σύνθετων επιχειρηματικών προβλημάτων. Παρέχει τεχνική καθοδήγηση και συμβουλές σχεδιασμού για την εφαρμογή εφαρμογών AI/ML σε κλίμακα. Η τεχνογνωσία του καλύπτει την αρχιτεκτονική εφαρμογών, τα μεγάλα δεδομένα, την ανάλυση και τη μηχανική μάθηση.

Επεξεργαστείτε μεγαλύτερα και ευρύτερα σύνολα δεδομένων με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Νικήτα Ίβκιν είναι Εφαρμοσμένος Επιστήμονας, Amazon SageMaker Data Wrangler.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS