Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Παρουσιάζουμε τις νέες ενσωματωμένες απεικονίσεις του Amazon SageMaker Data Wrangler

Η μη αυτόματη επιθεώρηση της ποιότητας των δεδομένων και ο καθαρισμός των δεδομένων είναι μια επίπονη και χρονοβόρα διαδικασία που μπορεί να πάρει ένα τεράστιο κομμάτι του χρόνου ενός επιστήμονα δεδομένων σε ένα έργο. Σύμφωνα με έρευνα του 2020 με επιστήμονες δεδομένων που διεξήχθη από την Anaconda, οι επιστήμονες δεδομένων ξοδεύουν περίπου το 66% του χρόνου τους σε εργασίες προετοιμασίας και ανάλυσης δεδομένων, συμπεριλαμβανομένης της φόρτωσης (19%), του καθαρισμού (26%) και της οπτικοποίησης δεδομένων (21%). Amazon Sage Maker προσφέρει μια σειρά από εργαλεία προετοιμασίας δεδομένων για την κάλυψη διαφορετικών αναγκών και προτιμήσεων των πελατών. Για χρήστες που προτιμούν μια διαδραστική διεπαφή βασισμένη σε GUI, SageMaker Data Wrangler προσφέρει 300+ ενσωματωμένες απεικονίσεις, αναλύσεις και μετασχηματισμούς για την αποτελεσματική επεξεργασία δεδομένων που υποστηρίζονται από το Spark χωρίς να γράψετε ούτε μια γραμμή κώδικα.

Η οπτικοποίηση δεδομένων στη μηχανική μάθηση (ML) είναι μια επαναληπτική διαδικασία και απαιτεί συνεχή οπτικοποίηση του συνόλου δεδομένων για ανακάλυψη, διερεύνηση και επικύρωση. Η τοποθέτηση των δεδομένων σε προοπτική συνεπάγεται την προβολή καθεμιάς από τις στήλες για την κατανόηση πιθανών σφαλμάτων δεδομένων, τιμών που λείπουν, λανθασμένους τύπους δεδομένων, παραπλανητικών/λανθασμένων δεδομένων, ακραίων δεδομένων και πολλά άλλα.

Σε αυτήν την ανάρτηση, θα σας δείξουμε πώς Amazon SageMaker Data Wrangler δημιουργεί αυτόματα βασικές απεικονίσεις της διανομής δεδομένων, εντοπίζει ζητήματα ποιότητας δεδομένων και εμφανίζει πληροφορίες δεδομένων, όπως ακραίες τιμές για κάθε χαρακτηριστικό, χωρίς να γράψει ούτε μια γραμμή κώδικα. Βοηθά στη βελτίωση της εμπειρίας του πλέγματος δεδομένων με αυτόματες προειδοποιήσεις ποιότητας (για παράδειγμα, τιμές που λείπουν ή μη έγκυρες τιμές). Οι οπτικοποιήσεις που δημιουργούνται αυτόματα είναι επίσης διαδραστικές. Για παράδειγμα, μπορείτε να εμφανίσετε έναν πίνακα με τα πέντε κορυφαία πιο συχνά στοιχεία ταξινομημένα κατά ποσοστό και να τοποθετήσετε το δείκτη του ποντικιού πάνω από τη γραμμή για εναλλαγή μεταξύ μέτρησης και ποσοστού.

Προϋποθέσεις

Το Amazon SageMaker Data Wrangler είναι μια δυνατότητα SageMaker που διατίθεται στο SageMaker Studio. Μπορείτε να ακολουθήσετε τη διαδικασία ενσωμάτωσης στο Studio για να αναβαθμίσετε το περιβάλλον Studio και τα σημειωματάρια. Αν και μπορείτε να επιλέξετε από μερικές μεθόδους ελέγχου ταυτότητας, ο απλούστερος τρόπος για να δημιουργήσετε έναν τομέα Studio είναι να ακολουθήσετε το Οδηγίες γρήγορης εκκίνησης. Η Γρήγορη εκκίνηση χρησιμοποιεί τις ίδιες προεπιλεγμένες ρυθμίσεις με την τυπική εγκατάσταση του Studio. Μπορείτε επίσης να επιλέξετε να επιβιβαστείτε χρησιμοποιώντας Κέντρο Ταυτότητας AWS Identity and Access Management (IAM). (διάδοχος του AWS Single Sign-On) για έλεγχο ταυτότητας (βλ Ενσωματωθείτε στον τομέα Amazon SageMaker με χρήση του Κέντρου Ταυτότητας IAM).

Λύση Walkthrough

Ξεκινήστε το SageMaker Στούντιο Περιβάλλον και δημιουργήστε ένα νέο Ροή δεδομένων Wrangler. Μπορείτε είτε να εισαγάγετε το δικό σας σύνολο δεδομένων είτε να χρησιμοποιήσετε ένα δείγμα δεδομένων (Τιτανικός) όπως φαίνεται στην παρακάτω εικόνα. Αυτοί οι δύο κόμβοι (οι πηγή κόμβος και το ημερομηνία type node) μπορούν να κάνουν κλικ – όταν κάνετε διπλό κλικ σε αυτούς τους δύο κόμβους, το Data Wrangler θα εμφανίσει τον πίνακα.

Στην περίπτωσή μας, ας κάνουμε δεξί κλικ στο Τύποι δεδομένων εικονίδιο και Προσθέστε έναν μετασχηματισμό:

Θα πρέπει τώρα να βλέπετε απεικονίσεις στο επάνω μέρος κάθε στήλης. Αφήστε λίγο χρόνο για να φορτωθούν τα γραφήματα. Η καθυστέρηση εξαρτάται από το μέγεθος του συνόλου δεδομένων (για το σύνολο δεδομένων Titanic, θα πρέπει να διαρκέσει 1-2 δευτερόλεπτα στην προεπιλεγμένη εμφάνιση).

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Κάντε κύλιση στην οριζόντια επάνω γραμμή τοποθετώντας το δείκτη του ποντικιού πάνω από την επεξήγηση εργαλείου. Τώρα που φορτώθηκαν τα γραφήματα, μπορείτε να δείτε τη διανομή δεδομένων, τις μη έγκυρες τιμές και τις τιμές που λείπουν. Οι ακραίες τιμές και οι τιμές που λείπουν είναι χαρακτηριστικά λανθασμένων δεδομένων και είναι σημαντικό να τα προσδιορίσετε επειδή θα μπορούσαν να επηρεάσουν τα αποτελέσματά σας. Αυτό σημαίνει ότι επειδή τα δεδομένα σας προέρχονται από ένα μη αντιπροσωπευτικό δείγμα, τα ευρήματά σας ενδέχεται να μην μπορούν να γενικευθούν σε καταστάσεις εκτός της μελέτης σας. Η ταξινόμηση των τιμών φαίνεται στα γραφήματα στο κάτω μέρος όπου έγκυρος οι τιμές αντιπροσωπεύονται με λευκό, Μη έγκυρο τιμές σε μπλε, και Λείπει τιμές σε μωβ. Μπορείτε επίσης να δείτε το υπερβολικά υψηλά απεικονίζεται από τις μπλε κουκκίδες αριστερά ή δεξιά ενός γραφήματος.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Όλες οι απεικονίσεις έρχονται με τη μορφή ιστογραμμάτων. Για μη κατηγορικά δεδομένα, ορίζεται ένα σύνολο κάδου για κάθε κάδο. Για τα κατηγορικά δεδομένα, κάθε μοναδική τιμή αντιμετωπίζεται ως bin. Πάνω από το ιστόγραμμα, υπάρχει ένα γράφημα ράβδων που σας δείχνει τις μη έγκυρες τιμές και τις τιμές που λείπουν. Μπορούμε να δούμε την αναλογία έγκυρων τιμών για τους τύπους Numeric, Categorical, Binary, Text και Datetime, καθώς και την αναλογία των τιμών που λείπουν με βάση τα συνολικά μηδενικά και άδεια κελιά και, τέλος, την αναλογία μη έγκυρων τιμών. Ας δούμε μερικά παραδείγματα για να καταλάβουμε πώς μπορείτε να τα δείτε χρησιμοποιώντας αυτά Το προφορτωμένο δείγμα Titanic Data Wrangler του Data Wrangler.

Παράδειγμα 1 – Μπορούμε να δούμε τις τιμές 20% που λείπουν για το ΗΛΙΚΊΑ χαρακτηριστικό/στήλη. Είναι ζωτικής σημασίας να αντιμετωπίζετε δεδομένα που λείπουν στον τομέα της έρευνας που σχετίζεται με δεδομένα/ML, είτε αφαιρώντας τα είτε καταλογίζοντάς τα (χειρισμός των τιμών που λείπουν με κάποια εκτίμηση).

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Μπορείτε να επεξεργαστείτε τις τιμές που λείπουν χρησιμοποιώντας το Χειριστείτε τιμές που λείπουν μετασχηματίσει ομάδα. Χρησιμοποιήστε το Υπολογισμός λείπει μετασχηματισμός για τη δημιουργία τεκμαρτών τιμών όπου βρέθηκαν τιμές που λείπουν στη στήλη εισαγωγής. Η διαμόρφωση εξαρτάται από τον τύπο των δεδομένων σας.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Σε αυτό το παράδειγμα, το ΗΛΙΚΊΑ στήλη έχει αριθμητικό τύπο δεδομένων. Για την καταλογιστική στρατηγική, μπορούμε να επιλέξουμε να καταλογίσουμε το εννοώ ή η κατά προσέγγιση διάμεσος πάνω από τις τιμές που υπάρχουν στο σύνολο δεδομένων σας.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τώρα που προσθέσαμε τον μετασχηματισμό, μπορούμε να δούμε ότι το ΗΛΙΚΊΑ στήλη δεν έχει πλέον τιμές που λείπουν.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Παράδειγμα 2 – Μπορούμε να δούμε τις μη έγκυρες τιμές 27% για το ΕΙΣΙΤΗΡΙΟ χαρακτηριστικό/στήλη που είναι του STRING τύπος. Τα μη έγκυρα δεδομένα μπορούν να παράγουν μεροληπτικές εκτιμήσεις, οι οποίες μπορεί να μειώσουν την ακρίβεια ενός μοντέλου και να οδηγήσουν σε ψευδή συμπεράσματα. Ας εξερευνήσουμε ορισμένους μετασχηματισμούς που μπορούμε να χρησιμοποιήσουμε για να χειριστούμε τα μη έγκυρα δεδομένα στο ΕΙΣΙΤΗΡΙΟ στήλη.

Κοιτάζοντας το στιγμιότυπο οθόνης, βλέπουμε ότι ορισμένες από τις εισόδους είναι γραμμένες σε μια μορφή που περιέχει αλφάβητα πριν από αριθμούς "PC 17318" και άλλα είναι απλώς αριθμοί όπως "11769".

Μπορούμε να επιλέξουμε να εφαρμόσουμε έναν μετασχηματισμό για να αναζητήσουμε και να επεξεργαστούμε συγκεκριμένα μοτίβα μέσα σε συμβολοσειρές όπως "Η/Υ» και αντικαταστήστε τα. Στη συνέχεια, μπορούμε να ρίξουμε το δικό μας κορδόνι στήλη σε έναν νέο τύπο όπως Μακριά για ευκολία στη χρήση.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αυτό εξακολουθεί να μας αφήνει με 19% τιμές που λείπουν στο ΕΙΣΙΤΗΡΙΟ χαρακτηριστικό. Παρόμοια με το παράδειγμα 1, μπορούμε τώρα να υπολογίσουμε τις τιμές που λείπουν χρησιμοποιώντας τη μέση ή την κατά προσέγγιση διάμεσο. Το χαρακτηριστικό ΕΙΣΙΤΗΡΙΟ δεν θα πρέπει πλέον να έχει μη έγκυρες τιμές ή τιμές που λείπουν σύμφωνα με την παρακάτω εικόνα.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Για να βεβαιωθείτε ότι δεν θα επιβαρυνθείτε με χρεώσεις αφού ακολουθήσετε αυτόν τον οδηγό, βεβαιωθείτε ότι έχετε τερματίστε την εφαρμογή Data Wrangler.

Συμπέρασμα 

Σε αυτή την ανάρτηση, παρουσιάσαμε το νέο Amazon Sagemaker Data Wrangler widget που θα σας βοηθήσει να αφαιρέσετε το αδιαφοροποίητη άρση βαρέων βαρών για τελικούς χρήστες κατά την προετοιμασία δεδομένων με οπτικοποιήσεις που εμφανίζονται αυτόματα στην επιφάνεια και πληροφορίες προφίλ δεδομένων για κάθε χαρακτηριστικό. Αυτό το γραφικό στοιχείο διευκολύνει την οπτικοποίηση δεδομένων (για παράδειγμα, κατηγορικό/μη κατηγορηματικό ιστόγραμμα), τον εντοπισμό προβλημάτων ποιότητας δεδομένων (για παράδειγμα, τιμές που λείπουν και μη έγκυρες τιμές) και τις πληροφορίες επιφανειών δεδομένων (για παράδειγμα, ακραίες τιμές και κορυφαίο N στοιχείο).

Μπορείτε να αρχίσετε να χρησιμοποιείτε αυτήν τη δυνατότητα σήμερα σε όλες τις περιοχές όπου είναι διαθέσιμο το SageMaker Studio. Δοκίμασε το, και πείτε μας τη γνώμη σας. Ανυπομονούμε πάντα για τα σχόλιά σας, είτε μέσω των συνηθισμένων επαφών υποστήριξης AWS, είτε μέσω του Φόρουμ AWS για το SageMaker.


Σχετικά με τους Συγγραφείς

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Isha Dua είναι Senior Solutions Architect με έδρα την περιοχή του κόλπου του Σαν Φρανσίσκο. Βοηθά τους πελάτες της AWS Enterprise να αναπτυχθούν κατανοώντας τους στόχους και τις προκλήσεις τους, και τους καθοδηγεί για το πώς μπορούν να αρχιτεκτονήσουν τις εφαρμογές τους με τρόπο που είναι εγγενής στο cloud, διασφαλίζοντας ταυτόχρονα ότι είναι ανθεκτικές και επεκτάσιμες. Είναι παθιασμένη με τις τεχνολογίες μηχανικής μάθησης και την περιβαλλοντική βιωσιμότητα.

Παρουσιάζουμε τις νέες ενσωματωμένες οπτικοποιήσεις του Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Parth Patel είναι αρχιτέκτονας λύσεων στο AWS στην περιοχή του κόλπου του Σαν Φρανσίσκο. Το Parth καθοδηγεί τους πελάτες να επιταχύνουν το ταξίδι τους στο cloud και τους βοηθά να υιοθετήσουν το AWS Cloud με επιτυχία. Επικεντρώνεται στην ML και στον εκσυγχρονισμό εφαρμογών.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS