Amazon SageMaker Data Wrangler είναι ένα ειδικά σχεδιασμένο εργαλείο συγκέντρωσης και προετοιμασίας δεδομένων για μηχανική μάθηση (ML). Σας επιτρέπει να χρησιμοποιείτε μια οπτική διεπαφή για να έχετε πρόσβαση σε δεδομένα και να εκτελείτε διερευνητική ανάλυση δεδομένων (EDA) και μηχανική χαρακτηριστικών. Η δυνατότητα EDA συνοδεύεται από ενσωματωμένες δυνατότητες ανάλυσης δεδομένων για γραφήματα (όπως διάγραμμα διασποράς ή ιστόγραμμα) και δυνατότητες ανάλυσης μοντέλου που εξοικονομούν χρόνο, όπως σημασία χαρακτηριστικών, διαρροή στόχου και επεξήγηση μοντέλου. Η δυνατότητα μηχανικής χαρακτηριστικών έχει πάνω από 300 ενσωματωμένους μετασχηματισμούς και μπορεί να εκτελέσει προσαρμοσμένους μετασχηματισμούς χρησιμοποιώντας είτε Python, PySpark ή Spark SQL runtime.
Για προσαρμοσμένες απεικονίσεις και μετασχηματισμούς, το Data Wrangler παρέχει τώρα παραδείγματα αποσπασμάτων κώδικα για κοινούς τύπους απεικονίσεων και μετασχηματισμών. Σε αυτήν την ανάρτηση, δείχνουμε πώς να χρησιμοποιείτε αυτά τα αποσπάσματα κώδικα για γρήγορη εκκίνηση του EDA στο Data Wrangler.
Επισκόπηση λύσεων
Τη στιγμή της σύνταξης αυτού του άρθρου, μπορείτε να εισαγάγετε σύνολα δεδομένων στο Data Wrangler από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, Databricks και Snowflake. Για αυτήν την ανάρτηση, χρησιμοποιούμε το Amazon S3 για την αποθήκευση του Amazon 2014 σύνολο δεδομένων αξιολογήσεων. Το παρακάτω είναι ένα δείγμα του συνόλου δεδομένων:
Σε αυτήν την ανάρτηση, εκτελούμε EDA χρησιμοποιώντας τρεις στήλες—asin
, reviewTime
, να overall
—η οποία αντιστοιχίζεται στο αναγνωριστικό προϊόντος, την ημερομηνία ώρας ελέγχου και τη συνολική βαθμολογία αξιολόγησης, αντίστοιχα. Χρησιμοποιούμε αυτά τα δεδομένα για να απεικονίσουμε τη δυναμική για τον αριθμό των κριτικών ανά μήνες και χρόνια.
Χρήση παραδείγματος Code Snippet για EDA στο Data Wrangler
Για να ξεκινήσετε την εκτέλεση EDA στο Data Wrangler, ολοκληρώστε τα παρακάτω βήματα:
- Κατεβάστε το Σύνολο κριτικών ψηφιακής μουσικής JSON και ανεβάστε το στο Amazon S3.
Το χρησιμοποιούμε ως ακατέργαστο σύνολο δεδομένων για το EDA. - Ανοικτό Στούντιο Amazon SageMaker και δημιουργήστε μια νέα ροή δεδομένων Wrangler και εισαγάγετε το σύνολο δεδομένων από το Amazon S3.
Αυτό το σύνολο δεδομένων έχει εννέα στήλες, αλλά χρησιμοποιούμε μόνο τρεις:
asin
,reviewTime
, ναoverall
. Πρέπει να ρίξουμε τις άλλες έξι στήλες. - Δημιουργήστε έναν προσαρμοσμένο μετασχηματισμό και επιλέξτε Python (Pyspark).
- Ανάπτυξη Αναζήτηση αποσπασμάτων παραδειγμάτων Και επιλέξτε Απόθεση όλων των στηλών εκτός από αρκετές.
- Εισαγάγετε το παρεχόμενο απόσπασμα στον προσαρμοσμένο μετασχηματισμό σας και ακολουθήστε τις οδηγίες για να τροποποιήσετε τον κώδικα.
Τώρα που έχουμε όλες τις στήλες που χρειαζόμαστε, ας φιλτράρουμε τα δεδομένα για να κρατάμε κριτικές μόνο μεταξύ 2000–2020.
- Χρησιμοποιήστε το Φιλτράρετε τη χρονική σήμανση εκτός εύρους απόσπασμα για την απόρριψη των δεδομένων πριν από το έτος 2000 και μετά το 2020:
Στη συνέχεια, εξάγουμε το έτος και τον μήνα από τη στήλη ReviewTime.
- Χρησιμοποιήστε το Προβολή ημερομηνίας/ώρας μεταμορφώνω.
- Για Εξαγωγή στηλών, επιλέξτε έτος και μήνας.
Στη συνέχεια, θέλουμε να συγκεντρώσουμε τον αριθμό των κριτικών ανά έτος και μήνα που δημιουργήσαμε στο προηγούμενο βήμα.
- Χρησιμοποιήστε το Υπολογίστε στατιστικά σε ομάδες απόσπασμα:
- Μετονομάστε τη συνάθροιση του προηγούμενου βήματος από
count(overall)
προς τηνreviews_num
Επιλέγοντας Διαχείριση στηλών και την Μετονομασία στήλης μεταμορφώνω.
Τέλος, θέλουμε να δημιουργήσουμε έναν χάρτη θερμότητας για να οπτικοποιήσουμε τη διανομή των κριτικών ανά έτος και ανά μήνα. - Στην καρτέλα ανάλυση, επιλέξτε Προσαρμοσμένη οπτικοποίηση.
- Ανάπτυξη Αναζήτηση για απόσπασμα Και επιλέξτε Heatmap στο αναπτυσσόμενο μενού.
- Εισαγάγετε το παρεχόμενο απόσπασμα στην προσαρμοσμένη οπτικοποίηση:
Λαμβάνουμε την ακόλουθη οπτικοποίηση.
Εάν θέλετε να βελτιώσετε περαιτέρω τον χάρτη θερμότητας, μπορείτε να κόψετε τα δεδομένα για να εμφανίζονται μόνο κριτικές πριν από το 2011. Είναι δύσκολο να εντοπιστούν στον χάρτη θερμότητας που μόλις δημιουργήσαμε λόγω του μεγάλου όγκου κριτικών από το 2012. - Προσθέστε μία γραμμή κώδικα στην προσαρμοσμένη οπτικοποίηση:
Παίρνουμε τον παρακάτω θερμικό χάρτη.
Τώρα ο χάρτης θερμότητας αντικατοπτρίζει πιο ορατά τις ανασκοπήσεις πριν από το 2011: μπορούμε να παρατηρήσουμε τις εποχιακές επιπτώσεις (το τέλος του έτους φέρνει περισσότερες αγορές και επομένως περισσότερες κριτικές) και μπορούμε να εντοπίσουμε ανώμαλους μήνες, όπως τον Οκτώβριο του 2003 και τον Μάρτιο του 2005. Αξίζει να το διερευνήσουμε περαιτέρω για τον προσδιορισμό της αιτίας αυτών των ανωμαλιών.
Συμπέρασμα
Το Data Wrangler είναι ένα ειδικά σχεδιασμένο εργαλείο συγκέντρωσης και προετοιμασίας δεδομένων για ML. Σε αυτήν την ανάρτηση, δείξαμε πώς να εκτελείτε EDA και να μεταμορφώνετε γρήγορα τα δεδομένα σας χρησιμοποιώντας αποσπάσματα κώδικα που παρέχονται από το Data Wrangler. Απλώς πρέπει να βρείτε ένα απόσπασμα, να εισαγάγετε τον κώδικα και να προσαρμόσετε τις παραμέτρους ώστε να ταιριάζουν με το σύνολο δεδομένων σας. Μπορείτε να συνεχίσετε να επαναλαμβάνετε το σενάριό σας για να δημιουργήσετε πιο σύνθετες απεικονίσεις και μετασχηματισμούς.
Για να μάθετε περισσότερα σχετικά με το Data Wrangler, ανατρέξτε στο Δημιουργήστε και χρησιμοποιήστε μια ροή δεδομένων Wrangler.
Σχετικά με τους Συγγραφείς
Νικήτα Ίβκιν είναι Εφαρμοσμένος Επιστήμονας, Amazon SageMaker Data Wrangler.
Haider Naqvi είναι αρχιτέκτονας λύσεων στην AWS. Διαθέτει εκτενή εμπειρία ανάπτυξης λογισμικού και αρχιτεκτονικής επιχειρήσεων. Επικεντρώνεται στο να δίνει τη δυνατότητα στους πελάτες να επιτύχουν επιχειρηματικά αποτελέσματα με το AWS. Έχει έδρα εκτός Νέας Υόρκης.
Harish Rajagopalan είναι Senior Solutions Architect στο Amazon Web Services. Ο Harish συνεργάζεται με εταιρικούς πελάτες και τους βοηθά στο ταξίδι τους στο cloud.
Τζέιμς Γου είναι Senior AI/ML Specialist SA στην AWS. Συνεργάζεται με πελάτες για να επιταχύνει το ταξίδι τους στο cloud και να παρακολουθήσει γρήγορα την πραγματοποίηση της επιχειρηματικής τους αξίας. Επιπλέον, ο James είναι επίσης παθιασμένος με την ανάπτυξη και την κλιμάκωση μεγάλων λύσεων AI/ML σε διάφορους τομείς. Πριν ενταχθεί στην AWS, ηγήθηκε μιας πολυεπιστημονικής ομάδας τεχνολογίας καινοτομίας με μηχανικούς ML και προγραμματιστές λογισμικού για μια κορυφαία παγκόσμια εταιρεία στον κλάδο της αγοράς και της διαφήμισης.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Σχετικά
- επιταχύνουν
- πρόσβαση
- Κατορθώνω
- απέναντι
- Επιπλέον
- Διαφήμιση
- Όλα
- επιτρέπει
- Amazon
- Amazon υπηρεσίες Web
- ανάλυση
- εφαρμοσμένος
- αρχιτεκτονική
- διαθέσιμος
- AWS
- Άξονας
- επειδή
- πριν
- μεταξύ
- ενσωματωμένο
- επιχείρηση
- δυνατότητες
- Αιτία
- Διαγράμματα
- Επιλέξτε
- Backup
- κωδικός
- Στήλη
- Κοινός
- πλήρης
- συγκρότημα
- ΣΥΝΕΧΕΙΑ
- ελέγχους
- δημιουργία
- δημιουργήθηκε
- έθιμο
- Πελάτες
- ημερομηνία
- ανάλυση δεδομένων
- αποδεικνύουν
- κατέδειξε
- Προσδιορίστε
- προγραμματιστές
- ανάπτυξη
- Ανάπτυξη
- διανομή
- domains
- κάτω
- Πτώση
- δυναμική
- αποτελέσματα
- ενεργοποίηση
- Μηχανική
- Μηχανικοί
- εισάγετε
- Εταιρεία
- παράδειγμα
- Εκτός
- εμπειρία
- εκτενής
- γρηγορότερα
- Χαρακτηριστικό
- Τελικά
- Εταιρεία
- Όνομα
- ροή
- εστιάζει
- ακολουθήστε
- Εξής
- από
- λειτουργία
- λειτουργίες
- περαιτέρω
- Παγκόσμιο
- εξαιρετική
- Ομάδα
- που έχει
- χρήσιμο
- βοηθά
- Πως
- Πώς να
- HTTPS
- προσδιορίσει
- σπουδαιότητα
- βιομηχανία
- Καινοτομία
- περιβάλλον λειτουργίας
- IT
- ταξίδι
- Διατήρηση
- large
- ΜΑΘΑΊΝΩ
- μάθηση
- Led
- γραμμή
- Λίστα
- μηχανή
- μάθηση μηχανής
- χάρτη
- Μάρτιος
- αγορά
- Ταίριασμα
- ML
- μοντέλο
- Μήνας
- μήνες
- περισσότερο
- Μουσική
- ονόματα
- Νέα Υόρκη
- αριθμός
- ΑΛΛΑ
- φόρμες
- παθιασμένος
- εκτέλεση
- παιχνίδι
- Προετοιμάστε
- προηγούμενος
- Προϊόν
- παρέχουν
- παρέχεται
- παρέχει
- αγορά
- ψώνια
- ποσοτικός
- γρήγορα
- Ακατέργαστος
- αρχεία
- αντικατοπτρίζει
- ανασκόπηση
- Κριτικές
- απολέπιση
- Επιστήμονας
- Υπηρεσίες
- Απλούς
- αφού
- ΕΞΙ
- λογισμικό
- ανάπτυξη λογισμικού
- Λύσεις
- ειδικός
- Εκκίνηση
- στατιστική
- χώρος στο δίσκο
- κατάστημα
- στόχος
- Τεχνολογία
- Η
- επομένως
- τρία
- ώρα
- εργαλείο
- κορυφή
- Μεταμορφώστε
- μετασχηματισμούς
- τύποι
- χρήση
- αξία
- διάφορα
- οραματισμός
- όγκους
- ιστός
- διαδικτυακές υπηρεσίες
- Ο ΟΠΟΊΟΣ
- θαυμάσιος
- λειτουργεί
- αξία
- γραφή
- X
- έτος
- χρόνια
- Σας