Amazon SageMaker Data Wrangler μειώνει τον χρόνο συγκέντρωσης και προετοιμασίας δεδομένων για μηχανική εκμάθηση (ML) από εβδομάδες σε λεπτά. Με το Data Wrangler, μπορείτε να επιλέξετε και να υποβάλετε ερωτήματα σε δεδομένα με λίγα μόνο κλικ, να μετατρέψετε γρήγορα δεδομένα με πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων και να κατανοήσετε τα δεδομένα σας με ενσωματωμένες απεικονίσεις χωρίς να γράφετε κώδικα.
Επιπλέον, μπορείτε να δημιουργήσετε προσαρμοσμένες μετατροπές μοναδικό στις απαιτήσεις σας. Οι προσαρμοσμένοι μετασχηματισμοί σάς επιτρέπουν να γράφετε προσαρμοσμένους μετασχηματισμούς χρησιμοποιώντας είτε PySpark, Pandas ή SQL.
Το Data Wrangler υποστηρίζει πλέον μια προσαρμογή Λειτουργία που καθορίζεται από το χρήστη Panda (UDF) μετασχηματισμός που μπορεί να επεξεργάζεται μεγάλα σύνολα δεδομένων αποτελεσματικά. Μπορείτε να επιλέξετε από δύο προσαρμοσμένες λειτουργίες UDF Pandas: Pandas και Python. Και οι δύο λειτουργίες παρέχουν μια αποτελεσματική λύση για την επεξεργασία συνόλων δεδομένων και η λειτουργία που θα επιλέξετε εξαρτάται από τις προτιμήσεις σας.
Σε αυτήν την ανάρτηση, δείχνουμε πώς να χρησιμοποιήσετε τον νέο μετασχηματισμό Pandas UDF σε οποιαδήποτε λειτουργία.
Επισκόπηση λύσεων
Τη στιγμή της σύνταξης αυτού του άρθρου, μπορείτε να εισαγάγετε σύνολα δεδομένων στο Data Wrangler από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, Databricks και Snowflake. Για αυτήν την ανάρτηση, χρησιμοποιούμε το Amazon S3 για την αποθήκευση του 2014 Η Amazon αξιολογεί το σύνολο δεδομένων.
Τα δεδομένα έχουν μια στήλη που ονομάζεται reviewText
που περιέχει κείμενο που δημιουργείται από τον χρήστη. Το κείμενο περιέχει επίσης πολλά σταματήστε τα λόγια, οι οποίες είναι κοινές λέξεις που δεν παρέχουν πολλές πληροφορίες, όπως "a", "an" και "the". Η αφαίρεση των λέξεων τερματισμού είναι ένα κοινό βήμα προεπεξεργασίας σε αγωγούς επεξεργασίας φυσικής γλώσσας (NLP). Μπορούμε να δημιουργήσουμε μια προσαρμοσμένη συνάρτηση για να αφαιρέσουμε τις λέξεις διακοπής από τις κριτικές.
Δημιουργήστε έναν προσαρμοσμένο μετασχηματισμό Pandas UDF
Ας προχωρήσουμε στη διαδικασία δημιουργίας δύο προσαρμοσμένων μετασχηματισμών UDF Pandas Data Wrangler χρησιμοποιώντας λειτουργίες Pandas και Python.
- Κατεβάστε το Σύνολο κριτικών ψηφιακής μουσικής και ανεβάστε το στο Amazon S3.
- Ανοικτό Στούντιο Amazon SageMaker και δημιουργήστε μια νέα ροή δεδομένων Wrangler.
- Κάτω από Εισαγωγή δεδομένων, επιλέξτε Amazon S3 και μεταβείτε στη θέση δεδομένων.
- Για Τύπος αρχείου, επιλέξτε jsonl.
Μια προεπισκόπηση των δεδομένων πρέπει να εμφανίζεται στον πίνακα.
- Επιλέξτε εισαγωγή να προχωρήσει.
- Μετά την εισαγωγή των δεδομένων σας, επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων Και επιλέξτε Προσθήκη μετασχηματισμού.
- Επιλέξτε Προσαρμοσμένος μετασχηματισμός.
- Στο αναπτυσσόμενο μενού, Python (συνάρτηση που καθορίζεται από το χρήστη).
Τώρα δημιουργούμε τον προσαρμοσμένο μας μετασχηματισμό για να αφαιρέσουμε τις λέξεις διακοπής.
- Καθορίστε τη στήλη εισόδου, τη στήλη εξόδου, τον τύπο επιστροφής και τη λειτουργία.
Το παρακάτω παράδειγμα χρησιμοποιεί τη λειτουργία Pandas. Αυτό σημαίνει ότι η συνάρτηση πρέπει να δέχεται και να επιστρέφει μια σειρά Pandas του ίδιου μήκους. Μπορείτε να σκεφτείτε μια σειρά Pandas ως μια στήλη σε έναν πίνακα ή ένα κομμάτι της στήλης. Αυτή είναι η πιο αποτελεσματική λειτουργία Pandas UDF επειδή τα Panda μπορούν να διανυσματοποιήσουν λειτουργίες σε παρτίδες τιμών σε αντίθεση με μία κάθε φορά. ο pd.Series
απαιτούνται συμβουλές τύπου στη λειτουργία Pandas.
Εάν προτιμάτε να χρησιμοποιείτε καθαρή Python σε αντίθεση με το Pandas API, η λειτουργία Python σάς επιτρέπει να καθορίσετε μια καθαρή συνάρτηση Python που δέχεται ένα μεμονωμένο όρισμα και επιστρέφει μια τιμή. Το παρακάτω παράδειγμα είναι ισοδύναμο με τον προηγούμενο κώδικα Panda ως προς την έξοδο. Οι υποδείξεις τύπου δεν απαιτούνται στη λειτουργία Python.
- Επιλέξτε Πρόσθεση για να προσθέσετε τον προσαρμοσμένο σας μετασχηματισμό.
Συμπέρασμα
Το Data Wrangler έχει πάνω από 300 ενσωματωμένους μετασχηματισμούς και μπορείτε επίσης να προσθέσετε προσαρμοσμένους μετασχηματισμούς μοναδικούς για τις απαιτήσεις σας. Σε αυτήν την ανάρτηση, δείξαμε πώς να επεξεργαζόμαστε σύνολα δεδομένων με τον νέο προσαρμοσμένο μετασχηματισμό Pandas UDF της Data Wrangler, χρησιμοποιώντας και τις δύο λειτουργίες Panda και Python. Μπορείτε να χρησιμοποιήσετε οποιαδήποτε λειτουργία με βάση τις προτιμήσεις σας. Για να μάθετε περισσότερα σχετικά με το Data Wrangler, ανατρέξτε στο Δημιουργήστε και χρησιμοποιήστε μια ροή δεδομένων Wrangler.
Σχετικά με τους Συγγραφείς
Μπεν Χάρις είναι μηχανικός λογισμικού με εμπειρία στο σχεδιασμό, την ανάπτυξη και τη διατήρηση επεκτάσιμων αγωγών δεδομένων και λύσεων μηχανικής εκμάθησης σε διάφορους τομείς. Ο Ben έχει κατασκευάσει συστήματα συλλογής και επισήμανσης δεδομένων, ταξινόμησης εικόνων και κειμένων, μοντελοποίησης αλληλουχίας σε ακολουθία, ενσωμάτωσης και ομαδοποίησης, μεταξύ άλλων.
Haider Naqvi είναι αρχιτέκτονας λύσεων στην AWS. Έχει εκτενή εμπειρία στην Ανάπτυξη Λογισμικού και στην Επιχειρηματική Αρχιτεκτονική. Επικεντρώνεται στο να δίνει τη δυνατότητα στους πελάτες να επιτύχουν επιχειρηματικά αποτελέσματα με το AWS. Έχει έδρα εκτός Νέας Υόρκης.
Βισάλ Σριβαστάβα είναι Τεχνικός Διαχειριστής Λογαριασμού στην AWS. Με υπόβαθρο στην Ανάπτυξη Λογισμικού και στο Analytics, εργάζεται κυρίως με τον τομέα των χρηματοοικονομικών υπηρεσιών και τους εγγενείς πελάτες ψηφιακών επιχειρήσεων και υποστηρίζει το ταξίδι τους στο cloud. Στον ελεύθερο χρόνο του λατρεύει να ταξιδεύει με την οικογένειά του.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Σχετικά
- Λογαριασμός
- απέναντι
- Amazon
- μεταξύ των
- analytics
- api
- αρχιτεκτονική
- διαθέσιμος
- AWS
- φόντο
- ενσωματωμένο
- επιχείρηση
- Επιλέξτε
- ταξινόμηση
- Backup
- κωδικός
- συλλογή
- Στήλη
- Κοινός
- Περιέχει
- δημιουργία
- δημιουργία
- έθιμο
- Πελάτες
- ημερομηνία
- αποδεικνύουν
- κατέδειξε
- εξαρτάται
- ανάπτυξη
- σχέδιο
- Ανάπτυξη
- ψηφιακό
- domains
- αποτελεσματικός
- αποτελεσματικά
- ενεργοποίηση
- μηχανικός
- Εταιρεία
- παράδειγμα
- εμπειρία
- εκτενής
- οικογένεια
- οικονομικός
- των χρηματοπιστωτικών υπηρεσιών
- ροή
- εστιάζει
- Εξής
- Δωρεάν
- λειτουργία
- Πως
- Πώς να
- HTTPS
- εικόνα
- πληροφορίες
- εισαγωγή
- IT
- Ενώνει
- τιτλοφόρηση
- Γλώσσα
- large
- ΜΑΘΑΊΝΩ
- μάθηση
- τοποθεσία
- μηχανή
- μάθηση μηχανής
- διευθυντής
- Ταίριασμα
- ML
- περισσότερο
- πλέον
- Μουσική
- Φυσικό
- Νέα Υόρκη
- λειτουργίες
- Προετοιμάστε
- Προβολή
- διαδικασια μας
- μεταποίηση
- παρέχουν
- Γρήγορα
- γρήγορα
- απαιτείται
- απαιτήσεις
- απόδοση
- Επιστροφές
- Κριτικές
- επεκτάσιμη
- τομέας
- Σειρές
- Υπηρεσίες
- Απλούς
- λογισμικό
- ανάπτυξη λογισμικού
- Μηχανικός Λογισμικού
- λύση
- Λύσεις
- χώρων
- χώρος στο δίσκο
- κατάστημα
- Υποστηρίζει
- συστήματα
- Τεχνικός
- Μέσω
- ώρα
- ένδειξη
- κουπόνια
- Μεταμορφώστε
- ταξίδι
- καταλαβαίνω
- μοναδικός
- χρήση
- αξία
- ποικιλία
- χωρίς
- λόγια
- λειτουργεί
- γραφή