«Αντί να επικεντρώνονται στον κώδικα, οι εταιρείες θα πρέπει να επικεντρωθούν στην ανάπτυξη συστηματικών πρακτικών μηχανικής για τη βελτίωση των δεδομένων με τρόπους αξιόπιστους, αποτελεσματικούς και συστηματικούς. Με άλλα λόγια, οι εταιρείες πρέπει να περάσουν από μια προσέγγιση με επίκεντρο το μοντέλο σε μια προσέγγιση με επίκεντρο τα δεδομένα». – Andrew Ng
Μια προσέγγιση τεχνητής νοημοσύνης με επίκεντρο τα δεδομένα περιλαμβάνει την κατασκευή συστημάτων τεχνητής νοημοσύνης με δεδομένα ποιότητας που περιλαμβάνουν προετοιμασία δεδομένων και μηχανική χαρακτηριστικών. Αυτό μπορεί να είναι μια κουραστική εργασία που περιλαμβάνει τη συλλογή δεδομένων, την ανακάλυψη, τη δημιουργία προφίλ, τον καθαρισμό, τη δομή, τον μετασχηματισμό, τον εμπλουτισμό, την επικύρωση και την ασφαλή αποθήκευση των δεδομένων.
Amazon SageMaker Data Wrangler είναι μια υπηρεσία σε Στούντιο Amazon SageMaker που παρέχει μια λύση από άκρο σε άκρο για εισαγωγή, προετοιμασία, μετατροπή, χαρακτηρισμό και ανάλυση δεδομένων χρησιμοποιώντας ελάχιστη έως καθόλου κωδικοποίηση. Μπορείτε να ενσωματώσετε μια ροή προετοιμασίας δεδομένων Data Wrangler στις ροές εργασιών μηχανικής εκμάθησης (ML) για να απλοποιήσετε την προεπεξεργασία δεδομένων και τη μηχανική χαρακτηριστικών, μεταφέροντας την προετοιμασία δεδομένων στην παραγωγή γρηγορότερα χωρίς την ανάγκη δημιουργίας κώδικα PySpark, εγκατάστασης Apache Spark ή περιστροφής συμπλεγμάτων.
Για σενάρια όπου χρειάζεται να προσθέσετε τα δικά σας προσαρμοσμένα σενάρια για μετασχηματισμούς δεδομένων, μπορείτε να γράψετε τη λογική μετασχηματισμού σας στα Pandas, PySpark, PySpark SQL. Το Data Wrangler υποστηρίζει τώρα βιβλιοθήκες NLTK και SciPy για τη σύνταξη προσαρμοσμένων μετασχηματισμών για την προετοιμασία δεδομένων κειμένου για ML και την εκτέλεση βελτιστοποίησης περιορισμών.
Μπορεί να αντιμετωπίσετε σενάρια όπου πρέπει να προσθέσετε τα δικά σας προσαρμοσμένα σενάρια για μετασχηματισμό δεδομένων. Με την ικανότητα προσαρμοσμένου μετασχηματισμού Data Wrangler, μπορείτε να γράψετε τη λογική μετασχηματισμού σας στα Pandas, PySpark, PySpark SQL.
Σε αυτήν την ανάρτηση, συζητάμε πώς μπορείτε να γράψετε τον προσαρμοσμένο μετασχηματισμό σας στο NLTK για να προετοιμάσετε δεδομένα κειμένου για ML. Θα μοιραστούμε επίσης ένα παράδειγμα προσαρμοσμένου κώδικα μετασχηματισμού χρησιμοποιώντας άλλα κοινά πλαίσια όπως NLTK, NumPy, SciPy και scikit-learn καθώς και υπηρεσίες AWS AI. Για τους σκοπούς αυτής της άσκησης, χρησιμοποιούμε το Τιτανικό σύνολο δεδομένων, ένα δημοφιλές σύνολο δεδομένων στην κοινότητα ML, το οποίο έχει πλέον προστεθεί ως α δείγμα συνόλου δεδομένων μέσα στο Data Wrangler.
Επισκόπηση λύσεων
Το Data Wrangler παρέχει πάνω από 40 ενσωματωμένες υποδοχές για εισαγωγή δεδομένων. Μετά την εισαγωγή των δεδομένων, μπορείτε να δημιουργήσετε την ανάλυση δεδομένων και τους μετασχηματισμούς σας χρησιμοποιώντας πάνω από 300 ενσωματωμένους μετασχηματισμούς. Στη συνέχεια, μπορείτε να δημιουργήσετε βιομηχανοποιημένες σωληνώσεις για να προωθήσετε τα χαρακτηριστικά Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) ή Κατάστημα χαρακτηριστικών Amazon SageMaker. Το παρακάτω διάγραμμα δείχνει την αρχιτεκτονική υψηλού επιπέδου από άκρο σε άκρο.
Προϋποθέσεις
Το Data Wrangler είναι μια δυνατότητα του SageMaker που διατίθεται εντός Στούντιο Amazon SageMaker. Μπορείτε να ακολουθήσετε τη διαδικασία ενσωμάτωσης στο Studio για να αναβαθμίσετε το περιβάλλον Studio και τα σημειωματάρια. Αν και μπορείτε να επιλέξετε από μερικές μεθόδους ελέγχου ταυτότητας, ο απλούστερος τρόπος για να δημιουργήσετε έναν τομέα Studio είναι να ακολουθήσετε το Οδηγίες γρήγορης εκκίνησης. Η Γρήγορη εκκίνηση χρησιμοποιεί τις ίδιες προεπιλεγμένες ρυθμίσεις με την τυπική εγκατάσταση του Studio. Μπορείτε επίσης να επιλέξετε να επιβιβαστείτε χρησιμοποιώντας Κέντρο Ταυτότητας AWS IAM (διάδοχος του AWS Single Sign-On) για έλεγχο ταυτότητας (βλ Ενσωματωθείτε στον τομέα Amazon SageMaker με χρήση του Κέντρου Ταυτότητας IAM).
Εισαγάγετε το σύνολο δεδομένων Titanic
Ξεκινήστε το περιβάλλον του Studio σας και δημιουργήστε ένα νέο Ροή δεδομένων Wrangler. Μπορείτε είτε να εισαγάγετε το δικό σας σύνολο δεδομένων είτε να χρησιμοποιήσετε ένα δείγμα δεδομένων (Titanic) όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης. Το Data Wrangler σάς επιτρέπει να εισάγετε σύνολα δεδομένων από διαφορετικές πηγές δεδομένων. Για την περίπτωση χρήσης μας, εισάγουμε το δείγμα δεδομένων από έναν κάδο S3.
Μετά την εισαγωγή, θα δείτε δύο κόμβους (τον κόμβο προέλευσης και τον κόμβο τύπου δεδομένων) στη ροή δεδομένων. Το Data Wrangler προσδιορίζει αυτόματα τον τύπο δεδομένων για όλες τις στήλες του συνόλου δεδομένων.
Προσαρμοσμένοι μετασχηματισμοί με NLTK
Για την προετοιμασία δεδομένων και τη μηχανική λειτουργιών με το Data Wrangler, μπορείτε να χρησιμοποιήσετε πάνω από 300 ενσωματωμένους μετασχηματισμούς ή να δημιουργήσετε τους δικούς σας προσαρμοσμένους μετασχηματισμούς. Προσαρμοσμένοι μετασχηματισμοί μπορεί να γραφτεί ως ξεχωριστά βήματα στο Data Wrangler. Γίνονται μέρος του αρχείου .flow μέσα στο Data Wrangler. Η δυνατότητα προσαρμοσμένου μετασχηματισμού υποστηρίζει Python, PySpark και SQL ως διαφορετικά βήματα σε αποσπάσματα κώδικα. Αφού δημιουργηθούν αρχεία σημειωματάριου (.ipynb) από το αρχείο .flow ή το αρχείο .flow χρησιμοποιηθεί ως συνταγές, τα αποσπάσματα κώδικα προσαρμοσμένου μετασχηματισμού παραμένουν χωρίς να απαιτούνται αλλαγές. Αυτός ο σχεδιασμός του Data Wrangler επιτρέπει στους προσαρμοσμένους μετασχηματισμούς να γίνουν μέρος μιας εργασίας Επεξεργασίας SageMaker για την επεξεργασία ογκωδών συνόλων δεδομένων με προσαρμοσμένους μετασχηματισμούς.
Το σύνολο δεδομένων Titanic έχει δύο λειτουργίες (όνομα και home.dest) που περιέχουν πληροφορίες κειμένου. Χρησιμοποιούμε NLTK για να χωρίσετε τη στήλη ονόματος και να εξαγάγετε το επώνυμο και να εκτυπώσετε τη συχνότητα των επωνύμων. Το NLTK είναι μια κορυφαία πλατφόρμα για τη δημιουργία προγραμμάτων Python για εργασία με δεδομένα ανθρώπινης γλώσσας. Παρέχει εύχρηστες διεπαφές σε πάνω από 50 σώματα και λεξιλογικούς πόρους όπως το WordNet, μαζί με μια σουίτα βιβλιοθηκών επεξεργασίας κειμένου για ταξινόμηση, δημιουργία διακριτικών, απορρέουσα βάση, επισήμανση, ανάλυση και σημασιολογική συλλογιστική και περιτυλίγματα για βιβλιοθήκες επεξεργασίας φυσικής γλώσσας βιομηχανικής ισχύος (NLP).
Για να προσθέσετε έναν νέο μετασχηματισμό, ολοκληρώστε τα παρακάτω βήματα:
- Επιλέξτε το σύμβολο συν και επιλέξτε Προσθήκη μετασχηματισμού.
- Επιλέξτε Προσθέστε το βήμα Και επιλέξτε Προσαρμοσμένος μετασχηματισμός.
Μπορείτε να δημιουργήσετε έναν προσαρμοσμένο μετασχηματισμό χρησιμοποιώντας Pandas, PySpark, συναρτήσεις που ορίζονται από τον χρήστη Python και SQL PySpark.
- Επιλέξτε Python (Πάντα) και προσθέστε τον ακόλουθο κώδικα για να εξαγάγετε το επώνυμο από τη στήλη ονόματος:
- Επιλέξτε Προβολή να αναθεωρήσουμε τα αποτελέσματα.
Το παρακάτω στιγμιότυπο οθόνης δείχνει το last_name
στήλη εξάγεται.
- Προσθέστε ένα άλλο βήμα προσαρμοσμένου μετασχηματισμού για να προσδιορίσετε την κατανομή συχνότητας των επωνύμων, χρησιμοποιώντας τον ακόλουθο κώδικα:
- Επιλέξτε Προβολή για να αναθεωρήσετε τα αποτελέσματα της συχνότητας.
Προσαρμοσμένοι μετασχηματισμοί με υπηρεσίες AWS AI
Οι προεκπαιδευμένες υπηρεσίες AI της AWS παρέχουν έτοιμες πληροφορίες για τις εφαρμογές και τις ροές εργασίας σας. Οι υπηρεσίες AWS AI ενσωματώνονται εύκολα με τις εφαρμογές σας για να αντιμετωπίσουν πολλές περιπτώσεις κοινής χρήσης. Τώρα μπορείτε να χρησιμοποιήσετε τις δυνατότητες για υπηρεσίες AWS AI ως προσαρμοσμένο βήμα μετασχηματισμού στο Data Wrangler.
Κατανοήστε το Amazon χρησιμοποιεί NLP για να εξάγει πληροφορίες σχετικά με το περιεχόμενο των εγγράφων. Αναπτύσσει πληροφορίες αναγνωρίζοντας τις οντότητες, τις φράσεις κλειδιά, τη γλώσσα, τα συναισθήματα και άλλα κοινά στοιχεία σε ένα έγγραφο.
Χρησιμοποιούμε το Amazon Comprehend για να εξαγάγουμε τις οντότητες από τη στήλη ονόματος. Ολοκληρώστε τα παρακάτω βήματα:
- Προσθέστε ένα προσαρμοσμένο βήμα μετασχηματισμού.
- Επιλέξτε Python (Πάντα).
- Εισαγάγετε τον ακόλουθο κωδικό για να εξαγάγετε τις οντότητες:
- Επιλέξτε Προβολή και οραματιστείτε τα αποτελέσματα.
Τώρα έχουμε προσθέσει τρεις προσαρμοσμένους μετασχηματισμούς στο Data Wrangler.
- Επιλέξτε Ροή δεδομένων για να οπτικοποιήσετε τη ροή δεδομένων από άκρο σε άκρο.
Προσαρμοσμένοι μετασχηματισμοί με NumPy και SciPy
μουδιασμένος είναι μια βιβλιοθήκη ανοιχτού κώδικα για την Python που προσφέρει ολοκληρωμένες μαθηματικές συναρτήσεις, γεννήτριες τυχαίων αριθμών, ρουτίνες γραμμικής άλγεβρας, μετασχηματισμούς Fourier και πολλά άλλα. SciPy είναι μια βιβλιοθήκη Python ανοιχτού κώδικα που χρησιμοποιείται για επιστημονικούς υπολογισμούς και τεχνικούς υπολογισμούς, που περιέχει ενότητες για βελτιστοποίηση, γραμμική άλγεβρα, ολοκλήρωση, παρεμβολή, ειδικές συναρτήσεις, γρήγορο μετασχηματισμό Fourier (FFT), επεξεργασία σήματος και εικόνας, λύτες και άλλα.
Οι προσαρμοσμένοι μετασχηματισμοί Data Wrangler σάς επιτρέπουν να συνδυάσετε Python, PySpark και SQL ως διαφορετικά βήματα. Στην ακόλουθη ροή δεδομένων Wrangler, διαφορετικές συναρτήσεις από πακέτα Python, NumPy και SciPy εφαρμόζονται στο σύνολο δεδομένων Titanic ως πολλαπλά βήματα.
Μετασχηματισμοί NumPy
Η στήλη ναύλων του συνόλου δεδομένων του Τιτανικού έχει ναύλους επιβίβασης διαφορετικών επιβατών. Το ιστόγραμμα της στήλης ναύλου δείχνει ομοιόμορφη κατανομή, εκτός από τον τελευταίο κάδο. Εφαρμόζοντας μετασχηματισμούς NumPy όπως log ή τετραγωνική ρίζα, μπορούμε να αλλάξουμε την κατανομή (όπως φαίνεται από τον μετασχηματισμό της τετραγωνικής ρίζας).
Δείτε τον ακόλουθο κώδικα:
Μετασχηματισμοί SciPy
Οι συναρτήσεις SciPy, όπως το z-score, εφαρμόζονται ως μέρος του προσαρμοσμένου μετασχηματισμού για την τυποποίηση της διανομής ναύλου με μέση και τυπική απόκλιση.
Δείτε τον ακόλουθο κώδικα:
Βελτιστοποίηση περιορισμών με NumPy και SciPy
Οι προσαρμοσμένοι μετασχηματισμοί του Data Wrangler μπορούν να χειριστούν προηγμένους μετασχηματισμούς όπως η βελτιστοποίηση περιορισμών, εφαρμόζοντας λειτουργίες βελτιστοποίησης SciPy και συνδυάζοντας το SciPy με το NumPy. Στο παρακάτω παράδειγμα, ο ναύλος σε συνάρτηση με την ηλικία δεν εμφανίζει κάποια παρατηρήσιμη τάση. Ωστόσο, η βελτιστοποίηση περιορισμών μπορεί να μετατρέψει τον ναύλο σε συνάρτηση με την ηλικία. Η προϋπόθεση περιορισμού σε αυτήν την περίπτωση είναι ότι ο νέος συνολικός ναύλος παραμένει ο ίδιος με τον παλιό συνολικό ναύλο. Οι προσαρμοσμένοι μετασχηματισμοί Data Wrangler σάς επιτρέπουν να εκτελέσετε τη συνάρτηση βελτιστοποίησης SciPy για να προσδιορίσετε τον βέλτιστο συντελεστή που μπορεί να μετατρέψει τον ναύλο ως συνάρτηση της ηλικίας υπό συνθήκες περιορισμού.
Ο ορισμός της βελτιστοποίησης, ο ορισμός του αντικειμένου και οι πολλαπλοί περιορισμοί μπορούν να αναφερθούν ως διαφορετικές συναρτήσεις κατά τη διαμόρφωση της βελτιστοποίησης περιορισμών σε έναν προσαρμοσμένο μετασχηματισμό Data Wrangler χρησιμοποιώντας SciPy και NumPy. Οι προσαρμοσμένοι μετασχηματισμοί μπορούν επίσης να φέρουν διαφορετικές μεθόδους επίλυσης που είναι διαθέσιμες ως μέρος του πακέτου βελτιστοποίησης SciPy. Μια νέα μετασχηματισμένη μεταβλητή μπορεί να δημιουργηθεί πολλαπλασιάζοντας τον βέλτιστο συντελεστή με την αρχική στήλη και να προστεθεί στις υπάρχουσες στήλες του Data Wrangler. Δείτε τον παρακάτω κώδικα:
Η δυνατότητα προσαρμοσμένου μετασχηματισμού Data Wrangler έχει τη δυνατότητα διεπαφής χρήστη να εμφανίζει τα αποτελέσματα των συναρτήσεων βελτιστοποίησης του SciPy όπως η τιμή του βέλτιστου συντελεστή (ή πολλαπλών συντελεστών).
Προσαρμοσμένοι μετασχηματισμοί με scikit-learn
scikit-μάθετε είναι μια λειτουργική μονάδα Python για μηχανική μάθηση, χτισμένη πάνω από το SciPy. Είναι μια βιβλιοθήκη ML ανοιχτού κώδικα που υποστηρίζει εποπτευόμενη και μη εποπτευόμενη μάθηση. Παρέχει επίσης διάφορα εργαλεία για προσαρμογή μοντέλου, προεπεξεργασία δεδομένων, επιλογή μοντέλου, αξιολόγηση μοντέλου και πολλά άλλα βοηθητικά προγράμματα.
Διακριτικοποίηση
Διακριτικοποίηση (αλλιώς γνωστό ως κβαντισμός or binning) παρέχει έναν τρόπο διαχωρισμού συνεχών χαρακτηριστικών σε διακριτές τιμές. Ορισμένα σύνολα δεδομένων με συνεχή χαρακτηριστικά μπορεί να ωφεληθούν από τη διακριτοποίηση, επειδή η διακριτοποίηση μπορεί να μετατρέψει το σύνολο δεδομένων συνεχών χαρακτηριστικών σε ένα με μόνο ονομαστικά χαρακτηριστικά. Τα μοναδικά κωδικοποιημένα διακριτικά χαρακτηριστικά μπορούν να κάνουν ένα μοντέλο πιο εκφραστικό, διατηρώντας παράλληλα την ερμηνευτικότητα. Για παράδειγμα, η προεπεξεργασία με ένα διακριτικό μπορεί να εισάγει μη γραμμικότητα σε γραμμικά μοντέλα.
Στον παρακάτω κώδικα, χρησιμοποιούμε KBinsDiscretizer
για να διακριτοποιήσετε τη στήλη ηλικίας σε 10 κάδους:
Μπορείτε να δείτε τις άκρες του κάδου τυπωμένες στο παρακάτω στιγμιότυπο οθόνης.
One-hot κωδικοποίηση
Οι τιμές στις στήλες Embarked είναι τιμές κατηγοριών. Επομένως, πρέπει να αναπαραστήσουμε αυτές τις συμβολοσειρές ως αριθμητικές τιμές για να εκτελέσουμε την ταξινόμησή μας με το μοντέλο μας. Θα μπορούσαμε επίσης να το κάνουμε αυτό χρησιμοποιώντας έναν μετασχηματισμό κωδικοποίησης one-hot.
Υπάρχουν τρεις τιμές για το Embarked: S, C και Q. Αυτές τις αντιπροσωπεύουμε με αριθμούς. Δείτε τον παρακάτω κώδικα:
εκκαθάριση
Όταν δεν χρησιμοποιείτε το Data Wrangler, είναι σημαντικό να απενεργοποιείτε την παρουσία στην οποία εκτελείται για να αποφύγετε την επιβολή πρόσθετων χρεώσεων.
Το Data Wrangler αποθηκεύει αυτόματα τη ροή δεδομένων σας κάθε 60 δευτερόλεπτα. Για να αποφύγετε την απώλεια εργασίας, αποθηκεύστε τη ροή δεδομένων σας προτού απενεργοποιήσετε το Data Wrangler.
- Για να αποθηκεύσετε τη ροή δεδομένων σας στο Studio, επιλέξτε Αρχεία, κατόπιν επιλέξτε Αποθήκευση ροής Wrangler δεδομένων.
- Για να τερματίσετε την παρουσία του Data Wrangler, στο Studio, επιλέξτε Τρέχουσες παρουσίες και πυρήνες.
- Κάτω από ΕΦΑΡΜΟΓΕΣ ΕΚΤΕΛΕΣΗΣ, επιλέξτε το εικονίδιο τερματισμού λειτουργίας δίπλα στην εφαρμογή Sagemaker-data-wrangler-1.0.
- Επιλέξτε Κλείσε όλα για να επιβεβαιώσετε.
Το Data Wrangler εκτελείται σε ένα στιγμιότυπο ml.m5.4x. Αυτή η περίπτωση εξαφανίζεται από ΕΚΔΗΛΩΣΕΙΣ ΠΕΡΙΠΤΩΣΕΩΝ όταν τερματίζετε την εφαρμογή Data Wrangler.
Αφού τερματίσετε τη λειτουργία της εφαρμογής Data Wrangler, πρέπει να επανεκκινήσει την επόμενη φορά που θα ανοίξετε ένα αρχείο ροής Data Wrangler. Αυτό μπορεί να διαρκέσει μερικά λεπτά.
Συμπέρασμα
Σε αυτήν την ανάρτηση, δείξαμε πώς μπορείτε να χρησιμοποιήσετε προσαρμοσμένους μετασχηματισμούς στο Data Wrangler. Χρησιμοποιήσαμε τις βιβλιοθήκες και το πλαίσιο μέσα στο κοντέινερ Data Wrangler για να επεκτείνουμε τις ενσωματωμένες δυνατότητες μετασχηματισμού δεδομένων. Τα παραδείγματα σε αυτήν την ανάρτηση αντιπροσωπεύουν ένα υποσύνολο των πλαισίων που χρησιμοποιούνται. Οι μετασχηματισμοί στη ροή δεδομένων Wrangler μπορούν τώρα να κλιμακωθούν σε μια διοχέτευση για DataOps.
Για να μάθετε περισσότερα σχετικά με τη χρήση ροών δεδομένων με το Data Wrangler, ανατρέξτε στο Δημιουργήστε και χρησιμοποιήστε μια ροή δεδομένων Wrangler και Τιμολόγηση του Amazon SageMaker. Για να ξεκινήσετε με το Data Wrangler, βλ Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler. Για να μάθετε περισσότερα σχετικά με το Autopilot και το AutoML στο SageMaker, επισκεφθείτε Αυτοματοποιήστε την ανάπτυξη μοντέλων με το Amazon SageMaker Autopilot.
Σχετικά με τους συγγραφείς
Meenakshisundaram Thandavarayan είναι Ανώτερος ειδικός AI/ML με AWS. Βοηθά στρατηγικούς λογαριασμούς υψηλής τεχνολογίας στο ταξίδι τους σε AI και ML. Είναι πολύ παθιασμένος με την τεχνητή νοημοσύνη που βασίζεται σε δεδομένα.
Sovik Kumar Nath είναι ένας αρχιτέκτονας λύσεων AI/ML με AWS. Έχει μεγάλη εμπειρία σε ολοκληρωμένα σχέδια και λύσεις μηχανικής μάθησης. επιχειρηματικές αναλύσεις σε οικονομικά, επιχειρησιακά και μάρκετινγκ. φροντίδα υγείας; εφοδιαστική αλυσίδα; και IoT. Εκτός δουλειάς, ο Sovik του αρέσει να ταξιδεύει και να βλέπει ταινίες.
Υπηρέτρια είναι Μηχανικός Ανάπτυξης Λογισμικού στο Amazon SageMaker. Είναι παθιασμένη με το να βοηθά τους πελάτες να προετοιμάσουν τα δεδομένα τους στο DataWrangler και να κατασκευάζει κατανεμημένα συστήματα μηχανικής εκμάθησης. Στον ελεύθερο χρόνο της, η Abigail απολαμβάνει τα ταξίδια, την πεζοπορία, το σκι και το ψήσιμο.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/authoring-custom-transformations-in-amazon-sagemaker-data-wrangler-using-nltk-and-scipy/
- :έχει
- :είναι
- $UP
- 1
- 10
- 100
- 7
- 8
- 9
- a
- Σχετικα
- Λογαριασμοί
- προστιθέμενη
- Πρόσθετος
- διεύθυνση
- προηγμένες
- Μετά το
- Ηλικίες
- AI
- Υπηρεσίες AI
- AI / ML
- Όλα
- επιτρέπει
- κατά μήκος
- Αν και
- Amazon
- Κατανοήστε το Amazon
- Amazon Sage Maker
- Amazon SageMaker Data Wrangler
- ανάλυση
- analytics
- αναλύσει
- και
- Ανδρέας
- Άλλος
- κάθε
- Apache
- app
- εφαρμογές
- εφαρμοσμένος
- εφαρμόζοντας
- πλησιάζω
- αρχιτεκτονική
- ΕΙΝΑΙ
- AS
- At
- γνωρίσματα
- Πιστοποίηση
- συγγραφέας
- συγγραφικός
- αυτομάτως
- AutoML
- διαθέσιμος
- AWS
- BE
- επειδή
- γίνονται
- ήταν
- πριν
- όφελος
- BIN
- επιβίβαση
- φέρω
- χτίζω
- Κτίριο
- χτισμένο
- ενσωματωμένο
- επιχείρηση
- by
- CAN
- δυνατότητες
- περίπτωση
- περιπτώσεις
- ορισμένες
- αλυσίδα
- αλλαγή
- Αλλαγές
- Επιλέξτε
- ταξινόμηση
- κωδικός
- Κωδικοποίηση
- συλλογή
- Στήλη
- Στήλες
- συνδυασμός
- συνδυάζοντας
- Κοινός
- κοινότητα
- Εταιρείες
- πλήρης
- κατανοώ
- περιεκτικός
- χρήση υπολογιστή
- κατάσταση
- Συνθήκες
- Επιβεβαιώνω
- ΚΑΤΑ
- περιορισμούς
- περιέχουν
- Δοχείο
- περιεχόμενο
- συνεχής
- θα μπορούσε να
- Ζευγάρι
- δημιουργία
- έθιμο
- Πελάτες
- ημερομηνία
- ανάλυση δεδομένων
- Προετοιμασία δεδομένων
- βασίζονται σε δεδομένα
- σύνολα δεδομένων
- Προεπιλογή
- κατέδειξε
- Υπηρεσίες
- σχέδια
- Προσδιορίστε
- ανάπτυξη
- Ανάπτυξη
- αναπτύσσεται
- απόκλιση
- διαφορετικές
- ανακάλυψη
- συζητήσουν
- διανέμονται
- διανομή
- έγγραφο
- έγγραφα
- Όχι
- τομέα
- κάτω
- εύκολα
- εύκολο στη χρήση
- αποτελεσματικός
- είτε
- στοιχεία
- από άκρη σε άκρη
- μηχανικός
- Μηχανική
- εμπλουτισμός
- οντότητες
- οντότητα
- Περιβάλλον
- εκτίμηση
- Κάθε
- παράδειγμα
- παραδείγματα
- Εκτός
- Άσκηση
- υφιστάμενα
- εμπειρία
- εκφραστικός
- επεκτείνουν
- εκτενής
- Εκτεταμένη εμπειρία
- εκχύλισμα
- FAST
- γρηγορότερα
- Χαρακτηριστικό
- Χαρακτηριστικά
- Τελη Εγγραφης
- λίγοι
- Αρχεία
- Αρχεία
- οικονομικός
- προσαρμογή
- ροή
- Ροές
- Συγκέντρωση
- εστιάζοντας
- ακολουθήστε
- Εξής
- Για
- διατύπωση
- Πλαίσιο
- πλαισίων
- Δωρεάν
- Συχνότητα
- από
- διασκέδαση
- λειτουργία
- λειτουργίες
- παράγουν
- παράγεται
- Γεννήτριες
- παίρνω
- λαβή
- Έχω
- he
- υγειονομική περίθαλψη
- βοήθεια
- βοηθά
- hi-tech
- υψηλού επιπέδου
- Αρχική
- Πως
- Ωστόσο
- HTML
- http
- HTTPS
- ανθρώπινος
- ICON
- αναγνωρίζει
- προσδιορίσει
- Ταυτότητα
- εικόνα
- εισαγωγή
- σημαντικό
- εισαγωγή
- βελτίωση
- in
- Σε άλλες
- πληροφορίες
- ιδέες
- εγκαθιστώ
- παράδειγμα
- ενσωματώσει
- ολοκλήρωση
- Νοημοσύνη
- διεπαφές
- εισαγάγει
- IoT
- IT
- Δουλειά
- ταξίδι
- jpg
- Κλειδί
- γνωστός
- Γλώσσα
- Επίθετο
- που οδηγεί
- ΜΑΘΑΊΝΩ
- μάθηση
- βιβλιοθήκες
- Βιβλιοθήκη
- Μου αρέσει
- λίγο
- να χάσει
- μηχανή
- μάθηση μηχανής
- Η διατήρηση
- κάνω
- πολοί
- Μάρκετινγκ
- μαζική
- μαθηματικός
- Ενδέχεται..
- που αναφέρθηκαν
- μέθοδοι
- ενδέχεται να
- Λεπτ.
- ML
- μοντέλο
- μοντέλα
- Μονάδα μέτρησης
- ενότητες
- περισσότερο
- μετακινήσετε
- Κινηματογράφος
- πολλαπλούς
- πολλαπλασιασμού
- όνομα
- ονόματα
- Φυσικό
- Επεξεργασία φυσικής γλώσσας
- Ανάγκη
- Νέα
- επόμενη
- nlp
- κόμβος
- κόμβων
- σημειωματάριο
- αριθμός
- αριθμοί
- πολλοί
- σκοπός
- of
- προσφορά
- Παλιά
- on
- Onboard
- Επί του σκάφους
- ONE
- ανοίξτε
- ανοικτού κώδικα
- επιχειρήσεων
- βέλτιστη
- βελτιστοποίηση
- Βελτιστοποίηση
- τάξη
- πρωτότυπο
- ΑΛΛΑ
- αλλιώς
- δικός μας
- εκτός
- επί
- δική
- πακέτο
- Packages
- Πάντα
- μέρος
- παθιασμένος
- Εκτελέστε
- φράσεις
- αγωγού
- πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- συν
- Δημοφιλής
- Θέση
- πρακτικές
- Προετοιμάστε
- μεταποίηση
- παραγωγή
- προφίλ
- Προγράμματα
- παρέχουν
- παρέχει
- σκοπός
- Σπρώξτε
- Python
- ποιότητα
- Γρήγορα
- τυχαίος
- Ακατέργαστος
- αξιόπιστος
- λείψανα
- εκπροσωπώ
- απάντησης
- Αποτελέσματα
- απόδοση
- ανασκόπηση
- ρίζα
- τρέξιμο
- s
- σοφός
- ίδιο
- Δείγμα δεδομένων
- Αποθήκευση
- σενάρια
- επιστημονικός
- scikit-μάθετε
- Εφαρμογές
- δευτερόλεπτα
- ασφαλώς
- επιλογή
- αρχαιότερος
- ξεχωριστό
- υπηρεσία
- Υπηρεσίες
- ρυθμίσεις
- setup
- Κοινοποίηση
- θα πρέπει να
- δείχνουν
- παρουσιάζεται
- Δείχνει
- τερματίστε
- κλείσιμο
- υπογράψουν
- Σήμα
- Απλούς
- απλοποίηση
- ενιαίας
- λογισμικό
- ανάπτυξη λογισμικού
- λύση
- Λύσεις
- μερικοί
- Πηγή
- Πηγές
- Σπινθήρας
- ειδική
- ειδικός
- Γνέθω
- διαίρεση
- πλατεία
- πρότυπο
- Εκκίνηση
- ξεκίνησε
- stats
- Βήμα
- Βήματα
- χώρος στο δίσκο
- εναποθήκευση
- Στρατηγική
- δομή
- στούντιο
- τέτοιος
- σουίτα
- προμήθεια
- αλυσίδας εφοδιασμού
- Υποστηρίζει
- συστήματα
- τραπέζι
- Πάρτε
- λήψη
- Έργο
- Τεχνικός
- ότι
- Η
- Η Πηγη
- τους
- επομένως
- Αυτοί
- τρία
- ώρα
- προς την
- ένδειξη
- Τεκμηρίωση
- κουπόνια
- εργαλεία
- κορυφή
- Σύνολο
- Μεταμορφώστε
- Μεταμόρφωση
- μετασχηματισμούς
- μετασχηματίζεται
- μετασχηματίζοντας
- Ταξίδια
- τάση
- ui
- υπό
- χρήση
- περίπτωση χρήσης
- μεταχειρισμένος
- επιχειρήσεις κοινής ωφέλειας
- αξία
- Αξίες
- διάφορα
- Επίσκεψη
- παρακολουθείτε
- Τρόπος..
- τρόπους
- ΛΟΙΠΌΝ
- Ποιό
- ενώ
- θα
- με
- εντός
- χωρίς
- λόγια
- Εργασία
- ροές εργασίας
- γράφω
- γραπτή
- Εσείς
- Σας
- zephyrnet