Προετοιμάστε δεδομένα από Databricks για μηχανική μάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Οι ομάδες επιστήμης δεδομένων και μηχανικής δεδομένων αφιερώνουν σημαντικό μέρος του χρόνου τους στη φάση προετοιμασίας δεδομένων ενός κύκλου ζωής μηχανικής μάθησης (ML) εκτελώντας βήματα επιλογής δεδομένων, καθαρισμού και μετασχηματισμού. Είναι ένα απαραίτητο και σημαντικό βήμα οποιασδήποτε ροής εργασίας ML για τη δημιουργία ουσιαστικών πληροφοριών και προβλέψεων, επειδή τα κακά ή χαμηλής ποιότητας δεδομένα μειώνουν σημαντικά τη συνάφεια των πληροφοριών που προκύπτουν.

Οι ομάδες μηχανικής δεδομένων είναι παραδοσιακά υπεύθυνες για την απορρόφηση, την ενοποίηση και τον μετασχηματισμό των ακατέργαστων δεδομένων για κατάντη κατανάλωση. Οι επιστήμονες δεδομένων συχνά χρειάζεται να κάνουν πρόσθετη επεξεργασία δεδομένων για περιπτώσεις χρήσης ML για συγκεκριμένο τομέα, όπως φυσική γλώσσα και χρονοσειρές. Για παράδειγμα, ορισμένοι αλγόριθμοι ML μπορεί να είναι ευαίσθητοι σε τιμές που λείπουν, αραιά χαρακτηριστικά ή ακραίες τιμές και απαιτούν ιδιαίτερη προσοχή. Ακόμη και σε περιπτώσεις όπου το σύνολο δεδομένων είναι σε καλή κατάσταση, οι επιστήμονες δεδομένων μπορεί να θέλουν να μεταμορφώσουν τις κατανομές χαρακτηριστικών ή να δημιουργήσουν νέα χαρακτηριστικά προκειμένου να μεγιστοποιήσουν τις γνώσεις που λαμβάνονται από τα μοντέλα. Για να επιτευχθούν αυτοί οι στόχοι, οι επιστήμονες δεδομένων πρέπει να βασίζονται σε ομάδες μηχανικής δεδομένων για την αντιμετώπιση των ζητούμενων αλλαγών, με αποτέλεσμα την εξάρτηση και την καθυστέρηση στη διαδικασία ανάπτυξης του μοντέλου. Εναλλακτικά, οι ομάδες επιστήμης δεδομένων μπορούν να επιλέξουν να εκτελέσουν προετοιμασία δεδομένων και μηχανική χαρακτηριστικών εσωτερικά χρησιμοποιώντας διάφορα παραδείγματα προγραμματισμού. Ωστόσο, απαιτεί μια επένδυση χρόνου και προσπάθειας για την εγκατάσταση και τη διαμόρφωση βιβλιοθηκών και πλαισίων, κάτι που δεν είναι ιδανικό γιατί αυτός ο χρόνος μπορεί να δαπανηθεί καλύτερα για τη βελτιστοποίηση της απόδοσης του μοντέλου.

Amazon SageMaker Data Wrangler απλοποιεί τη διαδικασία προετοιμασίας δεδομένων και μηχανικής χαρακτηριστικών, μειώνοντας τον χρόνο που απαιτείται για τη συγκέντρωση και προετοιμασία δεδομένων για ML από εβδομάδες σε λεπτά, παρέχοντας μια ενιαία οπτική διεπαφή για τους επιστήμονες δεδομένων για την επιλογή, τον καθαρισμό και την εξερεύνηση των συνόλων δεδομένων τους. Το Data Wrangler προσφέρει πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων για να βοηθήσει στην ομαλοποίηση, τον μετασχηματισμό και τον συνδυασμό χαρακτηριστικών χωρίς τη σύνταξη κώδικα. Μπορείτε να εισάγετε δεδομένα από πολλές πηγές δεδομένων, όπως π.χ Amazon Simple Storage Service (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, να Νιφάδα χιονιού. Τώρα μπορείτε επίσης να χρησιμοποιήσετε Βάσεις δεδομένων ως πηγή δεδομένων στο Data Wrangler για εύκολη προετοιμασία δεδομένων για ML.

Η πλατφόρμα Databricks Lakehouse συνδυάζει τα καλύτερα στοιχεία των λιμνών δεδομένων και των αποθηκών δεδομένων για να προσφέρει την αξιοπιστία, την ισχυρή διακυβέρνηση και την απόδοση των αποθηκών δεδομένων με τη διαφάνεια, την ευελιξία και την υποστήριξη μηχανικής εκμάθησης των λιμνών δεδομένων. Με το Databricks ως πηγή δεδομένων για το Data Wrangler, μπορείτε πλέον να συνδεθείτε γρήγορα και εύκολα με τα Databricks, να υποβάλετε ερωτήματα στα δεδομένα που είναι αποθηκευμένα στα Databricks χρησιμοποιώντας SQL και να κάνετε προεπισκόπηση δεδομένων πριν από την εισαγωγή. Επιπλέον, μπορείτε να ενώσετε τα δεδομένα σας στο Databricks με δεδομένα που είναι αποθηκευμένα στο Amazon S3 και τα δεδομένα που αναζητούνται μέσω των Amazon Athena, Amazon Redshift και Snowflake για να δημιουργήσετε το σωστό σύνολο δεδομένων για την περίπτωση χρήσης ML.

Σε αυτήν την ανάρτηση, μετασχηματίζουμε το σύνολο δεδομένων Lending Club Loan χρησιμοποιώντας το Amazon SageMaker Data Wrangler για χρήση στην εκπαίδευση μοντέλων ML.

Επισκόπηση λύσεων

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεών μας.

Το σύνολο δεδομένων Lending Club Loan περιέχει πλήρη δεδομένα δανείων για όλα τα δάνεια που εκδόθηκαν κατά την περίοδο 2007–2011, συμπεριλαμβανομένης της τρέχουσας κατάστασης δανείου και των πιο πρόσφατων πληροφοριών πληρωμής. Έχει 39,717 σειρές, 22 στήλες χαρακτηριστικών και 3 ετικέτες στόχου.

Για να μετατρέψουμε τα δεδομένα μας χρησιμοποιώντας το Data Wrangler, ολοκληρώνουμε τα ακόλουθα βήματα υψηλού επιπέδου:

Λήψη και διαχωρισμός του συνόλου δεδομένων.
Δημιουργήστε μια ροή δεδομένων Wrangler.
Εισαγάγετε δεδομένα από το Databricks στο Data Wrangler.
Εισαγάγετε δεδομένα από το Amazon S3 στο Data Wrangler.
Ενώστε τα δεδομένα.
Εφαρμόστε μετασχηματισμούς.
Εξαγωγή του συνόλου δεδομένων.

Προϋποθέσεις

Η ανάρτηση προϋποθέτει ότι έχετε ένα σύμπλεγμα Databricks που εκτελείται. Εάν το σύμπλεγμα σας εκτελείται σε AWS, βεβαιωθείτε ότι έχετε διαμορφώσει τα ακόλουθα:

Ρύθμιση τούβλων δεδομένων

An προφίλ παράδειγμα με τα απαιτούμενα δικαιώματα πρόσβασης σε έναν κάδο S3
A πολιτική κουβά με τα απαιτούμενα δικαιώματα για τον κάδο στόχο S3

Ακολουθώ Ασφαλής πρόσβαση σε κάδους S3 χρησιμοποιώντας προφίλ περιπτώσεων για τα απαιτούμενα Διαχείριση ταυτότητας και πρόσβασης AWS ρόλοι (IAM), πολιτική κάδου S3 και διαμόρφωση συμπλέγματος Databricks. Βεβαιωθείτε ότι το σύμπλεγμα Databricks έχει ρυθμιστεί σωστά Instance Profile, επιλεγμένο στις προηγμένες επιλογές, για πρόσβαση στον επιθυμητό κάδο S3.

Αφού ενεργοποιηθεί και λειτουργεί το σύμπλεγμα Databricks με την απαιτούμενη πρόσβαση στο Amazon S3, μπορείτε να το ανακτήσετε JDBC URL από το σύμπλεγμα Databricks που θα χρησιμοποιηθεί από το Data Wrangler για σύνδεση σε αυτό.

Λάβετε τη διεύθυνση URL JDBC

Για να λάβετε τη διεύθυνση URL JDBC, ολοκληρώστε τα παρακάτω βήματα:

Στο Databricks, μεταβείτε στη διεπαφή χρήστη συμπλέγματος.
Επιλέξτε το σύμπλεγμα σας.
Στις διαμόρφωση καρτέλα, επιλέξτε Επιλογές για προχωρημένους.
Κάτω από Επιλογές για προχωρημένους, επιλέξτε το JDBC/ODBC Tab.
Αντιγράψτε τη διεύθυνση URL του JDBC.

Φροντίστε να αντικαταστήσετε την προσωπική σας πρόσβαση ένδειξη στη διεύθυνση URL.

Ρύθμιση Data Wrangler

Αυτό το βήμα προϋποθέτει ότι έχετε πρόσβαση στο Amazon SageMaker, ένα παράδειγμα Στούντιο Amazon SageMakerκαι χρήστη του Studio.

Για να επιτρέπεται η πρόσβαση στη σύνδεση Databricks JDBC από το Data Wrangler, ο χρήστης του Studio απαιτεί την ακόλουθη άδεια:

secretsmanager:PutResourcePolicy

Ακολουθήστε τα παρακάτω βήματα για να ενημερώσετε τον ρόλο εκτέλεσης IAM που έχει εκχωρηθεί στον χρήστη Studio με την παραπάνω άδεια, ως διαχειριστής του IAM.

Στην κονσόλα IAM, επιλέξτε ρόλους στο παράθυρο πλοήγησης.
Επιλέξτε τον ρόλο που έχει εκχωρηθεί στον χρήστη του Studio.
Επιλέξτε Προσθέστε δικαιώματα.
Επιλέξτε Δημιουργία ενσωματωμένης πολιτικής.
Για Service, επιλέξτε Διαχειριστής μυστικών.
On Δράσεις, επιλέξτε Επίπεδο πρόσβασης.
Επιλέξτε Διαχείριση δικαιωμάτων.
Επιλέξτε PutResourcePolicy.
Για Υποστηρικτικό υλικό, επιλέξτε Ειδικοί και επιλέξτε Οποιοδήποτε σε αυτόν τον λογαριασμό.

Λήψη και διαχωρισμός του συνόλου δεδομένων

Μπορείτε να ξεκινήσετε από λήψη του συνόλου δεδομένων. Για λόγους επίδειξης, χωρίζουμε το σύνολο δεδομένων αντιγράφοντας τις στήλες χαρακτηριστικών id, emp_title, emp_length, home_owner, να annual_inc για να δημιουργήσετε ένα δεύτερο loans_2.csv αρχείο. Αφαιρούμε τις προαναφερθείσες στήλες από το αρχικό αρχείο δανείων εκτός από τις id στήλη και μετονομάστε το αρχικό αρχείο σε loans_1.csv. Ανεβάστε το loans_1.csv αρχείο στο Βάσεις δεδομένων για να δημιουργήσετε έναν πίνακα loans_1 και loans_2.csv σε έναν κάδο S3.

Δημιουργήστε μια ροή δεδομένων Wrangler

Για πληροφορίες σχετικά με τα προαπαιτούμενα του Data Wrangler, βλ Ξεκινήστε με το Data Wrangler.

Ας ξεκινήσουμε δημιουργώντας μια νέα ροή δεδομένων.

Στην κονσόλα Studio, στο Αρχεία μενού, επιλέξτε Νέα.
Επιλέξτε Ροή δεδομένων Wrangler.
Μετονομάστε τη ροή όπως θέλετε.

Εναλλακτικά, μπορείτε να δημιουργήσετε μια νέα ροή δεδομένων από το Launcher.

Στην κονσόλα Studio, επιλέξτε Στούντιο Amazon SageMaker στο παράθυρο πλοήγησης.
Επιλέξτε Νέα ροή δεδομένων.

Η δημιουργία μιας νέας ροής μπορεί να διαρκέσει μερικά λεπτά για να ολοκληρωθεί. Αφού δημιουργηθεί η ροή, βλέπετε το Εισαγωγή δεδομένων .

Εισαγάγετε δεδομένα από το Databricks στο Data Wrangler

Στη συνέχεια, ρυθμίσαμε τα Databricks (JDBC) ως πηγή δεδομένων στο Data Wrangler. Για την εισαγωγή δεδομένων από το Databricks, πρέπει πρώτα να προσθέσουμε τα Databricks ως πηγή δεδομένων.

Στις Εισαγωγή δεδομένων καρτέλα της ροής του Data Wrangler, επιλέξτε Προσθήκη πηγής δεδομένων.
Στο αναπτυσσόμενο μενού, επιλέξτε Τούβλα δεδομένων (JDBC).

Στις Εισαγωγή δεδομένων από Databricks σελίδα, εισάγετε τα στοιχεία του συμπλέγματός σας.

Για Όνομα στοιχείου δεδομένων, πληκτρολογήστε ένα όνομα που θέλετε να χρησιμοποιήσετε στο αρχείο ροής.
Για Οδηγός, επιλέξτε τον οδηγό com.simba.spark.jdbc.Driver.
Για JDBC URL, εισαγάγετε τη διεύθυνση URL του συμπλέγματος Databricks που λάβατε νωρίτερα.

Η διεύθυνση URL πρέπει να μοιάζει με την ακόλουθη μορφή jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

Στο πρόγραμμα επεξεργασίας ερωτημάτων SQL, καθορίστε την ακόλουθη πρόταση SQL SELECT:
```
select * from loans_1
```

Εάν επιλέξατε διαφορετικό όνομα πίνακα κατά τη μεταφόρτωση δεδομένων στο Databricks, αντικαταστήστε το loans_1 στο παραπάνω ερώτημα SQL ανάλογα.

Στο Ερώτημα SQL ενότητα στο Data Wrangler, μπορείτε να ρωτήσετε οποιονδήποτε πίνακα είναι συνδεδεμένος στη βάση δεδομένων JDBC Databricks. Οι προεπιλεγμένοι Ενεργοποίηση δειγματοληψίας Η ρύθμιση ανακτά τις πρώτες 50,000 σειρές του συνόλου δεδομένων σας από προεπιλογή. Ανάλογα με το μέγεθος του συνόλου δεδομένων, αποεπιλογή Ενεργοποίηση δειγματοληψίας μπορεί να οδηγήσει σε μεγαλύτερο χρόνο εισαγωγής.

Επιλέξτε τρέξιμο.

Η εκτέλεση του ερωτήματος παρέχει μια προεπισκόπηση του συνόλου δεδομένων σας Databricks απευθείας στο Data Wrangler.

Επιλέξτε εισαγωγή.

Το Data Wrangler παρέχει την ευελιξία για τη δημιουργία πολλαπλών ταυτόχρονων συνδέσεων σε ένα σύμπλεγμα Databricks ή πολλαπλά συμπλέγματα εάν απαιτείται, επιτρέποντας την ανάλυση και την προετοιμασία σε συνδυασμένα σύνολα δεδομένων.

Εισαγάγετε τα δεδομένα από το Amazon S3 στο Data Wrangler

Στη συνέχεια, ας εισάγουμε το loan_2.csv αρχείο από το Amazon S3.

Στην καρτέλα Εισαγωγή, επιλέξτε Amazon S3 ως πηγή δεδομένων.
Πλοηγηθείτε στον κάδο S3 για το loan_2.csv αρχείο.

Όταν επιλέγετε το αρχείο CSV, μπορείτε να κάνετε προεπισκόπηση των δεδομένων.

Στο Περιγραφή παράθυρο, επιλέξτε Προηγμένη διαμόρφωση για να βεβαιωθείτε ότι Ενεργοποίηση δειγματοληψίας επιλέγεται και ΠΑΡΑΓΡΑΦΟΣ επιλέγεται για Διαχωριστής.
Επιλέξτε εισαγωγή.

Μετά το loans_2.csv Το σύνολο δεδομένων εισήχθη με επιτυχία, η διεπαφή ροής δεδομένων εμφανίζει και τις πηγές δεδομένων Databricks JDBC και Amazon S3.

Ενώστε τα δεδομένα

Τώρα που έχουμε εισαγάγει δεδομένα από το Databricks και το Amazon S3, ας ενώσουμε τα σύνολα δεδομένων χρησιμοποιώντας μια κοινή στήλη μοναδικού αναγνωριστικού.

Στις Ροή δεδομένων καρτέλα, για Τύποι δεδομένων, επιλέξτε το σύμβολο συν για loans_1.
Επιλέξτε Συμμετοχή.
Επιλέξτε loans_2.csv αρχείο ως το Δεξί σύνολο δεδομένων
Επιλέξτε Διαμορφώστε για να ορίσετε τα κριτήρια ένταξης.
Για Όνομα, πληκτρολογήστε ένα όνομα για την ένωση.
Για Τύπος συμμετοχής, επιλέξτε Εσωτερικός για αυτήν την ανάρτηση.
Επιλέξτε id στήλη για να συμμετάσχετε.
Επιλέξτε Εφαρμογή για προεπισκόπηση του ενωμένου δεδομένων.
Επιλέξτε Πρόσθεση για να το προσθέσετε στη ροή δεδομένων.

Εφαρμόστε μετασχηματισμούς

Το Data Wrangler διαθέτει πάνω από 300 ενσωματωμένους μετασχηματισμούς, οι οποίοι δεν απαιτούν κωδικοποίηση. Ας χρησιμοποιήσουμε ενσωματωμένους μετασχηματισμούς για να προετοιμάσουμε το σύνολο δεδομένων.

Πτώση στήλης

Αρχικά ρίχνουμε την περιττή στήλη ID.

Στον ενωμένο κόμβο, επιλέξτε το σύμβολο συν.
Επιλέξτε Προσθήκη μετασχηματισμού.
Κάτω από Μεταμορφώσεις, Choose + Προσθήκη βήματος.
Επιλέξτε Διαχείριση στηλών.
Για Μεταμορφώστε, επιλέξτε Πτώση στήλης.
Για Στήλες για πτώση, επιλέξτε τη στήλη id_0.
Επιλέξτε Προβολή.
Επιλέξτε Πρόσθεση.

Μορφοποίηση συμβολοσειράς

Ας εφαρμόσουμε μορφοποίηση συμβολοσειράς για να αφαιρέσουμε το σύμβολο ποσοστού από το int_rate και revol_util στήλες.

Στις ημερομηνία καρτέλα, κάτω Μεταμορφώσεις, επιλέξτε + Προσθήκη βήματος.
Επιλέξτε Μορφοποίηση συμβολοσειράς.
Για Μεταμορφώστε, επιλέξτε Αφαιρέστε τους χαρακτήρες από τα δεξιά.

Το Data Wrangler σάς επιτρέπει να εφαρμόσετε τον μετασχηματισμό που έχετε επιλέξει σε πολλές στήλες ταυτόχρονα.

Για Στήλες εισαγωγής, επιλέξτε int_rate και revol_util.
Για Χαρακτήρες προς κατάργηση, εισαγω %.
Επιλέξτε Προβολή.
Επιλέξτε Πρόσθεση.

Προβολή κειμένου

Ας διανυσματοποιήσουμε τώρα verification_status, μια στήλη χαρακτηριστικών κειμένου. Μετατρέπουμε τη στήλη κειμένου σε διανύσματα όρου συχνότητα-αντίστροφη συχνότητα εγγράφου (TF-IDF) εφαρμόζοντας τον διανυσματοποιητή μέτρησης και έναν τυπικό διανυσματιστή όπως περιγράφεται παρακάτω. Το Data Wrangler παρέχει επίσης την επιλογή να φέρετε το δικό σας tokenizer, εάν το επιθυμείτε.

Κάτω από transformers, επιλέξτε + Προσθήκη βήματος.
Επιλέξτε Προβολή κειμένου.
Για Μεταμορφώστε, επιλέξτε Διάνυσμα.
Για Στήλες εισαγωγής, επιλέξτε verification_status.
Επιλέξτε Προβολή.
Επιλέξτε Πρόσθεση.

Εξαγωγή του συνόλου δεδομένων

Αφού εφαρμόσουμε πολλαπλούς μετασχηματισμούς σε διαφορετικούς τύπους στηλών, συμπεριλαμβανομένων κειμένου, κατηγοριών και αριθμητικών, είμαστε έτοιμοι να χρησιμοποιήσουμε το μετασχηματισμένο σύνολο δεδομένων για εκπαίδευση μοντέλων ML. Το τελευταίο βήμα είναι η εξαγωγή του μετασχηματισμένου δεδομένων στο Amazon S3. Στο Data Wrangler, έχετε πολλές επιλογές για να διαλέξετε για την κατάντη κατανάλωση των μετασχηματισμών:

Επιλέξτε Βήμα εξαγωγής για να δημιουργήσετε αυτόματα ένα σημειωματάριο Jupyter με κώδικα SageMaker Processing για επεξεργασία και εξαγωγή του μετασχηματισμένου δεδομένων σε έναν κάδο S3. Για περισσότερες πληροφορίες, δείτε το Εκκινήστε εργασίες επεξεργασίας με μερικά κλικ χρησιμοποιώντας το Amazon SageMaker Data Wrangler.
Εξαγωγή σημειωματάριου Studio που δημιουργεί α αγωγός SageMaker με τη ροή δεδομένων σας ή ένα σημειωματάριο που δημιουργεί ένα Κατάστημα χαρακτηριστικών Amazon SageMaker ομάδα χαρακτηριστικών και προσθέτει λειτουργίες σε ένα κατάστημα λειτουργιών εκτός σύνδεσης ή στο διαδίκτυο.
Επιλέξτε Εξαγωγή δεδομένων για απευθείας εξαγωγή στο Amazon S3.

Σε αυτή την ανάρτηση, εκμεταλλευόμαστε το Εξαγωγή δεδομένων επιλογή του Μεταμορφώστε προβολή για εξαγωγή του μετασχηματισμένου δεδομένων απευθείας στο Amazon S3.

Επιλέξτε Εξαγωγή δεδομένων.
Για S3 τοποθεσία, επιλέξτε Αναζήτηση και επιλέξτε τον κάδο S3 σας.
Επιλέξτε Εξαγωγή δεδομένων.

εκκαθάριση

Εάν η εργασία σας με το Data Wrangler έχει ολοκληρωθεί, τερματίστε την παρουσία δεδομένων Wrangler για να αποφευχθούν επιπλέον χρεώσεις.

Συμπέρασμα

Σε αυτήν την ανάρτηση, καλύψαμε πώς μπορείτε γρήγορα και εύκολα να ρυθμίσετε και να συνδέσετε τα Databricks ως πηγή δεδομένων στο Data Wrangler, να ρωτήσετε διαδραστικά δεδομένα που είναι αποθηκευμένα στα Databricks χρησιμοποιώντας SQL και να κάνετε προεπισκόπηση δεδομένων πριν από την εισαγωγή. Επιπλέον, εξετάσαμε πώς μπορείτε να ενώσετε τα δεδομένα σας στο Databricks με δεδομένα που είναι αποθηκευμένα στο Amazon S3. Στη συνέχεια εφαρμόσαμε μετασχηματισμούς δεδομένων στο συνδυασμένο σύνολο δεδομένων για να δημιουργήσουμε μια διοχέτευση προετοιμασίας δεδομένων. Για να εξερευνήσετε περισσότερες δυνατότητες ανάλυσης του Data Wrangler, συμπεριλαμβανομένης της δημιουργίας αναφορών διαρροής στόχου και μεροληψίας, ανατρέξτε στην ακόλουθη ανάρτηση ιστολογίου Επιταχύνετε την προετοιμασία δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler για πρόβλεψη επανεισδοχής διαβητικών ασθενών.

Για να ξεκινήσετε με το Data Wrangler, δείτε Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wranglerκαι δείτε τις πιο πρόσφατες πληροφορίες για το Data Wrangler σελίδα του προϊόντος.

Σχετικά με τους Συγγραφείς

Roop Bains είναι αρχιτέκτονας λύσεων στο AWS με επίκεντρο την AI/ML. Είναι παθιασμένος με το να βοηθά τους πελάτες να καινοτομούν και να επιτύχουν τους επιχειρηματικούς τους στόχους χρησιμοποιώντας την Τεχνητή Νοημοσύνη και τη Μηχανική Μάθηση. Στον ελεύθερο χρόνο του, ο Ρουπ απολαμβάνει το διάβασμα και την πεζοπορία.

Ο Igor Alekseev είναι αρχιτέκτονας λύσεων συνεργατών στην AWS στα δεδομένα και την ανάλυση. Ο Igor συνεργάζεται με στρατηγικούς συνεργάτες, βοηθώντας τους να δημιουργήσουν περίπλοκες, βελτιστοποιημένες για AWS αρχιτεκτονικές. Πριν ενταχθεί στην AWS, ως αρχιτέκτονας δεδομένων/λύσεων, υλοποίησε πολλά έργα σε Big Data, συμπεριλαμβανομένων πολλών λιμνών δεδομένων στο οικοσύστημα Hadoop. Ως Μηχανικός Δεδομένων, συμμετείχε στην εφαρμογή AI/ML στον εντοπισμό απάτης και στον αυτοματισμό γραφείου. Τα έργα του Igor αφορούσαν μια ποικιλία βιομηχανιών, συμπεριλαμβανομένων των επικοινωνιών, των οικονομικών, της δημόσιας ασφάλειας, της κατασκευής και της υγειονομικής περίθαλψης. Νωρίτερα, ο Igor εργάστηκε ως full stack engineer/tech lead.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Huong Nguyen είναι διευθυντής προϊόντων Sr. στο AWS. Ηγείται της εμπειρίας χρήστη για το SageMaker Studio. Έχει 13 χρόνια εμπειρίας στη δημιουργία προϊόντων με γνώμονα τον πελάτη και βάσει δεδομένων τόσο για επιχειρηματικούς όσο και για καταναλωτικούς χώρους. Στον ελεύθερο χρόνο της, της αρέσει να διαβάζει, να είναι στη φύση και να περνάει χρόνο με την οικογένειά της.

Χένρι Γουάνγκ είναι μηχανικός ανάπτυξης λογισμικού στην AWS. Πρόσφατα εντάχθηκε στην ομάδα Data Wrangler μετά την αποφοίτησή του από το UC Davis. Ενδιαφέρεται για την επιστήμη των δεδομένων και τη μηχανική μάθηση και ασχολείται με την τρισδιάστατη εκτύπωση ως χόμπι.

Σφραγίδα ώρας: Μαρτίου 31, 2022

Σφραγίδα ώρας: 5 Ιανουαρίου 2024

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler

Αναδημοσίευση από τον Πλάτωνα

Επισκόπηση λύσεων

Προϋποθέσεις

Ρύθμιση τούβλων δεδομένων

Λάβετε τη διεύθυνση URL JDBC

Ρύθμιση Data Wrangler

Λήψη και διαχωρισμός του συνόλου δεδομένων

Δημιουργήστε μια ροή δεδομένων Wrangler

Εισαγάγετε δεδομένα από το Databricks στο Data Wrangler

Εισαγάγετε τα δεδομένα από το Amazon S3 στο Data Wrangler

Ενώστε τα δεδομένα

Εφαρμόστε μετασχηματισμούς

Πτώση στήλης

Μορφοποίηση συμβολοσειράς

Προβολή κειμένου

Εξαγωγή του συνόλου δεδομένων

εκκαθάριση

Συμπέρασμα

Σχετικά με τους Συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Onboard PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας

Μοτίβα φιλοξενίας μοντέλων στο SageMaker: Βέλτιστες πρακτικές στη δοκιμή και την ενημέρωση μοντέλων στο SageMaker

Χρησιμοποιήστε το RStudio στο Amazon SageMaker για να δημιουργήσετε ρυθμιστικές υποβολές για τον κλάδο των βιοεπιστημών

Computer vision με χρήση συνθετικών συνόλων δεδομένων με προσαρμοσμένες ετικέτες Amazon Rekognition και Dassault Systèmes 3DEXCITE

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός