Οι ομάδες επιστήμης δεδομένων και μηχανικής δεδομένων αφιερώνουν σημαντικό μέρος του χρόνου τους στη φάση προετοιμασίας δεδομένων ενός κύκλου ζωής μηχανικής μάθησης (ML) εκτελώντας βήματα επιλογής δεδομένων, καθαρισμού και μετασχηματισμού. Είναι ένα απαραίτητο και σημαντικό βήμα οποιασδήποτε ροής εργασίας ML για τη δημιουργία ουσιαστικών πληροφοριών και προβλέψεων, επειδή τα κακά ή χαμηλής ποιότητας δεδομένα μειώνουν σημαντικά τη συνάφεια των πληροφοριών που προκύπτουν.
Οι ομάδες μηχανικής δεδομένων είναι παραδοσιακά υπεύθυνες για την απορρόφηση, την ενοποίηση και τον μετασχηματισμό των ακατέργαστων δεδομένων για κατάντη κατανάλωση. Οι επιστήμονες δεδομένων συχνά χρειάζεται να κάνουν πρόσθετη επεξεργασία δεδομένων για περιπτώσεις χρήσης ML για συγκεκριμένο τομέα, όπως φυσική γλώσσα και χρονοσειρές. Για παράδειγμα, ορισμένοι αλγόριθμοι ML μπορεί να είναι ευαίσθητοι σε τιμές που λείπουν, αραιά χαρακτηριστικά ή ακραίες τιμές και απαιτούν ιδιαίτερη προσοχή. Ακόμη και σε περιπτώσεις όπου το σύνολο δεδομένων είναι σε καλή κατάσταση, οι επιστήμονες δεδομένων μπορεί να θέλουν να μεταμορφώσουν τις κατανομές χαρακτηριστικών ή να δημιουργήσουν νέα χαρακτηριστικά προκειμένου να μεγιστοποιήσουν τις γνώσεις που λαμβάνονται από τα μοντέλα. Για να επιτευχθούν αυτοί οι στόχοι, οι επιστήμονες δεδομένων πρέπει να βασίζονται σε ομάδες μηχανικής δεδομένων για την αντιμετώπιση των ζητούμενων αλλαγών, με αποτέλεσμα την εξάρτηση και την καθυστέρηση στη διαδικασία ανάπτυξης του μοντέλου. Εναλλακτικά, οι ομάδες επιστήμης δεδομένων μπορούν να επιλέξουν να εκτελέσουν προετοιμασία δεδομένων και μηχανική χαρακτηριστικών εσωτερικά χρησιμοποιώντας διάφορα παραδείγματα προγραμματισμού. Ωστόσο, απαιτεί μια επένδυση χρόνου και προσπάθειας για την εγκατάσταση και τη διαμόρφωση βιβλιοθηκών και πλαισίων, κάτι που δεν είναι ιδανικό γιατί αυτός ο χρόνος μπορεί να δαπανηθεί καλύτερα για τη βελτιστοποίηση της απόδοσης του μοντέλου.
Amazon SageMaker Data Wrangler απλοποιεί τη διαδικασία προετοιμασίας δεδομένων και μηχανικής χαρακτηριστικών, μειώνοντας τον χρόνο που απαιτείται για τη συγκέντρωση και προετοιμασία δεδομένων για ML από εβδομάδες σε λεπτά, παρέχοντας μια ενιαία οπτική διεπαφή για τους επιστήμονες δεδομένων για την επιλογή, τον καθαρισμό και την εξερεύνηση των συνόλων δεδομένων τους. Το Data Wrangler προσφέρει πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων για να βοηθήσει στην ομαλοποίηση, τον μετασχηματισμό και τον συνδυασμό χαρακτηριστικών χωρίς τη σύνταξη κώδικα. Μπορείτε να εισάγετε δεδομένα από πολλές πηγές δεδομένων, όπως π.χ Amazon Simple Storage Service (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, να Νιφάδα χιονιού. Τώρα μπορείτε επίσης να χρησιμοποιήσετε Βάσεις δεδομένων ως πηγή δεδομένων στο Data Wrangler για εύκολη προετοιμασία δεδομένων για ML.
Η πλατφόρμα Databricks Lakehouse συνδυάζει τα καλύτερα στοιχεία των λιμνών δεδομένων και των αποθηκών δεδομένων για να προσφέρει την αξιοπιστία, την ισχυρή διακυβέρνηση και την απόδοση των αποθηκών δεδομένων με τη διαφάνεια, την ευελιξία και την υποστήριξη μηχανικής εκμάθησης των λιμνών δεδομένων. Με το Databricks ως πηγή δεδομένων για το Data Wrangler, μπορείτε πλέον να συνδεθείτε γρήγορα και εύκολα με τα Databricks, να υποβάλετε ερωτήματα στα δεδομένα που είναι αποθηκευμένα στα Databricks χρησιμοποιώντας SQL και να κάνετε προεπισκόπηση δεδομένων πριν από την εισαγωγή. Επιπλέον, μπορείτε να ενώσετε τα δεδομένα σας στο Databricks με δεδομένα που είναι αποθηκευμένα στο Amazon S3 και τα δεδομένα που αναζητούνται μέσω των Amazon Athena, Amazon Redshift και Snowflake για να δημιουργήσετε το σωστό σύνολο δεδομένων για την περίπτωση χρήσης ML.
Σε αυτήν την ανάρτηση, μετασχηματίζουμε το σύνολο δεδομένων Lending Club Loan χρησιμοποιώντας το Amazon SageMaker Data Wrangler για χρήση στην εκπαίδευση μοντέλων ML.
Επισκόπηση λύσεων
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεών μας.
Το σύνολο δεδομένων Lending Club Loan περιέχει πλήρη δεδομένα δανείων για όλα τα δάνεια που εκδόθηκαν κατά την περίοδο 2007–2011, συμπεριλαμβανομένης της τρέχουσας κατάστασης δανείου και των πιο πρόσφατων πληροφοριών πληρωμής. Έχει 39,717 σειρές, 22 στήλες χαρακτηριστικών και 3 ετικέτες στόχου.
Για να μετατρέψουμε τα δεδομένα μας χρησιμοποιώντας το Data Wrangler, ολοκληρώνουμε τα ακόλουθα βήματα υψηλού επιπέδου:
- Λήψη και διαχωρισμός του συνόλου δεδομένων.
- Δημιουργήστε μια ροή δεδομένων Wrangler.
- Εισαγάγετε δεδομένα από το Databricks στο Data Wrangler.
- Εισαγάγετε δεδομένα από το Amazon S3 στο Data Wrangler.
- Ενώστε τα δεδομένα.
- Εφαρμόστε μετασχηματισμούς.
- Εξαγωγή του συνόλου δεδομένων.
Προϋποθέσεις
Η ανάρτηση προϋποθέτει ότι έχετε ένα σύμπλεγμα Databricks που εκτελείται. Εάν το σύμπλεγμα σας εκτελείται σε AWS, βεβαιωθείτε ότι έχετε διαμορφώσει τα ακόλουθα:
Ρύθμιση τούβλων δεδομένων
- An προφίλ παράδειγμα με τα απαιτούμενα δικαιώματα πρόσβασης σε έναν κάδο S3
- A πολιτική κουβά με τα απαιτούμενα δικαιώματα για τον κάδο στόχο S3
Ακολουθώ Ασφαλής πρόσβαση σε κάδους S3 χρησιμοποιώντας προφίλ περιπτώσεων για τα απαιτούμενα Διαχείριση ταυτότητας και πρόσβασης AWS ρόλοι (IAM), πολιτική κάδου S3 και διαμόρφωση συμπλέγματος Databricks. Βεβαιωθείτε ότι το σύμπλεγμα Databricks έχει ρυθμιστεί σωστά Instance Profile
, επιλεγμένο στις προηγμένες επιλογές, για πρόσβαση στον επιθυμητό κάδο S3.
Αφού ενεργοποιηθεί και λειτουργεί το σύμπλεγμα Databricks με την απαιτούμενη πρόσβαση στο Amazon S3, μπορείτε να το ανακτήσετε JDBC URL
από το σύμπλεγμα Databricks που θα χρησιμοποιηθεί από το Data Wrangler για σύνδεση σε αυτό.
Λάβετε τη διεύθυνση URL JDBC
Για να λάβετε τη διεύθυνση URL JDBC, ολοκληρώστε τα παρακάτω βήματα:
- Στο Databricks, μεταβείτε στη διεπαφή χρήστη συμπλέγματος.
- Επιλέξτε το σύμπλεγμα σας.
- Στις διαμόρφωση καρτέλα, επιλέξτε Επιλογές για προχωρημένους.
- Κάτω από Επιλογές για προχωρημένους, επιλέξτε το JDBC/ODBC Tab.
- Αντιγράψτε τη διεύθυνση URL του JDBC.
Φροντίστε να αντικαταστήσετε την προσωπική σας πρόσβαση ένδειξη στη διεύθυνση URL.
Ρύθμιση Data Wrangler
Αυτό το βήμα προϋποθέτει ότι έχετε πρόσβαση στο Amazon SageMaker, ένα παράδειγμα Στούντιο Amazon SageMakerκαι χρήστη του Studio.
Για να επιτρέπεται η πρόσβαση στη σύνδεση Databricks JDBC από το Data Wrangler, ο χρήστης του Studio απαιτεί την ακόλουθη άδεια:
secretsmanager:PutResourcePolicy
Ακολουθήστε τα παρακάτω βήματα για να ενημερώσετε τον ρόλο εκτέλεσης IAM που έχει εκχωρηθεί στον χρήστη Studio με την παραπάνω άδεια, ως διαχειριστής του IAM.
- Στην κονσόλα IAM, επιλέξτε ρόλους στο παράθυρο πλοήγησης.
- Επιλέξτε τον ρόλο που έχει εκχωρηθεί στον χρήστη του Studio.
- Επιλέξτε Προσθέστε δικαιώματα.
- Επιλέξτε Δημιουργία ενσωματωμένης πολιτικής.
- Για Service, επιλέξτε Διαχειριστής μυστικών.
- On Δράσεις, επιλέξτε Επίπεδο πρόσβασης.
- Επιλέξτε Διαχείριση δικαιωμάτων.
- Επιλέξτε PutResourcePolicy.
- Για Υποστηρικτικό υλικό, επιλέξτε Ειδικοί και επιλέξτε Οποιοδήποτε σε αυτόν τον λογαριασμό.
Λήψη και διαχωρισμός του συνόλου δεδομένων
Μπορείτε να ξεκινήσετε από λήψη του συνόλου δεδομένων. Για λόγους επίδειξης, χωρίζουμε το σύνολο δεδομένων αντιγράφοντας τις στήλες χαρακτηριστικών id
, emp_title
, emp_length
, home_owner
, να annual_inc
για να δημιουργήσετε ένα δεύτερο loans_2.csv αρχείο. Αφαιρούμε τις προαναφερθείσες στήλες από το αρχικό αρχείο δανείων εκτός από τις id
στήλη και μετονομάστε το αρχικό αρχείο σε loans_1.csv. Ανεβάστε το loans_1.csv αρχείο στο Βάσεις δεδομένων για να δημιουργήσετε έναν πίνακα loans_1
και loans_2.csv σε έναν κάδο S3.
Δημιουργήστε μια ροή δεδομένων Wrangler
Για πληροφορίες σχετικά με τα προαπαιτούμενα του Data Wrangler, βλ Ξεκινήστε με το Data Wrangler.
Ας ξεκινήσουμε δημιουργώντας μια νέα ροή δεδομένων.
- Στην κονσόλα Studio, στο Αρχεία μενού, επιλέξτε Νέα.
- Επιλέξτε Ροή δεδομένων Wrangler.
- Μετονομάστε τη ροή όπως θέλετε.
Εναλλακτικά, μπορείτε να δημιουργήσετε μια νέα ροή δεδομένων από το Launcher.
- Στην κονσόλα Studio, επιλέξτε Στούντιο Amazon SageMaker στο παράθυρο πλοήγησης.
- Επιλέξτε Νέα ροή δεδομένων.
Η δημιουργία μιας νέας ροής μπορεί να διαρκέσει μερικά λεπτά για να ολοκληρωθεί. Αφού δημιουργηθεί η ροή, βλέπετε το Εισαγωγή δεδομένων .
Εισαγάγετε δεδομένα από το Databricks στο Data Wrangler
Στη συνέχεια, ρυθμίσαμε τα Databricks (JDBC) ως πηγή δεδομένων στο Data Wrangler. Για την εισαγωγή δεδομένων από το Databricks, πρέπει πρώτα να προσθέσουμε τα Databricks ως πηγή δεδομένων.
- Στις Εισαγωγή δεδομένων καρτέλα της ροής του Data Wrangler, επιλέξτε Προσθήκη πηγής δεδομένων.
- Στο αναπτυσσόμενο μενού, επιλέξτε Τούβλα δεδομένων (JDBC).
Στις Εισαγωγή δεδομένων από Databricks σελίδα, εισάγετε τα στοιχεία του συμπλέγματός σας.
- Για Όνομα στοιχείου δεδομένων, πληκτρολογήστε ένα όνομα που θέλετε να χρησιμοποιήσετε στο αρχείο ροής.
- Για Οδηγός, επιλέξτε τον οδηγό
com.simba.spark.jdbc.Driver
. - Για JDBC URL, εισαγάγετε τη διεύθυνση URL του συμπλέγματος Databricks που λάβατε νωρίτερα.
Η διεύθυνση URL πρέπει να μοιάζει με την ακόλουθη μορφή jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>
.
- Στο πρόγραμμα επεξεργασίας ερωτημάτων SQL, καθορίστε την ακόλουθη πρόταση SQL SELECT:
Εάν επιλέξατε διαφορετικό όνομα πίνακα κατά τη μεταφόρτωση δεδομένων στο Databricks, αντικαταστήστε το loans_1 στο παραπάνω ερώτημα SQL ανάλογα.
Στο Ερώτημα SQL ενότητα στο Data Wrangler, μπορείτε να ρωτήσετε οποιονδήποτε πίνακα είναι συνδεδεμένος στη βάση δεδομένων JDBC Databricks. Οι προεπιλεγμένοι Ενεργοποίηση δειγματοληψίας Η ρύθμιση ανακτά τις πρώτες 50,000 σειρές του συνόλου δεδομένων σας από προεπιλογή. Ανάλογα με το μέγεθος του συνόλου δεδομένων, αποεπιλογή Ενεργοποίηση δειγματοληψίας μπορεί να οδηγήσει σε μεγαλύτερο χρόνο εισαγωγής.
- Επιλέξτε τρέξιμο.
Η εκτέλεση του ερωτήματος παρέχει μια προεπισκόπηση του συνόλου δεδομένων σας Databricks απευθείας στο Data Wrangler.
Το Data Wrangler παρέχει την ευελιξία για τη δημιουργία πολλαπλών ταυτόχρονων συνδέσεων σε ένα σύμπλεγμα Databricks ή πολλαπλά συμπλέγματα εάν απαιτείται, επιτρέποντας την ανάλυση και την προετοιμασία σε συνδυασμένα σύνολα δεδομένων.
Εισαγάγετε τα δεδομένα από το Amazon S3 στο Data Wrangler
Στη συνέχεια, ας εισάγουμε το loan_2.csv
αρχείο από το Amazon S3.
- Στην καρτέλα Εισαγωγή, επιλέξτε Amazon S3 ως πηγή δεδομένων.
- Πλοηγηθείτε στον κάδο S3 για το
loan_2.csv
αρχείο.
Όταν επιλέγετε το αρχείο CSV, μπορείτε να κάνετε προεπισκόπηση των δεδομένων.
- Στο Περιγραφή παράθυρο, επιλέξτε Προηγμένη διαμόρφωση για να βεβαιωθείτε ότι Ενεργοποίηση δειγματοληψίας επιλέγεται και ΠΑΡΑΓΡΑΦΟΣ επιλέγεται για Διαχωριστής.
- Επιλέξτε εισαγωγή.
Μετά το loans_2.csv
Το σύνολο δεδομένων εισήχθη με επιτυχία, η διεπαφή ροής δεδομένων εμφανίζει και τις πηγές δεδομένων Databricks JDBC και Amazon S3.
Ενώστε τα δεδομένα
Τώρα που έχουμε εισαγάγει δεδομένα από το Databricks και το Amazon S3, ας ενώσουμε τα σύνολα δεδομένων χρησιμοποιώντας μια κοινή στήλη μοναδικού αναγνωριστικού.
- Στις Ροή δεδομένων καρτέλα, για Τύποι δεδομένων, επιλέξτε το σύμβολο συν για
loans_1
. - Επιλέξτε Συμμετοχή.
- Επιλέξτε
loans_2.csv
αρχείο ως το Δεξί σύνολο δεδομένων - Επιλέξτε Διαμορφώστε για να ορίσετε τα κριτήρια ένταξης.
- Για Όνομα, πληκτρολογήστε ένα όνομα για την ένωση.
- Για Τύπος συμμετοχής, επιλέξτε Εσωτερικός για αυτήν την ανάρτηση.
- Επιλέξτε
id
στήλη για να συμμετάσχετε. - Επιλέξτε Εφαρμογή για προεπισκόπηση του ενωμένου δεδομένων.
- Επιλέξτε Πρόσθεση για να το προσθέσετε στη ροή δεδομένων.
Εφαρμόστε μετασχηματισμούς
Το Data Wrangler διαθέτει πάνω από 300 ενσωματωμένους μετασχηματισμούς, οι οποίοι δεν απαιτούν κωδικοποίηση. Ας χρησιμοποιήσουμε ενσωματωμένους μετασχηματισμούς για να προετοιμάσουμε το σύνολο δεδομένων.
Πτώση στήλης
Αρχικά ρίχνουμε την περιττή στήλη ID.
- Στον ενωμένο κόμβο, επιλέξτε το σύμβολο συν.
- Επιλέξτε Προσθήκη μετασχηματισμού.
- Κάτω από Μεταμορφώσεις, Choose + Προσθήκη βήματος.
- Επιλέξτε Διαχείριση στηλών.
- Για Μεταμορφώστε, επιλέξτε Πτώση στήλης.
- Για Στήλες για πτώση, επιλέξτε τη στήλη
id_0
. - Επιλέξτε Προβολή.
- Επιλέξτε Πρόσθεση.
Μορφοποίηση συμβολοσειράς
Ας εφαρμόσουμε μορφοποίηση συμβολοσειράς για να αφαιρέσουμε το σύμβολο ποσοστού από το int_rate
και revol_util
στήλες.
- Στις ημερομηνία καρτέλα, κάτω Μεταμορφώσεις, επιλέξτε + Προσθήκη βήματος.
- Επιλέξτε Μορφοποίηση συμβολοσειράς.
- Για Μεταμορφώστε, επιλέξτε Αφαιρέστε τους χαρακτήρες από τα δεξιά.
Το Data Wrangler σάς επιτρέπει να εφαρμόσετε τον μετασχηματισμό που έχετε επιλέξει σε πολλές στήλες ταυτόχρονα.
- Για Στήλες εισαγωγής, επιλέξτε
int_rate
καιrevol_util
. - Για Χαρακτήρες προς κατάργηση, εισαγω
%
. - Επιλέξτε Προβολή.
- Επιλέξτε Πρόσθεση.
Προβολή κειμένου
Ας διανυσματοποιήσουμε τώρα verification_status
, μια στήλη χαρακτηριστικών κειμένου. Μετατρέπουμε τη στήλη κειμένου σε διανύσματα όρου συχνότητα-αντίστροφη συχνότητα εγγράφου (TF-IDF) εφαρμόζοντας τον διανυσματοποιητή μέτρησης και έναν τυπικό διανυσματιστή όπως περιγράφεται παρακάτω. Το Data Wrangler παρέχει επίσης την επιλογή να φέρετε το δικό σας tokenizer, εάν το επιθυμείτε.
- Κάτω από transformers, επιλέξτε + Προσθήκη βήματος.
- Επιλέξτε Προβολή κειμένου.
- Για Μεταμορφώστε, επιλέξτε Διάνυσμα.
- Για Στήλες εισαγωγής, επιλέξτε
verification_status
. - Επιλέξτε Προβολή.
- Επιλέξτε Πρόσθεση.
Εξαγωγή του συνόλου δεδομένων
Αφού εφαρμόσουμε πολλαπλούς μετασχηματισμούς σε διαφορετικούς τύπους στηλών, συμπεριλαμβανομένων κειμένου, κατηγοριών και αριθμητικών, είμαστε έτοιμοι να χρησιμοποιήσουμε το μετασχηματισμένο σύνολο δεδομένων για εκπαίδευση μοντέλων ML. Το τελευταίο βήμα είναι η εξαγωγή του μετασχηματισμένου δεδομένων στο Amazon S3. Στο Data Wrangler, έχετε πολλές επιλογές για να διαλέξετε για την κατάντη κατανάλωση των μετασχηματισμών:
- Επιλέξτε Βήμα εξαγωγής για να δημιουργήσετε αυτόματα ένα σημειωματάριο Jupyter με κώδικα SageMaker Processing για επεξεργασία και εξαγωγή του μετασχηματισμένου δεδομένων σε έναν κάδο S3. Για περισσότερες πληροφορίες, δείτε το Εκκινήστε εργασίες επεξεργασίας με μερικά κλικ χρησιμοποιώντας το Amazon SageMaker Data Wrangler.
- Εξαγωγή σημειωματάριου Studio που δημιουργεί α αγωγός SageMaker με τη ροή δεδομένων σας ή ένα σημειωματάριο που δημιουργεί ένα Κατάστημα χαρακτηριστικών Amazon SageMaker ομάδα χαρακτηριστικών και προσθέτει λειτουργίες σε ένα κατάστημα λειτουργιών εκτός σύνδεσης ή στο διαδίκτυο.
- Επιλέξτε Εξαγωγή δεδομένων για απευθείας εξαγωγή στο Amazon S3.
Σε αυτή την ανάρτηση, εκμεταλλευόμαστε το Εξαγωγή δεδομένων επιλογή του Μεταμορφώστε προβολή για εξαγωγή του μετασχηματισμένου δεδομένων απευθείας στο Amazon S3.
- Επιλέξτε Εξαγωγή δεδομένων.
- Για S3 τοποθεσία, επιλέξτε Αναζήτηση και επιλέξτε τον κάδο S3 σας.
- Επιλέξτε Εξαγωγή δεδομένων.
εκκαθάριση
Εάν η εργασία σας με το Data Wrangler έχει ολοκληρωθεί, τερματίστε την παρουσία δεδομένων Wrangler για να αποφευχθούν επιπλέον χρεώσεις.
Συμπέρασμα
Σε αυτήν την ανάρτηση, καλύψαμε πώς μπορείτε γρήγορα και εύκολα να ρυθμίσετε και να συνδέσετε τα Databricks ως πηγή δεδομένων στο Data Wrangler, να ρωτήσετε διαδραστικά δεδομένα που είναι αποθηκευμένα στα Databricks χρησιμοποιώντας SQL και να κάνετε προεπισκόπηση δεδομένων πριν από την εισαγωγή. Επιπλέον, εξετάσαμε πώς μπορείτε να ενώσετε τα δεδομένα σας στο Databricks με δεδομένα που είναι αποθηκευμένα στο Amazon S3. Στη συνέχεια εφαρμόσαμε μετασχηματισμούς δεδομένων στο συνδυασμένο σύνολο δεδομένων για να δημιουργήσουμε μια διοχέτευση προετοιμασίας δεδομένων. Για να εξερευνήσετε περισσότερες δυνατότητες ανάλυσης του Data Wrangler, συμπεριλαμβανομένης της δημιουργίας αναφορών διαρροής στόχου και μεροληψίας, ανατρέξτε στην ακόλουθη ανάρτηση ιστολογίου Επιταχύνετε την προετοιμασία δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler για πρόβλεψη επανεισδοχής διαβητικών ασθενών.
Για να ξεκινήσετε με το Data Wrangler, δείτε Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wranglerκαι δείτε τις πιο πρόσφατες πληροφορίες για το Data Wrangler σελίδα του προϊόντος.
Σχετικά με τους Συγγραφείς
Roop Bains είναι αρχιτέκτονας λύσεων στο AWS με επίκεντρο την AI/ML. Είναι παθιασμένος με το να βοηθά τους πελάτες να καινοτομούν και να επιτύχουν τους επιχειρηματικούς τους στόχους χρησιμοποιώντας την Τεχνητή Νοημοσύνη και τη Μηχανική Μάθηση. Στον ελεύθερο χρόνο του, ο Ρουπ απολαμβάνει το διάβασμα και την πεζοπορία.
Ο Igor Alekseev είναι αρχιτέκτονας λύσεων συνεργατών στην AWS στα δεδομένα και την ανάλυση. Ο Igor συνεργάζεται με στρατηγικούς συνεργάτες, βοηθώντας τους να δημιουργήσουν περίπλοκες, βελτιστοποιημένες για AWS αρχιτεκτονικές. Πριν ενταχθεί στην AWS, ως αρχιτέκτονας δεδομένων/λύσεων, υλοποίησε πολλά έργα σε Big Data, συμπεριλαμβανομένων πολλών λιμνών δεδομένων στο οικοσύστημα Hadoop. Ως Μηχανικός Δεδομένων, συμμετείχε στην εφαρμογή AI/ML στον εντοπισμό απάτης και στον αυτοματισμό γραφείου. Τα έργα του Igor αφορούσαν μια ποικιλία βιομηχανιών, συμπεριλαμβανομένων των επικοινωνιών, των οικονομικών, της δημόσιας ασφάλειας, της κατασκευής και της υγειονομικής περίθαλψης. Νωρίτερα, ο Igor εργάστηκε ως full stack engineer/tech lead.
Huong Nguyen είναι διευθυντής προϊόντων Sr. στο AWS. Ηγείται της εμπειρίας χρήστη για το SageMaker Studio. Έχει 13 χρόνια εμπειρίας στη δημιουργία προϊόντων με γνώμονα τον πελάτη και βάσει δεδομένων τόσο για επιχειρηματικούς όσο και για καταναλωτικούς χώρους. Στον ελεύθερο χρόνο της, της αρέσει να διαβάζει, να είναι στη φύση και να περνάει χρόνο με την οικογένειά της.
Χένρι Γουάνγκ είναι μηχανικός ανάπτυξης λογισμικού στην AWS. Πρόσφατα εντάχθηκε στην ομάδα Data Wrangler μετά την αποφοίτησή του από το UC Davis. Ενδιαφέρεται για την επιστήμη των δεδομένων και τη μηχανική μάθηση και ασχολείται με την τρισδιάστατη εκτύπωση ως χόμπι.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/prepare-data-from-databricks-for-machine-learning-using-amazon-sagemaker-data-wrangler/
- "
- 000
- 100
- 39
- 3d
- Σχετικα
- πρόσβαση
- φιλοξενώ
- Πρόσθετος
- προηγμένες
- Πλεονέκτημα
- αλγόριθμοι
- Όλα
- Amazon
- ανάλυση
- analytics
- εφαρμόζοντας
- αρχιτεκτονική
- τεχνητός
- τεχνητή νοημοσύνη
- Τεχνητή Νοημοσύνη και Εκμάθηση Μηχανών
- ανατεθεί
- Αυτοματοποίηση
- AWS
- είναι
- ΚΑΛΎΤΕΡΟΣ
- Big Data
- Μπλοκ
- σύνορο
- χτίζω
- ενσωματωμένο
- επιχείρηση
- δυνατότητες
- περιπτώσεις
- Επιλέξτε
- Καθάρισμα
- λέσχη
- κωδικός
- Κωδικοποίηση
- Στήλη
- σε συνδυασμό
- Κοινός
- Διαβιβάσεις
- συγκρότημα
- διαμόρφωση
- συνδεδεμένος
- σύνδεση
- Διασυνδέσεις
- εξέταση
- πρόξενος
- ενοποίηση
- καταναλωτής
- κατανάλωση
- Περιέχει
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- Ρεύμα
- Πελάτες
- ημερομηνία
- επιστημονικά δεδομένα
- βάση δεδομένων
- delay
- Σε συνάρτηση
- Ανίχνευση
- Ανάπτυξη
- διαφορετικές
- κατευθείαν
- οθόνες
- κάτω
- οδηγός
- Πτώση
- εύκολα
- οικοσύστημα
- συντάκτης
- ενεργοποιήσετε
- ενεργοποίηση
- μηχανικός
- Μηχανική
- εισάγετε
- Εταιρεία
- παράδειγμα
- Εκτός
- εκτέλεση
- εμπειρία
- διερευνήσει
- οικογένεια
- Χαρακτηριστικό
- Χαρακτηριστικά
- Τελη Εγγραφης
- χρηματοδότηση
- Όνομα
- Ευελιξία
- ροή
- Εξής
- μορφή
- απάτη
- πλήρη
- παράγουν
- γενεά
- καλός
- διακυβέρνησης
- Group
- υγειονομική περίθαλψη
- βοήθεια
- Πως
- HTTPS
- Ταυτότητα
- εφαρμοστεί
- σημαντικό
- εισαγωγή
- Συμπεριλαμβανομένου
- βιομηχανίες
- πληροφορίες
- ιδέες
- Νοημοσύνη
- τόκος
- περιβάλλον λειτουργίας
- επένδυση
- συμμετέχουν
- IT
- Θέσεις εργασίας
- ενταχθούν
- εντάχθηκαν
- Ετικέτες
- Γλώσσα
- αργότερο
- οδηγήσει
- που οδηγεί
- μάθηση
- δανεισμός
- Δάνεια
- κοίταξε
- μηχανή
- μάθηση μηχανής
- διευθυντής
- κατασκευής
- ML
- μοντέλο
- μοντέλα
- περισσότερο
- πολλαπλούς
- Φυσικό
- Φύση
- Πλοήγηση
- Νέες δυνατότητες
- σημειωματάριο
- προσφορές
- offline
- διαδικτυακά (online)
- Επιλογή
- Επιλογές
- τάξη
- δική
- εταίρος
- Συνεργάτες
- παθιασμένος
- πληρωμή
- ποσοστό
- επίδοση
- προσωπικός
- φάση
- πλατφόρμες
- πολιτική
- Προβλέψεις
- Προβολή
- διαδικασια μας
- Προϊόν
- Προϊόντα
- Προγραμματισμός
- έργα
- παρέχει
- χορήγηση
- δημόσιο
- σκοποί
- γρήγορα
- Ακατέργαστος
- Ανάγνωση
- μείωση
- αναφέρουν
- απαιτούν
- απαιτείται
- υπεύθυνος
- τρέξιμο
- Ασφάλεια
- Επιστήμη
- επιστήμονες
- επιλέγονται
- Σειρές
- υπηρεσία
- σειρά
- τον καθορισμό
- σημαντικός
- Απλούς
- Μέγεθος
- λογισμικό
- ανάπτυξη λογισμικού
- λύση
- Λύσεις
- χώρων
- δαπανήσει
- Δαπάνες
- διαίρεση
- σωρός
- πρότυπο
- Εκκίνηση
- ξεκίνησε
- Δήλωση
- Κατάσταση
- χώρος στο δίσκο
- κατάστημα
- Στρατηγική
- ισχυρός
- στούντιο
- Επιτυχώς
- υποστήριξη
- στόχος
- Μέσω
- ώρα
- Εκπαίδευση
- Μεταμορφώστε
- Μεταμόρφωση
- ui
- μοναδικός
- Ενημέρωση
- χρήση
- ποικιλία
- διάφορα
- ενώ
- χωρίς
- Εργασία
- εργάστηκαν
- λειτουργεί
- γραφή