Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler

Οι ομάδες επιστήμης δεδομένων και μηχανικής δεδομένων αφιερώνουν σημαντικό μέρος του χρόνου τους στη φάση προετοιμασίας δεδομένων ενός κύκλου ζωής μηχανικής μάθησης (ML) εκτελώντας βήματα επιλογής δεδομένων, καθαρισμού και μετασχηματισμού. Είναι ένα απαραίτητο και σημαντικό βήμα οποιασδήποτε ροής εργασίας ML για τη δημιουργία ουσιαστικών πληροφοριών και προβλέψεων, επειδή τα κακά ή χαμηλής ποιότητας δεδομένα μειώνουν σημαντικά τη συνάφεια των πληροφοριών που προκύπτουν.

Οι ομάδες μηχανικής δεδομένων είναι παραδοσιακά υπεύθυνες για την απορρόφηση, την ενοποίηση και τον μετασχηματισμό των ακατέργαστων δεδομένων για κατάντη κατανάλωση. Οι επιστήμονες δεδομένων συχνά χρειάζεται να κάνουν πρόσθετη επεξεργασία δεδομένων για περιπτώσεις χρήσης ML για συγκεκριμένο τομέα, όπως φυσική γλώσσα και χρονοσειρές. Για παράδειγμα, ορισμένοι αλγόριθμοι ML μπορεί να είναι ευαίσθητοι σε τιμές που λείπουν, αραιά χαρακτηριστικά ή ακραίες τιμές και απαιτούν ιδιαίτερη προσοχή. Ακόμη και σε περιπτώσεις όπου το σύνολο δεδομένων είναι σε καλή κατάσταση, οι επιστήμονες δεδομένων μπορεί να θέλουν να μεταμορφώσουν τις κατανομές χαρακτηριστικών ή να δημιουργήσουν νέα χαρακτηριστικά προκειμένου να μεγιστοποιήσουν τις γνώσεις που λαμβάνονται από τα μοντέλα. Για να επιτευχθούν αυτοί οι στόχοι, οι επιστήμονες δεδομένων πρέπει να βασίζονται σε ομάδες μηχανικής δεδομένων για την αντιμετώπιση των ζητούμενων αλλαγών, με αποτέλεσμα την εξάρτηση και την καθυστέρηση στη διαδικασία ανάπτυξης του μοντέλου. Εναλλακτικά, οι ομάδες επιστήμης δεδομένων μπορούν να επιλέξουν να εκτελέσουν προετοιμασία δεδομένων και μηχανική χαρακτηριστικών εσωτερικά χρησιμοποιώντας διάφορα παραδείγματα προγραμματισμού. Ωστόσο, απαιτεί μια επένδυση χρόνου και προσπάθειας για την εγκατάσταση και τη διαμόρφωση βιβλιοθηκών και πλαισίων, κάτι που δεν είναι ιδανικό γιατί αυτός ο χρόνος μπορεί να δαπανηθεί καλύτερα για τη βελτιστοποίηση της απόδοσης του μοντέλου.

Amazon SageMaker Data Wrangler απλοποιεί τη διαδικασία προετοιμασίας δεδομένων και μηχανικής χαρακτηριστικών, μειώνοντας τον χρόνο που απαιτείται για τη συγκέντρωση και προετοιμασία δεδομένων για ML από εβδομάδες σε λεπτά, παρέχοντας μια ενιαία οπτική διεπαφή για τους επιστήμονες δεδομένων για την επιλογή, τον καθαρισμό και την εξερεύνηση των συνόλων δεδομένων τους. Το Data Wrangler προσφέρει πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων για να βοηθήσει στην ομαλοποίηση, τον μετασχηματισμό και τον συνδυασμό χαρακτηριστικών χωρίς τη σύνταξη κώδικα. Μπορείτε να εισάγετε δεδομένα από πολλές πηγές δεδομένων, όπως π.χ Amazon Simple Storage Service (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, να Νιφάδα χιονιού. Τώρα μπορείτε επίσης να χρησιμοποιήσετε Βάσεις δεδομένων ως πηγή δεδομένων στο Data Wrangler για εύκολη προετοιμασία δεδομένων για ML.

Η πλατφόρμα Databricks Lakehouse συνδυάζει τα καλύτερα στοιχεία των λιμνών δεδομένων και των αποθηκών δεδομένων για να προσφέρει την αξιοπιστία, την ισχυρή διακυβέρνηση και την απόδοση των αποθηκών δεδομένων με τη διαφάνεια, την ευελιξία και την υποστήριξη μηχανικής εκμάθησης των λιμνών δεδομένων. Με το Databricks ως πηγή δεδομένων για το Data Wrangler, μπορείτε πλέον να συνδεθείτε γρήγορα και εύκολα με τα Databricks, να υποβάλετε ερωτήματα στα δεδομένα που είναι αποθηκευμένα στα Databricks χρησιμοποιώντας SQL και να κάνετε προεπισκόπηση δεδομένων πριν από την εισαγωγή. Επιπλέον, μπορείτε να ενώσετε τα δεδομένα σας στο Databricks με δεδομένα που είναι αποθηκευμένα στο Amazon S3 και τα δεδομένα που αναζητούνται μέσω των Amazon Athena, Amazon Redshift και Snowflake για να δημιουργήσετε το σωστό σύνολο δεδομένων για την περίπτωση χρήσης ML.

Σε αυτήν την ανάρτηση, μετασχηματίζουμε το σύνολο δεδομένων Lending Club Loan χρησιμοποιώντας το Amazon SageMaker Data Wrangler για χρήση στην εκπαίδευση μοντέλων ML.

Επισκόπηση λύσεων

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεών μας.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το σύνολο δεδομένων Lending Club Loan περιέχει πλήρη δεδομένα δανείων για όλα τα δάνεια που εκδόθηκαν κατά την περίοδο 2007–2011, συμπεριλαμβανομένης της τρέχουσας κατάστασης δανείου και των πιο πρόσφατων πληροφοριών πληρωμής. Έχει 39,717 σειρές, 22 στήλες χαρακτηριστικών και 3 ετικέτες στόχου.

Για να μετατρέψουμε τα δεδομένα μας χρησιμοποιώντας το Data Wrangler, ολοκληρώνουμε τα ακόλουθα βήματα υψηλού επιπέδου:

  1. Λήψη και διαχωρισμός του συνόλου δεδομένων.
  2. Δημιουργήστε μια ροή δεδομένων Wrangler.
  3. Εισαγάγετε δεδομένα από το Databricks στο Data Wrangler.
  4. Εισαγάγετε δεδομένα από το Amazon S3 στο Data Wrangler.
  5. Ενώστε τα δεδομένα.
  6. Εφαρμόστε μετασχηματισμούς.
  7. Εξαγωγή του συνόλου δεδομένων.

Προϋποθέσεις

Η ανάρτηση προϋποθέτει ότι έχετε ένα σύμπλεγμα Databricks που εκτελείται. Εάν το σύμπλεγμα σας εκτελείται σε AWS, βεβαιωθείτε ότι έχετε διαμορφώσει τα ακόλουθα:

Ρύθμιση τούβλων δεδομένων

Ακολουθώ Ασφαλής πρόσβαση σε κάδους S3 χρησιμοποιώντας προφίλ περιπτώσεων για τα απαιτούμενα Διαχείριση ταυτότητας και πρόσβασης AWS ρόλοι (IAM), πολιτική κάδου S3 και διαμόρφωση συμπλέγματος Databricks. Βεβαιωθείτε ότι το σύμπλεγμα Databricks έχει ρυθμιστεί σωστά Instance Profile, επιλεγμένο στις προηγμένες επιλογές, για πρόσβαση στον επιθυμητό κάδο S3.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αφού ενεργοποιηθεί και λειτουργεί το σύμπλεγμα Databricks με την απαιτούμενη πρόσβαση στο Amazon S3, μπορείτε να το ανακτήσετε JDBC URL από το σύμπλεγμα Databricks που θα χρησιμοποιηθεί από το Data Wrangler για σύνδεση σε αυτό.

Λάβετε τη διεύθυνση URL JDBC

Για να λάβετε τη διεύθυνση URL JDBC, ολοκληρώστε τα παρακάτω βήματα:

  1. Στο Databricks, μεταβείτε στη διεπαφή χρήστη συμπλέγματος.
  2. Επιλέξτε το σύμπλεγμα σας.
  3. Στις διαμόρφωση καρτέλα, επιλέξτε Επιλογές για προχωρημένους.
  4. Κάτω από Επιλογές για προχωρημένους, επιλέξτε το JDBC/ODBC Tab.
  5. Αντιγράψτε τη διεύθυνση URL του JDBC.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Φροντίστε να αντικαταστήσετε την προσωπική σας πρόσβαση ένδειξη στη διεύθυνση URL.

Ρύθμιση Data Wrangler

Αυτό το βήμα προϋποθέτει ότι έχετε πρόσβαση στο Amazon SageMaker, ένα παράδειγμα Στούντιο Amazon SageMakerκαι χρήστη του Studio.

Για να επιτρέπεται η πρόσβαση στη σύνδεση Databricks JDBC από το Data Wrangler, ο χρήστης του Studio απαιτεί την ακόλουθη άδεια:

  • secretsmanager:PutResourcePolicy

Ακολουθήστε τα παρακάτω βήματα για να ενημερώσετε τον ρόλο εκτέλεσης IAM που έχει εκχωρηθεί στον χρήστη Studio με την παραπάνω άδεια, ως διαχειριστής του IAM.

  1. Στην κονσόλα IAM, επιλέξτε ρόλους στο παράθυρο πλοήγησης.
  2. Επιλέξτε τον ρόλο που έχει εκχωρηθεί στον χρήστη του Studio.
  3. Επιλέξτε Προσθέστε δικαιώματα.
  4. Επιλέξτε Δημιουργία ενσωματωμένης πολιτικής.
  5. Για Service, επιλέξτε Διαχειριστής μυστικών.
  6. On Δράσεις, επιλέξτε Επίπεδο πρόσβασης.
  7. Επιλέξτε Διαχείριση δικαιωμάτων.
  8. Επιλέξτε PutResourcePolicy.
  9. Για Υποστηρικτικό υλικό, επιλέξτε Ειδικοί και επιλέξτε Οποιοδήποτε σε αυτόν τον λογαριασμό.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Λήψη και διαχωρισμός του συνόλου δεδομένων

Μπορείτε να ξεκινήσετε από λήψη του συνόλου δεδομένων. Για λόγους επίδειξης, χωρίζουμε το σύνολο δεδομένων αντιγράφοντας τις στήλες χαρακτηριστικών id, emp_title, emp_length, home_owner, να annual_inc για να δημιουργήσετε ένα δεύτερο loans_2.csv αρχείο. Αφαιρούμε τις προαναφερθείσες στήλες από το αρχικό αρχείο δανείων εκτός από τις id στήλη και μετονομάστε το αρχικό αρχείο σε loans_1.csv. Ανεβάστε το loans_1.csv αρχείο στο Βάσεις δεδομένων για να δημιουργήσετε έναν πίνακα loans_1 και loans_2.csv σε έναν κάδο S3.

Δημιουργήστε μια ροή δεδομένων Wrangler

Για πληροφορίες σχετικά με τα προαπαιτούμενα του Data Wrangler, βλ Ξεκινήστε με το Data Wrangler.

Ας ξεκινήσουμε δημιουργώντας μια νέα ροή δεδομένων.

  1. Στην κονσόλα Studio, στο Αρχεία μενού, επιλέξτε Νέα.
  2. Επιλέξτε Ροή δεδομένων Wrangler.
  3. Μετονομάστε τη ροή όπως θέλετε.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εναλλακτικά, μπορείτε να δημιουργήσετε μια νέα ροή δεδομένων από το Launcher.

  • Στην κονσόλα Studio, επιλέξτε Στούντιο Amazon SageMaker στο παράθυρο πλοήγησης.
  • Επιλέξτε Νέα ροή δεδομένων.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η δημιουργία μιας νέας ροής μπορεί να διαρκέσει μερικά λεπτά για να ολοκληρωθεί. Αφού δημιουργηθεί η ροή, βλέπετε το Εισαγωγή δεδομένων .

Εισαγάγετε δεδομένα από το Databricks στο Data Wrangler

Στη συνέχεια, ρυθμίσαμε τα Databricks (JDBC) ως πηγή δεδομένων στο Data Wrangler. Για την εισαγωγή δεδομένων από το Databricks, πρέπει πρώτα να προσθέσουμε τα Databricks ως πηγή δεδομένων.

  1. Στις Εισαγωγή δεδομένων καρτέλα της ροής του Data Wrangler, επιλέξτε Προσθήκη πηγής δεδομένων.
  2. Στο αναπτυσσόμενο μενού, επιλέξτε Τούβλα δεδομένων (JDBC).
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στις Εισαγωγή δεδομένων από Databricks σελίδα, εισάγετε τα στοιχεία του συμπλέγματός σας.

  1. Για Όνομα στοιχείου δεδομένων, πληκτρολογήστε ένα όνομα που θέλετε να χρησιμοποιήσετε στο αρχείο ροής.
  2. Για Οδηγός, επιλέξτε τον οδηγό com.simba.spark.jdbc.Driver.
  3. Για JDBC URL, εισαγάγετε τη διεύθυνση URL του συμπλέγματος Databricks που λάβατε νωρίτερα.

Η διεύθυνση URL πρέπει να μοιάζει με την ακόλουθη μορφή jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

  1. Στο πρόγραμμα επεξεργασίας ερωτημάτων SQL, καθορίστε την ακόλουθη πρόταση SQL SELECT:
    select * from loans_1

Εάν επιλέξατε διαφορετικό όνομα πίνακα κατά τη μεταφόρτωση δεδομένων στο Databricks, αντικαταστήστε το loans_1 στο παραπάνω ερώτημα SQL ανάλογα.

Στο Ερώτημα SQL ενότητα στο Data Wrangler, μπορείτε να ρωτήσετε οποιονδήποτε πίνακα είναι συνδεδεμένος στη βάση δεδομένων JDBC Databricks. Οι προεπιλεγμένοι Ενεργοποίηση δειγματοληψίας Η ρύθμιση ανακτά τις πρώτες 50,000 σειρές του συνόλου δεδομένων σας από προεπιλογή. Ανάλογα με το μέγεθος του συνόλου δεδομένων, αποεπιλογή Ενεργοποίηση δειγματοληψίας μπορεί να οδηγήσει σε μεγαλύτερο χρόνο εισαγωγής.

  1. Επιλέξτε τρέξιμο.

Η εκτέλεση του ερωτήματος παρέχει μια προεπισκόπηση του συνόλου δεδομένων σας Databricks απευθείας στο Data Wrangler.
Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Επιλέξτε εισαγωγή.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το Data Wrangler παρέχει την ευελιξία για τη δημιουργία πολλαπλών ταυτόχρονων συνδέσεων σε ένα σύμπλεγμα Databricks ή πολλαπλά συμπλέγματα εάν απαιτείται, επιτρέποντας την ανάλυση και την προετοιμασία σε συνδυασμένα σύνολα δεδομένων.

Εισαγάγετε τα δεδομένα από το Amazon S3 στο Data Wrangler

Στη συνέχεια, ας εισάγουμε το loan_2.csv αρχείο από το Amazon S3.

  1. Στην καρτέλα Εισαγωγή, επιλέξτε Amazon S3 ως πηγή δεδομένων.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Πλοηγηθείτε στον κάδο S3 για το loan_2.csv αρχείο.

Όταν επιλέγετε το αρχείο CSV, μπορείτε να κάνετε προεπισκόπηση των δεδομένων.

  1. Στο Περιγραφή παράθυρο, επιλέξτε Προηγμένη διαμόρφωση για να βεβαιωθείτε ότι Ενεργοποίηση δειγματοληψίας επιλέγεται και ΠΑΡΑΓΡΑΦΟΣ επιλέγεται για Διαχωριστής.
  2. Επιλέξτε εισαγωγή.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μετά το loans_2.csv Το σύνολο δεδομένων εισήχθη με επιτυχία, η διεπαφή ροής δεδομένων εμφανίζει και τις πηγές δεδομένων Databricks JDBC και Amazon S3.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ενώστε τα δεδομένα

Τώρα που έχουμε εισαγάγει δεδομένα από το Databricks και το Amazon S3, ας ενώσουμε τα σύνολα δεδομένων χρησιμοποιώντας μια κοινή στήλη μοναδικού αναγνωριστικού.

  1. Στις Ροή δεδομένων καρτέλα, για Τύποι δεδομένων, επιλέξτε το σύμβολο συν για loans_1.
  2. Επιλέξτε Συμμετοχή.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Επιλέξτε loans_2.csv αρχείο ως το Δεξί σύνολο δεδομένων
  4. Επιλέξτε Διαμορφώστε για να ορίσετε τα κριτήρια ένταξης.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  5. Για Όνομα, πληκτρολογήστε ένα όνομα για την ένωση.
  6. Για Τύπος συμμετοχής, επιλέξτε Εσωτερικός για αυτήν την ανάρτηση.
  7. Επιλέξτε id στήλη για να συμμετάσχετε.
  8. Επιλέξτε Εφαρμογή για προεπισκόπηση του ενωμένου δεδομένων.
  9. Επιλέξτε Πρόσθεση για να το προσθέσετε στη ροή δεδομένων.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εφαρμόστε μετασχηματισμούς

Το Data Wrangler διαθέτει πάνω από 300 ενσωματωμένους μετασχηματισμούς, οι οποίοι δεν απαιτούν κωδικοποίηση. Ας χρησιμοποιήσουμε ενσωματωμένους μετασχηματισμούς για να προετοιμάσουμε το σύνολο δεδομένων.

Πτώση στήλης

Αρχικά ρίχνουμε την περιττή στήλη ID.

  1. Στον ενωμένο κόμβο, επιλέξτε το σύμβολο συν.
  2. Επιλέξτε Προσθήκη μετασχηματισμού.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Κάτω από Μεταμορφώσεις, Choose + Προσθήκη βήματος.
  4. Επιλέξτε Διαχείριση στηλών.
  5. Για Μεταμορφώστε, επιλέξτε Πτώση στήλης.
  6. Για Στήλες για πτώση, επιλέξτε τη στήλη id_0.
  7. Επιλέξτε Προβολή.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  8. Επιλέξτε Πρόσθεση.

Μορφοποίηση συμβολοσειράς

Ας εφαρμόσουμε μορφοποίηση συμβολοσειράς για να αφαιρέσουμε το σύμβολο ποσοστού από το int_rate και revol_util στήλες.

  1. Στις ημερομηνία καρτέλα, κάτω Μεταμορφώσεις, επιλέξτε + Προσθήκη βήματος.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Επιλέξτε Μορφοποίηση συμβολοσειράς.
  3. Για Μεταμορφώστε, επιλέξτε Αφαιρέστε τους χαρακτήρες από τα δεξιά.

Το Data Wrangler σάς επιτρέπει να εφαρμόσετε τον μετασχηματισμό που έχετε επιλέξει σε πολλές στήλες ταυτόχρονα.

  1. Για Στήλες εισαγωγής, επιλέξτε int_rate και revol_util.
  2. Για Χαρακτήρες προς κατάργηση, εισαγω %.
  3. Επιλέξτε Προβολή.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  4. Επιλέξτε Πρόσθεση.

Προβολή κειμένου

Ας διανυσματοποιήσουμε τώρα verification_status, μια στήλη χαρακτηριστικών κειμένου. Μετατρέπουμε τη στήλη κειμένου σε διανύσματα όρου συχνότητα-αντίστροφη συχνότητα εγγράφου (TF-IDF) εφαρμόζοντας τον διανυσματοποιητή μέτρησης και έναν τυπικό διανυσματιστή όπως περιγράφεται παρακάτω. Το Data Wrangler παρέχει επίσης την επιλογή να φέρετε το δικό σας tokenizer, εάν το επιθυμείτε.

  1. Κάτω από transformers, επιλέξτε + Προσθήκη βήματος.
  2. Επιλέξτε Προβολή κειμένου.
  3. Για Μεταμορφώστε, επιλέξτε Διάνυσμα.
  4. Για Στήλες εισαγωγής, επιλέξτε verification_status.
  5. Επιλέξτε Προβολή.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  6. Επιλέξτε Πρόσθεση.

Εξαγωγή του συνόλου δεδομένων

Αφού εφαρμόσουμε πολλαπλούς μετασχηματισμούς σε διαφορετικούς τύπους στηλών, συμπεριλαμβανομένων κειμένου, κατηγοριών και αριθμητικών, είμαστε έτοιμοι να χρησιμοποιήσουμε το μετασχηματισμένο σύνολο δεδομένων για εκπαίδευση μοντέλων ML. Το τελευταίο βήμα είναι η εξαγωγή του μετασχηματισμένου δεδομένων στο Amazon S3. Στο Data Wrangler, έχετε πολλές επιλογές για να διαλέξετε για την κατάντη κατανάλωση των μετασχηματισμών:

Σε αυτή την ανάρτηση, εκμεταλλευόμαστε το Εξαγωγή δεδομένων επιλογή του Μεταμορφώστε προβολή για εξαγωγή του μετασχηματισμένου δεδομένων απευθείας στο Amazon S3.

  1. Επιλέξτε Εξαγωγή δεδομένων.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Για S3 τοποθεσία, επιλέξτε Αναζήτηση και επιλέξτε τον κάδο S3 σας.
  3. Επιλέξτε Εξαγωγή δεδομένων.
    Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

εκκαθάριση

Εάν η εργασία σας με το Data Wrangler έχει ολοκληρωθεί, τερματίστε την παρουσία δεδομένων Wrangler για να αποφευχθούν επιπλέον χρεώσεις.

Συμπέρασμα

Σε αυτήν την ανάρτηση, καλύψαμε πώς μπορείτε γρήγορα και εύκολα να ρυθμίσετε και να συνδέσετε τα Databricks ως πηγή δεδομένων στο Data Wrangler, να ρωτήσετε διαδραστικά δεδομένα που είναι αποθηκευμένα στα Databricks χρησιμοποιώντας SQL και να κάνετε προεπισκόπηση δεδομένων πριν από την εισαγωγή. Επιπλέον, εξετάσαμε πώς μπορείτε να ενώσετε τα δεδομένα σας στο Databricks με δεδομένα που είναι αποθηκευμένα στο Amazon S3. Στη συνέχεια εφαρμόσαμε μετασχηματισμούς δεδομένων στο συνδυασμένο σύνολο δεδομένων για να δημιουργήσουμε μια διοχέτευση προετοιμασίας δεδομένων. Για να εξερευνήσετε περισσότερες δυνατότητες ανάλυσης του Data Wrangler, συμπεριλαμβανομένης της δημιουργίας αναφορών διαρροής στόχου και μεροληψίας, ανατρέξτε στην ακόλουθη ανάρτηση ιστολογίου Επιταχύνετε την προετοιμασία δεδομένων χρησιμοποιώντας το Amazon SageMaker Data Wrangler για πρόβλεψη επανεισδοχής διαβητικών ασθενών.

Για να ξεκινήσετε με το Data Wrangler, δείτε Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wranglerκαι δείτε τις πιο πρόσφατες πληροφορίες για το Data Wrangler σελίδα του προϊόντος.


Σχετικά με τους Συγγραφείς

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Roop Bains είναι αρχιτέκτονας λύσεων στο AWS με επίκεντρο την AI/ML. Είναι παθιασμένος με το να βοηθά τους πελάτες να καινοτομούν και να επιτύχουν τους επιχειρηματικούς τους στόχους χρησιμοποιώντας την Τεχνητή Νοημοσύνη και τη Μηχανική Μάθηση. Στον ελεύθερο χρόνο του, ο Ρουπ απολαμβάνει το διάβασμα και την πεζοπορία.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ο Igor Alekseev είναι αρχιτέκτονας λύσεων συνεργατών στην AWS στα δεδομένα και την ανάλυση. Ο Igor συνεργάζεται με στρατηγικούς συνεργάτες, βοηθώντας τους να δημιουργήσουν περίπλοκες, βελτιστοποιημένες για AWS αρχιτεκτονικές. Πριν ενταχθεί στην AWS, ως αρχιτέκτονας δεδομένων/λύσεων, υλοποίησε πολλά έργα σε Big Data, συμπεριλαμβανομένων πολλών λιμνών δεδομένων στο οικοσύστημα Hadoop. Ως Μηχανικός Δεδομένων, συμμετείχε στην εφαρμογή AI/ML στον εντοπισμό απάτης και στον αυτοματισμό γραφείου. Τα έργα του Igor αφορούσαν μια ποικιλία βιομηχανιών, συμπεριλαμβανομένων των επικοινωνιών, των οικονομικών, της δημόσιας ασφάλειας, της κατασκευής και της υγειονομικής περίθαλψης. Νωρίτερα, ο Igor εργάστηκε ως full stack engineer/tech lead.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Huong Nguyen είναι διευθυντής προϊόντων Sr. στο AWS. Ηγείται της εμπειρίας χρήστη για το SageMaker Studio. Έχει 13 χρόνια εμπειρίας στη δημιουργία προϊόντων με γνώμονα τον πελάτη και βάσει δεδομένων τόσο για επιχειρηματικούς όσο και για καταναλωτικούς χώρους. Στον ελεύθερο χρόνο της, της αρέσει να διαβάζει, να είναι στη φύση και να περνάει χρόνο με την οικογένειά της.

Προετοιμάστε δεδομένα από το Databricks για μηχανική εκμάθηση χρησιμοποιώντας το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Χένρι Γουάνγκ είναι μηχανικός ανάπτυξης λογισμικού στην AWS. Πρόσφατα εντάχθηκε στην ομάδα Data Wrangler μετά την αποφοίτησή του από το UC Davis. Ενδιαφέρεται για την επιστήμη των δεδομένων και τη μηχανική μάθηση και ασχολείται με την τρισδιάστατη εκτύπωση ως χόμπι.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS