Feature Engineering σε κλίμακα για την υγεία και τις επιστήμες της ζωής με το Amazon SageMaker Data Wrangler

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Η μηχανική μάθηση (ML) διαταράσσει πολλούς κλάδους με πρωτοφανή ρυθμό. Ο κλάδος της υγειονομικής περίθαλψης και των επιστημών της ζωής (HCLS) βρίσκεται σε μια ταχεία εξέλιξη τα τελευταία χρόνια, αγκαλιάζοντας την ML σε ένα πλήθος περιπτώσεων χρήσης για την παροχή ποιοτικής φροντίδας και τη βελτίωση των αποτελεσμάτων των ασθενών.

Σε έναν τυπικό κύκλο ζωής ML, οι μηχανικοί δεδομένων και οι επιστήμονες αφιερώνουν το μεγαλύτερο μέρος του χρόνου τους στην προετοιμασία των δεδομένων και στα βήματα μηχανικής χαρακτηριστικών προτού καν ξεκινήσουν τη διαδικασία κατασκευής και εκπαίδευσης μοντέλων. Η ύπαρξη ενός εργαλείου που μπορεί να μειώσει το εμπόδιο στην είσοδο για την προετοιμασία δεδομένων, βελτιώνοντας έτσι την παραγωγικότητα, είναι ένα πολύ επιθυμητό αίτημα για αυτά τα πρόσωπα. Amazon SageMaker Data Wrangler Είναι κατασκευασμένο από το AWS για να μειώσει την καμπύλη μάθησης και να δώσει τη δυνατότητα στους επαγγελματίες δεδομένων να ολοκληρώσουν εργασίες προετοιμασίας δεδομένων, καθαρισμού και μηχανικής χαρακτηριστικών σε λιγότερη προσπάθεια και χρόνο. Προσφέρει διεπαφή GUI με πολλές ενσωματωμένες λειτουργίες και ενσωματώσεις με άλλες υπηρεσίες AWS όπως π.χ Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) και Κατάστημα χαρακτηριστικών Amazon SageMaker, καθώς και πηγές δεδομένων συνεργατών, συμπεριλαμβανομένων των Snowflake και Databricks.

Σε αυτήν την ανάρτηση, δείχνουμε πώς να χρησιμοποιήσετε το Data Wrangler για την προετοιμασία δεδομένων υγειονομικής περίθαλψης για την εκπαίδευση ενός μοντέλου για την πρόβλεψη της καρδιακής ανεπάρκειας, δεδομένων των δημογραφικών στοιχείων του ασθενούς, των προηγούμενων ιατρικών καταστάσεων και του ιστορικού αποτελεσμάτων εργαστηριακών εξετάσεων.

Επισκόπηση λύσεων

Η λύση αποτελείται από τα ακόλουθα βήματα:

Αποκτήστε ένα σύνολο δεδομένων υγειονομικής περίθαλψης ως είσοδο στο Data Wrangler.
Χρησιμοποιήστε τις ενσωματωμένες συναρτήσεις μετασχηματισμού του Data Wrangler για να μετατρέψετε το σύνολο δεδομένων. Αυτό περιλαμβάνει απόθεση στηλών, χαρακτηρισμό δεδομένων/χρόνου, ένωση συνόλων δεδομένων, καταλογισμό τιμών που λείπουν, κωδικοποίηση κατηγορικών μεταβλητών, κλίμακα αριθμητικών τιμών, εξισορρόπηση του συνόλου δεδομένων και πολλά άλλα.
Χρησιμοποιήστε την προσαρμοσμένη συνάρτηση μετασχηματισμού του Data Wrangler (κώδικας Pandas ή PySpark) για να συμπληρώσετε πρόσθετους μετασχηματισμούς που απαιτούνται πέρα από τους ενσωματωμένους μετασχηματισμούς και να επιδείξετε την επεκτασιμότητα του Data Wrangler. Αυτό περιλαμβάνει σειρές φιλτραρίσματος, δεδομένα ομάδας, νέα πλαίσια δεδομένων φόρμας βάσει συνθηκών και πολλά άλλα.
Χρησιμοποιήστε τις ενσωματωμένες λειτουργίες οπτικοποίησης του Data Wrangler για να εκτελέσετε οπτική ανάλυση. Αυτό περιλαμβάνει διαρροή στόχου, συσχέτιση χαρακτηριστικών, γρήγορο μοντέλο και πολλά άλλα.
Χρησιμοποιήστε τις ενσωματωμένες επιλογές εξαγωγής του Data Wrangler για να εξαγάγετε το μετασχηματισμένο σύνολο δεδομένων στο Amazon S3.
Εκκινήστε ένα σημειωματάριο Jupyter για να χρησιμοποιήσετε το μετασχηματισμένο σύνολο δεδομένων στο Amazon S3 ως είσοδο για την εκπαίδευση ενός μοντέλου.

Δημιουργήστε ένα σύνολο δεδομένων

Τώρα που καταλήξαμε στη δήλωση προβλήματος ML, βάλαμε πρώτα το βλέμμα μας στην απόκτηση των δεδομένων που χρειαζόμαστε. Ερευνητικές μελέτες όπως π.χ Πρόβλεψη καρδιακής ανεπάρκειας μπορεί να παρέχει δεδομένα που είναι ήδη σε καλή κατάσταση. Ωστόσο, συχνά συναντάμε σενάρια όπου τα δεδομένα είναι αρκετά ακατάστατα και απαιτούν σύνδεση, καθαρισμό και αρκετούς άλλους μετασχηματισμούς που είναι πολύ συγκεκριμένοι στον τομέα της υγειονομικής περίθαλψης, προτού μπορέσουν να χρησιμοποιηθούν για εκπαίδευση ML. Θέλουμε να βρούμε ή να δημιουργήσουμε δεδομένα που είναι αρκετά ακατάστατα και να σας καθοδηγήσουμε στα βήματα προετοιμασίας τους χρησιμοποιώντας το Data Wrangler. Έχοντας αυτό κατά νου, επιλέξαμε το Synthea ως εργαλείο για τη δημιουργία συνθετικών δεδομένων που ταιριάζουν στο στόχο μας. Συνθέα είναι μια συνθετική γεννήτρια ασθενών ανοιχτού κώδικα που μοντελοποιεί το ιατρικό ιστορικό συνθετικών ασθενών. Για να δημιουργήσετε το σύνολο δεδομένων σας, ολοκληρώστε τα παρακάτω βήματα:

Ακολουθήστε τις οδηγίες σύμφωνα με το Γρήγορη εκίνηση τεκμηρίωση για τη δημιουργία ενός Στούντιο Amazon SageMaker τομέα και εκκινήστε το Studio.
Αυτό είναι ένα προαπαιτούμενο βήμα. Είναι προαιρετικό εάν το Studio είναι ήδη ρυθμισμένο στον λογαριασμό σας.
Μετά την εκκίνηση του Studio, στο προωθητής καρτέλα, επιλέξτε Τερματικό συστήματος.
Αυτό ξεκινά μια περίοδο λειτουργίας τερματικού που σας δίνει μια διεπαφή γραμμής εντολών για να εργαστείτε.

Για να εγκαταστήσετε το Synthea και να δημιουργήσετε το σύνολο δεδομένων σε μορφή CSV, εκτελέστε τις ακόλουθες εντολές στη συνεδρία τερματικού που ξεκίνησε:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

Παρέχουμε μια παράμετρο για τη δημιουργία των συνόλων δεδομένων με μέγεθος πληθυσμού 10,000. Σημειώστε ότι η παράμετρος μεγέθους υποδηλώνει τον αριθμό των ζωντανών μελών του πληθυσμού. Επιπλέον, η Synthea δημιουργεί επίσης δεδομένα για νεκρά μέλη του πληθυσμού, τα οποία ενδέχεται να προσθέσουν μερικά επιπλέον σημεία δεδομένων πάνω από το καθορισμένο μέγεθος δείγματος.

Περιμένετε μέχρι να ολοκληρωθεί η δημιουργία δεδομένων. Αυτό το βήμα συνήθως διαρκεί περίπου μία ώρα ή λιγότερο. Η Synthea δημιουργεί πολλαπλά σύνολα δεδομένων, συμπεριλαμβανομένων patients, medications, allergies, conditions, κι αλλα. Για αυτήν την ανάρτηση, χρησιμοποιούμε τρία από τα σύνολα δεδομένων που προκύπτουν:

ασθενείς.csv – Αυτό το σύνολο δεδομένων είναι περίπου 3.2 MB και περιέχει περίπου 11,000 σειρές δεδομένων ασθενούς (25 στήλες συμπεριλαμβανομένου του αναγνωριστικού ασθενούς, της ημερομηνίας γέννησης, του φύλου, της διεύθυνσης και άλλων)
συνθήκες.csv – Αυτό το σύνολο δεδομένων είναι περίπου 47 MB και περιέχει περίπου 370,000 σειρές δεδομένων ιατρικής κατάστασης (έξι στήλες συμπεριλαμβανομένων των αναγνωριστικών ασθενούς, ημερομηνία έναρξης κατάστασης, κωδικός κατάστασης και άλλα)
παρατηρήσεις.csv – Αυτό το σύνολο δεδομένων είναι περίπου 830 MB και περιέχει περίπου 5 εκατομμύρια σειρές δεδομένων παρατήρησης (οκτώ στήλες συμπεριλαμβανομένου του αναγνωριστικού ασθενούς, της ημερομηνίας παρατήρησης, του κωδικού παρατήρησης, της τιμής και άλλων)

Υπάρχει μια σχέση ένα προς πολλά μεταξύ των patients και conditions σύνολα δεδομένων. Υπάρχει επίσης μια σχέση ένα προς πολλά μεταξύ των patients και observations σύνολα δεδομένων. Για ένα λεπτομερές λεξικό δεδομένων, ανατρέξτε στο Λεξικό δεδομένων αρχείου CSV.

Για να ανεβάσετε τα δημιουργημένα σύνολα δεδομένων σε έναν κάδο προέλευσης στο Amazon S3, εκτελέστε τις ακόλουθες εντολές στην περίοδο λειτουργίας τερματικού:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

Εκκινήστε το Data Wrangler

Επιλέξτε Πόροι SageMaker στη σελίδα πλοήγησης στο Studio και στο Έργα μενού, επιλέξτε Data Wrangler για να δημιουργήσετε μια ροή δεδομένων Data Wrangler. Για λεπτομερή βήματα για την εκκίνηση του Data Wrangler από το Studio, ανατρέξτε στο Ξεκινήστε με το Data Wrangler.

Εισαγωγή δεδομένων

Για να εισαγάγετε τα δεδομένα σας, ολοκληρώστε τα παρακάτω βήματα:

Επιλέξτε Amazon S3 και εντοπίστε το αρχείο patis.csv στον κάδο S3.
Στο Περιγραφή παράθυρο, επιλέξτε Πρώτα ο Κ for Δειγματοληψία.
εισάγετε 1100 for Το μέγεθος του δείγματος.
Στο παράθυρο προεπισκόπησης, το Data Wrangler τραβά τις πρώτες 100 σειρές από το σύνολο δεδομένων και τις παραθέτει ως προεπισκόπηση.
Επιλέξτε εισαγωγή.
Το Data Wrangler επιλέγει τους πρώτους 1,100 ασθενείς από το σύνολο των ασθενών (11,000 σειρές) που δημιουργεί η Synthea και εισάγει τα δεδομένα. Η προσέγγιση δειγματοληψίας επιτρέπει στο Data Wrangler να επεξεργάζεται μόνο τα δείγματα δεδομένων. Μας δίνει τη δυνατότητα να αναπτύξουμε τη ροή δεδομένων μας με ένα μικρότερο σύνολο δεδομένων, το οποίο έχει ως αποτέλεσμα ταχύτερη επεξεργασία και συντομότερο βρόχο ανατροφοδότησης. Αφού δημιουργήσουμε τη ροή δεδομένων, μπορούμε να υποβάλουμε την αναπτυγμένη συνταγή στο α Επεξεργασία SageMaker εργασία για οριζόντια κλιμάκωση της επεξεργασίας για το πλήρες ή μεγαλύτερο σύνολο δεδομένων με κατανεμημένο τρόπο.
Επαναλάβετε αυτήν τη διαδικασία για το conditions και observations σύνολα δεδομένων.
1. Για την conditions σύνολο δεδομένων, εισάγετε 37000 for Το μέγεθος του δείγματος, που είναι το 1/10 των συνολικών 370,000 σειρών που δημιουργούνται από το Synthea.
2. Για την observations σύνολο δεδομένων, εισάγετε 500000 for Το μέγεθος του δείγματος, που είναι το 1/10 των συνολικών παρατηρήσεων 5 εκατομμύρια σειρές που δημιουργούνται από το Synthea.

Θα πρέπει να δείτε τρία σύνολα δεδομένων όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

Μεταμορφώστε τα δεδομένα

Ο μετασχηματισμός δεδομένων είναι η διαδικασία αλλαγής της δομής, της τιμής ή της μορφής μιας ή περισσότερων στηλών στο σύνολο δεδομένων. Η διαδικασία αναπτύσσεται συνήθως από έναν μηχανικό δεδομένων και μπορεί να είναι δύσκολη για άτομα με μικρότερο σύνολο δεξιοτήτων μηχανικής δεδομένων να αποκρυπτογραφήσουν τη λογική που προτείνεται για τον μετασχηματισμό. Ο μετασχηματισμός δεδομένων αποτελεί μέρος της ευρύτερης διαδικασίας μηχανικής των χαρακτηριστικών και η σωστή σειρά βημάτων είναι ένα άλλο σημαντικό κριτήριο που πρέπει να λαμβάνεται υπόψη κατά την επινόηση τέτοιων συνταγών.

Το Data Wrangler έχει σχεδιαστεί για να είναι ένα εργαλείο χαμηλού κώδικα για τη μείωση του φραγμού εισόδου για αποτελεσματική προετοιμασία δεδομένων. Έρχεται με πάνω από 300 προρυθμισμένους μετασχηματισμούς δεδομένων από τους οποίους μπορείτε να επιλέξετε χωρίς να γράψετε ούτε μια γραμμή κώδικα. Στις επόμενες ενότητες, βλέπουμε τον τρόπο μετατροπής των εισαγόμενων συνόλων δεδομένων στο Data Wrangler.

Απόθεση στηλών σε ασθενείς.csv

Αρχικά ρίχνουμε μερικές στήλες από το patients σύνολο δεδομένων. Η απόρριψη περιττών στηλών αφαιρεί μη σχετικές πληροφορίες από το σύνολο δεδομένων και μας βοηθά να μειώσουμε τον όγκο των υπολογιστικών πόρων που απαιτούνται για την επεξεργασία του συνόλου δεδομένων και την εκπαίδευση ενός μοντέλου. Σε αυτήν την ενότητα, ρίχνουμε στήλες όπως το SSN ή τον αριθμό διαβατηρίου με βάση την κοινή λογική ότι αυτές οι στήλες δεν έχουν προγνωστική αξία. Με άλλα λόγια, δεν βοηθούν το μοντέλο μας να προβλέψει την καρδιακή ανεπάρκεια. Η μελέτη μας επίσης δεν ανησυχεί για άλλες στήλες, όπως η επιρροή του τόπου γέννησης ή των δαπανών υγειονομικής περίθαλψης στην καρδιακή ανεπάρκεια ενός ασθενούς, επομένως τις απορρίπτουμε επίσης. Οι πλεονάζουσες στήλες μπορούν επίσης να εντοπιστούν εκτελώντας τις ενσωματωμένες αναλύσεις όπως διαρροή στόχου, συσχέτιση χαρακτηριστικών, πολυσυγγραμμικότητα και άλλα, που είναι ενσωματωμένα στο Data Wrangler. Για περισσότερες λεπτομέρειες σχετικά με τους υποστηριζόμενους τύπους αναλύσεων, ανατρέξτε στο Αναλύστε και οπτικοποιήστε. Επιπλέον, μπορείτε να χρησιμοποιήσετε το Αναφορά ποιότητας δεδομένων και πληροφοριών για να εκτελέσετε αυτοματοποιημένες αναλύσεις στα σύνολα δεδομένων για να καταλήξετε σε μια λίστα περιττών στηλών προς εξάλειψη.

Επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων για το σύνολο δεδομένων ασθενών.csv και επιλέξτε Προσθήκη μετασχηματισμού.
Επιλέξτε Προσθέστε βήμα Και επιλέξτε Διαχείριση στηλών.
Για Μεταμορφώστε¸ επιλέξτε Πτώση στήλης.
Για Στήλες για πτώση, επιλέξτε τις ακόλουθες στήλες:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
Επιλέξτε Προβολή για να ελέγξετε το μετασχηματισμένο σύνολο δεδομένων και, στη συνέχεια, επιλέξτε Πρόσθεση.

Θα πρέπει να δείτε το βήμα Πτώση στήλης στη λίστα μετασχηματισμών σας.

Προβολή ημερομηνίας/ώρας σε ασθενείς.csv

Τώρα χρησιμοποιούμε τη συνάρτηση Featurize date/time για να δημιουργήσουμε τη νέα δυνατότητα Year από το BIRTHDATE στη στήλη patients σύνολο δεδομένων. Χρησιμοποιούμε τη νέα δυνατότητα σε ένα επόμενο βήμα για να υπολογίσουμε την ηλικία ενός ασθενούς τη στιγμή που λαμβάνει χώρα η παρατήρηση.

Στο Μεταμορφώσεις τζάμι σου Πτώση στήλης σελίδα για το patients σύνολο δεδομένων, επιλέξτε Προσθέστε βήμα.
Επιλέξτε Προβολή ημερομηνίας/ώρας μεταμορφώνω.
Επιλέξτε Εξαγωγή στηλών.
Για Στήλες εισαγωγής, προσθέστε τη στήλη BIRTHDATE.
Αγορά Έτος και αποεπιλέξτε Μήνας, Ημέρα, ώρα, Λεπτό, Δεύτερον.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.

Προσθήκη μετασχηματισμών στο observations.csv

Το Data Wrangler υποστηρίζει προσαρμοσμένους μετασχηματισμούς χρησιμοποιώντας Python (συναρτήσεις που καθορίζονται από το χρήστη), PySpark, Pandas ή PySpark (SQL). Μπορείτε να επιλέξετε τον τύπο μετασχηματισμού με βάση την εξοικείωση σας με κάθε επιλογή και προτίμηση. Για τις τρεις τελευταίες επιλογές, το Data Wrangler εκθέτει τη μεταβλητή df για να έχετε πρόσβαση στο πλαίσιο δεδομένων και να εφαρμόσετε μετασχηματισμούς σε αυτό. Για λεπτομερή επεξήγηση και παραδείγματα, ανατρέξτε στο Προσαρμοσμένοι Μετασχηματισμοί. Σε αυτήν την ενότητα, προσθέτουμε τρεις προσαρμοσμένους μετασχηματισμούς στο observations σύνολο δεδομένων

Προσθέστε έναν μετασχηματισμό στο observations.csv και αποθέστε το DESCRIPTION στήλη.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Στο Μεταμορφώσεις παράθυρο, επιλέξτε Προσθέστε βήμα Και επιλέξτε Προσαρμοσμένος μετασχηματισμός.
Στο αναπτυσσόμενο μενού, επιλέξτε Python (Πάντα).
Εισαγάγετε τον ακόλουθο κωδικό:
```
df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]
```
Αυτοί είναι κωδικοί LONIC που αντιστοιχούν στις ακόλουθες παρατηρήσεις που μας ενδιαφέρουν να χρησιμοποιήσουμε ως χαρακτηριστικά για την πρόβλεψη της καρδιακής ανεπάρκειας:
```
heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3
```
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Προσθέστε έναν μετασχηματισμό για εξαγωγή Year και Quarter από το DATE στήλη.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Επιλέξτε Προσθέστε βήμα Και επιλέξτε Προσαρμοσμένος μετασχηματισμός.
Στο αναπτυσσόμενο μενού, επιλέξτε Python (Pyspark).

Οι πέντε τύποι παρατηρήσεων μπορεί να μην καταγράφονται πάντα την ίδια ημερομηνία. Για παράδειγμα, ένας ασθενής μπορεί να επισκεφτεί τον οικογενειακό του γιατρό στις 21 Ιανουαρίου και να μετρήσει και να καταγράψει τη συστολική αρτηριακή πίεση, τη διαστολική αρτηριακή πίεση, τον καρδιακό ρυθμό και τον δείκτη μάζας σώματος. Ωστόσο, μια εργαστηριακή δοκιμή που περιλαμβάνει αιμοπετάλια μπορεί να γίνει αργότερα, στις 2 Φεβρουαρίου. Επομένως, δεν είναι πάντα δυνατή η σύνδεση πλαισίων δεδομένων μέχρι την ημερομηνία παρατήρησης. Εδώ ενώνουμε πλαίσια δεδομένων με χονδρική ευαισθησία σε τρίμηνο.

Εισαγάγετε τον ακόλουθο κωδικό:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Επιλέξτε Προσθέστε βήμα, κατόπιν επιλέξτε Διαχείριση σειρών.
Για Μεταμορφώστε, επιλέξτε Απόθεση διπλότυπων.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Επιλέξτε Προσθέστε βήμα Και επιλέξτε Προσαρμοσμένος μετασχηματισμός.
Στο αναπτυσσόμενο μενού, επιλέξτε Python (Πάντα).
Εισαγάγετε τον ακόλουθο κώδικα για να λάβετε έναν μέσο όρο σημείων δεδομένων που μοιράζονται την ίδια τιμή χρόνου:
```
import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()
```
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.

Γίνετε μέλος των ασθενών.csv και observations.csv

Σε αυτό το βήμα, παρουσιάζουμε πώς να εκτελείτε αποτελεσματικά και εύκολα σύνθετες ενώσεις σε σύνολα δεδομένων χωρίς να γράφετε κανέναν κώδικα μέσω του ισχυρού UI του Data Wrangler. Για να μάθετε περισσότερα σχετικά με τους υποστηριζόμενους τύπους συνδέσεων, ανατρέξτε στο Μετασχηματισμός Δεδομένων.

Στα δεξιά του Μετασχηματισμός: ασθενείς.csv, επιλέξτε το σύμβολο συν δίπλα Βήματα Και επιλέξτε Συμμετοχή.
Μπορείτε να δείτε το μετασχηματισμένο αρχείο patis.csv που παρατίθεται παρακάτω Δεδομένα στο αριστερό παράθυρο.
Στα δεξιά του Μετασχηματισμός: παρατηρήσεις.csv, Κάνε κλικ στο Βήματα για να ξεκινήσει η λειτουργία ένωσης.
Το μετασχηματισμένο αρχείο observations.csv βρίσκεται τώρα στη λίστα Δεδομένα στο αριστερό παράθυρο.
Επιλέξτε Διαμορφώστε.
Για Εγγραφή τύπου, επιλέξτε Εσωτερικός.
Για Αριστερό, επιλέξτε Id.
Για Δεξί, επιλέξτε ασθενής.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.

Προσθέστε έναν προσαρμοσμένο μετασχηματισμό στα ενωμένα σύνολα δεδομένων

Σε αυτό το βήμα, υπολογίζουμε την ηλικία ενός ασθενούς τη στιγμή της παρατήρησης. Επίσης ρίχνουμε στήλες που δεν χρειάζονται πλέον.

Επιλέξτε το σύμβολο συν δίπλα 1η Συμμετοχή Και επιλέξτε Προσθήκη μετασχηματισμού.

Προσθέστε έναν προσαρμοσμένο μετασχηματισμό στα Pandas:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.

Προσθέστε προσαρμοσμένους μετασχηματισμούς στο condition.csv

Επιλέξτε το σύμβολο συν δίπλα Μετασχηματισμός: συνθήκες.csv Και επιλέξτε Προσθήκη μετασχηματισμού.

Προσθέστε έναν προσαρμοσμένο μετασχηματισμό στα Pandas:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

Σημείωση: Όπως δείξαμε νωρίτερα, μπορείτε να αποθέσετε στήλες είτε χρησιμοποιώντας προσαρμοσμένο κώδικα είτε χρησιμοποιώντας τους ενσωματωμένους μετασχηματισμούς που παρέχονται από το Data Wrangler. Οι προσαρμοσμένοι μετασχηματισμοί στο Data Wrangler παρέχουν την ευελιξία να φέρετε τη δική σας λογική μετασχηματισμού με τη μορφή αποσπασμάτων κώδικα στα υποστηριζόμενα πλαίσια. Αυτά τα αποσπάσματα μπορούν αργότερα να αναζητηθούν και να εφαρμοστούν εάν χρειάζεται.

Οι κωδικοί στον προηγούμενο μετασχηματισμό είναι κωδικοί SNOMED-CT που αντιστοιχούν στις ακόλουθες συνθήκες. ο heart failure or chronic congestive heart failure κατάσταση γίνεται η ετικέτα. Χρησιμοποιούμε τις υπόλοιπες συνθήκες ως χαρακτηριστικά για την πρόβλεψη της καρδιακής ανεπάρκειας. Ρίχνουμε επίσης μερικές στήλες που δεν χρειάζονται πλέον.

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

Στη συνέχεια, ας προσθέσουμε έναν προσαρμοσμένο μετασχηματισμό στο PySpark:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

Εκτελούμε μια αριστερή εξωτερική ένωση για να διατηρήσουμε όλες τις καταχωρήσεις στο πλαίσιο δεδομένων καρδιακής ανεπάρκειας. Μια νέα στήλη has_xxx υπολογίζεται για κάθε κατάσταση διαφορετική από την καρδιακή ανεπάρκεια με βάση την ημερομηνία έναρξης της πάθησης. Μας ενδιαφέρουν μόνο ιατρικές καταστάσεις που καταγράφηκαν πριν από την καρδιακή ανεπάρκεια και τις χρησιμοποιούμε ως λειτουργίες για την πρόβλεψη της καρδιακής ανεπάρκειας.

Προσθέστε ένα ενσωματωμένο Διαχείριση στηλών μετατροπή για απόρριψη των περιττών στηλών που δεν χρειάζονται πλέον:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
Εκχύλισμα Year και Quarter από το heartfailure στήλη.
Αυτό ταιριάζει με την ευαισθησία που χρησιμοποιήσαμε νωρίτερα στον μετασχηματισμό του observations σύνολο δεδομένων
Θα πρέπει να έχουμε συνολικά 6 βήματα για condition.csv.

Συνδέστε το condition.csv στο ενωμένο σύνολο δεδομένων

Πραγματοποιούμε τώρα μια νέα ένωση για να ενώσουμε το σύνολο δεδομένων συνθηκών στο joined patients και observations σύνολο δεδομένων

Επιλέξτε Μεταμόρφωση: 1η Συμμετοχή.
Επιλέξτε το σύμβολο συν και επιλέξτε Συμμετοχή.
Επιλέξτε Βήματα δίπλα Μετασχηματισμός: συνθήκες.csv.
Επιλέξτε Διαμορφώστε.
Για Εγγραφή τύπου, επιλέξτε Αριστερά εξωτερικό.
Για Αριστερό, επιλέξτε Id.
Για Δεξί, επιλέξτε ασθενής.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.

Προσθέστε μετασχηματισμούς στα ενωμένα σύνολα δεδομένων

Τώρα που έχουμε ενώσει και τα τρία σύνολα δεδομένων, ας εφαρμόσουμε μερικούς επιπλέον μετασχηματισμούς.

Προσθέστε τον ακόλουθο προσαρμοσμένο μετασχηματισμό στο PySpark έτσι has_heartfailure γίνεται η στήλη της ετικέτας μας:
```
from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)
```
Προσθέστε τον ακόλουθο προσαρμοσμένο μετασχηματισμό στο PySpark:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
Μας ενδιαφέρουν μόνο οι παρατηρήσεις που καταγράφονται πριν από τη διάγνωση της κατάστασης καρδιακής ανεπάρκειας και τις χρησιμοποιούμε ως χαρακτηριστικά για την πρόβλεψη της καρδιακής ανεπάρκειας. Οι παρατηρήσεις που γίνονται μετά τη διάγνωση της καρδιακής ανεπάρκειας μπορεί να επηρεαστούν από τη φαρμακευτική αγωγή που λαμβάνει ένας ασθενής, επομένως θέλουμε να τα αποκλείσουμε.
Αφαιρέστε τις περιττές στήλες που δεν χρειάζονται πλέον:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
Στις Ανάλυση καρτέλα, για Τύπος ανάλυσης¸ επιλέξτε Περίληψη πίνακα.
Μια γρήγορη σάρωση μέσω της περίληψης δείχνει ότι το MARITAL λείπουν δεδομένα στη στήλη.
Επιλέξτε ημερομηνία καρτέλα και προσθέστε ένα βήμα.
Επιλέξτε Λείπει η λαβή.
Για Μεταμορφώστε, επιλέξτε Λείπει η συμπλήρωση.
Για Στήλες εισαγωγής, επιλέξτε ΣΥΖΥΓΙΚΟΣ.
Για Τιμή συμπλήρωσης, εισαγω S.
Η στρατηγική μας εδώ είναι να υποθέσουμε ότι ο ασθενής είναι άγαμος εάν η οικογενειακή κατάσταση δεν έχει αξία. Μπορείτε να έχετε διαφορετική στρατηγική.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Συμπληρώστε την τιμή που λείπει ως 0 για has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital και Gender είναι κατηγορικές μεταβλητές. Το Data Wrangler έχει μια ενσωματωμένη λειτουργία για την κωδικοποίηση μεταβλητών κατηγοριών.

Προσθέστε ένα βήμα και επιλέξτε Κωδικοποίηση κατηγορίας.
Για Μεταμορφώστε, επιλέξτε One-hot κωδικοποίηση.
Για Στήλες εισαγωγής, επιλέξτε ΣΥΖΥΓΙΚΟΣ.
Για Στυλ εξόδου, επιλέξτε Στήλη.
Αυτό το στυλ εξόδου παράγει κωδικοποιημένες τιμές σε ξεχωριστές στήλες.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Επαναλάβετε αυτά τα βήματα για το Φύλο στήλη.

Η κωδικοποίηση ενός καυτός χωρίζει τη στήλη Martal σε Marital_M (παντρεμένος) και Marital_S (μονό) και χωρίζει τη στήλη Φύλο σε Gender_M (αρσενικό) και Gender_F (θηλυκός). Επειδή Marital_M και Marital_S είναι αμοιβαία αποκλειόμενες (όπως και Gender_M και Gender_F), μπορούμε να ρίξουμε μία στήλη για να αποφύγουμε περιττές λειτουργίες.

Πτώση Marital_S και Gender_F.

Τα αριθμητικά χαρακτηριστικά όπως ο συστολικός, ο καρδιακός ρυθμός και η ηλικία έχουν διαφορετικά πρότυπα μονάδων. Για ένα μοντέλο που βασίζεται σε γραμμική παλινδρόμηση, πρέπει πρώτα να κανονικοποιήσουμε αυτά τα αριθμητικά χαρακτηριστικά. Διαφορετικά, ορισμένα χαρακτηριστικά με υψηλότερες απόλυτες τιμές μπορεί να έχουν αδικαιολόγητο πλεονέκτημα έναντι άλλων χαρακτηριστικών με χαμηλότερες απόλυτες τιμές και να έχουν ως αποτέλεσμα κακή απόδοση μοντέλου. Το Data Wrangler διαθέτει τον ενσωματωμένο ρυθμιστή μετασχηματισμού Min-max για την κανονικοποίηση των δεδομένων. Για ένα μοντέλο ταξινόμησης που βασίζεται σε δέντρο αποφάσεων, δεν απαιτείται κανονικοποίηση. Η μελέτη μας είναι ένα πρόβλημα ταξινόμησης, επομένως δεν χρειάζεται να εφαρμόσουμε κανονικοποίηση. Οι μη ισορροπημένες τάξεις είναι ένα κοινό πρόβλημα στην ταξινόμηση. Η ανισορροπία συμβαίνει όταν το σύνολο δεδομένων εκπαίδευσης περιέχει σοβαρά λοξή κατανομή κλάσεων. Για παράδειγμα, όταν το σύνολο δεδομένων μας περιέχει δυσανάλογα περισσότερους ασθενείς χωρίς καρδιακή ανεπάρκεια από ασθενείς με καρδιακή ανεπάρκεια, μπορεί το μοντέλο να είναι προκατειλημμένο προς την πρόβλεψη μη καρδιακής ανεπάρκειας και να έχει κακή απόδοση. Το Data Wrangler έχει μια ενσωματωμένη λειτουργία για την αντιμετώπιση του προβλήματος.

Προσθέστε έναν προσαρμοσμένο μετασχηματισμό στο Pandas για να μετατρέψετε τον τύπο δεδομένων στηλών από τύπο "αντικείμενο" σε αριθμητικό τύπο:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
Επιλέξτε Ανάλυση Tab.
Για Τύπος ανάλυσης¸ επιλέξτε Ιστόγραμμα.
Για Άξονα Χ, επιλέξτε έχει_καρδιακή ανεπάρκεια.
Επιλέξτε Προβολή.

Είναι προφανές ότι έχουμε μια ανισορροπημένη κατηγορία (περισσότερα σημεία δεδομένων που επισημαίνονται ως μη καρδιακή ανεπάρκεια από τα σημεία δεδομένων που επισημαίνονται ως καρδιακή ανεπάρκεια).
Πηγαίνετε πίσω στο ημερομηνία αυτί. Επιλέγω Προσθέστε βήμα Και επιλέξτε Στοιχεία υπολοίπου.
Για Στήλη στόχου, επιλέξτε έχει_καρδιακή ανεπάρκεια.
Για Επιθυμητή αναλογία, εισαγω 1.
Για Μεταμορφώστε, επιλέξτε ΚΑΜΩΤ.

Το SMOTE σημαίνει τεχνική υπερδειγματοληψίας συνθετικής μειονότητας. Είναι μια τεχνική για τη δημιουργία νέων παρουσιών μειοψηφίας και την προσθήκη στο σύνολο δεδομένων για την επίτευξη ισορροπίας κλάσης. Για λεπτομερείς πληροφορίες, ανατρέξτε στο SMOTE: Τεχνική υπερδειγματοληψίας συνθετικής μειονότητας.
Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
Επαναλάβετε την ανάλυση ιστογράμματος στο βήμα 20-23. Το αποτέλεσμα είναι μια ισορροπημένη τάξη.

Οπτικοποιήστε τη διαρροή στόχου και τη συσχέτιση χαρακτηριστικών

Στη συνέχεια, θα εκτελέσουμε μερικές οπτικές αναλύσεις χρησιμοποιώντας το πλούσιο σύνολο εργαλείων της Data Wrangler με προηγμένους τύπους ανάλυσης που υποστηρίζονται από ML. Αρχικά, εξετάζουμε τη διαρροή στόχου. Η διαρροή στόχου εμφανίζεται όταν τα δεδομένα στο σύνολο δεδομένων εκπαίδευσης συσχετίζονται ισχυρά με την ετικέτα στόχου, αλλά δεν είναι διαθέσιμα σε δεδομένα πραγματικού κόσμου κατά τον χρόνο συμπερασμάτων.

Στις Καρτέλα ανάλυση, Για Τύπος ανάλυσης¸ επιλέξτε Στόχος Διαρροή.
Για Τύπος προβλήματος, επιλέξτε ταξινόμηση.
Για στόχος, επιλέξτε έχει_καρδιακή ανεπάρκεια.
Επιλέξτε Προβολή.

Με βάση την ανάλυση, hr είναι μια διαρροή στόχου. Θα το ρίξουμε σε επόμενο βήμα. age επισημαίνεται ως διαρροή στόχου. Είναι λογικό να πούμε ότι η ηλικία ενός ασθενούς θα είναι διαθέσιμη κατά τη διάρκεια του χρόνου συμπερασμάτων, επομένως κρατάμε την ηλικία ως χαρακτηριστικό. Systolic και diastolic επισημαίνονται επίσης ως πιθανή διαρροή στόχου. Αναμένουμε να έχουμε τις δύο μετρήσεις κατά τη διάρκεια του χρόνου συμπερασμάτων, επομένως τις διατηρούμε ως χαρακτηριστικά.
Επιλέξτε Πρόσθεση για να προσθέσετε την ανάλυση.

Στη συνέχεια, εξετάζουμε τη συσχέτιση χαρακτηριστικών. Θέλουμε να επιλέξουμε χαρακτηριστικά που συσχετίζονται με τον στόχο αλλά δεν συσχετίζονται μεταξύ τους.

Στις Καρτέλα ανάλυση, Για Τύπος ανάλυσης¸ επιλέξτε Συσχέτιση χαρακτηριστικών.
Για Τύπος συσχέτισης¸ επιλέξτε γραμμικός.
Επιλέξτε Προβολή.

Οι βαθμολογίες των συντελεστών δείχνουν ισχυρούς συσχετισμούς μεταξύ των ακόλουθων ζευγών:

systolic και diastolic
bmi και age
has_hypertension και has_heartfailure (επιγραφή)

Για χαρακτηριστικά που είναι ισχυρά συσχετισμένα, οι πίνακες είναι υπολογιστικά δύσκολο να αντιστραφούν, γεγονός που μπορεί να οδηγήσει σε αριθμητικά ασταθείς εκτιμήσεις. Για να μετριαστεί η συσχέτιση, μπορούμε απλά να αφαιρέσουμε ένα από το ζεύγος. Πέφτουμε diastolic και bmi και να κρατήσει systolic και age σε επόμενο βήμα.

Ρίξτε τις στήλες διαστολικής και bmi

Προσθέστε επιπλέον βήματα μετασχηματισμού για να απορρίψετε το hr, diastolic και bmi στήλες χρησιμοποιώντας τον ενσωματωμένο μετασχηματισμό.

Δημιουργήστε την αναφορά ποιότητας δεδομένων και πληροφοριών

AWS πρόσφατα ανακοίνωσε η νέα δυνατότητα Αναφοράς ποιότητας δεδομένων και πληροφοριών στο Data Wrangler. Αυτή η αναφορά επαληθεύει αυτόματα την ποιότητα των δεδομένων και εντοπίζει ανωμαλίες στα δεδομένα σας. Οι επιστήμονες δεδομένων και οι μηχανικοί δεδομένων μπορούν να χρησιμοποιήσουν αυτό το εργαλείο για να εφαρμόσουν αποτελεσματικά και γρήγορα τη γνώση τομέα για την επεξεργασία συνόλων δεδομένων για εκπαίδευση μοντέλων ML. Αυτό το βήμα είναι προαιρετικό. Για να δημιουργήσετε αυτήν την αναφορά στα σύνολα δεδομένων μας, ολοκληρώστε τα ακόλουθα βήματα:

Στις Ανάλυση καρτέλα, για Τύπος ανάλυσης, επιλέξτε Αναφορά ποιότητας δεδομένων και πληροφοριών.
Για Στήλη στόχου, επιλέξτε έχει_καρδιακή ανεπάρκεια.
Για Τύπος προβλήματος, Επιλέξτε Ταξινόμηση.
Επιλέξτε Δημιουργία.

Σε λίγα λεπτά, δημιουργεί μια αναφορά με περίληψη, γραφικά και προτάσεις.

Δημιουργήστε μια ανάλυση Γρήγορου Μοντέλου

Ολοκληρώσαμε την προετοιμασία δεδομένων, τον καθαρισμό και τη μηχανική χαρακτηριστικών. Το Data Wrangler έχει μια ενσωματωμένη λειτουργία που παρέχει μια χονδρική εκτίμηση της αναμενόμενης προβλεπόμενης ποιότητας και της προγνωστικής ισχύος των χαρακτηριστικών στο σύνολο δεδομένων μας.

Στις Ανάλυση καρτέλα, για Τύπος ανάλυσης¸ επιλέξτε Γρήγορο μοντέλο.
Για επιγραφή, επιλέξτε έχει_καρδιακή ανεπάρκεια.
Επιλέξτε Προβολή.

Σύμφωνα με την ανάλυση Γρήγορου Μοντέλου, μπορούμε να δούμε τη λειτουργία has_hypertension έχει την υψηλότερη βαθμολογία σημασίας χαρακτηριστικών μεταξύ όλων των χαρακτηριστικών.

Εξάγετε τα δεδομένα και εκπαιδεύστε το μοντέλο

Τώρα ας εξάγουμε τα μετασχηματισμένα χαρακτηριστικά ML-ready σε έναν κάδο προορισμού S3 και ας κλιμακώσουμε ολόκληρη τη σωλήνωση μηχανικής χαρακτηριστικών που έχουμε δημιουργήσει μέχρι στιγμής χρησιμοποιώντας τα δείγματα σε ολόκληρο το σύνολο δεδομένων με κατανεμημένο τρόπο.

Επιλέξτε το σύμβολο συν δίπλα στο τελευταίο πλαίσιο στη ροή δεδομένων και επιλέξτε Προσθήκη προορισμού.
Επιλέξτε Amazon S3.
Εισάγετε ένα Όνομα στοιχείου δεδομένων. Φόρουμ Τοποθεσία Amazon S3, επιλέξτε έναν κάδο S3 και μετά επιλέξτε Προσθήκη προορισμού.
Επιλέξτε Δημιουργήστε εργασία για την εκκίνηση μιας κατανεμημένης εργασίας επεξεργασίας PySpark για την εκτέλεση του μετασχηματισμού και την έξοδο των δεδομένων στον κάδο S3 προορισμού.

Ανάλογα με το μέγεθος των συνόλων δεδομένων, αυτή η επιλογή μας επιτρέπει να διαμορφώνουμε εύκολα το σύμπλεγμα και να κλιμακώνουμε οριζόντια με τρόπο χωρίς κώδικα. Δεν χρειάζεται να ανησυχούμε για την κατάτμηση των συνόλων δεδομένων ή τη διαχείριση των εσωτερικών στοιχείων του συμπλέγματος και του Spark. Όλα αυτά αναλαμβάνονται αυτόματα από την Data Wrangler.
Στο αριστερό παράθυρο, επιλέξτε Στη συνέχεια, 2. Διαμόρφωση εργασίας.
Στη συνέχεια επιλέξτε τρέξιμο.

Εναλλακτικά, μπορούμε επίσης να εξάγουμε τη μετασχηματισμένη έξοδο στο S3 μέσω ενός Notebook Jupyter. Με αυτήν την προσέγγιση, το Data Wrangler δημιουργεί αυτόματα ένα σημειωματάριο Jupyter με όλο τον κώδικα που απαιτείται για την έναρξη μιας εργασίας επεξεργασίας για την εφαρμογή των βημάτων ροής δεδομένων (που δημιουργούνται με τη χρήση ενός δείγματος) στο μεγαλύτερο πλήρες σύνολο δεδομένων και τη χρήση του μετασχηματισμένου δεδομένων ως χαρακτηριστικά για την έναρξη από μια προπονητική δουλειά αργότερα. Ο κωδικός του σημειωματάριου μπορεί να εκτελεστεί εύκολα με ή χωρίς αλλαγές. Ας δούμε τώρα τα βήματα για το πώς να το κάνετε αυτό μέσω της διεπαφής χρήστη του Data Wrangler.

Επιλέξτε το σύμβολο συν δίπλα στο τελευταίο βήμα στη ροή δεδομένων και επιλέξτε Εξαγωγή στο.
Επιλέξτε Amazon S3 (μέσω Jupyter Notebook).
Ανοίγει αυτόματα μια νέα καρτέλα με ένα σημειωματάριο Jupyter.
Στο σημειωματάριο Jupyter, εντοπίστε το κελί στο (Προαιρετικά) Επόμενα βήματα ενότητα και αλλαγή run_optional_steps από False προς την True.
Τα ενεργοποιημένα προαιρετικά βήματα στο σημειωματάριο εκτελούν τα εξής:
- Εκπαιδεύστε ένα μοντέλο χρησιμοποιώντας το XGBoost
Επιστρέψτε στην κορυφή του σημειωματάριου και στο τρέξιμο μενού, επιλέξτε Εκτελέστε όλα τα κελιά.

Εάν χρησιμοποιείτε το σημειωματάριο που δημιουργήθηκε ως έχει, εκκινεί μια εργασία επεξεργασίας του SageMaker που κλιμακώνει την επεξεργασία σε δύο στιγμιότυπα m5.4xlarge για να επεξεργαστεί το πλήρες σύνολο δεδομένων στον κάδο S3. Μπορείτε να προσαρμόσετε τον αριθμό των παρουσιών και των τύπων παρουσιών με βάση το μέγεθος δεδομένων και το χρόνο που χρειάζεστε για να ολοκληρώσετε την εργασία.

Περιμένετε μέχρι να ολοκληρωθεί η εργασία εκπαίδευσης από το τελευταίο κελί. Δημιουργεί ένα μοντέλο στον προεπιλεγμένο κάδο S3 του SageMaker.

Το εκπαιδευμένο μοντέλο είναι έτοιμο για ανάπτυξη είτε για συμπέρασμα σε πραγματικό χρόνο είτε για μετασχηματισμό παρτίδας. Σημειώστε ότι χρησιμοποιήσαμε συνθετικά δεδομένα για να επιδείξουμε λειτουργίες στο Data Wrangler και χρησιμοποιήσαμε επεξεργασμένα δεδομένα για το μοντέλο εκπαίδευσης. Δεδομένου ότι τα δεδομένα που χρησιμοποιήσαμε είναι συνθετικά, το συμπέρασμα που προκύπτει από το εκπαιδευμένο μοντέλο δεν προορίζεται για τη διάγνωση ιατρικών καταστάσεων σε πραγματικό κόσμο ή για την αντικατάσταση της κρίσης από τους ιατρούς.

Μπορείτε επίσης να εξαγάγετε απευθείας το μετασχηματισμένο σύνολο δεδομένων σας στο Amazon S3 επιλέγοντας εξαγωγή πάνω από τη σελίδα προεπισκόπησης μετασχηματισμού. Η επιλογή άμεσης εξαγωγής εξάγει το μετασχηματισμένο δείγμα μόνο εάν η δειγματοληψία ήταν ενεργοποιημένη κατά την εισαγωγή. Αυτή η επιλογή ταιριάζει καλύτερα εάν έχετε να κάνετε με μικρότερα σύνολα δεδομένων. Τα μετασχηματισμένα δεδομένα μπορούν επίσης να εισαχθούν απευθείας σε ένα χώρο αποθήκευσης δυνατοτήτων. Για περισσότερες πληροφορίες, ανατρέξτε στο Κατάστημα χαρακτηριστικών Amazon SageMaker. Η ροή δεδομένων μπορεί επίσης να εξαχθεί ως διοχέτευση SageMaker που μπορεί να ενορχηστρωθεί και να προγραμματιστεί σύμφωνα με τις απαιτήσεις σας. Για περισσότερες πληροφορίες, βλ Αγωγοί Amazon SageMaker.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς να χρησιμοποιείτε το Data Wrangler για την επεξεργασία δεδομένων υγειονομικής περίθαλψης και την εκτέλεση κλιμακούμενης μηχανικής χαρακτηριστικών με τρόπο βασισμένο σε εργαλεία, χαμηλού κώδικα. Μάθαμε πώς να εφαρμόζουμε εύστοχα τους ενσωματωμένους μετασχηματισμούς και τις αναλύσεις όπου χρειάζεται, συνδυάζοντάς το με προσαρμοσμένους μετασχηματισμούς για να προσθέσουμε ακόμη μεγαλύτερη ευελιξία στη ροή εργασιών προετοιμασίας δεδομένων. Περπατήσαμε επίσης στις διάφορες επιλογές για την κλιμάκωση της συνταγής ροής δεδομένων μέσω κατανεμημένων εργασιών επεξεργασίας. Μάθαμε επίσης πώς τα μετασχηματισμένα δεδομένα μπορούν εύκολα να χρησιμοποιηθούν για την εκπαίδευση ενός μοντέλου για την πρόβλεψη της καρδιακής ανεπάρκειας.

Υπάρχουν πολλές άλλες δυνατότητες στο Data Wrangler που δεν έχουμε καλύψει σε αυτήν την ανάρτηση. Εξερευνήστε τι είναι δυνατό σε Προετοιμάστε τα δεδομένα ML με το Amazon SageMaker Data Wrangler και μάθετε πώς να αξιοποιήσετε το Data Wrangler για το επόμενο έργο επιστήμης δεδομένων ή μηχανικής εκμάθησης.

Σχετικά με τους Συγγραφείς

Forrest Sun είναι Senior Solution Architect με την ομάδα του Δημόσιου Τομέα AWS στο Τορόντο του Καναδά. Εργάστηκε στον κλάδο της υγείας και της χρηματοδότησης τις τελευταίες δύο δεκαετίες. Εκτός δουλειάς, του αρέσει η κατασκήνωση με την οικογένειά του.

Χαρακτηριστικά μηχανικής σε κλίμακα για την υγειονομική περίθαλψη και τις βιοεπιστήμες με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Arunprasath Shankar είναι ένας αρχιτέκτονας ειδικών λύσεων τεχνητής νοημοσύνης και μηχανικής μάθησης (AI / ML) με το AWS, βοηθώντας τους παγκόσμιους πελάτες να κλιμακώσουν τις λύσεις AI αποτελεσματικά και αποδοτικά στο cloud. Στον ελεύθερο χρόνο του, ο Arun απολαμβάνει να παρακολουθεί ταινίες sci-fi και να ακούει κλασική μουσική.