Ενοποιημένη προετοιμασία δεδομένων και εκπαίδευση μοντέλων με το Amazon SageMaker Data Wrangler και το Amazon SageMaker Autopilot

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Τα δεδομένα τροφοδοτούν τη μηχανική μάθηση (ML). η ποιότητα των δεδομένων έχει άμεσο αντίκτυπο στην ποιότητα των μοντέλων ML. Επομένως, η βελτίωση της ποιότητας των δεδομένων και η χρήση των σωστών τεχνικών μηχανικής χαρακτηριστικών είναι κρίσιμες για τη δημιουργία ακριβών μοντέλων ML. Οι επαγγελματίες ML συχνά επαναλαμβάνουν κουραστικά τη μηχανική χαρακτηριστικών, την επιλογή αλγορίθμων και άλλες πτυχές της ML σε αναζήτηση βέλτιστων μοντέλων που γενικεύουν καλά σε δεδομένα του πραγματικού κόσμου και παρέχουν τα επιθυμητά αποτελέσματα. Επειδή η ταχύτητα στην επιχειρηματική δραστηριότητα έχει δυσανάλογη σημασία, αυτή η εξαιρετικά κουραστική και επαναληπτική διαδικασία μπορεί να οδηγήσει σε καθυστερήσεις έργων και χαμένες επιχειρηματικές ευκαιρίες.

Amazon SageMaker Data Wrangler μειώνει το χρόνο συγκέντρωσης και προετοιμασίας δεδομένων για ML από εβδομάδες σε λεπτά και Αυτόματος πιλότος Amazon SageMaker δημιουργεί αυτόματα, εκπαιδεύει και συντονίζει τα καλύτερα μοντέλα ML με βάση τα δεδομένα σας. Με τον Autopilot, εξακολουθείτε να διατηρείτε τον πλήρη έλεγχο και την ορατότητα των δεδομένων και του μοντέλου σας. Και οι δύο υπηρεσίες έχουν σχεδιαστεί ειδικά για να κάνουν τους επαγγελματίες ML πιο παραγωγικούς και να επιταχύνουν τον χρόνο για να αποκτήσουν αξία.

Το Data Wrangler παρέχει τώρα μια ενοποιημένη εμπειρία που σας δίνει τη δυνατότητα να προετοιμάζετε δεδομένα και να εκπαιδεύετε απρόσκοπτα ένα μοντέλο ML στον Αυτόματο πιλότο. Με αυτήν τη λειτουργία που κυκλοφόρησε πρόσφατα, μπορείτε τώρα να προετοιμάσετε τα δεδομένα σας στο Data Wrangler και να εκκινήσετε εύκολα πειράματα Αυτόματου πιλότου απευθείας από τη διεπαφή χρήστη του Data Wrangler (UI). Με λίγα μόνο κλικ, μπορείτε να δημιουργήσετε, να εκπαιδεύσετε και να συντονίσετε αυτόματα μοντέλα ML, διευκολύνοντας τη χρήση τεχνικών μηχανικής τεχνολογίας αιχμής, την εκπαίδευση μοντέλων ML υψηλής ποιότητας και την ταχύτερη απόκτηση πληροφοριών από τα δεδομένα σας.

Σε αυτήν την ανάρτηση, συζητάμε πώς μπορείτε να χρησιμοποιήσετε αυτήν τη νέα ενσωματωμένη εμπειρία στο Data Wrangler για να αναλύσετε σύνολα δεδομένων και να δημιουργήσετε εύκολα μοντέλα ML υψηλής ποιότητας στον Αυτόματο πιλότο.

Επισκόπηση συνόλου δεδομένων

Οι Ινδιάνοι Pima είναι μια ομάδα ιθαγενών που ζει στο Μεξικό και την Αριζόνα των ΗΠΑ. Έρευνες δείχνουν τους Ινδιάνους Pima ως ομάδα πληθυσμού υψηλού κινδύνου για σακχαρώδη διαβήτη. Η πρόβλεψη της πιθανότητας κινδύνου και της ευαισθησίας ενός ατόμου σε μια χρόνια ασθένεια όπως ο διαβήτης είναι ένα σημαντικό έργο για τη βελτίωση της υγείας και της ευημερίας αυτής της συχνά υποεκπροσωπούμενης μειονοτικής ομάδας.

Χρησιμοποιούμε το Δημόσιο σύνολο δεδομένων Pima Indian Diabetes να προβλέψει την ευαισθησία ενός ατόμου στον διαβήτη. Εστιάζουμε στη νέα ενοποίηση μεταξύ Data Wrangler και Autopilot για την προετοιμασία δεδομένων και την αυτόματη δημιουργία ενός μοντέλου ML χωρίς να γράψουμε ούτε μια γραμμή κώδικα.

Το σύνολο δεδομένων περιέχει πληροφορίες για γυναίκες της Ινδίας Pima 21 ετών και άνω και περιλαμβάνει πολλές ιατρικές προγνωστικές (ανεξάρτητες) μεταβλητές και μία μεταβλητή στόχο (εξαρτώμενη), Έκβαση. Το παρακάτω γράφημα περιγράφει τις στήλες στο σύνολο δεδομένων μας.

Στήλη Όνομα	Περιγραφή
Εγκυμοσύνη	Ο αριθμός των εγκύων
Γλυκόζη	Συγκέντρωση γλυκόζης στο πλάσμα σε από του στόματος δοκιμασία ανοχής γλυκόζης εντός 2 ωρών
Πίεση αίματος	Διαστολική αρτηριακή πίεση (mm Hg)
Πάχος δέρματος	Πάχος πτυχής δέρματος τρικεφάλου (mm)
Ινσουλίνη	Ινσουλίνη ορού 2 ωρών (mu U/ml)
ΔΜΣ	Δείκτης μάζας σώματος (βάρος σε kg/(ύψος σε m)^2)
Διαβήτης Γενεαλογικό	Γενεαλογική λειτουργία του διαβήτη
Ηλικία	Ηλικία σε χρόνια
Αποτέλεσμα	Η μεταβλητή στόχος

Το σύνολο δεδομένων περιέχει 768 εγγραφές, με 9 συνολικά χαρακτηριστικά. Αποθηκεύουμε αυτό το σύνολο δεδομένων στο Απλός κάδος αποθήκευσης Amazon (Amazon S3) ως αρχείο CSV και, στη συνέχεια, εισαγάγετε το CSV απευθείας σε μια ροή δεδομένων Wrangler από το Amazon S3.

Επισκόπηση λύσεων

Το παρακάτω διάγραμμα συνοψίζει όσα πετυχαίνουμε σε αυτήν την ανάρτηση.[KT1]

Οι επιστήμονες δεδομένων, οι γιατροί και άλλοι ειδικοί στον ιατρικό τομέα παρέχουν δεδομένα ασθενών με πληροφορίες σχετικά με τα επίπεδα γλυκόζης, την αρτηριακή πίεση, τον δείκτη μάζας σώματος και άλλα χαρακτηριστικά που χρησιμοποιούνται για την πρόβλεψη της πιθανότητας εμφάνισης διαβήτη. Με το σύνολο δεδομένων στο Amazon S3, εισάγουμε το σύνολο δεδομένων στο Data Wrangler για να εκτελέσουμε διερευνητική ανάλυση δεδομένων (EDA), δημιουργία προφίλ δεδομένων, μηχανική λειτουργιών και διαχωρισμό του συνόλου δεδομένων σε εκπαίδευση και δοκιμή για κατασκευή και αξιολόγηση μοντέλων.

Στη συνέχεια χρησιμοποιούμε τη νέα ενσωμάτωση δυνατοτήτων του Autopilot για να δημιουργήσουμε γρήγορα ένα μοντέλο απευθείας από τη διεπαφή Data Wrangler. Επιλέγουμε το καλύτερο μοντέλο του Autopilot με βάση το μοντέλο με την υψηλότερη βαθμολογία F-beta. Αφού ο Autopilot βρει το καλύτερο μοντέλο, τρέχουμε ένα Μετασχηματισμός παρτίδας SageMaker εργασία στο τεστ (holdout) σετ με τα τεχνουργήματα του μοντέλου του καλύτερου μοντέλου για αξιολόγηση.

Οι ειδικοί της ιατρικής μπορούν να παράσχουν νέα δεδομένα στο επικυρωμένο μοντέλο για να λάβουν μια πρόβλεψη για να δουν εάν ένας ασθενής είναι πιθανό να έχει διαβήτη. Με αυτές τις γνώσεις, οι ειδικοί της ιατρικής μπορούν να ξεκινήσουν έγκαιρα τη θεραπεία για να βελτιώσουν την υγεία και την ευημερία των ευάλωτων πληθυσμών. Οι ειδικοί της ιατρικής μπορούν επίσης να εξηγήσουν την πρόβλεψη ενός μοντέλου αναφέροντας τις λεπτομέρειες του μοντέλου στον Αυτόματο πιλότο, επειδή έχουν πλήρη ορατότητα στην επεξήγηση, την απόδοση και τα τεχνουργήματα του μοντέλου. Αυτή η ορατότητα εκτός από την επικύρωση του μοντέλου από το σετ δοκιμών δίνει στους ιατρούς μεγαλύτερη εμπιστοσύνη στην προγνωστική ικανότητα του μοντέλου.

Σας καθοδηγούμε στα ακόλουθα βήματα υψηλού επιπέδου.

Εισαγάγετε το σύνολο δεδομένων από το Amazon S3.
Εκτελέστε EDA και δημιουργία προφίλ δεδομένων με το Data Wrangler.
Εκτελέστε μηχανική χαρακτηριστικών για να χειριστείτε ακραίες τιμές και τιμές που λείπουν.
Διαχωρίστε τα δεδομένα σε σετ τρένων και δοκιμών.
Εκπαιδεύστε και κατασκευάστε ένα μοντέλο με τον αυτόματο πιλότο.
Δοκιμάστε το μοντέλο σε ένα δείγμα κράτησης με ένα σημειωματάριο SageMaker.
Αναλύστε την επικύρωση και την απόδοση του συνόλου δοκιμής.

Προϋποθέσεις

Ολοκληρώστε τα παρακάτω προαπαιτούμενα βήματα:

Ανεβάστε το σύνολο δεδομένων σε έναν κάδο S3 της επιλογής σας.
Βεβαιωθείτε ότι έχετε τα απαραίτητα δικαιώματα. Για περισσότερες πληροφορίες, ανατρέξτε στο Ξεκινήστε με το Data Wrangler.
Ρυθμίστε έναν τομέα SageMaker που έχει ρυθμιστεί να χρησιμοποιεί το Data Wrangler. Για οδηγίες, ανατρέξτε στο Ενσωματωμένος στον τομέα Amazon SageMaker.

Εισαγάγετε το σύνολο δεδομένων σας με το Data Wrangler

Μπορείτε να ενσωματώσετε μια ροή δεδομένων Data Wrangler στις ροές εργασιών ML για να απλοποιήσετε και να απλοποιήσετε την προεπεξεργασία δεδομένων και τη μηχανική χαρακτηριστικών χρησιμοποιώντας ελάχιστη έως καθόλου κωδικοποίηση. Ολοκληρώστε τα παρακάτω βήματα:

Δημιουργήστε ένα νέο Ροή δεδομένων Wrangler.

Εάν αυτή είναι η πρώτη φορά που ανοίγετε το Data Wrangler, ίσως χρειαστεί να περιμένετε λίγα λεπτά για να είναι έτοιμο.

Επιλέξτε το σύνολο δεδομένων που είναι αποθηκευμένο στο Amazon S3 και εισαγάγετε το στο Data Wrangler.

Αφού εισαγάγετε το σύνολο δεδομένων, θα πρέπει να δείτε τις αρχές μιας ροής δεδομένων μέσα στη διεπαφή χρήστη Data Wrangler. Τώρα έχετε ένα διάγραμμα ροής.

Επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων Και επιλέξτε Αλλαγή για να επιβεβαιώσετε ότι το Data Wrangler συνήγαγε αυτόματα τους σωστούς τύπους δεδομένων για τις στήλες δεδομένων σας.

Εάν οι τύποι δεδομένων δεν είναι σωστοί, μπορείτε εύκολα να τους τροποποιήσετε μέσω της διεπαφής χρήστη. Εάν υπάρχουν πολλές πηγές δεδομένων, μπορείτε να τις συνδέσετε ή να τις συνδέσετε.

Τώρα μπορούμε να δημιουργήσουμε μια ανάλυση και να προσθέσουμε μετασχηματισμούς.

Εκτελέστε διερευνητική ανάλυση δεδομένων με την αναφορά πληροφοριών δεδομένων

Η διερευνητική ανάλυση δεδομένων είναι ένα κρίσιμο μέρος της ροής εργασίας ML. Μπορούμε να χρησιμοποιήσουμε τη νέα αναφορά πληροφοριών δεδομένων από το Data Wrangler για να κατανοήσουμε καλύτερα το προφίλ και τη διανομή των δεδομένων μας. Η αναφορά περιλαμβάνει συνοπτικά στατιστικά στοιχεία, προειδοποιήσεις ποιότητας δεδομένων, πληροφορίες στηλών στόχων, ένα γρήγορο μοντέλο και πληροφορίες σχετικά με ανώμαλες και διπλότυπες σειρές.

Επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων Και επιλέξτε Λάβετε πληροφορίες δεδομένων.

Για στόχος στήλη, επιλέξτε Αποτέλεσμα.
Για Τύπος προβλήματοςκαι (προαιρετικά) επιλέξτε Ταξινόμηση.
Επιλέξτε Δημιουργία.

Τα αποτελέσματα δείχνουν συνοπτικά δεδομένα με τα στατιστικά στοιχεία δεδομένων.

Μπορούμε επίσης να δούμε την κατανομή των σειρών με ετικέτα με ένα ιστόγραμμα, μια εκτίμηση της αναμενόμενης προβλεπόμενης ποιότητας του μοντέλου με τη δυνατότητα γρήγορου μοντέλου και έναν πίνακα σύνοψης χαρακτηριστικών.

Δεν μπαίνουμε στις λεπτομέρειες της ανάλυσης της αναφοράς πληροφοριών δεδομένων. αναφέρομαι σε Επιταχύνετε την προετοιμασία δεδομένων με ποιότητα δεδομένων και πληροφορίες στο Amazon SageMaker Data Wrangler για πρόσθετες λεπτομέρειες σχετικά με το πώς μπορείτε να χρησιμοποιήσετε την αναφορά πληροφοριών δεδομένων για να επιταχύνετε τα βήματα προετοιμασίας δεδομένων.

Εκτελέστε μηχανική χαρακτηριστικών

Τώρα που διαμορφώσαμε και αναλύσαμε την κατανομή των στηλών εισόδου μας σε υψηλό επίπεδο, η πρώτη σκέψη για τη βελτίωση της ποιότητας των δεδομένων μας θα μπορούσε να είναι ο χειρισμός των τιμών που λείπουν.

Για παράδειγμα, γνωρίζουμε ότι τα μηδενικά (0) για το Insulin στήλη αντιπροσωπεύει τιμές που λείπουν. Θα μπορούσαμε να ακολουθήσουμε τη σύσταση να αντικαταστήσουμε τα μηδενικά με NaN. Αλλά σε πιο προσεκτική εξέταση, διαπιστώνουμε ότι η ελάχιστη τιμή είναι 0 για άλλες στήλες όπως π.χ Glucose, BloodPressure, SkinThickness, να BMI. Χρειαζόμαστε έναν τρόπο να χειριζόμαστε τιμές που λείπουν, αλλά πρέπει να είμαστε ευαίσθητοι σε στήλες με μηδενικά ως έγκυρα δεδομένα. Ας δούμε πώς μπορούμε να το διορθώσουμε.

Στο Λεπτομέρειες χαρακτηριστικών ενότητα, η έκθεση θέτει α Συγκαλυμμένη τιμή που λείπει προειδοποίηση για το χαρακτηριστικό Insulin.

Επειδή τα μηδενικά στο Insulin στήλη στην πραγματικότητα λείπουν δεδομένα, χρησιμοποιούμε το Μετατροπή regex σε λείπει μετασχηματισμός για μετατροπή μηδενικών τιμών σε κενή (Λείπουν τιμές).

Επιλέξτε το σύμβολο συν δίπλα ημερομηνία τύποι Και επιλέξτε Πρόσθεση μετατρέψουν.
Επιλέξτε Αναζήτηση και επεξεργασία.
Για Μεταμορφώστε, επιλέξτε Μετατροπή regex σε λείπει.
Για Εισαγωγή στήλες, επιλέξτε τις στήλες Insulin, Glucose, BloodPressure, SkinThickness, να BMI.
Για πρότυπο, εισαγω 0.
Επιλέξτε Προβολή και Πρόσθεση για να αποθηκεύσετε αυτό το βήμα.

Οι 0 καταχωρήσεις κάτω από Insulin, Glucose, BloodPressure, SkinThickness, να BMI τώρα λείπουν αξίες.

Το Data Wrangler σάς παρέχει μερικές άλλες επιλογές για να διορθώσετε τις τιμές που λείπουν.

Χειριζόμαστε τις τιμές που λείπουν με τον υπολογισμό της κατά προσέγγιση διάμεσο για το Glucose στήλη.

Θέλουμε επίσης να διασφαλίσουμε ότι τα χαρακτηριστικά μας είναι στην ίδια κλίμακα. Δεν θέλουμε να δώσουμε κατά λάθος μεγαλύτερη βαρύτητα σε ένα συγκεκριμένο χαρακτηριστικό μόνο και μόνο επειδή περιέχουν μεγαλύτερο αριθμητικό εύρος. Κανονικοποιούμε τις δυνατότητές μας για να το κάνουμε αυτό.

Προσθέστε μια νέα Αριθμητική διαδικασία μεταμορφώστε και επιλέξτε Τιμές κλίμακας.
Για κλιμακωτής, επιλέξτε Ελάχιστη μέγιστη κλίμακα.
Για Στήλες εισαγωγής, επιλέξτε τις στήλες Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMI, να Age.
σετ Ελάχ. προς την 0 και Μέγ. προς την 1.

Αυτό διασφαλίζει ότι τα χαρακτηριστικά μας βρίσκονται μεταξύ των τιμών 0 και 1.

Τώρα που δημιουργήσαμε ορισμένες δυνατότητες, χωρίσαμε το σύνολο δεδομένων μας σε εκπαίδευση και δοκιμή πριν δημιουργήσουμε ένα μοντέλο.

Διαχωρίστε τα δεδομένα σε εκπαίδευση και δοκιμές

Στη φάση δημιουργίας μοντέλων της ροής εργασίας ML, δοκιμάζετε την αποτελεσματικότητα του μοντέλου σας εκτελώντας προβλέψεις παρτίδας. Μπορείτε να αφήσετε στην άκρη ένα σύνολο δεδομένων δοκιμής ή διατήρησης για αξιολόγηση για να δείτε πώς αποδίδει το μοντέλο σας συγκρίνοντας τις προβλέψεις με την αλήθεια. Γενικά, εάν περισσότερες από τις προβλέψεις του μοντέλου ταιριάζουν με το true ετικέτες, μπορούμε να προσδιορίσουμε ότι το μοντέλο έχει καλή απόδοση.

Χρησιμοποιούμε το Data Wrangler για να χωρίσουμε το σύνολο δεδομένων μας για δοκιμή. Διατηρούμε το 90% του συνόλου δεδομένων μας για εκπαίδευση επειδή έχουμε σχετικά μικρό σύνολο δεδομένων. Το υπόλοιπο 10% του συνόλου δεδομένων μας χρησιμεύει ως δοκιμαστικό σύνολο δεδομένων. Χρησιμοποιούμε αυτό το σύνολο δεδομένων για να επικυρώσουμε το μοντέλο Autopilot αργότερα σε αυτήν την ανάρτηση.

Διαχωρίζουμε τα δεδομένα μας επιλέγοντας το Διαχωρισμός δεδομένων μεταμόρφωση και επιλογή Τυχαιοποιημένη διαίρεση ως μέθοδος. Ορίζουμε 0.9 ως ποσοστό διαίρεσης για την εκπαίδευση και 0.1 για τη δοκιμή.

Με τον μετασχηματισμό δεδομένων και τα βήματα μηχανικής να έχουν ολοκληρωθεί, είμαστε πλέον έτοιμοι να εκπαιδεύσουμε ένα μοντέλο.

Εκπαιδεύστε και επικυρώστε το μοντέλο

Μπορούμε να χρησιμοποιήσουμε τη νέα ενσωμάτωση του Data Wrangler με τον Autopilot για να εκπαιδεύσουμε απευθείας ένα μοντέλο από τη διεπαφή χρήστη ροής δεδομένων Data Wrangler.

Επιλέξτε το σύμβολο συν δίπλα Σύνολο δεδομένων Και επιλέξτε Μοντέλο αμαξοστοιχίας.

Για Τοποθεσία Amazon S3, καθορίστε την τοποθεσία Amazon S3 όπου το SageMaker εξάγει τα δεδομένα σας.

Ο Αυτόματος πιλότος χρησιμοποιεί αυτήν τη θέση για να εκπαιδεύσει αυτόματα ένα μοντέλο, εξοικονομώντας χρόνο από το να χρειαστεί να ορίσετε τη θέση εξόδου της ροής του Data Wrangler και, στη συνέχεια, να ορίσετε τη θέση εισόδου των δεδομένων εκπαίδευσης του Αυτόματου πιλότου. Αυτό δημιουργεί μια πιο απρόσκοπτη εμπειρία.

Επιλέξτε εξαγωγή και τρένο για να ξεκινήσει η κατασκευή μοντέλων με τον αυτόματο πιλότο.

Ο Αυτόματος πιλότος επιλέγει αυτόματα τις θέσεις εισαγωγής και εξόδου δεδομένων εκπαίδευσης. Χρειάζεται μόνο να καθορίσετε τη στήλη προορισμού και να κάνετε κλικ Δημιουργία πειράματος για να εκπαιδεύσετε το μοντέλο σας.

Δοκιμάστε το μοντέλο σε ένα δείγμα συγκράτησης

Όταν ο Autopilot ολοκληρώσει το πείραμα, μπορούμε να δούμε τα αποτελέσματα της εκπαίδευσης και να εξερευνήσουμε το καλύτερο μοντέλο.

Επιλέξτε Προβολή λεπτομερειών μοντέλου για το μοντέλο που επιθυμείτε και, στη συνέχεια, επιλέξτε το επίδοση καρτέλα στη σελίδα λεπτομερειών μοντέλου.

Η επίδοση Η καρτέλα εμφανίζει αρκετές δοκιμές μέτρησης μοντέλων, συμπεριλαμβανομένου ενός πίνακα σύγχυσης, της περιοχής κάτω από την καμπύλη ακριβείας/ανάκλησης (AUCPR) και της περιοχής κάτω από τη χαρακτηριστική καμπύλη λειτουργίας του δέκτη (ROC). Αυτά απεικονίζουν τη συνολική απόδοση επικύρωσης του μοντέλου, αλλά δεν μας λένε αν το μοντέλο θα γενικευτεί καλά. Χρειάζεται ακόμη να κάνουμε αξιολογήσεις σε μη ορατά δεδομένα δοκιμών για να δούμε πόσο σωστά το μοντέλο προβλέπει εάν ένα άτομο θα έχει διαβήτη.

Για να διασφαλίσουμε ότι το μοντέλο γενικεύεται αρκετά καλά, αφήνουμε στην άκρη το δείγμα δοκιμής για ανεξάρτητη δειγματοληψία. Μπορούμε να το κάνουμε στη διεπαφή χρήστη ροής δεδομένων Wrangler.

Επιλέξτε το σύμβολο συν δίπλα Σύνολο δεδομένων, επιλέξτε Εξαγωγή στο, και επιλέξτε Amazon S3.

Καθορίστε μια διαδρομή Amazon S3.

Αναφερόμαστε σε αυτή τη διαδρομή όταν εκτελούμε συμπέρασμα παρτίδας για επικύρωση στην επόμενη ενότητα.

Δημιουργήστε ένα νέο σημειωματάριο SageMaker για να πραγματοποιήσετε συμπερασματικά συμπέρασμα στο δείγμα αποθήκευσης και να αξιολογήσετε την απόδοση της δοκιμής. Ανατρέξτε στα ακόλουθα GitHub repo για ένα δείγμα σημειωματάριου για την εκτέλεση συμπερασμάτων παρτίδας για επικύρωση.

Αναλύστε την επικύρωση και την απόδοση του συνόλου δοκιμής

Όταν ολοκληρωθεί ο μετασχηματισμός παρτίδας, δημιουργούμε έναν πίνακα σύγχυσης για να συγκρίνουμε τα πραγματικά και τα προβλεπόμενα αποτελέσματα του συνόλου δεδομένων κράτησης.

Βλέπουμε 23 αληθινά θετικά και 33 αληθινά αρνητικά από τα αποτελέσματά μας. Στην περίπτωσή μας, τα αληθινά θετικά αναφέρονται στο μοντέλο που προβλέπει σωστά ένα άτομο ότι έχει διαβήτη. Αντίθετα, τα αληθινά αρνητικά αναφέρονται στο μοντέλο που προβλέπει σωστά ένα άτομο ότι δεν έχει διαβήτη.

Στην περίπτωσή μας, η ακρίβεια και η ανάκληση είναι σημαντικές μετρήσεις. Η ακρίβεια μετρά ουσιαστικά όλα τα άτομα που προβλέπεται να έχουν διαβήτη, πόσα πραγματικά έχουν διαβήτη; Αντίθετα, η ανάκληση βοηθά στη μέτρηση όλων των ατόμων που έχουν πράγματι διαβήτη, πόσα προβλεπόταν ότι θα είχαν διαβήτη; Για παράδειγμα, μπορεί να θέλετε να χρησιμοποιήσετε ένα μοντέλο με υψηλή ακρίβεια επειδή θέλετε να θεραπεύσετε όσα περισσότερα άτομα μπορείτε, ειδικά εάν το πρώτο στάδιο της θεραπείας δεν έχει καμία επίδραση σε άτομα χωρίς διαβήτη (αυτά είναι ψευδώς θετικά - αυτά που επισημαίνονται ότι το έχουν ενώ στην πραγματικότητα δεν το κάνουν).

Σχεδιάζουμε επίσης την περιοχή κάτω από το γράφημα της καμπύλης ROC (AUC) για να αξιολογήσουμε τα αποτελέσματα. Όσο υψηλότερη είναι η AUC, τόσο καλύτερο είναι το μοντέλο στη διάκριση μεταξύ των κατηγοριών, που στην περίπτωσή μας είναι το πόσο καλά αποδίδει το μοντέλο στη διάκριση ασθενών με και χωρίς διαβήτη.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς να ενσωματώσετε την επεξεργασία των δεδομένων σας, με τη μηχανική και την κατασκευή μοντέλων χρησιμοποιώντας Data Wrangler και Autopilot. Επισημάναμε πώς μπορείτε εύκολα να εκπαιδεύσετε και να συντονίσετε ένα μοντέλο με τον Αυτόματο πιλότο απευθείας από τη διεπαφή χρήστη του Data Wrangler. Με αυτήν τη δυνατότητα ενσωμάτωσης, μπορούμε να δημιουργήσουμε γρήγορα ένα μοντέλο μετά την ολοκλήρωση της μηχανικής των χαρακτηριστικών, χωρίς να γράψουμε κανέναν κώδικα. Στη συνέχεια, αναφερθήκαμε στο καλύτερο μοντέλο του Autopilot για την εκτέλεση προβλέψεων παρτίδας χρησιμοποιώντας την κλάση AutoML με το SageMaker Python SDK.

Λύσεις χαμηλού κώδικα και AutoML, όπως το Data Wrangler και το Autopilot, αφαιρούν την ανάγκη να έχετε βαθιά γνώση κωδικοποίησης για τη δημιουργία ισχυρών μοντέλων ML. Ξεκινήστε να χρησιμοποιείτε το Data Wrangler σήμερα για να βιώσετε πόσο εύκολο είναι να δημιουργήσετε μοντέλα ML χρησιμοποιώντας Αυτόματο πιλότο SageMaker.

Σχετικά με τους Συγγραφείς

Ενοποιημένη προετοιμασία δεδομένων και εκπαίδευση μοντέλων με το Amazon SageMaker Data Wrangler και το Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Πέτερ Τσανγκ είναι αρχιτέκτονας λύσεων για το AWS και είναι παθιασμένος με το να βοηθά τους πελάτες να ανακαλύψουν πληροφορίες από τα δεδομένα τους. Έχει δημιουργήσει λύσεις για να βοηθήσει τους οργανισμούς να λαμβάνουν αποφάσεις βάσει δεδομένων τόσο στον δημόσιο όσο και στον ιδιωτικό τομέα. Κατέχει όλες τις πιστοποιήσεις AWS καθώς και δύο πιστοποιήσεις GCP. Απολαμβάνει τον καφέ, το μαγείρεμα, το να μένει δραστήριος και να περνά χρόνο με την οικογένειά του.

Ενοποιημένη προετοιμασία δεδομένων και εκπαίδευση μοντέλων με το Amazon SageMaker Data Wrangler και το Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Πραντίπ Ρέντι είναι Ανώτερος Διευθυντής Προϊόντων στην ομάδα SageMaker Low/No Code ML, η οποία περιλαμβάνει SageMaker Autopilot, SageMaker Automatic Model Tuner. Εκτός δουλειάς, ο Pradeep του αρέσει να διαβάζει, να τρέχει και να βγαίνει με υπολογιστές μεγέθους παλάμης, όπως το raspberry pi και άλλες τεχνολογίες οικιακού αυτοματισμού.

Ενοποιημένη προετοιμασία δεδομένων και εκπαίδευση μοντέλων με το Amazon SageMaker Data Wrangler και το Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Arunprasath Shankar είναι ένας αρχιτέκτονας ειδικών λύσεων τεχνητής νοημοσύνης και μηχανικής μάθησης (AI / ML) με το AWS, βοηθώντας τους παγκόσμιους πελάτες να κλιμακώσουν τις λύσεις AI αποτελεσματικά και αποδοτικά στο cloud. Στον ελεύθερο χρόνο του, ο Arun απολαμβάνει να παρακολουθεί ταινίες sci-fi και να ακούει κλασική μουσική.

Σρουτζάν Γκόπου είναι Ανώτερος Μηχανικός Frontend στο SageMaker Low Code/No Code ML που βοηθά τους πελάτες των προϊόντων Autopilot και Canvas. Όταν δεν κωδικοποιεί, ο Srujan απολαμβάνει να πηγαίνει για τρέξιμο με τον σκύλο του Max, να ακούει ηχητικά βιβλία και να αναπτύσσει παιχνίδια VR.