Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων κατά τη δημιουργία μοντέλων ML χωρίς κώδικα με το Amazon SageMaker Canvas

Οι επιχειρηματικοί αναλυτές εργάζονται με δεδομένα και τους αρέσει να αναλύουν, να εξερευνούν και να κατανοούν δεδομένα για να επιτύχουν αποτελεσματικά επιχειρηματικά αποτελέσματα. Για την αντιμετώπιση επιχειρηματικών προβλημάτων, βασίζονται συχνά σε επαγγελματίες μηχανικής μάθησης (ML), όπως επιστήμονες δεδομένων για να βοηθήσουν με τεχνικές όπως η χρήση ML για τη δημιουργία μοντέλων χρησιμοποιώντας υπάρχοντα δεδομένα και τη δημιουργία προβλέψεων. Ωστόσο, δεν είναι πάντα δυνατό, καθώς οι επιστήμονες δεδομένων είναι συνήθως δεσμευμένοι με τα καθήκοντά τους και δεν έχουν το εύρος ζώνης για να βοηθήσουν τους αναλυτές.

Για να είστε ανεξάρτητοι και να επιτύχετε τους στόχους σας ως επιχειρηματικός αναλυτής, θα ήταν ιδανικό να εργαστείτε με εύχρηστα, διαισθητικά και οπτικά εργαλεία που χρησιμοποιούν ML χωρίς να χρειάζεται να γνωρίζετε τις λεπτομέρειες και να χρησιμοποιείτε κώδικα. Η χρήση αυτών των εργαλείων θα σας βοηθήσει να λύσετε τα επαγγελματικά σας προβλήματα και να επιτύχετε τα επιθυμητά αποτελέσματα.

Με στόχο να βοηθήσουμε εσάς και τον οργανισμό σας να γίνετε πιο αποτελεσματικοί και να χρησιμοποιήσετε ML χωρίς να γράφετε κώδικα, εμείς παρουσίασε το Amazon SageMaker Canvas. Αυτή είναι μια λύση ML χωρίς κώδικα που σας βοηθά να δημιουργήσετε ακριβή μοντέλα ML χωρίς να χρειάζεται να μάθετε για τεχνικές λεπτομέρειες, όπως αλγόριθμους ML και μετρήσεις αξιολόγησης. Το SageMaker Canvas προσφέρει μια οπτική, διαισθητική διεπαφή που σας επιτρέπει να εισάγετε δεδομένα, να εκπαιδεύετε μοντέλα ML, να εκτελείτε ανάλυση μοντέλων και να δημιουργείτε προβλέψεις ML, όλα αυτά χωρίς να γράψετε ούτε μια γραμμή κώδικα.

Όταν χρησιμοποιείτε το SageMaker Canvas για πειράματα, ενδέχεται να αντιμετωπίσετε ζητήματα ποιότητας δεδομένων, όπως έλλειψη τιμών ή λάθος τύπο προβλήματος. Αυτά τα ζητήματα ενδέχεται να μην ανακαλυφθούν παρά πολύ αργά στη διαδικασία μετά την εκπαίδευση ενός μοντέλου ML. Για να μετριάσει αυτήν την πρόκληση, το SageMaker Canvas υποστηρίζει πλέον την επικύρωση δεδομένων. Αυτή η δυνατότητα ελέγχει προληπτικά για ζητήματα στα δεδομένα σας και παρέχει καθοδήγηση για επιλύσεις.

Σε αυτήν την ανάρτηση, θα δείξουμε πώς μπορείτε να χρησιμοποιήσετε τη δυνατότητα επικύρωσης δεδομένων στο SageMaker Canvas πριν από τη δημιουργία μοντέλου. Όπως υποδηλώνει το όνομα, αυτή η δυνατότητα επικυρώνει το σύνολο δεδομένων σας, αναφέρει προβλήματα και παρέχει χρήσιμους δείκτες για την επίλυσή τους. Χρησιμοποιώντας δεδομένα καλύτερης ποιότητας, θα καταλήξετε σε ένα μοντέλο ML με καλύτερη απόδοση.

Επικύρωση δεδομένων στον καμβά SageMaker

Η επικύρωση δεδομένων είναι μια νέα δυνατότητα στον καμβά SageMaker για τον προληπτικό έλεγχο για πιθανά προβλήματα ποιότητας δεδομένων. Αφού εισαγάγετε τα δεδομένα και επιλέξετε μια στήλη προορισμού, σας δίνεται η επιλογή να επικυρώσετε τα δεδομένα σας όπως φαίνεται εδώ:

Εάν επιλέξετε να επικυρώσετε τα δεδομένα σας, το Canvas αναλύει τα δεδομένα σας για πολλές συνθήκες, όπως:

  • Πάρα πολλές μοναδικές ετικέτες στη στήλη-στόχο σας – για τον τύπο μοντέλου πρόβλεψης κατηγορίας
  • Πάρα πολλές μοναδικές ετικέτες στη στήλη-στόχο σας για τον αριθμό των σειρών στα δεδομένα σας – για τον τύπο μοντέλου πρόβλεψης κατηγορίας
  • Λάθος τύπος μοντέλου για τα δεδομένα σας – ο τύπος μοντέλου δεν ταιριάζει με τα δεδομένα που προβλέπετε στη στήλη Στόχος
  • Πάρα πολλές μη έγκυρες σειρές – λείπουν τιμές στη στήλη-στόχο σας
  • Όλες οι στήλες χαρακτηριστικών είναι στήλες κειμένου – θα απορριφθούν για τυπικές κατασκευές
  • Πολύ λίγες στήλες - πολύ λίγες στήλες στα δεδομένα σας
  • Δεν υπάρχουν πλήρεις σειρές – όλες οι σειρές στα δεδομένα σας περιέχουν τιμές που λείπουν
  • Ένα ή περισσότερα ονόματα στηλών περιέχουν διπλές υπογραμμίσεις – Το SageMaker δεν μπορεί να χειριστεί το (__) στην κεφαλίδα της στήλης

Λεπτομέρειες για κάθε κριτήριο επικύρωσης θα παρέχονται στις επόμενες ενότητες αυτής της ανάρτησης.

Εάν περάσουν όλοι οι έλεγχοι, τότε θα λάβετε την ακόλουθη επιβεβαίωση: "Δεν βρέθηκαν προβλήματα στο σύνολο δεδομένων σας".

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εάν εντοπιστεί κάποιο πρόβλημα, θα λάβετε μια ειδοποίηση για προβολή και κατανόηση. Αυτό αναδεικνύει νωρίς τα ζητήματα ποιότητας δεδομένων και σας επιτρέπει να τα αντιμετωπίσετε αμέσως πριν χάσετε χρόνο και πόρους περαιτέρω στη διαδικασία.

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε να κάνετε τις προσαρμογές σας και να συνεχίσετε να επικυρώνετε το σύνολο δεδομένων σας μέχρι να επιλυθούν όλα τα ζητήματα.

Επικύρωση τύπων στήλης-στόχου και μοντέλου

Όταν δημιουργείτε ένα μοντέλο ML στον καμβά SageMaker, πολλά ζητήματα ποιότητας δεδομένων σχετίζονται με το στήλη στόχος μπορεί να προκαλέσει την αποτυχία της κατασκευής του μοντέλου σας. Το SageMaker Canvas ελέγχει για διάφορα είδη προβλημάτων που μπορεί να σας επηρεάσουν στήλη στόχος.

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Για τη στήλη προορισμού, ελέγξτε το Λάθος τύπος μοντέλου για τα δεδομένα σας. Για παράδειγμα, εάν επιλεγεί ένα μοντέλο πρόβλεψης 2 κατηγοριών αλλά η στήλη-στόχος σας έχει περισσότερες από 2 μοναδικές ετικέτες, τότε το SageMaker Canvas θα παρέχει την ακόλουθη προειδοποίηση επικύρωσης.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Εάν ο τύπος μοντέλου είναι πρόβλεψη κατηγορίας 2 ή 3+, τότε πρέπει να επικυρώσετε πάρα πολλές μοναδικές ετικέτες για τη στήλη-στόχο σας. Ο μέγιστος αριθμός μοναδικών κλάσεων είναι 2000. Εάν επιλέξετε μια στήλη με περισσότερες από 2000 μοναδικές τιμές στη στήλη Στόχος, τότε το Canvas θα παράσχει την ακόλουθη προειδοποίηση επικύρωσης.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Εκτός από τις πάρα πολλές μοναδικές ετικέτες στόχου, θα πρέπει επίσης να προσέχετε πολλές μοναδικές ετικέτες στόχου για τον αριθμό των σειρών στα δεδομένα σας. Το SageMaker Canvas επιβάλλει την αναλογία της ετικέτας στόχου προς τον αριθμό των συνολικών σειρών να είναι μικρότερη από 10%. Αυτό διασφαλίζει ότι έχετε αρκετή εκπροσώπηση για κάθε κατηγορία για ένα μοντέλο υψηλής ποιότητας και μειώνει την πιθανότητα υπερτοποθέτησης. Το μοντέλο σας θεωρείται υπερβολικό όταν προβλέπει καλά τα δεδομένα εκπαίδευσης, αλλά όχι για νέα δεδομένα που δεν έχει δει στο παρελθόν. Αναφέρομαι εδώ για να μάθετε περισσότερα.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  4. Τέλος, ο τελευταίος έλεγχος για τη στήλη προορισμού είναι πάρα πολλές μη έγκυρες σειρές. Εάν η στήλη-στόχος σας έχει πάνω από το 10% των δεδομένων που λείπουν ή δεν είναι έγκυρα, τότε θα επηρεάσει την απόδοση του μοντέλου σας και σε ορισμένες περιπτώσεις θα προκαλέσει την αποτυχία της κατασκευής του μοντέλου σας. Το παρακάτω παράδειγμα έχει πολλές τιμές που λείπουν (>90% λείπουν) στη στήλη προορισμού και λαμβάνετε την ακόλουθη προειδοποίηση επικύρωσης.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εάν λάβετε οποιαδήποτε από τις παραπάνω προειδοποιήσεις για τη στήλη-στόχο σας, χρησιμοποιήστε τα παρακάτω βήματα για να μετριαστείτε τα προβλήματα:

  1. Χρησιμοποιείτε τη σωστή στήλη στόχο;
  2. Επιλέξατε τον σωστό τύπο μοντέλου;
  3. Μπορείτε να αυξήσετε τον αριθμό των σειρών στο σύνολο δεδομένων σας ανά ετικέτα στόχο;
  4. Μπορείτε να ενοποιήσετε/ομαδοποιήσετε παρόμοιες ετικέτες μαζί;
  5. Μπορείτε να συμπληρώσετε τις τιμές που λείπουν/μη έγκυρες;
  6. Έχετε αρκετά δεδομένα ώστε να μπορείτε να απορρίψετε τις τιμές που λείπουν/μη έγκυρες;
  7. Εάν όλες οι παραπάνω επιλογές δεν διαγράφουν την προειδοποίηση, τότε θα πρέπει να εξετάσετε το ενδεχόμενο να χρησιμοποιήσετε ένα διαφορετικό σύνολο δεδομένων.

Αναφέρομαι στο Τεκμηρίωση μετασχηματισμού δεδομένων SageMaker Canvas για να εκτελέσετε τα βήματα καταλογισμού που αναφέρονται παραπάνω.

Επικύρωση όλων των στηλών

Εκτός από τη στήλη προορισμού, ενδέχεται να αντιμετωπίσετε προβλήματα ποιότητας δεδομένων και με άλλες στήλες δεδομένων (στήλες δυνατοτήτων). Οι στήλες χαρακτηριστικών είναι δεδομένα εισόδου που χρησιμοποιούνται για να κάνουν μια πρόβλεψη ML.

  • Κάθε σύνολο δεδομένων πρέπει να έχει τουλάχιστον 1 στήλη χαρακτηριστικών και 1 στήλη στόχο (2 στήλες συνολικά). Διαφορετικά, το SageMaker Canvas θα σας δώσει ένα Πολύ λίγες στήλες στα δεδομένα σας προειδοποίηση. Πρέπει να ικανοποιήσετε αυτήν την απαίτηση για να μπορέσετε να προχωρήσετε στην κατασκευή ενός μοντέλου.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  • Μετά από αυτό, πρέπει να βεβαιωθείτε ότι τα δεδομένα σας έχουν τουλάχιστον 1 αριθμητική στήλη. Αν όχι, τότε θα πάρετε το Όλες οι στήλες χαρακτηριστικών είναι στήλες κειμένου προειδοποίηση. Αυτό συμβαίνει επειδή οι στήλες κειμένου συνήθως απορρίπτονται κατά τις τυπικές εκδόσεις, αφήνοντας έτσι το μοντέλο χωρίς δυνατότητες για εκπαίδευση. Επομένως, αυτό θα προκαλέσει την αποτυχία του κτιρίου του μοντέλου σας. Μπορείτε να χρησιμοποιήσετε το SageMaker Canvas για να κωδικοποιήσετε ορισμένες από τις στήλες κειμένου σε αριθμούς ή να χρησιμοποιήσετε τη γρήγορη κατασκευή αντί για την τυπική κατασκευή.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  • Ο τρίτος τύπος προειδοποίησης που μπορεί να λάβετε για στήλες χαρακτηριστικών είναι Δεν υπάρχουν πλήρεις σειρές. Αυτή η επικύρωση ελέγχει εάν έχετε τουλάχιστον μία σειρά χωρίς τιμές που λείπουν. Ο καμβάς SageMaker απαιτεί τουλάχιστον μία πλήρη σειρά, διαφορετικά η δική σας γρήγορη κατασκευή θα αποτύχει. Προσπαθήστε να συμπληρώσετε τις τιμές που λείπουν πριν δημιουργήσετε το μοντέλο.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  • Ο τελευταίος τύπος επικύρωσης είναι Ένα ή περισσότερα ονόματα στηλών περιέχουν διπλές υπογραμμίσεις. Αυτή είναι μια ειδική απαίτηση του SageMaker Canvas. Εάν έχετε διπλές υπογραμμίσεις (__) στις κεφαλίδες των στηλών σας, τότε αυτό θα σας προκαλέσει γρήγορη κατασκευή να αποτύχει. Μετονομάστε τις στήλες για να αφαιρέσετε τυχόν διπλές υπογραμμίσεις και, στη συνέχεια, δοκιμάστε ξανά.
    Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

εκκαθάριση

Για να αποφύγετε το μέλλον χρεώσεις συνεδρίας, αποσυνδεθείτε από το SageMaker Canvas.

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Συμπέρασμα

Το SageMaker Canvas είναι μια λύση ML χωρίς κώδικα που επιτρέπει στους επιχειρηματικούς αναλυτές να δημιουργούν ακριβή μοντέλα ML και να δημιουργούν προβλέψεις μέσω μιας οπτικής διεπαφής με σημείο και κλικ. Σας δείξαμε πώς το SageMaker Canvas σάς βοηθά να βεβαιωθείτε για την ποιότητα των δεδομένων και να μετριάζετε τα προβλήματα δεδομένων επικυρώνοντας προληπτικά το σύνολο δεδομένων. Εντοπίζοντας έγκαιρα τα προβλήματα, το SageMaker Canvas σάς βοηθά να δημιουργήσετε ποιοτικά μοντέλα ML και να μειώσετε τις επαναλήψεις έκδοσης χωρίς εξειδίκευση στην επιστήμη δεδομένων και στον προγραμματισμό. Για να μάθετε περισσότερα σχετικά με αυτήν τη νέα δυνατότητα, ανατρέξτε στο Τεκμηρίωση καμβά SageMaker.

Για να ξεκινήσετε και να μάθετε περισσότερα για το SageMaker Canvas, ανατρέξτε στους παρακάτω πόρους:


Σχετικά με τους συγγραφείς

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Hariharan Suresh είναι Senior Solutions Architect στην AWS. Είναι παθιασμένος με τις βάσεις δεδομένων, τη μηχανική μάθηση και το σχεδιασμό καινοτόμων λύσεων. Πριν από την ένταξή του στην AWS, ο Hariharan ήταν αρχιτέκτονας προϊόντων, βασικός ειδικός στην υλοποίηση τραπεζικών εργασιών και προγραμματιστής, και συνεργάστηκε με οργανισμούς BFSI για περισσότερα από 11 χρόνια. Εκτός τεχνολογίας, του αρέσει το αλεξίπτωτο πλαγιάς και το ποδήλατο.

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Sainath Miriyala είναι Ανώτερος Τεχνικός Διευθυντής Λογαριασμού στην AWS που εργάζεται για πελάτες αυτοκινήτων στις ΗΠΑ. Η Sainath είναι παθιασμένη με το σχεδιασμό και την κατασκευή μεγάλης κλίμακας κατανεμημένων εφαρμογών χρησιμοποιώντας AI/ML. Στον ελεύθερο χρόνο του ο Sainath περνά χρόνο με την οικογένεια και τους φίλους του.

Εντοπισμός και αποφυγή κοινών προβλημάτων δεδομένων, ενώ δημιουργείται μοντέλα ML χωρίς κώδικα με το Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζέιμς Γου είναι Senior AI/ML Specialist Solution Architect στο AWS. βοηθώντας τους πελάτες να σχεδιάσουν και να δημιουργήσουν λύσεις AI/ML. Το έργο του James καλύπτει ένα ευρύ φάσμα περιπτώσεων χρήσης ML, με πρωταρχικό ενδιαφέρον για την όραση υπολογιστών, τη βαθιά μάθηση και την κλιμάκωση της ML σε όλη την επιχείρηση. Πριν από την ένταξή του στην AWS, ο James ήταν αρχιτέκτονας, προγραμματιστής και ηγέτης τεχνολογίας για περισσότερα από 10 χρόνια, συμπεριλαμβανομένων 6 ετών στη μηχανική και 4 ετών σε βιομηχανίες μάρκετινγκ και διαφήμισης.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS