Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler

Σε αυτήν την ανάρτηση, εισάγουμε μια νέα ανάλυση στο Αναφορά ποιότητας δεδομένων και πληροφοριών of Amazon SageMaker Data Wrangler. Αυτή η ανάλυση σάς βοηθά στην επικύρωση των χαρακτηριστικών κειμένου για ορθότητα και στην αποκάλυψη μη έγκυρων σειρών για επισκευή ή παράλειψη.

Το Data Wrangler μειώνει τον χρόνο που απαιτείται για τη συγκέντρωση και την προετοιμασία δεδομένων για μηχανική εκμάθηση (ML) από εβδομάδες σε λεπτά. Μπορείτε να απλοποιήσετε τη διαδικασία προετοιμασίας δεδομένων και τη μηχανική λειτουργιών και να ολοκληρώσετε κάθε βήμα της ροής εργασιών προετοιμασίας δεδομένων, συμπεριλαμβανομένης της επιλογής δεδομένων, του καθαρισμού, της εξερεύνησης και της οπτικοποίησης, από μια ενιαία οπτική διεπαφή.

Επισκόπηση λύσεων

Η προεπεξεργασία δεδομένων συχνά περιλαμβάνει καθαρισμό δεδομένων κειμένου, όπως διευθύνσεις email, αριθμούς τηλεφώνου και ονόματα προϊόντων. Αυτά τα δεδομένα μπορεί να έχουν υποκείμενους περιορισμούς ακεραιότητας που μπορούν να περιγραφούν με κανονικές εκφράσεις. Για παράδειγμα, για να θεωρηθεί έγκυρος, ένας τοπικός αριθμός τηλεφώνου μπορεί να χρειαστεί να ακολουθεί ένα μοτίβο όπως [1-9][0-9]{2}-[0-9]{4}, το οποίο θα ταίριαζε με ένα μη μηδενικό ψηφίο, ακολουθούμενο από δύο ακόμη ψηφία, ακολουθούμενο από μια παύλα, ακολουθούμενη από άλλα τέσσερα ψηφία.

Τα συνήθη σενάρια που οδηγούν σε μη έγκυρα δεδομένα μπορεί να περιλαμβάνουν ασυνεπή ανθρώπινη καταχώριση, για παράδειγμα αριθμούς τηλεφώνου σε διάφορες μορφές (5551234 έναντι 555 1234 έναντι 555-1234) ή μη αναμενόμενα δεδομένα, όπως 0, 911 ή 411. Για τηλεφωνικό κέντρο πελατών, είναι σημαντικό να παραλείψετε αριθμούς όπως το 0, το 911 ή το 411 και να επικυρώσετε (και ενδεχομένως να διορθώσετε) καταχωρίσεις όπως το 5551234 ή το 555 1234.

Δυστυχώς, αν και υπάρχουν περιορισμοί κειμένου, ενδέχεται να μην παρέχονται με τα δεδομένα. Επομένως, ένας επιστήμονας δεδομένων που προετοιμάζει ένα σύνολο δεδομένων πρέπει να αποκαλύψει χειροκίνητα τους περιορισμούς εξετάζοντας τα δεδομένα. Αυτό μπορεί να είναι κουραστικό, επιρρεπές σε σφάλματα και χρονοβόρο.

Η εκμάθηση προτύπων αναλύει αυτόματα τα δεδομένα σας και εμφανίζει περιορισμούς κειμένου που ενδέχεται να ισχύουν για το σύνολο δεδομένων σας. Για το παράδειγμα με τους αριθμούς τηλεφώνου, η εκμάθηση προτύπων μπορεί να αναλύσει τα δεδομένα και να αναγνωρίσει ότι η συντριπτική πλειονότητα των τηλεφωνικών αριθμών ακολουθεί τον περιορισμό κειμένου [1-9][0-9]{2}-[0-9][4]. Μπορεί επίσης να σας ειδοποιήσει ότι υπάρχουν παραδείγματα μη έγκυρων δεδομένων, ώστε να μπορείτε να τα εξαιρέσετε ή να τα διορθώσετε.

Στις επόμενες ενότητες, δείχνουμε πώς να χρησιμοποιείτε την εκμάθηση προτύπων στο Data Wrangler χρησιμοποιώντας ένα φανταστικό σύνολο δεδομένων κατηγοριών προϊόντων και κωδικών SKU (μονάδα διατήρησης αποθεμάτων).

Αυτό το σύνολο δεδομένων περιέχει χαρακτηριστικά που περιγράφουν προϊόντα ανά εταιρεία, επωνυμία και κατανάλωση ενέργειας. Συγκεκριμένα, περιλαμβάνει ένα χαρακτηριστικό SKU που δεν έχει μορφοποιηθεί σωστά. Όλα τα δεδομένα σε αυτό το σύνολο δεδομένων είναι φανταστικά και δημιουργούνται τυχαία χρησιμοποιώντας τυχαίες επωνυμίες και ονόματα συσκευών.

Προϋποθέσεις

Πριν ξεκινήσετε να χρησιμοποιείτε το Data Wrangler, κατεβάσετε το δείγμα δεδομένων και μεταφορτώστε το σε μια τοποθεσία στο Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3). Για οδηγίες, ανατρέξτε στο Μεταφόρτωση αντικειμένων.

Εισαγάγετε το σύνολο δεδομένων σας

Για να εισαγάγετε το σύνολο δεδομένων σας, ολοκληρώστε τα παρακάτω βήματα:

  1. Στο Data Wrangler, επιλέξτε Εισαγωγή και εξερεύνηση δεδομένων για ML.
  2. Επιλέξτε εισαγωγή.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Για Εισαγωγή δεδομένων, επιλέξτε Amazon S3.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  4. Εντοπίστε το αρχείο στο Amazon S3 και επιλέξτε εισαγωγή.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μετά την εισαγωγή, μπορούμε να πλοηγηθούμε στη ροή δεδομένων.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Λάβετε πληροφορίες δεδομένων

Σε αυτό το βήμα, δημιουργούμε μια αναφορά πληροφοριών δεδομένων που περιλαμβάνει πληροφορίες σχετικά με την ποιότητα των δεδομένων. Για περισσότερες πληροφορίες, ανατρέξτε στο Λάβετε πληροφορίες σχετικά με τα δεδομένα και την ποιότητα των δεδομένων. Ολοκληρώστε τα παρακάτω βήματα:

  1. Στις Ροή δεδομένων καρτέλα, επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων.
  2. Επιλέξτε Λάβετε πληροφορίες δεδομένων.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Για Τύπος ανάλυσης, επιλέξτε Αναφορά ποιότητας δεδομένων και πληροφοριών.
  4. Για αυτήν την ανάρτηση, φύγετε Στήλη στόχου και Τύπος προβλήματος κενό.Εάν σκοπεύετε να χρησιμοποιήσετε το σύνολο δεδομένων σας για μια εργασία παλινδρόμησης ή ταξινόμησης με μια δυνατότητα στόχου, μπορείτε να ορίσετε αυτές τις επιλογές και η αναφορά θα περιλαμβάνει ανάλυση σχετικά με τον τρόπο με τον οποίο σχετίζονται τα χαρακτηριστικά εισαγωγής με τον στόχο σας. Για παράδειγμα, μπορεί να παράγει αναφορές σχετικά με τη διαρροή στόχου. Για περισσότερες πληροφορίες, ανατρέξτε στο Στήλη στόχου.
  5. Επιλέξτε Δημιουργία.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τώρα έχουμε μια αναφορά ποιότητας δεδομένων και πληροφοριών δεδομένων. Αν κάνουμε κύλιση προς τα κάτω στο Κωδικός ενότητα, μπορούμε να δούμε ένα παράδειγμα εκμάθησης προτύπων που περιγράφει το SKU. Αυτή η δυνατότητα φαίνεται να έχει ορισμένα μη έγκυρα δεδομένα και απαιτείται επανόρθωση με δυνατότητα ενέργειας.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Πριν καθαρίσουμε τη δυνατότητα SKU, ας μετακινηθούμε προς τα επάνω στο Μάρκα ενότητα για να δείτε περισσότερες πληροφορίες. Εδώ βλέπουμε ότι έχουν αποκαλυφθεί δύο μοτίβα, υποδεικνύοντας ότι η πλειονότητα των επωνυμιών είναι μεμονωμένες λέξεις που αποτελούνται από χαρακτήρες λέξης ή αλφαβητικούς χαρακτήρες. ΕΝΑ χαρακτήρας λέξης είναι είτε μια υπογράμμιση είτε ένας χαρακτήρας που μπορεί να εμφανίζεται σε μια λέξη σε οποιαδήποτε γλώσσα. Για παράδειγμα, οι χορδές Hello_world και écoute και τα δύο αποτελούνται από χαρακτήρες λέξης: H και é.

Για αυτήν την ανάρτηση, δεν καθαρίζουμε αυτήν τη δυνατότητα.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Δείτε πληροφορίες εκμάθησης μοτίβων

Ας επιστρέψουμε στον καθαρισμό των SKU και ας μεγεθύνουμε το μοτίβο και το προειδοποιητικό μήνυμα.

Όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης, η εκμάθηση μοτίβων εμφανίζει ένα μοτίβο υψηλής ακρίβειας που αντιστοιχεί στο 97.78% των δεδομένων. Εμφανίζει επίσης ορισμένα παραδείγματα που ταιριάζουν με το μοτίβο καθώς και παραδείγματα που δεν ταιριάζουν με το μοτίβο. Στα μη αντιστοιχισμένα, βλέπουμε κάποια άκυρα SKU.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εκτός από τα μοτίβα που εμφανίζονται στην επιφάνεια, μπορεί να εμφανιστεί μια προειδοποίηση που υποδεικνύει μια πιθανή ενέργεια για τον καθαρισμό δεδομένων εάν υπάρχει μοτίβο υψηλής ακρίβειας, καθώς και ορισμένα δεδομένα που δεν συμμορφώνονται με το μοτίβο.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορούμε να παραλείψουμε τα μη έγκυρα δεδομένα. Αν επιλέξουμε (δεξί κλικ) στην κανονική έκφραση, μπορούμε να αντιγράψουμε την έκφραση [A-Z]{3}-[0-9]{4,5}.

Κατάργηση μη έγκυρων δεδομένων

Ας δημιουργήσουμε έναν μετασχηματισμό για να παραλείψουμε μη συμμορφούμενα δεδομένα που δεν ταιριάζουν με αυτό το μοτίβο.

  1. Στις Ροή δεδομένων καρτέλα, επιλέξτε το σύμβολο συν δίπλα Τύποι δεδομένων.
  2. Επιλέξτε Προσθήκη μετασχηματισμού.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  3. Επιλέξτε Προσθέστε βήμα.
  4. Αναζήτηση regex Και επιλέξτε Αναζήτηση και επεξεργασία.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  5. Για Μεταμορφώστε, επιλέξτε Μετατροπή μη αντιστοιχιών σε λείπουν.
  6. Για Στήλες εισαγωγής, επιλέξτε SKU.
  7. Για πρότυπο, εισάγετε την κανονική μας έκφραση.
  8. Επιλέξτε Προβολή, κατόπιν επιλέξτε Πρόσθεση.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
    Τώρα τα ξένα δεδομένα έχουν αφαιρεθεί από τις λειτουργίες.
  9. Για να αφαιρέσετε τις σειρές, προσθέστε το βήμα Λείπει η λαβή και επιλέξτε το μετασχηματισμό Λείπει η πτώση.
  10. Επιλέξτε SKU ως στήλη εισόδου.
    Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επιστρέφουμε στη ροή δεδομένων μας με την αφαίρεση των εσφαλμένων δεδομένων.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Συμπέρασμα

Σε αυτήν την ανάρτηση, σας δείξαμε πώς να χρησιμοποιείτε τη δυνατότητα εκμάθησης προτύπων σε πληροφορίες δεδομένων για να βρείτε μη έγκυρα δεδομένα κειμένου στο σύνολο δεδομένων σας, καθώς και πώς να διορθώνετε ή να παραλείπετε αυτά τα δεδομένα.

Τώρα που έχετε καθαρίσει μια στήλη κειμένου, μπορείτε να οπτικοποιήσετε το σύνολο δεδομένων σας χρησιμοποιώντας ένα ανάλυση ή μπορείτε να κάνετε αίτηση ενσωματωμένους μετασχηματισμούς για περαιτέρω επεξεργασία των δεδομένων σας. Όταν είστε ικανοποιημένοι με τα δεδομένα σας, μπορείτε εκπαιδεύστε ένα μοντέλο με Αυτόματος πιλότος Amazon SageMaker, ή εξάγετε τα δεδομένα σας σε μια πηγή δεδομένων όπως το Amazon S3.

Θα θέλαμε να ευχαριστήσουμε τον Nikita Ivkin για τη στοχαστική κριτική του.


Σχετικά με τους συγγραφείς

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Βισάαλ Καπούρ είναι Ανώτερος Εφαρμοσμένος Επιστήμονας με AWS AI. Είναι παθιασμένος με το να βοηθά τους πελάτες να κατανοήσουν τα δεδομένα τους στο Data Wrangler. Στον ελεύθερο χρόνο του, κάνει ποδήλατα βουνού, snowboard και περνά χρόνο με την οικογένειά του.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ζοχάρ Καρνίν είναι Κύριος Επιστήμονας στο Amazon AI. Τα ερευνητικά του ενδιαφέροντα είναι στους τομείς της μεγάλης κλίμακας και των διαδικτυακών αλγορίθμων μηχανικής μάθησης. Αναπτύσσει απείρως επεκτάσιμους αλγόριθμους μηχανικής μάθησης για το Amazon SageMaker.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ατζάι Σάρμα είναι κύριος διευθυντής προϊόντων για το Amazon SageMaker όπου εστιάζει στο Data Wrangler, ένα εργαλείο προετοιμασίας οπτικών δεδομένων για επιστήμονες δεδομένων. Πριν από το AWS, ο Ajai ήταν Εμπειρογνώμονας Επιστήμης Δεδομένων στην McKinsey and Company, όπου ηγήθηκε δεσμεύσεων με επίκεντρο το ML για κορυφαίες χρηματοοικονομικές και ασφαλιστικές εταιρείες παγκοσμίως. Ο Ajai είναι παθιασμένος με την επιστήμη των δεδομένων και λατρεύει να εξερευνά τους πιο πρόσφατους αλγόριθμους και τεχνικές μηχανικής εκμάθησης.

Εντοπίστε μοτίβα σε δεδομένα κειμένου με το Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Ντέρεκ Μπάρον είναι υπεύθυνος ανάπτυξης λογισμικού για το Amazon SageMaker Data Wrangler

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS