Ενσωματωμένο PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Onboard PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας

Η οπτική αναγνώριση χαρακτήρων (OCR) είναι η εργασία μετατροπής έντυπου ή χειρόγραφου κειμένου σε κείμενο κωδικοποιημένο από μηχανή. Το OCR έχει χρησιμοποιηθεί ευρέως σε διάφορα σενάρια, όπως η ηλεκτρονοποίηση εγγράφων και ο έλεγχος ταυτότητας. Επειδή το OCR μπορεί να μειώσει σημαντικά τη μη αυτόματη προσπάθεια καταχώρησης βασικών πληροφοριών και να χρησιμεύσει ως ένα βήμα εισαγωγής για την κατανόηση μεγάλου όγκου εγγράφων, ένα ακριβές σύστημα OCR διαδραματίζει κρίσιμο ρόλο στην εποχή του ψηφιακού μετασχηματισμού.

Η κοινότητα ανοιχτού κώδικα και οι ερευνητές επικεντρώνονται στον τρόπο βελτίωσης της ακρίβειας OCR, της ευκολίας χρήσης, της ενσωμάτωσης με προεκπαιδευμένα μοντέλα, της επέκτασης και της ευελιξίας. Μεταξύ πολλών προτεινόμενων πλαισίων, το PaddleOCR έχει κερδίσει αυξανόμενη προσοχή πρόσφατα. Το προτεινόμενο πλαίσιο επικεντρώνεται στην απόκτηση υψηλής ακρίβειας εξισορροπώντας ταυτόχρονα την υπολογιστική απόδοση. Επιπλέον, τα προεκπαιδευμένα μοντέλα για κινέζικα και αγγλικά το καθιστούν δημοφιλές στην αγορά που βασίζεται στην κινεζική γλώσσα. Δείτε το Αποθετήριο PaddleOCR GitHub Για περισσότερες πληροφορίες.

Στην AWS, προτείνουμε επίσης ολοκληρωμένες υπηρεσίες AI που είναι έτοιμες για χρήση χωρίς τεχνογνωσία μηχανικής μάθησης (ML). Για να εξαγάγετε κείμενο και δομημένα δεδομένα όπως πίνακες και φόρμες από έγγραφα, μπορείτε να χρησιμοποιήσετε Textract Amazon. Χρησιμοποιεί τεχνικές ML για την ανάγνωση και επεξεργασία οποιουδήποτε τύπου εγγράφου, εξάγοντας με ακρίβεια κείμενο, χειρόγραφο, πίνακες και άλλα δεδομένα χωρίς χειροκίνητη προσπάθεια.

Για τους επιστήμονες δεδομένων που θέλουν την ευελιξία να χρησιμοποιούν ένα πλαίσιο ανοιχτού κώδικα για να αναπτύξουν το δικό σας μοντέλο OCR, προσφέρουμε επίσης την πλήρως διαχειριζόμενη υπηρεσία ML Amazon Sage Maker. Το SageMaker σάς δίνει τη δυνατότητα να εφαρμόζετε τις βέλτιστες πρακτικές MLOps καθ' όλη τη διάρκεια του κύκλου ζωής του ML και παρέχει πρότυπα και σύνολα εργαλείων για να μειώσετε την αδιαφοροποίητη ανύψωση βαρέων βαρών για την παραγωγή έργων ML.

Σε αυτήν την ανάρτηση, επικεντρωνόμαστε στην ανάπτυξη προσαρμοσμένων μοντέλων εντός του πλαισίου PaddleOCR στο SageMaker. Περπατάμε στον κύκλο ζωής ανάπτυξης ML για να δείξουμε πώς το SageMaker μπορεί να σας βοηθήσει να δημιουργήσετε και να εκπαιδεύσετε ένα μοντέλο και τελικά να αναπτύξετε το μοντέλο ως υπηρεσία web. Αν και παρουσιάζουμε αυτήν τη λύση με το PaddleOCR, η γενική καθοδήγηση ισχύει για αυθαίρετα πλαίσια που χρησιμοποιούνται στο SageMaker. Για να συνοδεύσουμε αυτήν την ανάρτηση, παρέχουμε επίσης δείγμα κώδικα στο Αποθετήριο GitHub.

Πλαίσιο PaddleOCR

Ως ένα ευρέως διαδεδομένο πλαίσιο OCR, το PaddleOCR περιέχει ανίχνευση εμπλουτισμένου κειμένου, αναγνώριση κειμένου και αλγόριθμους από άκρο σε άκρο. Επιλέγει το Differentiable Binarization (DB) και το Convolutional Recurrent Neural Network (CRNN) ως βασικά μοντέλα ανίχνευσης και αναγνώρισης και προτείνει μια σειρά μοντέλων, που ονομάζονται PP-OCR, για βιομηχανικές εφαρμογές μετά από μια σειρά στρατηγικών βελτιστοποίησης.

Το μοντέλο PP-OCR στοχεύει σε γενικά σενάρια και σχηματίζει μια βιβλιοθήκη μοντέλων διαφορετικών γλωσσών. Αποτελείται από τρία μέρη: ανίχνευση κειμένου, ανίχνευση και διόρθωση πλαισίου και αναγνώριση κειμένου, που απεικονίζεται στην παρακάτω εικόνα στο PaddleOCR επίσημο αποθετήριο GitHub. Μπορείτε επίσης να ανατρέξετε στην ερευνητική εργασία PP-OCR: Ένα πρακτικό εξαιρετικά ελαφρύ σύστημα OCR Για περισσότερες πληροφορίες.

Για να γίνουμε πιο συγκεκριμένοι, το PaddleOCR αποτελείται από τρεις διαδοχικές εργασίες:

  • Ανίχνευση κειμένου – Ο σκοπός της ανίχνευσης κειμένου είναι να εντοπίσει την περιοχή κειμένου στην εικόνα. Τέτοιες εργασίες μπορούν να βασίζονται σε ένα απλό δίκτυο τμηματοποίησης.
  • Ανίχνευση και διόρθωση κουτιού – Κάθε πλαίσιο κειμένου πρέπει να μετατραπεί σε οριζόντιο ορθογώνιο πλαίσιο για επακόλουθη αναγνώριση κειμένου. Για να γίνει αυτό, το PaddleOCR προτείνει την εκπαίδευση ενός ταξινομητή κατεύθυνσης κειμένου (εργασία ταξινόμησης εικόνας) για τον προσδιορισμό της κατεύθυνσης κειμένου.
  • Αναγνώριση κειμένου – Αφού εντοπιστεί το πλαίσιο κειμένου, το μοντέλο αναγνώρισης κειμένου εκτελεί συμπέρασμα σε κάθε πλαίσιο κειμένου και εξάγει τα αποτελέσματα σύμφωνα με τη θέση του πλαισίου κειμένου. Το PaddleOCR υιοθετεί την ευρέως χρησιμοποιούμενη μέθοδο CRNN.

Το PaddleOCR παρέχει υψηλής ποιότητας προεκπαιδευμένα μοντέλα που είναι συγκρίσιμα με εμπορικά εφέ. Μπορείτε είτε να χρησιμοποιήσετε το προεκπαιδευμένο μοντέλο για ένα μοντέλο ανίχνευσης, έναν ταξινομητή κατεύθυνσης ή ένα μοντέλο αναγνώρισης ή μπορείτε να συντονίσετε και να επανεκπαιδεύσετε κάθε μεμονωμένο μοντέλο για να εξυπηρετήσετε την περίπτωση χρήσης σας. Για να αυξήσουμε την αποτελεσματικότητα και την αποτελεσματικότητα της ανίχνευσης Παραδοσιακών Κινέζων και Αγγλικών, παρουσιάζουμε πώς να βελτιστοποιήσετε το μοντέλο αναγνώρισης κειμένου. Το προεκπαιδευμένο μοντέλο που επιλέγουμε είναι ch_ppocr_mobile_v2.0_rec_train, το οποίο είναι ένα ελαφρύ μοντέλο, που υποστηρίζει την αναγνώριση κινεζικών, αγγλικών και αριθμών. Το παρακάτω είναι ένα παράδειγμα αποτελέσματος συμπερασμάτων με χρήση ταυτότητας Χονγκ Κονγκ.

Ενσωματωμένο PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στις επόμενες ενότητες, θα δούμε πώς να ρυθμίσετε το προεκπαιδευμένο μοντέλο χρησιμοποιώντας το SageMaker.

Βέλτιστες πρακτικές MLOps με το SageMaker

Το SageMaker είναι μια πλήρως διαχειριζόμενη υπηρεσία ML. Με το SageMaker, οι επιστήμονες δεδομένων και οι προγραμματιστές μπορούν γρήγορα και εύκολα να δημιουργήσουν και να εκπαιδεύσουν μοντέλα ML και στη συνέχεια να τα αναπτύξουν απευθείας σε ένα διαχειριζόμενο περιβάλλον έτοιμο για παραγωγή.

Πολλοί επιστήμονες δεδομένων χρησιμοποιούν το SageMaker για την επιτάχυνση του κύκλου ζωής της ML. Σε αυτήν την ενότητα, παρουσιάζουμε πώς το SageMaker μπορεί να σας βοηθήσει από τον πειραματισμό έως την παραγωγή ML. Ακολουθώντας τα τυπικά βήματα ενός έργου ML, από την πειραματική φράση (ανάπτυξη κώδικα και πειράματα), έως την επιχειρησιακή φράση (αυτοματοποίηση της ροής εργασιών κατασκευής μοντέλου και αγωγών ανάπτυξης), το SageMaker μπορεί να φέρει αποτελεσματικότητα στα ακόλουθα βήματα:

  1. Εξερευνήστε τα δεδομένα και δημιουργήστε τον κώδικα ML με Στούντιο Amazon SageMaker φορητούς υπολογιστές
  2. Εκπαιδεύστε και συντονίστε το μοντέλο με μια εργασία εκπαίδευσης SageMaker.
  3. Αναπτύξτε το μοντέλο με ένα τελικό σημείο SageMaker για προβολή μοντέλων.
  4. Ενορχηστρώστε τη ροή εργασίας με Αγωγοί Amazon SageMaker.

Το παρακάτω διάγραμμα απεικονίζει αυτήν την αρχιτεκτονική και τη ροή εργασίας.

Ενσωματωμένο PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Είναι σημαντικό να σημειωθεί ότι μπορείτε να χρησιμοποιήσετε το SageMaker με αρθρωτό τρόπο. Για παράδειγμα, μπορείτε να δημιουργήσετε τον κώδικά σας με ένα τοπικό περιβάλλον ολοκληρωμένης ανάπτυξης (IDE) και να εκπαιδεύσετε και να αναπτύξετε το μοντέλο σας στο SageMaker ή μπορείτε να αναπτύξετε και να εκπαιδεύσετε το μοντέλο σας στις δικές σας πηγές υπολογισμού συμπλέγματος και να χρησιμοποιήσετε μια διοχέτευση SageMaker για ενορχήστρωση ροής εργασιών και ανάπτυξη σε τελικό σημείο του SageMaker. Αυτό σημαίνει ότι το SageMaker παρέχει μια ανοιχτή πλατφόρμα για προσαρμογή στις δικές σας απαιτήσεις.

Δείτε τον κωδικό στο δικό μας Αποθετήριο GitHub και README για να κατανοήσετε τη δομή του κώδικα.

Παροχή έργου SageMaker

Μπορείς να χρησιμοποιήσεις Έργα Amazon SageMaker για να ξεκινήσετε το ταξίδι σας. Με ένα έργο SageMaker, μπορείτε να διαχειριστείτε τις εκδόσεις για τα αποθετήρια Git σας, ώστε να μπορείτε να συνεργάζεστε μεταξύ των ομάδων πιο αποτελεσματικά, να διασφαλίζετε τη συνέπεια του κώδικα και να επιτρέπετε τη συνεχή ενοποίηση και τη συνεχή παράδοση (CI/CD). Αν και τα σημειωματάρια είναι χρήσιμα για τη δημιουργία μοντέλων και τον πειραματισμό, όταν έχετε μια ομάδα επιστημόνων δεδομένων και μηχανικών ML που εργάζονται σε ένα πρόβλημα ML, χρειάζεστε έναν πιο επεκτάσιμο τρόπο για να διατηρήσετε τη συνέπεια του κώδικα και να έχετε αυστηρότερο έλεγχο της έκδοσης.

Τα έργα SageMaker δημιουργούν ένα προρυθμισμένο πρότυπο MLOps, το οποίο περιλαμβάνει τα βασικά στοιχεία για την απλοποίηση της ενσωμάτωσης του PaddleOCR:

  • Ένα αποθετήριο κώδικα για τη δημιουργία προσαρμοσμένων εικόνων κοντέινερ για επεξεργασία, εκπαίδευση και εξαγωγή συμπερασμάτων, ενσωματωμένο με εργαλεία CI/CD. Αυτό μας επιτρέπει να διαμορφώσουμε την προσαρμοσμένη εικόνα Docker και να προωθήσουμε Μητρώο εμπορευματοκιβωτίων Amazon Elastic (Amazon ECR) για να είναι έτοιμο προς χρήση.
  • Μια διοχέτευση SageMaker που ορίζει βήματα για την προετοιμασία δεδομένων, την εκπαίδευση, την αξιολόγηση του μοντέλου και την καταχώριση του μοντέλου. Αυτό μας προετοιμάζει να είμαστε έτοιμοι για MLOps όταν το έργο ML πάει στην παραγωγή.
  • Άλλοι χρήσιμοι πόροι, όπως ένα αποθετήριο Git για τον έλεγχο έκδοσης κώδικα, η ομάδα μοντέλων που περιέχει εκδόσεις μοντέλων, η ενεργοποίηση αλλαγής κώδικα για τη διοχέτευση κατασκευής μοντέλου και η ενεργοποίηση βάσει συμβάντων για τη διοχέτευση ανάπτυξης μοντέλου.

Μπορείτε να χρησιμοποιήσετε τον αρχικό κώδικα του SageMaker για να δημιουργήσετε τυπικά έργα SageMaker ή ένα συγκεκριμένο πρότυπο που δημιούργησε ο οργανισμός σας για τα μέλη της ομάδας. Σε αυτήν την ανάρτηση, χρησιμοποιούμε το πρότυπο Πρότυπο MLOps για δημιουργία εικόνας, κατασκευή μοντέλων και ανάπτυξη μοντέλου. Για περισσότερες πληροφορίες σχετικά με τη δημιουργία ενός έργου στο Studio, ανατρέξτε στο Δημιουργήστε ένα έργο MLOps χρησιμοποιώντας το Amazon SageMaker Studio.

Εξερευνήστε δεδομένα και δημιουργήστε κώδικα ML με τα SageMaker Studio Notebooks

Τα σημειωματάρια SageMaker Studio είναι συλλογικά σημειωματάρια που μπορείτε να εκκινήσετε γρήγορα επειδή δεν χρειάζεται να ρυθμίσετε εκ των προτέρων παρουσίες υπολογισμού και αποθήκευση αρχείων. Πολλοί επιστήμονες δεδομένων προτιμούν να χρησιμοποιούν αυτό το web-based IDE για την ανάπτυξη του κώδικα ML, τον γρήγορο εντοπισμό σφαλμάτων του API της βιβλιοθήκης και την εκτέλεση των πραγμάτων με ένα μικρό δείγμα δεδομένων για την επικύρωση του σεναρίου εκπαίδευσης.

Στα σημειωματάρια του Studio, μπορείτε να χρησιμοποιήσετε ένα προκατασκευασμένο περιβάλλον για κοινά πλαίσια όπως το TensorFlow, το PyTorch, το Pandas και το Scikit-Learn. Μπορείτε να εγκαταστήσετε τις εξαρτήσεις στον προκατασκευασμένο πυρήνα ή να δημιουργήσετε τη δική σας μόνιμη εικόνα πυρήνα. Για περισσότερες πληροφορίες, ανατρέξτε στο Εγκαταστήστε εξωτερικές βιβλιοθήκες και πυρήνες στο Amazon SageMaker Studio. Οι φορητοί υπολογιστές στούντιο παρέχουν επίσης ένα περιβάλλον Python για την ενεργοποίηση εργασιών εκπαίδευσης, ανάπτυξης ή άλλων υπηρεσιών AWS του SageMaker. Στις επόμενες ενότητες, παρουσιάζουμε τον τρόπο χρήσης των φορητών υπολογιστών Studio ως περιβάλλον για την ενεργοποίηση εργασιών εκπαίδευσης και ανάπτυξης.

Το SageMaker παρέχει ένα ισχυρό IDE. είναι μια ανοιχτή πλατφόρμα ML όπου οι επιστήμονες δεδομένων έχουν την ευελιξία να χρησιμοποιήσουν το προτιμώμενο περιβάλλον ανάπτυξής τους. Για τους επιστήμονες δεδομένων που προτιμούν ένα τοπικό IDE, όπως το PyCharm ή το Visual Studio Code, μπορείτε να χρησιμοποιήσετε το τοπικό περιβάλλον Python για να αναπτύξετε τον κώδικα ML σας και να χρησιμοποιήσετε το SageMaker για εκπαίδευση σε ένα διαχειριζόμενο επεκτάσιμο περιβάλλον. Για περισσότερες πληροφορίες, βλ Εκτελέστε την εργασία σας TensorFlow στο Amazon SageMaker με ένα PyCharm IDE. Αφού έχετε ένα σταθερό μοντέλο, μπορείτε να υιοθετήσετε τις βέλτιστες πρακτικές MLOps με το SageMaker.

Επί του παρόντος, το SageMaker παρέχει επίσης Περιπτώσεις σημειωματάριου SageMaker ως λύση παλαιού τύπου για το περιβάλλον Jupyter Notebook. Έχετε την ευελιξία να εκτελέσετε την εντολή δημιουργίας Docker και χρησιμοποιήστε την τοπική λειτουργία SageMaker για να εκπαιδεύσετε την παρουσία του φορητού υπολογιστή σας. Παρέχουμε επίσης δείγμα κώδικα για το PaddleOCR στο αποθετήριο κωδικών μας: ./train_and_deploy/notebook.ipynb.

Δημιουργήστε μια προσαρμοσμένη εικόνα με ένα πρότυπο έργου SageMaker

Το SageMaker χρησιμοποιεί εκτενώς τα κοντέινερ Docker για εργασίες κατασκευής και χρόνου εκτέλεσης. Μπορείτε να εκτελέσετε το δικό σας κοντέινερ με το SageMaker εύκολα. Δείτε περισσότερες τεχνικές λεπτομέρειες στο Χρησιμοποιήστε τους δικούς σας αλγόριθμους εκπαίδευσης.

Ωστόσο, ως επιστήμονας δεδομένων, η κατασκευή ενός κοντέινερ μπορεί να μην είναι απλή. Τα έργα SageMaker παρέχουν έναν απλό τρόπο για να διαχειριστείτε προσαρμοσμένες εξαρτήσεις μέσω μιας διοχέτευσης CI/CD δημιουργίας εικόνας. Όταν χρησιμοποιείτε ένα έργο SageMaker, μπορείτε να κάνετε ενημερώσεις στην εικόνα εκπαίδευσης με το προσαρμοσμένο κοντέινερ Dockerfile. Για οδηγίες βήμα προς βήμα, ανατρέξτε στο Δημιουργήστε έργα Amazon SageMaker με αγωγούς δημιουργίας εικόνας CI/CD. Με τη δομή που παρέχεται στο πρότυπο, μπορείτε να τροποποιήσετε τον παρεχόμενο κώδικα σε αυτό το αποθετήριο για να δημιουργήσετε ένα εκπαιδευτικό κοντέινερ PaddleOCR.

Για αυτήν την ανάρτηση, παρουσιάζουμε την απλότητα της δημιουργίας μιας προσαρμοσμένης εικόνας για επεξεργασία, εκπαίδευση και συμπεράσματα. Το αποθετήριο GitHub περιέχει τρεις φακέλους:

Αυτά τα έργα ακολουθούν παρόμοια δομή. Πάρτε για παράδειγμα την εικόνα του κοντέινερ προπόνησης. ο image-build-train/ το αποθετήριο περιέχει τα ακόλουθα αρχεία:

  • Το αρχείο codebuild-buildspec.yml, το οποίο χρησιμοποιείται για τη διαμόρφωση AWS CodeBuild έτσι ώστε η εικόνα να μπορεί να κατασκευαστεί και να προωθηθεί στο Amazon ECR.
  • Το Dockerfile που χρησιμοποιείται για το build Docker, το οποίο περιέχει όλες τις εξαρτήσεις και τον κώδικα εκπαίδευσης.
  • Το σημείο εισόδου train.py για το σενάριο εκπαίδευσης, με όλες τις υπερπαραμέτρους (όπως ρυθμός εκμάθησης και μέγεθος παρτίδας) που μπορούν να διαμορφωθούν ως όρισμα. Αυτά τα επιχειρήματα καθορίζονται όταν ξεκινάτε την εργασία εκπαίδευσης.
  • Οι εξαρτήσεις.

Όταν σπρώχνετε τον κώδικα στο αντίστοιχο αποθετήριο, ενεργοποιείται Αγωγός κώδικα AWS για να φτιάξετε ένα εκπαιδευτικό δοχείο για εσάς. Η προσαρμοσμένη εικόνα κοντέινερ αποθηκεύεται σε ένα αποθετήριο Amazon ECR, όπως φαίνεται στο προηγούμενο σχήμα. Μια παρόμοια διαδικασία υιοθετείται για τη δημιουργία της εικόνας συμπερασμάτων.

Εκπαιδεύστε το μοντέλο με το εκπαιδευτικό SDK του SageMaker

Αφού επικυρωθεί ο κώδικας αλγορίθμου και συσκευαστεί σε ένα κοντέινερ, μπορείτε να χρησιμοποιήσετε μια εργασία εκπαίδευσης του SageMaker για να παράσχετε ένα διαχειριζόμενο περιβάλλον για την εκπαίδευση του μοντέλου. Αυτό το περιβάλλον είναι εφήμερο, πράγμα που σημαίνει ότι μπορείτε να έχετε ξεχωριστούς, ασφαλείς υπολογιστικούς πόρους (όπως GPU) ή ένα κατανεμημένο περιβάλλον πολλαπλών GPU για την εκτέλεση του κώδικά σας. Όταν ολοκληρωθεί η εκπαίδευση, το SageMaker αποθηκεύει τα τεχνουργήματα του μοντέλου που προκύπτουν σε ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) τοποθεσία που καθορίζετε. Όλα τα δεδομένα καταγραφής και τα μεταδεδομένα παραμένουν στο Κονσόλα διαχείρισης AWS, Στούντιο και amazoncloudwatch.

Η εργασία εκπαίδευσης περιλαμβάνει αρκετές σημαντικές πληροφορίες:

  • Η διεύθυνση URL του κάδου S3 όπου αποθηκεύσατε τα δεδομένα εκπαίδευσης
  • Η διεύθυνση URL του κάδου S3 όπου θέλετε να αποθηκεύσετε το αποτέλεσμα της εργασίας
  • Οι διαχειριζόμενοι υπολογιστικοί πόροι που θέλετε να χρησιμοποιεί το SageMaker για εκπαίδευση μοντέλων
  • Η διαδρομή Amazon ECR όπου είναι αποθηκευμένο το κοντέινερ εκπαίδευσης

Για περισσότερες πληροφορίες σχετικά με τις θέσεις εργασίας κατάρτισης, βλ Εκπαιδευτικά μοντέλα. Το παράδειγμα κώδικα για την εργασία εκπαίδευσης είναι διαθέσιμο στη διεύθυνση experiments-train-notebook.ipynb.

Το SageMaker κάνει τις υπερπαραμέτρους σε α CreateTrainingJob αίτημα διαθέσιμο στο κοντέινερ Docker στο /opt/ml/input/config/hyperparameters.json αρχείο.

Χρησιμοποιούμε το προσαρμοσμένο κοντέινερ εκπαίδευσης ως σημείο εισόδου και καθορίζουμε ένα περιβάλλον GPU για την υποδομή. Όλες οι σχετικές υπερπαράμετροι περιγράφονται λεπτομερώς ως παράμετροι, γεγονός που μας επιτρέπει να παρακολουθούμε κάθε μεμονωμένη διαμόρφωση εργασίας και να τις συγκρίνουμε με την παρακολούθηση πειράματος.

Επειδή η διαδικασία της επιστήμης δεδομένων είναι πολύ προσανατολισμένη στην έρευνα, είναι συνηθισμένο να εκτελούνται πολλά πειράματα παράλληλα. Αυτό απαιτεί μια προσέγγιση που παρακολουθεί όλα τα διαφορετικά πειράματα, διαφορετικούς αλγόριθμους και δυνητικά διαφορετικά σύνολα δεδομένων και υπερπαραμέτρους που επιχειρήθηκαν. Το Amazon SageMaker Experiments σάς επιτρέπει να οργανώνετε, να παρακολουθείτε, να συγκρίνετε και να αξιολογείτε τα πειράματά σας ML. Αυτό το αποδεικνύουμε και στο experiments-train-notebook.ipynb. Για περισσότερες λεπτομέρειες, ανατρέξτε στο Διαχειριστείτε τη μηχανική μάθηση με τα πειράματα Amazon SageMaker.

Αναπτύξτε το μοντέλο για την εξυπηρέτηση μοντέλων

Όσον αφορά την ανάπτυξη, ειδικά για την εξυπηρέτηση μοντέλων σε πραγματικό χρόνο, πολλοί επιστήμονες δεδομένων μπορεί να δυσκολεύονται να το κάνουν χωρίς τη βοήθεια των ομάδων λειτουργίας. Το SageMaker διευκολύνει την ανάπτυξη του εκπαιδευμένου μοντέλου σας στην παραγωγή με το SDK SageMaker Python. Μπορείτε να αναπτύξετε το μοντέλο σας σε υπηρεσίες φιλοξενίας SageMaker και να λάβετε ένα τελικό σημείο για χρήση για συμπέρασμα σε πραγματικό χρόνο.

Σε πολλούς οργανισμούς, οι επιστήμονες δεδομένων ενδέχεται να μην είναι υπεύθυνοι για τη συντήρηση της υποδομής τελικού σημείου. Ωστόσο, η δοκιμή του μοντέλου σας ως τελικό σημείο και η εγγύηση των σωστών συμπεριφορών πρόβλεψης είναι πράγματι ευθύνη των επιστημόνων δεδομένων. Επομένως, το SageMaker απλοποίησε τις εργασίες για την ανάπτυξη προσθέτοντας ένα σύνολο εργαλείων και SDK για αυτό.

Για την περίπτωση χρήσης στην ανάρτηση, θέλουμε να έχουμε δυνατότητες σε πραγματικό χρόνο, διαδραστικές, χαμηλής καθυστέρησης. Συμπεράσματα σε πραγματικό χρόνο είναι ιδανικό για αυτόν τον φόρτο εργασίας εξαγωγής συμπερασμάτων. Ωστόσο, υπάρχουν πολλές επιλογές που προσαρμόζονται σε κάθε συγκεκριμένη απαίτηση. Για περισσότερες πληροφορίες, ανατρέξτε στο Ανάπτυξη μοντέλων για συμπέρασμα.

Για να αναπτύξουν την προσαρμοσμένη εικόνα, οι επιστήμονες δεδομένων μπορούν να χρησιμοποιήσουν το SageMaker SDK, που απεικονίζεται στο

experiments-deploy-notebook.ipynb.

Στο create_model αίτημα, ο ορισμός του κοντέινερ περιλαμβάνει το ModelDataUrl παράμετρος, η οποία προσδιορίζει τη θέση Amazon S3 όπου αποθηκεύονται τα τεχνουργήματα μοντέλων. Το SageMaker χρησιμοποιεί αυτές τις πληροφορίες για να καθορίσει από πού θα αντιγράψει τα τεχνουργήματα του μοντέλου. Αντιγράφει τα τεχνουργήματα στο /opt/ml/model κατάλογο για χρήση από τον κώδικα συμπερασμάτων σας. ο serve και predictor.py είναι το σημείο εισόδου για την εξυπηρέτηση, με το τεχνούργημα μοντέλου που φορτώνεται όταν ξεκινάτε την ανάπτυξη. Για περισσότερες πληροφορίες, βλ Χρησιμοποιήστε τον δικό σας κώδικα συμπερασμάτων με τις υπηρεσίες φιλοξενίας.

Ενορχηστρώστε τη ροή εργασίας σας με το SageMaker Pipelines

Το τελευταίο βήμα είναι να αναδιπλώσετε τον κώδικά σας ως ροές εργασίας ML από άκρο σε άκρο και να εφαρμόσετε τις βέλτιστες πρακτικές MLOps. Στο SageMaker, ο φόρτος εργασίας κατασκευής μοντέλου, ένα κατευθυνόμενο άκυκλο γράφημα (DAG), διαχειρίζεται η SageMaker Pipelines. Το Pipelines είναι μια πλήρως διαχειριζόμενη υπηρεσία που υποστηρίζει ενορχήστρωση και παρακολούθηση γενεαλογίας δεδομένων. Επιπλέον, επειδή το Pipelines είναι ενσωματωμένο με το SageMaker Python SDK, μπορείτε να δημιουργήσετε τους αγωγούς σας μέσω προγραμματισμού χρησιμοποιώντας μια διεπαφή Python υψηλού επιπέδου που χρησιμοποιούσαμε προηγουμένως κατά τη διάρκεια του βήματος εκπαίδευσης.

Παρέχουμε ένα παράδειγμα κώδικα διοχέτευσης για να επεξηγήσουμε την υλοποίηση στο pipeline.py.

Ο αγωγός περιλαμβάνει ένα βήμα προεπεξεργασίας για τη δημιουργία δεδομένων, το βήμα εκπαίδευσης, το βήμα συνθήκης και το βήμα εγγραφής μοντέλου. Στο τέλος κάθε εκτέλεσης του αγωγού, οι επιστήμονες δεδομένων μπορεί να θέλουν να καταχωρήσουν το μοντέλο τους για στοιχεία ελέγχου έκδοσης και να αναπτύξουν το μοντέλο με την καλύτερη απόδοση. Το μητρώο μοντέλων SageMaker παρέχει ένα κεντρικό μέρος για τη διαχείριση εκδόσεων μοντέλων, μοντέλων καταλόγων και ενεργοποίησης της αυτοματοποιημένης ανάπτυξης μοντέλων με κατάσταση έγκρισης ενός συγκεκριμένου μοντέλου. Για περισσότερες λεπτομέρειες, ανατρέξτε στο Εγγραφή και ανάπτυξη μοντέλων με Μητρώο μοντέλων.

Σε ένα σύστημα ML, η αυτοματοποιημένη ενορχήστρωση ροής εργασιών βοηθά στην αποφυγή της υποβάθμισης της απόδοσης του μοντέλου, με άλλα λόγια της μετατόπισης του μοντέλου. Ο έγκαιρος και προληπτικός εντοπισμός αποκλίσεων δεδομένων σάς δίνει τη δυνατότητα να προβείτε σε διορθωτικές ενέργειες, όπως η επανεκπαίδευση μοντέλων. Μπορείτε να ενεργοποιήσετε τη διοχέτευση SageMaker για να επανεκπαιδεύσετε μια νέα έκδοση του μοντέλου αφού εντοπιστούν αποκλίσεις. Η ενεργοποίηση ενός αγωγού μπορεί επίσης να προσδιοριστεί από Παρακολούθηση μοντέλου Amazon SageMaker, η οποία παρακολουθεί συνεχώς την ποιότητα των μοντέλων στην παραγωγή. Με τη δυνατότητα καταγραφής δεδομένων για καταγραφή πληροφοριών, το μοντέλο παρακολούθησης υποστηρίζει την παρακολούθηση της ποιότητας δεδομένων και του μοντέλου, την προκατάληψη και την παρακολούθηση μετατόπισης απόδοσης χαρακτηριστικών. Για περισσότερες λεπτομέρειες, βλ Παρακολούθηση μοντέλων για δεδομένα και ποιότητα μοντέλων, μεροληψία και επεξήγηση.

Συμπέρασμα

Σε αυτήν την ανάρτηση, παρουσιάσαμε πώς να εκτελέσετε το πλαίσιο PaddleOCR στο SageMaker για εργασίες OCR. Για να βοηθήσουμε τους επιστήμονες δεδομένων να ενσωματωθούν εύκολα στο SageMaker, περπατήσαμε στον κύκλο ζωής ανάπτυξης της ML, από τη δημιουργία αλγορίθμων, στην εκπαίδευση, στη φιλοξενία του μοντέλου ως υπηρεσία ιστού για συμπεράσματα σε πραγματικό χρόνο. Μπορείτε να χρησιμοποιήσετε τον κώδικα προτύπου που παρέχουμε για να μεταφέρετε ένα αυθαίρετο πλαίσιο στην πλατφόρμα SageMaker. Δοκιμάστε το για το έργο σας ML και πείτε μας τις ιστορίες επιτυχίας σας.


Σχετικά με τους Συγγραφείς

Ενσωματωμένο PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Junyi (Jackie) LIU είναι Senior Applied Scientist στο AWS. Διαθέτει πολυετή εργασιακή εμπειρία στον τομέα της μηχανικής μάθησης. Έχει πλούσια πρακτική εμπειρία στην ανάπτυξη και εφαρμογή λύσεων στην κατασκευή μοντέλων μηχανικής μάθησης σε αλγόριθμους πρόβλεψης εφοδιαστικής αλυσίδας, συστήματα προτάσεων διαφήμισης, OCR και NLP περιοχή.

Ενσωματωμένο PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Γιανγουέι Κούι, PhD, είναι αρχιτέκτων λύσεων μηχανικής εκμάθησης μηχανών στο AWS. Ξεκίνησε την έρευνα μηχανικής μάθησης στο IRISA (Research Institute of Computer Science and Random Systems), και έχει αρκετά χρόνια εμπειρίας στην κατασκευή βιομηχανικών εφαρμογών με τεχνητή νοημοσύνη στην όραση υπολογιστών, την επεξεργασία φυσικής γλώσσας και την πρόβλεψη συμπεριφοράς των χρηστών στο διαδίκτυο. Στο AWS, μοιράζεται την τεχνογνωσία στον τομέα και βοηθά τους πελάτες να ξεκλειδώσουν τις επιχειρηματικές δυνατότητες και να οδηγήσουν σε αποτελεσματικά αποτελέσματα με μηχανική μάθηση σε κλίμακα. Εκτός εργασίας, του αρέσει να διαβάζει και να ταξιδεύει.

Ενσωματωμένο PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Yi-An CHEN είναι προγραμματιστής λογισμικού στο Amazon Lab 126. Έχει περισσότερα από 10 χρόνια εμπειρίας στην ανάπτυξη προϊόντων που βασίζονται στη μηχανική μάθηση σε διάφορους κλάδους, συμπεριλαμβανομένης της εξατομίκευσης, της επεξεργασίας φυσικής γλώσσας και της όρασης υπολογιστή. Εκτός δουλειάς, της αρέσει να κάνει μεγάλο τρέξιμο και ποδηλασία.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS