Πώς να κάνετε εύκολα την αναγνώριση χειρογράφου χρησιμοποιώντας τη μηχανική εκμάθηση PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Θέλετε να κάνετε χειρόγραφη OCR; Αυτό το ιστολόγιο είναι μια περιεκτική επισκόπηση των πιο πρόσφατων μεθόδων αναγνώρισης χειρογράφου χρησιμοποιώντας βαθιά μάθηση. Εξετάσαμε τις πιο πρόσφατες έρευνες και εργασίες και δημιουργήσαμε επίσης έναν αναγνώστη γραφής από την αρχή.


Νανοδίκτυα API OCR έχει πολλά ενδιαφέροντα περιπτώσεις χρήσης. Μιλήστε με έναν ειδικό της Nanonets AI για να μάθετε περισσότερα.


Εισαγωγή

Το μέγεθος της αγοράς Optical Character Recognition (OCR) αναμένεται να είναι 13.38 δισεκατομμύρια δολάρια ΗΠΑ έως το 2025 με ετήσια αύξηση 13.7 %. Αυτή η ανάπτυξη καθοδηγείται από την ταχεία ψηφιοποίηση των επιχειρηματικών διαδικασιών που χρησιμοποιούν OCR για να μειώσουν το κόστος εργασίας τους και να εξοικονομήσουν πολύτιμες εργατοώρες. Αν και το OCR έχει θεωρηθεί λυμένο πρόβλημα, υπάρχει ένα βασικό συστατικό του, η Αναγνώριση χειρογράφου (Handwriting OCR) ή η Αναγνώριση χειρόγραφου κειμένου (HTR) που εξακολουθεί να θεωρείται μια προκλητική δήλωση προβλήματος. Η μεγάλη απόκλιση στα στυλ χειρογράφου μεταξύ των ανθρώπων και η κακή ποιότητα του χειρόγραφου κειμένου σε σύγκριση με το έντυπο κείμενο θέτουν σημαντικά εμπόδια στη μετατροπή του σε κείμενο αναγνώσιμο από μηχανή. Ωστόσο, είναι ένα κρίσιμο πρόβλημα προς επίλυση για πολλούς κλάδους όπως η υγειονομική περίθαλψη, οι ασφάλειες και οι τράπεζες.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση
Πηγή: - https://www.semanticscholar.org/paper/Handwriting-recognition-on-form-document-using-and-Darmatasia-Fanany/

Οι πρόσφατες εξελίξεις στη Βαθιά Εκμάθηση, όπως η εμφάνιση αρχιτεκτονικών μετασχηματιστών, έχουν παρακολουθήσει γρήγορα την πρόοδό μας στη ρωγμή της χειρόγραφης αναγνώρισης κειμένου. Η αναγνώριση χειρόγραφου κειμένου ονομάζεται Intelligent Character Recognition (ICR) λόγω του γεγονότος ότι οι αλγόριθμοι που απαιτούνται για την επίλυση του ICR χρειάζονται πολύ περισσότερη νοημοσύνη από την επίλυση του γενικού OCR.

Σε αυτό το άρθρο θα μάθουμε για το έργο της αναγνώρισης χειρόγραφου κειμένου, τις περιπλοκές του και πώς μπορούμε να το λύσουμε χρησιμοποιώντας τεχνικές βαθιάς μάθησης.


Θέλετε να εξαγάγετε δεδομένα από χειρόγραφες φόρμες; Προχωρήστε προς Νανοδίκτυα και ξεκινήστε να φτιάχνετε δωρεάν μοντέλα Handwriting OCR!


Προκλήσεις στην αναγνώριση χειρογράφου

  1. Τεράστια μεταβλητότητα και αμφισημία των εγκεφαλικών επεισοδίων από άτομο σε άτομο
  2. Το στυλ γραφής ενός ατόμου ποικίλλει επίσης από καιρό σε καιρό και είναι ασυνεπές
  3. Κακή ποιότητα του εγγράφου / εικόνας προέλευσης λόγω υποβάθμισης με την πάροδο του χρόνου
  4. Το κείμενο σε έντυπα έγγραφα βρίσκεται σε ευθεία γραμμή, ενώ οι άνθρωποι δεν χρειάζεται να γράφουν μια γραμμή κειμένου σε ευθεία γραμμή σε λευκό χαρτί
  5. Το λογικό χειρόγραφο καθιστά τον διαχωρισμό και την αναγνώριση χαρακτήρων δύσκολη
  6. Το κείμενο στο χειρόγραφο μπορεί να έχει μεταβλητή περιστροφή προς τα δεξιά, σε αντίθεση με το τυπωμένο κείμενο, όπου όλο το κείμενο κάθεται ευθεία
  7. Η συλλογή ενός καλού συνόλου δεδομένων με ετικέτα για μάθηση δεν είναι φθηνή σε σύγκριση με τα συνθετικά δεδομένα

Χρήση περιπτώσεις

Υγειονομική περίθαλψη και φαρμακευτικά προϊόντα

Η ψηφιοποίηση συνταγογράφησης ασθενούς είναι ένα σημαντικό σημείο πόνου στη βιομηχανία υγείας / φαρμακευτικής. Για παράδειγμα, η Roche χειρίζεται εκατομμύρια petabytes ιατρικών PDF καθημερινά. Ένας άλλος τομέας όπου η χειρόγραφη ανίχνευση κειμένου έχει βασικό αντίκτυπο είναι η εγγραφή ασθενούς και η ψηφιοποίηση της φόρμας. Προσθέτοντας αναγνώριση χειρογράφου στο πακέτο υπηρεσιών τους, τα νοσοκομεία / φαρμακευτικά προϊόντα μπορούν να βελτιώσουν σημαντικά την εμπειρία των χρηστών

Ασφάλιση

Ένας μεγάλος ασφαλιστικός κλάδος λαμβάνει περισσότερα από 20 εκατομμύρια έγγραφα την ημέρα και μια καθυστέρηση στην επεξεργασία της αξίωσης μπορεί να επηρεάσει τρομερά την εταιρεία. Το έγγραφο αξιώσεων μπορεί να περιέχει διάφορα διαφορετικά στυλ γραφής και η καθαρή μη αυτόματη αυτοματοποίηση της επεξεργασίας των αξιώσεων θα επιβραδύνει εντελώς τον αγωγό

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση
Πηγή: - https://www.researchgate.net/figure/mages-of-handwritten-bank-cheques-from-different-countries-a-Brazilian-1-b-American_fig2_226705617

Τράπεζες

Οι άνθρωποι γράφουν επιταγές σε τακτική βάση και οι επιταγές εξακολουθούν να διαδραματίζουν σημαντικό ρόλο στις περισσότερες συναλλαγές εκτός μετρητών. Σε πολλές αναπτυσσόμενες χώρες, η παρούσα διαδικασία επεξεργασίας επιταγών απαιτεί από έναν υπάλληλο της τράπεζας να διαβάσει και να εισαγάγει με μη αυτόματο τρόπο τις πληροφορίες που υπάρχουν σε μια επιταγή και επίσης να επαληθεύσει τις καταχωρήσεις όπως υπογραφή και ημερομηνία Καθώς ένας μεγάλος αριθμός επιταγών πρέπει να υποβάλλονται σε επεξεργασία κάθε μέρα σε μια τράπεζα, ένα σύστημα αναγνώρισης κειμένου γραφής μπορεί να εξοικονομήσει κόστος και ώρες ανθρώπινης εργασίας

Διαδικτυακές βιβλιοθήκες

Τεράστια ποσά ιστορικών γνώσεων ψηφιοποιούνται ανεβάζοντας τις σαρώσεις εικόνων για πρόσβαση σε ολόκληρο τον κόσμο. Όμως αυτή η προσπάθεια δεν είναι πολύ χρήσιμη έως ότου εντοπιστεί το κείμενο στις εικόνες που μπορεί να ευρετηριαστεί, να ερωτηθεί και να περιηγηθεί. Η αναγνώριση χειρογράφου διαδραματίζει βασικό ρόλο στην αναβίωση εγγράφων, καρτ-ποστάλ, ερευνητικών μελετών κ.λπ.

Μέθοδοι

Οι μέθοδοι αναγνώρισης χειρογράφου μπορούν να ταξινομηθούν ευρέως στους παρακάτω δύο τύπους

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση
  1. Online μέθοδοι : - Οι διαδικτυακές μέθοδοι περιλαμβάνουν ψηφιακό στυλό / γραφίδα και έχουν πρόσβαση στις πληροφορίες εγκεφαλικού επεισοδίου, στην τοποθεσία της πένας ενώ γράφεται το κείμενο όπως φαίνεται στο σωστό σχήμα παραπάνω. Δεδομένου ότι τείνουν να έχουν πολλές πληροφορίες σχετικά με τη ροή του κειμένου που γράφεται, μπορούν να ταξινομηθούν με αρκετά υψηλή ακρίβεια και η οριοθέτηση μεταξύ διαφορετικών χαρακτήρων στο κείμενο γίνεται πολύ πιο σαφής
  2. Μέθοδοι εκτός σύνδεσης :- Οι μέθοδοι εκτός σύνδεσης περιλαμβάνουν την αναγνώριση του κειμένου μόλις γραφτεί και επομένως δεν θα έχουν πληροφορίες για τις πινελιές/κατευθύνσεις που περιλαμβάνονται κατά τη διάρκεια της γραφής με πιθανή προσθήκη κάποιου θορύβου φόντου από την πηγή, π.χ. χαρτί.

Στον πραγματικό κόσμο, δεν είναι πάντα δυνατό/κλιμακωτό να μεταφέρετε ένα ψηφιακό στυλό με αισθητήρες για τη λήψη πληροφοριών διαδρομής και, ως εκ τούτου, το έργο της αναγνώρισης κειμένου εκτός σύνδεσης είναι ένα πολύ πιο σχετικό πρόβλημα. Έτσι, τώρα θα συζητήσουμε διάφορες τεχνικές για την επίλυση του προβλήματος της αναγνώρισης κειμένου εκτός σύνδεσης.

Τεχνικές

Οι αρχικές προσεγγίσεις για την επίλυση της αναγνώρισης χειρογράφου περιελάμβαναν μεθόδους Μηχανικής Εκμάθησης όπως Hidden Markov Models (HMM), SVM κ.λπ. Αφού υποβληθεί σε προεπεξεργασία το αρχικό κείμενο, εκτελείται η εξαγωγή χαρακτηριστικών για τον προσδιορισμό βασικών πληροφοριών, όπως βρόχους, σημεία καμπής, λόγο διαστάσεων κ.λπ. ατομικού χαρακτήρα. Αυτά τα χαρακτηριστικά που δημιουργούνται τροφοδοτούνται τώρα σε έναν ταξινομητή, π.χ. HMM για να ληφθούν τα αποτελέσματα. Η απόδοση των μοντέλων μηχανικής εκμάθησης είναι αρκετά περιορισμένη λόγω της φάσης χειροκίνητης εξαγωγής χαρακτηριστικών και της περιορισμένης ικανότητας εκμάθησής τους. Το βήμα εξαγωγής χαρακτηριστικών ποικίλλει για κάθε μεμονωμένη γλώσσα και ως εκ τούτου δεν είναι επεκτάσιμο. Με την έλευση της βαθιάς μάθησης επήλθαν τεράστιες βελτιώσεις στην ακρίβεια της αναγνώρισης χειρογράφου. Ας συζητήσουμε μερικές από τις εξέχουσες έρευνες στον τομέα της βαθιάς μάθησης για την αναγνώριση χειρογράφου

Πολυδιάστατα επαναλαμβανόμενα νευρωνικά δίκτυα

Το RNN/LSTM όπως γνωρίζουμε μπορεί να ασχοληθεί με διαδοχικά δεδομένα για να αναγνωρίσει χρονικά μοτίβα και να δημιουργήσει αποτελέσματα. Αλλά περιορίζονται στην αντιμετώπιση δεδομένων 1D και ως εκ τούτου δεν θα ισχύουν άμεσα για δεδομένα εικόνας. Για να λύσουν αυτό το πρόβλημα, οι συγγραφείς σε αυτό το άρθρο πρότειναν μια πολυδιάστατη δομή RNN/LSTM όπως φαίνεται στο παρακάτω σχήμα

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Το παρακάτω είναι η διαφορά μεταξύ ενός γενικού RNN και ενός πολυδιάστατου RNN. Σε ένα γενικό RNN, το κρυφό επίπεδο λέει ότι λαμβάνω κατάσταση από ένα προηγούμενο κρυφό επίπεδο στο χρόνο i-1. Στο πολυδιάστατο RNN, για παράδειγμα, ένα δισδιάστατο RNN, το κρυφό επίπεδο (i, j) λαμβάνει καταστάσεις από πολλά προηγούμενα κρυφά στρώματα, δηλαδή (i-2, j) και (i, j-1) και συνεπώς καταγράφει το περιβάλλον και από τα δύο το ύψος και το πλάτος σε μια εικόνα που είναι καθοριστικής σημασίας για τη σαφή κατανόηση της τοπικής περιοχής από ένα δίκτυο. Αυτό επεκτείνεται περαιτέρω για τη λήψη πληροφοριών όχι μόνο από προηγούμενα επίπεδα αλλά και από μελλοντικά επίπεδα παρόμοια με τον τρόπο με τον οποίο ένα BI-LSTM λαμβάνει πληροφορίες από τα t-1 και t + 1. Παρομοίως, ένα 1D MDRNN κρυφό στρώμα μπορώ τώρα να λαμβάνω πληροφορίες (i-2, j), (i, j-1), (i + 1, j), (i, j + 1) καταγράφοντας έτσι το πλαίσιο σε όλες τις κατευθύνσεις

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Ολόκληρη η δομή του δικτύου φαίνεται παραπάνω. Χρησιμοποιείται το MDLS ™ το οποίο δεν είναι τίποτα άλλο από την αντικατάσταση του μπλοκ RNN με ένα μπλοκ LSTM από την παραπάνω συζήτηση του MDRNN. Η είσοδος χωρίζεται σε μπλοκ μεγέθους 3 × 4 τα οποία τώρα τροφοδοτούνται σε στρώματα MDSTM. Το δίκτυο έχει μια ιεραρχική δομή επιπέδων MDLS ™ ακολουθούμενη από τα επίπεδα τροφοδοσίας (ANN) σε συνδυασμό. Στη συνέχεια, η τελική έξοδος μετατρέπεται σε φορέα 1D και δίνεται στη συνάρτηση CTC για τη δημιουργία εξόδου

Συνδεδεμένη χρονική ταξινόμηση (CTC) είναι ένας αλγόριθμος που χρησιμοποιείται για την αντιμετώπιση εργασιών όπως η αναγνώριση ομιλίας, η αναγνώριση χειρόγραφου κ.λπ. όπου είναι διαθέσιμα μόνο τα δεδομένα εισόδου και η μεταγραφή εξόδου, αλλά δεν παρέχονται λεπτομέρειες στοίχισης, π.χ. πώς μια συγκεκριμένη περιοχή στον ήχο για την ομιλία ή μια συγκεκριμένη περιοχή σε εικόνες για χειρόγραφο ευθυγραμμίζεται με έναν συγκεκριμένο χαρακτήρα. Απλές ευρετικές μέθοδοι, όπως η παροχή της ίδιας περιοχής σε κάθε χαρακτήρα, δεν θα λειτουργήσουν, καθώς ο χώρος που καταλαμβάνει κάθε χαρακτήρας ποικίλλει ανάλογα με το χειρόγραφο από άτομο σε άτομο και από καιρό σε καιρό.

Για την αναγνώριση χειρόγραφης χρήσης, θεωρήστε τις περιοχές εισαγωγής εικόνας για μια συγκεκριμένη πρόταση ως είσοδο X=[x1,x2,…,x ** Τ] ενώ αναμενόταν έξοδος ως Y=[y1,y2,…,y ** U] . Με δεδομένο το X υποτίθεται ότι βρίσκουμε ακριβή Y. Ο αλγόριθμος CTC λειτουργεί λαμβάνοντας την είσοδο X και δίνοντας κατανομή σε όλα τα πιθανά Y χρησιμοποιώντας τα οποία μπορούμε να κάνουμε μια πρόβλεψη για την τελική έξοδο.

Το CTC χρησιμοποιεί έναν βασικό χαρακτήρα ας πούμε – για να διαφοροποιήσει τους διπλότυπους χαρακτήρες και τους επαναλαμβανόμενους χαρακτήρες σε μια περιοχή εισαγωγής. Για παράδειγμα, ένας συγκεκριμένος χαρακτήρας μπορεί να εκτείνεται σε πολλαπλές περιοχές εισόδου και έτσι το CTC θα εξάγει τον ίδιο χαρακτήρα διαδοχικά. Παράδειγμα: - Η είσοδος james και η έξοδος CTC είναι jjaammmees. Η τελική έξοδος προκύπτει με σύμπτυξη των επαναλαμβανόμενων εξόδων και ως εκ τούτου παίρνουμε james. Αλλά τώρα για να παρουσιάσουμε διπλούς χαρακτήρες που λένε "l" στο hello, πρέπει να έχουμε έναν διαχωρισμό στη θέση του και έτσι όλες οι έξοδοι διαχωρίζονται με παύλα(-). Τώρα η έξοδος για το hello θα μπορούσε να είναι h-ee-ll-llll-oo που αν συμπτύξει θα γίνει hello και όχι helo. Περισσότερες πληροφορίες για το πώς λειτουργεί το CTC μπορείτε να δείτε εδώ CTC.

Κατά την αποκωδικοποίηση της εξόδου του CTC με βάση την απλή ευρετική της υψηλότερης πιθανότητας για κάθε θέση, μπορεί να λάβουμε αποτελέσματα που μπορεί να μην έχουν νόημα στον πραγματικό κόσμο. Για να το λύσουμε αυτό, μπορεί να χρησιμοποιήσουμε διαφορετικό αποκωδικοποιητή για να βελτιώσουμε τα αποτελέσματα. Ας συζητήσουμε διαφορετικούς τύπους αποκωδικοποιήσεων

  1. Κωδικοποίηση καλύτερης διαδρομής : - Αυτή είναι η γενική αποκωδικοποίηση που έχουμε συζητήσει μέχρι τώρα. Σε κάθε θέση παίρνουμε την έξοδο του μοντέλου και βρίσκουμε το αποτέλεσμα με την υψηλότερη πιθανότητα.
  2. Αποκωδικοποίηση αναζήτησης δέσμης : - Αντί να λαμβάνετε μία έξοδο από το δίκτυο κάθε φορά, η αναζήτηση δέσμης προτείνει τη διατήρηση πολλαπλών διαδρομών εξόδου με τις υψηλότερες πιθανότητες και την επέκταση της αλυσίδας με νέες εξόδους και διαδρομές πτώσης με λιγότερες πιθανότητες για να διατηρείται σταθερό το μέγεθος της δέσμης. Τα αποτελέσματα που λαμβάνονται μέσω αυτής της προσέγγισης είναι πιο ακριβή από τη χρήση της άπληστης προσέγγισης
  3. Αναζήτηση δέσμης με μοντέλο γλώσσας :- Η αναζήτηση δέσμης παρέχει πιο ακριβή αποτελέσματα από την αναζήτηση πλέγματος, αλλά και πάλι δεν θα λύσει το πρόβλημα της ύπαρξης ουσιαστικών αποτελεσμάτων. Για να το λύσουμε αυτό, μπορούμε να χρησιμοποιήσουμε ένα μοντέλο γλώσσας μαζί με την αναζήτηση δέσμης χρησιμοποιώντας πιθανότητες από το μοντέλο και το μοντέλο γλώσσας για να δημιουργήσουμε τελικά αποτελέσματα.

Περισσότερες λεπτομέρειες για τη δημιουργία ακριβών αποτελεσμάτων αποκωδικοποίησης μπορείτε να δείτε σε αυτό άρθρο

Δίκτυα Encoder-Decoder και Attention

Τα μοντέλα Seq2Seq που έχουν δίκτυα κωδικοποιητή-αποκωδικοποιητή είναι πρόσφατα δημοφιλή για την επίλυση εργασιών αναγνώρισης ομιλίας, μηχανικής μετάφρασης κ.λπ. και έτσι έχουν επεκταθεί για να λύσουν την περίπτωση χρήσης της αναγνώρισης χειρογράφου αναπτύσσοντας έναν πρόσθετο μηχανισμό προσοχής. Ας συζητήσουμε κάποια θεμελιώδη έρευνα σε αυτόν τον τομέα

Σάρωση, παρακολούθηση και ανάγνωση

Σε αυτό το σπερματικό έργο Scan, Attend and Read (SAR) οι συγγραφείς προτείνουν τη χρήση ενός μοντέλου που βασίζεται στην προσοχή για αναγνώριση γραφής από άκρο σε άκρο. Η κύρια συνεισφορά της έρευνας είναι η αυτόματη μεταγραφή κειμένου χωρίς τμηματοποίηση σε γραμμές ως βήμα προ-επεξεργασίας και έτσι μπορεί να σαρώσει μια ολόκληρη σελίδα και να δώσει αποτελέσματα.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Το SAR χρησιμοποιεί αρχιτεκτονική που βασίζεται σε MDLS ™ παρόμοια με αυτήν που συζητήσαμε παραπάνω με μία μικρή αλλαγή στο τελικό επίπεδο. Μετά το τελευταίο γραμμικό επίπεδο, δηλαδή το τελικό μπλοκ Sum στο σχήμα παραπάνω, οι χάρτες χαρακτηριστικών συμπτύσσονται στην κατακόρυφη διάσταση και εφαρμόζεται μια τελική λειτουργία softmax για τη λήψη των εξόδων.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Η αρχιτεκτονική SAR αποτελείται από μια αρχιτεκτονική MDLS ™ που λειτουργεί ως εξολκέας χαρακτηριστικών. Η τελική μονάδα κατάρρευσης με έξοδο softmax και απώλεια CTC αντικαθίσταται από μια μονάδα προσοχής και έναν αποκωδικοποιητή LSTM. Το μοντέλο προσοχής που χρησιμοποιείται είναι ένας υβριδικός συνδυασμός προσοχής βάσει περιεχομένου και προσοχής βάσει τοποθεσίας, ο οποίος εξηγείται λεπτομερέστερα στην επόμενη εργασία. Οι μονάδες αποκωδικοποιητή LSTM λαμβάνουν την προηγούμενη κατάσταση, τον προηγούμενο χάρτη προσοχής και τα χαρακτηριστικά του κωδικοποιητή για τη δημιουργία του τελικού χαρακτήρα εξόδου και του διανύσματος κατάστασης για την επόμενη πρόβλεψη.

Συγκεντρώστε, παρακολουθήστε και συλλαβίστε

Αυτό το άρθρο προτείνει ένα μοντέλο αλληλουχίας σε ακολουθία βασισμένο στην προσοχή για χειρόγραφη αναγνώριση λέξεων. Η προτεινόμενη αρχιτεκτονική έχει τρία κύρια μέρη: έναν κωδικοποιητή, που αποτελείται από ένα CNN και μια αμφίδρομη GRU, έναν μηχανισμό προσοχής αφιερωμένο στην εστίαση στα σχετικά χαρακτηριστικά και έναν αποκωδικοποιητή που σχηματίζεται από μια μονοκατευθυντική GRU, ικανή να συλλαβίζει την αντίστοιχη λέξη, χαρακτήρας ανά χαρακτήρα.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Ο κωδικοποιητής χρησιμοποιεί ένα CNN για την εξαγωγή οπτικών χαρακτηριστικών. Μια προεκπαιδευμένη αρχιτεκτονική VGG-19-BN χρησιμοποιείται ως εξαγωγέας χαρακτηριστικών. Η εικόνα εισόδου μετατρέπεται σε χάρτη χαρακτηριστικών X, ο οποίος στη συνέχεια αναδιαμορφώνεται σε Χ' διαχωρίζοντας όλα τα κανάλια στη στήλη και συνδυάζοντάς τα για να ληφθούν οι διαδοχικές πληροφορίες. Το Χ' μετατρέπεται περαιτέρω σε Η χρησιμοποιώντας μια αμφίδρομη GRU. Το GRU είναι ένα νευρωνικό δίκτυο παρόμοιο με το LSTM στη φύση και μπορεί να συλλάβει χρονικές πληροφορίες.

Περαιτέρω χρησιμοποιείται ένα μοντέλο προσοχής, ενώ προβλέπει την έξοδο από τον αποκωδικοποιητή. Η εργασία εξετάζει δύο διαφορετικούς τύπους μηχανισμών προσοχής που διερευνήθηκαν

  1. Προσοχή βάσει περιεχομένου : - Η ιδέα πίσω από αυτό είναι να βρεθεί η ομοιότητα μεταξύ της τρέχουσας κρυφής κατάστασης του αποκωδικοποιητή και του χάρτη χαρακτηριστικών από τον κωδικοποιητή. Μπορούμε να βρούμε τα πιο συσχετιζόμενα διανύσματα χαρακτηριστικών στο χάρτη χαρακτηριστικών του κωδικοποιητή, τα οποία μπορούν να χρησιμοποιηθούν για την πρόβλεψη του τρέχοντος χαρακτήρα στο τρέχον βήμα χρόνου. Μπορείτε να δείτε περισσότερες λεπτομέρειες σχετικά με τον τρόπο λειτουργίας του μηχανισμού προσοχής Προσοχή
  2. Προσοχή βάσει τοποθεσίας :- Το κύριο μειονέκτημα των μηχανισμών Τοποθεσίας βάσει περιεχομένου είναι ότι υπάρχει μια σιωπηρή υπόθεση ότι οι πληροφορίες τοποθεσίας είναι ενσωματωμένες στην έξοδο του κωδικοποιητή. Διαφορετικά, δεν υπάρχει τρόπος διαφοροποίησης μεταξύ των εξόδων χαρακτήρων που επαναλαμβάνονται από τον αποκωδικοποιητή. Για παράδειγμα, θεωρήστε μια λέξη Charmander, ο χαρακτήρας a επαναλαμβάνεται δύο φορές σε αυτήν και χωρίς πληροφορίες τοποθεσίας ο αποκωδικοποιητής δεν θα μπορεί να τις προβλέψει ως ξεχωριστούς χαρακτήρες. Για να μετριαστεί αυτό, ο τρέχων χαρακτήρας και η ευθυγράμμισή του προβλέπεται χρησιμοποιώντας τόσο την έξοδο του κωδικοποιητή όσο και την προηγούμενη στοίχιση. Μπορείτε να δείτε περισσότερες λεπτομέρειες σχετικά με τον τρόπο με τον οποίο οι εργασίες παρακολούθησης βάσει τοποθεσίας εδώ.

Ο αποκωδικοποιητής είναι μονοκατευθυντική πολυεπίπεδη GRU. Σε κάθε βήμα t λαμβάνει είσοδο από το προηγούμενο βήμα χρόνου και το διάνυσμα περιβάλλοντος από την ενότητα προσοχής. Πολυεθνική αποκωδικοποίηση και εξομάλυνση ετικετών διερευνώνται κατά την εκπαίδευση για τη βελτίωση της δυνατότητας γενίκευσης.

Μοντέλα μετασχηματιστή

Αν και τα δίκτυα κωδικοποιητή-αποκωδικοποιητών ήταν αρκετά καλά στην επίτευξη αποτελεσμάτων για την αναγνώριση χειρόγραφου, έχουν ένα στενό σημείο στην εκπαίδευση λόγω των εμπλεκόμενων επιπέδων LSTM και ως εκ τούτου δεν μπορούν να παραλληλιστούν. Πρόσφατα, οι μετασχηματιστές ήταν αρκετά επιτυχημένοι και αντικατέστησαν το LSTM στην επίλυση διαφόρων εργασιών που σχετίζονται με τη γλώσσα. Ας συζητήσουμε τώρα πώς μπορούν να εφαρμοστούν μοντέλα που βασίζονται σε μετασχηματιστές για αναγνώριση χειρογράφου.

Δώστε προσοχή σε ό, τι διαβάζετε

Σε αυτό το έργο οι συγγραφείς πρότειναν τη χρήση μιας αρχιτεκτονικής που βασίζεται σε μετασχηματιστές χρησιμοποιώντας στρώματα προσοχής με πολυσχιδή προσοχή τόσο στα οπτικά όσο και στα στάδια του κειμένου και έτσι μπορούν να μάθουν τόσο την αναγνώριση χαρακτήρων όσο και τις εξαρτώμενες από τη γλώσσα εξαρτήσεις των ακολουθιών χαρακτήρων που πρέπει να αποκωδικοποιηθούν. Δεδομένου ότι η γλωσσική γνώση είναι ενσωματωμένη στο ίδιο το μοντέλο, δεν υπάρχει ανάγκη για επιπλέον βήμα μετά την επεξεργασία χρησιμοποιώντας ένα γλωσσικό μοντέλο και ως εκ τούτου έχει τη δυνατότητα να προβλέψει εξόδους που δεν αποτελούν μέρος του λεξιλογίου. Για να επιτευχθεί αυτό, η κωδικοποίηση κειμένου συμβαίνει σε επίπεδο χαρακτήρων και όχι σε επίπεδο λέξης. Καθώς η αρχιτεκτονική του μετασχηματιστή επιτρέπει την παράλληλη εκπαίδευση του μοντέλου για κάθε περιοχή ή χαρακτήρα, η διαδικασία εκπαίδευσης είναι πολύ απλοποιημένη.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Η αρχιτεκτονική του δικτύου αποτελείται από τα ακόλουθα στοιχεία

  1. Οπτικός κωδικοποιητής : - Για να εξαγάγετε σχετικές δυνατότητες και να εφαρμόσετε οπτική αυτο-προσοχή πολλαπλών κεφαλών σε διαφορετικές τοποθεσίες χαρακτήρων
  2. Μεταδότης κειμένου : - Κάνει το καθήκον να λαμβάνει την εισαγωγή κειμένου, να την κωδικοποιεί, να εφαρμόζει αυτο-προσοχή πολλών κεφαλών και να εφαρμόζει αμοιβαία προσοχή τόσο στις οπτικές όσο και στις λειτουργίες κειμένου.
Οπτικός κωδικοποιητής

Η ραχοκοκαλιά του Resnet50 χρησιμοποιείται για την προσθήκη των χαρακτηριστικών όπως φαίνεται στο παραπάνω σχήμα. Η έξοδος του τρισδιάστατου χάρτη χαρακτηριστικών από το Resnet3 Fc μεταβιβάζεται στη μονάδα Temporal Encoding η οποία επαναδιαμορφώνεται σε 50d διατηρώντας το ίδιο πλάτος και επομένως το σχήμα του (fxh, w). Αυτό τροφοδοτείται σε ένα πλήρως συνδεδεμένο στρώμα για να μειωθεί το σχήμα σε (f, w) και η προκύπτουσα έξοδος είναι Fc'. Επιπλέον, ένα TE κωδικοποίησης θέσης προστίθεται στο Fc' για να διατηρήσει τις πληροφορίες θέσης όπως αναφέρεται στο έγγραφο Transformer από τον Vaswani. Μπορείτε να δείτε περισσότερες πληροφορίες για το πώς σχεδιάζεται η αρχιτεκτονική του μετασχηματιστή εδώ. Η έξοδος περνά μέσα από ένα πλήρως συνδεδεμένο επίπεδο για να πάρει τον τελικό χάρτη χαρακτηριστικών με σχήμα (f, w). Η τελική έξοδος περνά μέσα από μια ενότητα προσοχής με πολλές κεφαλές με 8 κεφαλές για να αποκτήσετε οπτικό χάρτη με πλούσια χαρακτηριστικά

Μεταδότης κειμένου

Το κείμενο εισαγωγής περνά μέσω ενός κωδικοποιητή που δημιουργεί ενσωματώσεις επιπέδου χαρακτήρων. Αυτές οι ενσωματώσεις συνδυάζονται με τη χρονική θέση παρόμοια με τον τρόπο στο Visual Encoder χρησιμοποιώντας μια λειτουργική μονάδα Temporal Encoder. Αυτό το αποτέλεσμα στη συνέχεια μεταφέρεται σε μια ενότητα Self-Attention Multi-Head Language η οποία είναι παρόμοια με την ενότητα προσοχής στον Visual encoder. Οι δυνατότητες κειμένου που δημιουργούνται κατά μήκος των οπτικών χαρακτηριστικών από τον οπτικό κωδικοποιητή μεταβιβάζονται σε μια ενότητα αμοιβαίας προσοχής, η αποστολή της οποίας είναι να ευθυγραμμίσει και να συνδυάσει τα γνωστά χαρακτηριστικά τόσο από τις εικόνες όσο και από τις εισόδους κειμένου. Η έξοδος περνά μέσω μιας λειτουργίας softmax για να πάρει το τελικό αποτέλεσμα.

Κατά την αξιολόγηση των δεδομένων δοκιμής, οι μεταγραφές δεν είναι διαθέσιμες. Έτσι, μόνο το διακριτικό έναρξης <S> μεταφέρεται ως είσοδος και ο πρώτος προβλεπόμενος χαρακτήρας τροφοδοτείται πίσω στο σύστημα, το οποίο εξάγει τον δεύτερο προβλεπόμενο χαρακτήρα. Αυτή η διαδικασία συμπερασμάτων επαναλαμβάνεται σε έναν βρόχο μέχρι να παραχθεί το τέλος του συμβόλου ακολουθίας <Ε> ή όταν επιτευχθεί το μέγιστο μήκος εξόδου Ν.

Δημιουργία κειμένου χειρογράφου

Η δημιουργία χειρόγραφου κειμένου είναι το καθήκον της δημιουργίας χειρόγραφου κειμένου με αληθινή εμφάνιση και, επομένως, μπορεί να χρησιμοποιηθεί για την ενίσχυση των υπαρχόντων συνόλων δεδομένων. Όπως γνωρίζουμε η βαθιά εκμάθηση απαιτεί πολλά δεδομένα για την εκπαίδευση, ενώ η απόκτηση τεράστιου όγκου εικόνων γραφής με ετικέτα για διαφορετικές γλώσσες είναι μια δυσκίνητη εργασία. Για να το λύσουμε αυτό, μπορούμε να χρησιμοποιήσουμε τα Generative Adversarial Networks για τη δημιουργία δεδομένων εκπαίδευσης. Ας συζητήσουμε μια τέτοια αρχιτεκτονική εδώ

ScrabbleGAN

Το ScrabbleGAN ακολουθεί μια ημι-εποπτευόμενη προσέγγιση για τη σύνθεση χειρόγραφων εικόνων κειμένου που είναι ευέλικτες τόσο στο στυλ όσο και στο λεξικό. Έχει τη δυνατότητα να δημιουργεί εικόνες διαφορετικού μήκους. Η γεννήτρια μπορεί επίσης να χειριστεί το προκύπτον στυλ κειμένου που μας επιτρέπει να αποφασίσουμε εάν το κείμενο πρέπει να είναι καμπυλωτό ή να πει πόσο παχύ / λεπτό θα πρέπει να είναι το στυλό

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Η αρχιτεκτονική αποτελείται από μια πλήρως συνελικτική γεννήτρια βασισμένη στο BigGAN. Για κάθε χαρακτήρα στην είσοδο επιλέγεται ένα αντίστοιχο φίλτρο και όλες οι τιμές συνενώνονται μαζί που πολλαπλασιάζεται στη συνέχεια με έναν φορέα θορύβου z που ελέγχει το δημιουργημένο στυλ κειμένου. Όπως μπορεί να φανεί παραπάνω, οι περιοχές που δημιουργούνται για κάθε μεμονωμένο χαρακτήρα αλληλεπικαλύπτονται βοηθώντας έτσι στη δημιουργία συνδεδεμένου αναδρομικού κειμένου καθώς και επιτρέποντας την ευελιξία διαφορετικού μεγέθους χαρακτήρων. Για παράδειγμα, το m καταλαμβάνει μεγάλο μέρος του χώρου ενώ το e και t παίρνει περιορισμένη περιοχή. Προκειμένου να διατηρηθεί το ίδιο στυλ για ολόκληρη τη λέξη ή πρόταση, το στυλ διάνυσμα z διατηρείται σταθερό για όλους τους χαρακτήρες.

Ένας συνελικτικός διαχωριστής που βασίζεται στην αρχιτεκτονική BigGAN χρησιμοποιείται για να ταξινομήσει εάν το στυλ δημιουργίας εικόνων φαίνεται ψεύτικο ή αληθινό. Ο διαχωριστής δεν βασίζεται σε σχολιασμούς σε επίπεδο χαρακτήρων και, ως εκ τούτου, δεν βασίζεται σε ένα GAN υπό όρους κατηγορίας. Το πλεονέκτημα αυτού είναι ότι δεν υπάρχει ανάγκη για επισημασμένα δεδομένα και ως εκ τούτου δεδομένα από αόρατο σώμα που δεν αποτελεί μέρος των δεδομένων εκπαίδευσης μπορούν να χρησιμοποιηθούν για διακρίσεις εκπαίδευσης. Μαζί με το διακριτικό, ένας αναγνωριστής κειμένου R εκπαιδεύεται να ταξινομεί εάν το κείμενο που δημιουργείται έχει νόημα στον πραγματικό κόσμο ή αν είναι ανόητο. Ο αναγνωριστής βασίζεται σε αρχιτεκτονικές CRNN με την επαναλαμβανόμενη κεφαλή αφαιρεθεί για να κάνει τον αναγνωριστή λίγο πιο αδύναμο και να μην αναγνωρίζει το κείμενο ακόμα κι αν είναι ασαφές. Το κείμενο που δημιουργείται στην έξοδο του R συγκρίνεται με το κείμενο εισόδου που δίνεται στη γεννήτρια και μια αντίστοιχη ποινή προστίθεται στη συνάρτηση απώλειας.

Οι έξοδοι που παράγονται από το ScrabbleGAN φαίνονται παρακάτω

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Σύνολα δεδομένων: -

  1. IAM : - Το σύνολο δεδομένων IAM περιέχει περίπου 100k εικόνες λέξεων από την αγγλική γλώσσα με λέξεις που γράφτηκαν από 657 διαφορετικούς συγγραφείς. Το σετ τρένων, δοκιμών και επικύρωσης περιέχει λέξεις γραμμένες από αμοιβαία αποκλειστικούς συγγραφείς Σύνδεσμος: - http://www.fki.inf.unibe.ch/databases/iam-handwriting-database
  2. CVL : - Το σύνολο δεδομένων CVL αποτελείται από επτά χειρόγραφα έγγραφα που γράφτηκαν από περίπου 310 συμμετέχοντες, με αποτέλεσμα περίπου 83 καλλιέργειες λέξεων, χωρισμένα σε τρένα και σετ δοκιμών https://cvl.tuwien.ac.at/research/cvl-databases/an-off-line-database-for-writer-retrieval-writer-identification-and-word-spotting/
  3. RIMES : - Περιέχει λέξεις από τη γαλλική γλώσσα περίπου 60 χιλιάδων εικόνων και γραμμένες από 1300 συγγραφείς που αντιστοιχούν σε περίπου 5 μηνύματα γραμμένα από κάθε άτομο. Σύνδεσμος: - http://www.a2ialab.com/doku.php?id=rimes_database:start

Μετρήσεις: -

Ποσοστό σφάλματος χαρακτήρων : - Υπολογίζεται ως η απόσταση Levenshtein που είναι το άθροισμα των αντικαταστάσεων χαρακτήρων (Sc), των εισαγωγών (Ic) και των διαγραφών (Dc) που απαιτούνται για τη μετατροπή μιας συμβολοσειράς στην άλλη, διαιρούμενη με τον συνολικό αριθμό χαρακτήρων στο groundtruth (Nc)

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Ποσοστό σφάλματος λέξης : - Υπολογίζεται ως το άθροισμα των αντικαταστάσεων λέξεων (Sw), εισαγωγών (Iw) και διαγραφών (Dw) που απαιτούνται για τη μετατροπή μιας συμβολοσειράς στην άλλη, διαιρούμενη με τον συνολικό αριθμό λέξεων στο groundtruth (Nw)

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Εκπαιδεύστε το δικό σας μοντέλο αναγνώρισης χειρογράφου

Τώρα ας δούμε πώς μπορούμε να εκπαιδεύσουμε το δικό μας μοντέλο αναγνώρισης χειρόγραφου κειμένου. Θα εκπαιδεύσουμε στο σύνολο δεδομένων IAM, αλλά μπορείτε να εκπαιδεύσετε το μοντέλο και στο δικό σας σύνολο δεδομένων. Ας συζητήσουμε τα βήματα που περιλαμβάνονται στη ρύθμιση αυτού

ημερομηνία

Για λήψη του μητρώου δεδομένων IAM από εδώ. Μόλις εγγραφείτε, κατεβάστε το word.tgz από εδώ. Περιέχει ένα σύνολο δεδομένων χειρόγραφων εικόνων λέξεων. Κατεβάστε επίσης το αρχείο σχολιασμών εδώ.

Εάν θέλετε να χρησιμοποιήσετε το δικό σας σύνολο δεδομένων πρέπει να ακολουθήσετε τη δομή δεδομένων του συνόλου δεδομένων IAM.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Τα παραπάνω δείχνουν πώς φαίνεται η δομή του φακέλου δεδομένων AIM. Εδώ οι a01, a02 κ.λπ. αντιπροσωπεύουν τους γονικούς φακέλους που ο καθένας έχει υποφακέλους δεδομένων. Κάθε υποφάκελος έχει ένα σύνολο εικόνων που προστίθεται το όνομα του φακέλου ως πρόθεμα στο όνομα του αρχείου του.

Επιπλέον, χρειαζόμαστε ένα αρχείο σχολιασμού για να αναφέρουμε τις διαδρομές στα αρχεία εικόνων και τις αντίστοιχες μεταγραφές. Εξετάστε, για παράδειγμα, την παραπάνω εικόνα με υποψηφιότητα κειμένου, το παρακάτω θα ήταν η αναπαράσταση στο αρχείο σχολιασμού word.txt

a01-000u-01-00 ok 156 395 932 441 100 υποψηφιότητα VBG

  1. a01-000u-01-00 -> αναγνωριστικό λέξης για μια γραμμή με μορφή a01-000u
  2. ok / err -> Δείκτης ποιότητας εξόδου τμηματοποίησης
  3. 156 -> γκρίζο επίπεδο για να αφαιρέσετε τη γραμμή που περιέχει αυτήν τη λέξη
  4. 395 932 441 100 -> πλαίσιο οριοθέτησης γύρω από αυτήν τη λέξη σε μορφή x, y, w, h
  5. VBG -> η γραμματική ετικέτα για αυτήν τη λέξη. Εδώ είναι ο Verb Gerund
  6. διορίζοντας -> τη μεταγραφή για αυτήν τη λέξη

Αρχιτεκτονική: -

Θα εκπαιδεύσουμε μια αρχιτεκτονική βασισμένη στο CRNN με απώλεια CTC. Ένα CNN χρησιμοποιείται για την εξαγωγή των οπτικών χαρακτηριστικών που μεταδίδονται σε ένα RNN και μια απώλεια CTC εφαρμόζεται στο τέλος με έναν άπληστο αποκωδικοποιητή για να πάρει την έξοδο.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Εκπαίδευση

Θα χρησιμοποιήσουμε τον κωδικό CRNN από εδώ να εκπαιδεύσουμε το μοντέλο μας. Ακολουθήστε τα παρακάτω βήματα για να προετοιμάσετε τα δεδομένα

python checkDirs.py

Εκτελέστε την παραπάνω εντολή και θα δείτε μια έξοδο όπως παρακάτω

[ΟΚ] λέξεις /
[OK] λέξεις / a01 / a01-000u /
[ΟΚ] words.txt
[ΟΚ] test.png
[OK] words/a01/a01-000u/a01-000u-00-00.png

Τώρα είστε έτοιμοι να ξεκινήσετε την προπόνηση.

Μεταβείτε στον ριζικό κατάλογο και εκτελέστε

python main.py --train

Αποτελέσματα

Μετά την προπόνηση για περίπου 50 εποχές, το ποσοστό σφάλματος χαρακτήρων (CER) είναι 10.72%, ενώ το ποσοστό σφάλματος Word (WER) είναι 26.45% και ως εκ τούτου το Word Accuracy είναι 73.55%. Ορισμένες από τις προβλέψεις φαίνονται στο παρακάτω σχήμα.

Πώς να κάνετε εύκολα αναγνώριση χειρογράφου χρησιμοποιώντας τη Μηχανική Εκμάθηση

Το μοντέλο είναι σε θέση να προβλέψει τους χαρακτήρες με ακρίβεια σε μεγάλο βαθμό, αλλά υποφέρει σε λίγες περιπτώσεις, όπως είναι απρόβλεπτα προβλεπόμενο ως ανιόν, οι ιστορίες προβλέπονται ως αστέρια. Αυτά τα ζητήματα μπορούν να επιλυθούν χρησιμοποιώντας ένα γλωσσικό μοντέλο ως βήμα μετά την επεξεργασία μαζί με τον αποκωδικοποιητή που μπορεί να δημιουργήσει σημαντικές λέξεις και να διορθώσει απλά λάθη.

Χαρακτηριστικά

Παρόλο που έχουν σημειωθεί σημαντικές εξελίξεις στην τεχνολογία που βοηθούν στην καλύτερη αναγνώριση του χειρόγραφου κειμένου, το HTR απέχει πολύ από ένα λυμένο πρόβλημα σε σύγκριση με το OCR και ως εκ τούτου δεν έχει ακόμη χρησιμοποιηθεί εκτενώς στη βιομηχανία. Ωστόσο, με το ρυθμό της τεχνολογικής εξέλιξης και με την εισαγωγή μοντέλων όπως μετασχηματιστές, μπορούμε να περιμένουμε τα μοντέλα HTR να γίνουν συνήθη κοινά σύντομα.

Για να βρείτε περισσότερες έρευνες για αυτό το θέμα μπορείτε να ξεκινήσετε εδώ

Περισσότερες Πληροφορίες

Σφραγίδα ώρας:

Περισσότερα από AI και μηχανική μάθηση