Εξαγωγή δεδομένων φόρμας

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Θέλετε να εξαγάγετε δεδομένα από έντυπες ή χειρόγραφες φόρμες; Ολοκλήρωση αγοράς Νανοδίκτυα™ εξαγωγή δεδομένων φόρμας δωρεάν & αυτοματοποιήστε την εξαγωγή πληροφοριών από οποιαδήποτε μορφή!

Έντυπα υπάρχουν παντού. ορίζονται ως έγγραφα που δημιουργούνται για τη συλλογή πληροφοριών ζητώντας από τους συμμετέχοντες να συμπληρώσουν τις πληροφορίες που χρειάζονται σε μια συγκεκριμένη μορφή. Είναι χρήσιμοι λόγω της ικανότητάς τους να συγκεντρώνουν πολλά δεδομένα σε σύντομο χρονικό διάστημα. Ωστόσο, δεν έχουν όλες οι φόρμες την ίδια ικανότητα συλλογής δεδομένων και συχνά απαιτούν χειρωνακτική εργασία αργότερα. Επομένως, βασιζόμαστε σε εργαλεία και αλγόριθμους για την έξυπνη αυτοματοποίηση της διαδικασίας εξαγωγής δεδομένων φόρμας. Αυτή η ανάρτηση ιστολογίου θα εμβαθύνει σε διαφορετικά σενάρια και τεχνικές εξαγωγής δεδομένων από φόρμες χρησιμοποιώντας OCR και Deep Learning.

Τι είναι η εξαγωγή δεδομένων φόρμας;
Τι κάνει το πρόβλημα δύσκολο;
Το πρόβλημα της εξαγωγής βάθους της μορφής
Πώς έχουν εξελιχθεί οι λύσεις εξαγωγής δεδομένων φόρμας;
Εξαγωγή δεδομένων φόρμας με χρήση OCR
Επίλυση εξαγωγής δεδομένων φόρμας με χρήση Deep Learning
Εισαγάγετε Nanonets

Τι είναι η εξαγωγή δεδομένων φόρμας;

Η εξαγωγή δεδομένων φόρμας είναι η διαδικασία εξαγωγής δεδομένων από φόρμες – τόσο online όσο και εκτός σύνδεσης. Αυτά τα δεδομένα μπορούν να βρεθούν σε οποιαδήποτε μορφή, που συνήθως περιέχει μια φόρμα με τις σχετικές πληροφορίες. Ωστόσο, η εξαγωγή αυτών των δεδομένων δεν είναι πάντα εύκολη υπόθεση, επειδή πολλές διατάξεις και σχέδια δεν επιτρέπουν την εύκολη επιλογή κειμένου. Δεν υπάρχει εγγενής τρόπος αντιγραφής δεδομένων από αυτά. Επομένως, βασιζόμαστε σε αυτοματοποιημένες τεχνικές για να βοηθήσουμε στην εξαγωγή δεδομένων από φόρμες που είναι πιο αποτελεσματικές και λιγότερο επιρρεπείς σε σφάλματα.

Τι είναι η εξαγωγή δεδομένων από μορφή;

Για παράδειγμα, σήμερα, πολλοί χρήστες εξαρτώνται από φόρμες που βασίζονται σε PDF για τη συλλογή στοιχείων επικοινωνίας. Αυτός είναι ένας εξαιρετικά αποτελεσματικός τρόπος συλλογής πληροφοριών, επειδή δεν απαιτεί από τον αποστολέα και τον παραλήπτη να παρέχουν πληροφορίες. Αλλά η εξαγωγή αυτών των δεδομένων από μια φόρμα PDF μπορεί να είναι δύσκολη και δαπανηρή.

Εδώ, η εξαγωγή δεδομένων φόρμας μπορεί να βοηθήσει στην εξαγωγή δεδομένων από μια φόρμα PDF, όπως όνομα, διεύθυνση email, αριθμό τηλεφώνου κ.λπ. Μπορεί να εισαχθεί σε άλλη εφαρμογή όπως το Excel, τα Φύλλα ή οποιαδήποτε άλλη δομημένη μορφή. Ο τρόπος που λειτουργεί είναι τα εργαλεία εξαγωγής που διαβάζονται πάνω από το αρχείο PDF, βγάζουν αυτόματα ό,τι χρειάζεται και το οργανώνουν σε μια ευανάγνωστη μορφή. Αυτά τα δεδομένα μπορούν να εξαχθούν σε άλλες μορφές όπως Excel, CSV, JSON και άλλες καλά δομημένες μορφές δεδομένων. Στην επόμενη ενότητα, ας δούμε μερικές από τις προκλήσεις που αντιμετωπίζετε συχνά κατά τη δημιουργία αλγορίθμων εξαγωγής δεδομένων.

Θέλετε να εξαγάγετε δεδομένα από έντυπες ή χειρόγραφες φόρμες; Ρίξτε μια ματιά στα Nanonets™ δωρεάν εξαγωγή δεδομένων φόρμας & αυτοματοποιήστε την εξαγωγή πληροφοριών από οποιαδήποτε μορφή!

Τι κάνει την εξαγωγή δεδομένων φόρμας δύσκολη;

Η εξαγωγή δεδομένων είναι ένα συναρπαστικό πρόβλημα για διάφορους λόγους. Πρώτον, είναι ένα πρόβλημα αναγνώρισης εικόνας, αλλά πρέπει επίσης να λαμβάνει υπόψη το κείμενο που μπορεί να υπάρχει στην εικόνα και τη διάταξη της φόρμας, γεγονός που καθιστά τη δημιουργία ενός αλγορίθμου πιο περίπλοκη. Αυτή η ενότητα συζητά μερικές από τις κοινές προκλήσεις που αντιμετωπίζουν οι άνθρωποι κατά τη δημιουργία αλγορίθμων εξαγωγής δεδομένων.

Έλλειψη δεδομένων: Οι αλγόριθμοι εξαγωγής δεδομένων συνήθως κατασκευάζονται χρησιμοποιώντας ισχυρούς αλγόριθμους βαθιάς μάθησης και βασισμένους σε υπολογιστική όραση. Αυτά βασίζονται συνήθως σε τεράστιες ποσότητες δεδομένων για την επίτευξη απόδοσης αιχμής. Έτσι, η εύρεση ενός συνεπούς και αξιόπιστου συνόλου δεδομένων και η επεξεργασία τους είναι ζωτικής σημασίας για κάθε μορφή εργαλείου ή λογισμικού εξαγωγής δεδομένων. Για παράδειγμα, ας πούμε ότι έχουμε φόρμες με πολλά πρότυπα, τότε αυτοί οι αλγόριθμοι θα πρέπει να είναι σε θέση να κατανοήσουν ένα ευρύ φάσμα μορφών. Επομένως, η εκπαίδευσή τους σε ένα ισχυρό σύνολο δεδομένων θα είχε πιο ακριβή απόδοση.
Χειρισμός γραμματοσειρών, γλωσσών και διατάξεων: Υπάρχουν ιλιγγιώδεις ποσότητες διαφορετικών γραμματοσειρών, σχεδίων και προτύπων διαθέσιμες για διαφορετικά είδη δεδομένων φόρμας. Μπορεί να εμπίπτουν σε πολλές εντελώς διαφορετικές ταξινομήσεις, γεγονός που καθιστά δύσκολη τη διασφάλιση της ακριβούς αναγνώρισης όταν πρέπει να ληφθούν υπόψη ένας τεράστιος αριθμός διαφορετικών τύπων χαρακτήρων. Ως εκ τούτου, είναι σημαντικό να περιορίσετε τη συλλογή γραμματοσειρών σε μια συγκεκριμένη γλώσσα και τύπο, επειδή θα δημιουργήσει πολλές διεργασίες που ρέουν ομαλά μόλις υποβάλετε την κατάλληλη επεξεργασία αυτών των εγγράφων. Σε πολύγλωσσες περιπτώσεις, η ταχυδακτυλουργία μεταξύ χαρακτήρων από πολλές γλώσσες πρέπει να προετοιμαστεί και να φροντίσει επίσης περίπλοκη τυπογραφία.

Πηγή εικόνας: Μέτριας Δυσκολίας

Προσανατολισμός και λοξή (Περιστροφή): Κατά την επιμέλεια δεδομένων, συχνά σαρώνουμε εικόνες για να εκπαιδεύσουμε αλγόριθμους για συλλογή δεδομένων εισόδου. Εάν έχετε χρησιμοποιήσει ποτέ σαρωτή ή ψηφιακή φωτογραφική μηχανή, τότε μπορεί να έχετε παρατηρήσει ότι η γωνία με την οποία τραβάτε εικόνες εγγράφων μπορεί μερικές φορές να τα κάνει να φαίνονται λοξά. Αυτό είναι γνωστό ως λοξότητα που αναφέρεται στον βαθμό γωνίας. Αυτή η λοξότητα μπορεί να μειώσει την ακρίβεια του μοντέλου. Ευτυχώς, διάφορες τεχνικές μπορούν να χρησιμοποιηθούν για την επίλυση αυτού του προβλήματος τροποποιώντας απλώς τον τρόπο με τον οποίο το λογισμικό μας εντοπίζει χαρακτηριστικά σε συγκεκριμένες περιοχές της εικόνας. Ένα παράδειγμα τέτοιας τεχνικής είναι οι μέθοδοι Προφίλ προβολής ή μέθοδοι μετασχηματισμού Fourier, οι οποίες επιτρέπουν πολύ καθαρότερα αποτελέσματα στην αναγνώριση σχήματος, διαστάσεων και υφής! Αν και ο προσανατολισμός και η λοξότητα μπορεί να είναι απλά λάθη, αυτά μπορούν να επηρεάσουν την ακρίβεια του μοντέλου σε μεγάλους αριθμούς.

Πηγή εικόνας: pyimagesearch

Ασφάλεια Δεδομένων: Εάν εξάγετε δεδομένα από διάφορες πηγές για συλλογή δεδομένων, είναι σημαντικό να γνωρίζετε τα μέτρα ασφαλείας που ισχύουν. Διαφορετικά, κινδυνεύετε να θέσετε σε κίνδυνο τις πληροφορίες που μεταφέρονται. Αυτό μπορεί να οδηγήσει σε καταστάσεις όπου παραβιάζονται προσωπικές πληροφορίες ή οι πληροφορίες που αποστέλλονται σε ένα API δεν είναι ασφαλείς. Επομένως, ενώ εργάζεστε με σενάρια ETL και διαδικτυακά API για εξαγωγή δεδομένων, πρέπει επίσης να γνωρίζετε θέματα ασφάλειας δεδομένων.
Εξαγωγή πίνακα: Μερικές φορές, βλέπουμε δεδομένα φόρμας μέσα σε πίνακες. Η δημιουργία ενός ισχυρού αλγορίθμου που μπορεί να χειριστεί τόσο την εξαγωγή φόρμας όσο και την εξαγωγή πινάκων μπορεί να είναι προκλητική. Η συνήθης προσέγγιση είναι η κατασκευή αυτών των αλγορίθμων ανεξάρτητα και η εφαρμογή τους στα δεδομένα, αλλά αυτό θα οδηγήσει στη χρήση μεγαλύτερης υπολογιστικής ισχύος που αυξάνει το κόστος. Επομένως, μια ιδανική εξαγωγή φόρμας θα πρέπει να μπορεί να εξάγει τόσο φόρμα-δεδομένα όσο και δεδομένα από ένα δεδομένο έγγραφο.

Πηγή εικόνας: GCN

Μετα-επεξεργασία / Εξαγωγή εξόδου: Τα δεδομένα εξόδου από οποιαδήποτε εξαγωγή δεδομένων δεν είναι ίσια. Επομένως, οι προγραμματιστές βασίζονται σε τεχνικές μετα-επεξεργασίας για να φιλτράρουν τα αποτελέσματα σε πιο δομημένη μορφή. Μετά την επεξεργασία των δεδομένων, εξάγονται σε πιο δομημένη μορφή όπως CSV, Excel ή βάση δεδομένων. Οι οργανισμοί βασίζονται σε ενσωματώσεις τρίτων ή αναπτύσσουν API για την αυτοματοποίηση αυτής της διαδικασίας, η οποία είναι και πάλι χρονοβόρα. Ως εκ τούτου, οι ιδανικοί αλγόριθμοι εξαγωγής δεδομένων θα πρέπει να είναι ευέλικτοι και εύκολοι στην επικοινωνία με εξωτερικές πηγές δεδομένων.

Μετα-επεξεργασία στην εξαγωγή δεδομένων φόρμας

Κατανόηση του βάθους της εξαγωγής φόρμας με διάφορα σενάρια

Μέχρι στιγμής, έχουμε συζητήσει τις βασικές αρχές και τις προκλήσεις της εξαγωγής δεδομένων φόρμας. Σε αυτήν την ενότητα, θα εμβαθύνουμε σε διαφορετικά σενάρια και θα κατανοήσουμε το βάθος της εξαγωγής δεδομένων φόρμας. Θα εξετάσουμε επίσης πώς μπορούμε να αυτοματοποιήσουμε τη διαδικασία εξαγωγής για αυτά τα συγκεκριμένα σενάρια.

Σενάριο #1: Χειρόγραφη αναγνώριση για φόρμες εκτός σύνδεσης

Οι φόρμες εκτός σύνδεσης συναντώνται συνήθως στην καθημερινή ζωή. Είναι επιτακτική ανάγκη οι φόρμες να είναι εύκολο να συμπληρωθούν και να υποβληθούν. Η μη αυτόματη ψηφιοποίηση φορμών εκτός σύνδεσης μπορεί να είναι μια ταραχώδης και δαπανηρή εργασία, γι' αυτό χρειάζονται αλγόριθμοι βαθιάς μάθησης. Τα χειρόγραφα έγγραφα αποτελούν σημαντική πρόκληση για την εξαγωγή δεδομένων λόγω της πολυπλοκότητας των χειρόγραφων χαρακτήρων. Επομένως, χρησιμοποιούνται σε μεγάλο βαθμό αλγόριθμοι αναγνώρισης δεδομένων με τους οποίους μια μηχανή μαθαίνει να διαβάζει και να ερμηνεύει το χειρόγραφο κείμενο. Η διαδικασία περιλαμβάνει τη σάρωση εικόνων χειρόγραφων λέξεων και τη μετατροπή τους σε δεδομένα που μπορούν να υποβληθούν σε επεξεργασία και να αναλυθούν από έναν αλγόριθμο. Στη συνέχεια, ο αλγόριθμος δημιουργεί έναν χάρτη χαρακτήρων που βασίζεται σε πινελιές και αναγνωρίζει τα αντίστοιχα γράμματα για να εξαγάγει το κείμενο.

Πηγή εικόνας: Σύνολο δεδομένων NSIT

Σενάριο #2: Αναγνώριση πλαισίου ελέγχου στις φόρμες

Οι φόρμες πλαισίου ελέγχου είναι μια μορφή εισαγωγής δεδομένων που χρησιμοποιείται για τη συλλογή πληροφοριών από έναν χρήστη σε ένα πεδίο εισαγωγής. Αυτός ο τύπος δεδομένων βρίσκεται συνήθως σε λίστες και πίνακες που απαιτούν από τον χρήστη να επιλέξει ένα ή περισσότερα στοιχεία, όπως στοιχεία με τα οποία θέλει να επικοινωνήσει. Μπορεί να βρεθεί σε οποιονδήποτε αριθμό θέσεων - διαδικτυακές φόρμες, ερωτηματολόγια και έρευνες κ.λπ. Σήμερα, ορισμένοι αλγόριθμοι μπορούν να αυτοματοποιήσουν τη διαδικασία εξαγωγής δεδομένων ακόμη και από τα πλαίσια ελέγχου. Ο πρωταρχικός στόχος αυτού του αλγορίθμου είναι να αναγνωρίσει τις περιοχές εισόδου χρησιμοποιώντας τεχνικές όρασης υπολογιστή. Αυτά περιλαμβάνουν τον εντοπισμό γραμμών (οριζόντιων και κάθετων), την εφαρμογή φίλτρων, περιγραμμάτων και την ανίχνευση άκρων στις εικόνες. Αφού προσδιοριστεί η περιοχή εισαγωγής, είναι εύκολο να εξαγάγετε τα περιεχόμενα του πλαισίου ελέγχου που είτε έχουν επισημανθεί είτε δεν έχουν επισημανθεί.

Αναγνώριση πλαισίου ελέγχου στην εξαγωγή δεδομένων φόρμας

Σενάριο #3: Διάταξη Αλλαγές της φόρμας από καιρό σε καιρό

Όταν πρόκειται για τη συμπλήρωση εντύπων, υπάρχουν συνήθως δύο διαφορετικοί τύποι επιλογών. Για ορισμένες φόρμες, πρέπει να παρέχουμε τις πληροφορίες μας γράφοντας σε όλα τα σχετικά πεδία, ενώ για άλλες, μπορούμε να τις παρέχουμε επιλέγοντας από μερικά πλαίσια ελέγχου. Η διάταξη της φόρμας αλλάζει επίσης ανάλογα με τον τύπο της φόρμας και το πλαίσιο της. Ως εκ τούτου, είναι απαραίτητο να δημιουργήσετε έναν αλγόριθμο που να μπορεί να χειρίζεται πολλά μη δομημένα έγγραφα και να εξάγει έξυπνα περιεχόμενο ανάλογα με τις ετικέτες της φόρμας. Μια δημοφιλής τεχνική αρχιτεκτονικής βαθιάς εκμάθησης για τον χειρισμό διατάξεων εγγράφων είναι τα Graph CNN. Η ιδέα πίσω από τα συνελικτικά δίκτυα γραφήματος (GCN) είναι να διασφαλιστεί ότι οι ενεργοποιήσεις των νευρώνων βασίζονται σε δεδομένα. Έχουν σχεδιαστεί για να λειτουργούν σε γραφήματα, τα οποία αποτελούνται από κόμβους και ακμές. Ένα συνελικτικό επίπεδο γραφήματος είναι ικανό να αναγνωρίζει μοτίβα απουσία σήματος εκπαίδευσης για συγκεκριμένη εργασία. Επομένως, είναι κατάλληλα όταν τα δεδομένα είναι ισχυρά.

Σενάριο #4: Ανίχνευση επιτραπέζιων κυττάρων

Σε ορισμένες περιπτώσεις, οι επιχειρήσεις συναντούν ειδικά είδη μορφών που αποτελούνται από κελιά πίνακα. Τα κελιά πίνακα είναι ορθογώνιες περιοχές μέσα σε έναν πίνακα όπου αποθηκεύονται δεδομένα. Μπορούν να ταξινομηθούν ως κεφαλίδες, σειρές ή στήλες. Ένας ιδανικός αλγόριθμος θα πρέπει να προσδιορίζει όλους αυτούς τους τύπους κελιών και τα όριά τους για να εξαγάγει τα δεδομένα από αυτά. Μερικές δημοφιλείς τεχνικές για την εξαγωγή τραπεζιού περιλαμβάνουν το Stream και το Lattice. Αυτοί είναι αλγόριθμοι που μπορούν να βοηθήσουν στην ανίχνευση γραμμών, σχημάτων, πολυγώνων χρησιμοποιώντας απλές ισομορφικές πράξεις σε εικόνες.

Πώς έχουν εξελιχθεί οι λύσεις εξαγωγής δεδομένων φόρμας;

Η εξαγωγή δεδομένων φόρμας έχει τις ρίζες της στις μέρες πριν από τον υπολογιστή, όταν οι άνθρωποι χειρίζονταν έντυπα έντυπα. Με την έλευση των υπολογιστών, κατέστη δυνατή η ηλεκτρονική αποθήκευση δεδομένων. Τα προγράμματα υπολογιστών θα μπορούσαν να χρησιμοποιήσουν τα δεδομένα για να δημιουργήσουν αναφορές, όπως στατιστικά στοιχεία πωλήσεων. Αυτό το λογισμικό θα μπορούσε επίσης να χρησιμοποιηθεί για την εκτύπωση ετικετών αλληλογραφίας, όπως το όνομα και τη διεύθυνση των πελατών, και την εκτύπωση τιμολογίων, όπως το οφειλόμενο ποσό και τη διεύθυνση στην οποία πρέπει να σταλεί. Ωστόσο, σήμερα βλέπουμε μια διαφορετική έκδοση του λογισμικού εξαγωγής δεδομένων φόρμας. Αυτά είναι εξαιρετικά ακριβή, πιο γρήγορα και παρέχουν τα δεδομένα με εξαιρετικά οργανωμένο και δομημένο τρόπο. Τώρα, ας συζητήσουμε εν συντομία διαφορετικούς τύπους τεχνικών εξαγωγής δεδομένων φόρμας.

Βασισμένο σε κανόνες από την εξαγωγή δεδομένων: Η εξαγωγή βάσει κανόνων είναι μια τεχνική που εξάγει αυτόματα δεδομένα από μια συγκεκριμένη φόρμα προτύπου. Μπορεί να εξάγει δεδομένα χωρίς ανθρώπινη παρέμβαση. Λειτουργούν εξετάζοντας διαφορετικά πεδία στη σελίδα και αποφασίζουν ποια να εξαγάγουν με βάση το περιβάλλον κείμενο, τις ετικέτες και άλλες ενδείξεις με βάση τα συμφραζόμενα. Αυτοί οι αλγόριθμοι συνήθως αναπτύσσονται και αυτοματοποιούνται χρησιμοποιώντας σενάρια ETL ή web scraping. Ωστόσο, όταν δοκιμάζονται σε αόρατα δεδομένα, αποτυγχάνουν εντελώς.
Εξαγωγή δεδομένων φόρμας με χρήση OCR: Το OCR είναι μια λύση για κάθε μορφή προβλήματος εξαγωγής δεδομένων. Ωστόσο, κάποιος πρέπει να γράψει πρόσθετα σενάρια και προγράμματα για να επιτύχει ακριβή απόδοση. Για να λειτουργήσει το OCR, απαιτείται η εισαγωγή μιας εικόνας με κείμενο. Στη συνέχεια, το λογισμικό διαβάζει κάθε pixel και συγκρίνει κάθε pixel με το αντίστοιχο γράμμα. Εάν ταιριάζει, θα δώσει αυτό το γράμμα και τυχόν αριθμούς ή σύμβολα αρκετά κοντά στο γράμμα. Η μεγαλύτερη πρόκληση με το OCR είναι να βρείτε πώς να διαχωρίσετε τα γράμματα. Για παράδειγμα, όταν οι νότες είναι κοντά ή αλληλοεπικαλύπτονται, όπως "a" και "e". Επομένως, ενδέχεται να μην λειτουργούν όταν εξάγουμε φόρμες εκτός σύνδεσης.
NER για εξαγωγή δεδομένων φόρμας: Η αναγνώριση ονομαστικών οντοτήτων είναι η εργασία αναγνώρισης και ταξινόμησης προκαθορισμένων οντοτήτων σε κείμενο φυσικής γλώσσας. Συχνά χρησιμοποιείται για την εξαγωγή πληροφοριών από φόρμες, όπου οι άνθρωποι πληκτρολογούν ονόματα, διευθύνσεις, σχόλια, κ.λπ. Το καθήκον της αναγνώρισης ονομαστικών οντοτήτων σχετίζεται στενά με το ευρύτερο έργο της ανάλυσης συνάφειας, που καθορίζει εάν οι αναφορές των ίδιων οντοτήτων αναφέρονται σε ίδιες οντότητες του πραγματικού κόσμου. Σήμερα, με προηγμένα εργαλεία προγραμματισμού και πλαίσια, θα μπορούσαμε να αξιοποιήσουμε προεκπαιδευμένα μοντέλα για να δημιουργήσουμε μοντέλα βασισμένα στο NER για εργασίες εξαγωγής πληροφοριών.

Πηγή εικόνας: Μέτριας Δυσκολίας

Χρήση Deep Learning για εξαγωγή δεδομένων φόρμας: Η βαθιά μάθηση δεν είναι καινούργια, υπάρχει εδώ και δεκαετίες, αλλά οι πρόσφατες εξελίξεις στις αρχιτεκτονικές βαθιάς μάθησης και στην υπολογιστική ισχύ έχουν οδηγήσει σε πρωτοποριακά αποτελέσματα. Η εξαγωγή δεδομένων φόρμας με χρήση βαθιάς μάθησης πέτυχε επιδόσεις αιχμής σε σχεδόν οποιαδήποτε μορφή, είτε είναι ψηφιακή είτε χειρόγραφη. Η διαδικασία ξεκινάει τροφοδοτώντας το βαθύ νευρωνικό δίκτυο (DNN) χιλιάδες ή εκατομμύρια διαφορετικά παραδείγματα που επισημαίνονται με αυτό που είναι. Για παράδειγμα, ετικέτες μορφής εικόνας με τις οντότητές του όπως όνομα, email, αναγνωριστικό κ.λπ. Το DNN επεξεργάζεται όλες αυτές τις πληροφορίες και μαθαίνει από μόνο του πώς συνδέονται αυτά τα κομμάτια. Ωστόσο, η κατασκευή ενός μοντέλου υψηλής ακρίβειας απαιτεί πολλή τεχνογνωσία και πειραματισμό.

Deep Learning για Εξαγωγή Δεδομένων Φόρμας

Εξαγωγή δεδομένων φόρμας με χρήση OCR

Υπάρχουν πολλές διαφορετικές βιβλιοθήκες διαθέσιμες για την εξαγωγή δεδομένων από φόρμες. Τι γίνεται όμως αν θέλετε να εξαγάγετε δεδομένα από μια εικόνα μιας φόρμας; Εδώ μπαίνει το Tesseract OCR (Optical Character Recognition). Το Tesseract είναι μια μηχανή ανοιχτού κώδικα OCR (Optical Character Recognition) που αναπτύχθηκε από την HP. Χρησιμοποιώντας το Tesseract OCR, είναι δυνατή η μετατροπή σαρωμένων εγγράφων όπως χάρτινα τιμολόγια, αποδείξεις και επιταγές σε ψηφιακά αρχεία με δυνατότητα αναζήτησης και επεξεργασίας. Είναι διαθέσιμο σε πολλές γλώσσες και μπορεί να αναγνωρίσει χαρακτήρες σε διάφορες μορφές εικόνας. Το Tesseract χρησιμοποιείται συνήθως σε συνδυασμό με άλλες βιβλιοθήκες για την επεξεργασία εικόνων για εξαγωγή κειμένου.

Για να το δοκιμάσετε, βεβαιωθείτε ότι έχετε εγκαταστήσει το Tesseract στον τοπικό σας υπολογιστή. Μπορείτε να χρησιμοποιήσετε δεσμεύσεις Tesseract CLI ή Python για την εκτέλεση του OCR. Το Python-tesseract είναι ένα περιτύλιγμα για το Tesseract-OCR Engine της Google. Μπορεί να χρησιμοποιηθεί για την ανάγνωση όλων των τύπων εικόνων που υποστηρίζονται από τις βιβλιοθήκες απεικόνισης Pillow και Leptonica, συμπεριλαμβανομένων των jpeg, png, gif, bmp, tiff και άλλων. Μπορείτε να το χρησιμοποιήσετε εύκολα ως αυτόνομο σενάριο επίκλησης για δοκιμές εάν χρειάζεται.

Τώρα, ας πάρουμε μια απόδειξη που περιέχει δεδομένα φόρμας και ας προσπαθήσουμε να προσδιορίσουμε τη θέση του κειμένου χρησιμοποιώντας το Computer Vision και το Tesseract.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Εξαγωγή δεδομένων φόρμας με χρήση OCR

Εδώ, στην έξοδο, όπως μπορούμε να δούμε, το πρόγραμμα μπόρεσε να αναγνωρίσει όλο το κείμενο μέσα στη φόρμα. Τώρα, ας εφαρμόσουμε το OCR σε αυτό για να εξαγάγουμε όλες τις πληροφορίες. Μπορούμε απλά να το κάνουμε αυτό χρησιμοποιώντας το image_to_string λειτουργία στην Python.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

Παραγωγή:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Εδώ μπορούμε να εξαγάγουμε όλες τις πληροφορίες από τη φόρμα. Ωστόσο, στις περισσότερες περιπτώσεις, η χρήση μόνο OCR δεν θα βοηθήσει, καθώς τα δεδομένα που εξάγονται θα είναι εντελώς αδόμητα. Επομένως, οι χρήστες βασίζονται στην εξαγωγή ζεύγους κλειδιού-τιμής σε φόρμες, οι οποίες μπορούν να προσδιορίσουν μόνο συγκεκριμένες οντότητες όπως αναγνωριστικό, ημερομηνίες, ποσό φόρου κ.λπ. Αυτό είναι δυνατό μόνο με τη βαθιά εκμάθηση. Στην επόμενη ενότητα, ας δούμε πώς μπορούμε να αξιοποιήσουμε διαφορετικές τεχνικές βαθιάς μάθησης για να δημιουργήσουμε αλγόριθμους εξαγωγής πληροφοριών.

Επίλυση εξαγωγής δεδομένων φόρμας με χρήση Deep Learning

Συνέλιξη γραφήματος για εξαγωγή πολυτροπικών πληροφοριών από οπτικά πλούσια έγγραφα

Συνελικτικά δίκτυα γραφήματος (CNNs γραφήματος) είναι μια κατηγορία βαθιών συνελικτικών νευρωνικών δικτύων (CNN) ικανά να μαθαίνουν αποτελεσματικά εξαιρετικά μη γραμμικά χαρακτηριστικά σε δομές δεδομένων γραφημάτων διατηρώντας παράλληλα τη δομή κόμβων και ακμών. Μπορούν να λάβουν δομές δεδομένων γραφημάτων ως είσοδο και να δημιουργήσουν «χάρτες χαρακτηριστικών» για κόμβους και ακμές. Τα χαρακτηριστικά που προκύπτουν μπορούν να χρησιμοποιηθούν για ταξινόμηση γραφημάτων, ομαδοποίηση ή ανίχνευση κοινότητας. Τα GCN παρέχουν μια ισχυρή λύση για την εξαγωγή πληροφοριών από μεγάλα, οπτικά πλούσια έγγραφα, όπως τιμολόγια και αποδείξεις. Για την επεξεργασία τους, κάθε εικόνα πρέπει να μετατραπεί σε ένα γράφημα που αποτελείται από κόμβους και ακμές. Οποιαδήποτε λέξη στην εικόνα αντιπροσωπεύεται από τον δικό της κόμβο. Η οπτικοποίηση των υπόλοιπων δεδομένων κωδικοποιείται στο διάνυσμα χαρακτηριστικών του κόμβου.

Γράφημα εγγράφου. Κάθε κόμβος στο γράφημα είναι πλήρως συνδεδεμένος μεταξύ τους.(SRC)

Αυτό το μοντέλο κωδικοποιεί πρώτα κάθε τμήμα κειμένου στο έγγραφο σε ενσωμάτωση γραφήματος. Με αυτόν τον τρόπο αποτυπώνεται το οπτικό και κειμενικό πλαίσιο που περιβάλλει κάθε στοιχείο κειμένου, μαζί με τη θέση ή τη θέση του μέσα σε ένα μπλοκ κειμένου. Στη συνέχεια συνδυάζει αυτά τα γραφήματα με ενσωματώσεις κειμένου για να δημιουργήσει μια συνολική αναπαράσταση της δομής του εγγράφου και του τι είναι γραμμένο σε αυτό. Το μοντέλο μαθαίνει να εκχωρεί υψηλότερα βάρη σε κείμενα που είναι πιθανό να είναι οντότητες με βάση τις τοποθεσίες τους σε σχέση το ένα με το άλλο και το πλαίσιο στο οποίο εμφανίζονται σε ένα μεγαλύτερο μπλοκ αναγνωστών. Τέλος, εφαρμόζει ένα τυπικό μοντέλο BiLSTM-CRF για την εξαγωγή οντοτήτων. Τα αποτελέσματα δείχνουν ότι αυτός ο αλγόριθμος υπερέχει του βασικού μοντέλου (BiLSTM-CRF) σε μεγάλο περιθώριο.

LayoutLM: Προεκπαίδευση κειμένου και διάταξης για την κατανόηση εικόνας εγγράφου

Η αρχιτεκτονική του μοντέλου LayoutLM είναι σε μεγάλο βαθμό εμπνευσμένη από το BERT και ενσωματώνει ενσωματώσεις εικόνας από ένα Faster R-CNN. Οι ενσωματώσεις εισόδου LayoutLM δημιουργούνται ως συνδυασμός ενσωματώσεων κειμένου και θέσης και στη συνέχεια συνδυάζονται με τις ενσωματώσεις εικόνας που δημιουργούνται από το μοντέλο Faster R-CNN. Τα καλυμμένα μοντέλα οπτικής γλώσσας και η ταξινόμηση εγγράφων πολλαπλών ετικετών χρησιμοποιούνται κυρίως ως εργασίες προεκπαίδευσης για το LayoutLM. Το μοντέλο LayoutLM είναι πολύτιμο, δυναμικό και αρκετά ισχυρό για οποιαδήποτε εργασία που απαιτεί κατανόηση διάταξης, όπως εξαγωγή φόρμας/απόδειξης, ταξινόμηση εικόνας εγγράφου ή ακόμα και οπτική απάντηση ερωτήσεων μπορεί να πραγματοποιηθεί με αυτό το εκπαιδευτικό μοντέλο.

Πηγή εικόνας: Διάταξη ML

Το μοντέλο LayoutLM εκπαιδεύτηκε στη Συλλογή Δοκιμών IIT-CDIP 1.0, η οποία περιλαμβάνει πάνω από 6 εκατομμύρια έγγραφα και περισσότερες από 11 εκατομμύρια σαρωμένες εικόνες εγγράφων, συνολικού όγκου δεδομένων άνω των 12 GB. Αυτό το μοντέλο είχε ξεπεράσει σημαντικά αρκετά προεκπαιδευμένα μοντέλα SOTA όσον αφορά την κατανόηση φόρμας, την κατανόηση αποδείξεων και τις εργασίες ταξινόμησης εικόνων σαρωμένου εγγράφου.

Form2Seq: Ένα πλαίσιο για εξαγωγή δομής φόρμας υψηλότερης παραγγελίας

Το Form2Seq είναι ένα πλαίσιο που εστιάζει στην εξαγωγή δομών από κείμενο εισόδου χρησιμοποιώντας ακολουθίες θέσης. Σε αντίθεση με τα παραδοσιακά πλαίσια seq2seq, το Form2Seq αξιοποιεί τις σχετικές χωρικές θέσεις των δομών, παρά τη σειρά τους.

Σε αυτή τη μέθοδο, πρώτα, ταξινομούμε στοιχεία χαμηλού επιπέδου που θα επιτρέψουν την καλύτερη επεξεργασία και οργάνωση. Υπάρχουν 10 τύποι φορμών, όπως λεζάντες πεδίων, στοιχεία λίστας και ούτω καθεξής. Στη συνέχεια, ομαδοποιούμε στοιχεία χαμηλότερου επιπέδου, όπως τα Πεδία κειμένου και τα Πεδία Επιλογής, σε κατασκευές υψηλότερης τάξης που ονομάζονται Ομάδες Επιλογής. Αυτά χρησιμοποιούνται ως μηχανισμοί συλλογής πληροφοριών για την επίτευξη καλύτερης εμπειρίας χρήστη στοιχείων χαμηλότερου επιπέδου σε δομές υψηλότερης τάξης, όπως Πεδία κειμένου, ChoiceFields και ChoiceGroups, που χρησιμοποιούνται ως μηχανισμοί συλλογής πληροφοριών σε φόρμες. Αυτό είναι δυνατό με τη διευθέτηση των συστατικών στοιχείων σε γραμμική σειρά σε φυσική σειρά ανάγνωσης και την τροφοδότηση των χωρικών και κειμενικών αναπαραστάσεων τους στο πλαίσιο Seq2Seq. Το πλαίσιο Seq2Seq κάνει διαδοχικά προβλέψεις για κάθε στοιχείο μιας πρότασης ανάλογα με το πλαίσιο. Αυτό του επιτρέπει να επεξεργάζεται περισσότερες πληροφορίες και να καταλήξει σε καλύτερη κατανόηση της εργασίας στο χέρι.

Form2seq Model Architecture για ταξινόμηση τύπων στοιχείων. Τα διαφορετικά στάδια σχολιάζονται με γράμματα (SRC).

Το μοντέλο πέτυχε ακρίβεια 90% στην εργασία ταξινόμησης, η οποία ήταν υψηλότερη από αυτή των βασικών μοντέλων βάσει τμηματοποίησης. Το F1 στα μπλοκ κειμένου, τα πεδία κειμένου και τα πεδία επιλογής ήταν 86.01%, 61.63% αντίστοιχα. Αυτό το πλαίσιο πέτυχε την κατάσταση των αποτελεσμάτων στο σύνολο δεδομένων ICDAR για την αναγνώριση δομών πίνακα.

Γιατί το OCR που βασίζεται σε τεχνητή νοημοσύνη Nanonets είναι η καλύτερη επιλογή

Αν και το λογισμικό OCR μπορεί να μετατρέψει σαρωμένες εικόνες κειμένου σε μορφοποιημένα ψηφιακά αρχεία όπως PDF, DOC και PPT, δεν είναι πάντα ακριβές. Το σημερινό λογισμικό αιχμής, όπως το σύστημα βαθιάς εκμάθησης OCR που βασίζεται σε τεχνητή νοημοσύνη Nanonets, έχει ξεπεράσει πολλές προκλήσεις που αντιμετωπίζουν τα παραδοσιακά συστήματα OCR κατά τη δημιουργία ενός επεξεργάσιμου αρχείου από ένα σαρωμένο έγγραφο. Έχει γίνει η καλύτερη επιλογή για την εξαγωγή δεδομένων, επειδή μπορεί να παρέχει υψηλά ποσοστά ακρίβειας και υψηλά επίπεδα ανοχής για θόρυβο, γραφικά στοιχεία και αλλαγές μορφοποίησης. Τώρα, ας συζητήσουμε μερικά σημεία σχετικά με το πώς το OCR που βασίζεται σε AI είναι η καλύτερη επιλογή.

Nanonets – Εξαγωγή δεδομένων φόρμας

Το OCR, όπως συζητήθηκε, είναι μια απλή τεχνική για την εξαγωγή δεδομένων. Ωστόσο, δεν θα λειτουργούν με συνέπεια όταν τοποθετούνται σε αόρατα/νέα δεδομένα. Ωστόσο, το OCR που βασίζεται σε AI θα μπορούσε να χειριστεί καταστάσεις όπως αυτές, καθώς εκπαιδεύονται σε ένα ευρύ φάσμα δεδομένων.
Τα κανονικά OCR δεν μπορούν να χειριστούν σύνθετες διατάξεις για εξαγωγές δεδομένων φόρμας. Επομένως, όταν τροφοδοτούνται με βαθιά εκμάθηση ή AI, δίνουν τα καλύτερα αποτελέσματα κατανοώντας τις διατάξεις, το κείμενο και το περιβάλλον των δεδομένων.
Τα OCR ενδέχεται να έχουν χαμηλή απόδοση όταν υπάρχει θόρυβος στα δεδομένα, όπως λοξότητα, σαρωμένες εικόνες χαμηλού φωτισμού κ.λπ., ενώ τα μοντέλα βαθιάς εκμάθησης μπορούν να χειριστούν τέτοιες συνθήκες και εξακολουθούν να δίνουν αποτελέσματα υψηλής ακρίβειας.
Τα OCR που βασίζονται σε AI είναι εξαιρετικά προσαρμόσιμα και ευέλικτα σε σύγκριση με τα παραδοσιακά OCR. μπορούν να βασιστούν σε διάφορα είδη δεδομένων για να μετατρέψουν μη δομημένα δεδομένα σε οποιαδήποτε δομημένη μορφή.
Οι έξοδοι μετά την επεξεργασία από το OCR που βασίζεται σε AI είναι προσβάσιμες σε σύγκριση με το απλό OCR. μπορούν να εξαχθούν σε οποιεσδήποτε μορφές δεδομένων όπως JSON, CSV, Φύλλα Excel ή ακόμα και σε μια βάση δεδομένων όπως το Postgres απευθείας από το μοντέλο.
Το OCR που βασίζεται σε AI μπορεί να εξαχθεί ως απλό API χρησιμοποιώντας προεκπαιδευμένα μοντέλα. Αυτό είναι ακόμα δυνατό σε άλλες παραδοσιακές μεθόδους, αλλά μπορεί να είναι δύσκολο να βελτιωθούν τα μοντέλα με συνέπεια σε έγκαιρη βάση. Ενώ βρίσκεται σε OCR που βασίζεται σε AI, μπορεί να συντονιστεί αυτόματα λόγω σφαλμάτων.
Η εξαγωγή τραπεζιού είναι εξαιρετικά αδύνατη με τη χρήση ευθείας OCR. Ωστόσο, μπορεί να γίνει εύκολα με τη δύναμη του AI/DL. Σήμερα, τα OCR που βασίζονται σε τεχνητή νοημοσύνη μπορούν θετικά να υποδεικνύουν φόρμες που βασίζονται σε πίνακες μέσα σε έγγραφα και να εξάγουν πληροφορίες.
Εάν υπάρχουν οικονομικά ή εμπιστευτικά δεδομένα σε έγγραφα, τα μοντέλα τεχνητής νοημοσύνης μπορούν επίσης να πραγματοποιήσουν ελέγχους απάτης. Βασικά αναζητά επεξεργασμένο/θολό κείμενο από τα σαρωμένα έγγραφα και ειδοποιεί τους διαχειριστές. Μέσω αυτών των μοντέλων μπορούν επίσης να αναγνωριστούν διπλότυπα έγγραφα ή πληροφορίες. Ενώ το OCR απλώς αποτυγχάνει σε τέτοιες περιπτώσεις.

Σφραγίδα ώρας: Μαρτίου 6, 2022

Σφραγίδα ώρας: 15 Νοεμβρίου 2023

Εξαγωγή δεδομένων φόρμας

Αναδημοσίευση από τον Πλάτωνα

Τι είναι η εξαγωγή δεδομένων φόρμας;

Τι κάνει την εξαγωγή δεδομένων φόρμας δύσκολη;

Κατανόηση του βάθους της εξαγωγής φόρμας με διάφορα σενάρια

Σενάριο #1: Χειρόγραφη αναγνώριση για φόρμες εκτός σύνδεσης

Σενάριο #2: Αναγνώριση πλαισίου ελέγχου στις φόρμες

Σενάριο #3: Διάταξη Αλλαγές της φόρμας από καιρό σε καιρό

Σενάριο #4: Ανίχνευση επιτραπέζιων κυττάρων

Πώς έχουν εξελιχθεί οι λύσεις εξαγωγής δεδομένων φόρμας;

Εξαγωγή δεδομένων φόρμας με χρήση OCR

Επίλυση εξαγωγής δεδομένων φόρμας με χρήση Deep Learning

Γιατί το OCR που βασίζεται σε τεχνητή νοημοσύνη Nanonets είναι η καλύτερη επιλογή

Περισσότερα από AI και μηχανική μάθηση

Ένας οδηγός για Αναφορές και Αναφορές Πληρωτέων Λογαριασμών (AP) το 2024

Τι είναι η απόδειξη εξόδων;

12 συναρπαστικά στατιστικά RPA που δεν πρέπει να χάσετε το 2022

Εξαγωγέας τηλεφωνικών αριθμών: Όλα όσα πρέπει να γνωρίζετε

Argus Modeling: Driving Data-based Real Estate Decisions

Η Διαδικασία Διαχείρισης Προμηθευτών: Σημασία, Οφέλη και Προκλήσεις

Ποιες είναι οι οφειλόμενες ημέρες; Και πώς να υπολογίσετε το DPO;

Πλήρης Οδηγός Ψηφιακού Μετασχηματισμού στους Πληρωτέους Λογαριασμούς

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός