LayoutLM Επεξήγηση

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Τι είναι η επεξεργασία εγγράφων;

LayoutLM Επεξήγηση

Η επεξεργασία εγγράφων είναι η διαδικασία αυτοματοποίησης της εξαγωγής δομημένων δεδομένων από έγγραφα. Αυτό θα μπορούσε να είναι για οποιοδήποτε έγγραφο, ας πούμε ένα τιμολόγιο, ένα βιογραφικό, δελτία ταυτότητας κ.λπ. Το δύσκολο κομμάτι εδώ δεν είναι μόνο το OCR. Υπάρχουν πολλές διαθέσιμες επιλογές εκεί έξω με χαμηλό κόστος που μπορούν να εξαγάγουν κείμενο και να σας δώσουν την τοποθεσία. Η πραγματική πρόκληση είναι να επισημάνετε αυτά τα κομμάτια κειμένου με ακρίβεια και αυτόματα.

Επιχειρηματικός αντίκτυπος της Επεξεργασίας Εγγράφων

Αρκετοί κλάδοι βασίζονται σε μεγάλο βαθμό στην επεξεργασία εγγράφων για τις καθημερινές τους δραστηριότητες. Οι χρηματοπιστωτικοί οργανισμοί χρειάζονται πρόσβαση σε αρχεία SEC, ασφαλιστικές δηλώσεις, μια εταιρεία ηλεκτρονικού εμπορίου ή εφοδιαστικής αλυσίδας μπορεί να χρειαστεί πρόσβαση στα τιμολόγια που χρησιμοποιούνται, η λίστα συνεχίζεται. Η ακρίβεια αυτών των πληροφοριών είναι εξίσου σημαντική με τον χρόνο που εξοικονομείται, γι' αυτό συνιστούμε πάντα να χρησιμοποιείτε προηγμένες μεθόδους βαθιάς εκμάθησης που γενικεύουν περισσότερο και είναι πιο ακριβείς.

Σύμφωνα με αυτή την έκθεση της PwC, [σύνδεσμος] ακόμη και η πιο στοιχειώδης ποσότητα εξαγωγής δομημένων δεδομένων μπορεί να βοηθήσει στην εξοικονόμηση 30-50% του χρόνου των εργαζομένων που αφιερώνουν στη μη αυτόματη αντιγραφή και επικόλληση δεδομένων από αρχεία PDF σε υπολογιστικά φύλλα excel. Μοντέλα όπως το LayoutLM σίγουρα δεν είναι στοιχειώδη, έχουν κατασκευαστεί ως εξαιρετικά έξυπνοι πράκτορες ικανοί να εξάγουν ακριβή δεδομένα σε κλίμακα, σε διαφορετικές περιπτώσεις χρήσης. Ακόμη και με πολλούς από τους πελάτες μας, μειώσαμε τον χρόνο που απαιτείται για τη μη αυτόματη εξαγωγή δεδομένων από 20 λεπτά ανά έγγραφο σε λιγότερο από 10 δευτερόλεπτα. Αυτή είναι μια τεράστια μετατόπιση, που δίνει τη δυνατότητα στους εργαζόμενους να είναι πιο παραγωγικοί και για υψηλότερη συνολική απόδοση.

Πού μπορεί λοιπόν να εφαρμοστεί τεχνητή νοημοσύνη παρόμοια με το LayoutLM; Στη Nanonets, χρησιμοποιήσαμε τέτοια τεχνολογία για

και πολλές άλλες περιπτώσεις χρήσης.

Γιατί LayoutLM;

Πώς κατανοεί ένα μοντέλο βαθιάς μάθησης εάν ένα δεδομένο κομμάτι κειμένου είναι μια περιγραφή στοιχείου σε ένα τιμολόγιο ή ο αριθμός τιμολογίου; Με απλά λόγια, πώς μαθαίνει ένα μοντέλο πώς να εκχωρεί σωστά ετικέτες;

Μια μέθοδος είναι να χρησιμοποιήσετε ενσωματώσεις κειμένου από ένα τεράστιο μοντέλο γλώσσας όπως το BERT ή το GPT-3 και να το εκτελέσετε μέσω ενός ταξινομητή – αν και αυτό δεν είναι πολύ αποτελεσματικό. Υπάρχουν πολλές πληροφορίες που δεν μπορεί κανείς να μετρήσει χρησιμοποιώντας καθαρά κείμενο. Ή, θα μπορούσε κανείς να χρησιμοποιήσει πληροφορίες που βασίζονται στην εικόνα. Αυτό επιτεύχθηκε χρησιμοποιώντας μοντέλα R-CNN και Faster R-CNN. Ωστόσο, αυτό εξακολουθεί να μην χρησιμοποιεί πλήρως τις πληροφορίες που είναι διαθέσιμες στα έγγραφα. Μια άλλη προσέγγιση που χρησιμοποιήθηκε ήταν με το Graph Convolutional Neural Networks, το οποίο συνδύαζε πληροφορίες τοποθεσίας και κειμένου, αλλά δεν λάμβανε υπόψη πληροφορίες εικόνας.

Πώς λοιπόν χρησιμοποιούμε και τις τρεις διαστάσεις της πληροφορίας, δηλαδή το κείμενο, την εικόνα και τη θέση του δεδομένου κειμένου επίσης; Εκεί μπαίνουν μοντέλα όπως το LayoutLM. Παρά το γεγονός ότι ήταν ενεργός τομέας έρευνας για πολλά χρόνια πριν, το LayoutLM ήταν ένα από τα πρώτα μοντέλα που πέτυχε επιτυχία συνδυάζοντας τα κομμάτια για να δημιουργήσει ένα μοναδικό μοντέλο που εκτελεί ετικέτες χρησιμοποιώντας πληροφορίες θέσης, πληροφορίες βάσει κειμένου. καθώς και πληροφορίες εικόνας.

LayoutLM Tutorial

LayoutLM Επεξήγηση — LayoutLM Architecture

Αυτό το άρθρο προϋποθέτει ότι καταλαβαίνετε τι είναι το γλωσσικό μοντέλο. Αν όχι, μην ανησυχείς, γράψαμε και ένα άρθρο για αυτό! Εάν θέλετε να μάθετε περισσότερα για το τι είναι τα μοντέλα μετασχηματιστών και τι είναι η προσοχή, εδώ είναι ένα καταπληκτικό άρθρο του Jay Alammar.

Αν υποθέσουμε ότι έχουμε ξεμπερδέψει με αυτά τα πράγματα, ας ξεκινήσουμε με το σεμινάριο. Θα χρησιμοποιήσουμε το αρχικό χαρτί LayoutLM ως κύρια αναφορά.

Εξαγωγή κειμένου OCR

Το πρώτο πράγμα που κάνουμε με ένα έγγραφο είναι να εξάγουμε τις πληροφορίες που βασίζονται σε κείμενο από το έγγραφο και να βρούμε τις αντίστοιχες τοποθεσίες τους. Με βάση την τοποθεσία, αναφερόμαστε σε κάτι που ονομάζεται «πλαίσιο οριοθέτησης». Ένα πλαίσιο οριοθέτησης είναι ένα ορθογώνιο που ενσωματώνει το κομμάτι του κειμένου στη σελίδα.

Στις περισσότερες περιπτώσεις, θεωρείται ότι το πλαίσιο οριοθέτησης έχει αρχή στην επάνω αριστερή γωνία και ότι ο θετικός άξονας x κατευθύνεται από την αρχή προς τα δεξιά της σελίδας και ο θετικός άξονας y κατευθύνεται από την αρχή προς στο κάτω μέρος της σελίδας, με ένα pixel να θεωρείται η μονάδα μέτρησης.

Ενσωματώσεις γλώσσας και τοποθεσίας

Στη συνέχεια, χρησιμοποιούμε πέντε διαφορετικά στρώματα ενσωμάτωσης. Το ένα, είναι η κωδικοποίηση των πληροφοριών που σχετίζονται με τη γλώσσα - π.χ. ενσωματώσεις κειμένου.

Τα άλλα τέσσερα προορίζονται για ενσωματώσεις τοποθεσίας. Υποθέτοντας ότι γνωρίζουμε τις τιμές των xmin, ymin, xmax και ymax, μπορούμε να προσδιορίσουμε ολόκληρο το πλαίσιο οριοθέτησης (αν δεν μπορείτε να το οραματιστείτε, εδώ είναι ένας σύνδεσμος για εσάς). Αυτές οι συντεταγμένες περνούν από τα αντίστοιχα επίπεδα ενσωμάτωσης για να κωδικοποιήσουν πληροφορίες για τη θέση.

Στη συνέχεια, οι πέντε ενσωματώσεις – μία για κείμενο και τέσσερις για τις συντεταγμένες – προστίθενται για να δημιουργηθεί η τελική τιμή της ενσωμάτωσης που περνά από το LayoutLM. Η έξοδος αναφέρεται ως ενσωμάτωση LayoutLM.

Ενσωματώσεις εικόνας

Εντάξει, καταφέραμε λοιπόν να βρούμε τις πληροφορίες που σχετίζονται με το κείμενο και την τοποθεσία συνδυάζοντας τις ενσωματώσεις τους και περνώντας τις μέσω ενός γλωσσικού μοντέλου. Τώρα πώς προχωράμε στη διαδικασία συνδυασμού πληροφοριών που σχετίζονται με την εικόνα σε αυτό;

Ενώ το κείμενο και οι πληροφορίες διάταξης κωδικοποιούνται, παράλληλα, χρησιμοποιούμε το Faster R-CNN για να εξαγάγουμε τις περιοχές του κειμένου που σχετίζονται με το έγγραφο. Το Faster R-CNN είναι ένα μοντέλο εικόνας που χρησιμοποιείται για την ανίχνευση αντικειμένων. Στην περίπτωσή μας, το χρησιμοποιούμε για να ανιχνεύσουμε διαφορετικά κομμάτια κειμένου (υποθέτοντας ότι κάθε φράση είναι ένα αντικείμενο) και μετά περνάμε τις τμηματοποιημένες εικόνες μέσα από ένα πλήρως συνδεδεμένο επίπεδο για να βοηθήσουμε στη δημιουργία ενσωματώσεων και για τις εικόνες.

Οι ενσωματώσεις LayoutLM καθώς και οι ενσωματώσεις εικόνας συνδυάζονται για να δημιουργήσουν μια τελική ενσωμάτωση, η οποία μπορεί στη συνέχεια να χρησιμοποιηθεί για την εκτέλεση μεταγενέστερης επεξεργασίας.

Προπονητικό LayoutLM

Όλα τα παραπάνω έχουν νόημα μόνο αν κατανοήσουμε τη μέθοδο με την οποία εκπαιδεύτηκε το LayoutLM. Σε τελική ανάλυση, ανεξάρτητα από το είδος των συνδέσεων που δημιουργούμε σε ένα νευρωνικό δίκτυο, μέχρι και αν δεν εκπαιδευτεί με τον σωστό μαθησιακό στόχο, δεν είναι αρκετά έξυπνο. Οι συντάκτες του LayoutLM ήθελαν να ακολουθήσουν μια μέθοδο παρόμοια με αυτή που χρησιμοποιήθηκε για την προεκπαίδευση του BERT.

Μοντέλο μασκοφόρου οπτικής γλώσσας (MVLM)

Προκειμένου να βοηθήσουν το μοντέλο να μάθει τι κείμενο θα μπορούσε να υπήρχε σε μια συγκεκριμένη τοποθεσία, οι συγγραφείς κάλυψαν τυχαία μερικά διακριτικά κειμένου, διατηρώντας ταυτόχρονα πληροφορίες και ενσωματώσεις που σχετίζονται με την τοποθεσία. Αυτό επέτρεψε στο LayoutLM να προχωρήσει πέρα από την απλή μοντελοποίηση μάσκας γλώσσας και βοήθησε επίσης να συσχετιστούν οι ενσωματώσεις κειμένου με τρόπους που σχετίζονται με την τοποθεσία.

Ταξινόμηση εγγράφων πολλαπλών ετικετών (MDC)

Η χρήση όλων των πληροφοριών στο έγγραφο για την ταξινόμησή του σε κατηγορίες βοηθά το μοντέλο να κατανοήσει ποιες πληροφορίες σχετίζονται με μια συγκεκριμένη κατηγορία εγγράφων. Ωστόσο, οι συγγραφείς σημειώνουν ότι για μεγαλύτερα σύνολα δεδομένων, τα δεδομένα για τις κατηγορίες εγγράφων ενδέχεται να μην είναι άμεσα διαθέσιμα. Ως εκ τούτου, έχουν παράσχει βάση αποτελεσμάτων τόσο για εκπαίδευση MVLM μόνο όσο και για εκπαίδευση MVLM + MDC.

Fine Tuning LayoutLM for Downstream Tasks

Υπάρχουν πολλές μεταγενέστερες εργασίες που μπορούν να εκτελεστούν με το LayoutLM. Θα συζητήσουμε αυτά που ανέλαβαν οι συγγραφείς.

Κατανόηση Μορφής

Αυτή η εργασία συνεπάγεται τη σύνδεση ενός τύπου ετικέτας με ένα δεδομένο κομμάτι κειμένου. Χρησιμοποιώντας αυτό, μπορούμε να εξαγάγουμε δομημένα δεδομένα από οποιοδήποτε είδος εγγράφου. Λαμβάνοντας υπόψη την τελική έξοδο, π.χ. ενσωματώσεις LayouLM + Ενσωματώσεις εικόνας, περνούν από ένα πλήρως συνδεδεμένο επίπεδο και στη συνέχεια περνούν από ένα softmax για να προβλέψουν τις πιθανότητες κλάσης για την ετικέτα ενός δεδομένου τμήματος κειμένου.

Κατανόηση παραλαβής

Σε αυτήν την εργασία, αρκετές υποδοχές πληροφοριών έμειναν κενές στις αποδείξεις και το μοντέλο έπρεπε να τοποθετήσει σωστά κομμάτια κειμένου στις αντίστοιχες υποδοχές.

Ταξινόμηση εικόνων εγγράφου

Οι πληροφορίες από το κείμενο και την εικόνα του εγγράφου συνδυάζονται για να βοηθήσουν στην κατανόηση της κλάσης του εγγράφου απλώς περνώντας το μέσα από ένα επίπεδο softmax.

Huggingface LayoutLM

Ένας από τους κύριους λόγους για τους οποίους το LayoutLM συζητιέται τόσο πολύ είναι επειδή το μοντέλο ήταν ανοιχτού κώδικα πριν από λίγο καιρό. είναι διαθέσιμο στο Hugging Face, επομένως η χρήση του LayoutLM είναι πολύ πιο εύκολη τώρα.

Πριν εξετάσουμε τις ιδιαιτερότητες του τρόπου με τον οποίο μπορείτε να προσαρμόσετε το LayoutLM για τις δικές σας ανάγκες, υπάρχουν μερικά πράγματα που πρέπει να λάβετε υπόψη.

Εγκατάσταση βιβλιοθηκών

Για να εκτελέσετε το LayoutLM, θα χρειαστείτε τη βιβλιοθήκη μετασχηματιστών από το Hugging Face, η οποία με τη σειρά της εξαρτάται από τη βιβλιοθήκη PyTorch. Για να τα εγκαταστήσετε (αν δεν είναι ήδη εγκατεστημένα), εκτελέστε τις παρακάτω εντολές

Στα πλαίσια οριοθέτησης

Για να δημιουργήσετε ένα ομοιόμορφο σχήμα ενσωμάτωσης ανεξάρτητα από το μέγεθος της εικόνας, οι συντεταγμένες του πλαισίου οριοθέτησης κανονικοποιούνται σε κλίμακα 1000

διαμόρφωση

Χρησιμοποιώντας την κλάση transformers.LayoutLMConfig, μπορείτε να ορίσετε το μέγεθος του μοντέλου ώστε να ταιριάζει καλύτερα στις απαιτήσεις σας, καθώς αυτά τα μοντέλα είναι συνήθως βαριά και χρειάζονται αρκετή υπολογιστική ισχύ. Η ρύθμιση του σε ένα μικρότερο μοντέλο μπορεί να σας βοηθήσει να το εκτελέσετε τοπικά. Μπορείς μάθετε περισσότερα για την τάξη εδώ.

LayoutLM για ταξινόμηση εγγράφων (Σύνδεσμος)

Εάν θέλετε να εκτελέσετε ταξινόμηση εγγράφων, θα χρειαστείτε τους μετασχηματιστές κλάσεων.LayoutLMForSequenceClassification. Η ακολουθία εδώ είναι η ακολουθία κειμένου από το έγγραφο που έχετε εξαγάγει. Ακολουθεί ένα μικρό δείγμα κώδικα από το Hugging Face.co που θα εξηγήσει πώς να το χρησιμοποιήσετε

LayoutLM για επισήμανση κειμένου (Σύνδεσμος)

Για να εκτελέσετε σημασιολογική επισήμανση, δηλαδή να αντιστοιχίσετε ετικέτες σε διαφορετικά μέρη του κειμένου στο έγγραφο, θα χρειαστείτε τους μετασχηματιστές κλάσεων.LayoutLMForTokenClassification. Μπορείτε να βρείτε περισσότερες λεπτομέρειες για το το ίδιο και εδώ.Ακολουθεί ένα μικρό δείγμα κώδικα για να δείτε πώς μπορεί να λειτουργήσει για εσάς

Μερικά σημεία που πρέπει να σημειώσετε σχετικά με το Hugging Face LayoutLM

Επί του παρόντος, το μοντέλο Hugging Face LayoutLM χρησιμοποιεί τη βιβλιοθήκη ανοιχτού κώδικα Tesseract για εξαγωγή κειμένου, η οποία δεν είναι πολύ ακριβής. Ίσως θελήσετε να εξετάσετε το ενδεχόμενο να χρησιμοποιήσετε ένα διαφορετικό, επί πληρωμή εργαλείο OCR, όπως το AWS Textract ή το Google Cloud Vision
Το υπάρχον μοντέλο παρέχει μόνο το μοντέλο γλώσσας, δηλαδή τις ενσωματώσεις LayoutLM, και όχι τα τελικά επίπεδα που συνδυάζουν οπτικά χαρακτηριστικά. LayoutLMv2 (συζητείται στην επόμενη ενότητα) χρησιμοποιεί τη βιβλιοθήκη Detectron για να ενεργοποιήσει και τις ενσωματώσεις οπτικών χαρακτηριστικών.
Η ταξινόμηση των ετικετών πραγματοποιείται σε επίπεδο λέξης, επομένως εναπόκειται πραγματικά στη μηχανή εξαγωγής κειμένου OCR να διασφαλίσει ότι όλες οι λέξεις σε ένα πεδίο βρίσκονται σε μια συνεχή σειρά ή ένα πεδίο μπορεί να προβλεφθεί ως δύο.

LayoutLMv2

Το LayoutLM ήρθε ως επανάσταση στον τρόπο εξαγωγής δεδομένων από έγγραφα. Ωστόσο, όσον αφορά την έρευνα βαθιάς μάθησης, τα μοντέλα βελτιώνονται όλο και περισσότερο με την πάροδο του χρόνου. Το LayoutLM διαδέχθηκε με παρόμοιο τρόπο το LayoutLMv2, όπου οι συγγραφείς έκαναν μερικές σημαντικές αλλαγές στον τρόπο εκπαίδευσης του μοντέλου.

Συμπεριλαμβανομένων 1-D Spatial Embeddings και Visual Token Embeddings

Το LayoutLMv2 περιλάμβανε πληροφορίες σχετικά με την 1-D σχετική τοποθεσία, καθώς και γενικές πληροφορίες σχετικά με την εικόνα. Ο λόγος που αυτό είναι σημαντικό οφείλεται στους νέους στόχους εκπαίδευσης, τους οποίους θα συζητήσουμε τώρα

Νέοι Στόχοι Εκπαίδευσης

Το LayoutLMv2 περιλάμβανε ορισμένους τροποποιημένους στόχους εκπαίδευσης. Αυτά είναι τα εξής:

Masked Visual Language Modelling: Αυτό είναι το ίδιο όπως στο LayoutLM
Στοίχιση εικόνας κειμένου: Το κείμενο καλύφθηκε τυχαία από την εικόνα, ενώ τα διακριτικά κειμένου δόθηκαν στο μοντέλο. Για κάθε διακριτικό, το μοντέλο έπρεπε να μάθει εάν το κείμενο που δόθηκε ήταν καλυμμένο ή όχι. Μέσω αυτού, το μοντέλο ήταν σε θέση να συνδυάσει πληροφορίες τόσο από οπτικές όσο και από κειμενικές μεθόδους
Αντιστοίχιση εικόνας κειμένου: Ζητείται από το μοντέλο να ελέγξει εάν η δεδομένη εικόνα αντιστοιχεί στο δεδομένο κείμενο. Τα αρνητικά δείγματα είτε τροφοδοτούνται ως ψευδείς εικόνες είτε δεν παρέχονται καθόλου ενσωματώσεις εικόνας. Αυτό γίνεται για να διασφαλιστεί ότι το μοντέλο μαθαίνει περισσότερα για το πώς σχετίζονται το κείμενο και οι εικόνες.

Χρησιμοποιώντας αυτές τις νέες μεθόδους και ενσωματώσεις, το μοντέλο κατάφερε να επιτύχει υψηλότερες βαθμολογίες F1 σε όλα σχεδόν τα σύνολα δεδομένων δοκιμής ως LayoutLM.

Σφραγίδα ώρας: Μαρτίου 7, 2022

Σφραγίδα ώρας: 7 Φεβρουαρίου 2023

Αναδημοσίευση από τον Πλάτωνα

Τι είναι η εξωτερική ανάθεση πληρωτέων λογαριασμών;

Αναίρεση συμφωνίας στο QuickBooks Online: Εύκολος οδηγός

Surviving the Silicon Valley Bank Apocalypse: Multi-Bank Management for Startups

Οδηγός αυτοματισμού ροής εργασιών και 5 καλύτερο λογισμικό ροής εργασίας για το 2022

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός