Επεξεργασία εγγράφων υποθήκης με έξυπνη επεξεργασία εγγράφων χρησιμοποιώντας το Amazon Textract και το Amazon Comprehend

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Οργανισμοί στον κλάδο των δανείων και των στεγαστικών δανείων επεξεργάζονται χιλιάδες έγγραφα σε καθημερινή βάση. Από μια νέα αίτηση υποθήκης έως την αναχρηματοδότηση στεγαστικού δανείου, αυτές οι επιχειρηματικές διαδικασίες περιλαμβάνουν εκατοντάδες έγγραφα ανά αίτηση. Υπάρχει περιορισμένος διαθέσιμος αυτοματισμός σήμερα για την επεξεργασία και εξαγωγή πληροφοριών από όλα τα έγγραφα, ειδικά λόγω διαφορετικών μορφών και διατάξεων. Λόγω του μεγάλου όγκου εφαρμογών, η λήψη στρατηγικών πληροφοριών και η λήψη βασικών πληροφοριών από το περιεχόμενο είναι μια χρονοβόρα, εξαιρετικά μη αυτόματη, επιρρεπής σε σφάλματα και δαπανηρή διαδικασία. Τα εργαλεία οπτικής αναγνώρισης χαρακτήρων παλαιού τύπου (OCR) είναι απαγορευτικά από πλευράς κόστους, επιρρεπή σε σφάλματα, απαιτούν πολλές ρυθμίσεις παραμέτρων και είναι δύσκολο να κλιμακωθούν. Η έξυπνη επεξεργασία εγγράφων (IDP) με υπηρεσίες τεχνητής νοημοσύνης (AI) AWS συμβάλλει στην αυτοματοποίηση και στην επιτάχυνση της επεξεργασίας των αιτήσεων για στεγαστικά δάνεια με στόχο ταχύτερες και ποιοτικές αποφάσεις, ενώ μειώνει το συνολικό κόστος.

Σε αυτήν την ανάρτηση, δείχνουμε πώς μπορείτε να χρησιμοποιήσετε τις δυνατότητες μηχανικής εκμάθησης (ML). Textract Amazon, να Κατανοήστε το Amazon για την επεξεργασία εγγράφων σε μια νέα αίτηση υποθήκης, χωρίς την ανάγκη δεξιοτήτων ML. Εξερευνούμε τις διάφορες φάσεις του IDP όπως φαίνεται στο παρακάτω σχήμα και πώς συνδέονται με τα βήματα που εμπλέκονται σε μια διαδικασία αίτησης στεγαστικού δανείου, όπως η υποβολή αίτησης, η αναδοχή, η επαλήθευση και το κλείσιμο.

Αν και κάθε αίτηση στεγαστικού δανείου μπορεί να είναι μοναδική, λάβαμε υπόψη μερικά από τα πιο κοινά έγγραφα που περιλαμβάνονται σε μια αίτηση στεγαστικού δανείου, όπως το έντυπο Ενιαίας Αίτησης Στεγαστικού Δανείου (URLA-1003), τα έντυπα 1099 και το σημείωμα υποθήκης.

Επισκόπηση λύσεων

Το Amazon Textract είναι μια υπηρεσία ML που εξάγει αυτόματα κείμενο, χειρόγραφο και δεδομένα από σαρωμένα έγγραφα χρησιμοποιώντας προεκπαιδευμένα μοντέλα ML. Το Amazon Comprehend είναι μια υπηρεσία επεξεργασίας φυσικής γλώσσας (NLP) που χρησιμοποιεί ML για να αποκαλύψει πολύτιμες πληροφορίες και συνδέσεις σε κείμενο και μπορεί να εκτελέσει ταξινόμηση εγγράφων, αναγνώριση οντοτήτων ονόματος (NER), μοντελοποίηση θεμάτων και πολλά άλλα.

Το παρακάτω σχήμα δείχνει τις φάσεις του IDP καθώς σχετίζεται με τις φάσεις μιας διαδικασίας αίτησης στεγαστικού δανείου.

Η εικόνα δείχνει μια αρχιτεκτονική λύσης υψηλού επιπέδου για τις φάσεις της έξυπνης επεξεργασίας εγγράφων (IDP) καθώς σχετίζεται με τα στάδια μιας αίτησης υποθήκης.

Στην αρχή της διαδικασίας, τα έγγραφα αποστέλλονται σε ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος. Αυτό ξεκινά μια διαδικασία ταξινόμησης εγγράφων για την κατηγοριοποίηση των εγγράφων σε γνωστές κατηγορίες. Αφού κατηγοριοποιηθούν τα έγγραφα, το επόμενο βήμα είναι η εξαγωγή βασικών πληροφοριών από αυτά. Στη συνέχεια, εκτελούμε εμπλουτισμό για επιλεγμένα έγγραφα, που μπορεί να είναι πράγματα όπως η επεξεργασία στοιχείων προσωπικής ταυτοποίησης (PII), η προσθήκη ετικετών σε έγγραφα, οι ενημερώσεις μεταδεδομένων και άλλα. Το επόμενο βήμα περιλαμβάνει την επικύρωση των δεδομένων που εξήχθησαν σε προηγούμενες φάσεις για να διασφαλιστεί η πληρότητα μιας αίτησης στεγαστικού δανείου. Η επικύρωση μπορεί να γίνει μέσω κανόνων επικύρωσης επιχείρησης και κανόνων επικύρωσης διασταυρούμενων εγγράφων. Οι βαθμολογίες εμπιστοσύνης των εξαγόμενων πληροφοριών μπορούν επίσης να συγκριθούν με ένα καθορισμένο όριο και να δρομολογηθούν αυτόματα σε έναν ανθρώπινο αναθεωρητή μέσω Amazon Augmented AI (Amazon A2I) εάν δεν τηρηθεί το όριο. Στην τελική φάση της διαδικασίας, τα εξαγόμενα και επικυρωμένα δεδομένα αποστέλλονται σε συστήματα κατάντη για περαιτέρω αποθήκευση, επεξεργασία ή ανάλυση δεδομένων.

Στις επόμενες ενότητες, συζητάμε αναλυτικά τις φάσεις του IDP καθώς σχετίζεται με τις φάσεις μιας αίτησης στεγαστικού δανείου. Περπατάμε στις φάσεις του IDP και συζητάμε τους τύπους των εγγράφων. πώς αποθηκεύουμε, ταξινομούμε και εξάγουμε πληροφορίες και πώς εμπλουτίζουμε τα έγγραφα χρησιμοποιώντας μηχανική εκμάθηση.

Αποθήκευση εγγράφων

Το Amazon S3 είναι μια υπηρεσία αποθήκευσης αντικειμένων που προσφέρει κορυφαία επεκτασιμότητα, διαθεσιμότητα δεδομένων, ασφάλεια και απόδοση. Χρησιμοποιούμε το Amazon S3 για την ασφαλή αποθήκευση των εγγράφων υποθήκης κατά τη διάρκεια και μετά τη διαδικασία αίτησης υποθήκης. ΕΝΑ πακέτο αίτησης υποθήκης μπορεί να περιέχει διάφορους τύπους εντύπων και εγγράφων, όπως URLA-1003, 1099-INT/DIV/RR/MISC, W2, αποδείξεις πληρωμής, αντίγραφα κίνησης τραπεζών, αντίγραφα κίνησης πιστωτικών καρτών και άλλα. Τα έγγραφα αυτά υποβάλλονται από τον αιτούντα στο στάδιο της αίτησης υποθήκης. Χωρίς να τα κοιτάξετε με μη αυτόματο τρόπο, ενδέχεται να μην είναι αμέσως σαφές ποια έγγραφα περιλαμβάνονται στο πακέτο. Αυτή η χειροκίνητη διαδικασία μπορεί να είναι χρονοβόρα και δαπανηρή. Στην επόμενη φάση, αυτοματοποιούμε αυτή τη διαδικασία χρησιμοποιώντας το Amazon Comprehend για να ταξινομήσουμε τα έγγραφα στις αντίστοιχες κατηγορίες τους με υψηλή ακρίβεια.

Ταξινόμηση εγγράφων

Η ταξινόμηση εγγράφων είναι μια μέθοδος μέσω της οποίας ένας μεγάλος αριθμός μη αναγνωρισμένων εγγράφων μπορεί να κατηγοριοποιηθεί και να επισημανθεί. Εκτελούμε αυτήν την ταξινόμηση εγγράφων χρησιμοποιώντας ένα Amazon Comprehend προσαρμοσμένος ταξινομητής. Ένας προσαρμοσμένος ταξινομητής είναι ένα μοντέλο ML που μπορεί να εκπαιδευτεί με ένα σύνολο εγγράφων με ετικέτα για να αναγνωρίζει τις κλάσεις που σας ενδιαφέρουν. Αφού το μοντέλο εκπαιδευτεί και αναπτυχθεί πίσω από ένα φιλοξενούμενο τελικό σημείο, μπορούμε να χρησιμοποιήσουμε τον ταξινομητή για να προσδιορίσουμε την κατηγορία (ή την κλάση) στην οποία ανήκει ένα συγκεκριμένο έγγραφο. Σε αυτήν την περίπτωση, εκπαιδεύουμε έναν προσαρμοσμένο ταξινομητή λειτουργία πολλαπλών τάξεων, το οποίο μπορεί να γίνει είτε με ένα αρχείο CSV είτε με ένα επαυξημένο αρχείο δήλωσης. Για τους σκοπούς αυτής της επίδειξης, χρησιμοποιούμε ένα αρχείο CSV για να εκπαιδεύσουμε τον ταξινομητή. Ανατρέξτε στο δικό μας Αποθετήριο GitHub για το πλήρες δείγμα κώδικα. Ακολουθεί μια επισκόπηση υψηλού επιπέδου των σχετικών βημάτων:

Εξαγωγή απλού κειμένου κωδικοποιημένου UTF-8 από αρχεία εικόνας ή PDF χρησιμοποιώντας το Amazon Textract DetectDocumentText API.
Προετοιμάστε δεδομένα εκπαίδευσης για να εκπαιδεύσετε έναν προσαρμοσμένο ταξινομητή σε μορφή CSV.
Εκπαιδεύστε έναν προσαρμοσμένο ταξινομητή χρησιμοποιώντας το αρχείο CSV.
Αναπτύξτε το εκπαιδευμένο μοντέλο με τελικό σημείο για ταξινόμηση εγγράφων σε πραγματικό χρόνο ή χρησιμοποιήστε τη λειτουργία πολλαπλών κλάσεων, η οποία υποστηρίζει λειτουργίες σε πραγματικό χρόνο και ασύγχρονες.

Το παρακάτω διάγραμμα απεικονίζει αυτή τη διαδικασία.

Η εικόνα δείχνει τη διαδικασία εκπαίδευσης προσαρμοσμένου ταξινομητή Amazon Comprehend και ταξινόμηση εγγράφων χρησιμοποιώντας το εκπαιδευμένο και αναπτυγμένο μοντέλο ταξινομητή (σε πραγματικό χρόνο ή παρτίδα).

Μπορείτε να αυτοματοποιήσετε την ταξινόμηση εγγράφων χρησιμοποιώντας το αναπτυγμένο τελικό σημείο για τον εντοπισμό και την κατηγοριοποίηση εγγράφων. Αυτός ο αυτοματισμός είναι χρήσιμος για την επαλήθευση εάν όλα τα απαιτούμενα έγγραφα υπάρχουν σε ένα πακέτο υποθήκης. Ένα έγγραφο που λείπει μπορεί να εντοπιστεί γρήγορα, χωρίς χειροκίνητη παρέμβαση, και να κοινοποιηθεί στον αιτούντα πολύ νωρίτερα στη διαδικασία.

Εξαγωγή εγγράφων

Σε αυτή τη φάση, εξάγουμε δεδομένα από το έγγραφο χρησιμοποιώντας το Amazon Textract και το Amazon Comprehend. Για δομημένα και ημιδομημένα έγγραφα που περιέχουν φόρμες και πίνακες, χρησιμοποιούμε το Amazon Textract Ανάλυση εγγράφου API. Για εξειδικευμένα έγγραφα, όπως έγγραφα ταυτότητας, το Amazon Textract παρέχει το AnalyzeID API. Ορισμένα έγγραφα μπορεί επίσης να περιέχουν πυκνό κείμενο και μπορεί να χρειαστεί να εξαγάγετε από αυτούς βασικούς όρους για συγκεκριμένες επιχειρήσεις, γνωστούς επίσης ως οντότητες. Χρησιμοποιούμε το προσαρμοσμένη αναγνώριση οντότητας ικανότητα του Amazon Comprehend να εκπαιδεύει έναν προσαρμοσμένο αναγνωριστικό οντοτήτων, ο οποίος μπορεί να αναγνωρίσει τέτοιες οντότητες από το πυκνό κείμενο.

Στις επόμενες ενότητες, περιηγούμαστε στα δείγματα εγγράφων που υπάρχουν σε ένα πακέτο αίτησης στεγαστικού δανείου και συζητάμε τις μεθόδους που χρησιμοποιούνται για την εξαγωγή πληροφοριών από αυτά. Για καθένα από αυτά τα παραδείγματα, περιλαμβάνεται ένα απόσπασμα κώδικα και ένα σύντομο δείγμα εξόδου.

Εξαγωγή δεδομένων από την ενοποιημένη αίτηση δανείου κατοικίας URLA-1003

Η Αίτηση Ενιαίου Στεγαστικού Δανείου (URLA-1003) είναι μια τυπική φόρμα αίτησης στεγαστικού δανείου. Είναι ένα αρκετά περίπλοκο έγγραφο που περιέχει πληροφορίες σχετικά με τον αιτούντα υποθήκη, τον τύπο του ακινήτου που αγοράζεται, το ποσό που χρηματοδοτείται και άλλες λεπτομέρειες σχετικά με τη φύση της αγοράς ακινήτου. Το παρακάτω είναι ένα δείγμα URLA-1003 και πρόθεσή μας είναι να εξαγάγουμε πληροφορίες από αυτό το δομημένο έγγραφο. Επειδή αυτή είναι μια φόρμα, χρησιμοποιούμε το AnalyzeDocument API με έναν τύπο δυνατότητας ΕΝΤΥΠΟ.

Ο τύπος χαρακτηριστικού FORM εξάγει πληροφορίες φόρμας από το έγγραφο, το οποίο στη συνέχεια επιστρέφεται σε μορφή ζεύγους κλειδιού-τιμής. Το παρακάτω απόσπασμα κώδικα χρησιμοποιεί το amazon-textract-textractor Βιβλιοθήκη Python για εξαγωγή πληροφοριών φόρμας με λίγες μόνο γραμμές κώδικα. Η μέθοδος ευκολίας call_textract() καλεί το AnalyzeDocument API εσωτερικά και οι παράμετροι που μεταβιβάζονται στη μέθοδο αφαιρούν ορισμένες από τις διαμορφώσεις που χρειάζεται το API για να εκτελέσει την εργασία εξαγωγής. Document είναι μια βολική μέθοδος που χρησιμοποιείται για να βοηθήσει στην ανάλυση της απόκρισης JSON από το API. Παρέχει μια αφαίρεση υψηλού επιπέδου και καθιστά την έξοδο API επαναλαμβανόμενη και εύκολη στη λήψη πληροφοριών. Για περισσότερες πληροφορίες, ανατρέξτε στο Αναλυτής απόκρισης κειμένου και Texttractor.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Σημειώστε ότι η έξοδος περιέχει τιμές για πλαίσια ελέγχου ή κουμπιά επιλογής που υπάρχουν στη φόρμα. Για παράδειγμα, στο δείγμα εγγράφου URLA-1003, το Αγορά επιλέχθηκε η επιλογή. Η αντίστοιχη έξοδος για το κουμπί επιλογής εξάγεται ως "Purchase" (κλειδί) και "SELECTED” (τιμή), που υποδεικνύει ότι το κουμπί επιλογής επιλέχθηκε.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

Εξαγωγή δεδομένων από 1099 φόρμες

Ένα πακέτο αίτησης υποθήκης μπορεί επίσης να περιέχει έναν αριθμό εγγράφων IRS, όπως 1099-DIV, 1099-INT, 1099-MISC και 1099-R. Αυτά τα έγγραφα δείχνουν τα κέρδη του αιτούντος μέσω τόκων, μερισμάτων και άλλων διάφορων στοιχείων εισοδήματος που είναι χρήσιμα κατά την αναδοχή για τη λήψη αποφάσεων. Η παρακάτω εικόνα δείχνει μια συλλογή από αυτά τα έγγραφα, τα οποία έχουν παρόμοια δομή. Ωστόσο, σε ορισμένες περιπτώσεις, τα έγγραφα περιέχουν πληροφορίες φόρμας (σημειωμένες χρησιμοποιώντας τα κόκκινα και πράσινα πλαίσια οριοθέτησης) καθώς και πληροφορίες πίνακα (σημειωμένες από τα κίτρινα πλαίσια οριοθέτησης).

Για να εξαγάγουμε πληροφορίες φόρμας, χρησιμοποιούμε παρόμοιο κώδικα όπως εξηγήθηκε προηγουμένως με το AnalyzeDocument API. Περνάμε ένα επιπλέον χαρακτηριστικό του ΠΙΝΑΚΑΣ στο API για να υποδείξουμε ότι χρειαζόμαστε δεδομένα φόρμας και πίνακα εξαγωγής από το έγγραφο. Το παρακάτω απόσπασμα κώδικα χρησιμοποιεί το AnalyzeDocument API με δυνατότητες FORMS και TABLES στο έγγραφο 1099-INT:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Επειδή το έγγραφο περιέχει έναν μόνο πίνακα, η έξοδος του κώδικα είναι η εξής:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

Οι πληροφορίες του πίνακα περιέχουν τη θέση του κελιού (σειρά 0, στήλη 0 και ούτω καθεξής) και το αντίστοιχο κείμενο σε κάθε κελί. Χρησιμοποιούμε μια βολική μέθοδο που μπορεί να μετατρέψει αυτά τα δεδομένα πίνακα σε ευανάγνωστη προβολή πλέγματος:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

Παίρνουμε την ακόλουθη έξοδο:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Για να λάβετε την έξοδο σε μια εύκολη στην κατανάλωση μορφή CSV, ο τύπος μορφής Pretty_Print_Table_Format.csv μπορεί να περάσει στο table_format παράμετρος. Υποστηρίζονται επίσης άλλες μορφές, όπως TSV (τιμές διαχωρισμένες με καρτέλες), HTML και Latex. Για περισσότερες πληροφορίες, ανατρέξτε στο Texttract-PrettyPrinter.

Εξαγωγή δεδομένων από σημείωμα υποθήκης

Ένα πακέτο αίτησης υποθήκης μπορεί να περιέχει μη δομημένα έγγραφα με πυκνό κείμενο. Μερικά παραδείγματα εγγράφων με πυκνό κείμενο είναι συμβάσεις και συμφωνίες. Το σημείωμα υποθήκης είναι μια συμφωνία μεταξύ ενός αιτούντος υποθήκη και του δανειστή ή της εταιρείας υποθηκών και περιέχει πληροφορίες σε παραγράφους με πυκνό κείμενο. Σε τέτοιες περιπτώσεις, η έλλειψη δομής καθιστά δύσκολη την εύρεση βασικών επιχειρηματικών πληροφοριών που είναι σημαντικές στη διαδικασία αίτησης για στεγαστικό δάνειο. Υπάρχουν δύο προσεγγίσεις για την επίλυση αυτού του προβλήματος:

Στο παρακάτω δείγμα σημείωμα υποθήκης, μας ενδιαφέρει συγκεκριμένα να μάθουμε το ποσό μηνιαίας πληρωμής και το ποσό κεφαλαίου.

Για την πρώτη προσέγγιση, χρησιμοποιούμε το Query και QueriesConfig πρακτικές μεθόδους για τη διαμόρφωση ενός συνόλου ερωτήσεων που διαβιβάζονται στο Amazon Textract AnalyzeDocument Κλήση API. Σε περίπτωση που το έγγραφο είναι πολυσέλιδο (PDF ή TIFF), μπορούμε επίσης να καθορίσουμε τους αριθμούς σελίδων όπου το Amazon Textract πρέπει να αναζητήσει απαντήσεις στην ερώτηση. Το ακόλουθο απόσπασμα κώδικα δείχνει πώς να δημιουργήσετε τη διαμόρφωση του ερωτήματος, να πραγματοποιήσετε μια κλήση API και, στη συνέχεια, να αναλύσετε την απάντηση για να λάβετε τις απαντήσεις από την απάντηση:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

Παίρνουμε την ακόλουθη έξοδο:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

Για τη δεύτερη προσέγγιση, χρησιμοποιούμε το Amazon Comprehend DetectEntities API με το σημείωμα υποθήκης, το οποίο επιστρέφει τις οντότητες που εντοπίζει εντός του κειμένου από α προκαθορισμένο σύνολο οντοτήτων. Πρόκειται για οντότητες με τις οποίες είναι προεκπαιδευμένος ο αναγνωριστής οντοτήτων Amazon Comprehend. Ωστόσο, επειδή η απαίτησή μας είναι να ανιχνεύουμε συγκεκριμένες οντότητες, ένας αναγνωριστής προσαρμοσμένων οντοτήτων Amazon Comprehend εκπαιδεύεται με ένα σύνολο δειγμάτων εγγράφων υποθήκης και μια λίστα οντοτήτων. Ορίζουμε τα ονόματα των οντοτήτων ως PRINCIPAL_AMOUNT και MONTHLY_AMOUNT. Τα δεδομένα εκπαίδευσης προετοιμάζονται μετά την εκπαίδευση του Amazon Comprehend οδηγίες προετοιμασίας δεδομένων για αναγνώριση προσαρμοσμένων οντοτήτων. Ο αναγνωριστής οντοτήτων μπορεί να εκπαιδευτεί με σχολιασμοί εγγράφων ή λίστες οντοτήτων. Για τους σκοπούς αυτού του παραδείγματος, χρησιμοποιούμε λίστες οντοτήτων για να εκπαιδεύσουμε το μοντέλο. Αφού εκπαιδεύσουμε το μοντέλο, μπορούμε να το αναπτύξουμε με a τελικό σημείο σε πραγματικό χρόνο ή λειτουργία παρτίδας για να εντοπίσετε τις δύο οντότητες από το περιεχόμενο του εγγράφου. Ακολουθούν τα βήματα που απαιτούνται για την εκπαίδευση ενός προσαρμοσμένου αναγνωριστικού οντοτήτων και την ανάπτυξή του. Για μια πλήρη περιγραφή κώδικα, ανατρέξτε στο αποθετήριο GitHub.

Προετοιμάστε τα δεδομένα εκπαίδευσης (τη λίστα οντοτήτων και τα έγγραφα με (κωδικοποιημένη UTF-8) μορφή απλού κειμένου).
Ξεκινήστε την εκπαίδευση αναγνώρισης οντοτήτων χρησιμοποιώντας το ΔημιουργίαEntityRecognizer API χρησιμοποιώντας τα δεδομένα εκπαίδευσης.
Αναπτύξτε το εκπαιδευμένο μοντέλο με τελικό σημείο σε πραγματικό χρόνο χρησιμοποιώντας το Δημιουργία Endpoint API.

Εξαγωγή δεδομένων από διαβατήριο ΗΠΑ

Το κείμενο του Amazon αναλύσει έγγραφα ταυτότητας Η δυνατότητα μπορεί να εντοπίσει και να εξάγει πληροφορίες από έγγραφα ταυτότητας που εδρεύουν στις ΗΠΑ, όπως άδεια οδήγησης και διαβατήριο. ο AnalyzeID Το API είναι ικανό να ανιχνεύει και να ερμηνεύει υπονοούμενα πεδία σε έγγραφα ταυτότητας, γεγονός που καθιστά εύκολη την εξαγωγή συγκεκριμένων πληροφοριών από το έγγραφο. Τα έγγραφα ταυτότητας αποτελούν σχεδόν πάντα μέρος ενός πακέτου αίτησης υποθήκης, επειδή χρησιμοποιούνται για την επαλήθευση της ταυτότητας του δανειολήπτη κατά τη διαδικασία αναδοχής και για την επικύρωση της ορθότητας των βιογραφικών δεδομένων του δανειολήπτη.

Χρησιμοποιούμε μια βολική μέθοδο που ονομάζεται call_textract_analyzeid, που καλεί το AnalyzeID API εσωτερικά. Στη συνέχεια επαναλαμβάνουμε την απόκριση για να λάβουμε τα ανιχνευμένα ζεύγη κλειδιού-τιμής από το έγγραφο αναγνώρισης. Δείτε τον παρακάτω κώδικα:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID επιστρέφει πληροφορίες σε μια δομή που ονομάζεται IdentityDocumentFields, το οποίο περιέχει τα κανονικοποιημένα κλειδιά και την αντίστοιχη τιμή τους. Για παράδειγμα, στην ακόλουθη έξοδο, FIRST_NAME είναι ένα κανονικοποιημένο κλειδί και η τιμή είναι ALEJANDRO. Στην εικόνα του παραδείγματος διαβατηρίου, το πεδίο για το πρώτο όνομα επισημαίνεται ως "Δεδομένα ονόματα / Prénoms / Nombre", ωστόσο AnalyzeID μπόρεσε να το κανονικοποιήσει στο όνομα κλειδιού FIRST_NAME. Για μια λίστα υποστηριζόμενων κανονικοποιημένων πεδίων, ανατρέξτε στο Αντικείμενα απόκρισης τεκμηρίωσης ταυτότητας.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

Ένα πακέτο υποθήκης μπορεί να περιέχει πολλά άλλα έγγραφα, όπως ένα στέλεχος πληρωμής, έντυπο W2, αντίγραφο κίνησης τραπεζικού λογαριασμού, αντίγραφο κίνησης πιστωτικής κάρτας και επιστολή επαλήθευσης απασχόλησης. Έχουμε δείγματα για καθένα από αυτά τα έγγραφα μαζί με τον κωδικό που απαιτείται για την εξαγωγή δεδομένων από αυτά. Για την πλήρη βάση κώδικα, ρίξτε μια ματιά στα σημειωματάρια στο δικό μας Αποθετήριο GitHub.

Εμπλουτισμός εγγράφων

Μία από τις πιο κοινές μορφές εμπλουτισμού εγγράφων είναι η επεξεργασία ευαίσθητων ή εμπιστευτικών πληροφοριών σε έγγραφα, η οποία μπορεί να επιβάλλεται λόγω νόμων ή κανονισμών περί απορρήτου. Για παράδειγμα, το στέλεχος πληρωμής ενός αιτούντος στεγαστικό δάνειο μπορεί να περιέχει ευαίσθητα δεδομένα PII, όπως όνομα, διεύθυνση και SSN, τα οποία μπορεί να χρειάζονται επεξεργασία για εκτεταμένη αποθήκευση.

Στο προηγούμενο δείγμα εγγράφου paystub, πραγματοποιούμε επεξεργασία δεδομένων PII όπως SSN, όνομα, αριθμός τραπεζικού λογαριασμού και ημερομηνίες. Για να αναγνωρίσουμε δεδομένα PII σε ένα έγγραφο, χρησιμοποιούμε το Amazon Comprehend Ανίχνευση PII ικανότητα μέσω του DetectPIIentities API. Αυτό το API επιθεωρεί το περιεχόμενο του εγγράφου για να προσδιορίσει την παρουσία πληροφοριών PII. Επειδή αυτό το API απαιτεί εισαγωγή σε μορφή απλού κειμένου με κωδικοποίηση UTF-8, πρώτα εξάγουμε το κείμενο από το έγγραφο χρησιμοποιώντας το Amazon Textract DetectDocumentText API, το οποίο επιστρέφει το κείμενο από το έγγραφο και επίσης επιστρέφει πληροφορίες γεωμετρίας, όπως διαστάσεις και συντεταγμένες πλαισίου οριοθέτησης. Ένας συνδυασμός και των δύο εξόδων χρησιμοποιείται στη συνέχεια για την κατάρτιση διορθώσεων στο έγγραφο ως μέρος της διαδικασίας εμπλουτισμού.

Ελέγξτε, επικυρώστε και ενσωματώστε δεδομένα

Τα εξαγόμενα δεδομένα από τη φάση εξαγωγής εγγράφων ενδέχεται να χρειάζονται επικύρωση σε σχέση με συγκεκριμένους επιχειρηματικούς κανόνες. Συγκεκριμένες πληροφορίες μπορούν επίσης να επικυρωθούν σε διάφορα έγγραφα, γνωστά και ως επικύρωση πολλαπλών εγγράφων. Ένα παράδειγμα επικύρωσης πολλαπλών εγγράφων θα μπορούσε να είναι η σύγκριση του ονόματος του αιτούντος στο έγγραφο ταυτότητας με το όνομα στο έγγραφο της αίτησης υποθήκης. Μπορείτε επίσης να κάνετε άλλες επικυρώσεις, όπως εκτιμήσεις αξίας ακινήτων και αποφάσεις αναδοχής υπό όρους σε αυτήν τη φάση.

Ένας τρίτος τύπος επικύρωσης σχετίζεται με τη βαθμολογία εμπιστοσύνης των εξαγόμενων δεδομένων στη φάση εξαγωγής εγγράφων. Το Amazon Textract και το Amazon Comprehend επιστρέφουν βαθμολογία εμπιστοσύνης για φόρμες, πίνακες, δεδομένα κειμένου και οντότητες που εντοπίστηκαν. Μπορείτε να διαμορφώσετε ένα όριο βαθμολογίας εμπιστοσύνης για να διασφαλίσετε ότι μόνο οι σωστές τιμές αποστέλλονται κατάντη. Αυτό επιτυγχάνεται μέσω του Amazon A2I, το οποίο συγκρίνει τις βαθμολογίες εμπιστοσύνης των δεδομένων που ανιχνεύονται με ένα προκαθορισμένο όριο εμπιστοσύνης. Εάν το όριο δεν πληρούται, το έγγραφο και το εξαγόμενο αποτέλεσμα δρομολογούνται σε έναν άνθρωπο για έλεγχο μέσω μιας διαισθητικής διεπαφής χρήστη. Ο ελεγκτής λαμβάνει διορθωτικά μέτρα για τα δεδομένα και τα αποθηκεύει για περαιτέρω επεξεργασία. Για περισσότερες πληροφορίες, ανατρέξτε στο Βασικές έννοιες του Amazon A2I.

Συμπέρασμα

Σε αυτήν την ανάρτηση, συζητήσαμε τις φάσεις της έξυπνης επεξεργασίας εγγράφων, καθώς σχετίζεται με τις φάσεις μιας αίτησης υποθήκης. Εξετάσαμε μερικά κοινά παραδείγματα εγγράφων που μπορούν να βρεθούν σε ένα πακέτο αίτησης υποθήκης. Συζητήσαμε επίσης τρόπους εξαγωγής και επεξεργασίας δομημένου, ημιδομημένου και μη δομημένου περιεχομένου από αυτά τα έγγραφα. Το IDP παρέχει έναν τρόπο αυτοματοποίησης της επεξεργασίας εγγράφων υποθήκης από άκρο σε άκρο που μπορεί να κλιμακωθεί σε εκατομμύρια έγγραφα, βελτιώνοντας την ποιότητα των αποφάσεων εφαρμογής, μειώνοντας το κόστος και εξυπηρετώντας τους πελάτες ταχύτερα.

Ως επόμενο βήμα, μπορείτε να δοκιμάσετε τα δείγματα κώδικα και τα σημειωματάρια στο δικό μας Αποθετήριο GitHub. Για να μάθετε περισσότερα σχετικά με τον τρόπο με τον οποίο το IDP μπορεί να βοηθήσει στην επεξεργασία των φόρτων εργασίας των εγγράφων σας, επισκεφτείτε το Αυτοματοποιήστε την επεξεργασία δεδομένων από έγγραφα.

Σχετικά με τους συγγραφείς

Anjan Biswas είναι Ανώτερος Αρχιτέκτονας Λύσεων Υπηρεσιών AI με έμφαση στο AI/ML και την ανάλυση δεδομένων. Ο Anjan είναι μέρος της παγκόσμιας ομάδας υπηρεσιών τεχνητής νοημοσύνης και συνεργάζεται με πελάτες για να τους βοηθήσει να κατανοήσουν και να αναπτύξουν λύσεις σε επιχειρηματικά προβλήματα με AI και ML. Η Anjan έχει πάνω από 14 χρόνια εμπειρίας σε συνεργασία με παγκόσμιους οργανισμούς εφοδιαστικής αλυσίδας, κατασκευής και λιανικής και βοηθά ενεργά τους πελάτες να ξεκινήσουν και να επεκταθούν στις υπηρεσίες AWS AI.

Dwiti Pathak είναι Ανώτερος Τεχνικός Διευθυντής Λογαριασμού με έδρα το Σαν Ντιέγκο. Επικεντρώνεται στο να βοηθήσει τη βιομηχανία ημιαγωγών να συμμετάσχει στο AWS. Στον ελεύθερο χρόνο της, της αρέσει να διαβάζει για τις νέες τεχνολογίες και να παίζει επιτραπέζια παιχνίδια.

Balaji Puli είναι αρχιτέκτονας Solutions με έδρα το Bay Area, CA. Επί του παρόντος, βοηθά επιλεγμένους πελάτες υγειονομικής περίθαλψης των Βορειοδυτικών ΗΠΑ να επιταχύνουν την υιοθέτηση του cloud AWS. Ο Balaji απολαμβάνει τα ταξίδια και λατρεύει να εξερευνά διαφορετικές κουζίνες.

Σφραγίδα ώρας: Αύγουστος 26, 2022Αύγουστος 26, 2022

Περισσότερα από Μηχανική εκμάθηση AWS

Χρησιμοποιήστε προσαρμοσμένο λεξιλόγιο στο Amazon Lex για να βελτιώσετε την αναγνώριση ομιλίας

Σύμπλεγμα πηγής:

Μηχανική εκμάθηση AWS

Κόμβος πηγής: 1294623

Σφραγίδα ώρας: 5 Μαΐου 2022

Δημιουργήστε συνθετικά δεδομένα για αγωγούς όρασης υπολογιστή στο AWS

Μηχανική εκμάθηση AWS

Κόμβος πηγής: 1848251

Σφραγίδα ώρας: 13 Ιουνίου 2023

Επεξεργαστείτε έγγραφα υποθήκης με έξυπνη επεξεργασία εγγράφων χρησιμοποιώντας το Amazon Textract και το Amazon Comprehend

Αναδημοσίευση από τον Πλάτωνα

Επισκόπηση λύσεων

Αποθήκευση εγγράφων

Ταξινόμηση εγγράφων

Εξαγωγή εγγράφων

Εξαγωγή δεδομένων από την ενοποιημένη αίτηση δανείου κατοικίας URLA-1003

Εξαγωγή δεδομένων από 1099 φόρμες

Εξαγωγή δεδομένων από σημείωμα υποθήκης

Εξαγωγή δεδομένων από διαβατήριο ΗΠΑ

Εμπλουτισμός εγγράφων

Ελέγξτε, επικυρώστε και ενσωματώστε δεδομένα

Συμπέρασμα

Σχετικά με τους συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Δημιουργήστε συνθετικά δεδομένα για αγωγούς όρασης υπολογιστή στο AWS

Εκμάθηση μεταφοράς για μοντέλα ταξινόμησης κειμένου TensorFlow στο Amazon SageMaker

Τεχνολογία AWS Cloud για ανίχνευση καρδιακών ανωμαλιών σχεδόν σε πραγματικό χρόνο χρησιμοποιώντας δεδομένα από φορητές συσκευές

Προσδιορίστε τη θέση των ανωμαλιών χρησιμοποιώντας το Amazon Lookout for Vision στην άκρη χωρίς τη χρήση GPU

Πώς η United Airlines δημιούργησε έναν οικονομικά αποδοτικό αγωγό ενεργούς εκμάθησης Οπτικής Αναγνώρισης Χαρακτήρων | Υπηρεσίες Ιστού της Amazon

Παρουσιάζουμε τη ρύθμιση δημοτικότητας για παρόμοια αντικείμενα στο Amazon Personalize | Υπηρεσίες Ιστού της Amazon

Αναζητήστε με ασφάλεια μη δομημένα δεδομένα σε συστήματα αρχείων Windows με την υποδοχή Amazon Kendra για Amazon FSx για Windows File Server

Εντοπισμός απάτης σε επιχειρήσεις που προσανατολίζονται σε κινητά χρησιμοποιώντας τη νοημοσύνη συσκευών GrabDefence και το Amazon Fraud Detector

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός