Xử lý tài liệu thế chấp bằng cách xử lý tài liệu thông minh bằng cách sử dụng Amazon Textract và Amazon Comprehend PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Xử lý tài liệu thế chấp bằng cách xử lý tài liệu thông minh bằng Amazon Textract và Amazon Comprehend

Các tổ chức trong ngành cho vay và thế chấp xử lý hàng nghìn tài liệu mỗi ngày. Từ đơn đăng ký thế chấp mới đến tái cấp vốn thế chấp, các quy trình kinh doanh này bao gồm hàng trăm tài liệu cho mỗi đơn đăng ký. Hiện nay khả năng tự động hóa còn hạn chế để xử lý và trích xuất thông tin từ tất cả các tài liệu, đặc biệt là do các định dạng và bố cục khác nhau. Do số lượng ứng dụng lớn nên việc nắm bắt thông tin chi tiết mang tính chiến lược và lấy thông tin quan trọng từ nội dung là một quá trình tốn nhiều thời gian, thủ công, dễ xảy ra lỗi và tốn kém. Các công cụ nhận dạng ký tự quang học (OCR) truyền thống có chi phí rất cao, dễ xảy ra lỗi, liên quan đến nhiều cấu hình và khó mở rộng quy mô. Xử lý tài liệu thông minh (IDP) với các dịch vụ trí tuệ nhân tạo (AI) của AWS giúp tự động hóa và tăng tốc quá trình xử lý đơn đăng ký thế chấp với mục tiêu đưa ra quyết định nhanh hơn và chất lượng hơn, đồng thời giảm chi phí tổng thể.

Trong bài đăng này, chúng tôi trình bày cách bạn có thể sử dụng các khả năng học máy (ML) với Văn bản AmazonAmazon hiểu để xử lý tài liệu trong đơn đăng ký thế chấp mới mà không cần kỹ năng ML. Chúng tôi khám phá các giai đoạn khác nhau của IDP như minh họa trong hình dưới đây và cách chúng kết nối với các bước liên quan đến quy trình đăng ký thế chấp, chẳng hạn như nộp đơn, bảo lãnh, xác minh và hoàn tất.

Mặc dù mỗi đơn đăng ký thế chấp có thể là duy nhất, nhưng chúng tôi đã tính đến một số tài liệu phổ biến nhất có trong đơn đăng ký thế chấp, chẳng hạn như mẫu Đơn xin vay thế chấp nhà ở thống nhất (URLA-1003), biểu mẫu 1099 và giấy thế chấp.

Tổng quan về giải pháp

Amazon Textract là dịch vụ ML tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét bằng các mô hình ML được đào tạo trước. Amazon Comprehend là dịch vụ xử lý ngôn ngữ tự nhiên (NLP) sử dụng ML để khám phá những hiểu biết và kết nối có giá trị trong văn bản, đồng thời có thể thực hiện phân loại tài liệu, nhận dạng thực thể tên (NER), lập mô hình chủ đề, v.v.

Hình dưới đây cho thấy các giai đoạn của IDP vì nó liên quan đến các giai đoạn của quy trình đăng ký thế chấp.

Hình ảnh hiển thị kiến ​​trúc giải pháp cấp cao cho các giai đoạn xử lý tài liệu thông minh (IDP) vì nó liên quan đến các giai đoạn của đơn đăng ký thế chấp.

Khi bắt đầu quá trình, các tài liệu sẽ được tải lên một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Điều này bắt đầu một quá trình phân loại tài liệu để phân loại các tài liệu thành các danh mục đã biết. Sau khi tài liệu được phân loại, bước tiếp theo là trích xuất thông tin chính từ chúng. Sau đó, chúng tôi thực hiện việc bổ sung thông tin cho các tài liệu chọn lọc, có thể là những nội dung như biên tập thông tin nhận dạng cá nhân (PII), gắn thẻ tài liệu, cập nhật siêu dữ liệu, v.v. Bước tiếp theo liên quan đến việc xác thực dữ liệu được trích xuất trong các giai đoạn trước để đảm bảo tính đầy đủ của đơn đăng ký thế chấp. Việc xác thực có thể được thực hiện thông qua các quy tắc xác thực doanh nghiệp và các quy tắc xác thực tài liệu chéo. Điểm tin cậy của thông tin được trích xuất cũng có thể được so sánh với ngưỡng đã đặt và tự động được chuyển đến người đánh giá thông qua AI tăng cường của Amazon (Amazon A2I) nếu không đạt đến ngưỡng. Trong giai đoạn cuối của quy trình, dữ liệu được trích xuất và xác thực sẽ được gửi đến các hệ thống hạ nguồn để lưu trữ, xử lý hoặc phân tích dữ liệu thêm.

Trong các phần sau, chúng tôi thảo luận chi tiết về các giai đoạn của IDP vì nó liên quan đến các giai đoạn của đơn đăng ký thế chấp. Chúng tôi xem xét các giai đoạn của IDP và thảo luận về các loại tài liệu; cách chúng tôi lưu trữ, phân loại và trích xuất thông tin cũng như cách chúng tôi làm phong phú tài liệu bằng cách sử dụng máy học.

Kho chứa tài liệu

Amazon S3 là dịch vụ lưu trữ đối tượng cung cấp khả năng mở rộng, tính khả dụng của dữ liệu, tính bảo mật và hiệu suất hàng đầu trong ngành. Chúng tôi sử dụng Amazon S3 để lưu trữ an toàn các tài liệu thế chấp trong và sau quá trình đăng ký thế chấp. MỘT gói đăng ký thế chấp có thể chứa một số loại biểu mẫu và tài liệu, chẳng hạn như URLA-1003, 1099-INT/DIV/RR/MISC, W2, cuống phiếu lương, bảng sao kê ngân hàng, bảng sao kê thẻ tín dụng, v.v. Những tài liệu này được người nộp đơn nộp trong giai đoạn đăng ký thế chấp. Nếu không xem qua chúng theo cách thủ công, có thể không rõ ngay tài liệu nào được bao gồm trong gói. Quá trình thủ công này có thể tốn thời gian và tốn kém. Trong giai đoạn tiếp theo, chúng tôi tự động hóa quy trình này bằng Amazon Comprehend để phân loại tài liệu thành các danh mục tương ứng với độ chính xác cao.

Phân loại tài liệu

Phân loại tài liệu là một phương pháp trong đó một số lượng lớn tài liệu chưa xác định có thể được phân loại và dán nhãn. Chúng tôi thực hiện việc phân loại tài liệu này bằng cách sử dụng Amazon Comprehend bộ phân loại tùy chỉnh. Trình phân loại tùy chỉnh là một mô hình ML có thể được đào tạo bằng một bộ tài liệu được gắn nhãn để nhận ra các lớp mà bạn quan tâm. Sau khi mô hình được đào tạo và triển khai phía sau điểm cuối được lưu trữ, chúng tôi có thể sử dụng trình phân loại để xác định danh mục (hoặc lớp) mà một tài liệu cụ thể thuộc về. Trong trường hợp này, chúng tôi huấn luyện một bộ phân loại tùy chỉnh theo chế độ nhiều lớp, có thể được thực hiện bằng tệp CSV hoặc tệp kê khai tăng cường. Với mục đích trình diễn này, chúng tôi sử dụng tệp CSV để huấn luyện bộ phân loại. Tham khảo của chúng tôi Kho GitHub để có mẫu mã đầy đủ. Sau đây là tổng quan cấp cao về các bước liên quan:

  1. Trích xuất văn bản thuần túy được mã hóa UTF-8 từ tệp hình ảnh hoặc PDF bằng Amazon Textract Phát HiệnTài LiệuVăn Bản API.
  2. Chuẩn bị dữ liệu huấn luyện để huấn luyện bộ phân loại tùy chỉnh ở định dạng CSV.
  3. Huấn luyện trình phân loại tùy chỉnh bằng tệp CSV.
  4. Triển khai mô hình được đào tạo với điểm cuối để phân loại tài liệu theo thời gian thực hoặc sử dụng chế độ nhiều lớp, hỗ trợ cả hoạt động thời gian thực và không đồng bộ.

Sơ đồ sau đây minh họa quá trình này.

Hình ảnh hiển thị quy trình đào tạo trình phân loại tùy chỉnh của Amazon Comprehend và phân loại tài liệu bằng cách sử dụng mô hình phân loại được đào tạo và triển khai (thời gian thực hoặc theo đợt).

Bạn có thể tự động hóa việc phân loại tài liệu bằng cách sử dụng điểm cuối được triển khai để xác định và phân loại tài liệu. Việc tự động hóa này rất hữu ích để xác minh xem tất cả các tài liệu cần thiết có trong gói thế chấp hay không. Một tài liệu bị thiếu có thể được xác định nhanh chóng mà không cần can thiệp thủ công và thông báo cho người nộp đơn sớm hơn nhiều trong quy trình.

Trích xuất tài liệu

Trong giai đoạn này, chúng tôi trích xuất dữ liệu từ tài liệu bằng Amazon Textract và Amazon Comprehend. Đối với các tài liệu có cấu trúc và bán cấu trúc chứa biểu mẫu và bảng, chúng tôi sử dụng Amazon Textract Phân tíchDocument API. Đối với các tài liệu chuyên dụng như tài liệu ID, Amazon Textract cung cấp ID phân tích API. Một số tài liệu cũng có thể chứa văn bản dày đặc và bạn có thể cần trích xuất các thuật ngữ chính dành riêng cho doanh nghiệp từ chúng, còn được gọi là thực thể. Chúng tôi sử dụng công nhận thực thể tùy chỉnh khả năng của Amazon Comprehend trong việc đào tạo trình nhận dạng thực thể tùy chỉnh, có thể xác định các thực thể đó từ văn bản dày đặc.

Trong các phần sau, chúng ta sẽ xem qua các tài liệu mẫu có trong gói đơn đăng ký thế chấp và thảo luận về các phương pháp được sử dụng để trích xuất thông tin từ chúng. Đối với mỗi ví dụ này, một đoạn mã và đầu ra mẫu ngắn sẽ được bao gồm.

Trích xuất dữ liệu từ Đơn xin vay mua nhà ở thống nhất URLA-1003

Đơn xin vay mua nhà ở thống nhất (URLA-1003) là mẫu đơn xin vay thế chấp tiêu chuẩn ngành. Đó là một tài liệu khá phức tạp chứa thông tin về người nộp đơn thế chấp, loại tài sản được mua, số tiền được tài trợ và các chi tiết khác về bản chất của việc mua tài sản. Sau đây là URLA-1003 mẫu và mục đích của chúng tôi là trích xuất thông tin từ tài liệu có cấu trúc này. Vì đây là một biểu mẫu nên chúng tôi sử dụng API Phân tích Tài liệu với loại tính năng là MẪU.

Hình ảnh hiển thị mẫu của đơn xin vay tiền mua nhà thống nhất URLA-1003

Loại tính năng FORM trích xuất thông tin biểu mẫu từ tài liệu, sau đó được trả về ở định dạng cặp khóa-giá trị. Đoạn mã sau đây sử dụng amazon-textract-textractor Thư viện Python để trích xuất thông tin biểu mẫu chỉ bằng vài dòng mã. Phương pháp tiện lợi call_textract() gọi AnalyzeDocument API nội bộ và các tham số được truyền cho phương thức trừu tượng hóa một số cấu hình mà API cần để chạy tác vụ trích xuất. Document là một phương pháp tiện lợi được sử dụng để giúp phân tích phản hồi JSON từ API. Nó cung cấp khả năng trừu tượng hóa ở mức độ cao và làm cho đầu ra API có thể lặp lại và dễ dàng lấy thông tin ra. Để biết thêm thông tin, hãy tham khảo Trình phân tích phản hồi văn bảnMáy kéo.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Lưu ý rằng đầu ra chứa các giá trị cho hộp kiểm hoặc nút radio tồn tại trong biểu mẫu. Ví dụ: trong tài liệu URLA-1003 mẫu, Mua tùy chọn đã được chọn. Đầu ra tương ứng cho nút radio được trích xuất là “Purchase” (phím) và “SELECTED” (giá trị), cho biết nút radio đã được chọn.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

Trích xuất dữ liệu từ 1099 biểu mẫu

Gói đơn đăng ký thế chấp cũng có thể chứa một số tài liệu IRS, chẳng hạn như 1099-DIV, 1099-INT, 1099-MISC và 1099-R. Các tài liệu này cho thấy thu nhập của người nộp đơn thông qua tiền lãi, cổ tức và các thành phần thu nhập linh tinh khác hữu ích trong quá trình bảo lãnh phát hành để đưa ra quyết định. Hình ảnh sau đây hiển thị một bộ sưu tập các tài liệu này, có cấu trúc tương tự nhau. Tuy nhiên, trong một số trường hợp, tài liệu chứa thông tin biểu mẫu (được đánh dấu bằng các hộp giới hạn màu đỏ và xanh lá cây) cũng như thông tin dạng bảng (được đánh dấu bằng các hộp giới hạn màu vàng).

Hình ảnh hiển thị các mẫu 1099 dạng INT, DIV, MISC và R.

Để trích xuất thông tin biểu mẫu, chúng tôi sử dụng mã tương tự như được giải thích trước đó với AnalyzeDocument API. Chúng tôi vượt qua một tính năng bổ sung của BẢNG vào API để cho biết rằng chúng tôi cần cả dữ liệu biểu mẫu và bảng được trích xuất từ ​​tài liệu. Đoạn mã sau đây sử dụng AnalyzeDocument API với các tính năng FORMS và TABLES trên tài liệu 1099-INT:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Bởi vì tài liệu chứa một bảng duy nhất nên kết quả của mã như sau:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

Thông tin bảng chứa vị trí ô (hàng 0, cột 0, v.v.) và văn bản tương ứng trong mỗi ô. Chúng tôi sử dụng một phương pháp tiện lợi có thể chuyển đổi dữ liệu bảng này thành dạng xem lưới dễ đọc:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

Chúng tôi nhận được kết quả sau:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Để có được đầu ra ở định dạng CSV dễ sử dụng, loại định dạng Pretty_Print_Table_Format.csv có thể được chuyển vào table_format tham số. Các định dạng khác như TSV (giá trị được phân tách bằng tab), HTML và Latex cũng được hỗ trợ. Để biết thêm thông tin, hãy tham khảo Textract-PrettyPrinter.

Trích xuất dữ liệu từ giấy thế chấp

Gói đơn đăng ký thế chấp có thể chứa các tài liệu phi cấu trúc với văn bản dày đặc. Một số ví dụ về tài liệu văn bản dày đặc là hợp đồng và thỏa thuận. Giấy thế chấp là một thỏa thuận giữa người nộp đơn thế chấp và người cho vay hoặc công ty thế chấp và chứa thông tin trong các đoạn văn bản dày đặc. Trong những trường hợp như vậy, việc thiếu cấu trúc gây khó khăn cho việc tìm kiếm thông tin kinh doanh quan trọng trong quá trình đăng ký thế chấp. Có hai cách tiếp cận để giải quyết vấn đề này:

Trong phiếu thế chấp mẫu sau đây, chúng tôi đặc biệt quan tâm đến việc tìm hiểu số tiền thanh toán hàng tháng và số tiền gốc.

Hình ảnh thể hiện một mẫu giấy tờ thế chấp.

Đối với cách tiếp cận đầu tiên, chúng tôi sử dụng QueryQueriesConfig các phương pháp tiện lợi để định cấu hình một bộ câu hỏi được chuyển tới Amazon Textract AnalyzeDocument Cuộc gọi API. Trong trường hợp tài liệu có nhiều trang (PDF hoặc TIFF), chúng tôi cũng có thể chỉ định số trang mà Amazon Textract sẽ tìm kiếm câu trả lời cho câu hỏi. Đoạn mã sau đây minh họa cách tạo cấu hình truy vấn, thực hiện lệnh gọi API và sau đó phân tích cú pháp phản hồi để nhận câu trả lời từ phản hồi:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

Chúng tôi nhận được kết quả sau:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

Đối với phương pháp thứ hai, chúng tôi sử dụng Amazon Comprehend Phát hiện API với ghi chú thế chấp, trả về các thực thể mà nó phát hiện trong văn bản từ một tập hợp các thực thể được xác định trước. Đây là những thực thể mà trình nhận dạng thực thể Amazon Comprehend đã được đào tạo trước. Tuy nhiên, do yêu cầu của chúng tôi là phát hiện các thực thể cụ thể nên trình nhận dạng thực thể tùy chỉnh của Amazon Comprehend sẽ được đào tạo với một bộ tài liệu giấy thế chấp mẫu và danh sách các thực thể. Chúng tôi xác định tên thực thể là PRINCIPAL_AMOUNTMONTHLY_AMOUNT. Dữ liệu đào tạo được chuẩn bị sau khóa đào tạo Amazon Comprehend hướng dẫn chuẩn bị dữ liệu để nhận dạng thực thể tùy chỉnh. Trình nhận dạng thực thể có thể được đào tạo với chú thích tài liệu Hoặc với danh sách thực thể. Với mục đích của ví dụ này, chúng tôi sử dụng danh sách thực thể để huấn luyện mô hình. Sau khi huấn luyện mô hình, chúng ta có thể triển khai nó bằng một điểm cuối thời gian thực hoặc trong chế độ lô để phát hiện hai thực thể từ nội dung tài liệu. Sau đây là các bước liên quan để huấn luyện và triển khai trình nhận dạng thực thể tùy chỉnh. Để biết hướng dẫn mã đầy đủ, hãy tham khảo kho lưu trữ GitHub của chúng tôi.

  1. Chuẩn bị dữ liệu đào tạo (danh sách thực thể và các tài liệu có định dạng văn bản thuần túy (được mã hóa UTF-8).
  2. Bắt đầu đào tạo trình nhận dạng thực thể bằng cách sử dụng TạoEntityRecognizer API sử dụng dữ liệu đào tạo.
  3. Triển khai mô hình được đào tạo với điểm cuối thời gian thực bằng cách sử dụng Tạo điểm cuối API.

Trích xuất dữ liệu từ hộ chiếu Hoa Kỳ

Văn bản Amazon phân tích giấy tờ tùy thân khả năng có thể phát hiện và trích xuất thông tin từ các tài liệu ID có trụ sở tại Hoa Kỳ như bằng lái xe và hộ chiếu. Các AnalyzeID API có khả năng phát hiện và giải thích các trường ngụ ý trong tài liệu ID, giúp dễ dàng trích xuất thông tin cụ thể từ tài liệu. Giấy tờ tùy thân hầu như luôn là một phần của gói đơn đăng ký thế chấp vì nó được sử dụng để xác minh danh tính của người đi vay trong quá trình bảo lãnh phát hành và để xác thực tính chính xác của dữ liệu tiểu sử của người đi vay.

Hình ảnh thể hiện mẫu hộ chiếu Hoa Kỳ

Chúng tôi sử dụng một phương pháp tiện lợi có tên call_textract_analyzeid, gọi là AnalyzeID API nội bộ. Sau đó, chúng tôi lặp lại phản hồi để thu được các cặp khóa-giá trị được phát hiện từ tài liệu ID. Xem đoạn mã sau:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID trả về thông tin trong một cấu trúc được gọi là IdentityDocumentFields, chứa các khóa được chuẩn hóa và giá trị tương ứng của chúng. Ví dụ: trong kết quả đầu ra sau đây, FIRST_NAME là khóa được chuẩn hóa và giá trị là ALEJANDRO. Tuy nhiên, trong hình ảnh hộ chiếu mẫu, trường dành cho tên được gắn nhãn là “Tên đã cho / Prénoms / Nombre”. AnalyzeID đã có thể bình thường hóa nó thành tên khóa FIRST_NAME. Để biết danh sách các trường chuẩn hóa được hỗ trợ, hãy tham khảo Đối tượng phản hồi tài liệu nhận dạng.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

Gói thế chấp có thể chứa một số tài liệu khác, chẳng hạn như phiếu lương, mẫu W2, bảng sao kê ngân hàng, bảng sao kê thẻ tín dụng và thư xác minh việc làm. Chúng tôi có mẫu cho từng tài liệu này cùng với mã cần thiết để trích xuất dữ liệu từ chúng. Để có cơ sở mã hoàn chỉnh, hãy xem sổ ghi chép trong Kho GitHub.

Làm giàu tài liệu

Một trong những hình thức làm giàu tài liệu phổ biến nhất là biên tập lại thông tin nhạy cảm hoặc bí mật trên tài liệu, việc này có thể được bắt buộc do luật hoặc quy định về quyền riêng tư. Ví dụ: cuống phiếu lương của người nộp đơn thế chấp có thể chứa dữ liệu PII nhạy cảm, chẳng hạn như tên, địa chỉ và SSN, có thể cần được chỉnh sửa để lưu trữ mở rộng.

Trong tài liệu cuống phiếu lương mẫu trước đó, chúng tôi thực hiện việc biên tập dữ liệu PII như SSN, tên, số tài khoản ngân hàng và ngày tháng. Để xác định dữ liệu PII trong tài liệu, chúng tôi sử dụng Amazon Comprehend Phát hiện PII khả năng thông qua Phát hiện PIIThực thể API. API này kiểm tra nội dung của tài liệu để xác định sự hiện diện của thông tin PII. Vì API này yêu cầu đầu vào ở định dạng văn bản thuần túy được mã hóa UTF-8 nên trước tiên chúng tôi trích xuất văn bản từ tài liệu bằng cách sử dụng Amazon Textract Phát HiệnTài LiệuVăn Bản API trả về văn bản từ tài liệu và cũng trả về thông tin hình học như kích thước và tọa độ khung giới hạn. Sau đó, sự kết hợp của cả hai đầu ra sẽ được sử dụng để vẽ các chỉnh sửa trên tài liệu như một phần của quy trình làm giàu.

Xem xét, xác thực và tích hợp dữ liệu

Dữ liệu được trích xuất từ ​​giai đoạn trích xuất tài liệu có thể cần xác thực theo các quy tắc kinh doanh cụ thể. Thông tin cụ thể cũng có thể được xác nhận qua một số tài liệu, còn được gọi là xác thực tài liệu chéo. Một ví dụ về xác thực chéo tài liệu có thể là so sánh tên của người nộp đơn trong tài liệu ID với tên trong tài liệu đăng ký thế chấp. Bạn cũng có thể thực hiện các xác nhận khác như ước tính giá trị tài sản và quyết định bảo lãnh có điều kiện trong giai đoạn này.

Loại xác thực thứ ba liên quan đến điểm tin cậy của dữ liệu được trích xuất trong giai đoạn trích xuất tài liệu. Amazon Textract và Amazon Comprehend trả về điểm tin cậy cho biểu mẫu, bảng, dữ liệu văn bản và thực thể được phát hiện. Bạn có thể định cấu hình ngưỡng điểm tin cậy để đảm bảo rằng chỉ những giá trị chính xác mới được gửi xuống. Điều này đạt được thông qua Amazon A2I, so sánh điểm tin cậy của dữ liệu được phát hiện với ngưỡng tin cậy được xác định trước. Nếu ngưỡng không được đáp ứng, tài liệu và đầu ra được trích xuất sẽ được chuyển đến con người để xem xét thông qua giao diện người dùng trực quan. Người đánh giá thực hiện hành động khắc phục dữ liệu và lưu nó để xử lý tiếp. Để biết thêm thông tin, hãy tham khảo Các khái niệm cốt lõi của Amazon A2I.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về các giai đoạn xử lý tài liệu thông minh vì nó liên quan đến các giai đoạn của đơn đăng ký thế chấp. Chúng tôi đã xem xét một số ví dụ phổ biến về tài liệu có thể tìm thấy trong gói đơn đăng ký thế chấp. Chúng tôi cũng thảo luận về các cách trích xuất và xử lý nội dung có cấu trúc, bán cấu trúc và phi cấu trúc từ các tài liệu này. IDP cung cấp một phương pháp tự động hóa quy trình xử lý tài liệu thế chấp từ đầu đến cuối có thể mở rộng thành hàng triệu tài liệu, nâng cao chất lượng của các quyết định đăng ký, giảm chi phí và phục vụ khách hàng nhanh hơn.

Bước tiếp theo, bạn có thể thử các mẫu mã và sổ ghi chép trong Kho GitHub. Để tìm hiểu thêm về cách IDP có thể hỗ trợ khối lượng công việc xử lý tài liệu của bạn, hãy truy cập Tự động xử lý dữ liệu từ tài liệu.


Giới thiệu về tác giả

Xử lý tài liệu thế chấp bằng cách xử lý tài liệu thông minh bằng cách sử dụng Amazon Textract và Amazon Comprehend PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao tập trung vào AI / ML và Phân tích dữ liệu. Anjan là một phần của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu và đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AWS AI.

Xử lý tài liệu thế chấp bằng cách xử lý tài liệu thông minh bằng cách sử dụng Amazon Textract và Amazon Comprehend PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Dwiti Pathak là Giám đốc tài khoản kỹ thuật cấp cao có trụ sở tại San Diego. Cô tập trung vào việc giúp ngành Bán dẫn tham gia vào AWS. Trong thời gian rảnh rỗi, cô thích đọc về các công nghệ mới và chơi trò chơi board game.

Xử lý tài liệu thế chấp bằng cách xử lý tài liệu thông minh bằng cách sử dụng Amazon Textract và Amazon Comprehend PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Balaji Puli là Kiến trúc sư Giải pháp có trụ sở tại Bay Area, CA. Hiện đang giúp các khách hàng khoa học đời sống chăm sóc sức khỏe chọn lọc ở vùng Tây Bắc Hoa Kỳ đẩy nhanh quá trình áp dụng đám mây AWS của họ. Balaji thích đi du lịch và thích khám phá các nền ẩm thực khác nhau.

Dấu thời gian:

Thêm từ Học máy AWS