Xử lý tài liệu thông minh với dịch vụ AI của AWS: Phần 1

Được xuất bản lại bởi Plato

Người theo dõi: 0

Các tổ chức trong các ngành như chăm sóc sức khỏe, tài chính và cho vay, pháp lý, bán lẻ và sản xuất thường phải xử lý rất nhiều tài liệu trong quy trình kinh doanh hàng ngày của họ. Những tài liệu này chứa thông tin quan trọng, là chìa khóa để đưa ra quyết định kịp thời nhằm duy trì mức độ hài lòng của khách hàng ở mức cao nhất, làm quen với khách hàng nhanh hơn và giảm tỷ lệ rời bỏ khách hàng. Trong hầu hết các trường hợp, tài liệu được xử lý thủ công để trích xuất thông tin và hiểu biết sâu sắc, việc này tốn thời gian, dễ xảy ra lỗi, tốn kém và khó mở rộng quy mô. Hiện nay khả năng tự động hóa còn hạn chế để xử lý và trích xuất thông tin từ các tài liệu này. Xử lý tài liệu thông minh (IDP) với dịch vụ trí tuệ nhân tạo (AI) của AWS giúp tự động trích xuất thông tin từ các tài liệu thuộc nhiều loại và định dạng khác nhau, nhanh chóng và có độ chính xác cao mà không cần đến kỹ năng học máy (ML). Trích xuất thông tin nhanh hơn với độ chính xác cao giúp đưa ra quyết định kinh doanh chất lượng đúng thời gian, đồng thời giảm chi phí chung.

Mặc dù các giai đoạn trong quy trình làm việc IDP có thể khác nhau và bị ảnh hưởng bởi trường hợp sử dụng cũng như yêu cầu kinh doanh, hình dưới đây cho thấy các giai đoạn thường là một phần của quy trình làm việc IDP. Xử lý các tài liệu như biểu mẫu thuế, yêu cầu bồi thường, ghi chú y tế, biểu mẫu khách hàng mới, hóa đơn, hợp đồng pháp lý, v.v. chỉ là một số trường hợp sử dụng của IDP.

Trong loạt bài gồm hai phần này, chúng tôi thảo luận về cách bạn có thể tự động hóa và xử lý tài liệu một cách thông minh trên quy mô lớn bằng cách sử dụng dịch vụ AI của AWS. Trong bài đăng này, chúng tôi thảo luận về ba giai đoạn đầu tiên của quy trình làm việc IDP. TRONG phần 2, chúng tôi thảo luận về các giai đoạn quy trình công việc còn lại.

Tổng quan về giải pháp

Sơ đồ kiến trúc sau đây hiển thị các giai đoạn của quy trình làm việc IDP. Nó bắt đầu với giai đoạn thu thập dữ liệu để lưu trữ và tổng hợp các định dạng tệp khác nhau (PDF, JPEG, PNG, TIFF) và bố cục của tài liệu một cách an toàn. Giai đoạn tiếp theo là phân loại, trong đó bạn phân loại tài liệu của mình (chẳng hạn như hợp đồng, biểu mẫu yêu cầu, hóa đơn hoặc biên lai), sau đó là trích xuất tài liệu. Trong giai đoạn trích xuất, bạn có thể trích xuất thông tin kinh doanh có ý nghĩa từ tài liệu của mình. Dữ liệu được trích xuất này thường được sử dụng để thu thập thông tin chi tiết thông qua phân tích dữ liệu hoặc được gửi đến các hệ thống hạ nguồn như cơ sở dữ liệu hoặc hệ thống giao dịch. Giai đoạn tiếp theo là làm phong phú, trong đó tài liệu có thể được làm phong phú bằng cách biên tập lại thông tin sức khỏe được bảo vệ (PHI) hoặc dữ liệu thông tin nhận dạng cá nhân (PII), trích xuất thuật ngữ kinh doanh tùy chỉnh, v.v. Cuối cùng, trong giai đoạn xem xét và xác nhận, bạn có thể cử nhân lực tham gia đánh giá tài liệu để đảm bảo kết quả là chính xác.

Với mục đích của bài đăng này, chúng tôi xem xét một bộ tài liệu mẫu như bảng sao kê ngân hàng, hóa đơn và biên lai của cửa hàng. Các mẫu tài liệu, cùng với mã mẫu, có thể được tìm thấy trong Kho GitHub. Trong các phần sau, chúng tôi sẽ hướng dẫn bạn các mẫu mã này cùng với ứng dụng thực tế. Chúng tôi trình bày cách bạn có thể sử dụng các khả năng ML với Văn bản Amazon, Amazon hiểuvà AI tăng cường của Amazon (Amazon A2I) để xử lý tài liệu và xác thực dữ liệu được trích xuất từ chúng.

Amazon Textract là dịch vụ ML tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét. Nó vượt xa nhận dạng ký tự quang học (OCR) đơn giản để xác định, hiểu và trích xuất dữ liệu từ các biểu mẫu và bảng. Amazon Textract sử dụng ML để đọc và xử lý mọi loại tài liệu, trích xuất chính xác văn bản, chữ viết tay, bảng và dữ liệu khác mà không cần nỗ lực thủ công.

Amazon Comprehend là dịch vụ xử lý ngôn ngữ tự nhiên (NLP) sử dụng ML để trích xuất thông tin chi tiết về nội dung của tài liệu. Amazon Comprehend có thể xác định các yếu tố quan trọng trong tài liệu, bao gồm các tham chiếu đến ngôn ngữ, con người và địa điểm, đồng thời phân loại chúng thành các chủ đề hoặc cụm có liên quan. Nó có thể thực hiện phân tích cảm tính để xác định cảm xúc của một tài liệu trong thời gian thực bằng cách sử dụng tính năng phát hiện từng tài liệu hoặc hàng loạt. Ví dụ: nó có thể phân tích các nhận xét trên một bài đăng trên blog để biết người đọc của bạn có thích bài đăng đó hay không. Amazon Comprehend cũng phát hiện PII như địa chỉ, số tài khoản ngân hàng và số điện thoại trong tài liệu văn bản theo thời gian thực và các tác vụ hàng loạt không đồng bộ. Nó cũng có thể sắp xếp lại các thực thể PII trong các công việc hàng loạt không đồng bộ.

Amazon A2I là dịch vụ ML giúp dễ dàng xây dựng các quy trình làm việc cần thiết cho hoạt động đánh giá của con người. Amazon A2I mang đến đánh giá của con người cho tất cả các nhà phát triển, loại bỏ gánh nặng không phân biệt liên quan đến việc xây dựng hệ thống đánh giá con người hoặc quản lý số lượng lớn người đánh giá con người, cho dù hệ thống đó có chạy trên AWS hay không. Amazon A2I tích hợp cả hai với Văn bản Amazon và Amazon hiểu để cung cấp cho bạn khả năng giới thiệu các bước đánh giá của con người trong quy trình xử lý tài liệu thông minh của bạn.

Giai đoạn thu thập dữ liệu

Bạn có thể lưu trữ tài liệu trong một kho lưu trữ bền và có khả năng mở rộng cao như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Amazon S3 là dịch vụ lưu trữ đối tượng cung cấp khả năng mở rộng, tính khả dụng của dữ liệu, tính bảo mật và hiệu suất hàng đầu trong ngành. Amazon S3 được thiết kế để có độ bền 11/9 và lưu trữ dữ liệu cho hàng triệu khách hàng trên toàn thế giới. Tài liệu có thể có nhiều định dạng và bố cục khác nhau và có thể đến từ các kênh khác nhau như cổng web hoặc tệp đính kèm email.

Giai đoạn phân loại

Ở bước trước, chúng tôi đã thu thập các tài liệu thuộc nhiều loại và định dạng khác nhau. Ở bước này, chúng ta cần phân loại tài liệu trước khi có thể thực hiện việc trích xuất tiếp theo. Để làm được điều đó, chúng tôi sử dụng Amazon Comprehend phân loại tùy chỉnh. Phân loại tài liệu là một quá trình gồm hai bước. Trước tiên, bạn đào tạo trình phân loại tùy chỉnh của Amazon Comprehend để nhận ra các lớp mà bạn quan tâm. Tiếp theo, bạn triển khai mô hình với điểm cuối thời gian thực của trình phân loại tùy chỉnh và gửi tài liệu không được gắn nhãn đến điểm cuối thời gian thực để được phân loại.

Hình dưới đây thể hiện quy trình phân loại tài liệu điển hình.

Giai đoạn phân loại

Để đào tạo trình phân loại, hãy xác định các lớp bạn quan tâm và cung cấp tài liệu mẫu cho từng lớp làm tài liệu đào tạo. Dựa trên các tùy chọn bạn đã chỉ ra, Amazon Comprehend tạo mô hình ML tùy chỉnh mà nó đào tạo dựa trên tài liệu bạn cung cấp. Mô hình tùy chỉnh này (bộ phân loại) sẽ kiểm tra từng tài liệu bạn gửi. Nó trả về lớp cụ thể thể hiện tốt nhất nội dung (nếu bạn đang sử dụng chế độ nhiều lớp) hoặc tập hợp các lớp áp dụng cho nó (nếu bạn đang sử dụng chế độ nhiều nhãn).

Chuẩn bị dữ liệu đào tạo

Bước đầu tiên là trích xuất văn bản từ các tài liệu cần thiết cho trình phân loại tùy chỉnh của Amazon Comprehend. Để trích xuất thông tin văn bản thô cho tất cả tài liệu trong Amazon S3, chúng tôi sử dụng Amazon Textract detect_document_text() API. Chúng tôi cũng gắn nhãn dữ liệu theo loại tài liệu dùng để huấn luyện bộ phân loại Amazon Comprehend tùy chỉnh.

Đoạn mã sau đã được cắt bớt nhằm mục đích đơn giản hóa. Để biết mã đầy đủ, hãy tham khảo GitHub mã mẫu cho textract_extract_text(). Chức năng call_textract() là một hàm wr4apper gọi Phân tíchDocument API nội bộ và các tham số được truyền cho phương thức trừu tượng hóa một số cấu hình mà API cần để chạy tác vụ trích xuất.

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)

Huấn luyện một trình phân loại tùy chỉnh

Trong bước này, chúng tôi sử dụng phân loại tùy chỉnh của Amazon Comprehend để huấn luyện mô hình phân loại tài liệu của mình. Chúng tôi sử dụng TạoTài liệuClassifier API để tạo trình phân loại đào tạo mô hình tùy chỉnh bằng cách sử dụng dữ liệu được gắn nhãn của chúng tôi. Xem đoạn mã sau:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

Triển khai một điểm cuối thời gian thực

Để sử dụng trình phân loại tùy chỉnh Amazon Comprehend, chúng tôi tạo điểm cuối theo thời gian thực bằng cách sử dụng CreateEndpoint API:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')

Phân loại tài liệu với điểm cuối thời gian thực

Sau khi tạo điểm cuối Amazon Comprehend, chúng ta có thể sử dụng điểm cuối theo thời gian thực để phân loại tài liệu. Chúng tôi sử dụng comprehend.classify_document() hàm với văn bản tài liệu được trích xuất và điểm cuối suy luận làm tham số đầu vào:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

Amazon Comprehend trả về tất cả các loại tài liệu có điểm tin cậy được liên kết với từng lớp trong một mảng các cặp khóa-giá trị (điểm tên). Chúng tôi chọn lớp tài liệu có điểm tin cậy cao nhất. Ảnh chụp màn hình sau đây là một phản hồi mẫu.

Phân loại tài liệu với điểm cuối thời gian thực

Chúng tôi khuyên bạn nên xem qua mã mẫu phân loại tài liệu chi tiết trên GitHub.

Giai đoạn khai thác

Amazon Textract cho phép bạn trích xuất thông tin văn bản và dữ liệu có cấu trúc bằng Amazon Textract Phát HiệnTài LiệuVăn Bản và Phân tíchDocument API tương ứng. Các API này phản hồi bằng dữ liệu JSON, chứa TỪ, DÒNG, BIỂU MẪU, BẢNG, thông tin hình học hoặc hộp giới hạn, các mối quan hệ, v.v. Cả hai DetectDocumentText và AnalyzeDocument là các hoạt động đồng bộ. Để phân tích tài liệu một cách không đồng bộ, hãy sử dụng Bắt đầuPhát hiện Văn bảnTài liệu.

Trích xuất dữ liệu có cấu trúc

Bạn có thể trích xuất dữ liệu có cấu trúc như bảng từ tài liệu trong khi vẫn giữ nguyên cấu trúc dữ liệu và mối quan hệ giữa các mục được phát hiện. Bạn có thể dùng Phân tíchDocument API với FeatureType as TABLE để phát hiện tất cả các bảng trong một tài liệu. Hình dưới đây minh họa quá trình này.

Trích xuất dữ liệu có cấu trúc

Xem mã sau đây:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

Chúng tôi điều hành analyze_document() phương pháp với FeatureType as TABLES trên tài liệu lịch sử nhân viên và thu được bảng trích xuất theo kết quả sau.

Phân tích phản hồi API tài liệu để trích xuất bảng

Trích xuất dữ liệu bán cấu trúc

Bạn có thể trích xuất dữ liệu bán cấu trúc như biểu mẫu hoặc cặp khóa-giá trị từ tài liệu trong khi vẫn giữ nguyên cấu trúc dữ liệu và mối quan hệ giữa các mục được phát hiện. Bạn có thể dùng Phân tíchDocument API với FeatureType as FORMS để phát hiện tất cả các hình thức trong một tài liệu. Sơ đồ sau đây minh họa quá trình này.

Trích xuất dữ liệu bán cấu trúc

Xem mã sau đây:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

Ở đây, chúng tôi chạy analyze_document() phương pháp với FeatureType as FORMS trên tài liệu ứng dụng của nhân viên và lấy bảng trích xuất trong kết quả.

Xử lý tài liệu thông minh với dịch vụ AI của AWS: Phần 1 Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Trích xuất dữ liệu phi cấu trúc

Amazon Textract là giải pháp tối ưu để trích xuất văn bản dày đặc với độ chính xác OCR hàng đầu trong ngành. Bạn có thể dùng Phát HiệnTài LiệuVăn Bản API để phát hiện các dòng văn bản và các từ tạo nên một dòng văn bản, như được minh họa trong hình dưới đây.

Trích xuất dữ liệu phi cấu trúc

Xem mã sau đây:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

Bây giờ chúng tôi chạy detect_document_text() phương pháp trên ảnh mẫu và thu được văn bản thô được trích xuất trong kết quả.

Xử lý tài liệu thông minh với dịch vụ AI của AWS: Phần 1 Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Hóa đơn và biên lai

Amazon Textract cung cấp hỗ trợ chuyên biệt để xử lý hóa đơn và biên lai trên quy mô lớn. Các Phân tíchChi phí API có thể trích xuất dữ liệu được gắn nhãn rõ ràng, dữ liệu ngụ ý và chi tiết đơn hàng từ danh sách hàng hóa hoặc dịch vụ được chia thành từng khoản từ hầu hết mọi hóa đơn hoặc biên lai mà không cần bất kỳ mẫu hoặc cấu hình nào. Hình dưới đây minh họa quá trình này.

Trích xuất hóa đơn và biên lai

Xem mã sau đây:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Textract có thể tìm thấy tên nhà cung cấp trên biên lai ngay cả khi tên đó chỉ được biểu thị trong biểu trưng trên trang mà không có nhãn rõ ràng được gọi là “nhà cung cấp”. Nó cũng có thể tìm và trích xuất các mục chi phí, số lượng và giá không được gắn nhãn bằng tiêu đề cột cho mục hàng.

Phân tích phản hồi API chi phí

Giấy tờ tùy thân

Văn bản Amazon ID phân tích API có thể giúp bạn tự động trích xuất thông tin từ các tài liệu nhận dạng, chẳng hạn như giấy phép lái xe và hộ chiếu mà không cần mẫu hoặc cấu hình. Chúng tôi có thể trích xuất thông tin cụ thể, chẳng hạn như ngày hết hạn và ngày sinh, cũng như xác định và trích xuất thông minh một cách thông minh, chẳng hạn như tên và địa chỉ. Sơ đồ sau đây minh họa quá trình này.

Trích xuất tài liệu nhận dạng

Xem mã sau đây:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

Chúng ta có thể sử dụng tabulate để có được một kết quả in đẹp:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

Xử lý tài liệu thông minh với dịch vụ AI của AWS: Phần 1 Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Chúng tôi khuyên bạn nên thực hiện quá trình trích xuất tài liệu chi tiết mã mẫu trên GitHub. Để biết thêm thông tin về các mẫu mã đầy đủ trong bài đăng này, hãy tham khảo Repo GitHub.

Kết luận

Trong bài đăng đầu tiên của loạt bài gồm hai phần này, chúng tôi đã thảo luận về các giai đoạn khác nhau của IDP và kiến trúc giải pháp. Chúng tôi cũng đã thảo luận về việc phân loại tài liệu bằng trình phân loại tùy chỉnh của Amazon Comprehend. Tiếp theo, chúng tôi đã khám phá những cách bạn có thể sử dụng Amazon Textract để trích xuất thông tin từ các loại tài liệu phi cấu trúc, bán cấu trúc, có cấu trúc và chuyên biệt.

In phần 2 Trong loạt bài này, chúng ta tiếp tục thảo luận về các tính năng trích xuất và truy vấn của Amazon Textract. Chúng tôi xem xét cách sử dụng các thực thể được xác định trước và thực thể tùy chỉnh của Amazon Comprehend để trích xuất các thuật ngữ kinh doanh chính từ các tài liệu có văn bản dày đặc và cách tích hợp đánh giá con người trong vòng lặp Amazon A2I trong quy trình IDP của bạn.

Chúng tôi khuyên bạn nên xem lại các phần bảo mật của Văn bản Amazon, Amazon hiểuvà amazon A2I tài liệu và làm theo hướng dẫn được cung cấp. Ngoài ra, hãy dành chút thời gian để xem xét và hiểu giá cả cho Văn bản Amazon, Amazon hiểuvà amazon A2I.

Giới thiệu về tác giả

Suprakash Dutta là Kiến trúc sư giải pháp tại Amazon Web Services. Ông tập trung vào chiến lược chuyển đổi kỹ thuật số, hiện đại hóa và di chuyển ứng dụng, phân tích dữ liệu và học máy.

Sonali Sahu đang lãnh đạo nhóm Kiến trúc sư giải pháp AI/ML xử lý tài liệu thông minh tại Amazon Web Services. Cô ấy là một người đam mê công nghệ và thích làm việc với khách hàng để giải quyết các vấn đề phức tạp bằng cách sử dụng sự đổi mới. Lĩnh vực trọng tâm cốt lõi của cô là trí tuệ nhân tạo và học máy để xử lý tài liệu thông minh.

Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao, tập trung vào AI/ML và phân tích dữ liệu. Anjan là thành viên của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu, đồng thời đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AWS AI.

Chinmayee Rane là một Kiến trúc sư Giải pháp Chuyên gia về AI / ML tại Amazon Web Services. Cô ấy đam mê toán học ứng dụng và máy học. Cô tập trung vào việc thiết kế các giải pháp xử lý tài liệu thông minh cho khách hàng AWS. Ngoài giờ làm việc, cô thích khiêu vũ salsa và bachata.

Dấu thời gian: Tháng Tám 15, 2022Tháng Tám 16, 2022

Dấu thời gian: Jan 13, 2023

Xử lý tài liệu thông minh với các dịch vụ AWS AI: Phần 1

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Giai đoạn thu thập dữ liệu

Giai đoạn phân loại

Chuẩn bị dữ liệu đào tạo

Huấn luyện một trình phân loại tùy chỉnh

Triển khai một điểm cuối thời gian thực

Phân loại tài liệu với điểm cuối thời gian thực

Giai đoạn khai thác

Trích xuất dữ liệu có cấu trúc

Trích xuất dữ liệu bán cấu trúc

Trích xuất dữ liệu phi cấu trúc

Hóa đơn và biên lai

Giấy tờ tùy thân

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Định giá tối ưu để có lợi nhuận tối đa bằng cách sử dụng Amazon SageMaker

Chọn thời gian cụ thể để dự báo với Amazon Forecast

Tăng tốc các dự án xác minh danh tính của bạn bằng cách triển khai mẫu AWS Amplify và Amazon Rekognition

Thư viện song song mô hình Amazon SageMaker hiện tăng tốc khối lượng công việc PyTorch FSDP lên tới 20% | Dịch vụ web của Amazon

Tăng hiệu suất mô hình ML và giảm thời gian đào tạo bằng cách sử dụng các thuật toán tích hợp sẵn của Amazon SageMaker với các mô hình được đào tạo trước

Phiên bản Amazon EC2 DL2q dành cho suy luận AI hiệu suất cao, tiết kiệm chi phí hiện đã có sẵn rộng rãi | Dịch vụ web của Amazon

Giảm chi phí và độ phức tạp của tiền xử lý ML với Amazon S3 Object Lambda

Chạy khối lượng công việc suy luận bằng máy học trên các phiên bản dựa trên AWS Graviton với Amazon SageMaker

Các chỉ số để đánh giá việc kiểm duyệt nội dung trong Amazon Rekognition và các dịch vụ kiểm duyệt nội dung khác

Tận dụng trí tuệ nhân tạo và máy học tại Parsons với AWS DeepRacer

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản