Xử lý tài liệu thông minh với dịch vụ AI của AWS: Phần 2

Được xuất bản lại bởi Plato

Người theo dõi: 0

Xử lý tài liệu thông minh (IDP) của Amazon giúp bạn tăng tốc chu kỳ ra quyết định kinh doanh và giảm chi phí. Trong nhiều ngành, khách hàng cần xử lý hàng triệu tài liệu mỗi năm trong quá trình kinh doanh của mình. Đối với những khách hàng xử lý hàng triệu tài liệu, đây là khía cạnh quan trọng đối với trải nghiệm của người dùng cuối và là ưu tiên chuyển đổi kỹ thuật số hàng đầu. Do định dạng khác nhau, hầu hết các công ty đều xử lý thủ công các tài liệu như W2, khiếu nại, tài liệu ID, hóa đơn và hợp đồng pháp lý hoặc sử dụng các giải pháp OCR (nhận dạng ký tự quang học) cũ, tốn thời gian, dễ bị lỗi và tốn kém. Quy trình IDP với các dịch vụ AI của AWS cho phép bạn vượt xa OCR với khả năng trích xuất thông tin chính xác và linh hoạt hơn, xử lý tài liệu nhanh hơn, tiết kiệm tiền và chuyển tài nguyên sang các nhiệm vụ có giá trị cao hơn.

Trong loạt bài này, chúng tôi cung cấp thông tin tổng quan về quy trình IDP để giảm lượng thời gian và công sức cần thiết để nhập tài liệu và đưa thông tin chính vào các hệ thống xuôi dòng. Hình dưới đây cho thấy các giai đoạn thường là một phần của quy trình làm việc IDP.

Trong loạt bài gồm hai phần này, chúng tôi thảo luận về cách bạn có thể tự động hóa và xử lý tài liệu một cách thông minh trên quy mô lớn bằng cách sử dụng dịch vụ AI của AWS. TRONG phần 1, chúng tôi đã thảo luận về ba giai đoạn đầu tiên của quy trình làm việc IDP. Trong bài đăng này, chúng tôi thảo luận về các giai đoạn công việc còn lại.

Tổng quan về giải pháp

Kiến trúc tham khảo sau đây cho thấy cách bạn có thể sử dụng các dịch vụ AI của AWS như Văn bản Amazon và Amazon hiểu, cùng với các dịch vụ AWS khác để triển khai quy trình làm việc IDP. Trong phần 1, chúng tôi đã mô tả các giai đoạn thu thập dữ liệu và phân loại tài liệu, trong đó chúng tôi phân loại và gắn thẻ các tài liệu như bảng sao kê ngân hàng, hóa đơn và chứng từ biên nhận. Chúng ta cũng đã thảo luận về giai đoạn trích xuất, nơi bạn có thể trích xuất thông tin kinh doanh có ý nghĩa từ tài liệu của mình. Trong bài đăng này, chúng tôi mở rộng quy trình IDP bằng cách xem xét các thực thể mặc định và tùy chỉnh của Amazon Comprehend trong giai đoạn trích xuất, thực hiện làm giàu tài liệu và cũng xem xét ngắn gọn các khả năng của AI tăng cường của Amazon (Amazon A2I) để đưa lực lượng đánh giá con người vào giai đoạn đánh giá và xác nhận.

Chúng tôi cũng dùng Amazon hiểu y tế là một phần của giải pháp này, là dịch vụ trích xuất thông tin từ văn bản y tế phi cấu trúc một cách chính xác và nhanh chóng, đồng thời xác định mối quan hệ giữa các thông tin sức khỏe được trích xuất, đồng thời liên kết với các bản thể y tế như ICD-10-CM, RxNorm và SNOMED CT.

Amazon A2I là dịch vụ machine learning (ML) giúp dễ dàng xây dựng các quy trình làm việc cần thiết cho hoạt động đánh giá của con người. Amazon A2I mang đến đánh giá của con người cho tất cả các nhà phát triển, loại bỏ gánh nặng không phân biệt liên quan đến việc xây dựng hệ thống đánh giá của con người hoặc quản lý số lượng lớn người đánh giá cho dù hệ thống đó có chạy trên AWS hay không. Amazon A2I tích hợp với Văn bản Amazon và Amazon hiểu để cung cấp cho bạn khả năng giới thiệu các bước đánh giá của con người trong quy trình làm việc IDP của bạn.

Điều kiện tiên quyết

Trước khi bắt đầu, hãy tham khảo phần 1 để có cái nhìn tổng quan cấp cao về IDP và thông tin chi tiết về các giai đoạn thu thập, phân loại và trích xuất dữ liệu.

Giai đoạn khai thác

Trong phần 1 của loạt bài này, chúng ta đã thảo luận cách sử dụng các tính năng của Amazon Textract để trích xuất dữ liệu chính xác cho mọi loại tài liệu. Để mở rộng giai đoạn này, chúng tôi sử dụng các thực thể được đào tạo trước của Amazon Comprehend và trình nhận dạng thực thể tùy chỉnh của Amazon Comprehend để trích xuất tài liệu thêm. Mục đích của trình nhận dạng thực thể tùy chỉnh là xác định các thực thể cụ thể và tạo siêu dữ liệu tùy chỉnh liên quan đến tài liệu của chúng tôi ở định dạng CSV hoặc định dạng mà con người có thể đọc được để người dùng doanh nghiệp phân tích sau này.

Được công nhận thực thể

Nhận dạng thực thể được đặt tên (NER) là một nhiệm vụ phụ xử lý ngôn ngữ tự nhiên (NLP) bao gồm sàng lọc dữ liệu văn bản để xác định vị trí các cụm danh từ, được gọi là thực thể được đặt tên và phân loại từng thực thể bằng nhãn, chẳng hạn như thương hiệu, ngày tháng, sự kiện, địa điểm, tổ chức , người, số lượng hoặc chức danh. Ví dụ: trong tuyên bố “Gần đây tôi đã đăng ký Amazon Prime,” Amazon Prime là thực thể được đặt tên và có thể được phân loại thành một thương hiệu.

Amazon Comprehend cho phép bạn phát hiện các thực thể tùy chỉnh như vậy trong tài liệu của mình. Mỗi thực thể cũng có điểm mức độ tin cậy mà Amazon Comprehend trả về cho từng loại thực thể. Sơ đồ sau minh họa quá trình nhận dạng thực thể.

Nhận dạng thực thể được đặt tên với Amazon Comprehend

Để lấy các thực thể từ tài liệu văn bản, chúng ta gọi comprehend.detect_entities() phương thức và định cấu hình mã ngôn ngữ và văn bản làm tham số đầu vào:

def get_entities(text):
    try:
        #detect entities
        entities = comprehend.detect_entities(LanguageCode="en", Text=text)  
        df = pd.DataFrame(entities["Entities"], columns = ['Text', 'Type'])
        display(HTML(df.to_html(index=False)))
    except Exception as e:
        print(e)

Chúng tôi điều hành get_entities() phương pháp trên tài liệu ngân hàng và có được danh sách thực thể trong kết quả.

Phản hồi từ phương thức get_entities từ Comprehend.

Mặc dù việc trích xuất thực thể hoạt động khá tốt trong việc xác định các loại thực thể mặc định cho mọi thứ trong tài liệu ngân hàng, nhưng chúng tôi muốn các thực thể cụ thể được nhận dạng cho trường hợp sử dụng của chúng tôi. Cụ thể hơn, chúng ta cần xác định số tài khoản tiết kiệm và séc của khách hàng trong sao kê ngân hàng. Chúng tôi có thể trích xuất các thuật ngữ kinh doanh chính này bằng cách sử dụng tính năng nhận dạng thực thể tùy chỉnh của Amazon Comprehend.

Đào tạo mô hình nhận dạng thực thể tùy chỉnh của Amazon Comprehend

Để phát hiện các thực thể cụ thể mà chúng tôi quan tâm từ bảng sao kê ngân hàng của khách hàng, chúng tôi đào tạo trình nhận dạng thực thể tùy chỉnh với hai thực thể tùy chỉnh: SAVINGS_AC và CHECKING_AC.

Sau đó, chúng tôi đào tạo một mô hình nhận dạng thực thể tùy chỉnh. Chúng ta có thể chọn một trong hai cách để cung cấp dữ liệu cho Amazon Comprehend: chú thích hoặc danh sách thực thể.

Phương pháp chú thích thường có thể mang lại kết quả tinh tế hơn cho tệp hình ảnh, tệp PDF hoặc tài liệu Word vì bạn huấn luyện mô hình bằng cách gửi ngữ cảnh chính xác hơn dưới dạng chú thích cùng với tài liệu của mình. Tuy nhiên, phương pháp chú thích có thể tốn nhiều thời gian và công sức. Để đơn giản hóa bài đăng blog này, chúng tôi sử dụng phương pháp danh sách thực thể mà bạn chỉ có thể sử dụng cho các tài liệu văn bản thuần túy. Phương pháp này cung cấp cho chúng ta một tệp CSV chứa văn bản thuần túy và loại thực thể tương ứng của nó, như được hiển thị trong ví dụ trước. Các thực thể trong tệp này sẽ dành riêng cho nhu cầu kinh doanh của chúng tôi (số tài khoản tiết kiệm và séc).

Để biết thêm chi tiết về cách chuẩn bị dữ liệu huấn luyện cho các trường hợp sử dụng khác nhau bằng cách sử dụng chú thích hoặc phương pháp danh sách thực thể, hãy tham khảo Chuẩn bị dữ liệu đào tạo.

Ảnh chụp màn hình sau đây hiển thị ví dụ về danh sách thực thể của chúng tôi.

Ảnh chụp nhanh của danh sách thực thể.

Tạo điểm cuối thời gian thực NER tùy chỉnh của Amazon Comprehend

Tiếp theo, chúng tôi tạo điểm cuối thời gian thực của trình nhận dạng thực thể tùy chỉnh bằng cách sử dụng mô hình mà chúng tôi đã đào tạo. Chúng tôi sử dụng Tạo điểm cuối API thông qua comprehend.create_endpoint() phương pháp tạo điểm cuối thời gian thực:

#create comprehend endpoint
model_arn = entity_recognizer_arn
ep_name = 'idp-er-endpoint'

try:
    endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ER_ENDPOINT_ARN=endpoint_response['EndpointArn']
    print(f'Endpoint created with ARN: {ER_ENDPOINT_ARN}')
    %store ER_ENDPOINT_ARN
except Exception as error:
    if error.response['Error']['Code'] == 'ResourceInUseException':
        print(f'An endpoint with the name "{ep_name}" already exists.')
        ER_ENDPOINT_ARN = f'arn:aws:comprehend:{region}:{account_id}:entity-recognizer-endpoint/{ep_name}'
        print(f'The classifier endpoint ARN is: "{ER_ENDPOINT_ARN}"')
        %store ER_ENDPOINT_ARN
    else:
        print(error)

Sau khi đào tạo trình nhận dạng thực thể tùy chỉnh, chúng tôi sử dụng điểm cuối thời gian thực tùy chỉnh để trích xuất một số thông tin phong phú từ tài liệu, sau đó thực hiện biên tập tài liệu với sự trợ giúp của các thực thể tùy chỉnh được Amazon Comprehend công nhận và thông tin hộp giới hạn từ Amazon Textract.

Giai đoạn làm giàu

Trong giai đoạn làm giàu tài liệu, chúng tôi có thể thực hiện làm giàu tài liệu bằng cách sắp xếp lại dữ liệu thông tin nhận dạng cá nhân (PII), trích xuất thuật ngữ kinh doanh tùy chỉnh, v.v. Tài liệu mẫu trước đây của chúng tôi (bản sao kê ngân hàng) chứa số tài khoản tiết kiệm và tài khoản séc của khách hàng mà chúng tôi muốn biên tập lại. Vì chúng tôi đã biết các thực thể tùy chỉnh này thông qua mô hình NER tùy chỉnh Amazon Comprehend nên chúng tôi có thể dễ dàng sử dụng kiểu dữ liệu hình học Amazon Textract để sắp xếp lại các thực thể PII này ở bất kỳ vị trí nào chúng xuất hiện trong tài liệu. Trong cấu trúc sau đây, chúng tôi loại bỏ các điều khoản kinh doanh chính (tài khoản tiết kiệm và tài khoản séc) khỏi tài liệu sao kê ngân hàng.

Giai đoạn làm giàu tài liệu

Như bạn có thể thấy trong ví dụ sau, số tài khoản séc và tài khoản tiết kiệm hiện bị ẩn trong bảng sao kê ngân hàng.

Mẫu báo cáo ngân hàng được biên tập lại.

Các giải pháp OCR truyền thống gặp khó khăn trong việc trích xuất dữ liệu chính xác từ hầu hết các tài liệu phi cấu trúc và bán cấu trúc do có sự khác biệt đáng kể về cách trình bày dữ liệu trên nhiều phiên bản và định dạng của các tài liệu này. Sau đó, bạn có thể cần triển khai logic tiền xử lý tùy chỉnh hoặc thậm chí trích xuất thông tin từ các tài liệu này theo cách thủ công. Trong trường hợp này, quy trình IDP hỗ trợ hai tính năng mà bạn có thể sử dụng: truy vấn NER tùy chỉnh của Amazon Comprehend và truy vấn Amazon Textract. Cả hai dịch vụ này đều sử dụng NLP để rút ra những hiểu biết sâu sắc về nội dung của tài liệu.

Trích xuất bằng truy vấn Amazon Textract

Khi xử lý tài liệu bằng Amazon Textract, bạn có thể thêm tính năng truy vấn mới vào phân tích của mình để chỉ định thông tin nào bạn cần. Điều này liên quan đến việc chuyển một câu hỏi NLP, chẳng hạn như “Số an sinh xã hội của khách hàng là gì?” tới văn bản Amazon. Amazon Textract tìm thông tin trong tài liệu cho câu hỏi đó và trả về cấu trúc phản hồi tách biệt với phần thông tin còn lại của tài liệu. Các truy vấn có thể được xử lý một mình hoặc kết hợp với bất kỳ truy vấn nào khác FeatureType, Chẳng hạn như Tables or Forms.

Trích xuất dựa trên truy vấn bằng Amazon Textract.

Với truy vấn Amazon Textract, bạn có thể trích xuất thông tin với độ chính xác cao bất kể dữ liệu được trình bày như thế nào trong cấu trúc tài liệu, chẳng hạn như biểu mẫu, bảng và hộp kiểm hay được đặt trong các phần lồng nhau trong tài liệu.

Để minh họa tính năng truy vấn, chúng tôi trích xuất những thông tin có giá trị như họ và tên bệnh nhân, nhà sản xuất liều lượng, v.v. từ các tài liệu như thẻ tiêm chủng COVID-19.

Mẫu phiếu tiêm chủng.

Chúng tôi sử dụng textract.analyze_document() chức năng và chỉ định các FeatureType as QUERIES cũng như thêm các truy vấn dưới dạng câu hỏi ngôn ngữ tự nhiên trong QueriesConfig.

Đoạn mã sau đã được cắt bớt nhằm mục đích đơn giản hóa. Để biết mã đầy đủ, hãy tham khảo GitHub mã mẫu cho analyze_document().

response = None
with open(image_filename, 'rb') as document:
    imageBytes = bytearray(document.read())

# Call Textract
response = textract.analyze_document(
    Document={'Bytes': imageBytes},
    FeatureTypes=["QUERIES"],
    QueriesConfig={
            "Queries": [{
                "Text": "What is the date for the 1st dose covid-19?",
                "Alias": "COVID_VACCINATION_FIRST_DOSE_DATE"
            },
# code trimmed down for simplification
#..
]
})

Đối với tính năng truy vấn, textract.analyze_document() hàm xuất ra tất cả các TỪ và DÒNG OCR, thông tin hình học và điểm tin cậy trong JSON phản hồi. Tuy nhiên, chúng tôi chỉ có thể in ra thông tin mà chúng tôi đã truy vấn.

Document là hàm bao bọc được sử dụng để giúp phân tích phản hồi JSON từ API. Nó cung cấp khả năng trừu tượng hóa ở mức độ cao và làm cho đầu ra API có thể lặp lại và dễ dàng lấy thông tin ra. Để biết thêm thông tin, hãy tham khảo Trình phân tích phản hồi văn bản và Máy kéo Kho GitHub. Sau khi xử lý phản hồi, chúng tôi nhận được thông tin sau như trong ảnh chụp màn hình.

import trp.trp2 as t2
from tabulate import tabulate

d = t2.TDocumentSchema().load(response)
page = d.pages[0]

query_answers = d.get_query_answers(page=page)

print(tabulate(query_answers, tablefmt="github"))

Phản hồi từ việc trích xuất truy vấn.

Giai đoạn xem xét và xác nhận

Đây là giai đoạn cuối cùng trong quy trình IDP của chúng tôi. Trong giai đoạn này, chúng tôi có thể sử dụng các quy tắc kinh doanh của mình để kiểm tra tính đầy đủ của tài liệu. Ví dụ: từ tài liệu yêu cầu bảo hiểm, ID yêu cầu được trích xuất chính xác và thành công. Chúng tôi có thể sử dụng các công nghệ serverless của AWS như AWS Lambda để tự động hóa hơn nữa các quy tắc kinh doanh này. Hơn nữa, chúng tôi có thể huy động lực lượng lao động con người để đánh giá tài liệu nhằm đảm bảo các dự đoán là chính xác. Amazon A2I tăng tốc các quy trình xây dựng cần thiết để con người đánh giá nhằm đưa ra các dự đoán ML.

Với Amazon A2I, bạn có thể cho phép người đánh giá can thiệp khi mô hình không thể đưa ra dự đoán có độ tin cậy cao hoặc kiểm tra dự đoán của mô hình đó một cách liên tục. Mục tiêu của quy trình IDP là giảm lượng đầu vào của con người cần thiết để đưa thông tin chính xác vào hệ thống quyết định của bạn. Với IDP, bạn có thể giảm lượng nhân lực đầu vào cho quá trình xử lý tài liệu của mình cũng như tổng chi phí xử lý tài liệu.

Sau khi đã trích xuất tất cả thông tin chính xác từ tài liệu, bạn có thể thêm các quy tắc dành riêng cho doanh nghiệp bằng cách sử dụng hàm Lambda và cuối cùng là tích hợp giải pháp với cơ sở dữ liệu hoặc ứng dụng tiếp theo.

Giai đoạn xem xét và xác minh của con người.

Để biết thêm thông tin về cách tạo quy trình làm việc Amazon A2I, hãy làm theo hướng dẫn từ Chuẩn bị cho Mô-đun 4 bước vào cuối 03-idp-document-enrichment.ipynb trong Repo GitHub.

Làm sạch

Để tránh phát sinh phí trong tương lai đối với tài khoản AWS của bạn, hãy xóa tài nguyên mà chúng tôi đã cung cấp khi thiết lập kho lưu trữ bằng cách điều hướng đến Phần dọn dẹp trong kho lưu trữ của chúng tôi.

Kết luận

Trong bài đăng gồm hai phần này, chúng ta đã biết cách xây dựng quy trình IDP từ đầu đến cuối mà không cần hoặc có ít hoặc không có kinh nghiệm về ML. Chúng tôi đã thảo luận về các giai đoạn khác nhau của quy trình và giải pháp thực hành với các dịch vụ AI của AWS như Amazon Textract, Amazon Comprehend, Amazon Comprehend Medical và Amazon A2I để thiết kế và xây dựng các trường hợp sử dụng dành riêng cho ngành. bên trong bài viết đầu tiên của loạt bài này, chúng tôi đã trình bày cách sử dụng Amazon Textract và Amazon Comprehend để trích xuất thông tin từ nhiều tài liệu khác nhau. Trong bài đăng này, chúng tôi đã đi sâu vào cách huấn luyện trình nhận dạng thực thể tùy chỉnh của Amazon Comprehend để trích xuất các thực thể tùy chỉnh từ tài liệu của chúng tôi. Chúng tôi cũng đã thực hiện các kỹ thuật làm phong phú tài liệu như biên tập bằng Amazon Textract cũng như danh sách thực thể từ Amazon Comprehend. Cuối cùng, chúng ta đã biết cách bạn có thể sử dụng quy trình đánh giá con người Amazon A2I cho Amazon Textract bằng cách thêm một nhóm làm việc riêng.

Để biết thêm thông tin về các mẫu mã đầy đủ trong bài đăng này, hãy tham khảo Repo GitHub.

Chúng tôi khuyên bạn nên xem lại các phần bảo mật của Văn bản Amazon, Amazon hiểuvà amazon A2I tài liệu và làm theo hướng dẫn được cung cấp. Ngoài ra, hãy dành chút thời gian để xem xét và hiểu giá cả cho Văn bản Amazon, Amazon hiểuvà amazon A2I.

Giới thiệu về tác giả

Chín Rane là một Kiến trúc sư Giải pháp Chuyên gia về AI / ML tại Amazon Web Services. Cô ấy đam mê toán học ứng dụng và máy học. Cô tập trung vào việc thiết kế các giải pháp xử lý tài liệu thông minh cho khách hàng AWS. Ngoài giờ làm việc, cô thích khiêu vũ salsa và bachata.

Sonali Sahu đang lãnh đạo nhóm Kiến trúc sư giải pháp AI/ML xử lý tài liệu thông minh tại Amazon Web Services. Cô ấy là một người đam mê công nghệ và thích làm việc với khách hàng để giải quyết các vấn đề phức tạp bằng cách sử dụng sự đổi mới. Lĩnh vực trọng tâm cốt lõi của cô là trí tuệ nhân tạo và học máy để xử lý tài liệu thông minh.

Anjan Biswas là Kiến trúc sư giải pháp cấp cao chuyên gia về AI/ML. Anjan làm việc với các khách hàng doanh nghiệp và đam mê phát triển, triển khai và giải thích AI/ML, phân tích dữ liệu và các giải pháp dữ liệu lớn. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu, đồng thời đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên AWS.

Suprakash Dutta là Kiến trúc sư giải pháp tại Amazon Web Services. Ông tập trung vào chiến lược chuyển đổi kỹ thuật số, hiện đại hóa và di chuyển ứng dụng, phân tích dữ liệu và học máy. Anh là thành viên của cộng đồng AI/ML tại AWS và thiết kế các giải pháp xử lý tài liệu thông minh.