Giới thiệu tính năng phân loại và nhận dạng thực thể một bước với Amazon Comprehend để xử lý tài liệu thông minh

Được xuất bản lại bởi Plato

Người theo dõi: 0

“Các giải pháp xử lý tài liệu thông minh (IDP) trích xuất dữ liệu để hỗ trợ tự động hóa các tác vụ xử lý tài liệu có khối lượng lớn, lặp đi lặp lại cũng như để phân tích và hiểu biết sâu sắc. IDP sử dụng các công nghệ ngôn ngữ tự nhiên và thị giác máy tính để trích xuất dữ liệu từ nội dung có cấu trúc và phi cấu trúc, đặc biệt là từ các tài liệu, để hỗ trợ tự động hóa và nâng cao.” - Gartner

Mục tiêu của quá trình xử lý tài liệu thông minh (IDP) của Amazon là tự động hóa quá trình xử lý một lượng lớn tài liệu bằng cách sử dụng máy học (ML) để tăng năng suất, giảm chi phí liên quan đến lao động con người và cung cấp trải nghiệm người dùng liền mạch. Khách hàng dành nhiều thời gian và công sức để xác định tài liệu và trích xuất thông tin quan trọng từ chúng cho các trường hợp sử dụng khác nhau. Hôm nay, Amazon hiểu hỗ trợ phân loại cho tài liệu văn bản thuần túy, yêu cầu bạn xử lý trước tài liệu ở định dạng bán cấu trúc (được quét, PDF kỹ thuật số hoặc hình ảnh như PNG, JPG, TIFF) và sau đó sử dụng đầu ra văn bản thuần túy để chạy suy luận với phân loại tùy chỉnh người mẫu. Tương tự, đối với công nhận thực thể tùy chỉnh trong thời gian thực, cần phải xử lý trước để trích xuất văn bản đối với các tài liệu bán cấu trúc như tệp PDF và tệp hình ảnh. Quy trình gồm hai bước này tạo ra sự phức tạp trong quy trình xử lý tài liệu.

Năm ngoái, chúng tôi đã công bố hỗ trợ cho các định dạng tài liệu gốc với nhận dạng thực thể được đặt tên tùy chỉnh (NER) công việc không đồng bộ. Hôm nay, chúng tôi rất vui mừng được công bố phân loại tài liệu một bước và phân tích thời gian thực cho NER đối với tài liệu bán cấu trúc ở định dạng gốc (PDF, TIFF, JPG, PNG) bằng cách sử dụng Amazon Comprehend. Cụ thể, chúng tôi đang công bố các khả năng sau:

Hỗ trợ các tài liệu ở định dạng gốc để phân tích thời gian thực tùy chỉnh và các công việc không đồng bộ
Hỗ trợ các tài liệu ở định dạng gốc để phân tích thời gian thực nhận dạng thực thể tùy chỉnh

Với bản phát hành mới này, phân loại tùy chỉnh và nhận dạng thực thể tùy chỉnh (NER) của Amazon Comprehend hỗ trợ trực tiếp các tài liệu ở các định dạng như PDF, TIFF, PNG và JPEG mà không cần trích xuất văn bản thuần túy được mã hóa UTF8 từ chúng. Hình dưới đây so sánh quy trình trước đó với quy trình và hỗ trợ mới.

Tính năng này đơn giản hóa quy trình xử lý tài liệu bằng cách loại bỏ mọi bước tiền xử lý cần thiết để trích xuất văn bản thuần túy từ tài liệu và giảm tổng thời gian cần thiết để xử lý chúng.

Trong bài đăng này, chúng tôi thảo luận về thiết kế giải pháp quy trình công việc IDP cấp cao, một vài trường hợp sử dụng trong ngành, các tính năng mới của Amazon Comprehend và cách sử dụng chúng.

Tổng quan về giải pháp

Hãy bắt đầu bằng cách khám phá một trường hợp sử dụng phổ biến trong ngành bảo hiểm. Một quy trình yêu cầu bảo hiểm điển hình bao gồm một gói yêu cầu có thể chứa nhiều tài liệu. Khi yêu cầu bảo hiểm được nộp, nó bao gồm các tài liệu như mẫu yêu cầu bảo hiểm, báo cáo sự cố, tài liệu nhận dạng và tài liệu yêu cầu của bên thứ ba. Khối lượng tài liệu để xử lý và phân xử yêu cầu bảo hiểm có thể lên tới hàng trăm, thậm chí hàng nghìn trang tùy thuộc vào loại yêu cầu và quy trình kinh doanh liên quan. Các đại diện và người xét xử yêu cầu bảo hiểm thường dành hàng trăm giờ để sàng lọc, phân loại và trích xuất thông tin theo cách thủ công từ hàng trăm hoặc thậm chí hàng nghìn hồ sơ yêu cầu bồi thường.

Tương tự như trường hợp sử dụng của ngành bảo hiểm, ngành thanh toán cũng xử lý khối lượng lớn tài liệu bán cấu trúc cho các thỏa thuận thanh toán xuyên biên giới, hóa đơn và báo cáo ngoại hối. Người dùng doanh nghiệp dành phần lớn thời gian của họ cho các hoạt động thủ công như xác định, tổ chức, xác thực, trích xuất và chuyển thông tin cần thiết cho các ứng dụng xuôi dòng. Quy trình thủ công này tẻ nhạt, lặp đi lặp lại, dễ xảy ra lỗi, tốn kém và khó mở rộng quy mô. Các ngành khác phải đối mặt với những thách thức tương tự bao gồm thế chấp và cho vay, chăm sóc sức khỏe và khoa học đời sống, pháp lý, kế toán và quản lý thuế. Điều cực kỳ quan trọng đối với các doanh nghiệp là xử lý khối lượng tài liệu lớn như vậy một cách kịp thời với mức độ chính xác cao và nỗ lực thủ công danh nghĩa.

Amazon Comprehend cung cấp các khả năng chính để tự động hóa việc phân loại tài liệu và trích xuất thông tin từ một khối lượng lớn tài liệu với độ chính xác cao, theo cách có thể mở rộng và tiết kiệm chi phí. Sơ đồ sau đây cho thấy quy trình làm việc hợp lý của IDP với Amazon Comprehend. Cốt lõi của quy trình làm việc bao gồm phân loại tài liệu và trích xuất thông tin bằng cách sử dụng NER với các mô hình tùy chỉnh của Amazon Comprehend. Sơ đồ cũng cho thấy cách các mô hình tùy chỉnh có thể được cải tiến liên tục để cung cấp độ chính xác cao hơn khi các tài liệu và quy trình kinh doanh phát triển.

Phân loại tài liệu tùy chỉnh

Với phân loại tùy chỉnh của Amazon Comprehend, bạn có thể sắp xếp tài liệu của mình thành các danh mục (lớp) được xác định trước. Ở cấp độ cao, sau đây là các bước để thiết lập bộ phân loại tài liệu tùy chỉnh và thực hiện phân loại tài liệu:

Chuẩn bị dữ liệu huấn luyện để huấn luyện bộ phân loại tài liệu tùy chỉnh.
Huấn luyện bộ phân loại tài liệu khách hàng với dữ liệu huấn luyện.
Sau khi mô hình được đào tạo, tùy chọn triển khai điểm cuối thời gian thực.
Thực hiện phân loại tài liệu với công việc không đồng bộ hoặc trong thời gian thực bằng cách sử dụng điểm cuối.

Bước 1 và 2 thường được thực hiện khi bắt đầu dự án IDP sau khi các lớp tài liệu liên quan đến quy trình kinh doanh được xác định. Sau đó, một mô hình phân loại tùy chỉnh có thể được đào tạo lại định kỳ để cải thiện độ chính xác và giới thiệu các lớp tài liệu mới. Bạn có thể đào tạo một mô hình phân loại tùy chỉnh trong chế độ nhiều lớp or chế độ đa nhãn. Việc đào tạo có thể được thực hiện cho từng người theo một trong hai cách: sử dụng tệp CSV hoặc sử dụng tệp kê khai tăng cường. tham khảo Chuẩn bị dữ liệu huấn luyện để biết thêm chi tiết về đào tạo mô hình phân loại tùy chỉnh. Sau khi mô hình phân loại tùy chỉnh được đào tạo, một tài liệu có thể được phân loại bằng cách sử dụng phân tích thời gian thực hoặc một công việc không đồng bộ. Phân tích thời gian thực yêu cầu một điểm cuối sẽ được triển khai với mô hình được đào tạo và phù hợp nhất với các tài liệu nhỏ tùy thuộc vào trường hợp sử dụng. Đối với một số lượng lớn tài liệu, công việc phân loại không đồng bộ là phù hợp nhất.

Đào tạo một mô hình phân loại tài liệu tùy chỉnh

Để chứng minh tính năng mới, chúng tôi đã đào tạo một mô hình phân loại tùy chỉnh ở chế độ nhiều nhãn, mô hình này có thể phân loại tài liệu bảo hiểm thành một trong bảy loại khác nhau. Các lớp học là INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYvà CMS1500. Chúng tôi muốn phân loại các tài liệu mẫu ở định dạng PDF, PNG và JPEG gốc, được lưu trữ trong một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), sử dụng mô hình phân loại. Để bắt đầu công việc phân loại không đồng bộ, hãy hoàn thành các bước sau:

Trên bảng điều khiển Hiểu toàn diện của Amazon, chọn Công việc phân tích trong khung điều hướng.
Chọn Tạo việc làm.
Trong Họ tên, hãy nhập tên cho công việc phân loại của bạn.
Trong Loại phân tíchchọn Phân loại tùy chỉnh.
Trong Mô hình phân loại, chọn mô hình phân loại được đào tạo phù hợp.
Trong phiên bản, chọn phiên bản model phù hợp.

Trong tạp chí Dữ liệu đầu vào phần, chúng tôi cung cấp vị trí lưu trữ tài liệu của chúng tôi.

Trong định dạng đầu vào, chọn Một tài liệu cho mỗi tệp.
Trong Chế độ đọc tài liệuchọn Buộc hành động đọc tài liệu.
Trong Hành động đọc tài liệu, chọn Văn bản phát hiện văn bản tài liệu.

Điều này cho phép Amazon Comprehend sử dụng Văn bản Amazon Phát HiệnTài LiệuVăn Bản API để đọc tài liệu trước khi chạy phân loại. Các DetectDocumentText API rất hữu ích trong việc trích xuất các dòng và từ văn bản từ tài liệu. bạn cũng có thể chọn tài liệu phân tích văn bản cho Hành động đọc tài liệu, trong trường hợp đó Amazon Comprehend sử dụng Amazon Textract Phân tíchDocument API để đọc tài liệu. với AnalyzeDocument API, bạn có thể chọn giải nén Bàn, Các hình thức, hoặc cả hai. Các Chế độ đọc tài liệu tùy chọn cho phép Amazon Comprehend trích xuất văn bản từ tài liệu ở chế độ hậu trường, giúp giảm bớt bước trích xuất văn bản bổ sung từ tài liệu, vốn được yêu cầu trong quy trình xử lý tài liệu của chúng tôi.

Trình phân loại tùy chỉnh Amazon Comprehend cũng có thể xử lý các phản hồi JSON thô do trình phân loại này tạo ra. DetectDocumentText và AnalyzeDocument API mà không có bất kỳ sửa đổi hoặc tiền xử lý nào. Điều này hữu ích cho các quy trình công việc hiện có mà Amazon Textract đã tham gia vào việc trích xuất văn bản từ các tài liệu. Trong trường hợp này, đầu ra JSON từ Amazon Textract có thể được cung cấp trực tiếp cho API phân loại tài liệu Amazon Comprehend.

Trong tạp chí Dữ liệu đầu ra phần, cho Vị trí S3, chỉ định một vị trí Amazon S3 mà bạn muốn tác vụ không đồng bộ ghi kết quả suy luận.
Để các tùy chọn còn lại như mặc định.
Chọn Tạo việc làm để bắt đầu công việc.

Bạn có thể xem trạng thái của công việc trên Công việc phân tích .

Khi công việc hoàn tất, chúng ta có thể xem đầu ra của công việc phân tích, được lưu trữ ở vị trí Amazon S3 được cung cấp trong quá trình cấu hình công việc. Đầu ra phân loại cho tài liệu CMS1500 mẫu PDF một trang của chúng tôi như sau. Đầu ra là một tệp ở định dạng dòng JSON, đã được định dạng để cải thiện khả năng đọc.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Mẫu trước là tài liệu PDF một trang; tuy nhiên, phân loại tùy chỉnh cũng có thể xử lý tài liệu PDF nhiều trang. Trong trường hợp tài liệu nhiều trang, đầu ra chứa nhiều dòng JSON, trong đó mỗi dòng là kết quả phân loại của từng trang trong tài liệu. Sau đây là đầu ra phân loại nhiều trang mẫu:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Nhận dạng thực thể tùy chỉnh

Với trình nhận dạng thực thể tùy chỉnh Amazon Comprehend, bạn có thể phân tích tài liệu và trích xuất các thực thể như mã sản phẩm hoặc thực thể dành riêng cho doanh nghiệp phù hợp với nhu cầu cụ thể của bạn. Ở cấp độ cao, sau đây là các bước để thiết lập trình nhận dạng thực thể tùy chỉnh và thực hiện phát hiện thực thể:

Chuẩn bị dữ liệu đào tạo để đào tạo trình nhận dạng thực thể tùy chỉnh.
Đào tạo trình nhận dạng thực thể tùy chỉnh với dữ liệu đào tạo.
Sau khi mô hình được đào tạo, tùy chọn triển khai điểm cuối thời gian thực.
Thực hiện phát hiện thực thể với công việc không đồng bộ hoặc trong thời gian thực bằng cách sử dụng điểm cuối.

Mô hình trình nhận dạng thực thể tùy chỉnh có thể được đào tạo lại định kỳ để cải thiện độ chính xác và giới thiệu các loại thực thể mới. Bạn có thể đào tạo một mô hình nhận dạng thực thể tùy chỉnh bằng một trong hai danh sách thực thể or chú thích. Trong cả hai trường hợp, Amazon Comprehend tìm hiểu về loại tài liệu và bối cảnh nơi các thực thể xuất hiện để xây dựng một mô hình trình nhận dạng thực thể có thể khái quát hóa để phát hiện các thực thể mới. tham khảo Chuẩn bị dữ liệu đào tạo để tìm hiểu thêm về cách chuẩn bị dữ liệu đào tạo cho trình nhận dạng thực thể tùy chỉnh.

Sau khi mô hình trình nhận dạng thực thể tùy chỉnh được đào tạo, việc phát hiện thực thể có thể được thực hiện bằng cách sử dụng phân tích thời gian thực hoặc một công việc không đồng bộ. Phân tích thời gian thực yêu cầu một điểm cuối sẽ được triển khai với mô hình được đào tạo và phù hợp nhất với các tài liệu nhỏ tùy thuộc vào trường hợp sử dụng. Đối với một số lượng lớn tài liệu, công việc phân loại không đồng bộ là phù hợp nhất.

Đào tạo một mô hình nhận dạng thực thể tùy chỉnh

Để chứng minh khả năng phát hiện thực thể trong thời gian thực, chúng tôi đã đào tạo một mô hình nhận dạng thực thể tùy chỉnh với các tài liệu bảo hiểm và tệp kê khai bổ sung bằng chú thích tùy chỉnh, đồng thời triển khai điểm cuối bằng mô hình đã đào tạo. Các loại thực thể là Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionvà Sender. Chúng tôi muốn phát hiện các thực thể từ các tài liệu mẫu ở định dạng PDF, PNG và JPEG gốc, được lưu trữ trong bộ chứa S3, sử dụng mô hình trình nhận dạng.

Lưu ý rằng bạn có thể sử dụng mô hình nhận dạng thực thể tùy chỉnh được đào tạo bằng tài liệu PDF để trích xuất các thực thể tùy chỉnh từ tài liệu PDF, TIFF, hình ảnh, Word và văn bản thuần túy. Nếu mô hình của bạn được đào tạo bằng tài liệu văn bản và danh sách thực thể, thì bạn chỉ có thể sử dụng tài liệu văn bản thuần túy để trích xuất thực thể.

Chúng tôi cần phát hiện các thực thể từ một tài liệu mẫu ở bất kỳ định dạng PDF, PNG và JPEG gốc nào bằng cách sử dụng mô hình trình nhận dạng. Để bắt đầu công việc phát hiện thực thể đồng bộ, hãy hoàn thành các bước sau:

Trên bảng điều khiển Hiểu toàn diện của Amazon, chọn Phân tích thời gian thực trong khung điều hướng.
Theo Loại phân tích, lựa chọn Tuỳ chỉnh.
Trong Nhận dạng thực thể tùy chỉnh, chọn loại mô hình tùy chỉnh.
Trong Điểm cuối, hãy chọn điểm cuối thời gian thực mà bạn đã tạo cho mô hình trình nhận dạng thực thể của mình.
Chọn Tải lên tập tin Và chọn Chọn tập tin để tải lên tệp PDF hoặc tệp hình ảnh để suy luận.
Mở rộng Đầu vào tài liệu nâng cao phần và cho Chế độ đọc tài liệu, chọn Dịch vụ mặc định.
Trong Hành động đọc tài liệu, chọn Văn bản phát hiện văn bản tài liệu.
Chọn Phân tích để phân tích tài liệu trong thời gian thực.

Các thực thể được công nhận được liệt kê trong Insights tiết diện. Mỗi thực thể chứa giá trị thực thể (văn bản), loại thực thể do bạn xác định trong quá trình đào tạo và điểm tin cậy tương ứng.

Để biết thêm chi tiết và hướng dẫn đầy đủ về cách đào tạo mô hình trình nhận dạng thực thể tùy chỉnh và sử dụng mô hình đó để thực hiện suy luận không đồng bộ bằng các công việc phân tích không đồng bộ, hãy tham khảo Trích xuất các thực thể tùy chỉnh từ các tài liệu ở định dạng gốc của chúng với Amazon Comprehend.

Kết luận

Bài đăng này trình bày cách bạn có thể phân loại và phân loại các tài liệu bán cấu trúc ở định dạng gốc của chúng và phát hiện các thực thể dành riêng cho doanh nghiệp từ chúng bằng cách sử dụng Amazon Comprehend. Bạn có thể sử dụng API thời gian thực cho các trường hợp sử dụng có độ trễ thấp hoặc sử dụng các công việc phân tích không đồng bộ để xử lý tài liệu hàng loạt.

Bước tiếp theo, chúng tôi khuyến khích bạn truy cập trang Amazon Comprehend Kho GitHub để biết các mẫu mã đầy đủ để dùng thử các tính năng mới này. Bạn cũng có thể truy cập vào Hướng dẫn toàn diện dành cho nhà phát triển Amazon và Tài nguyên dành cho nhà phát triển của Amazon Am hiểu cho video, hướng dẫn, blog, v.v.

Giới thiệu về tác giả

Wrick Talukdar là Kiến trúc sư cấp cao của nhóm Amazon Comprehend Service. Anh ấy làm việc với các khách hàng của AWS để giúp họ áp dụng công nghệ máy học trên quy mô lớn. Ngoài công việc, anh ấy thích đọc sách và chụp ảnh.

Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao, tập trung vào AI/ML và Phân tích dữ liệu. Anjan là thành viên của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu, đồng thời đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AI của AWS.

Godwin Sahayaraj Vincent là Kiến trúc sư giải pháp doanh nghiệp tại AWS, người đam mê học máy và cung cấp hướng dẫn cho khách hàng thiết kế, triển khai và quản lý khối lượng công việc và kiến trúc AWS của họ. Khi rảnh rỗi, anh ấy thích chơi cricket với bạn bè và chơi quần vợt với ba đứa con của mình.

Dấu thời gian: 2 Tháng mười hai, 20222 Tháng mười hai, 2022

Thêm từ Học máy AWS

Cửa hàng tính năng Amazon SageMaker hiện hỗ trợ chia sẻ, khám phá và truy cập nhiều tài khoản | Dịch vụ web của Amazon

Cụm nguồn:

Học máy AWS

Nút nguồn: 1947390

Dấu thời gian: Tháng Hai 13, 2024

AWS thực hiện tinh chỉnh trên Mô hình ngôn ngữ lớn (LLM) để phân loại ngôn từ độc hại cho một công ty trò chơi lớn | Dịch vụ web của Amazon

Học máy AWS

Nút nguồn: 1822975

Dấu thời gian: Tháng Tư 7, 2023

Giới thiệu phân loại một bước và nhận dạng thực thể với Amazon Comprehend để xử lý tài liệu thông minh

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Phân loại tài liệu tùy chỉnh

Đào tạo một mô hình phân loại tài liệu tùy chỉnh

Nhận dạng thực thể tùy chỉnh

Đào tạo một mô hình nhận dạng thực thể tùy chỉnh

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Các công ty khởi nghiệp trên AWS Accelerator sử dụng AI và ML để giải quyết những thách thức quan trọng của khách hàng

Sử dụng thị giác máy tính để đo lường năng suất nông nghiệp với Nhãn tùy chỉnh Rekognition của Amazon

Dự báo dễ dàng và chính xác với AutoGluon-TimeSeries

Xây dựng trình phát hiện thư rác bằng Amazon SageMaker | Dịch vụ web của Amazon

Phát hiện và giám sát tần suất cao các nguồn điểm phát thải khí mêtan bằng khả năng không gian địa lý của Amazon SageMaker | Dịch vụ web của Amazon

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản