Kiểm duyệt, phân loại và xử lý tài liệu bằng Amazon Rekognition và Amazon Textract

Được xuất bản lại bởi Plato

Người theo dõi: 0

Nhiều công ty bị choáng ngợp bởi khối lượng tài liệu dồi dào mà họ phải xử lý, sắp xếp và phân loại để phục vụ khách hàng tốt hơn. Ví dụ về những điều đó có thể là đơn xin vay, khai thuế và lập hóa đơn. Những tài liệu như vậy thường được nhận ở định dạng hình ảnh hơn và chủ yếu là nhiều trang và ở định dạng chất lượng thấp. Để cạnh tranh hơn và tiết kiệm chi phí hơn, đồng thời giữ an toàn và tuân thủ, các công ty này phải phát triển khả năng xử lý tài liệu của mình để giảm thời gian xử lý và cải thiện độ chính xác của phân loại theo cách tự động và có thể mở rộng. Các công ty này phải đối mặt với những thách thức sau trong việc xử lý tài liệu:

Thực hiện kiểm duyệt các tài liệu để phát hiện nội dung không phù hợp, không mong muốn hoặc xúc phạm
Phân loại tài liệu thủ công, được các công ty nhỏ áp dụng, tốn nhiều thời gian, dễ xảy ra lỗi và tốn kém
Các kỹ thuật OCR với các hệ thống dựa trên quy tắc không đủ thông minh và không thể áp dụng các thay đổi trong định dạng tài liệu
Các công ty áp dụng phương pháp tiếp cận máy học (ML) thường không có nguồn lực để mở rộng mô hình của họ để xử lý sự đột biến về khối lượng tài liệu đến

Bài đăng này giải quyết những thách thức này và cung cấp một kiến trúc giải quyết những vấn đề này một cách hiệu quả. Chúng tôi chỉ cho bạn cách bạn có thể sử dụng Nhận thức lại Amazon và Văn bản Amazon để tối ưu hóa và giảm thiểu nỗ lực của con người trong việc xử lý tài liệu. Amazon Rekognition xác định các nhãn kiểm duyệt trong tài liệu của bạn và phân loại chúng bằng cách sử dụng Nhãn tùy chỉnh Rekognition của Amazon. Amazon Textract trích xuất văn bản từ tài liệu của bạn.

Trong bài đăng này, chúng tôi đề cập đến việc xây dựng hai đường ống ML (đào tạo và suy luận) để xử lý tài liệu mà không cần bất kỳ nỗ lực thủ công hoặc mã tùy chỉnh nào. Các bước cấp cao trong quy trình suy luận bao gồm:

Thực hiện kiểm duyệt các tài liệu đã tải lên bằng Amazon Rekognition.
Phân loại tài liệu thành các danh mục khác nhau, chẳng hạn như W-2, hóa đơn, bảng sao kê ngân hàng và cuống phiếu thanh toán bằng cách sử dụng Nhãn tùy chỉnh Rekognition.
Trích xuất văn bản từ các tài liệu như văn bản in, chữ viết tay, biểu mẫu và bảng bằng cách sử dụng Amazon Textract.

Tổng quan về giải pháp

Giải pháp này sử dụng các dịch vụ AI, công nghệ không máy chủ và dịch vụ được quản lý sau đây để triển khai kiến trúc có thể mở rộng và hiệu quả về chi phí:

Máy phát điện Amazon - Cơ sở dữ liệu tài liệu và khóa-giá trị mang lại hiệu suất một phần nghìn giây ở bất kỳ quy mô nào.
Sự kiện Amazon - Một bus sự kiện không máy chủ để xây dựng các ứng dụng hướng sự kiện trên quy mô lớn bằng cách sử dụng các sự kiện được tạo từ các ứng dụng của bạn, phần mềm tích hợp như một ứng dụng dịch vụ (SaaS) và các dịch vụ AWS.
AWS Lambda - Dịch vụ máy tính không có máy chủ cho phép bạn chạy mã để phản hồi lại các kích hoạt như thay đổi dữ liệu, thay đổi trạng thái hệ thống hoặc hành động của người dùng.
Nhận thức lại Amazon - Sử dụng ML để xác định các đối tượng, con người, văn bản, cảnh và các hoạt động trong hình ảnh và video, cũng như phát hiện bất kỳ nội dung không phù hợp nào.
Nhãn tùy chỉnh Rekognition của Amazon - Sử dụng AutoML cho thị giác máy tính và học chuyển giao để giúp bạn đào tạo các mô hình tùy chỉnh để xác định các đối tượng và cảnh trong hình ảnh cụ thể cho nhu cầu kinh doanh của bạn.
Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) - Phục vụ như một kho lưu trữ đối tượng cho các tài liệu của bạn và cho phép quản lý trung tâm với các điều khiển truy cập được tinh chỉnh.
Chức năng bước Amazon - Bộ điều phối chức năng không máy chủ giúp dễ dàng sắp xếp các chức năng Lambda và nhiều dịch vụ thành các ứng dụng quan trọng trong kinh doanh.
Văn bản Amazon - Sử dụng ML để trích xuất văn bản và dữ liệu từ các tài liệu được quét ở định dạng PDF, JPEG hoặc PNG.

Sơ đồ sau đây minh họa kiến trúc của đường ống suy luận.

Quy trình làm việc của chúng tôi bao gồm các bước sau:

Người dùng tải tài liệu lên nhóm S3 đầu vào.
Tải lên kích hoạt một Thông báo sự kiện Amazon S3 để cung cấp các sự kiện thời gian thực trực tiếp tới EventBridge. Các sự kiện Amazon S3 phù hợp với “object created”Bộ lọc được xác định cho một Quy tắc EventBridge bắt đầu dòng công việc Chức năng Bước.
Dòng công việc Step Functions kích hoạt một loạt các hàm Lambda, thực hiện các tác vụ sau:
1. Hàm đầu tiên thực hiện các tác vụ tiền xử lý và thực hiện các lệnh gọi API tới Amazon Rekognition:
  - Nếu tài liệu đến có định dạng hình ảnh (chẳng hạn như JPG hoặc PNG), hàm sẽ gọi API Rekognition của Amazon và cung cấp tài liệu dưới dạng đối tượng S3. Tuy nhiên, nếu tài liệu ở định dạng PDF, thì hàm này sẽ truyền các byte hình ảnh khi gọi Amazon Rekognition API.
  - Nếu một tài liệu chứa nhiều trang, chức năng này sẽ chia tài liệu thành các trang riêng lẻ và lưu chúng vào một thư mục trung gian trong nhóm S3 đầu ra trước khi xử lý chúng riêng lẻ.
  - Khi các tác vụ tiền xử lý hoàn tất, hàm thực hiện lệnh gọi API tới Amazon Rekognition để phát hiện nội dung không phù hợp, không mong muốn hoặc xúc phạm và thực hiện lệnh gọi API khác tới mô hình Nhãn tùy chỉnh Rekognition đã đào tạo để phân loại tài liệu.
2. Hàm thứ hai thực hiện lệnh gọi API tới Amazon Textract để bắt đầu công việc trích xuất văn bản từ tài liệu đầu vào và lưu trữ nó trong nhóm S3 đầu ra.
3. Chức năng thứ ba lưu trữ siêu dữ liệu tài liệu như nhãn kiểm duyệt, phân loại tài liệu, độ tin cậy phân loại, ID công việc Amazon Textract và đường dẫn tệp vào bảng DynamoDB.

Bạn có thể điều chỉnh quy trình làm việc theo yêu cầu của mình, ví dụ: bạn có thể thêm khả năng xử lý ngôn ngữ tự nhiên (NLP) trong quy trình làm việc này bằng cách sử dụng Amazon hiểu để hiểu rõ hơn về văn bản được trích xuất.

Quy trình đào tạo

Trước khi triển khai kiến trúc này, chúng tôi đào tạo một mô hình tùy chỉnh để phân loại tài liệu thành các danh mục khác nhau bằng cách sử dụng Nhãn tùy chỉnh Rekognition. Trong quy trình đào tạo, chúng tôi gắn nhãn các tài liệu bằng cách sử dụng Sự thật về mặt đất của Amazon SageMaker. Sau đó, chúng tôi sử dụng các tài liệu được gắn nhãn để đào tạo mô hình có Nhãn tùy chỉnh Rekognition. Trong ví dụ này, chúng tôi sử dụng Amazon SageMaker sổ ghi chép để thực hiện các bước này, nhưng bạn cũng có thể chú thích hình ảnh bằng bảng điều khiển Nhãn tùy chỉnh Rekognition. Để được hướng dẫn, hãy tham khảo Dán nhãn hình ảnh.

Kiến trúc đường ống đào tạo

Bộ dữ liệu

Để đào tạo mô hình, chúng tôi sử dụng tập dữ liệu công khai sau có chứa W2 và hóa đơn:

Bạn có thể sử dụng một tập dữ liệu khác có liên quan cho ngành của bạn.

Bảng sau đây tóm tắt sự phân chia tập dữ liệu giữa đào tạo và kiểm tra.

Lớp	Tập huấn luyện	Tập kiểm tra
Hoá đơn	352	75
W-2	86	16
Tổng số:	438	91

Triển khai quy trình đào tạo với AWS CloudFormation

Bạn triển khai một Hình thành đám mây AWS khuôn mẫu để cung cấp những thứ cần thiết Quản lý truy cập và nhận dạng AWS (IAM) các vai trò và thành phần của quy trình đào tạo, bao gồm cả một phiên bản sổ ghi chép SageMaker.

Khởi chạy mẫu CloudFormation sau ở Vùng Đông Hoa Kỳ (N. Virginia):
Trong Tên ngăn xếp, nhập tên, chẳng hạn như document-processing-training-pipeline.
Chọn Sau.
Trong tạp chí Khả năng và biến đổi , hãy chọn hộp kiểm để xác nhận rằng AWS CloudFormation có thể tạo Tài nguyên IAM.
Chọn Tạo ngăn xếp.

Trang chi tiết ngăn xếp sẽ hiển thị trạng thái của ngăn xếp là CREATE_IN_PROGRESS. Có thể mất đến 5 phút để trạng thái thay đổi thành CREATE_COMPLETE. Khi hoàn tất, bạn có thể xem kết quả đầu ra trên Kết quả đầu ra tab.

Sau khi ngăn xếp được khởi chạy thành công, hãy mở bảng điều khiển SageMaker và chọn Trường hợp máy tính xách tay trong tên điều hướng.
Tìm kiếm một ví dụ với DocProcessingNotebookInstance- tiền tố và đợi cho đến khi trạng thái của nó là InService.
Theo Hoạt động, chọn Mở Jupyter.

Chạy sổ ghi chép ví dụ

Để chạy sổ ghi chép của bạn, hãy hoàn thành các bước sau:

Chọn Rekognition_Custom_Labels sổ tay ví dụ.
Chọn chạy để chạy các ô trong sổ ghi chép ví dụ theo thứ tự.

Sổ ghi chép trình bày toàn bộ vòng đời của việc chuẩn bị đào tạo và kiểm tra hình ảnh, gắn nhãn cho chúng, tạo tệp kê khai, đào tạo một mô hình và chạy mô hình đã đào tạo với Rekognition Custom Labels. Ngoài ra, bạn có thể đào tạo và chạy mô hình bằng bảng điều khiển Nhãn tùy chỉnh Rekognition. Để được hướng dẫn, hãy tham khảo Đào tạo một mô hình (Bảng điều khiển).

Cuốn sổ là tự giải thích; bạn có thể làm theo các bước để hoàn thành việc đào tạo mô hình.

Ghi chú của ProjectVersionArn để cung cấp cho đường dẫn suy luận trong bước sau.

Đối với các phiên bản máy tính xách tay SageMaker, bạn sẽ bị tính phí cho loại phiên bản bạn chọn, dựa trên thời gian sử dụng. Nếu bạn đã đào tạo xong mô hình, bạn có thể dừng phiên bản sổ ghi chép để tránh tốn tài nguyên nhàn rỗi.

Triển khai quy trình suy luận với AWS CloudFormation

Để triển khai đường dẫn suy luận, hãy hoàn thành các bước sau:

Khởi chạy mẫu CloudFormation sau ở Vùng Đông Hoa Kỳ (N. Virginia):
Trong Tên ngăn xếp, nhập tên, chẳng hạn như document-processing-inference-pipeline.
Trong Tên bảng DynamoDB, nhập tên bảng DynamoDB duy nhất; Ví dụ, document-processing-table.
Trong Tên nhóm đầu vào, nhập tên duy nhất cho nhóm S3 mà ngăn xếp tạo ra; Ví dụ, document-processing-input-bucket.

Các tài liệu đầu vào được tải lên nhóm này trước khi chúng được xử lý. Chỉ sử dụng các ký tự viết thường và không có khoảng trắng khi bạn tạo tên của nhóm đầu vào. Hơn nữa, thao tác này tạo một nhóm S3 mới, vì vậy không sử dụng tên của một nhóm hiện có. Để biết thêm thông tin, hãy xem Quy tắc đặt tên nhóm.

Trong Tên nhóm đầu ra, hãy nhập một tên duy nhất cho nhóm đầu ra của bạn; ví dụ, document-processing-output-bucket.

Nhóm này lưu trữ các tài liệu đầu ra sau khi chúng được xử lý. Nó cũng lưu trữ các trang của tài liệu đầu vào PDF nhiều trang sau khi chúng được phân tách bởi chức năng Lambda. Tuân theo các quy tắc đặt tên giống như nhóm đầu vào của bạn.

Trong RekognitionCustomLabelModelARN, nhập ProjectVersionArn giá trị mà bạn đã ghi nhận từ sổ ghi chép Jupyter.
Chọn Sau.
trên Cấu hình tùy chọn ngăn xếp , đặt bất kỳ thông số bổ sung nào cho ngăn xếp, bao gồm cả các thẻ.
Chọn Sau.
Trong tạp chí Khả năng và biến đổi , hãy chọn hộp kiểm để xác nhận rằng AWS CloudFormation có thể tạo tài nguyên IAM.
Chọn Tạo ngăn xếp.

Xử lý tài liệu thông qua đường dẫn

Chúng tôi đã triển khai cả đường ống đào tạo và suy luận và hiện đã sẵn sàng để sử dụng giải pháp và xử lý tài liệu.

Trên bảng điều khiển Amazon S3, mở nhóm đầu vào.
Tải lên một tài liệu mẫu vào thư mục S3.

Điều này bắt đầu quy trình làm việc. Quá trình này điền vào bảng DynamoDB với các nhãn phân loại và kiểm duyệt tài liệu. Đầu ra từ Amazon Textract được phân phối tới nhóm S3 đầu ra trong TextractOutput thư mục.

Chúng tôi đã gửi một vài tài liệu mẫu khác nhau cho quy trình làm việc và nhận được thông tin sau được điền trong bảng DynamoDB.

Bộ nhớ siêu dữ liệu trong DynamoDB

Nếu bạn không thấy các mục trong bảng DynamoDB hoặc tài liệu được tải lên trong nhóm S3 đầu ra, hãy kiểm tra Nhật ký Amazon CloudWatch cho hàm Lambda tương ứng và tìm các lỗi tiềm ẩn gây ra lỗi.

Làm sạch

Hoàn thành các bước sau để dọn dẹp tài nguyên được triển khai cho giải pháp này:

Trên bảng điều khiển CloudFormation, hãy chọn Stacks.
Chọn các ngăn xếp được triển khai cho giải pháp này.
Chọn Xóa bỏ.

Các bước này không xóa nhóm S3, bảng DynamoDB và mô hình Nhãn tùy chỉnh nhận lại được đào tạo. Bạn tiếp tục phải chịu phí lưu trữ nếu chúng không bị xóa. Bạn nên xóa các tài nguyên này trực tiếp thông qua bảng điều khiển dịch vụ tương ứng của chúng nếu bạn không cần chúng nữa.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày một cách tiếp cận có thể mở rộng, an toàn và tự động để kiểm duyệt, phân loại và xử lý tài liệu. Các công ty trong nhiều ngành có thể sử dụng giải pháp này để cải thiện hoạt động kinh doanh và phục vụ khách hàng của họ tốt hơn. Nó cho phép xử lý tài liệu nhanh hơn và độ chính xác cao hơn, đồng thời giảm độ phức tạp của việc trích xuất dữ liệu. Nó cũng cung cấp khả năng bảo mật tốt hơn và tuân thủ luật dữ liệu cá nhân bằng cách giảm bớt nhân lực tham gia xử lý các tài liệu đến.

Để biết thêm thông tin, xem Hướng dẫn về Nhãn tùy chỉnh Rekognition của Amazon, Hướng dẫn dành cho nhà phát triển Amazon Rekognition và Hướng dẫn dành cho nhà phát triển Amazon Textract. Nếu bạn chưa quen với Amazon Rekognition Custom Labels, hãy dùng thử Bậc miễn phí của chúng tôi, kéo dài 3 tháng và bao gồm 10 giờ đào tạo miễn phí mỗi tháng và 4 giờ suy luận miễn phí mỗi tháng. Bậc miễn phí của Amazon Rekognition bao gồm xử lý 5,000 hình ảnh mỗi tháng trong 12 tháng. Bậc miễn phí của Amazon Textract cũng kéo dài trong ba tháng và bao gồm 1,000 trang mỗi tháng cho API văn bản phát hiện tài liệu.

Về các tác giả

Jay Rao là Kiến trúc sư giải pháp chính tại AWS. Anh ấy thích cung cấp hướng dẫn kỹ thuật và chiến lược cho khách hàng, đồng thời giúp họ thiết kế và triển khai các giải pháp trên AWS.

Uchenna Egbe là Kiến trúc sư giải pháp liên kết tại AWS. Anh ấy dành thời gian rảnh để nghiên cứu về các loại thảo mộc, trà, siêu thực phẩm và cách kết hợp chúng vào chế độ ăn uống hàng ngày của mình.

Dấu thời gian: 12 Tháng Năm, 2022

Dấu thời gian: Tháng 22, 2023

Kiểm duyệt, phân loại và xử lý tài liệu bằng Amazon Rekognition và Amazon Textract

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Quy trình đào tạo

Bộ dữ liệu

Triển khai quy trình đào tạo với AWS CloudFormation

Chạy sổ ghi chép ví dụ

Triển khai quy trình suy luận với AWS CloudFormation

Xử lý tài liệu thông qua đường dẫn

Làm sạch

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Các phương pháp thực hành và mẫu thiết kế tốt nhất để xây dựng quy trình học máy với Amazon SageMaker Pipelines | Dịch vụ web của Amazon

Tăng tốc quản lý thành công của khách hàng thông qua phân loại email với Ôm mặt trên Amazon SageMaker | Dịch vụ web của Amazon

Cách Cơ quan đăng ký mã vạch phát hiện hàng giả bằng cách sử dụng tính năng phát hiện đối tượng và Amazon SageMaker

Tóm tắt văn bản với Amazon SageMaker và Khuôn mặt ôm

Triển khai RStudio trên môi trường AWS của bạn và truy cập hồ dữ liệu của bạn bằng cách sử dụng các quyền của AWS Lake Formation

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản