Các hình thức tổ chức đóng vai trò như một công cụ kinh doanh chính trong các ngành — từ dịch vụ tài chính đến chăm sóc sức khỏe, v.v. Ví dụ, hãy xem xét các biểu mẫu khai thuế trong ngành quản lý thuế, nơi các biểu mẫu mới ra đời hàng năm với phần lớn thông tin giống nhau. Khách hàng của AWS trong các lĩnh vực cần xử lý và lưu trữ thông tin dưới dạng một phần của hoạt động kinh doanh hàng ngày của họ. Các hình thức này thường đóng vai trò là phương tiện chính để thông tin chảy vào một tổ chức nơi các phương tiện công nghệ thu thập dữ liệu là không thực tế.
Ngoài việc sử dụng các biểu mẫu để nắm bắt thông tin, qua nhiều năm cung cấp Văn bản Amazon, chúng tôi nhận thấy rằng khách hàng AWS thường xuyên phiên bản hóa các biểu mẫu tổ chức của họ dựa trên các thay đổi về cấu trúc, các trường được thêm vào hoặc thay đổi hoặc các cân nhắc khác như thay đổi năm hoặc phiên bản của biểu mẫu.
Khi cấu trúc hoặc nội dung của biểu mẫu thay đổi, điều này thường xuyên có thể gây ra thách thức đối với các hệ thống OCR truyền thống hoặc ảnh hưởng đến các công cụ hạ nguồn được sử dụng để thu thập thông tin, ngay cả khi bạn cần nắm bắt cùng một thông tin hàng năm và tổng hợp dữ liệu để sử dụng bất kể định dạng của tài liệu.
Để giải quyết vấn đề này, trong bài đăng này, chúng tôi trình bày cách bạn có thể xây dựng và triển khai đường dẫn phân tích cú pháp tài liệu đa định dạng, không máy chủ, theo hướng sự kiện với Amazon Textract.
Tổng quan về giải pháp
Sơ đồ sau minh họa kiến trúc giải pháp của chúng tôi:
Đầu tiên, giải pháp cung cấp tính năng nhập đường ống bằng cách sử dụng Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), Thông báo sự kiện của Amazon S3 và một Dịch vụ xếp hàng đơn giản trên Amazon (Amazon SQS) hàng đợi để quá trình xử lý bắt đầu khi một biểu mẫu đến phân vùng Amazon S3 đích. Một sự kiện trên Sự kiện Amazon được tạo và gửi đến một AWS Lambda nhắm mục tiêu kích hoạt công việc Amazon Textract.
Bạn có thể sử dụng các dịch vụ AWS không máy chủ như Lambda và Chức năng bước AWS để tạo tích hợp dịch vụ không đồng bộ giữa các dịch vụ AWS AI và AWS Analytics và các dịch vụ Cơ sở dữ liệu để lưu trữ, phân tích cũng như AI và học máy (ML). Trong bài đăng này, chúng tôi trình bày cách sử dụng Hàm bước để kiểm soát không đồng bộ và duy trì trạng thái của các yêu cầu đối với API không đồng bộ của Amazon Textract. Điều này đạt được bằng cách sử dụng một máy trạng thái để quản lý các cuộc gọi và phản hồi. Chúng tôi sử dụng Lambda trong máy trạng thái để hợp nhất dữ liệu phản hồi API được phân trang từ Amazon Textract thành một đối tượng JSON duy nhất chứa dữ liệu văn bản bán cấu trúc được trích xuất bằng OCR.
Sau đó, chúng tôi lọc qua các biểu mẫu khác nhau bằng cách tiếp cận được chuẩn hóa để tổng hợp dữ liệu OCR này thành một định dạng có cấu trúc chung bằng cách sử dụng amazon Athena và một SQL Textract JSON của Amazon SerDe.
Bạn có thể theo dõi các bước được thực hiện thông qua đường ống này bằng cách sử dụng Chức năng bước không máy chủ để theo dõi trạng thái xử lý và giữ lại đầu ra của mỗi trạng thái. Đây là điều mà khách hàng trong một số ngành thích làm khi làm việc với dữ liệu, nơi bạn phải giữ lại kết quả của tất cả các dự đoán từ các dịch vụ như Amazon Textract để thúc đẩy khả năng giải thích của kết quả đường ống của bạn trong dài hạn.
Cuối cùng, bạn có thể truy vấn dữ liệu được trích xuất trong bảng Athena.
Trong các phần tiếp theo, chúng tôi sẽ hướng dẫn bạn cách thiết lập đường dẫn bằng cách sử dụng Hình thành đám mây AWS, thử nghiệm đường dẫn và thêm các phiên bản biểu mẫu mới. Đường ống này cung cấp một giải pháp có thể bảo trì vì mọi thành phần (nhập, trích xuất văn bản, xử lý văn bản) là độc lập và biệt lập.
Xác định các tham số đầu vào mặc định cho ngăn xếp CloudFormation
Để xác định các tham số đầu vào cho ngăn xếp CloudFormation, hãy mở default.properties
theo params
và nhập mã sau:
Triển khai giải pháp
Để triển khai đường dẫn của bạn, hãy hoàn thành các bước sau:
- Chọn Khởi chạy Stack:
- Chọn Sau.
- Chỉ định chi tiết ngăn xếp như được hiển thị trong ảnh chụp màn hình sau và chọn Sau.
- Trong tạp chí Cấu hình tùy chọn ngăn xếp , thêm các thẻ tùy chọn, quyền và các cài đặt nâng cao khác.
- Chọn Sau.
- Xem lại chi tiết ngăn xếp và chọn Tôi xác nhận rằng AWS CloudFormation có thể tạo tài nguyên IAM với tên tùy chỉnh.
- Chọn Tạo ngăn xếp.
Điều này bắt đầu triển khai ngăn xếp trong tài khoản AWS của bạn.
Sau khi ngăn xếp được triển khai thành công, thì bạn có thể bắt đầu thử nghiệm đường ống như được mô tả trong phần tiếp theo.
Kiểm tra đường ống
Sau khi triển khai thành công, hãy hoàn thành các bước sau để kiểm tra đường dẫn của bạn:
- Tải về Các tệp mẫu vào máy tính của bạn.
- tạo một
/uploads
thư mục (phân vùng) trong nhóm S3 đầu vào mới được tạo.
- Tạo các thư mục (phân vùng) riêng biệt như
jobapplications
Dưới/uploads
.
- Tải lên phiên bản đầu tiên của đơn xin việc từ thư mục tài liệu mẫu vào
/uploads/jobapplications
vách ngăn.
Khi quá trình hoàn tất, bạn có thể tìm thấy khóa-giá trị được trích xuất cho phiên bản này của tài liệu trong /OuputS3/03-textract-parsed-output/jobapplications
trên bảng điều khiển Amazon S3.
Bạn cũng có thể tìm thấy nó trong bảng Athena (applications_data_table
) trên Cơ sở dữ liệu thực đơn (jobapplicationsdatabase
).
- Tải lên phiên bản thứ hai của đơn xin việc từ thư mục tài liệu mẫu vào
/uploads/jobapplications
vách ngăn.
Khi quá trình hoàn tất, bạn có thể tìm thấy khóa-giá trị được trích xuất cho phiên bản này trong /OuputS3/03-textract-parsed-output/jobapplications
trên bảng điều khiển Amazon S3.
Bạn cũng có thể tìm thấy nó trong bảng Athena (applications_data_table
) trên Cơ sở dữ liệu thực đơn (jobapplicationsdatabase
).
Bạn đã hoàn tất! Bạn đã triển khai thành công đường dẫn của mình.
Thêm các phiên bản biểu mẫu mới
Việc cập nhật giải pháp cho phiên bản biểu mẫu mới rất đơn giản — mỗi phiên bản biểu mẫu chỉ cần được cập nhật bằng cách kiểm tra các truy vấn trong ngăn xếp xử lý.
Sau khi thực hiện cập nhật, bạn có thể triển khai lại quy trình cập nhật bằng cách sử dụng API AWS CloudFormation và xử lý tài liệu mới, đến cùng các điểm dữ liệu tiêu chuẩn cho lược đồ của bạn với sự gián đoạn tối thiểu và nỗ lực phát triển cần thiết để thực hiện các thay đổi đối với quy trình của bạn. Tính linh hoạt này, đạt được bằng cách tách hành vi phân tích cú pháp và trích xuất và sử dụng chức năng JSON SerDe trong Athena, làm cho đường ống này trở thành giải pháp có thể bảo trì cho bất kỳ số lượng phiên bản biểu mẫu nào mà tổ chức của bạn cần xử lý để thu thập thông tin.
Khi bạn chạy giải pháp nhập, dữ liệu từ các biểu mẫu đến được tự động điền vào Athena cùng với thông tin về các tệp và đầu vào được liên kết với chúng. Khi dữ liệu trong biểu mẫu của bạn chuyển từ dữ liệu không có cấu trúc sang dữ liệu có cấu trúc, dữ liệu đó sẽ sẵn sàng để sử dụng cho các ứng dụng hạ lưu như phân tích, lập mô hình ML, v.v.
Làm sạch
Để tránh phải chịu các khoản phí liên tục, hãy xóa các tài nguyên bạn đã tạo như một phần của giải pháp này khi bạn hoàn tất.
- Trên bảng điều khiển Amazon S3, xóa thủ công các nhóm bạn đã tạo như một phần của ngăn xếp CloudFormation.
- Trên bảng điều khiển AWS CloudFormation, hãy chọn Stacks trong khung điều hướng.
- Chọn ngăn xếp chính và chọn Xóa bỏ.
Thao tác này sẽ tự động xóa các ngăn xếp lồng nhau.
Kết luận
Trong bài đăng này, chúng tôi đã trình bày cách những khách hàng đang tìm cách theo dõi và tùy chỉnh quá trình xử lý tài liệu có thể xây dựng và triển khai một đường dẫn phân tích cú pháp tài liệu đa định dạng, không máy chủ, theo hướng sự kiện với Amazon Textract. Đường ống này cung cấp một giải pháp có thể bảo trì vì mọi thành phần (nhập, trích xuất văn bản, xử lý văn bản) đều độc lập và biệt lập, cho phép các tổ chức vận hành các giải pháp của họ để giải quyết các nhu cầu xử lý đa dạng.
Hãy thử giải pháp ngay hôm nay và để lại phản hồi của bạn trong phần nhận xét.
Về các tác giả
Emily Soward là Nhà khoa học dữ liệu với Dịch vụ Chuyên nghiệp của AWS. Cô có bằng Thạc sĩ Khoa học về Trí tuệ Nhân tạo tại Đại học Edinburgh ở Scotland, Vương quốc Anh với chuyên ngành Xử lý ngôn ngữ tự nhiên (NLP). Emily đã phục vụ trong các vai trò khoa học và kỹ thuật ứng dụng, tập trung vào nghiên cứu và phát triển sản phẩm hỗ trợ AI, hoạt động xuất sắc và quản trị khối lượng công việc AI đang hoạt động tại các tổ chức trong khu vực công và tư nhân. Cô ấy đóng góp vào việc hướng dẫn khách hàng với tư cách là Diễn giả cấp cao của AWS và gần đây, là tác giả cho AWS Được kiến trúc tốt trong Ống kính học máy.
Sandeep Singh là Nhà khoa học dữ liệu với Dịch vụ Chuyên nghiệp của AWS. Ông có bằng Thạc sĩ Khoa học về Hệ thống Thông tin chuyên ngành AI và Khoa học Dữ liệu tại Đại học Bang San Diego (SDSU), California. Anh ấy là Nhà khoa học dữ liệu toàn diện với nền tảng khoa học máy tính vững chắc và là cố vấn đáng tin cậy với chuyên môn về thiết kế Hệ thống và Điều khiển AI. Anh ấy đam mê giúp khách hàng đưa các dự án có tác động cao đi đúng hướng, tư vấn và hướng dẫn họ trong hành trình trên nền tảng Đám mây và xây dựng các giải pháp hỗ trợ AI / ML hiện đại.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-textract/
- "
- 100
- Giới thiệu
- Tài khoản
- đạt được
- ngang qua
- địa chỉ
- tiên tiến
- AI
- Dịch vụ AI
- Tất cả
- Cho phép
- đàn bà gan dạ
- phân tích
- api
- API
- Các Ứng Dụng
- các ứng dụng
- phương pháp tiếp cận
- kiến trúc
- nhân tạo
- trí tuệ nhân tạo
- AWS
- lý lịch
- biên giới
- xây dựng
- Xây dựng
- kinh doanh
- california
- Nguyên nhân
- thách thức
- thay đổi
- tải
- đám mây
- mã
- Bình luận
- Chung
- thành phần
- Khoa học Máy tính
- tập trung
- An ủi
- nội dung
- điều khiển
- khách hàng
- dữ liệu
- khoa học dữ liệu
- nhà khoa học dữ liệu
- Cơ sở dữ liệu
- chứng minh
- triển khai
- triển khai
- Thiết kế
- Phát triển
- khác nhau
- Gián đoạn
- tài liệu
- Kỹ Sư
- Sự kiện
- ví dụ
- thông tin phản hồi
- Lĩnh vực
- tài chính
- dịch vụ tài chính
- Tên
- Linh hoạt
- dòng chảy
- tập trung
- tiếp theo
- hình thức
- định dạng
- các hình thức
- Full
- chức năng
- quản trị
- chăm sóc sức khỏe
- Cao
- giữ
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- Va chạm
- các ngành công nghiệp
- ngành công nghiệp
- thông tin
- tích hợp
- Sự thông minh
- IT
- Việc làm
- Vương quốc
- Ngôn ngữ
- học tập
- Rời bỏ
- dài
- máy
- học máy
- duy trì
- quản lý
- quản lý
- thủ công
- ML
- Tự nhiên
- THÔNG TIN
- con số
- cung cấp
- Cung cấp
- mở
- cơ quan
- tổ chức
- tổ chức
- Nền tảng khác
- thực hành
- Dự đoán
- chính
- riêng
- Vấn đề
- quá trình
- Sản phẩm
- chuyên nghiệp
- dự án
- cung cấp
- công khai
- nghiên cứu
- nghiên cứu và phát triển
- Thông tin
- phản ứng
- Kết quả
- chạy
- chạy
- San
- Khoa học
- Nhà khoa học
- ngành
- Ngành
- tìm kiếm
- Không có máy chủ
- dịch vụ
- DỊCH VỤ
- định
- thiết lập
- Đơn giản
- So
- giải pháp
- Giải pháp
- động SOLVE
- một cái gì đó
- Loa
- ngăn xếp
- Bắt đầu
- Tiểu bang
- nhà nước-of-the-art
- là gắn
- hàng
- mạnh mẽ
- thành công
- Thành công
- hệ thống
- Mục tiêu
- thuế
- thử nghiệm
- Kiểm tra
- Thông qua
- bây giờ
- công cụ
- công cụ
- theo dõi
- truyền thống
- Kỳ
- Vương quốc Anh
- trường đại học
- Cập nhật
- sử dụng
- giá trị
- ở trong
- đang làm việc
- năm
- năm