Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon

Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon

Khi khách hàng đã sẵn sàng sản xuất xử lý tài liệu thông minh (IDP), chúng tôi thường nhận được yêu cầu đánh giá Kiến trúc tối ưu. Để xây dựng giải pháp doanh nghiệp, nguồn lực của nhà phát triển, chi phí, thời gian và trải nghiệm người dùng phải được cân bằng để đạt được kết quả kinh doanh mong muốn. Các Khung được kiến ​​trúc tốt của AWS cung cấp một cách có hệ thống để các tổ chức tìm hiểu các phương pháp hay nhất về vận hành và kiến ​​trúc để thiết kế và vận hành khối lượng công việc đáng tin cậy, an toàn, hiệu quả, tiết kiệm chi phí và bền vững trên đám mây.

Ống kính tùy chỉnh kiến ​​trúc tối ưu IDP tuân theo Khung kiến ​​trúc tối ưu AWS, xem xét giải pháp với sáu trụ cột với mức độ chi tiết của trường hợp sử dụng AI hoặc máy học (ML) cụ thể và cung cấp hướng dẫn để giải quyết các thách thức chung. Ống kính tùy chỉnh được kiến ​​trúc tốt của IDP trong Công cụ được kiến ​​trúc tốt chứa các câu hỏi liên quan đến từng trụ cột. Bằng cách trả lời những câu hỏi này, bạn có thể xác định những rủi ro tiềm ẩn và giải quyết chúng bằng cách thực hiện theo kế hoạch cải tiến của mình.

Bài đăng này tập trung vào Trụ cột Hiệu quả Hiệu suất khối lượng công việc của IDP. Chúng tôi đi sâu vào việc thiết kế và triển khai giải pháp để tối ưu hóa thông lượng, độ trễ và hiệu suất tổng thể. Chúng tôi bắt đầu bằng việc thảo luận về một số chỉ số phổ biến mà bạn nên tiến hành đánh giá Well-Architected và giới thiệu các phương pháp tiếp cận cơ bản với các nguyên tắc thiết kế. Sau đó, chúng tôi đi qua từng lĩnh vực trọng tâm từ góc độ kỹ thuật.

Để theo dõi bài đăng này, bạn nên làm quen với các bài viết trước trong loạt bài này (Phần 1Phần 2) và các hướng dẫn trong Hướng dẫn xử lý tài liệu thông minh trên AWS. Các tài nguyên này giới thiệu các dịch vụ AWS phổ biến cho khối lượng công việc IDP và quy trình công việc được đề xuất. Với kiến ​​thức này, giờ đây bạn đã sẵn sàng tìm hiểu thêm về cách tạo ra khối lượng công việc của mình.

Các chỉ số chung

Sau đây là các chỉ số phổ biến mà bạn nên tiến hành đánh giá Khung kiến ​​trúc tốt cho trụ cột Hiệu suất hiệu suất:

  • Độ trễ cao – Khi độ trễ của nhận dạng ký tự quang học (OCR), nhận dạng thực thể hoặc quy trình làm việc từ đầu đến cuối mất nhiều thời gian hơn điểm chuẩn trước đó của bạn, đây có thể là dấu hiệu cho thấy thiết kế kiến ​​trúc không bao gồm việc kiểm tra tải hoặc xử lý lỗi.
  • Điều tiết thường xuyên – Bạn có thể gặp phải tình trạng điều tiết bởi các dịch vụ AWS như Văn bản Amazon do giới hạn yêu cầu. Điều này có nghĩa là kiến ​​trúc cần được điều chỉnh bằng cách xem xét quy trình làm việc của kiến ​​trúc, triển khai đồng bộ và không đồng bộ, tính toán giao dịch mỗi giây (TPS), v.v.
  • Gỡ lỗi khó khăn – Khi xảy ra lỗi trong quy trình xử lý tài liệu, bạn có thể không có cách hiệu quả để xác định lỗi nằm ở đâu trong quy trình làm việc, lỗi đó liên quan đến dịch vụ nào và lý do xảy ra lỗi. Điều này có nghĩa là hệ thống thiếu khả năng hiển thị nhật ký và lỗi. Hãy cân nhắc việc xem lại thiết kế ghi nhật ký của dữ liệu đo từ xa và thêm cơ sở hạ tầng dưới dạng mã (IaC), chẳng hạn như quy trình xử lý tài liệu, vào giải pháp.
Các chỉ số Mô tả Khoảng cách kiến ​​trúc
Độ trễ cao OCR, nhận dạng thực thể hoặc độ trễ của quy trình làm việc từ đầu đến cuối vượt quá điểm chuẩn trước đó
  • Kiểm tra Tải
  • Xử lý lỗi
Điều tiết thường xuyên Điều tiết bởi các dịch vụ AWS như Amazon Textract do giới hạn yêu cầu
  • Đồng bộ hóa và không đồng bộ
  • tính toán TPS
Khó gỡ lỗi Không có khả năng hiển thị về vị trí, nguyên nhân và lý do dẫn đến lỗi xử lý tài liệu
  • Thiết kế ghi nhật ký
  • Quy trình xử lý tài liệu

Nguyên tắc thiết kế

Trong bài đăng này, chúng tôi thảo luận về ba nguyên tắc thiết kế: ủy quyền các nhiệm vụ AI phức tạp, kiến ​​trúc IaC và kiến ​​trúc không có máy chủ. Khi gặp phải sự cân bằng giữa hai cách triển khai, bạn có thể xem lại các nguyên tắc thiết kế với các ưu tiên kinh doanh của tổ chức để có thể đưa ra quyết định một cách hiệu quả.

  • Ủy quyền các nhiệm vụ AI phức tạp – Bạn có thể cho phép áp dụng AI nhanh hơn trong tổ chức của mình bằng cách chuyển vòng đời phát triển mô hình ML sang các dịch vụ được quản lý và tận dụng cơ sở hạ tầng và phát triển mô hình do AWS cung cấp. Thay vì yêu cầu nhóm khoa học dữ liệu và CNTT xây dựng và duy trì các mô hình AI, bạn có thể sử dụng các dịch vụ AI được đào tạo trước có thể tự động hóa các tác vụ cho bạn. Điều này cho phép các nhóm của bạn tập trung vào công việc có giá trị cao hơn giúp tạo sự khác biệt cho doanh nghiệp của bạn, trong khi nhà cung cấp đám mây xử lý sự phức tạp của việc đào tạo, triển khai và mở rộng quy mô các mô hình AI.
  • Kiến trúc IaC – Khi chạy giải pháp IDP, giải pháp đó bao gồm nhiều dịch vụ AI để thực hiện quy trình làm việc từ đầu đến cuối theo trình tự thời gian. Bạn có thể kiến ​​trúc giải pháp với các quy trình công việc bằng cách sử dụng Chức năng bước AWS để nâng cao khả năng chịu lỗi, xử lý song song, khả năng hiển thị và khả năng mở rộng. Những lợi thế này có thể cho phép bạn tối ưu hóa việc sử dụng và chi phí của các dịch vụ AI cơ bản.
  • Không có máy chủ kiến trúc – IDP thường là một giải pháp hướng sự kiện, được khởi xướng bởi các lượt tải lên của người dùng hoặc các công việc đã lên lịch. Giải pháp có thể được mở rộng theo chiều ngang bằng cách tăng tỷ lệ cuộc gọi cho các dịch vụ AI, AWS Lambda, và các dịch vụ khác có liên quan. Cách tiếp cận không có máy chủ mang lại khả năng mở rộng mà không cần cung cấp quá nhiều tài nguyên, ngăn ngừa các chi phí không cần thiết. Việc giám sát đằng sau thiết kế không có máy chủ hỗ trợ phát hiện các vấn đề về hiệu suất.
Hình 1.Lợi ích khi áp dụng nguyên tắc thiết kế. Bởi tác giả.

Hình 1.Lợi ích khi áp dụng nguyên tắc thiết kế.

Với ba nguyên tắc thiết kế này, các tổ chức có thể thiết lập nền tảng hiệu quả cho việc áp dụng AI/ML trên nền tảng đám mây. Bằng cách ủy quyền độ phức tạp, triển khai cơ sở hạ tầng linh hoạt và thiết kế theo quy mô, các tổ chức có thể tối ưu hóa các giải pháp AI/ML của mình.

Trong các phần sau, chúng tôi thảo luận cách giải quyết những thách thức chung liên quan đến các lĩnh vực trọng tâm kỹ thuật.

Khu vực tập trung

Khi xem xét hiệu quả hoạt động, chúng tôi xem xét giải pháp từ năm lĩnh vực trọng tâm: thiết kế kiến ​​trúc, quản lý dữ liệu, xử lý lỗi, giám sát hệ thống và giám sát mô hình. Với các lĩnh vực trọng tâm này, bạn có thể tiến hành đánh giá kiến ​​trúc từ các khía cạnh khác nhau để nâng cao tính hiệu quả, khả năng quan sát và khả năng mở rộng của ba thành phần của dự án, dữ liệu, mô hình hoặc mục tiêu kinh doanh AI/ML.

Thiết kế kiến ​​trúc

Bằng cách xem qua các câu hỏi trong lĩnh vực trọng tâm này, bạn sẽ xem lại quy trình làm việc hiện tại để xem liệu nó có tuân theo các phương pháp hay nhất hay không. Quy trình làm việc được đề xuất cung cấp một mẫu chung mà các tổ chức có thể làm theo và ngăn ngừa chi phí thử và sai.

Dựa vào kiến trúc đề xuất, quy trình làm việc tuân theo sáu giai đoạn thu thập, phân loại, trích xuất, làm phong phú, đánh giá và xác thực cũng như sử dụng dữ liệu. Trong các chỉ số chung chúng ta đã thảo luận trước đó, hai trong số ba đến từ các vấn đề thiết kế kiến ​​trúc. Điều này là do khi bạn bắt đầu một dự án với cách tiếp cận ngẫu hứng, bạn có thể gặp phải những hạn chế của dự án khi cố gắng điều chỉnh cơ sở hạ tầng cho phù hợp với giải pháp của mình. Với việc xem xét thiết kế kiến ​​trúc, thiết kế ngẫu hứng có thể được tách rời thành các giai đoạn và mỗi giai đoạn trong số chúng có thể được đánh giá lại và sắp xếp lại.

Bạn có thể tiết kiệm thời gian, tiền bạc và lao động bằng cách thực hiện phân loại trong quy trình làm việc của bạn và tài liệu sẽ chuyển đến các ứng dụng và API tiếp theo dựa trên loại tài liệu. Điều này nâng cao khả năng quan sát của quy trình tài liệu và giúp duy trì giải pháp dễ dàng khi thêm các loại tài liệu mới.

Quản lý dữ liệu

Hiệu suất của giải pháp IDP bao gồm độ trễ, thông lượng và trải nghiệm người dùng từ đầu đến cuối. Cách quản lý tài liệu và thông tin được trích xuất trong giải pháp là chìa khóa cho tính nhất quán, bảo mật và quyền riêng tư của dữ liệu. Ngoài ra, giải pháp phải xử lý khối lượng dữ liệu lớn với độ trễ thấp và thông lượng cao.

Khi xem qua các câu hỏi thuộc lĩnh vực trọng tâm này, bạn sẽ xem lại quy trình làm việc của tài liệu. Điều này bao gồm nhập dữ liệu, xử lý trước dữ liệu, chuyển đổi tài liệu thành loại tài liệu được Amazon Textract chấp nhận, xử lý luồng tài liệu đến, định tuyến tài liệu theo loại cũng như triển khai các chính sách lưu giữ và kiểm soát quyền truy cập.

Ví dụ: bằng cách lưu trữ tài liệu ở các giai đoạn được xử lý khác nhau, bạn có thể đảo ngược quá trình xử lý về bước trước đó nếu cần. Vòng đời dữ liệu đảm bảo độ tin cậy và tuân thủ cho khối lượng công việc. Bằng cách sử dụng Máy tính định mức dịch vụ Textract của Amazon (xem ảnh chụp màn hình sau), các tính năng không đồng bộ trên Amazon Textract, Lambda, Step Functions, Dịch vụ xếp hàng đơn giản trên Amazon (Amazon SQS) và Dịch vụ thông báo đơn giản của Amazon (Amazon SNS), các tổ chức có thể tự động hóa và mở rộng quy mô các tác vụ xử lý tài liệu để đáp ứng nhu cầu khối lượng công việc cụ thể.

Hình 2. Công cụ tính hạn ngạch dịch vụ Textract của Amazon. Bởi tác giả.

Hình 2. Công cụ tính hạn ngạch dịch vụ Textract của Amazon.

Xử lý lỗi

Xử lý lỗi hiệu quả là rất quan trọng để theo dõi trạng thái quy trình tài liệu và nó giúp nhóm vận hành có thời gian phản ứng với mọi hành vi bất thường, chẳng hạn như khối lượng tài liệu không mong muốn, loại tài liệu mới hoặc các sự cố ngoài kế hoạch khác từ các dịch vụ của bên thứ ba. Từ quan điểm của tổ chức, việc xử lý lỗi thích hợp có thể nâng cao hiệu suất và thời gian hoạt động của hệ thống.

Bạn có thể chia việc xử lý lỗi thành hai khía cạnh chính:

  • Cấu hình dịch vụ AWS – Bạn có thể triển khai logic thử lại với thời gian chờ theo cấp số nhân để xử lý các lỗi nhất thời như điều tiết. Khi bạn bắt đầu xử lý bằng cách gọi thao tác Start* không đồng bộ, chẳng hạn như Bắt đầuPhát hiện Văn bảnTài liệu, bạn có thể chỉ định rằng trạng thái hoàn thành của yêu cầu được xuất bản lên chủ đề SNS trong Kênh thông báo cấu hình. Điều này giúp bạn tránh được giới hạn điều tiết đối với lệnh gọi API do thăm dò API Get*. Bạn cũng có thể thực hiện báo động trong amazoncloudwatch và kích hoạt cảnh báo khi xảy ra lỗi bất thường.
  • Cải tiến báo cáo lỗi – Điều này bao gồm các thông báo chi tiết với mức độ chi tiết phù hợp theo loại lỗi và mô tả về phản hồi xử lý lỗi. Với thiết lập xử lý lỗi thích hợp, hệ thống có thể linh hoạt hơn bằng cách triển khai các mẫu phổ biến như tự động thử lại các lỗi không liên tục, sử dụng bộ ngắt mạch để xử lý lỗi xếp tầng và các dịch vụ giám sát để hiểu rõ hơn về lỗi. Điều này cho phép giải pháp cân bằng giữa các giới hạn thử lại và ngăn chặn các vòng lặp không bao giờ kết thúc.

Giám sát mô hình

Hiệu suất của các mô hình ML được theo dõi mức độ suy giảm theo thời gian. Khi dữ liệu và điều kiện hệ thống thay đổi, các số liệu hiệu quả và hiệu suất của mô hình sẽ được theo dõi để đảm bảo việc đào tạo lại được thực hiện khi cần thiết.

Mô hình ML trong quy trình làm việc IDP có thể là mô hình OCR, mô hình nhận dạng thực thể hoặc mô hình phân loại. Mô hình này có thể đến từ dịch vụ AWS AI, một mô hình nguồn mở trên Amazon SageMaker, nền tảng Amazon, hoặc các dịch vụ của bên thứ ba khác. Bạn phải hiểu những hạn chế và trường hợp sử dụng của từng dịch vụ để xác định các cách cải thiện mô hình bằng phản hồi của con người và nâng cao hiệu suất dịch vụ theo thời gian.

Một cách tiếp cận phổ biến là sử dụng nhật ký dịch vụ để hiểu các mức độ chính xác khác nhau. Những nhật ký này có thể giúp nhóm khoa học dữ liệu xác định và hiểu mọi nhu cầu đào tạo lại mô hình. Tổ chức của bạn có thể chọn cơ chế đào tạo lại—có thể là hàng quý, hàng tháng hoặc dựa trên các số liệu khoa học, chẳng hạn như khi độ chính xác giảm xuống dưới một ngưỡng nhất định.

Mục tiêu của việc giám sát không chỉ là phát hiện sự cố mà còn đóng vòng lặp để liên tục tinh chỉnh các mô hình và giữ cho giải pháp IDP hoạt động khi môi trường bên ngoài phát triển.

Giám sát hệ thống

Sau khi bạn triển khai giải pháp IDP trong sản xuất, điều quan trọng là phải giám sát các số liệu chính và hiệu suất tự động hóa để xác định các lĩnh vực cần cải thiện. Các số liệu nên bao gồm số liệu kinh doanh và số liệu kỹ thuật. Điều này cho phép công ty đánh giá hiệu suất của hệ thống, xác định vấn đề và cải tiến các mô hình, quy tắc và quy trình làm việc theo thời gian để tăng tốc độ tự động hóa nhằm hiểu được tác động của hoạt động.

Về phía doanh nghiệp, các số liệu như độ chính xác trích xuất đối với các trường quan trọng, tỷ lệ tự động hóa tổng thể cho biết tỷ lệ phần trăm tài liệu được xử lý mà không có sự can thiệp của con người và thời gian xử lý trung bình trên mỗi tài liệu là tối quan trọng. Các số liệu kinh doanh này giúp định lượng trải nghiệm của người dùng cuối và mức tăng hiệu quả hoạt động.

Các số liệu kỹ thuật bao gồm tỷ lệ lỗi và ngoại lệ xảy ra trong suốt quy trình làm việc là điều cần thiết để theo dõi từ góc độ kỹ thuật. Các số liệu kỹ thuật cũng có thể giám sát ở từng cấp độ từ đầu đến cuối và cung cấp cái nhìn toàn diện về khối lượng công việc phức tạp. Bạn có thể chia số liệu thành các cấp độ khác nhau, chẳng hạn như cấp độ giải pháp, cấp độ quy trình làm việc từ đầu đến cuối, cấp độ loại tài liệu, cấp độ tài liệu, cấp độ nhận dạng thực thể và cấp độ OCR.

Bây giờ bạn đã xem xét tất cả các câu hỏi trong trụ cột này, bạn có thể đánh giá các trụ cột khác và phát triển kế hoạch cải tiến cho khối lượng công việc IDP của mình.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về các chỉ số phổ biến mà bạn có thể cần để thực hiện đánh giá Khung kiến ​​trúc tối ưu cho trụ cột Hiệu suất hiệu suất cho khối lượng công việc IDP của bạn. Sau đó, chúng tôi xem xét các nguyên tắc thiết kế để cung cấp cái nhìn tổng quan cấp cao và thảo luận về mục tiêu của giải pháp. Bằng cách làm theo các đề xuất này dựa trên Ống kính tùy chỉnh kiến ​​trúc tối ưu của IDP và bằng cách xem xét các câu hỏi theo lĩnh vực trọng tâm, giờ đây bạn sẽ có kế hoạch cải tiến dự án.


Về các tác giả

Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Mia Chang là Kiến trúc sư giải pháp chuyên gia ML cho Dịch vụ web của Amazon. Cô làm việc với khách hàng ở EMEA và chia sẻ các phương pháp hay nhất để chạy khối lượng công việc AI/ML trên đám mây với nền tảng về toán học ứng dụng, khoa học máy tính và AI/ML. Cô tập trung vào khối lượng công việc dành riêng cho NLP và chia sẻ kinh nghiệm của mình với tư cách là diễn giả hội nghị và tác giả sách. Khi rảnh rỗi, cô thích đi bộ đường dài, chơi board game và pha cà phê.

Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Brijesh Pati là Kiến trúc sư giải pháp doanh nghiệp tại AWS. Trọng tâm chính của anh là giúp khách hàng doanh nghiệp áp dụng công nghệ đám mây cho khối lượng công việc của họ. Ông có kiến ​​thức nền tảng về phát triển ứng dụng và kiến ​​trúc doanh nghiệp, đồng thời đã làm việc với khách hàng từ nhiều ngành khác nhau như thể thao, tài chính, năng lượng và dịch vụ chuyên nghiệp. Mối quan tâm của anh ấy bao gồm kiến ​​trúc không có máy chủ và AI/ML.

Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Rui Cardoso là kiến ​​trúc sư giải pháp đối tác tại Amazon Web Services (AWS). Anh ấy đang tập trung vào AI/ML và IoT. Anh ấy làm việc với các Đối tác của AWS và hỗ trợ họ phát triển các giải pháp trong AWS. Khi không làm việc, anh thích đạp xe, đi bộ đường dài và học hỏi những điều mới.

Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Tim Condello là kiến ​​trúc sư giải pháp chuyên môn về trí tuệ nhân tạo (AI) và máy học (ML) cấp cao tại Amazon Web Services (AWS). Trọng tâm của ông là xử lý ngôn ngữ tự nhiên và thị giác máy tính. Tim thích lấy ý tưởng của khách hàng và biến chúng thành các giải pháp có thể mở rộng.

Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Sherry Đinh là kiến ​​trúc sư giải pháp chuyên môn về trí tuệ nhân tạo (AI) và máy học (ML) cấp cao tại Amazon Web Services (AWS). Cô có nhiều kinh nghiệm về học máy với bằng Tiến sĩ về khoa học máy tính. Cô chủ yếu làm việc với các khách hàng thuộc khu vực công về các thách thức kinh doanh khác nhau liên quan đến AI/ML, giúp họ đẩy nhanh hành trình học máy trên Đám mây AWS. Khi không giúp đỡ khách hàng, cô thích tham gia các hoạt động ngoài trời.

Xây dựng các giải pháp IDP có kiến ​​trúc tốt với góc nhìn tùy chỉnh – Phần 4: Hiệu suất hiệu suất | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Suyin Wang là Kiến trúc sư giải pháp chuyên gia AI/ML tại AWS. Cô có nền tảng giáo dục liên ngành về Học máy, Dịch vụ thông tin tài chính và Kinh tế, cùng với nhiều năm kinh nghiệm trong việc xây dựng các ứng dụng Khoa học dữ liệu và Học máy để giải quyết các vấn đề kinh doanh trong thế giới thực. Cô thích giúp khách hàng xác định các câu hỏi kinh doanh phù hợp và xây dựng các giải pháp AI/ML phù hợp. Khi rảnh rỗi, cô thích ca hát và nấu ăn.

Dấu thời gian:

Thêm từ Học máy AWS