Nâng cao khả năng xử lý tài liệu thông minh của AWS với AI tổng quát | Dịch vụ web của Amazon

Nâng cao khả năng xử lý tài liệu thông minh của AWS với AI tổng quát | Dịch vụ web của Amazon

Phân loại, trích xuất và phân tích dữ liệu có thể là thách thức đối với các tổ chức xử lý khối lượng tài liệu. Các giải pháp xử lý tài liệu truyền thống là thủ công, tốn kém, dễ xảy ra lỗi và khó mở rộng quy mô. Xử lý tài liệu thông minh AWS (IDP), với các dịch vụ AI như Văn bản Amazon, cho phép bạn tận dụng công nghệ máy học (ML) đầu ngành để xử lý dữ liệu nhanh chóng và chính xác từ bất kỳ tài liệu hoặc hình ảnh được quét nào. Trí tuệ nhân tạo tổng hợp (generative AI) bổ sung cho Amazon Textract để tự động hóa hơn nữa quy trình xử lý tài liệu. Các tính năng như chuẩn hóa các trường chính và tóm tắt dữ liệu đầu vào hỗ trợ các chu trình quản lý quy trình xử lý tài liệu nhanh hơn, đồng thời giảm khả năng xảy ra lỗi.

AI sáng tạo được thúc đẩy bởi các mô hình ML lớn được gọi là mô hình nền tảng (FM). FM đang thay đổi cách bạn có thể giải quyết khối lượng công việc xử lý tài liệu phức tạp theo cách truyền thống. Ngoài khả năng hiện có, doanh nghiệp cần tổng hợp các danh mục thông tin cụ thể, bao gồm dữ liệu ghi nợ và tín dụng từ các tài liệu như báo cáo tài chính và sao kê ngân hàng. FM giúp dễ dàng tạo ra những hiểu biết như vậy từ dữ liệu được trích xuất. Để tối ưu hóa thời gian dành cho đánh giá của con người và để cải thiện năng suất của nhân viên, các lỗi như thiếu chữ số trong số điện thoại, thiếu tài liệu hoặc địa chỉ không có số đường phố có thể được gắn cờ theo cách tự động. Trong tình huống hiện tại, bạn cần dành tài nguyên để hoàn thành các tác vụ đó bằng cách sử dụng đánh giá của con người và các tập lệnh phức tạp. Cách tiếp cận này là tẻ nhạt và tốn kém. FM có thể giúp hoàn thành các tác vụ này nhanh hơn, với ít tài nguyên hơn và chuyển đổi các định dạng đầu vào khác nhau thành một mẫu tiêu chuẩn có thể được xử lý thêm. Tại AWS, chúng tôi cung cấp các dịch vụ như nền tảng Amazon, cách dễ nhất để xây dựng và mở rộng quy mô các ứng dụng AI tổng quát bằng FM. Amazon Bedrock là một dịch vụ được quản lý hoàn toàn giúp cung cấp các FM từ các công ty khởi nghiệp AI hàng đầu và Amazon thông qua API, vì vậy bạn có thể tìm thấy mô hình phù hợp nhất với yêu cầu của mình. chúng tôi cũng cung cấp Khởi động Amazon SageMaker, cho phép các học viên ML chọn từ nhiều lựa chọn FM nguồn mở. Các học viên ML có thể triển khai FM để dành riêng Amazon SageMaker các phiên bản từ môi trường cách ly mạng và tùy chỉnh các mô hình bằng SageMaker để đào tạo và triển khai mô hình.

Ricoh cung cấp các giải pháp tại nơi làm việc và dịch vụ chuyển đổi kỹ thuật số được thiết kế để giúp khách hàng quản lý và tối ưu hóa luồng thông tin trong doanh nghiệp của họ. Ashok Shenoy, Phó Giám đốc Phát triển Giải pháp Danh mục đầu tư, cho biết: “Chúng tôi đang bổ sung AI tổng quát vào các giải pháp IDP của mình để giúp khách hàng hoàn thành công việc nhanh hơn và chính xác hơn bằng cách sử dụng các khả năng mới như Hỏi & Đáp, tóm tắt và đầu ra được tiêu chuẩn hóa. AWS cho phép chúng tôi tận dụng trí tuệ nhân tạo tổng hợp trong khi vẫn đảm bảo an toàn và riêng biệt cho từng dữ liệu của khách hàng.”

Trong bài đăng này, chúng tôi chia sẻ cách nâng cao giải pháp IDP của bạn trên AWS với AI tổng quát.

Cải thiện đường ống IDP

Trong phần này, chúng tôi xem xét cách quy trình bán hàng IDP truyền thống có thể được tăng cường bởi FM và xem qua một trường hợp sử dụng ví dụ bằng cách sử dụng Amazon Textract với FM.

AWS IDP bao gồm ba giai đoạn: phân loại, trích xuất và làm giàu. Để biết thêm chi tiết về từng giai đoạn, tham khảo Xử lý tài liệu thông minh với các dịch vụ AWS AI: Phần 1Phần 2. Trong giai đoạn phân loại, FM hiện có thể phân loại tài liệu mà không cần đào tạo thêm. Điều này có nghĩa là các tài liệu có thể được phân loại ngay cả khi mô hình chưa từng thấy các ví dụ tương tự trước đó. Các FM trong giai đoạn trích xuất chuẩn hóa các trường ngày và xác minh địa chỉ cũng như số điện thoại, đồng thời đảm bảo định dạng nhất quán. FM trong giai đoạn làm giàu cho phép suy luận, lập luận logic và tóm tắt. Khi bạn sử dụng FM trong từng giai đoạn IDP, quy trình làm việc của bạn sẽ được sắp xếp hợp lý hơn và hiệu suất sẽ được cải thiện. Sơ đồ sau đây minh họa quy trình IDP với AI tổng quát.

Quy trình xử lý tài liệu thông minh với AI sáng tạo

Giai đoạn khai thác của đường ống IDP

Khi FM không thể xử lý trực tiếp tài liệu ở định dạng gốc của chúng (chẳng hạn như PDF, img, jpeg và tiff) làm đầu vào, thì cần có cơ chế chuyển đổi tài liệu thành văn bản. Để trích xuất văn bản từ tài liệu trước khi gửi đến FM, bạn có thể sử dụng Amazon Textract. Với Amazon Textract, bạn có thể trích xuất các dòng và từ rồi chuyển chúng tới các FM xuôi dòng. Kiến trúc sau đây sử dụng Amazon Textract để trích xuất văn bản chính xác từ bất kỳ loại tài liệu nào trước khi gửi tới FM để xử lý thêm.

Textract Nhập dữ liệu tài liệu vào Foundation Models

Thông thường, các tài liệu bao gồm thông tin có cấu trúc và bán cấu trúc. Amazon Textract có thể được sử dụng để trích xuất văn bản và dữ liệu thô từ các bảng và biểu mẫu. Mối quan hệ giữa dữ liệu trong bảng và biểu mẫu đóng một vai trò quan trọng trong việc tự động hóa các quy trình kinh doanh. Một số loại thông tin có thể không được xử lý bởi FM. Do đó, chúng tôi có thể chọn lưu trữ thông tin này trong kho lưu trữ xuôi dòng hoặc gửi thông tin đó tới FM. Hình dưới đây là một ví dụ về cách Amazon Textract có thể trích xuất thông tin có cấu trúc và bán cấu trúc từ một tài liệu, ngoài các dòng văn bản cần được FM xử lý.

Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Sử dụng dịch vụ phi máy chủ AWS để tóm tắt với FM

Quy trình IDP mà chúng tôi đã minh họa trước đó có thể được tự động hóa liền mạch bằng cách sử dụng các dịch vụ phi máy chủ của AWS. Tài liệu phi cấu trúc cao là phổ biến trong các doanh nghiệp lớn. Các tài liệu này có thể bao gồm từ các tài liệu của Ủy ban Chứng khoán và Hối đoái (SEC) trong ngành ngân hàng đến các tài liệu về bảo hiểm trong ngành bảo hiểm y tế. Với sự phát triển của AI tổng quát tại AWS, mọi người trong các ngành này đang tìm cách lấy bản tóm tắt từ các tài liệu đó theo cách tự động và tiết kiệm chi phí. Dịch vụ serverless giúp cung cấp cơ chế xây dựng giải pháp cho IDP một cách nhanh chóng. Các dịch vụ như AWS Lambda, Chức năng bước AWSSự kiện Amazon có thể giúp xây dựng quy trình xử lý tài liệu có tích hợp FM, như thể hiện trong sơ đồ sau.

Xử lý tài liệu từ đầu đến cuối với Amazon Textract và Generative AI

Sản phẩm ứng dụng mẫu được sử dụng trong kiến ​​trúc trước là thúc đẩy bởi các sự kiện. An sự kiện được định nghĩa là một sự thay đổi trạng thái vừa mới xảy ra. Ví dụ: khi một đối tượng được tải lên một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), Amazon S3 phát ra sự kiện Tạo đối tượng. Thông báo sự kiện này từ Amazon S3 có thể kích hoạt chức năng Lambda hoặc quy trình công việc Step Functions. Kiểu kiến ​​trúc này được gọi là kiến trúc hướng sự kiện. Trong bài đăng này, ứng dụng mẫu của chúng tôi sử dụng kiến ​​trúc hướng sự kiện để xử lý tài liệu xuất viện mẫu và tóm tắt các chi tiết của tài liệu. Luồng hoạt động như sau:

  1. Khi tài liệu được tải lên bộ chứa S3, Amazon S3 sẽ kích hoạt sự kiện Tạo đối tượng.
  2. Xe buýt sự kiện mặc định của EventBridge truyền sự kiện tới Step Functions dựa trên quy tắc EventBridge.
  3. Luồng công việc của máy trạng thái xử lý tài liệu, bắt đầu với Amazon Textract.
  4. Hàm Lambda chuyển đổi dữ liệu được phân tích cho bước tiếp theo.
  5. Máy trạng thái viện dẫn a Điểm cuối SageMaker, lưu trữ FM bằng tích hợp AWS SDK trực tiếp.
  6. Bộ chứa đích S3 tóm tắt nhận được phản hồi tóm tắt được thu thập từ FM.

Chúng tôi đã sử dụng ứng dụng mẫu với một flan-t5 Mẫu ôm mặt để tóm tắt bản tóm tắt xuất viện của bệnh nhân mẫu sau đây bằng cách sử dụng quy trình công việc Step Functions.

tóm tắt xuất viện của bệnh nhân

Dòng công việc Step Functions sử dụng Tích hợp AWS SDK để gọi Amazon Textract Phân tíchDocument và thời gian chạy SageMaker GọiEndpoint API, như thể hiện trong hình dưới đây.

quy trình làm việc

Quy trình công việc này dẫn đến một đối tượng JSON tóm tắt được lưu trữ trong bộ chứa đích. Đối tượng JSON trông như sau:

{ "summary": [ "John Doe is a 35-year old male who has been experiencing stomach problems for two months. He has been taking antibiotics for the last two weeks, but has not been able to eat much. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has also noticed a change in his stool color, which is now darker. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of fatigue, and has been unable to work for the last two weeks. He has also been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help." ], "forms": [ { "key": "Ph: ", "value": "(888)-(999)-(0000) " }, { "key": "Fax: ", "value": "(888)-(999)-(1111) " }, { "key": "Patient Name: ", "value": "John Doe " }, { "key": "Patient ID: ", "value": "NARH-36640 " }, { "key": "Gender: ", "value": "Male " }, { "key": "Attending Physician: ", "value": "Mateo Jackson, PhD " }, { "key": "Admit Date: ", "value": "07-Sep-2020 " }, { "key": "Discharge Date: ", "value": "08-Sep-2020 " }, { "key": "Discharge Disposition: ", "value": "Home with Support Services " }, { "key": "Pre-existing / Developed Conditions Impacting Hospital Stay: ", "value": "35 yo M c/o stomach problems since 2 months. Patient reports epigastric abdominal pain non- radiating. Pain is described as gnawing and burning, intermittent lasting 1-2 hours, and gotten progressively worse. Antacids used to alleviate pain but not anymore; nothing exacerbates pain. Pain unrelated to daytime or to meals. Patient denies constipation or diarrhea. Patient denies blood in stool but have noticed them darker. Patient also reports nausea. Denies recent illness or fever. He also reports fatigue for 2 weeks and bloating after eating. ROS: Negative except for above findings Meds: Motrin once/week. Tums previously. PMHx: Back pain and muscle spasms. No Hx of surgery. NKDA. FHx: Uncle has a bleeding ulcer. Social Hx: Smokes since 15 yo, 1/2-1 PPD. No recent EtOH use. Denies illicit drug use. Works on high elevation construction. Fast food diet. Exercises 3-4 times/week but stopped 2 weeks ago. " }, { "key": "Summary: ", "value": "some activity restrictions suggested, full course of antibiotics, check back with physican in case of relapse, strict diet " } ] }

Việc tạo các bản tóm tắt này bằng cách sử dụng IDP với triển khai serverless trên quy mô lớn giúp các tổ chức có được dữ liệu có ý nghĩa, ngắn gọn và dễ trình bày theo cách tiết kiệm chi phí. Step Functions không giới hạn phương pháp xử lý tài liệu cho một tài liệu tại một thời điểm. Của nó bản đồ phân tán tính năng có thể tóm tắt số lượng lớn tài liệu theo lịch biểu.

Sản phẩm ứng dụng mẫu sử dụng flan-t5 Mẫu ôm mặt; tuy nhiên, bạn có thể sử dụng điểm cuối FM mà bạn chọn. Việc đào tạo và chạy mô hình nằm ngoài phạm vi của ứng dụng mẫu. Làm theo hướng dẫn trong kho lưu trữ GitHub để triển khai ứng dụng mẫu. Kiến trúc trước đó là hướng dẫn về cách bạn có thể sắp xếp quy trình công việc IDP bằng Step Functions. Tham khảo đến Hội thảo Trí tuệ nhân tạo của IDP để được hướng dẫn chi tiết về cách xây dựng ứng dụng với các dịch vụ AWS AI và FM.

Thiết lập giải pháp

Làm theo các bước trong README tệp để đặt kiến ​​trúc giải pháp (ngoại trừ các điểm cuối SageMaker). Sau khi bạn có sẵn điểm cuối SageMaker của riêng mình, bạn có thể chuyển tên điểm cuối làm tham số cho mẫu.

Làm sạch

Để tiết kiệm chi phí, hãy xóa các tài nguyên bạn đã triển khai như một phần của hướng dẫn:

  1. Làm theo các bước trong phần dọn dẹp của README tập tin.
  2. Xóa mọi nội dung khỏi bộ chứa S3 của bạn rồi xóa bộ chứa thông qua bảng điều khiển Amazon S3.
  3. Xóa mọi điểm cuối SageMaker mà bạn có thể đã tạo thông qua bảng điều khiển SageMaker.

Kết luận

AI sáng tạo đang thay đổi cách bạn có thể xử lý tài liệu với IDP để thu thập thông tin chi tiết. Các dịch vụ AWS AI như Amazon Textract cùng với AWS FM có thể giúp xử lý chính xác mọi loại tài liệu. Để biết thêm thông tin về cách làm việc với AI tổng quát trên AWS, hãy tham khảo Công bố các công cụ mới để xây dựng với AI sáng tạo trên AWS.


Về các tác giả

Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Sonali Sahu đang dẫn đầu về xử lý tài liệu thông minh với nhóm dịch vụ AI/ML tại AWS. Cô ấy là một tác giả, nhà lãnh đạo tư tưởng và nhà công nghệ đam mê. Lĩnh vực trọng tâm cốt lõi của cô ấy là AI và ML, đồng thời cô ấy thường xuyên phát biểu tại các hội nghị và buổi gặp mặt về AI và ML trên khắp thế giới. Cô ấy có cả bề rộng và bề dày kinh nghiệm về công nghệ và ngành công nghệ, với chuyên môn trong ngành về chăm sóc sức khỏe, lĩnh vực tài chính và bảo hiểm.

Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Ashish Lal là Giám đốc Tiếp thị Sản phẩm Cấp cao, người lãnh đạo hoạt động tiếp thị sản phẩm cho các dịch vụ AI tại AWS. Ông có 9 năm kinh nghiệm tiếp thị và đã lãnh đạo nỗ lực tiếp thị sản phẩm cho Xử lý tài liệu thông minh. Ông lấy bằng Thạc sĩ Quản trị Kinh doanh tại Đại học Washington.

Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Mrunal Daftari là Kiến trúc sư giải pháp cấp cao cho doanh nghiệp tại Amazon Web Services. Anh ấy có trụ sở tại Boston, MA. Anh ấy là một người đam mê điện toán đám mây và rất đam mê tìm kiếm các giải pháp đơn giản cho khách hàng và giải quyết các kết quả kinh doanh của họ. Anh ấy thích làm việc với các công nghệ đám mây, cung cấp các giải pháp đơn giản, có thể mở rộng để mang lại kết quả kinh doanh tích cực, chiến lược áp dụng đám mây cũng như thiết kế các giải pháp sáng tạo và thúc đẩy hoạt động xuất sắc.

Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Dhiraj Mahapatro là Kiến trúc sư giải pháp chuyên gia chính về Serverless tại AWS. Ông chuyên hỗ trợ các dịch vụ tài chính doanh nghiệp áp dụng kiến ​​trúc không có máy chủ và hướng sự kiện để hiện đại hóa các ứng dụng của họ và đẩy nhanh tốc độ đổi mới của họ. Gần đây, anh ấy đang làm việc để đưa khối lượng công việc bộ chứa và cách sử dụng thực tế của AI tổng quát đến gần hơn với serverless và EDA cho các khách hàng trong ngành dịch vụ tài chính.

Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Jacob Hauskens là Chuyên gia AI chính với hơn 15 năm kinh nghiệm phát triển kinh doanh chiến lược và quan hệ đối tác. Trong 7 năm qua, anh ấy đã lãnh đạo việc tạo và thực hiện các chiến lược tiếp cận thị trường cho các dịch vụ B2B mới do AI cung cấp. Gần đây, anh ấy đã giúp các ISV tăng doanh thu bằng cách thêm AI tổng quát vào quy trình xử lý tài liệu thông minh.

Dấu thời gian:

Thêm từ Học máy AWS