Xây dựng trình nhận dạng thực thể tùy chỉnh cho tài liệu PDF bằng Amazon Comprehend

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong nhiều ngành, việc trích xuất các thực thể tùy chỉnh từ tài liệu một cách kịp thời là rất quan trọng. Điều này có thể là một thách thức. Ví dụ: các yêu cầu bảo hiểm thường chứa hàng tá thuộc tính quan trọng (chẳng hạn như ngày tháng, tên, địa điểm và báo cáo) nằm rải rác trên các tài liệu dài và dày đặc. Việc quét và trích xuất thông tin như vậy theo cách thủ công có thể dễ xảy ra lỗi và tốn thời gian. Phần mềm dựa trên quy tắc có thể hữu ích nhưng cuối cùng lại quá cứng nhắc để thích ứng với nhiều loại tài liệu và bố cục khác nhau.

Để giúp tự động hóa và tăng tốc quá trình này, bạn có thể sử dụng Amazon hiểu để phát hiện các thực thể tùy chỉnh một cách nhanh chóng và chính xác bằng cách sử dụng máy học (ML). Cách tiếp cận này linh hoạt và chính xác vì hệ thống có thể thích ứng với các tài liệu mới bằng cách sử dụng những gì nó đã học được trong quá khứ. Tuy nhiên, cho đến gần đây, khả năng này chỉ có thể được áp dụng cho các tài liệu văn bản thuần túy, điều đó có nghĩa là thông tin vị trí sẽ bị mất khi chuyển đổi tài liệu từ định dạng gốc của chúng. Để giải quyết vấn đề này, nó đã mới được công bố gần đây Amazon Comprehend có thể trích xuất các thực thể tùy chỉnh ở định dạng tệp PDF, hình ảnh và tệp Word.

Trong bài đăng này, chúng tôi sẽ giới thiệu một ví dụ cụ thể từ ngành bảo hiểm về cách bạn có thể xây dựng trình nhận dạng tùy chỉnh bằng cách sử dụng chú thích PDF.

Tổng quan về giải pháp

Chúng tôi hướng dẫn bạn qua các bước cấp cao sau:

Tạo chú thích PDF.
Sử dụng chú thích PDF để huấn luyện mô hình tùy chỉnh bằng API Python.
Lấy số liệu đánh giá từ mô hình được đào tạo.
Thực hiện suy luận trên một tài liệu chưa nhìn thấy.

Đến cuối bài đăng này, chúng tôi muốn có thể gửi tài liệu PDF thô đến mô hình đã đào tạo của chúng tôi và yêu cầu nó xuất ra một tệp có cấu trúc chứa thông tin về các nhãn mà chúng tôi quan tâm. Cụ thể, chúng tôi huấn luyện mô hình của mình để phát hiện năm thực thể sau mà chúng tôi đã chọn vì mức độ liên quan của chúng với các yêu cầu bảo hiểm: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossvà InsuredMailingAddress. Sau khi đọc kết quả có cấu trúc, chúng ta có thể trực quan hóa thông tin nhãn trên tài liệu PDF, như trong hình ảnh sau đây.

Bài đăng này được kèm theo sổ ghi chép Jupyter có chứa các bước tương tự. Vui lòng làm theo trong khi thực hiện các bước trong đó máy tính xách tay. Lưu ý rằng bạn cần phải thiết lập Amazon SageMaker môi trường để cho phép Amazon Comprehend đọc từ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) như được mô tả ở đầu sổ ghi chép.

Tạo chú thích PDF

Để tạo chú thích cho tài liệu PDF, bạn có thể sử dụng Sự thật về mặt đất của Amazon SageMaker, một dịch vụ ghi nhãn dữ liệu được quản lý hoàn toàn giúp dễ dàng xây dựng các tập dữ liệu đào tạo có độ chính xác cao cho ML.

Đối với hướng dẫn này, chúng tôi đã chú thích các tệp PDF ở dạng gốc (không chuyển đổi sang văn bản thuần túy) bằng cách sử dụng Ground Truth. Công việc Ground Truth tạo ra ba đường dẫn mà chúng tôi cần để đào tạo mô hình Amazon Comprehend tùy chỉnh của mình:

nguồn – Đường dẫn đến các tệp PDF đầu vào.
Chú thích – Đường dẫn đến tệp JSON chú thích chứa thông tin thực thể được gắn nhãn.
Tệp kê khai – Tệp trỏ đến vị trí của chú thích và nguồn PDF. Tệp này được sử dụng để tạo công việc đào tạo nhận dạng thực thể tùy chỉnh Amazon Comprehend và đào tạo mô hình tùy chỉnh.

Ảnh chụp màn hình sau đây hiển thị chú thích mẫu.

Công việc Ground Truth tùy chỉnh tạo chú thích PDF để nắm bắt thông tin cấp khối về thực thể. Thông tin cấp khối như vậy cung cấp tọa độ vị trí chính xác của thực thể (với các khối con đại diện cho mỗi từ trong khối thực thể). Điều này khác với công việc Ground Truth tiêu chuẩn trong đó dữ liệu trong PDF được làm phẳng thành định dạng văn bản và chỉ thông tin bù trừ—chứ không phải thông tin tọa độ chính xác—được ghi lại trong quá trình chú thích. Thông tin vị trí phong phú mà chúng tôi thu được bằng mô hình chú thích tùy chỉnh này cho phép chúng tôi đào tạo một mô hình chính xác hơn.

Tệp kê khai được tạo từ loại công việc này được gọi là tệp kê khai tăng cường, trái ngược với tệp CSV được sử dụng cho các chú thích tiêu chuẩn. Để biết thêm thông tin, xem Chú thích.

Sử dụng chú thích PDF để huấn luyện mô hình tùy chỉnh bằng API Python

Tệp kê khai tăng cường phải được định dạng ở định dạng Dòng JSON. Ở định dạng Dòng JSON, mỗi dòng trong tệp là một đối tượng JSON hoàn chỉnh, theo sau là dấu phân cách dòng mới.

Mã sau đây là một mục trong tệp kê khai mở rộng này.

Một số điều cần lưu ý:

Năm loại ghi nhãn có liên quan đến công việc này: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossvà InsuredMailingAddress.
Tệp kê khai tham chiếu cả vị trí PDF nguồn và vị trí chú thích.
Siêu dữ liệu về công việc chú thích (chẳng hạn như ngày tạo) được ghi lại.
Use-textract-only được thiết lập để False, nghĩa là công cụ chú thích sẽ quyết định sử dụng PDFPlumber (đối với bản PDF gốc) hay Văn bản Amazon (đối với bản PDF được quét). Nếu được đặt thành true, Amazon Textract được sử dụng trong cả hai trường hợp (tốn kém hơn nhưng có khả năng chính xác hơn).

Bây giờ chúng ta có thể huấn luyện trình nhận dạng, như minh họa trong đoạn mã ví dụ sau.

Chúng tôi tạo ra một trình nhận dạng để nhận biết tất cả năm loại thực thể. Chúng tôi có thể đã sử dụng một tập hợp con của các thực thể này nếu muốn. Bạn có thể sử dụng tối đa 25 thực thể.

Để biết chi tiết của từng tham số, hãy tham khảo create_entity_recognizer.

Tùy thuộc vào kích thước của tập huấn luyện, thời gian huấn luyện có thể khác nhau. Đối với tập dữ liệu này, quá trình đào tạo mất khoảng 1 giờ. Để theo dõi trạng thái của công việc đào tạo, bạn có thể sử dụng describe_entity_recognizer API.

Lấy số liệu đánh giá từ mô hình được đào tạo

Amazon Comprehend cung cấp số liệu hiệu suất mô hình cho một mô hình được đào tạo, cho biết mô hình được đào tạo dự kiến sẽ đưa ra dự đoán tốt đến mức nào bằng cách sử dụng thông tin đầu vào tương tự. Chúng tôi có thể thu được cả số liệu về độ chính xác và thu hồi toàn cầu cũng như số liệu trên mỗi thực thể. Một mô hình chính xác có độ chính xác cao và khả năng thu hồi cao. Độ chính xác cao có nghĩa là mô hình thường chính xác khi nó chỉ ra một nhãn cụ thể; khả năng thu hồi cao có nghĩa là mô hình đã tìm thấy hầu hết các nhãn. F1 là số liệu tổng hợp (trung bình hài hòa) của các thước đo này và do đó cao khi cả hai thành phần đều cao. Để biết mô tả chi tiết về các số liệu, hãy xem Số liệu nhận dạng thực thể tùy chỉnh.

Khi bạn cung cấp tài liệu cho công việc đào tạo, Amazon Comprehend sẽ tự động tách chúng thành tập huấn luyện và tập kiểm tra. Khi mô hình đã đạt TRAINED trạng thái, bạn có thể sử dụng describe_entity_recognizer API một lần nữa để lấy số liệu đánh giá trên bộ kiểm tra.

Sau đây là một ví dụ về số liệu toàn cầu.

Sau đây là ví dụ về số liệu cho mỗi thực thể.

Điểm cao cho thấy mô hình đã học tốt cách phát hiện các thực thể này.

Thực hiện suy luận trên một tài liệu chưa nhìn thấy

Hãy tiến hành suy luận với mô hình đã được huấn luyện của chúng ta trên một tài liệu không nằm trong quy trình huấn luyện. Chúng tôi có thể sử dụng API không đồng bộ này cho NER tiêu chuẩn hoặc tùy chỉnh. Nếu sử dụng nó cho NER tùy chỉnh (như trong bài này), chúng ta phải chuyển ARN của mô hình được đào tạo.

Chúng ta có thể xem lại công việc đã gửi bằng cách in phản hồi.

Chúng ta có thể định dạng đầu ra của công việc phát hiện bằng Pandas thành một bảng. Các Score giá trị cho biết mức độ tin cậy của mô hình về thực thể.

Cuối cùng, chúng ta có thể phủ các dự đoán lên các tài liệu chưa nhìn thấy, kết quả này sẽ cho kết quả như hiển thị ở đầu bài đăng này.

Kết luận

Trong bài đăng này, bạn đã biết cách trích xuất các thực thể tùy chỉnh ở định dạng PDF gốc bằng Amazon Comprehend. Ở các bước tiếp theo, hãy cân nhắc việc tìm hiểu sâu hơn:

Huấn luyện trình nhận dạng của riêng bạn bằng sổ ghi chép đi kèm tại đây. Hãy nhớ xóa mọi tài nguyên khi hoàn tất để tránh bị tính phí trong tương lai.
Thiết lập công việc chú thích tùy chỉnh của riêng bạn để thu thập chú thích PDF cho các đối tượng bạn quan tâm. Để biết thêm thông tin, hãy tham khảo Chú thích tài liệu tùy chỉnh để trích xuất các thực thể được đặt tên trong tài liệu bằng Amazon Toàn diện.
Huấn luyện mô hình NER tùy chỉnh trên bảng điều khiển Amazon Comprehend. Để biết thêm thông tin, xem Trích xuất các thực thể tùy chỉnh từ các tài liệu ở định dạng gốc của chúng với Amazon Comprehend.

Về các tác giả

Joshua Levy là Nhà khoa học ứng dụng cấp cao trong phòng thí nghiệm Giải pháp học máy của Amazon, nơi ông giúp khách hàng thiết kế và xây dựng các giải pháp AI/ML để giải quyết các vấn đề kinh doanh chính.

Andrew Ang là Kỹ sư Machine Learning trong Phòng thí nghiệm Giải pháp Machine Learning của Amazon, nơi anh giúp khách hàng từ nhiều ngành khác nhau xác định và xây dựng các giải pháp AI/ML để giải quyết các vấn đề kinh doanh cấp bách nhất của họ. Ngoài công việc, anh ấy thích xem vlog du lịch và ẩm thực.

Alex Chirayath là Kỹ sư phần mềm trong Phòng thí nghiệm giải pháp học máy của Amazon tập trung vào việc xây dựng các giải pháp dựa trên trường hợp sử dụng nhằm hướng dẫn khách hàng cách khai thác sức mạnh của dịch vụ AI/ML của AWS để giải quyết các vấn đề kinh doanh trong thế giới thực.

Jennifer Chu là Nhà khoa học ứng dụng từ Phòng thí nghiệm giải pháp học máy AI của Amazon. Cô làm việc với khách hàng của AWS để xây dựng các giải pháp AI/ML cho nhu cầu kinh doanh có mức độ ưu tiên cao của họ.

Niharika Jayanthi là Kỹ sư giao diện người dùng trong Phòng thí nghiệm giải pháp học máy của Amazon - Nhóm Human in the Loop. Cô giúp tạo ra các giải pháp trải nghiệm người dùng cho khách hàng của Amazon SageMaker Ground Truth.

Boris Aronchik là Giám đốc của Phòng thí nghiệm giải pháp máy học AI của Amazon, nơi ông lãnh đạo một nhóm gồm các Nhà khoa học và Kỹ sư ML để giúp khách hàng AWS hiện thực hóa các mục tiêu kinh doanh bằng cách tận dụng các giải pháp AI/ML.

Dấu thời gian: 8 Tháng Tư, 2022

Dấu thời gian: Tháng 29, 2022

Xây dựng một công cụ nhận dạng thực thể tùy chỉnh cho các tài liệu PDF bằng Amazon Toàn diện

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Tạo chú thích PDF

Sử dụng chú thích PDF để huấn luyện mô hình tùy chỉnh bằng API Python

Lấy số liệu đánh giá từ mô hình được đào tạo

Thực hiện suy luận trên một tài liệu chưa nhìn thấy

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Suy luận ML tiết kiệm chi phí với các mô hình đa khung trên Amazon SageMaker

Amazon Rekognition giới thiệu Sự kiện phát trực tuyến video để cung cấp cảnh báo thời gian thực về các luồng video trực tiếp

Giảm tới 90% mức tiêu thụ năng lượng cho khối lượng công việc học máy của bạn với các bộ tăng tốc được xây dựng có mục đích của AWS | Dịch vụ web của Amazon

Chronomics phát hiện kết quả xét nghiệm COVID-19 bằng Nhãn tùy chỉnh Amazon Rekognition

T-Mobile US, Inc. sử dụng trí tuệ nhân tạo thông qua Amazon Transcribe và Amazon Translate để gửi thư thoại bằng ngôn ngữ khách hàng lựa chọn | Dịch vụ web của Amazon

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản