Văn bản Amazon là dịch vụ máy học (ML) tự động trích xuất văn bản, chữ viết tay và dữ liệu từ bất kỳ tài liệu hoặc hình ảnh nào. Amazon Textract có tính năng Bảng trong Phân tíchDocument API cung cấp khả năng tự động trích xuất cấu trúc dạng bảng từ bất kỳ tài liệu nào. Trong bài đăng này, chúng tôi thảo luận về những cải tiến được thực hiện đối với Bàn tính năng này và cách giúp việc trích xuất thông tin trong cấu trúc dạng bảng từ nhiều loại tài liệu trở nên dễ dàng hơn.
Cấu trúc dạng bảng trong các tài liệu như báo cáo tài chính, cuống phiếu lương và chứng chỉ hồ sơ phân tích thường được định dạng theo cách giúp giải thích thông tin dễ dàng. Chúng cũng thường bao gồm các thông tin như tiêu đề bảng, chân trang, tiêu đề phần và các hàng tóm tắt trong cấu trúc dạng bảng để dễ đọc và tổ chức tốt hơn. Đối với tài liệu tương tự trước cải tiến này, tính năng Bảng trong AnalyzeDocument
lẽ ra sẽ xác định những phần tử đó là ô và không trích xuất tiêu đề và chân trang nằm ngoài giới hạn của bảng. Trong những trường hợp như vậy, logic xử lý hậu kỳ tùy chỉnh để xác định thông tin đó hoặc trích xuất thông tin đó một cách riêng biệt khỏi đầu ra JSON của API là cần thiết. Với thông báo cải tiến tính năng Bảng này, việc trích xuất các khía cạnh khác nhau của dữ liệu dạng bảng trở nên đơn giản hơn nhiều.
Vào tháng 2023 năm XNUMX, Amazon Textract đã giới thiệu khả năng tự động phát hiện tiêu đề, chân trang, tiêu đề phần và hàng tóm tắt có trong tài liệu thông qua tính năng Bảng. Trong bài đăng này, chúng tôi thảo luận về những cải tiến này và đưa ra ví dụ để giúp bạn hiểu và sử dụng chúng trong quy trình xử lý tài liệu của mình. Chúng tôi hướng dẫn cách sử dụng những cải tiến này thông qua các ví dụ về mã để sử dụng API và xử lý phản hồi bằng Thư viện Textract Textractor của Amazon.
Tổng quan về giải pháp
Hình ảnh sau đây cho thấy mô hình được cập nhật không chỉ xác định bảng trong tài liệu mà còn xác định tất cả các đầu trang và chân trang tương ứng của bảng. Tài liệu báo cáo tài chính mẫu này chứa tiêu đề bảng, chân trang, tiêu đề phần và hàng tóm tắt.
Tính năng nâng cao của Bảng bổ sung hỗ trợ cho bốn thành phần mới trong phản hồi API cho phép bạn trích xuất từng thành phần bảng này một cách dễ dàng và thêm khả năng phân biệt loại bảng.
Thành phần bảng
Amazon Textract có thể xác định một số thành phần của bảng chẳng hạn như ô bảng và ô được hợp nhất. Những thành phần này, được gọi là Block
các đối tượng, gói gọn các chi tiết liên quan đến thành phần, chẳng hạn như hình học giới hạn, các mối quan hệ và điểm tin cậy. MỘT Block
đại diện cho các mục được nhận dạng trong tài liệu trong một nhóm pixel gần nhau. Sau đây là những cái mới Khối bảng được giới thiệu trong cải tiến này:
- Tiêu đề bảng - Một cái mới
Block
loại được gọi làTABLE_TITLE
cho phép bạn xác định tiêu đề của một bảng nhất định. Tiêu đề có thể là một hoặc nhiều dòng, thường nằm phía trên bảng hoặc được nhúng dưới dạng ô trong bảng. - Chân bảng - Một cái mới
Block
loại được gọi làTABLE_FOOTER
cho phép bạn xác định các chân trang được liên kết với một bảng nhất định. Chân trang có thể là một hoặc nhiều dòng thường nằm bên dưới bảng hoặc được nhúng dưới dạng ô trong bảng. - Tiêu đề phần - Một cái mới
Block
loại được gọi làTABLE_SECTION_TITLE
cho phép bạn xác định xem ô được phát hiện có phải là tiêu đề phần hay không. - Ô tóm tắt - Một cái mới
Block
loại được gọi làTABLE_SUMMARY
cho phép bạn xác định xem ô đó có phải là ô tóm tắt hay không, chẳng hạn như ô tổng cộng trên cuống phiếu lương.
Các loại bảng
Khi Amazon Textract xác định một bảng trong tài liệu, nó sẽ trích xuất tất cả chi tiết của bảng thành một bảng cấp cao nhất. Block
loại TABLE
. Bàn có thể có nhiều hình dạng và kích cỡ khác nhau. Ví dụ: tài liệu thường chứa các bảng có thể có hoặc không có tiêu đề bảng rõ ràng. Để giúp phân biệt các loại bảng này, chúng tôi đã thêm hai loại thực thể mới cho TABLE Block
: SEMI_STRUCTURED_TABLE
và STRUCTURED_TABLE
. Các loại thực thể này giúp bạn phân biệt giữa bảng có cấu trúc và bảng bán cấu trúc.
Bảng có cấu trúc là bảng có tiêu đề cột được xác định rõ ràng. Nhưng với các bảng bán cấu trúc, dữ liệu có thể không tuân theo cấu trúc chặt chẽ. Ví dụ: dữ liệu có thể xuất hiện ở dạng cấu trúc dạng bảng không phải là bảng có tiêu đề được xác định. Các loại thực thể mới mang lại sự linh hoạt trong việc chọn bảng nào sẽ giữ hoặc xóa trong quá trình xử lý hậu kỳ. Hình ảnh sau đây cho thấy một ví dụ về STRUCTURED_TABLE
và SEMI_STRUCTURED_TABLE
.
Phân tích đầu ra API
Trong phần này, chúng ta khám phá cách bạn có thể sử dụng Thư viện Textract Textractor của Amazon để xử lý hậu kỳ đầu ra API của AnalyzeDocument
với các cải tiến về tính năng Bảng. Điều này cho phép bạn trích xuất thông tin liên quan từ các bảng.
Textractor là một thư viện được tạo ra để hoạt động liền mạch với các tiện ích và API của Amazon Textract nhằm sau đó chuyển đổi các phản hồi JSON được API trả về thành các đối tượng có thể lập trình. Bạn cũng có thể sử dụng nó để trực quan hóa các thực thể trên tài liệu và xuất dữ liệu ở các định dạng như tệp giá trị được phân tách bằng dấu phẩy (CSV). Nó nhằm mục đích hỗ trợ khách hàng của Amazon Textract trong việc thiết lập quy trình xử lý hậu kỳ của họ.
Trong các ví dụ của chúng tôi, chúng tôi sử dụng trang mẫu sau từ tài liệu lưu trữ 10-K SEC.
Đoạn mã sau có thể được tìm thấy trong Kho GitHub. Để xử lý tài liệu này, chúng tôi sử dụng thư viện Textractor và nhập nó để xử lý hậu kỳ các kết quả đầu ra API và trực quan hóa dữ liệu:
Bước đầu tiên là gọi Amazon Textract AnalyzeDocument
với tính năng Bảng, được biểu thị bằng features=[TextractFeatures.TABLES]
tham số để trích xuất thông tin bảng. Lưu ý rằng phương pháp này gọi thời gian thực (hoặc đồng bộ) Phân tíchDocument API, hỗ trợ các tài liệu một trang. Tuy nhiên, bạn có thể sử dụng không đồng bộ StartDocumentAnalysis
API để xử lý tài liệu nhiều trang (tối đa 3,000 trang).
Sản phẩm document
đối tượng chứa siêu dữ liệu về tài liệu có thể được xem xét. Lưu ý rằng nó nhận dạng một bảng trong tài liệu cùng với các thực thể khác trong tài liệu:
Bây giờ chúng ta có đầu ra API chứa thông tin bảng, chúng ta trực quan hóa các thành phần khác nhau của bảng bằng cách sử dụng cấu trúc phản hồi đã thảo luận trước đó:
Thư viện Textractor làm nổi bật các thực thể khác nhau trong bảng được phát hiện bằng mã màu khác nhau cho từng thành phần bảng. Hãy đi sâu hơn vào cách chúng ta có thể trích xuất từng phần tử. Đoạn mã sau đây minh họa việc trích xuất tiêu đề của bảng:
Tương tự, chúng ta có thể sử dụng đoạn mã sau để trích xuất phần chân trang của bảng. Lưu ý rằng table_footers là một danh sách, nghĩa là có thể có một hoặc nhiều chân trang được liên kết với bảng. Chúng ta có thể lặp lại danh sách này để xem tất cả các chân trang hiện có và như được hiển thị trong đoạn mã sau, đầu ra hiển thị ba chân trang:
Tạo dữ liệu để nhập tiếp theo
Thư viện Textractor cũng giúp bạn đơn giản hóa việc nhập dữ liệu bảng vào các hệ thống hạ nguồn hoặc các quy trình công việc khác. Ví dụ: bạn có thể xuất dữ liệu bảng được trích xuất thành tệp Microsoft Excel mà con người có thể đọc được. Tại thời điểm viết bài này, đây là định dạng duy nhất hỗ trợ các bảng đã hợp nhất.
Chúng ta cũng có thể chuyển đổi nó thành một Dữ liệu gấu trúc. DataFrame là một lựa chọn phổ biến để thao tác, phân tích và trực quan hóa dữ liệu bằng các ngôn ngữ lập trình như Python và R.
Trong Python, DataFrame là cấu trúc dữ liệu chính trong thư viện Pandas. Nó linh hoạt và mạnh mẽ, thường là lựa chọn hàng đầu cho các chuyên gia phân tích dữ liệu cho các nhiệm vụ ML và phân tích dữ liệu khác nhau. Đoạn mã sau đây cho biết cách chuyển đổi thông tin bảng được trích xuất thành DataFrame bằng một dòng mã:
Cuối cùng, chúng ta có thể chuyển đổi dữ liệu bảng thành tệp CSV. Tệp CSV thường được sử dụng để nhập dữ liệu vào cơ sở dữ liệu quan hệ hoặc kho dữ liệu. Xem đoạn mã sau:
Kết luận
Việc giới thiệu các loại khối và thực thể mới này (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
và TABLE_SUMMARY
) đánh dấu một tiến bộ đáng kể trong việc trích xuất cấu trúc dạng bảng từ tài liệu bằng Amazon Textract.
Những công cụ này cung cấp cách tiếp cận linh hoạt và sắc thái hơn, phục vụ cho cả bảng có cấu trúc và bán cấu trúc, đồng thời đảm bảo rằng không có dữ liệu quan trọng nào bị bỏ qua, bất kể vị trí của nó trong tài liệu.
Điều này có nghĩa là giờ đây chúng ta có thể xử lý các loại dữ liệu và cấu trúc bảng đa dạng với hiệu quả và độ chính xác được nâng cao. Khi chúng tôi tiếp tục tận dụng sức mạnh của tự động hóa trong quy trình xử lý tài liệu, những cải tiến này chắc chắn sẽ mở đường cho quy trình làm việc hợp lý hơn, năng suất cao hơn và phân tích dữ liệu sâu sắc hơn. Để biết thêm thông tin về AnalyzeDocument
và tính năng Bảng, hãy tham khảo Phân tíchDocument.
Giới thiệu về tác giả
Raj Pathak là Kiến trúc sư giải pháp cao cấp và Nhà công nghệ chuyên về Dịch vụ tài chính (Bảo hiểm, Ngân hàng, Thị trường vốn) và Học máy. Ông chuyên về Xử lý ngôn ngữ tự nhiên (NLP), Mô hình ngôn ngữ lớn (LLM) và các dự án vận hành và cơ sở hạ tầng học máy (MLOps).
Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao tập trung vào AI / ML và Phân tích dữ liệu. Anjan là một phần của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu và đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AWS AI.
Lalita Reddi là Giám đốc sản phẩm kỹ thuật cấp cao của nhóm Amazon Textract. Cô tập trung vào việc xây dựng các dịch vụ dựa trên máy học cho khách hàng AWS. Khi rảnh rỗi, Lalita thích chơi board game và đi bộ đường dài.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- EVM tài chính. Giao diện hợp nhất cho tài chính phi tập trung. Truy cập Tại đây.
- Tập đoàn truyền thông lượng tử. Khuếch đại IR/PR. Truy cập Tại đây.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- : có
- :là
- :không phải
- $ LÊN
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- có khả năng
- Giới thiệu
- ở trên
- Trợ Lý Giám Đốc
- chính xác
- tích cực
- thêm
- Thêm
- thăng tiến
- cơ quan
- AI
- Dịch vụ AI
- AI / ML
- Hỗ trợ
- Tất cả
- cho phép
- dọc theo
- Ngoài ra
- đàn bà gan dạ
- Văn bản Amazon
- Amazon Web Services
- số lượng
- an
- phân tích
- phân tích
- và
- Thông báo
- Thông báo
- bất kì
- api
- API
- xuất hiện
- phương pháp tiếp cận
- khoảng
- Tháng Tư
- LÀ
- AS
- các khía cạnh
- Tài sản
- liên kết
- At
- tự động
- Tự động hóa
- AWS
- Cân đối
- Bảng cân đối
- Ngân hàng
- cơ sở
- BE
- trở thành
- phía dưới
- Hơn
- giữa
- Tỷ
- Chặn
- bảng
- Board Games
- cả hai
- Xây dựng
- kinh doanh
- nhưng
- by
- cuộc gọi
- gọi là
- CAN
- vốn
- Thị trường vốn
- trường hợp
- tiền mặt
- Tế bào
- nhất định
- Giấy chứng nhận
- chuỗi
- sự lựa chọn
- Chọn
- Phân loại
- Rõ ràng
- khách hàng
- Đóng
- mã
- Bên
- màu sắc
- Cột
- Đến
- cam kết
- thành phần
- các thành phần
- sự tự tin
- chứa
- chứa
- tiếp tục
- chuyển đổi
- Doanh nghiệp
- Tương ứng
- Phí Tổn
- tạo ra
- tín dụng
- khách hàng
- khách hàng
- dữ liệu
- phân tích dữ liệu
- Phân tích dữ liệu
- Cấu trúc dữ liệu
- cơ sở dữ liệu
- Nợ
- Tháng mười hai
- sâu sắc hơn
- xác định
- chứng minh
- chi tiết
- phát hiện
- phát triển
- khác nhau
- hướng
- Giảm giá
- thảo luận
- thảo luận
- màn hình
- phân biệt
- khác nhau
- tài liệu
- tài liệu
- nghi ngờ
- hai
- suốt trong
- mỗi
- dễ dàng
- dễ dàng hơn
- dễ dàng
- hiệu quả
- thành phần
- các yếu tố
- nhúng
- ôm hôn
- cho phép
- nâng cao
- cải tiến
- thực thể
- thực thể
- sự bình đẳng
- tương đương
- bất động sản
- ước tính
- ví dụ
- ví dụ
- Excel
- kinh nghiệm
- khám phá
- xuất khẩu
- trích xuất
- Chất chiết xuất
- công bằng
- Đặc tính
- Tập tin
- Các tập tin
- Nộp hồ sơ
- tài chính
- Báo cáo tài chính
- dịch vụ tài chính
- Tên
- cố định
- thu nhập cố định
- Linh hoạt
- linh hoạt
- Tập trung
- tập trung
- theo
- tiếp theo
- Trong
- nước ngoài
- định dạng
- tìm thấy
- 4
- từ
- quỹ
- Thu được
- thu nhập
- Trò chơi
- được
- GitHub
- Cho
- được
- Toàn cầu
- Go
- Chính phủ
- tổng
- Nhóm
- có
- xử lý
- Có
- he
- tiêu đề
- giúp đỡ
- giúp đỡ
- giúp
- cô
- hệ thống cấp bậc
- cao hơn
- Nhấn mạnh
- nổi bật
- Đi bộ đường dài
- giữ
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- HTTPS
- Nhân loại
- xác định
- xác định
- xác định
- Bản sắc
- if
- hình ảnh
- nhập khẩu
- quan trọng
- cải tiến
- in
- bao gồm
- lợi tức
- thông tin
- Cơ sở hạ tầng
- cài đặt, dựng lên
- bảo hiểm
- dự định
- giải thích
- trong
- giới thiệu
- Giới thiệu
- đầu tư
- viện dẫn
- IT
- mặt hàng
- ITS
- jpg
- json
- thẩm quyền
- Giữ
- nổi tiếng
- Thiếu sót
- Ngôn ngữ
- Ngôn ngữ
- lớn
- học tập
- ít
- Cấp
- Thư viện
- Lượt thích
- Dòng
- dòng
- Danh sách
- LLM
- tải
- địa điểm thư viện nào
- logic
- còn
- sự mất
- thiệt hại
- máy
- học máy
- thực hiện
- chính
- làm cho
- LÀM CHO
- Làm
- giám đốc
- Thao tác
- sản xuất
- thị trường
- thị trường
- Có thể..
- có nghĩa
- Siêu dữ liệu
- phương pháp
- microsoft
- Might
- triệu
- hàng triệu
- ML
- MLOps
- kiểu mẫu
- mô hình
- sửa đổi
- tiền
- thị trường tiền tệ
- tháng
- chi tiết
- nhiều
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- cần thiết
- net
- Mới
- nlp
- Không
- Để ý..
- tại
- vật
- đối tượng
- of
- cung cấp
- Cung cấp
- thường
- on
- ONE
- có thể
- Hoạt động
- or
- cơ quan
- tổ chức
- Nền tảng khác
- nếu không thì
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- đầu ra
- bên ngoài
- kết thúc
- trang
- gấu trúc
- tham số
- một phần
- mở đường
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Play
- Phổ biến
- phần
- Bài đăng
- quyền lực
- mạnh mẽ
- trình bày
- trước đây
- chủ yếu
- chính
- In
- Trước khi
- vấn đề
- quá trình
- xử lý
- Sản phẩm
- giám đốc sản xuất
- năng suất
- chuyên gia
- Lập trình
- ngôn ngữ lập trình
- dự án
- cho
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- truy vấn
- thực
- bất động sản
- thời gian thực
- công nhận
- nhận ra
- ghi lại
- định kỳ
- Bất kể
- khu
- nhà quản lý
- liên quan
- Mối quan hệ
- có liên quan
- tẩy
- báo cáo
- Báo cáo
- đại diện cho
- cần phải
- tương ứng
- phản ứng
- phản ứng
- hạn chế
- hạn chế
- hạn chế
- kết quả
- bán lẻ
- xem xét
- s
- bán hàng
- Quy mô
- Điểm số
- liền mạch
- SEC
- -Sự nộp SEC
- Phần
- Chứng khoán
- an ninh
- xem
- Người bán
- cao cấp
- Tháng Chín
- dịch vụ
- DỊCH VỤ
- thiết lập
- một số
- hình dạng
- chị ấy
- thể hiện
- Chương trình
- Chữ ký
- có ý nghĩa
- tương tự
- đơn giản hóa
- duy nhất
- kích thước
- Giải pháp
- chuyên
- chuyên
- bắt đầu
- Bước
- sắp xếp hợp lý
- Nghiêm ngặt
- cấu trúc
- cấu trúc
- Tiêu đề
- Sau đó
- như vậy
- TÓM TẮT
- cung cấp
- chuỗi cung ứng
- hỗ trợ
- Hỗ trợ
- hệ thống
- bàn
- nhiệm vụ
- nhóm
- Kỹ thuật
- nhà công nghệ
- hơn
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- Đó
- Kia là
- họ
- của bên thứ ba
- điều này
- những
- số ba
- Thông qua
- thời gian
- Yêu sách
- trò chơi
- đến
- công cụ
- cấp cao nhất
- Tổng số:
- thương mại
- hai
- kiểu
- loại
- thường
- chúng tôi
- Chính phủ Mỹ
- hiểu
- lỗ chưa thực hiện
- cập nhật
- us
- sử dụng
- đã sử dụng
- sử dụng
- tiện ích
- giá trị
- Các giá trị
- nhiều
- khác nhau
- Versus
- thông qua
- hình dung
- là
- Đường..
- we
- web
- các dịch vụ web
- cái nào
- rộng
- sẽ
- với
- ở trong
- từ
- Công việc
- Luồng công việc
- đang làm việc
- công trinh
- sẽ
- viết
- năm
- Bạn
- trên màn hình
- zephyrnet