Phân tích hóa đơn - Trích xuất dữ liệu hóa đơn cho các tệp PDF và tài liệu được quét Thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Phân tích cú pháp hóa đơn - Trích xuất dữ liệu hóa đơn cho các tệp PDF và tài liệu được quét

Nếu bạn đã từng phải xử lý hóa đơn theo cách thủ công, bạn sẽ biết quá trình này tốn thời gian và tẻ nhạt như thế nào. Chưa kể, bạn dễ mắc sai lầm vì rất dễ bỏ sót điều gì đó khi bạn đang làm mọi thứ bằng tay.

Đó là nơi mà trình phân tích cú pháp hóa đơn xuất hiện. Các công cụ này tự động hóa quá trình trích xuất dữ liệu từ hóa đơn, giúp bạn nhanh chóng và dễ dàng nhận được thông tin bạn cần. Điều này có thể giúp bạn tiết kiệm rất nhiều thời gian và rắc rối và giúp đảm bảo rằng hóa đơn của bạn được xử lý chính xác.

Bài viết này khám phá quy trình trích xuất dữ liệu hóa đơn bằng trình phân tích cú pháp hóa đơn, với thảo luận về một số phương pháp tốt nhất để thực hiện việc này, bao gồm trích xuất bảng, OCR nâng cao và học sâu.

Chúng tôi cũng sẽ xem xét các lợi ích của việc trích xuất dữ liệu hóa đơn tự động so với xử lý thủ công. Hãy đi sâu vào ngay.

Trình phân tích hóa đơn là gì?

Trình phân tích cú pháp hóa đơn là một loại phần mềm được thiết kế để đọc và giải thích các tài liệu hóa đơn. Điều này có thể bao gồm PDF, hình ảnh và các loại tệp khác.

Mục đích của trình phân tích cú pháp hóa đơn là trích xuất thông tin chính từ hóa đơn, chẳng hạn như id hóa đơn, tổng số tiền đến hạn, ngày hóa đơn, tên khách hàng, v.v. Trình phân tích cú pháp hóa đơn có thể giúp đảm bảo độ chính xác bằng cách tránh những sai lầm có thể xảy ra khi trích xuất dữ liệu thủ công.

Thông tin này sau đó có thể được sử dụng cho các mục đích khác nhau, chẳng hạn như Tự động hóa AP, quy trình khóa sổ kế toán cuối thángvà quản lý hóa đơn.

Trình phân tích cú pháp hóa đơn có thể là các chương trình độc lập hoặc được tích hợp vào các hệ thống phần mềm kinh doanh lớn hơn. Những công cụ này giúp các nhóm dễ dàng tạo báo cáo hoặc xuất dữ liệu sang các ứng dụng khác, chẳng hạn như Excel và thường được sử dụng cùng với các ứng dụng quản lý kinh doanh khác.

Có rất nhiều giải pháp phần mềm phân tích cú pháp hóa đơn khác nhau trên thị trường, vì vậy việc lựa chọn một giải pháp đáp ứng nhu cầu cụ thể của bạn là điều cần thiết.

Trình phân tích hóa đơn hoạt động như thế nào?

Để hiểu cách hoạt động của trình phân tích cú pháp hóa đơn, điều quan trọng là phải có kiến ​​thức làm việc về trình phân tích cú pháp.

Trình phân tích cú pháp được sử dụng để diễn giải và xử lý các tài liệu được viết bằng một ngôn ngữ đánh dấu cụ thể. Họ chia tài liệu thành nhiều phần nhỏ hơn, được gọi là mã thông báo, sau đó phân tích từng mã thông báo để xác định ý nghĩa của nó và cách nó phù hợp với cấu trúc tổng thể của tài liệu.

Để làm được điều này, người phân tích cú pháp phải hiểu rõ về ngữ pháp của ngôn ngữ đánh dấu được sử dụng. Điều này cho phép họ xác định các mã thông báo riêng lẻ và hiểu chính xác các mối quan hệ giữa chúng. Tùy thuộc vào trình phân tích cú pháp, quá trình này có thể là thủ công hoặc tự động. Trình phân tích cú pháp thủ công yêu cầu ai đó xem qua tài liệu và xác định từng mã thông báo, trong khi trình phân tích cú pháp tự động sử dụng các thuật toán để phát hiện và xử lý mã thông báo tự động. Dù bằng cách nào, trình phân tích cú pháp đóng một vai trò thiết yếu trong việc hiểu các tài liệu được viết bằng ngôn ngữ đánh dấu.

Trong trích xuất dữ liệu, phân tích cú pháp hóa đơn có thể phân tích tài liệu hóa đơn và trích xuất thông tin liên quan.

Ví dụ: hãy xem xét trường hợp bạn đã được cấp nhiều hóa đơn và muốn lưu trữ dữ liệu từ chúng ở định dạng có cấu trúc. Phân tích cú pháp hóa đơn cho phép bạn tải tất cả các tệp và chạy tính năng nhận dạng ký tự quang học (OCR) để dữ liệu có thể được đọc và tất cả các cặp khóa-giá trị được trích xuất trong vòng vài phút. Tiếp theo, bạn có thể sử dụng một số thuật toán xử lý hậu kỳ để lưu trữ chúng thành các định dạng dễ đọc hơn như JSON hoặc CSV. Bạn cũng có thể xây dựng quy trình và quy trình làm việc sử dụng phân tích cú pháp hóa đơn để tự động hóa việc trích xuất hóa đơn từ hồ sơ doanh nghiệp của bạn.

Phân tích hóa đơn bằng Python

Python là một ngôn ngữ lập trình cho các tác vụ trích xuất dữ liệu khác nhau, bao gồm cả phân tích cú pháp hóa đơn. Phần này sẽ hướng dẫn bạn cách sử dụng thư viện Python để trích xuất dữ liệu từ hóa đơn.

Rất khó để xây dựng một trình phân tích cú pháp hóa đơn hiện đại nhất có thể chạy trên tất cả các loại dữ liệu, vì nó bao gồm nhiều tác vụ khác nhau như đọc văn bản, xử lý ngôn ngữ, phông chữ, căn chỉnh tài liệu và trích xuất các cặp khóa-giá trị. Tuy nhiên, với sự trợ giúp từ các dự án mã nguồn mở và sự khéo léo, ít nhất chúng ta có thể giải quyết một số vấn đề trong số này và bắt đầu.

Ví dụ: chúng tôi sẽ sử dụng một công cụ có tên là tabula trên hóa đơn mẫu - thư viện python để trích xuất các bảng để phân tích cú pháp hóa đơn. Để chạy đoạn mã dưới đây, hãy đảm bảo rằng cả Python và tabula / tabulate đều được cài đặt trên máy cục bộ.

sample-bill.pdf.

from tabula import read_pdf
from tabulate import tabulate
# PDF file to extract tables from
file = "sample-invoice.pdf"

# extract all the tables in the PDF file
#reads table from pdf file
df = read_pdf(file ,pages="all") #address of pdf file
print(tabulate(df[0]))
print(tabulate(df[1]))

Đầu ra

-  ------------  ----------------
0  Order Number  12345
1  Invoice Date  January 25, 2016
2  Due Date      January 31, 2016
3  Total Due     $93.50
-  ------------  ----------------

-  -  -------------------------------  ------  -----  ------
0  1  Web Design                       $85.00  0.00%  $85.00
      This is a sample description...
-  -  -------------------------------  ------  -----  ------

Chúng tôi có thể trích xuất các bảng từ một tệp PDF với một vài dòng mã. Điều này là do tệp PDF đã được định dạng tốt, căn chỉnh và được tạo bằng điện tử (không được chụp bằng máy ảnh). Ngược lại, nếu tài liệu được chụp bằng máy ảnh thay vì được tạo ra bằng điện tử, các thuật toán này sẽ khó khăn hơn nhiều để trích xuất dữ liệu — đây là lúc mà tính năng nhận dạng ký tự quang học phát huy tác dụng.

Hãy sử dụng tesseract, một công cụ OCR phổ biến cho python, để phân tích cú pháp thông qua hóa đơn.

import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('sample-invoice.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

Điều này sẽ cung cấp cho bạn kết quả sau:

dict_keys(['level', 'page_num', 'block_num', 'par_num', 'line_num', 'word_num', 'left', 'top', 'width', 'height', 'conf', 'text'])

Sử dụng từ điển này, chúng tôi có thể phát hiện từng từ, thông tin hộp giới hạn của chúng, văn bản trong chúng và điểm tin cậy của chúng.

Bạn có thể vẽ các ô bằng cách sử dụng mã bên dưới -

n_boxes = len(d['text'])
for i in range(n_boxes):
    if float(d['conf'][i]) > 60:
        (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
        img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

cv2.imshow('img', img)
cv2.waitKey(0)

Bạn sẽ thấy kết quả sau:

Đây là cách chúng tôi có thể sử dụng và nhận ra các vùng của hóa đơn. Tuy nhiên, các thuật toán tùy chỉnh phải được xây dựng để trích xuất cặp khóa-giá trị. Chúng ta sẽ tìm hiểu thêm về điều này trong các phần sau.

Các vấn đề với Trình phân tích hóa đơn cũ (Ghi lại dựa trên quy tắc)

Ngày nay, nhiều tổ chức vẫn dựa vào các hệ thống kế thừa để trích xuất dữ liệu hóa đơn.

Các hệ thống "dựa trên quy tắc" này phân tích cú pháp từng mục hàng trên hóa đơn và sau đó so sánh chúng với một bộ quy tắc để xác định xem thông tin có nên được thêm vào cơ sở dữ liệu của họ hay không.

Phương pháp này đã được sử dụng từ lâu nhưng có một số hạn chế. Hãy xem xét một số vấn đề phổ biến mà trình phân tích cú pháp hóa đơn cũ phải đối mặt.

  • Độ nghiêng trang trong khi quét: Một vấn đề với trình phân tích cú pháp hóa đơn dựa trên quy tắc là họ có thể gặp khó khăn với “độ nghiêng trang”. Điều này xảy ra khi các trường trong hóa đơn không được đặt trên một đường thẳng, khiến trình phân tích cú pháp khó xác định và trích xuất dữ liệu một cách chính xác. Điều này thường có thể do máy in in không đều hoặc do nhập dữ liệu thủ công có thể không được căn chỉnh chính xác.
  • Thay đổi định dạng: Một trong những vấn đề phổ biến nhất mà doanh nghiệp gặp phải là hóa đơn không được định dạng theo định dạng chuẩn. Điều này có thể gây ra sự cố khi cố gắng trích xuất dữ liệu từ hóa đơn. Ví dụ: có thể sử dụng các phông chữ khác nhau và bố cục hóa đơn có thể thay đổi từ tháng này sang tháng khác. Rất khó để phân tích cú pháp dữ liệu và xác định những gì mỗi cột đại diện. Ví dụ: một số trường mới có thể được thêm vào hóa đơn hoặc một số trường hiện có có thể được đặt ở các vị trí khác nhau. Hoặc có thể có một cấu trúc hoàn toàn mới vì nó mà một trình phân tích cú pháp dựa trên quy tắc thông thường sẽ không thể nhận dạng hóa đơn một cách chính xác.
  • Khai thác bảng: Các trình trích xuất bảng dựa trên quy tắc thường là cách đơn giản và dễ dàng nhất để trích xuất dữ liệu từ một bảng. Tuy nhiên, chúng có những hạn chế khi xử lý các bảng không chứa bất kỳ tiêu đề nào hoặc bao gồm các giá trị rỗng trong các cột cụ thể vì những trường hợp này sẽ gây ra vòng lặp vô hạn trong quá trình xử lý, dẫn đến lãng phí thời gian tải các hàng dài vô hạn vào bộ nhớ (hoặc không xuất ra được gì ở tất cả) nếu cũng có các biểu thức phụ thuộc liên quan đến các thuộc tính đó. Ngoài ra, khi các bảng kéo dài nhiều trang, trình phân tích cú pháp dựa trên quy tắc coi chúng là các bảng khác nhau thay vì một và do đó làm sai quy trình trích xuất.

Xây dựng trình phân tích cú pháp hóa đơn dựa trên AI với Nanonets

Trình phân tích cú pháp hóa đơn với tính năng nhận dạng ký tự quang học (OCR) và học sâu có thể trích xuất dữ liệu từ hóa đơn đã được quét hoặc chuyển đổi sang PDF. Dữ liệu này sau đó có thể điền vào phần mềm kế toán, theo dõi chi phí và tạo báo cáo.

Các thuật toán học sâu có thể học cách xác định các yếu tố cụ thể trong hóa đơn, chẳng hạn như tên, địa chỉ và thông tin sản phẩm của khách hàng. Điều này cho phép trích xuất dữ liệu chính xác hơn và có thể giảm thời gian cần thiết để nhập dữ liệu thủ công vào hệ thống. Tuy nhiên, việc xây dựng các thuật toán như vậy đòi hỏi nhiều thời gian và chuyên môn, nhưng đừng lo lắng; Nanonets đã chống lưng cho bạn!

Nanonets là một phần mềm OCR sử dụng trí thông minh nhân tạo để tự động trích xuất các bảng từ tài liệu PDF, hình ảnh và tệp được quét. Không giống như các giải pháp khác, nó không yêu cầu các quy tắc và mẫu riêng biệt cho từng loại tài liệu mới. Thay vào đó, nó dựa vào trí thông minh nhận thức để xử lý các tài liệu bán cấu trúc và không nhìn thấy được đồng thời cải thiện theo thời gian. Bạn cũng có thể tùy chỉnh đầu ra để chỉ trích xuất các bảng hoặc mục dữ liệu mà bạn quan tâm.

Nó nhanh, chính xác, dễ sử dụng, cho phép người dùng xây dựng các mô hình OCR tùy chỉnh từ đầu và có một số tích hợp Zapier gọn gàng. Số hóa tài liệu, trích xuất bảng hoặc trường dữ liệu và tích hợp với các ứng dụng hàng ngày của bạn thông qua API trong một giao diện trực quan, đơn giản.

[Nhúng nội dung]

Tại sao Nanonets là Trình phân tích cú pháp PDF tốt nhất?

  • Nanonet có thể trích xuất dữ liệu trên trang trong khi trình phân tích cú pháp PDF dòng lệnh chỉ trích xuất các đối tượng, tiêu đề và siêu dữ liệu như (tiêu đề, #pages, trạng thái mã hóa, v.v.)
  • Công nghệ phân tích cú pháp PDF nanonets không dựa trên mẫu. Ngoài việc cung cấp các mô hình được đào tạo trước cho các trường hợp sử dụng phổ biến, thuật toán phân tích cú pháp PDF Nanonets cũng có thể xử lý các loại tài liệu không nhìn thấy!
  • Ngoài việc xử lý các tài liệu PDF gốc, khả năng OCR tích hợp của Nanonet cho phép nó xử lý các tài liệu và hình ảnh được quét!
  • Các tính năng tự động hóa mạnh mẽ với khả năng AI và ML.
  • Nanonet xử lý dữ liệu phi cấu trúc, các ràng buộc dữ liệu phổ biến, tài liệu PDF nhiều trang, bảng và mục nhiều dòng một cách dễ dàng.
  • Nanonets là một công cụ không mã có thể liên tục tự học và tự đào tạo lại trên dữ liệu tùy chỉnh để cung cấp kết quả đầu ra mà không cần xử lý hậu kỳ.

Phân tích hóa đơn tự động bằng Nanonets – tạo quy trình xử lý hóa đơn hoàn toàn không cần chạm

Tích hợp các công cụ hiện có của bạn với Nanonet và tự động hóa việc thu thập dữ liệu, lưu trữ xuất và ghi sổ kế toán.

Nanonet cũng có thể giúp tự động hóa quy trình phân tích cú pháp hóa đơn bằng cách:

  • Nhập và tổng hợp dữ liệu hóa đơn từ nhiều nguồn - email, tài liệu được quét, tệp / hình ảnh kỹ thuật số, lưu trữ đám mây, ERP, API, v.v.
  • Thu thập và trích xuất dữ liệu hóa đơn một cách thông minh từ các hóa đơn, biên lai, hóa đơn và các tài liệu tài chính khác.
  • Phân loại và mã hóa các giao dịch dựa trên các quy tắc kinh doanh.
  • Thiết lập quy trình phê duyệt tự động để nhận phê duyệt nội bộ và quản lý các trường hợp ngoại lệ.
  • Đối chiếu tất cả các giao dịch.
  • Tích hợp hoàn toàn với ERP hoặc phần mềm kế toán như Quickbooks, Sage, Xero, Netsuite, v.v.

Dấu thời gian:

Thêm từ AI & Máy học