Trích xuất dữ liệu biểu mẫu

Được xuất bản lại bởi Plato

Người theo dõi: 0

Bạn muốn trích xuất dữ liệu từ các biểu mẫu in hoặc viết tay? Thủ tục thanh toán Ống nano™ trình trích xuất dữ liệu biểu mẫu miễn phí & tự động hóa việc xuất thông tin từ mọi hình thức!

Biểu mẫu ở khắp mọi nơi; chúng được định nghĩa là các tài liệu được tạo ra để thu thập thông tin bằng cách yêu cầu những người tham gia điền thông tin cần thiết theo một định dạng cụ thể. Chúng hữu ích vì khả năng thu thập nhiều dữ liệu trong thời gian ngắn. Tuy nhiên, không phải tất cả các biểu mẫu đều có khả năng thu thập dữ liệu như nhau và thường phải làm thủ công sau đó. Do đó, chúng tôi dựa vào các công cụ và thuật toán để tự động hóa quá trình trích xuất dữ liệu biểu mẫu một cách thông minh. Bài đăng trên blog này sẽ đi sâu vào các tình huống và kỹ thuật khác nhau để trích xuất dữ liệu từ các biểu mẫu bằng OCR và Deep Learning.

Trích xuất dữ liệu biểu mẫu là gì?
Điều gì làm cho vấn đề trở nên thách thức?
Chiều sâu của vấn đề trích xuất biểu mẫu
Các giải pháp trích xuất dữ liệu biểu mẫu đã phát triển như thế nào?
Trích xuất dữ liệu biểu mẫu bằng OCRs
Giải quyết trích xuất dữ liệu biểu mẫu bằng cách sử dụng học sâu
Nhập Nanonet

Trích xuất dữ liệu biểu mẫu là gì?

Trích xuất dữ liệu biểu mẫu là quá trình trích xuất dữ liệu từ biểu mẫu - cả trực tuyến và ngoại tuyến. Dữ liệu này có thể được tìm thấy ở bất kỳ định dạng nào, thường chứa một biểu mẫu với thông tin liên quan. Tuy nhiên, việc trích xuất dữ liệu này không phải lúc nào cũng là một công việc dễ dàng vì nhiều bố cục và thiết kế không cho phép chọn văn bản một cách dễ dàng. Không có cách nào để sao chép dữ liệu từ chúng. Do đó, chúng tôi dựa vào các kỹ thuật tự động để giúp trích xuất dữ liệu từ các biểu mẫu hiệu quả hơn và ít lỗi hơn.

Trích xuất dữ liệu biểu mẫu là gì?

Ví dụ, ngày nay, nhiều người dùng phụ thuộc vào các biểu mẫu dựa trên PDF để thu thập thông tin liên hệ. Đây là một cách hiệu quả cao để thu thập thông tin vì nó không yêu cầu người gửi và người nhận cung cấp thông tin đầu vào. Nhưng trích xuất dữ liệu này từ một biểu mẫu PDF có thể là một thách thức và tốn kém.

Tại đây, trích xuất dữ liệu biểu mẫu có thể giúp trích xuất dữ liệu từ biểu mẫu PDF, chẳng hạn như tên, địa chỉ email, số điện thoại, v.v. Nó có thể được nhập vào một ứng dụng khác như Excel, Trang tính hoặc bất kỳ định dạng có cấu trúc nào khác. Cách thức hoạt động của nó là các công cụ trích xuất đọc qua tệp PDF, tự động lấy ra những gì nó cần và sắp xếp nó ở định dạng dễ đọc. Dữ liệu này có thể được xuất sang các định dạng khác như Excel, CSV, JSON và các định dạng dữ liệu có cấu trúc tốt khác. Trong phần tiếp theo, chúng ta hãy xem xét một số thách thức thường gặp khi xây dựng các thuật toán trích xuất dữ liệu biểu mẫu.

Bạn muốn trích xuất dữ liệu từ các biểu mẫu in hoặc viết tay? Kiểm tra Nanonets™ trình trích xuất dữ liệu biểu mẫu miễn phí & tự động hóa việc xuất thông tin từ bất kỳ biểu mẫu nào!

Điều gì khiến cho việc trích xuất dữ liệu biểu mẫu trở nên thách thức?

Khai thác dữ liệu là một vấn đề thú vị vì nhiều lý do. Đầu tiên, nó là vấn đề nhận dạng hình ảnh, nhưng nó cũng phải xem xét văn bản có thể có trong hình ảnh và bố cục của biểu mẫu, điều này làm cho việc xây dựng một thuật toán trở nên phức tạp hơn. Phần này thảo luận về một số thách thức phổ biến mà mọi người gặp phải khi xây dựng các thuật toán trích xuất dữ liệu biểu mẫu.

Thiếu dữ liệu: Các thuật toán Trích xuất dữ liệu thường được xây dựng bằng cách sử dụng học sâu mạnh mẽ và các thuật toán dựa trên thị giác máy tính. Chúng thường dựa vào lượng lớn dữ liệu để đạt được hiệu suất hiện đại. Do đó, việc tìm kiếm một tập dữ liệu nhất quán và đáng tin cậy và xử lý chúng là rất quan trọng đối với bất kỳ dạng công cụ hoặc phần mềm trích xuất dữ liệu nào. Ví dụ: giả sử chúng ta có các biểu mẫu với nhiều mẫu, thì các thuật toán này sẽ có thể hiểu được nhiều loại biểu mẫu; do đó đào tạo họ trên một tập dữ liệu mạnh mẽ sẽ có hiệu suất chính xác hơn.
Xử lý Phông chữ, Ngôn ngữ và Bố cục: Có số lượng chóng mặt các kiểu chữ, thiết kế và mẫu khác nhau có sẵn cho các loại dữ liệu biểu mẫu khác nhau. Chúng có thể rơi vào một số phân loại hoàn toàn khác nhau, điều này khiến việc đảm bảo nhận dạng chính xác trở nên khó khăn khi có rất nhiều loại ký tự khác nhau cần tính đến. Do đó, điều quan trọng là giới hạn bộ sưu tập phông chữ ở một ngôn ngữ và kiểu cụ thể vì nó sẽ tạo ra nhiều quy trình trôi chảy khi bạn đã xử lý các tài liệu đó một cách thích hợp. Trong trường hợp đa ngôn ngữ, cần phải chuẩn bị cho việc tung hứng giữa các ký tự từ nhiều ngôn ngữ và cũng cần quan tâm đến kiểu chữ phức tạp.

Hình ảnh Nguồn: Trung bình

Định hướng và Skew (Xoay): Trong quá trình quản lý dữ liệu, chúng tôi thường quét hình ảnh để huấn luyện các thuật toán thu thập dữ liệu đầu vào. Nếu bạn đã từng sử dụng máy quét hoặc máy ảnh kỹ thuật số, thì bạn có thể nhận thấy rằng góc mà bạn chụp ảnh tài liệu đôi khi có thể khiến chúng bị lệch. Đây được gọi là độ lệch đề cập đến độ của góc. Độ lệch này có thể làm giảm độ chính xác của mô hình. May mắn thay, các kỹ thuật khác nhau có thể được sử dụng để khắc phục sự cố này bằng cách chỉ cần sửa đổi cách phần mềm của chúng tôi phát hiện các tính năng trong các vùng cụ thể của hình ảnh. Một ví dụ về kỹ thuật như vậy là các phương pháp Cấu hình chiếu hoặc các phương pháp Chuyển đổi Fourier, cho phép tạo ra các kết quả rõ ràng hơn nhiều trong việc nhận dạng hình dạng, kích thước và kết cấu! Mặc dù định hướng và độ lệch có thể là những sai lầm đơn giản, nhưng chúng có thể ảnh hưởng đến độ chính xác của mô hình với số lượng lớn.

Hình ảnh Nguồn: tìm kiếm pyimage

Bảo mật dữ liệu: Nếu bạn đang trích xuất dữ liệu từ nhiều nguồn khác nhau để thu thập dữ liệu, điều quan trọng là phải biết các biện pháp bảo mật được áp dụng. Nếu không, bạn có nguy cơ ảnh hưởng đến thông tin đang được chuyển. Điều này có thể dẫn đến các tình huống thông tin cá nhân bị vi phạm hoặc thông tin được gửi đến API không an toàn. Do đó, trong khi làm việc với các tập lệnh ETL và các API trực tuyến để trích xuất dữ liệu, người ta cũng phải lưu ý các vấn đề về bảo mật dữ liệu.
Khai thác bảng: Đôi khi, chúng ta thấy dữ liệu biểu mẫu bên trong các bảng; xây dựng một thuật toán mạnh mẽ có thể xử lý cả trích xuất biểu mẫu và trích xuất bảng có thể là một thách thức. Cách tiếp cận thông thường là xây dựng các thuật toán này một cách độc lập và áp dụng chúng vào dữ liệu, nhưng điều này sẽ dẫn đến việc sử dụng nhiều sức mạnh tính toán hơn làm tăng chi phí. Do đó, một trích xuất biểu mẫu lý tưởng phải có thể trích xuất cả dữ liệu biểu mẫu cũng như dữ liệu từ một tài liệu nhất định.

Hình ảnh Nguồn: GCN

Xử lý bài đăng / Xuất đầu ra: Dữ liệu đầu ra từ bất kỳ quá trình trích xuất dữ liệu nào không thẳng hàng. Do đó, các nhà phát triển dựa vào các kỹ thuật xử lý hậu kỳ để lọc kết quả thành một định dạng có cấu trúc hơn. Sau khi xử lý dữ liệu, dữ liệu được xuất sang định dạng có cấu trúc hơn như CSV, Excel hoặc cơ sở dữ liệu. Các tổ chức dựa vào tích hợp của bên thứ ba hoặc phát triển các API để tự động hóa quá trình này, việc này lại tốn nhiều thời gian. Do đó, các thuật toán trích xuất dữ liệu lý tưởng phải linh hoạt và dễ giao tiếp với các nguồn dữ liệu bên ngoài.

Xử lý hậu kỳ trong trích xuất dữ liệu biểu mẫu

Hiểu độ sâu của trích xuất biểu mẫu với các tình huống khác nhau

Cho đến nay, chúng ta đã thảo luận về các nguyên tắc cơ bản và thách thức của việc trích xuất dữ liệu biểu mẫu. Trong phần này, chúng ta sẽ đi sâu vào các tình huống khác nhau và hiểu sâu hơn về việc trích xuất dữ liệu biểu mẫu. Chúng tôi cũng sẽ xem xét cách chúng tôi có thể tự động hóa quá trình trích xuất cho các tình huống cụ thể này.

Tình huống # 1: Nhận dạng viết tay cho các biểu mẫu ngoại tuyến

Hình thức offline thường gặp trong cuộc sống hàng ngày. Điều bắt buộc là các biểu mẫu phải dễ điền và dễ nộp. Số hóa các biểu mẫu ngoại tuyến theo cách thủ công có thể là một nhiệm vụ bận rộn và tốn kém, đó là lý do tại sao các thuật toán học sâu là cần thiết. Các tài liệu viết tay là một thách thức lớn để trích xuất dữ liệu do sự phức tạp của các ký tự viết tay. Do đó, các thuật toán nhận dạng dữ liệu được sử dụng nhiều để máy học cách đọc và giải thích văn bản viết tay. Quá trình này bao gồm việc quét hình ảnh của các từ viết tay và chuyển đổi chúng thành dữ liệu có thể được xử lý và phân tích bằng một thuật toán. Sau đó, thuật toán tạo một bản đồ ký tự dựa trên các nét và nhận dạng các chữ cái tương ứng để trích xuất văn bản.

Hình ảnh Nguồn: Bộ dữ liệu NSIT

Tình huống # 2: Nhận dạng hộp kiểm trên biểu mẫu

Biểu mẫu hộp kiểm là một hình thức nhập dữ liệu được sử dụng để thu thập thông tin từ người dùng trong một trường đầu vào. Loại dữ liệu này thường được tìm thấy trong danh sách và bảng yêu cầu người dùng chọn một hoặc nhiều mục, chẳng hạn như các mục họ muốn được liên hệ. Nó có thể được tìm thấy trong bất kỳ địa điểm nào - biểu mẫu trực tuyến, bảng câu hỏi và khảo sát, v.v. Ngày nay, một số thuật toán có thể tự động hóa quá trình trích xuất dữ liệu ngay cả từ các hộp kiểm. Mục tiêu chính của thuật toán này là xác định các vùng đầu vào bằng kỹ thuật thị giác máy tính. Chúng liên quan đến việc xác định các đường (ngang và dọc), áp dụng các bộ lọc, đường viền và phát hiện các cạnh trên hình ảnh. Sau khi vùng đầu vào được xác định, thật dễ dàng để trích xuất nội dung hộp kiểm được đánh dấu hoặc không được đánh dấu.

Nhận dạng hộp kiểm trong trích xuất dữ liệu biểu mẫu

Tình huống 3: Bố cục Thay đổi biểu mẫu theo thời gian

Khi nói đến việc điền vào biểu mẫu, thường có hai loại tùy chọn khác nhau. Đối với một số biểu mẫu, chúng tôi cần cung cấp thông tin của mình bằng cách viết vào tất cả các trường có liên quan, trong khi đối với những biểu mẫu khác, chúng tôi có thể cung cấp thông tin bằng cách chọn từ một vài hộp kiểm. Bố cục của biểu mẫu cũng thay đổi tùy thuộc vào loại biểu mẫu và ngữ cảnh của nó. Do đó, điều cần thiết là phải xây dựng một thuật toán có thể xử lý nhiều tài liệu phi cấu trúc và trích xuất nội dung một cách thông minh tùy thuộc vào các nhãn biểu mẫu. Một kỹ thuật phổ biến của kiến trúc học sâu để xử lý bố cục tài liệu là Graph CNNs. Ý tưởng đằng sau Mạng lưới điện tử đồ thị (GCN) là đảm bảo rằng các hoạt động kích hoạt tế bào thần kinh là theo hướng dữ liệu. Chúng được thiết kế để hoạt động trên đồ thị, bao gồm các nút và các cạnh. Một lớp phức hợp của đồ thị có khả năng nhận ra các mẫu trong trường hợp không có tín hiệu huấn luyện dành cho nhiệm vụ cụ thể. Do đó, chúng phù hợp khi dữ liệu mạnh mẽ.

Kịch bản # 4: Phát hiện ô bảng

Trong một số trường hợp, các doanh nghiệp gặp phải các loại biểu mẫu đặc biệt bao gồm các ô trong bảng. Các ô trong bảng là các vùng hình chữ nhật bên trong bảng nơi dữ liệu được lưu trữ. Chúng có thể được phân loại thành tiêu đề, hàng hoặc cột. Một thuật toán lý tưởng nên xác định tất cả các loại ô này và ranh giới của chúng để trích xuất dữ liệu từ chúng. Một số kỹ thuật phổ biến để trích xuất bảng bao gồm Dòng và Mạng; đây là những thuật toán có thể giúp phát hiện các đường thẳng, hình dạng, đa giác bằng cách sử dụng các phép toán đẳng hình đơn giản trên hình ảnh.

Các giải pháp trích xuất dữ liệu biểu mẫu đã phát triển như thế nào?

Khai thác dữ liệu biểu mẫu có nguồn gốc từ thời tiền máy tính khi mọi người xử lý biểu mẫu giấy. Với sự ra đời của máy tính, người ta đã có thể lưu trữ dữ liệu dưới dạng điện tử. Các chương trình máy tính có thể sử dụng dữ liệu để tạo báo cáo, chẳng hạn như thống kê bán hàng. Phần mềm này cũng có thể được sử dụng để in nhãn gửi thư, chẳng hạn như tên và địa chỉ của khách hàng, và in hóa đơn, chẳng hạn như số tiền đến hạn và địa chỉ mà nó sẽ được gửi đến. Tuy nhiên, ngày nay chúng ta thấy một phiên bản khác của phần mềm trích xuất dữ liệu biểu mẫu; chúng có độ chính xác cao, nhanh hơn và cung cấp dữ liệu theo cách có cấu trúc và có tổ chức cao. Bây giờ, chúng ta hãy thảo luận ngắn gọn về các loại kỹ thuật trích xuất dữ liệu biểu mẫu khác nhau.

Dựa trên quy tắc từ trích xuất dữ liệu: Trích xuất dựa trên quy tắc là một kỹ thuật tự động trích xuất dữ liệu từ một biểu mẫu mẫu cụ thể. Nó có thể trích xuất dữ liệu mà không cần bất kỳ sự can thiệp nào của con người. Chúng hoạt động bằng cách kiểm tra các trường khác nhau trên trang và quyết định những trường nào sẽ trích xuất dựa trên văn bản, nhãn xung quanh và các manh mối ngữ cảnh khác. Các thuật toán này thường được phát triển và tự động hóa bằng cách sử dụng các tập lệnh ETL hoặc quét web. Tuy nhiên, khi chúng được thử nghiệm trên dữ liệu không nhìn thấy được, chúng hoàn toàn thất bại.
Trích xuất dữ liệu biểu mẫu bằng OCR: OCR là một giải pháp phù hợp cho bất kỳ dạng bài toán trích xuất dữ liệu nào. Tuy nhiên, người ta phải viết các tập lệnh và chương trình bổ sung để đạt được hiệu suất chính xác. Để OCR hoạt động, nó yêu cầu đầu vào của một hình ảnh với văn bản trên đó. Sau đó, phần mềm sẽ đọc từng pixel và so sánh từng pixel với chữ cái tương ứng của nó. Nếu nó khớp, nó sẽ xuất ra chữ cái đó và bất kỳ số hoặc ký hiệu nào đủ gần với chữ cái đó. Thách thức lớn nhất với OCR là tìm ra cách tách các chữ cái. Ví dụ: khi các nốt gần nhau hoặc chồng lên nhau, chẳng hạn như "a" và "e." Do đó, những điều này có thể không hoạt động khi chúng tôi trích xuất các biểu mẫu ngoại tuyến.
NER để trích xuất dữ liệu biểu mẫu: Nhận dạng thực thể được đặt tên là nhiệm vụ xác định và phân loại các thực thể được xác định trước trong văn bản ngôn ngữ tự nhiên. Nó thường được sử dụng để trích xuất thông tin từ các biểu mẫu, nơi mọi người nhập tên, địa chỉ, nhận xét, v.v. Nhiệm vụ nhận dạng các thực thể được đặt tên có liên quan chặt chẽ đến nhiệm vụ rộng hơn là giải quyết tham chiếu, xác định xem các đề cập của cùng các thực thể có tham chiếu đến cùng các thực thể trong thế giới thực. Ngày nay với các công cụ và khuôn khổ lập trình tiên tiến, chúng ta có thể tận dụng các mô hình được đào tạo trước để xây dựng các mô hình dựa trên NER cho các tác vụ khai thác thông tin.

Hình ảnh Nguồn: Trung bình

Sử dụng Deep Learning để trích xuất dữ liệu biểu mẫu: Học sâu không phải là mới, nó đã xuất hiện trong nhiều thập kỷ, nhưng những phát triển gần đây trong kiến trúc học sâu và sức mạnh tính toán đã dẫn đến những kết quả đột phá. Khai thác dữ liệu biểu mẫu bằng cách sử dụng học sâu đã đạt được hiệu suất hiện đại ở hầu hết mọi định dạng, có thể là kỹ thuật số hoặc viết tay. Quá trình bắt đầu bằng cách cung cấp cho mạng nơ-ron sâu (DNN) hàng nghìn hoặc hàng triệu ví dụ khác nhau được gắn nhãn những gì chúng là. Ví dụ: các nhãn dạng hình ảnh với các thực thể của nó như tên, email, id, v.v. DNN xử lý tất cả thông tin này và tự học cách các phần này được kết nối với nhau. Tuy nhiên, việc xây dựng một mô hình có độ chính xác cao đòi hỏi nhiều chuyên môn và thử nghiệm.

Học sâu để trích xuất dữ liệu biểu mẫu

Trích xuất dữ liệu biểu mẫu bằng OCRs

Có nhiều thư viện khác nhau có sẵn để trích xuất dữ liệu từ các biểu mẫu. Nhưng nếu bạn muốn trích xuất dữ liệu từ hình ảnh của một biểu mẫu thì sao? Đây là lúc Tesseract OCR (Nhận dạng ký tự quang học) xuất hiện. Tesseract là một công cụ OCR (Nhận dạng ký tự quang học) mã nguồn mở do HP phát triển. Sử dụng Tesseract OCR, có thể chuyển đổi các tài liệu được quét như hóa đơn giấy, biên lai và séc thành các tệp kỹ thuật số có thể tìm kiếm và chỉnh sửa được. Nó có sẵn ở một số ngôn ngữ và có thể nhận dạng các ký tự ở nhiều định dạng hình ảnh khác nhau. Tesseract thường được sử dụng kết hợp với các thư viện khác để xử lý hình ảnh để trích xuất văn bản.

Để kiểm tra điều này, hãy đảm bảo bạn cài đặt Tesseract trên máy cục bộ của mình. Bạn có thể sử dụng các liên kết Tesseract CLI hoặc Python để chạy OCR. Python-tesseract là một trình bao bọc cho Công cụ Tesseract-OCR của Google. Nó có thể được sử dụng để đọc tất cả các loại hình ảnh được hỗ trợ bởi thư viện hình ảnh Pillow và Leptonica, bao gồm jpeg, png, gif, bmp, tiff và các loại khác. Bạn có thể dễ dàng sử dụng nó như một kịch bản lệnh gọi độc lập để tesseract nếu cần.

Bây giờ, hãy lấy biên nhận chứa dữ liệu biểu mẫu và cố gắng xác định vị trí của văn bản bằng Computer Vision và Tesseract.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Trích xuất dữ liệu biểu mẫu bằng OCRs

Ở đây, trong đầu ra, như chúng ta có thể thấy, chương trình đã có thể xác định tất cả văn bản bên trong biểu mẫu. Bây giờ, hãy áp dụng OCR cho điều này để trích xuất tất cả thông tin. Chúng tôi có thể đơn giản làm điều này bằng cách sử dụng hình ảnh_to_string hàm trong Python.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

Đầu ra:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Tại đây chúng tôi có thể trích xuất tất cả thông tin từ biểu mẫu. Tuy nhiên, trong hầu hết các trường hợp, chỉ sử dụng OCR sẽ không hữu ích vì dữ liệu được trích xuất sẽ hoàn toàn không có cấu trúc. Do đó, người dùng dựa vào việc trích xuất cặp khóa-giá trị trên các biểu mẫu, chỉ có thể xác định các thực thể cụ thể như ID, Ngày tháng, Số tiền thuế, v.v. Điều này chỉ có thể thực hiện được với học sâu. Trong phần tiếp theo, hãy xem cách chúng ta có thể tận dụng các kỹ thuật học sâu khác nhau để xây dựng các thuật toán khai thác thông tin.

Giải quyết trích xuất dữ liệu biểu mẫu bằng cách sử dụng học sâu

Kết hợp đồ thị để khai thác thông tin đa phương thức từ các tài liệu trực quan phong phú

Mạng lưới biểu đồ (Graph CNNs) là một lớp mạng nơ-ron tích hợp sâu (CNN) có khả năng học hiệu quả các đặc trưng phi tuyến tính cao trong cấu trúc dữ liệu đồ thị trong khi vẫn bảo toàn cấu trúc nút và cạnh. Họ có thể lấy cấu trúc dữ liệu đồ thị làm đầu vào và tạo 'bản đồ đặc trưng' cho các nút và cạnh. Các tính năng kết quả có thể được sử dụng để phân loại đồ thị, phân cụm hoặc phát hiện cộng đồng. GCN cung cấp một giải pháp mạnh mẽ để trích xuất thông tin từ các tài liệu lớn, giàu hình ảnh như hóa đơn và biên lai. Để xử lý chúng, mỗi hình ảnh phải được chuyển đổi thành một đồ thị bao gồm các nút và các cạnh. Bất kỳ từ nào trên hình ảnh được biểu diễn bằng nút riêng của nó; trực quan hóa phần còn lại của dữ liệu được mã hóa trong vector đặc trưng của nút.

Đồ thị tài liệu. Mọi nút trong biểu đồ được kết nối hoàn toàn với nhau. (SRC)

Đầu tiên, mô hình này mã hóa từng đoạn văn bản trong tài liệu thành nhúng đồ thị. Làm như vậy sẽ nắm bắt được ngữ cảnh trực quan và văn bản xung quanh mỗi phần tử văn bản, cùng với vị trí hoặc vị trí của nó trong một khối văn bản. Sau đó, nó kết hợp các đồ thị này với nhúng văn bản để tạo ra một bản trình bày tổng thể về cấu trúc của tài liệu và những gì được viết bên trong nó. Mô hình học cách gán trọng số cao hơn cho các văn bản có khả năng là các thực thể dựa trên vị trí của chúng so với nhau và bối cảnh mà chúng xuất hiện trong một khối người đọc lớn hơn. Cuối cùng, nó áp dụng mô hình BiLSTM-CRF tiêu chuẩn để trích xuất thực thể. Kết quả cho thấy thuật toán này hoạt động tốt hơn mô hình cơ sở (BiLSTM-CRF) trên một biên độ rộng.

LayoutLM: Đào tạo trước về Văn bản và Bố cục để Hiểu Hình ảnh Tài liệu

Kiến trúc của mô hình LayoutLM được lấy cảm hứng từ BERT và kết hợp nhúng hình ảnh từ Faster R-CNN. Các nhúng đầu vào của LayoutLM được tạo dưới dạng kết hợp giữa nhúng văn bản và vị trí, sau đó kết hợp với nhúng hình ảnh được tạo bởi mô hình Faster R-CNN. Các Mô hình Ngôn ngữ Trực quan có Mặt nạ và Phân loại Tài liệu Nhiều Nhãn chủ yếu được sử dụng làm nhiệm vụ đào tạo trước cho LayoutLM. Mô hình LayoutLM có giá trị, năng động và đủ mạnh cho bất kỳ công việc nào yêu cầu hiểu biết về bố cục, chẳng hạn như trích xuất biểu mẫu / biên nhận, phân loại hình ảnh tài liệu hoặc thậm chí trả lời câu hỏi trực quan có thể được thực hiện với mô hình đào tạo này.

Hình ảnh Nguồn: bố cụcML

Mô hình LayoutLM được đào tạo trên Bộ sưu tập thử nghiệm IIT-CDIP 1.0, bao gồm hơn 6 triệu tài liệu và hơn 11 triệu hình ảnh tài liệu được quét với tổng số hơn 12GB dữ liệu. Mô hình này về cơ bản đã vượt trội hơn đáng kể so với một số mô hình được đào tạo trước của SOTA về hiểu biểu mẫu, hiểu biên nhận và các nhiệm vụ phân loại hình ảnh tài liệu được quét.

Form2Seq: Một khuôn khổ để trích xuất cấu trúc biểu mẫu bậc cao hơn

Form2Seq là một khuôn khổ tập trung vào việc trích xuất cấu trúc từ văn bản đầu vào bằng cách sử dụng trình tự vị trí. Không giống như các khuôn khổ seq2seq truyền thống, Form2Seq sử dụng các vị trí không gian tương đối của các cấu trúc, thay vì thứ tự của chúng.

Trong phương pháp này, đầu tiên, chúng tôi phân loại các phần tử cấp thấp sẽ cho phép xử lý và tổ chức tốt hơn. Có 10 loại biểu mẫu, chẳng hạn như chú thích trường, mục danh sách, v.v. Tiếp theo, chúng tôi nhóm các phần tử cấp thấp hơn, chẳng hạn như Trường văn bản và Trường lựa chọn, thành các cấu trúc cấp cao hơn được gọi là Nhóm lựa chọn. Chúng được sử dụng làm cơ chế thu thập thông tin để đạt được trải nghiệm người dùng tốt hơn các phần tử cấp thấp hơn thành các cấu trúc bậc cao, chẳng hạn như Trường văn bản, Trường lựa chọn và Nhóm lựa chọn, được sử dụng làm cơ chế thu thập thông tin trong các biểu mẫu. Điều này có thể thực hiện được bằng cách sắp xếp các phần tử cấu thành theo thứ tự tuyến tính theo thứ tự đọc tự nhiên và đưa các biểu diễn văn bản và không gian của chúng vào khung Seq2Seq. Khung Seq2Seq tuần tự đưa ra các dự đoán cho từng thành phần của câu tùy thuộc vào ngữ cảnh. Điều này cho phép nó xử lý nhiều thông tin hơn và hiểu rõ hơn về nhiệm vụ đang thực hiện.

Kiến trúc mô hình Form2seq để phân loại kiểu phần tử. Các giai đoạn khác nhau được chú thích bằng các chữ cái (SRC).

Mô hình đạt được độ chính xác 90% đối với nhiệm vụ phân loại, cao hơn so với mô hình cơ sở dựa trên phân đoạn. F1 trên khối văn bản, trường văn bản và trường lựa chọn lần lượt là 86.01%, 61.63%. Khung này đạt được trạng thái của kết quả trên tập dữ liệu ICDAR để nhận dạng cấu trúc bảng.

Tại sao OCR dựa trên AI của Nanonets là lựa chọn tốt nhất

Mặc dù phần mềm OCR có thể chuyển đổi hình ảnh được quét của văn bản sang các tệp kỹ thuật số được định dạng như PDF, DOC và PPT, nhưng nó không phải lúc nào cũng chính xác. Phần mềm tiên tiến hàng đầu hiện nay như hệ thống học sâu OCR dựa trên AI của Nanonets đã vượt qua nhiều thách thức mà các hệ thống OCR truyền thống phải đối mặt trong khi tạo tệp có thể chỉnh sửa từ tài liệu được quét. Nó đã trở thành lựa chọn tốt nhất để trích xuất dữ liệu vì nó có thể cung cấp tỷ lệ chính xác cao và mức dung sai cao đối với nhiễu, các yếu tố đồ họa và các thay đổi định dạng. Bây giờ, chúng ta hãy thảo luận một vài điểm về cách OCR dựa trên AI là lựa chọn tốt nhất.

Nanonet - Trích xuất dữ liệu biểu mẫu

OCR, như đã thảo luận, là một kỹ thuật đơn giản để trích xuất dữ liệu. Tuy nhiên, chúng sẽ không hoạt động nhất quán khi được đưa vào dữ liệu mới / chưa thấy. Tuy nhiên, OCR dựa trên AI có thể xử lý các tình huống như thế này, khi chúng đào tạo trên nhiều loại dữ liệu.
OCR thông thường không thể xử lý các bố cục phức tạp để trích xuất dữ liệu biểu mẫu. Do đó, khi được hỗ trợ bởi học sâu hoặc AI, chúng sẽ cho kết quả tốt nhất bằng cách hiểu bố cục, văn bản và ngữ cảnh của dữ liệu.
OCR có thể hoạt động kém hiệu quả khi có nhiễu dữ liệu, chẳng hạn như độ lệch, hình ảnh được quét trong ánh sáng yếu, v.v., trong khi các mô hình học sâu có thể xử lý các điều kiện như vậy và vẫn trả lại kết quả chính xác cao.
OCR dựa trên AI có khả năng tùy chỉnh cao và linh hoạt so với OCR truyền thống; chúng có thể được xây dựng trên nhiều loại dữ liệu khác nhau để chuyển đổi dữ liệu phi cấu trúc sang bất kỳ định dạng có cấu trúc nào.
Đầu ra sau xử lý từ OCR dựa trên AI có thể truy cập được so với OCR thông thường; chúng có thể được xuất sang bất kỳ định dạng dữ liệu nào như JSON, CSV, Excel Sheets hoặc thậm chí cơ sở dữ liệu như Postgres trực tiếp từ mô hình.
OCR dựa trên AI có thể được xuất dưới dạng một API đơn giản bằng cách sử dụng các mô hình được đào tạo trước. Điều này vẫn có thể thực hiện được trong các phương pháp truyền thống khác, nhưng khó có thể cải thiện các mô hình một cách nhất quán kịp thời. Trong khi sử dụng OCR dựa trên AI, nó có thể tự động được điều chỉnh nếu có lỗi.
Việc trích xuất bảng là rất bất khả thi khi sử dụng OCR thẳng. Tuy nhiên, nó có thể được thực hiện một cách dễ dàng với sức mạnh của AI / DL. Ngày nay, OCR dựa trên AI có thể tích cực trỏ các biểu mẫu dựa trên bảng bên trong tài liệu và trích xuất thông tin.
Nếu có bất kỳ dữ liệu tài chính hoặc bí mật nào trong tài liệu, các mô hình AI cũng có thể thực hiện kiểm tra gian lận. Về cơ bản, nó tìm kiếm văn bản đã chỉnh sửa / làm mờ từ các tài liệu được quét và thông báo cho quản trị viên. Các tài liệu hoặc thông tin trùng lặp cũng có thể được xác định thông qua các mô hình này. Trong khi OCR chỉ đơn giản là không thành công trong những trường hợp như vậy.

Dấu thời gian: 6 Tháng ba, 2022

Dấu thời gian: Tháng Mười Một 15, 2023

Trích xuất dữ liệu biểu mẫu

Được xuất bản lại bởi Plato

Trích xuất dữ liệu biểu mẫu là gì?

Điều gì khiến cho việc trích xuất dữ liệu biểu mẫu trở nên thách thức?

Hiểu độ sâu của trích xuất biểu mẫu với các tình huống khác nhau

Tình huống # 1: Nhận dạng viết tay cho các biểu mẫu ngoại tuyến

Tình huống # 2: Nhận dạng hộp kiểm trên biểu mẫu

Tình huống 3: Bố cục Thay đổi biểu mẫu theo thời gian

Kịch bản # 4: Phát hiện ô bảng

Các giải pháp trích xuất dữ liệu biểu mẫu đã phát triển như thế nào?

Trích xuất dữ liệu biểu mẫu bằng OCRs

Giải quyết trích xuất dữ liệu biểu mẫu bằng cách sử dụng học sâu

Tại sao OCR dựa trên AI của Nanonets là lựa chọn tốt nhất

Thêm từ AI & Máy học

Hướng dẫn về Báo cáo & Báo cáo Tài khoản phải trả (AP) năm 2024

Biên lai chi phí là gì?

12 Thống kê RPA thú vị bạn không thể bỏ lỡ trong năm 2022

Công cụ trích xuất số điện thoại: Mọi thứ bạn cần biết

Mô hình hóa Argus: Thúc đẩy các quyết định về bất động sản dựa trên dữ liệu

Quy trình quản lý nhà cung cấp: Tầm quan trọng, lợi ích và thách thức

Số ngày phải trả chưa thanh toán là gì? Và làm thế nào để tính DPO?

Hướng dẫn đầy đủ về chuyển đổi kỹ thuật số trong tài khoản phải trả

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản