Giải thích về LayoutLM

Được xuất bản lại bởi Plato

Người theo dõi: 0

Xử lý tài liệu là gì?

Giải thích về LayoutLM

Xử lý tài liệu là quá trình tự động hóa việc trích xuất dữ liệu có cấu trúc từ tài liệu. Điều này có thể dành cho bất kỳ tài liệu nào, chẳng hạn như hóa đơn, sơ yếu lý lịch, chứng minh thư, v.v. Phần thách thức ở đây không chỉ là OCR. Có rất nhiều tùy chọn có sẵn với chi phí thấp có thể trích xuất văn bản và cung cấp cho bạn vị trí. Thách thức thực sự là gắn nhãn cho những đoạn văn bản này một cách chính xác và tự động.

Tác động kinh doanh của việc xử lý tài liệu

Một số ngành phụ thuộc rất nhiều vào việc xử lý tài liệu cho hoạt động hàng ngày của họ. Các tổ chức tài chính cần quyền truy cập vào hồ sơ SEC, hồ sơ bảo hiểm, công ty Thương mại điện tử hoặc Chuỗi cung ứng có thể cần quyền truy cập vào các hóa đơn đang được sử dụng, danh sách vẫn tiếp tục. Độ chính xác của thông tin này cũng quan trọng như thời gian tiết kiệm được, đó là lý do tại sao chúng tôi luôn khuyên bạn nên sử dụng các phương pháp học sâu nâng cao có tính khái quát cao hơn và chính xác hơn.

Theo báo cáo này của PwC, [Link] ngay cả lượng trích xuất dữ liệu có cấu trúc thô sơ nhất cũng có thể giúp tiết kiệm 30-50% thời gian của nhân viên dành cho việc sao chép và dán dữ liệu theo cách thủ công từ tệp PDF sang bảng tính excel. Các mô hình như LayoutLM chắc chắn không hề thô sơ, chúng đã được xây dựng như những tác nhân cực kỳ thông minh có khả năng trích xuất dữ liệu chính xác trên quy mô lớn, trong các trường hợp sử dụng khác nhau. Ngay cả với nhiều khách hàng của chúng tôi, chúng tôi đã giảm thời gian cần thiết để trích xuất dữ liệu theo cách thủ công từ 20 phút cho mỗi tài liệu xuống dưới 10 giây. Đó là một sự thay đổi lớn, cho phép người lao động làm việc hiệu quả hơn và đạt được năng suất tổng thể cao hơn.

Vậy AI tương tự LayoutLM có thể ứng dụng ở đâu? Tại Nanonets, chúng tôi đã sử dụng công nghệ như vậy để

và nhiều trường hợp sử dụng khác.

Tại sao lại là LayoutLM?

Làm thế nào để mô hình deep learning hiểu được một đoạn văn bản nhất định là mô tả mặt hàng trong hóa đơn hay số hóa đơn? Nói một cách đơn giản, làm thế nào để một mô hình học cách gán nhãn chính xác?

Một phương pháp là sử dụng phần nhúng văn bản từ một mô hình ngôn ngữ lớn như BERT hoặc GPT-3 và chạy nó thông qua bộ phân loại – mặc dù cách này không hiệu quả lắm. Có rất nhiều thông tin mà người ta không thể đánh giá chỉ bằng văn bản. Hoặc, người ta có thể sử dụng thông tin dựa trên hình ảnh. Điều này đạt được bằng cách sử dụng các mô hình R-CNN và Faster R-CNN. Tuy nhiên, điều này vẫn chưa tận dụng được hết thông tin có trong tài liệu. Một cách tiếp cận khác được sử dụng là với Mạng thần kinh chuyển đổi đồ thị, kết hợp cả thông tin vị trí và văn bản, nhưng không tính đến thông tin hình ảnh.

Vậy làm thế nào để chúng ta sử dụng cả ba chiều thông tin, tức là văn bản, hình ảnh và vị trí của văn bản đã cho? Đó là lúc các mô hình như LayoutLM xuất hiện. Mặc dù là một lĩnh vực nghiên cứu tích cực trong nhiều năm trước, LayoutLM là một trong những mô hình đầu tiên đạt được thành công khi kết hợp các phần để tạo ra một mô hình duy nhất thực hiện gắn nhãn bằng thông tin vị trí, thông tin dựa trên văn bản, và cả thông tin hình ảnh.

Hướng dẫn về Bố cụcLM

Giải thích về LayoutLM — Kiến trúc Bố cụcLM

Bài viết này giả định rằng bạn hiểu mô hình ngôn ngữ là gì. Nếu không, đừng lo lắng, chúng tôi cũng đã viết một bài báo về điều đó! Nếu bạn muốn tìm hiểu thêm về model máy biến áp là gì và chú ý điều gì thì tại đây là một bài viết tuyệt vời của Jay Alammar.

Giả sử chúng ta đã giải quyết được những vấn đề này, hãy bắt đầu với phần hướng dẫn. Chúng tôi sẽ sử dụng tài liệu LayoutLM gốc làm tài liệu tham khảo chính.

Trích xuất văn bản OCR

Điều đầu tiên chúng tôi làm với một tài liệu là trích xuất thông tin dựa trên văn bản từ tài liệu và tìm vị trí tương ứng của chúng. Theo vị trí, chúng tôi đề cập đến thứ gọi là 'hộp giới hạn'. Hộp giới hạn là một hình chữ nhật bao bọc phần văn bản trên trang.

Trong hầu hết các trường hợp, giả định rằng hộp giới hạn có gốc ở góc trên cùng bên trái và trục x dương hướng từ gốc về phía bên phải của trang và trục y dương hướng từ gốc tới ở cuối trang, với một pixel được coi là đơn vị đo lường.

Nhúng ngôn ngữ và vị trí

Tiếp theo, chúng tôi sử dụng năm lớp nhúng khác nhau. Một là mã hóa thông tin liên quan đến ngôn ngữ – tức là nhúng văn bản.

Bốn cái còn lại được dành riêng cho việc nhúng vị trí. Giả sử rằng chúng ta biết các giá trị của xmin, ymin, xmax và ymax, chúng ta có thể xác định toàn bộ khung giới hạn (nếu bạn không thể hình dung được nó, đây là một liên kết cho bạn). Các tọa độ này được chuyển qua các lớp nhúng tương ứng để mã hóa thông tin về vị trí.

Năm phần nhúng – một cho văn bản và bốn cho tọa độ – sau đó được cộng lại để tạo ra giá trị cuối cùng của phần nhúng được chuyển qua LayoutLM. Đầu ra được gọi là nhúng LayoutLM.

Nhúng hình ảnh

Được rồi, vậy là chúng tôi đã tìm được thông tin liên quan đến văn bản và vị trí bằng cách kết hợp các phần nhúng của chúng và chuyển nó qua mô hình ngôn ngữ. Bây giờ chúng ta làm cách nào để thực hiện quá trình kết hợp thông tin liên quan đến hình ảnh trong đó?

Trong khi thông tin văn bản và bố cục đang được mã hóa song song, chúng tôi sử dụng R-CNN nhanh hơn để trích xuất các vùng văn bản liên quan đến tài liệu. Faster R-CNN là mô hình hình ảnh được sử dụng để phát hiện đối tượng. Trong trường hợp của chúng tôi, chúng tôi sử dụng nó để phát hiện các đoạn văn bản khác nhau (giả sử mỗi cụm từ là một đối tượng) và sau đó chuyển các hình ảnh được phân đoạn qua một lớp được kết nối đầy đủ để giúp tạo phần nhúng cho hình ảnh.

Các phần nhúng LayoutLM cũng như các phần nhúng hình ảnh được kết hợp để tạo ra phần nhúng cuối cùng, sau đó có thể được sử dụng để thực hiện quá trình xử lý tiếp theo.

LayoutLM trước khi đào tạo

Tất cả những điều trên chỉ có ý nghĩa nếu chúng ta hiểu phương pháp mà LayoutLM được đào tạo. Suy cho cùng, cho dù chúng ta thiết lập loại kết nối nào trong mạng lưới thần kinh, cho đến khi và trừ khi nó được huấn luyện với mục tiêu học tập phù hợp thì mạng đó cũng không thông minh lắm. Các tác giả của LayoutLM muốn theo đuổi một phương pháp tương tự như phương pháp đã được sử dụng để đào tạo trước BERT.

Mô hình ngôn ngữ hình ảnh đeo mặt nạ (MVLM)

Để giúp mô hình tìm hiểu văn bản nào có thể có ở một vị trí nhất định, các tác giả đã che dấu ngẫu nhiên một số mã thông báo văn bản trong khi vẫn giữ lại thông tin liên quan đến vị trí và các phần nhúng. Điều này cho phép LayoutLM vượt xa Mô hình ngôn ngữ đeo mặt nạ đơn giản và cũng giúp liên kết các phần nhúng văn bản với các phương thức liên quan đến vị trí.

Phân loại tài liệu nhiều nhãn (MDC)

Việc sử dụng tất cả thông tin trong tài liệu để phân loại thành các danh mục sẽ giúp mô hình hiểu được thông tin nào có liên quan đến một loại tài liệu nhất định. Tuy nhiên, các tác giả lưu ý rằng đối với các tập dữ liệu lớn hơn, dữ liệu về các lớp tài liệu có thể không có sẵn. Do đó, họ đã cung cấp kết quả dựa trên cả đào tạo MVLM và đào tạo MVLM + MDC.

Tinh chỉnh LayoutLM cho các tác vụ xuôi dòng

Có một số tác vụ tiếp theo có thể được thực thi bằng LayoutLM. Chúng ta sẽ thảo luận về những điều mà các tác giả đã thực hiện.

Hiểu biểu mẫu

Nhiệm vụ này đòi hỏi phải liên kết một loại nhãn với một đoạn văn bản nhất định. Bằng cách sử dụng điều này, chúng tôi có thể trích xuất dữ liệu có cấu trúc từ bất kỳ loại tài liệu nào. Với đầu ra cuối cùng, tức là phần nhúng LayouLM + phần nhúng hình ảnh, chúng được chuyển qua một lớp được kết nối đầy đủ và sau đó được chuyển qua softmax để dự đoán xác suất lớp cho nhãn của một đoạn văn bản nhất định.

Hiểu biết về biên nhận

Trong nhiệm vụ này, một số ô thông tin bị bỏ trống trên biên lai và mô hình phải đặt chính xác các đoạn văn bản vào các ô tương ứng của chúng.

Phân loại hình ảnh tài liệu

Thông tin từ văn bản và hình ảnh của tài liệu được kết hợp để giúp hiểu loại tài liệu bằng cách chuyển nó qua lớp softmax.

Bố cục ôm mặtLM

Một trong những lý do chính khiến LayoutLM được thảo luận nhiều là do mô hình này đã có nguồn mở cách đây một thời gian. Nó là có sẵn trên Ôm Mặt, vì vậy việc sử dụng LayoutLM giờ đây đã dễ dàng hơn đáng kể.

Trước khi đi sâu vào chi tiết cụ thể về cách bạn có thể tinh chỉnh LayoutLM cho nhu cầu riêng của mình, có một số điều cần cân nhắc.

Cài đặt thư viện

Để chạy LayoutLM, bạn sẽ cần thư viện máy biến áp từ Ôm mặt, thư viện này phụ thuộc vào thư viện PyTorch. Để cài đặt chúng (nếu chưa được cài đặt), hãy chạy các lệnh sau

Trên các hộp giới hạn

Để tạo sơ đồ nhúng thống nhất bất kể kích thước hình ảnh, tọa độ hộp giới hạn được chuẩn hóa theo tỷ lệ 1000

Cấu hình

Bằng cách sử dụng lớp Transforms.LayoutLMConfig, bạn có thể đặt kích thước của mô hình phù hợp nhất với yêu cầu của mình vì những mô hình này thường nặng và cần khá nhiều sức mạnh tính toán. Đặt nó thành một mô hình nhỏ hơn có thể giúp bạn chạy nó cục bộ. Bạn có thể tìm hiểu thêm về lớp học tại đây.

LayoutLM để phân loại tài liệu (liên kết)

Nếu bạn muốn thực hiện phân loại tài liệu, bạn sẽ cần lớp Transformers.LayoutLMForSequenceClassification. Trình tự ở đây là trình tự văn bản từ tài liệu mà bạn đã trích xuất. Đây là một mẫu mã nhỏ từ Hugging Face.co sẽ giải thích cách sử dụng nó

LayoutLM để ghi nhãn văn bản (liên kết)

Để thực hiện ghi nhãn ngữ nghĩa, tức là gán nhãn cho các phần văn bản khác nhau trong tài liệu, bạn sẽ cần đến lớp Transforms.LayoutLMForTokenClassification. Bạn có thể tìm thêm chi tiết trên cùng ở đây.Đây là một mẫu mã nhỏ để bạn xem nó có thể hoạt động như thế nào đối với bạn

Một số điểm cần lưu ý về bố cục ôm mặtLM

Hiện tại, mô hình Hugging Face LayoutLM sử dụng thư viện mã nguồn mở Tesseract để trích xuất văn bản, kết quả này không chính xác lắm. Bạn có thể cân nhắc sử dụng một công cụ OCR trả phí khác như AWS Textract hoặc Google Cloud Vision
Mô hình hiện tại chỉ cung cấp mô hình ngôn ngữ, tức là phần nhúng LayoutLM chứ không phải các lớp cuối cùng kết hợp các tính năng trực quan. Bố cụcLMv2 (được thảo luận ở phần tiếp theo) cũng sử dụng thư viện Detectron để cho phép nhúng tính năng trực quan.
Việc phân loại nhãn diễn ra ở cấp độ từ, do đó, công cụ trích xuất văn bản OCR thực sự phụ thuộc vào việc đảm bảo tất cả các từ trong một trường theo một chuỗi liên tục hoặc một trường có thể được dự đoán là hai.

Bố cụcLMv2

LayoutLM ra đời như một cuộc cách mạng về cách trích xuất dữ liệu từ tài liệu. Tuy nhiên, theo nghiên cứu về deep learning, các mô hình ngày càng được cải thiện theo thời gian. LayoutLM cũng được thành công tương tự bởi LayoutLMv2, trong đó các tác giả đã thực hiện một số thay đổi đáng kể về cách đào tạo mô hình.

Bao gồm nhúng không gian 1-D và nhúng mã thông báo trực quan

LayoutLMv2 bao gồm thông tin liên quan đến vị trí tương đối 1-D, cũng như thông tin liên quan đến hình ảnh tổng thể. Lý do điều này quan trọng là vì các mục tiêu đào tạo mới mà bây giờ chúng ta sẽ thảo luận.

Mục tiêu đào tạo mới

LayoutLMv2 bao gồm một số mục tiêu đào tạo đã được sửa đổi. Đây là như sau:

Mô hình hóa ngôn ngữ hình ảnh được che giấu: Điều này giống như trong LayoutLM
Căn chỉnh hình ảnh văn bản: Văn bản được che ngẫu nhiên khỏi hình ảnh, trong khi mã thông báo văn bản được cung cấp cho mô hình. Đối với mỗi mã thông báo, mô hình phải tìm hiểu xem văn bản đã cho có được che phủ hay không. Thông qua đó, mô hình có thể kết hợp thông tin từ cả phương thức hình ảnh và văn bản
So khớp hình ảnh văn bản: Mô hình được yêu cầu kiểm tra xem hình ảnh đã cho có tương ứng với văn bản đã cho hay không. Các mẫu âm tính được cung cấp dưới dạng hình ảnh sai hoặc không có phần nhúng hình ảnh nào được cung cấp. Điều này được thực hiện để đảm bảo mô hình tìm hiểu thêm về mối liên hệ giữa văn bản và hình ảnh.

Bằng cách sử dụng các phương pháp và nội dung nhúng mới này, mô hình có thể đạt được điểm F1 cao hơn trên hầu hết các tập dữ liệu thử nghiệm dưới dạng LayoutLM.

Dấu thời gian: 7 Tháng ba, 2022

Dấu thời gian: Tháng Hai 7, 2023

Được xuất bản lại bởi Plato

Gia công phần mềm Khoản phải trả là gì?

Hoàn tác hòa giải trong QuickBooks Online: Hướng dẫn dễ dàng

Sống sót sau ngày tận thế của Ngân hàng Thung lũng Silicon: Quản lý nhiều ngân hàng cho các công ty khởi nghiệp

Hướng dẫn tự động hóa quy trình làm việc & 5 phần mềm quy trình làm việc tốt nhất cho năm 2022

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản