Cách trích xuất văn bản hoặc dữ liệu từ hình ảnh

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trích xuất văn bản từ một hình ảnh có thể là một quá trình phức tạp. Hầu hết mọi người nhập văn bản / dữ liệu từ hình ảnh theo cách thủ công; nhưng việc này vừa tốn thời gian vừa không hiệu quả khi bạn có rất nhiều hình ảnh cần xử lý.

Trình chuyển đổi hình ảnh sang văn bản cung cấp một cách gọn gàng để trích xuất văn bản từ hình ảnh.

Mặc dù các công cụ như vậy hoạt động tốt, nhưng văn bản / dữ liệu được trích xuất thường được trình bày theo cách không có cấu trúc dẫn đến việc xử lý nhiều bài đăng.

An OCR do AI điều khiển như Nanonet có thể kéo văn bản từ hình ảnh và trình bày dữ liệu trích xuất một cách gọn gàng, có tổ chức và có cấu trúc.

Nanonet trích xuất dữ liệu từ hình ảnh một cách chính xác, ở quy mô lớn và bằng nhiều ngôn ngữ. Nanonets là OCR nhận dạng văn bản duy nhất trình bày văn bản được trích xuất ở các định dạng có cấu trúc gọn gàng và hoàn toàn có thể tùy chỉnh. Dữ liệu đã chụp có thể được trình bày dưới dạng bảng, mục hàng hoặc bất kỳ định dạng nào khác.

Nhấp để tải lên hình ảnh của bạn bên dưới
OCR của Nanonets tự động nhận dạng nội dung trong tệp của bạn và chuyển nó thành văn bản
Tải xuống văn bản được trích xuất dưới dạng tệp văn bản thô hoặc tích hợp qua API

Mục lục

Dưới đây là ba phương pháp nâng cao mà bạn có thể sử dụng Nanonets OCR để phát hiện và trích xuất văn bản từ hình ảnh, trích xuất văn bản từ PDFs, trích xuất dữ liệu từ PDFs hoặc phân tích cú pháp PDF và các loại tài liệu khác:

Trích xuất văn bản từ hình ảnh bằng Nanonet

Cần một OCR trực tuyến miễn phí cho hình ảnh thành văn bản, PDF sang bảng, PDF thành văn bản, hoặc là Trích xuất dữ liệu PDF? Kiểm tra Nanonet trực tuyến API OCR đang hoạt động và bắt đầu xây dựng các mô hình OCR tùy chỉnh miễn phí!

Nanonet có các mô hình OCR được đào tạo trước cho các loại hình ảnh cụ thể được liệt kê bên dưới. Mỗi mô hình OCR được đào tạo trước được đào tạo để liên hệ chính xác văn bản trong loại hình ảnh với một trường thích hợp như tên, địa chỉ, ngày tháng, thời hạn sử dụng, v.v. và trình bày văn bản được trích xuất một cách gọn gàng và có tổ chức.

Hoá đơn
Tiền thu
Giấy phép lái xe (Mỹ)
Hộ chiếu

Ống nano API OCR & OCR trực tuyến có nhiều điều thú vị trường hợp sử dụng.

[Nhúng nội dung]

Nanonet trích xuất văn bản từ hình ảnh của biên lai

Bước 1: Chọn một mô hình OCR thích hợp

Đăng nhập vào Nanonets và chọn một mô hình OCR phù hợp với hình ảnh mà bạn muốn trích xuất văn bản và dữ liệu. Nếu không có mô hình OCR nào được đào tạo trước phù hợp với yêu cầu của bạn, bạn có thể bỏ qua phần tiếp theo để tìm hiểu cách tạo mô hình OCR tùy chỉnh.

Bước 2: Thêm tệp

Thêm các tệp / hình ảnh mà bạn muốn trích xuất văn bản. Bạn có thể thêm bao nhiêu hình ảnh tùy thích.

Bước 3: Kiểm tra

Chờ một vài giây để mô hình chạy và trích xuất văn bản từ hình ảnh.

Bước 4: Xác minh

Nhanh chóng xác minh văn bản được trích xuất từ mỗi tệp, bằng cách kiểm tra chế độ xem bảng ở bên phải. Bạn có thể dễ dàng kiểm tra lại xem văn bản đã được nhận dạng chính xác và khớp với một trường hoặc thẻ thích hợp hay chưa.

Bạn thậm chí có thể chọn chỉnh sửa / sửa các giá trị trường và nhãn ở giai đoạn này. Nanonet không bị ràng buộc bởi khuôn mẫu của hình ảnh.

Chỉnh sửa văn bản hoặc dữ liệu được trích xuất

Dữ liệu được trích xuất có thể được hiển thị ở định dạng “Chế độ xem danh sách” hoặc “JSON”.

Cách trích xuất văn bản hoặc dữ liệu từ hình ảnh PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. — Văn bản được trích xuất được hiển thị dưới dạng danh sách hoặc đầu ra JSON

Bạn có thể đánh dấu vào hộp kiểm bên cạnh mỗi giá trị hoặc trường bạn xác minh hoặc nhấp vào “Xác minh dữ liệu” để tiếp tục ngay lập tức.

Bước 5: Xuất

Khi tất cả các tệp đã được xác minh. Bạn có thể xuất dữ liệu được sắp xếp gọn gàng dưới dạng tệp xml, xlsx hoặc csv.

Nanonet có thú vị trường hợp sử dụng và độc đáo câu chuyện thành công của khách hàng. Tìm hiểu cách Nanonet có thể thúc đẩy doanh nghiệp của bạn hoạt động hiệu quả hơn.

Dễ dàng xây dựng mô hình OCR tùy chỉnh với Nanonet. Thông thường, bạn có thể xây dựng, đào tạo và triển khai một mô hình cho bất kỳ loại hình ảnh hoặc tài liệu nào, bằng bất kỳ ngôn ngữ nào, tất cả trong vòng dưới 25 phút (tùy thuộc vào số lượng tệp được sử dụng để đào tạo mô hình).

Xem video dưới đây để làm theo 4 bước đầu tiên trong phương pháp này:

[Nhúng nội dung]

Cách đào tạo mô hình OCR của riêng bạn với Nanonet

Bước 1: Tạo mô hình OCR của riêng bạn

Đăng nhập vào Nanonets và nhấp vào “Tạo mô hình OCR của riêng bạn”.

Bước 2: Tải lên tệp / hình ảnh đào tạo

Tải lên các tệp mẫu sẽ được sử dụng để đào tạo các mô hình OCR. Độ chính xác của mô hình OCR mà bạn xây dựng sẽ phụ thuộc phần lớn vào chất lượng và số lượng của các tệp / hình ảnh được tải lên ở giai đoạn này

Bước 3: Chú thích văn bản trên tệp / hình ảnh

Bây giờ chú thích từng đoạn văn bản hoặc dữ liệu bằng một trường hoặc nhãn thích hợp. Bước quan trọng này sẽ dạy mô hình OCR của bạn trích xuất văn bản thích hợp từ hình ảnh và liên kết nó với các trường tùy chỉnh có liên quan đến nhu cầu của bạn.

Bạn cũng có thể thêm nhãn mới để chú thích văn bản hoặc dữ liệu. Hãy nhớ rằng, Nanonet không bị ràng buộc bởi khuôn mẫu của hình ảnh!

Bước 4: Đào tạo mô hình OCR tùy chỉnh

Sau khi hoàn thành chú thích cho tất cả các tệp / hình ảnh đào tạo, hãy nhấp vào “Mô hình đào tạo”. Việc đào tạo thường mất từ 20 phút đến 2 giờ tùy thuộc vào số lượng tệp và mô hình xếp hàng để đào tạo. Bạn có thể nâng cấp sang gói trả phí để nhận được kết quả nhanh hơn ở giai đoạn này (thường dưới 20 phút).

Nanonet thúc đẩy học sâu để xây dựng các mô hình OCR khác nhau và kiểm tra độ chính xác của chúng với nhau. Nanonet sau đó sẽ chọn ra mô hình OCR tốt nhất (dựa trên đầu vào và mức độ chính xác của bạn).

Tab “Số liệu Mô hình” hiển thị các phép đo và phân tích so sánh khác nhau cho phép Nanonet chọn mô hình OCR tốt nhất trong số tất cả những gì đã được xây dựng. Bạn có thể đào tạo lại mô hình (bằng cách cung cấp nhiều hình ảnh đào tạo hơn và chú thích tốt hơn) để đạt được mức độ chính xác cao hơn.

Hoặc, nếu bạn hài lòng với độ chính xác, hãy nhấp vào “Kiểm tra” để kiểm tra và xác minh xem mô hình OCR tùy chỉnh này có hoạt động như mong đợi trên một mẫu hình ảnh hoặc tệp mà văn bản / dữ liệu cần được trích xuất hay không.

Bước 5: Kiểm tra và xác minh dữ liệu

Thêm một vài hình ảnh mẫu để kiểm tra và xác minh mô hình OCR tùy chỉnh.

Xác minh tính chính xác của văn bản được trích xuất — Kiểm tra và xác minh tính chính xác của văn bản được trích xuất

Nếu văn bản đã được nhận dạng, trích xuất và trình bày phù hợp thì xuất tệp. Như bạn có thể thấy bên dưới, dữ liệu trích xuất đã được sắp xếp và trình bày ở một định dạng gọn gàng.

Xin chúc mừng, bạn hiện đã xây dựng và đào tạo một mô hình OCR tùy chỉnh để trích xuất văn bản từ một số loại hình ảnh nhất định!

Doanh nghiệp của bạn có giải quyết vấn đề nhận dạng văn bản trong tài liệu kỹ thuật số, hình ảnh hoặc PDF không? Bạn đã tự hỏi làm thế nào để trích xuất văn bản từ hình ảnh một cách chính xác?

Đào tạo các mô hình OCR của riêng bạn với API NanoNets

Dưới đây là một hướng dẫn chi tiết để đào tạo các mô hình OCR của riêng bạn bằng cách sử dụng API Nanonets. Trong tài liệu hướng dẫn, bạn sẽ thấy sẵn sàng kích hoạt các mẫu mã bằng Python, Shell, Ruby, Golang, Java và C #, cũng như các thông số kỹ thuật API chi tiết cho các điểm cuối khác nhau.

Dưới đây là hướng dẫn từng bước để đào tạo mô hình của riêng bạn bằng cách sử dụng API Nanonets:

Bước 1: Sao chép Repo

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

Bước 2: Nhận Khóa API miễn phí của bạn

Nhận Khóa API miễn phí của bạn từ https://app.nanonets.com/#/keys

Bước 3: Đặt khóa API làm Biến môi trường

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

Bước 4: Tạo mô hình mới

python ./code/create-model.py

Lưu ý: Điều này tạo ra MODEL_ID mà bạn cần cho bước tiếp theo

Bước 5: Thêm Id mẫu làm biến môi trường

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Bước 6: Tải lên dữ liệu đào tạo

Thu thập hình ảnh của đối tượng bạn muốn phát hiện. Một khi bạn đã có sẵn dữ liệu trong thư mục images (tệp hình ảnh), bắt đầu tải lên tập dữ liệu.

python ./code/upload-training.py

Bước 7: Mô hình tàu hỏa

Khi Hình ảnh đã được tải lên, hãy bắt đầu đào tạo Mô hình

python ./code/train-model.py

Bước 8: Lấy trạng thái mẫu

Mô hình mất ~ 30 phút để đào tạo. Bạn sẽ nhận được email khi mô hình được đào tạo. Trong khi đó, bạn kiểm tra trạng thái của mô hình

watch -n 100 python ./code/model-state.py

Bước 9: Đưa ra dự đoán

Một khi mô hình được đào tạo. Bạn có thể đưa ra dự đoán bằng mô hình

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Lợi ích của việc sử dụng Nanonet so với các API OCR khác không chỉ là độ chính xác tốt hơn liên quan đến việc trích xuất văn bản từ hình ảnh. Dưới đây là 7 lý do tại sao bạn nên cân nhắc sử dụng Nanonets OCR để nhận dạng văn bản thay thế:

1. Làm việc với dữ liệu tùy chỉnh

Hầu hết các phần mềm OCR đều khá khắt khe về loại dữ liệu mà chúng có thể làm việc. Việc đào tạo một mô hình OCR cho một trường hợp sử dụng đòi hỏi một mức độ linh hoạt lớn đối với các yêu cầu và thông số kỹ thuật của nó; OCR để xử lý hóa đơn sẽ khác rất nhiều so với OCR dành cho hộ chiếu! Nanonet không bị ràng buộc bởi những giới hạn cứng nhắc như vậy. Nanonet sử dụng dữ liệu của riêng bạn để đào tạo các mô hình OCR phù hợp nhất để đáp ứng các nhu cầu cụ thể của doanh nghiệp bạn.

2. Làm việc với những ngôn ngữ không phải tiếng Anh hoặc nhiều ngôn ngữ khác nhau

Vì Nanonets tập trung vào đào tạo với dữ liệu tùy chỉnh, nó được đặt duy nhất để xây dựng một mô hình OCR duy nhất có thể trích xuất văn bản từ hình ảnh bằng bất kỳ ngôn ngữ nào hoặc nhiều ngôn ngữ cùng một lúc.

3. Không yêu cầu xử lý hậu kỳ

Văn bản được trích xuất bằng các mô hình OCR cần được cấu trúc thông minh và trình bày ở định dạng dễ hiểu; nếu không thì thời gian và nguồn lực đáng kể dành cho việc sắp xếp lại dữ liệu thành thông tin có ý nghĩa. Trong khi hầu hết các công cụ OCR chỉ đơn giản lấy và kết xuất dữ liệu từ hình ảnh, Nanonet chỉ trích xuất dữ liệu có liên quan và tự động sắp xếp chúng thành các trường có cấu trúc thông minh giúp dễ xem và hiểu hơn.

4. Học liên tục

Các doanh nghiệp thường phải đối mặt với các yêu cầu và nhu cầu thay đổi năng động. Để vượt qua những rào cản tiềm năng, Nanonets cho phép bạn dễ dàng đào tạo lại các mô hình của mình với dữ liệu mới. Điều này cho phép mô hình OCR của bạn thích ứng với những thay đổi không lường trước được.

5. Xử lý các ràng buộc dữ liệu chung một cách dễ dàng

Nanonet tận dụng các kỹ thuật AI, ML & Deep Learning để vượt qua các hạn chế dữ liệu phổ biến ảnh hưởng lớn đến nhận dạng và trích xuất văn bản. Nanonet OCR có thể nhận dạng và xử lý văn bản viết tay, hình ảnh của văn bản bằng nhiều ngôn ngữ cùng một lúc, hình ảnh có độ phân giải thấp, hình ảnh có phông chữ mới hoặc chữ thảo và các kích thước khác nhau, hình ảnh có văn bản bóng, văn bản nghiêng, văn bản không có cấu trúc ngẫu nhiên, nhiễu hình ảnh, hình ảnh mờ và nhiều hơn nữa. Các API OCR truyền thống không được trang bị để thực hiện theo các ràng buộc như vậy; chúng yêu cầu dữ liệu ở mức độ trung thực rất cao, đây không phải là tiêu chuẩn trong các tình huống thực tế.

6. Không yêu cầu nhóm nhà phát triển nội bộ

Không cần phải lo lắng về việc thuê các nhà phát triển và có được tài năng để cá nhân hóa Nanonets API cho các yêu cầu kinh doanh của bạn. Nanonet được xây dựng để tích hợp dễ dàng. Bạn cũng có thể dễ dàng tích hợp Nanonet với hầu hết các phần mềm CRM, ERP hoặc RPA.

7. Tùy chỉnh, tùy chỉnh, tùy chỉnh

Bạn có thể nắm bắt nhiều trường văn bản / dữ liệu mà bạn thích với Nanonets OCR. Bạn thậm chí có thể xây dựng các quy tắc xác thực tùy chỉnh hoạt động cho các yêu cầu trích xuất văn bản và nhận dạng văn bản cụ thể của bạn. Nanonet hoàn toàn không bị ràng buộc bởi mẫu tài liệu của bạn. Bạn có thể nắm bắt dữ liệu trong bảng hoặc mục hàng hoặc bất kỳ định dạng nào khác!

Nanonet có nhiều trường hợp sử dụng có thể tối ưu hóa hiệu suất kinh doanh của bạn, tiết kiệm chi phí và thúc đẩy tăng trưởng. Tìm ra cách các trường hợp sử dụng của Nanonets có thể áp dụng cho sản phẩm của bạn.

Hoặc kiểm tra Ống nano API OCR hành động và bắt đầu xây dựng tùy chỉnh OCR mô hình miễn phí!

Cập nhật Tháng Bảy 2022: bài đăng này ban đầu được xuất bản trong Tháng Mười 2020 và đã được cập nhật thường xuyên.

Đây là một trang trình bày tóm tắt những phát hiện trong bài báo này. Đây là một phiên bản thay thế của bài đăng này.

Dấu thời gian: 17 Tháng Bảy, 202218 Tháng Bảy, 2022

Dấu thời gian: Tháng Tư 10, 2023