Як витягнути текст або дані із зображення

Перевидано Платоном

читають: 0

Вилучення тексту із зображення може бути громіздким процесом. Більшість людей вручну вводять текст/дані із зображення; але це забирає багато часу та неефективно, коли у вас є багато зображень.

Перетворювачі зображення в текст пропонують зручний спосіб вилучення тексту із зображень.

Хоча такі інструменти добре справляються зі своєю роботою, витягнутий текст/дані часто представлені в неструктурованому вигляді, що призводить до великої кількості постобробки.

An OCR на основі AI як Nanonets, можна отримувати текст із зображень і представляти витягнуті дані в охайному, організованому та структурованому вигляді.

Nanonets витягує дані із зображень точно, у масштабі та кількома мовами. Nanonets — це єдиний OCR для розпізнавання тексту, який представляє витягнутий текст у чітко структурованих форматах, які можна повністю налаштувати. Зібрані дані можуть бути представлені у вигляді таблиць, рядків або в будь-якому іншому форматі.

Натисніть, щоб завантажити зображення нижче
OCR Nanonets автоматично розпізнає вміст вашого файлу та перетворює його в текст
Завантажте видобутий текст як необроблений текстовий файл або інтегруйте через API

Зміст

Ось три розширені методи, за допомогою яких ви можете використовувати Nanonets OCR для виявлення та вилучення тексту з зображень, витягнути текст із PDF-файлуs, витягти дані з PDFи або аналізувати PDF -файли та інші види документів:

Вилучення тексту із зображення за допомогою Nanonets

Потрібна безкоштовна онлайн -розпізнавання для зображення до тексту, PDF у таблицю, PDF у текстабо Витяг даних PDF? Перевірте Nanonets онлайн API OCR в дії та почніть створювати власні моделі OCR безкоштовно!

Nanonets має попередньо підготовлені моделі OCR для конкретних типів зображень, перелічених нижче. Кожна попередньо навчена модель OCR навчена точно пов’язувати текст у типі зображення з відповідним полем, таким як ім’я, адреса, дата, термін дії тощо, і представляти вилучений текст акуратно та впорядковано.

Рахунки
Надходження
Посвідчення водія (США)
Паспорти

Нанонети онлайн OCR та OCR API є багато цікавого випадки використання.

[Вбудоване вміст]

Наномережі, що витягують текст із зображень квитанцій

Крок 1. Виберіть відповідну модель OCR

Увійти до Nanonets і виберіть модель OCR, яка відповідає зображенню, з якого ви хочете витягти текст і дані. Якщо жодна з попередньо навчених моделей оптичного розпізнавання символів не відповідає вашим вимогам, ви можете пропустити вперед, щоб дізнатися, як створити спеціальну модель розпізнавання символів.

Крок 2: Додайте файли

Додайте файли/зображення, з яких потрібно витягти текст. Ви можете додати скільки завгодно зображень.

Крок 3: тест

Зачекайте кілька секунд, поки модель запуститься та витягне текст із зображення.

Крок 4: Перевірте

Швидко перевірте текст, витягнутий з кожного файлу, перевіривши вигляд таблиці праворуч. Ви можете легко ще раз перевірити, чи текст було правильно розпізнано та зіставлено з відповідним полем або тегом.

На цьому етапі ви навіть можете редагувати/виправляти значення полів і мітки. Наномережі не прив'язані до шаблону зображення.

Видобуті дані можна відобразити у форматі «Перегляд списку» або «JSON».

Як витягти текст або дані із зображення PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. — Витягнутий текст відображається як список або вихідні дані JSON

Ви можете поставити прапорець біля кожного значення чи поля, яке ви перевіряєте, або натиснути «Перевірити дані», щоб продовжити негайно.

Крок 5: Експорт

Після перевірки всіх файлів. Ви можете експортувати акуратно організовані дані як файли xml, xlsx або csv.

Нанонець має цікаве випадки використання та унікальний історії успіху клієнтів. Дізнайтесь, як Nanonets може підвищити продуктивність вашого бізнесу.

Побудувати спеціальну модель OCR за допомогою Nanonets легко. Зазвичай ви можете створити, навчити та розгорнути модель будь-якого типу зображення чи документа будь-якою мовою менш ніж за 25 хвилин (залежно від кількості файлів, використаних для навчання моделі).

Перегляньте відео нижче, щоб виконати перші 4 кроки цього методу:

[Вбудоване вміст]

Як навчити власну модель OCR за допомогою Nanonets

Крок 1: Створіть власну модель OCR

Увійти до Nanonets і натисніть «Створити власну модель OCR».

Крок 2: Завантажте навчальні файли/зображення

Завантажте зразки файлів, які використовуватимуться для навчання моделей OCR. Точність моделі OCR, яку ви створите, значною мірою залежатиме від якості та кількості файлів/зображень, завантажених на цьому етапі

Крок 3: Додайте анотації до тексту файлів/зображень

Тепер призначте кожен фрагмент тексту або даних відповідним полем або міткою. Цей важливий крок навчить вашу модель OCR витягувати відповідний текст із зображень і пов’язувати його з настроюваними полями, які відповідають вашим потребам.

Ви також можете додати нову мітку, щоб анотувати текст або дані. Пам'ятайте, Nanonets не прив'язаний до шаблону зображення!

Крок 4: Навчіть спеціальну модель OCR

Після завершення анотації для всіх навчальних файлів/зображень натисніть «Навчити модель». Навчання зазвичай займає від 20 хвилин до 2 годин залежно від кількості файлів і моделей у черзі для навчання. Ти можеш модернізація на платний план, щоб отримати швидші результати на цьому етапі (зазвичай менше 20 хвилин).

Nanonets використовує глибоке навчання для створення різних моделей оптичного розпізнавання символів і перевіряє їх одна на одну на точність. Потім Nanonets вибирає найкращу модель OCR (на основі ваших даних і рівнів точності).

Вкладка «Показники моделі» показує різні вимірювання та порівняльний аналіз, які дозволили Nanonets вибрати найкращу модель OCR серед усіх створених. Ви можете перенавчати модель (шляхом надання ширшого діапазону навчальних зображень і кращої анотації), щоб досягти більш високого рівня точності.

Або, якщо ви задоволені точністю, натисніть «Тестувати», щоб перевірити та перевірити, чи ця спеціальна модель OCR працює належним чином на зразках зображень або файлів, з яких потрібно витягти текст/дані.

Крок 5: Перевірка та перевірка даних

Додайте пару зразків зображень, щоб протестувати та перевірити спеціальну модель OCR.

Перевірте правильність виділеного тексту — Перевірте та перевірте точність вилученого тексту

Якщо текст було розпізнано, вилучено та представлено належним чином, експортуйте файл. Як ви бачите нижче, отримані дані впорядковано та представлено в акуратному форматі.

Вітаємо, тепер ви створили та навчили спеціальну модель OCR для вилучення тексту з певних типів зображень!

Чи займається ваш бізнес розпізнаванням тексту в цифрових документах, зображеннях або PDF-файлах? Ви замислювалися, як точно витягти текст із зображень?

Навчіть власні моделі OCR за допомогою NanoNets API

Ось детальний посібник з поїздів ваші власні моделі OCR за допомогою API Nanonets, в документація, Ви знайдете готові до запуску зразки коду на Python, Shell, Ruby, Golang, Java та C#, а також докладні специфікації API для різних кінцевих точок.

Ось покроковий посібник із навчання власної моделі за допомогою Nanonets API:

Крок 1: Клонуйте репо

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

Крок 2: Отримайте свій безкоштовний ключ API

Отримайте свій безкоштовний ключ API від https://app.nanonets.com/#/keys

Крок 3: Встановіть ключ API як змінну середовища

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

Крок 4: Створіть нову модель

python ./code/create-model.py

Примітка: Це генерує MODEL_ID, який вам потрібен для наступного кроку

Крок 5: Додайте ідентифікатор моделі як змінну середовища

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Крок 6: Завантажте дані навчання

Зберіть зображення об’єкта, який ви хочете виявити. Після того, як ви підготуєте набір даних у папці images (файли зображень), розпочніть завантаження набору даних.

python ./code/upload-training.py

Крок 7: Модель поїзда

Після завантаження зображень починайте навчати Модель

python ./code/train-model.py

Крок 8: Отримати стан моделі

Тренування моделі займає ~ 30 хвилин. Ви отримаєте електронний лист, коли модель пройде навчання. Тим часом ви перевіряєте стан моделі

watch -n 100 python ./code/model-state.py

Крок 9: Зробіть прогноз

Як тільки модель навчена. За допомогою моделі можна робити прогнози

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Переваги використання Nanonets перед іншими OCR API виходять за рамки просто кращої точності щодо вилучення тексту із зображень. Ось 7 причин, чому вам варто розглянути можливість використання Nanonets OCR для розпізнавання тексту:

1. Робота з користувальницькими даними

Більшість програм OCR досить жорсткі щодо типу даних, з якими вони можуть працювати. Навчання моделі OCR для сценарію використання вимагає значного ступеня гнучкості щодо її вимог і специфікацій; OCR для обробки рахунків-фактур значно відрізнятиметься від OCR для паспортів! Nanonets не пов'язаний такими жорсткими обмеженнями. Nanonets використовує ваші власні дані для підготовки моделей OCR, які найкраще підходять для задоволення конкретних потреб вашого бізнесу.

2. Робота з неанглійською або кількома мовами

Оскільки Nanonets зосереджується на навчанні з користувальницькими даними, це унікальне місце для створення єдиної моделі оптичного розпізнавання символів, яка може витягувати текст із зображень будь-якою мовою або кількома мовами одночасно.

3. Не потребує постобробки

Текст, отриманий за допомогою моделей OCR, має бути розумно структурований і представлений у зрозумілому форматі; інакше значний час і ресурси витрачаються на реорганізацію даних у значущу інформацію. У той час як більшість інструментів оптичного розпізнавання символів просто збирають і вивантажують дані із зображень, Nanonets витягує лише відповідні дані та автоматично сортує їх у інтелектуально структуровані поля, що полегшує перегляд і розуміння.

4. Вчиться безперервно

Підприємства часто стикаються з вимогами та потребами, що динамічно змінюються. Щоб подолати потенційні перешкоди, Nanonets дозволяє легко перенавчити свої моделі новими даними. Це дозволяє вашій моделі OCR адаптуватися до непередбачених змін.

5. Легко справляється з типовими обмеженнями даних

Наномережі використовують методи штучного інтелекту, машинного навчання та глибокого навчання, щоб подолати загальні обмеження даних, які значною мірою впливають на розпізнавання та вилучення тексту. Nanonets OCR може розпізнавати та обробляти рукописний текст, зображення тексту кількома мовами одночасно, зображення з низькою роздільною здатністю, зображення з новими або курсивними шрифтами та різними розмірами, зображення з тіньовим текстом, текст під нахилом, випадковий неструктурований текст, шум зображення, розмиті зображення і більше. Традиційні OCR API просто не обладнані для роботи за таких обмежень; їм потрібні дані з дуже високим рівнем точності, що не є нормою в реальних сценаріях життя.

6. Не вимагає внутрішньої команди розробників

Немає необхідності турбуватися про наймання розробників і залучення талантів, щоб персоналізувати Nanonets API для потреб вашого бізнесу. Nanonets створено для легкої інтеграції. Ви також можете легко інтегрувати Nanonets з більшістю програм CRM, ERP або RPA.

7. Налаштувати, налаштувати, налаштувати

За допомогою Nanonets OCR ви можете захопити скільки завгодно полів тексту/даних. Ви навіть можете створювати власні правила перевірки, які відповідатимуть вашим конкретним вимогам щодо розпізнавання та вилучення тексту. Nanonets взагалі не пов’язаний із шаблоном вашого документа. Ви можете отримувати дані в таблицях, рядках або будь-якому іншому форматі!

Nanonets має багато варіантів використання, які можуть оптимізувати ефективність вашого бізнесу, заощадити витрати та прискорити зростання. Дізнайся як приклади використання Nanonets можуть застосовуватися до вашого продукту.

Або перевірити Нанонети API OCR у дії та почніть будувати користувацькі OCR моделі безкоштовно!

Оновити липень 2022: ця публікація була спочатку опублікована в жовтень 2020 і з тих пір оновлено регулярно.

Ось слайд підсумовуючи висновки в цій статті. Ось альтернативна версія цього допису.

Часова мітка: Липень 17, 2022Липень 18, 2022

Часова мітка: Квітень 10, 2023