Как извлечь текст или данные из изображения

Переиздано Платоном

Читают: 0

Извлечение текста из изображения может быть трудоемким процессом. Большинство людей вручную вводят текст/данные с изображения; но это отнимает много времени и неэффективно, когда у вас много изображений.

Преобразователи изображений в текст предлагают аккуратный способ извлечения текста из изображений.

Хотя такие инструменты хорошо справляются со своей задачей, извлеченный текст/данные часто представляются в неструктурированном виде, что приводит к большому объему постобработки.

An OCR на основе ИИ Например, Nanonets может извлекать текст из изображений и представлять извлеченные данные в аккуратном, организованном и структурированном виде.

Nanonets извлекает данные из изображений точно, в масштабе и на нескольких языках. Nanonets — это единственное OCR для распознавания текста, которое представляет извлеченный текст в аккуратно структурированных форматах, которые полностью настраиваются. Собранные данные могут быть представлены в виде таблиц, строк или в любом другом формате.

Нажмите, чтобы загрузить свое изображение ниже
OCR Nanonets автоматически распознает содержимое вашего файла и преобразует его в текст.
Загрузите извлеченный текст в виде необработанного текстового файла или интегрируйте через API

Содержание

Вот три продвинутых метода, в которых вы можете использовать Nanonets OCR для обнаружения и извлечения текста из изображений, извлечь текст из PDFs, извлекать данные из PDFс или анализировать PDF-файлы и другие типы документов:

Извлечение текста из изображения с помощью Nanonets

Требуется бесплатное онлайн-распознавание текста для изображение в текст, PDF в таблицу, PDF в текстили Извлечение данных PDF? Проверьте Nanonets онлайн API распознавания текста в действии и начните создавать собственные модели OCR бесплатно!

Nanonets имеет предварительно обученные модели OCR для определенных типов изображений, перечисленных ниже. Каждая предварительно обученная модель OCR обучена точно соотносить текст в типе изображения с соответствующим полем, таким как имя, адрес, дата, срок действия и т. д., и представлять извлеченный текст в аккуратном и организованном виде.

Счета
денежные поступления
Водительское удостоверение (США)
Паспорта

Нанонеты онлайн OCR и OCR API есть много интересного случаи использования.

[Встраиваемое содержимое]

Наносети извлекают текст из изображений чеков

Шаг 1. Выберите подходящую модель OCR

Логин на Nanonets и выберите модель OCR, соответствующую изображению, из которого вы хотите извлечь текст и данные. Если ни одна из предварительно обученных моделей OCR не соответствует вашим требованиям, вы можете пропустить ее и узнать, как создать пользовательскую модель OCR.

Шаг 2: Добавить файлы

Добавьте файлы/изображения, из которых вы хотите извлечь текст. Вы можете добавить столько изображений, сколько захотите.

Шаг 3: Тест

Подождите несколько секунд, пока модель запустится и извлечет текст из изображения.

Шаг 4. Проверьте

Быстро проверьте текст, извлеченный из каждого файла, проверив табличное представление справа. Вы можете легко перепроверить, правильно ли был распознан текст и сопоставлен ли он с соответствующим полем или тегом.

На этом этапе вы даже можете отредактировать/исправить значения полей и метки. Нанонет не привязан к шаблону изображения.

Редактировать извлеченный текст или данные

Извлеченные данные могут отображаться в формате «Список» или «JSON».

Как извлечь текст или данные из изображения PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. — Извлеченный текст отображается в виде списка или вывода JSON.

Вы можете установить флажок рядом с каждым значением или полем, которое вы проверяете, или нажать «Проверить данные», чтобы продолжить немедленно.

Шаг 5: Экспорт

После проверки всех файлов. Вы можете экспортировать аккуратно организованные данные в виде файла xml, xlsx или csv.

Нанонец имеет интересные случаи использования и уникальный истории успеха клиентов. Узнайте, как Nanonets могут сделать ваш бизнес более продуктивным.

Создать пользовательскую модель OCR с помощью Nanonets очень просто. Как правило, вы можете построить, обучить и развернуть модель для любого типа изображения или документа на любом языке менее чем за 25 минут (в зависимости от количества файлов, используемых для обучения модели).

Посмотрите видео ниже, чтобы выполнить первые 4 шага этого метода:

[Встраиваемое содержимое]

Как обучить вашу собственную модель OCR с помощью нанонеток

Шаг 1. Создайте собственную модель OCR.

Логин в Nanonets и нажмите «Создать собственную модель OCR».

Шаг 2. Загрузите учебные файлы/изображения

Загрузите образцы файлов, которые будут использоваться для обучения моделей OCR. Точность созданной вами модели OCR во многом будет зависеть от качества и количества файлов/изображений, загруженных на этом этапе.

Шаг 3: Аннотируйте текст к файлам/изображениям

Теперь аннотируйте каждый фрагмент текста или данных соответствующим полем или меткой. Этот важный шаг научит вашу модель OCR извлекать соответствующий текст из изображений и связывать его с настраиваемыми полями, которые соответствуют вашим потребностям.

Вы также можете добавить новую метку, чтобы аннотировать текст или данные. Помните, Nanonets не привязан к шаблону изображения!

Шаг 4. Обучите пользовательскую модель OCR

После того, как аннотация будет завершена для всех учебных файлов/изображений, нажмите «Обучить модель». Обучение обычно занимает от 20 минут до 2 часов в зависимости от количества файлов и моделей в очереди на обучение. Вы можете модернизация на платный план, чтобы получить более быстрые результаты на этом этапе (обычно менее 20 минут).

Nanonets использует глубокое обучение для создания различных моделей OCR и проверки их точности друг на друга. Затем Nanonets выбирает лучшую модель OCR (на основе ваших входных данных и уровней точности).

На вкладке «Показатели модели» показаны различные измерения и сравнительный анализ, которые позволили Nanonets выбрать лучшую модель OCR среди всех построенных. Вы можете переобучить модель (предоставив более широкий диапазон обучающих изображений и улучшенные аннотации), чтобы достичь более высокого уровня точности.

Или, если вы удовлетворены точностью, нажмите «Тест», чтобы проверить и проверить, работает ли эта пользовательская модель OCR должным образом на образце изображений или файлов, из которых необходимо извлечь текст/данные.

Шаг 5. Протестируйте и проверьте данные

Добавьте пару образцов изображений, чтобы протестировать и проверить пользовательскую модель OCR.

Проверьте точность извлеченного текста — Тестируйте и проверяйте точность извлеченного текста

Если текст был распознан, извлечен и представлен надлежащим образом, экспортируйте файл. Как вы можете видеть ниже, извлеченные данные были организованы и представлены в аккуратном формате.

Аккуратно перечисленные экспортированные данные

Поздравляем, теперь вы создали и обучили пользовательскую модель OCR для извлечения текста из определенных типов изображений!

Ваш бизнес связан с распознаванием текста в цифровых документах, изображениях или PDF-файлах? Задумывались ли вы, как точно извлечь текст из изображений?

Обучайте собственные модели OCR с помощью NanoNets API

Вот подробное руководство по тренировке свои собственные модели OCR, используя Нанонец API. В документации, вы найдете готовые к запуску образцы кода на Python, Shell, Ruby, Golang, Java и C #, а также подробные спецификации API для различных конечных точек.

Вот пошаговое руководство по обучению собственной модели с помощью Nanonets API:

Шаг 1: клонировать репо

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

Шаг 2: Получите бесплатный ключ API

Получите ваш бесплатный ключ API от https://app.nanonets.com/#/keys

Шаг 3. Установите ключ API в качестве переменной среды

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

Шаг 4: Создайте новую модель

python ./code/create-model.py

Примечание: это генерирует MODEL_ID, который вам нужен для следующего шага

Шаг 5. Добавьте идентификатор модели в качестве переменной среды

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Шаг 6: Загрузить данные обучения

Соберите изображения объекта, который вы хотите обнаружить. Как только у вас есть готовый набор данных в папке images (файлы изображений), начните загрузку набора данных.

python ./code/upload-training.py

Шаг 7: Модель поезда

Как только изображения были загружены, начните обучение модели

python ./code/train-model.py

Шаг 8: Получить модельное состояние

На тренировку модели уходит ~ 30 минут. Вы получите электронное письмо, когда модель будет обучена. Тем временем вы проверяете состояние модели

watch -n 100 python ./code/model-state.py

Шаг 9: сделайте прогноз

После того, как модель обучена. Вы можете делать прогнозы, используя модель

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Преимущества использования Nanonets по сравнению с другими API-интерфейсами OCR выходят за рамки более высокой точности извлечения текста из изображений. Вот 7 причин, по которым вам следует рассмотреть возможность использования Nanonets OCR для распознавания текста:

1. Работа с пользовательскими данными

Большинство программ OCR довольно жестко относятся к типу данных, с которыми они могут работать. Обучение модели OCR для варианта использования требует большой степени гибкости в отношении ее требований и спецификаций; OCR для обработки счетов будет сильно отличаться от OCR для паспортов! Нанонеты не связаны такими жесткими ограничениями. Nanonets использует ваши собственные данные для обучения моделей OCR, которые лучше всего подходят для удовлетворения конкретных потребностей вашего бизнеса.

2. Работа с неанглийскими или несколькими языками

Поскольку Nanonets фокусируется на обучении с использованием пользовательских данных, он имеет уникальные возможности для создания единой модели OCR, которая может извлекать текст из изображений на любом языке или на нескольких языках одновременно.

3. Не требует постобработки

Текст, извлеченный с использованием моделей OCR, должен быть разумно структурирован и представлен в понятном формате; в противном случае значительное время и ресурсы тратятся на преобразование данных в значимую информацию. В то время как большинство OCR-инструментов просто захватывают и выгружают данные из изображений, Nanonets извлекает только нужные данные и автоматически сортирует их по полям с интеллектуальной структурой, упрощая просмотр и понимание.

4. Постоянно учится

Предприятия часто сталкиваются с динамично меняющимися требованиями и потребностями. Чтобы преодолеть потенциальные препятствия, Nanonets позволяет легко переобучить ваши модели с новыми данными. Это позволяет вашей модели OCR адаптироваться к непредвиденным изменениям.

5. Легко справляется с общими ограничениями данных

Nanonets использует методы искусственного интеллекта, машинного обучения и глубокого обучения для преодоления общих ограничений данных, которые сильно влияют на распознавание и извлечение текста. Nanonets OCR может распознавать и обрабатывать рукописный текст, изображения текста на нескольких языках одновременно, изображения с низким разрешением, изображения с новыми или курсивными шрифтами и различными размерами, изображения с затененным текстом, наклоненный текст, случайный неструктурированный текст, шум изображения, размытые изображения и более. Традиционные API-интерфейсы OCR просто не приспособлены для работы в таких условиях; им требуются данные с очень высоким уровнем точности, что не является нормой в сценариях реальной жизни.

6. Не требует штатной команды разработчиков

Не нужно беспокоиться о найме разработчиков и приобретении талантов для персонализации Nanonets API в соответствии с вашими бизнес-требованиями. Nanonets был создан для беспроблемной интеграции. Вы также можете легко интегрировать Nanonets с большинством программ CRM, ERP или RPA.

7. Настроить, настроить, настроить

Вы можете захватывать столько полей текста/данных, сколько хотите, с помощью Nanonets OCR. Вы даже можете создать собственные правила проверки, которые работают для ваших конкретных требований к распознаванию и извлечению текста. Nanonets вообще не привязан к шаблону вашего документа. Вы можете собирать данные в таблицах или отдельных позициях или в любом другом формате!

У Nanonets есть много вариантов использования, которые могут оптимизировать эффективность вашего бизнеса, сократить расходы и ускорить рост. Узнать как примеры использования Nanonets могут быть применены к вашему продукту.

Или проверить Нанонеты API распознавания текста в действии и начните создавать собственные OCR модели бесплатно!

Обновление ПО июль 2022: этот пост изначально был опубликован в окт 2020 и с тех пор был обновлен регулярно.

Вот слайд подведение итогов в этой статье. Вот альтернативная версия этого поста.

Отметка времени: Июль 17, 2022Июль 18, 2022

Отметка времени: 10 Апрель, 2023