Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Обробка зображень і обмежувальні рамки для OCR

Технології постійно розвиваються, як і ми. З появою штучного інтелекту та машинного навчання фокус змістився в бік автоматизації. З огляду на це, різні дисципліни інформатики вводяться для вивчення та вивчення застосування цих нових тенденцій.

Одним з таких прикладів є обробка зображення. Простою мовою це стосується дослідження зображень для отримання значущої інформації. Хоча для цього доступно кілька методів, найбільш часто використовуваним є: обмежувальні рамки.

У цьому блозі розглядаються різні аспекти обмежувальних рамок. Тут міститься інформація про те, що вони являють собою, як вони працюють під час обробки зображень, параметри, які їх визначають, конвенції, які їх визначають, загальні випадки використання, запобіжні заходи та найкращі практики тощо.

Давай поринемо

Обробка зображень означає виконання певних операцій із зображенням, щоб покращити його чи витягти певну цінну інформацію з пов’язаних із ним функцій чи атрибутів. Сьогодні обробка зображень є основною областю досліджень у галузі техніки та комп’ютерних технологій.

Обробку зображень можна виконувати двома методами – аналоговою обробкою зображень і цифровою обробкою зображень.

Аналогова обробка зображень передбачає використання друкованих копій роздруківок і фотографій для аналізу та обробки зображень. Аналітики зображень використовують різні методи для інтерпретації цих копій зображень і отримання значущих результатів.

Обробка цифрових зображень використовує цифрові зображення та інтерпретує їх за допомогою комп’ютера. Це підкатегорія цифрової обробки сигналів і використовує алгоритми для обробки цифрових зображень. Він забезпечує переваги перед аналоговою обробкою зображень, наприклад, алгоритми для запобігання шуму та спотворень під час обробки.

Обробка цифрових зображень має кілька застосувань у сферах медицини, виробництва, електронної комерції тощо.


Обмежувальні рамки в обробці зображень

На початку обмежувальна рамка – це уявна прямокутна рамка, яка містить об’єкт і набір точок даних. У контексті обробки цифрових зображень обмежувальна рамка позначає координати кордону на осях X і Y, які охоплюють зображення. Вони використовуються для ідентифікації цілі та служать орієнтиром для виявлення об’єкта та генерують поле зіткнення для об’єкта.

Що таке обмежувальні рамки?

Обмежувальні рамки є ключовими елементами та одним із основних інструментів обробки зображень для проектів відеоанотацій. По суті, обмежувальна рамка — це уявний прямокутник, який окреслює об’єкт на зображенні як частину вимоги проекту машинного навчання. Уявна прямокутна рамка охоплює об’єкт на зображенні.

Обмежувальні рамки вказують положення об’єкта, його клас і достовірність, яка вказує на ступінь ймовірності того, що об’єкт дійсно присутній у обмежувальній рамці.

Комп’ютерне бачення пропонує дивовижні програми – від безпілотних автомобілів до розпізнавання облич тощо. А це, у свою чергу, стає можливим завдяки обробці зображень.

Отже, чи обробка зображень така ж проста, як малювання прямокутників або візерунків навколо об’єктів? Ні. З огляду на це, що роблять обмежувальні рамки?

Давайте розберемося.

Як обмежувальні рамки працюють у обробці зображень?

Як згадувалося, обмежувальна рамка – це уявний прямокутник, який діє як контрольна точка для виявлення об’єкта та створює рамку зіткнення для об’єкта.

Отже, як це допомагає анотаторам даних? Що ж, професіонали використовують ідею обмежувальних рамок, щоб намалювати уявні прямокутники поверх зображень. Вони створюють контури відповідних об’єктів у кожному зображенні та визначають його координати X та Y. Це спрощує роботу алгоритмів машинного навчання, допомагаючи їм знаходити шляхи зіткнення тощо, заощаджуючи таким чином обчислювальні ресурси.

Наприклад, на наведеному нижче зображенні кожен транспортний засіб є ключовим об’єктом, позиція та розташування якого важливі для навчання моделей машинного навчання. Анотатори даних використовують техніку обмежувальних рамок, щоб намалювати прямокутники навколо кожного з цих об’єктів – транспортних засобів, у даному випадку.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: keymakr

Потім вони використовують координати, щоб зрозуміти положення та розташування кожного об’єкта, що корисно для навчання моделей машинного навчання. Одна обмежувальна рамка не забезпечує хорошу швидкість передбачення. Для покращеного виявлення об’єктів потрібно використовувати кілька обмежувальних рамок у поєднанні з методами доповнення даних.

Обмежувальні рамки – це високоефективні та надійні методи анотації зображень, які значно знижують витрати.

Параметри, що визначають обмежувальну рамку

Параметри базуються на умовах, які використовуються для визначення обмежувальної рамки. Ключові параметри, що використовуються, включають:

  • Клас: позначає об’єкт всередині обмежувальної рамки — наприклад, автомобілі, будинки, будівлі тощо.
  • (X1, Y1): Це відноситься до координат X і Y верхнього лівого кута прямокутника.
  • (X2, Y2): це стосується координат X і Y нижнього правого кута прямокутника.
  • (Xc, Yc): Це відноситься до координат X і Y центру обмежувальної рамки.
  • Ширина: позначає ширину обмежувальної рамки.
  • Висота: позначає висоту обмежувальної рамки.
  • Впевненість: це означає можливість перебування об’єкта в коробці. Скажімо, впевненість становить 0.9. Це означає, що з імовірністю 90% об’єкт дійсно буде присутній у коробці.

Умовні позначення, що визначають обмежувальну рамку

При вказівці обмежувальної рамки, як правило, потрібно включити дві основні угоди. Це:

  • Координати X і Y верхньої лівої та нижньої правої точок прямокутника.
  • Координати X і Y центру обмежувальної рамки, а також її ширина та висота.

Проілюструємо це на прикладі автомобіля.

a. Що стосується першої угоди, обмежувальна рамка визначається відповідно до координат верхньої лівої та нижньої правої точок.

джерело: AnalyticsVidhya

b. Що стосується другої угоди, обмежувальна рамка описується за координатами центру, шириною та висотою.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: AnalyticsVidhya

Залежно від варіанту використання можна конвертувати між різними типами угод.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Ширина = (X2 – X1)
  • Висота = (Y2 – Y1)

Обмежувальні прямокутники пояснюються програмним кодом

Давайте розглянемо ще один приклад розташування або положення об’єкта з фрагментами коду.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Ми завантажуємо зображення, яке буде використано для цієї ілюстрації. Ліворуч на зображенні собака, праворуч кіт. На зображенні два об’єкти – собака і кіт.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Давайте візьмемо x і y як координати для верхнього лівого та нижнього правого кутів обмежувальної рамки. Скажімо, (x1,y1) і (x2,y2). Подібним чином розглянемо координати осі (x,y) для центру обмежувальної рамки, а також її ширину та висоту.

Далі ми визначаємо дві функції для перетворення цих форм: box_corner_to_center перетворює представлення двох кутів у представлення висоти центру та ширини, а box_center_to_corner робить це навпаки.

Поля вхідних аргументів мають бути двовимірним тензором форми (n,4), де n — кількість обмежувальних прямокутників.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Далі визначимо обмежувальні рамки собаки та кота на зображенні на основі даних координат.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Щоб перевірити правильність функцій перетворення двох обмежувальних рамок, ми можемо перетворити двічі.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Далі ми можемо намалювати обмежувальні рамки об’єктів на зображенні, щоб перевірити, чи вони точні. Перед цим ми визначили функцію bbox_t_rect, яка представляє обмежувальну рамку у відповідному форматі пакета matplotlib.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Тепер, після додавання обмежувальних рамок об’єктів собаки та кота до зображення, ми бачимо, що основний контур цих об’єктів знаходиться всередині двох рамок.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: d2i


Хочете автоматизувати повторювані ручні завдання? Перевірте наше програмне забезпечення для обробки документів на основі робочого процесу Nanonets. Витягуйте дані з рахунків-фактур, посвідчень особи або будь-якого документа на автопілоті!


Загальні випадки використання обмежувальних рамок

Об'єктна локалізація самокерованих транспортних засобів

Обмежувальні рамки є невід’ємною частиною навчання самокерованих або автономних транспортних засобів ідентифікувати об’єкти на дорозі, як-от будівлі, сигнали світлофора, будь-які перешкоди тощо. Вони допомагають позначати будь-які перешкоди та дозволяють роботам безпечно керувати транспортним засобом і запобігати аваріям, навіть у разі заторів.

Зображення робототехніки

Методи анотації зображень, такі як обмежувальні рамки, широко використовуються для позначення точок зору роботів і дронів. Ці автономні транспортні засоби допомагають класифікувати об’єкти на землі за допомогою фотографій, отриманих за допомогою цього методу анотації.

Позначення зображень для електронної комерції та роздрібної торгівлі

Анотації обмежувальних рамок допомагають покращити візуалізацію продукту, що є великою перевагою в електронній комерції та роздрібній торгівлі. Моделі, які тренуються на схожих предметах, можуть коментувати такі об’єкти, як модний одяг, аксесуари, меблі, косметика тощо, точніше, якщо вони правильно позначені. Нижче наведено деякі з проблем, які вирішуються анотаціями обмежувальних рамок у роздрібній торгівлі.

  • Неправильні результати пошуку

Якщо пошук є єдиним способом, за допомогою якого клієнти можуть натрапити на сайт електронної комерції, то неправильні дані каталогу можуть призвести до неточних результатів пошуку, що не приверне трафік клієнтів до сайту.

  • Неорганізовані ланцюги поставок

Для тих, хто бажає розширити свій роздрібний бізнес, щоб мільйони продуктів могли поставлятися щорічно, стає вкрай важливою синхронізація офлайн- і онлайн-даних.

  • Безперервна оцифровка

Вкрай важливо систематично та швидко оцифровувати та маркувати всі продукти, щоб клієнти не пропустили нових можливостей. Крім того, теги повинні бути в контексті, дотримуватись якого стає важко, оскільки роздрібний бізнес розширюється та додається більше продуктів.

Виявляє втрату автомобіля для страхових випадків

Техніка обмежувальних рамок допомагає відстежувати автомобілі, велосипеди чи інші транспортні засоби, пошкоджені внаслідок аварії. Моделі машинного навчання використовують ці зображення з обмежувальних рамок, щоб зрозуміти положення та інтенсивність втрат. Це допомагає спрогнозувати вартість понесених збитків, на основі якої клієнти можуть представити свою оцінку перед подачею позову.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: Суперанотація

Виявлення внутрішніх предметів

Обмежувальні рамки допомагають комп’ютерам виявляти предмети в приміщенні, як-от ліжка, дивани, столи, шафи чи електроприлади. Це дозволяє комп’ютерам отримати відчуття простору та типів присутніх об’єктів, їхніх розмірів і розташування. Це, у свою чергу, допомагає моделям машинного навчання ідентифікувати ці елементи в реальній ситуації.

Обмежувальні рамки широко використовуються у фотографіях як інструмент глибокого навчання для розуміння та інтерпретації різних видів об’єктів.

Ідентифікація хвороб і росту рослин у сільському господарстві

Раннє виявлення захворювань рослин допомагає фермерам запобігти серйозним збиткам. З появою розумного землеробства проблема полягає в навчанні даних, щоб навчити моделі машинного навчання виявляти хвороби рослин. Обмежувальні рамки є основним рушієм, який забезпечує необхідне бачення для машин.

Обробна промисловість

Виявлення об’єктів і ідентифікація предметів у промисловості є важливим аспектом виробництва. З роботами та комп’ютерами з підтримкою ШІ роль ручного втручання зменшується. Тим не менш, обмежувальні рамки відіграють вирішальну роль, допомагаючи навчити моделі машинного навчання знаходити та виявляти промислові компоненти. Крім того, такі процеси, як контроль якості, сортування та конвеєрні операції, які є частиною управління якістю, потребують виявлення об’єктів.

Медична візуалізація

Обмежувальні рамки також знаходять застосування в галузі охорони здоров’я, наприклад у медичній візуалізації. Техніка медичної візуалізації пов’язана з виявленням анатомічних об’єктів, таких як серце, і вимагає швидкого та точного аналізу. Обмежувальні рамки можна використовувати для навчання моделей машинного навчання, які потім зможуть швидко й точно виявляти серце чи інші органи.

Автоматизовані камери відеоспостереження

Автоматичне відеоспостереження є обов’язковим у більшості житлових, комерційних та інших закладів. Часто для тривалого зберігання записів камер відеоспостереження потрібен великий обсяг пам’яті. За допомогою методів виявлення об’єктів, таких як обмежувальні рамки, можна гарантувати, що відзнятий матеріал записуватиметься лише тоді, коли визначено певні об’єкти. Обмежувальні рамки можуть навчити моделі машинного навчання, які виявлятимуть лише ті об’єкти, і в цей момент кадри можна буде зняти. Це також допоможе мінімізувати обсяг пам’яті, необхідний для систем відеоспостереження, і знизити витрати.

Розпізнавання та виявлення облич

Розпізнавання обличчя пропонує багато застосувань, наприклад, воно використовується в біометричному стеження. Крім того, різні установи, такі як банки, аеропорти, роздрібні магазини, стадіони та інші установи, використовують розпізнавання облич для запобігання злочинам і насильству. Тим не менш, розпізнавання обличчя є важливим елементом комп’ютерного зору, який включає обробку зображень. І тут знову обмежувальні рамки можна використовувати як ефективний інструмент для розпізнавання символів.


Хочете використовувати роботизовану автоматизацію процесів? Ознайомтеся з програмним забезпеченням для обробки документів на основі робочого процесу Nanonets. Без коду. Платформа без проблем.


Обмежувальні рамки для розпізнавання символів

Виявлення об’єктів включає – класифікацію зображення та локалізацію об’єкта. Це означає, що комп’ютер, щоб виявити об’єкт, повинен знати, що це за об’єкт і де він знаходиться. Класифікація зображень призначає мітку класу для зображення. Локалізація об’єкта пов’язана з малюванням обмежувальної рамки навколо відповідного об’єкта на зображенні.

Процес включає анотатор, який малює рамки навколо об’єктів і позначає їх. Це допомагає навчити алгоритм і дає йому змогу зрозуміти, як виглядає об’єкт. У якості першого кроку для виявлення об’єктів набір даних зображення повинен мати мітки.

Щоб позначити зображення, виконайте наведені нижче дії.

  • Виберіть набір даних, який ви хочете навчити та перевірити. Створіть з нього папку.
  • Давайте візьмемо приклад проекту з розпізнавання облич, наприклад: BTS, Avenger тощо.
  • Зробіть дані про назву папки.
  • На Google Drive створіть папку з назвою FaceDetection.
  • У папці FaceDetection створіть папку із зображенням.
  • У папці зображень створіть папки з тестовим зображенням, тестовим XML, навчальним зображенням і навчальним XML.
Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело:індусмічний

Тепер у папці із зображеннями поїзда завантажте та завантажте 10-15 зображень BTS та Avengers у форматі JPEG. Так само в папці тестового зображення виконайте те ж саме для 5-6 зображень. Рекомендується мати більше зображень у наборі даних для точних результатів.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: індусмічний

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: індусмічний

Далі створіть XML-файл для кожного зображення папок тестового зображення та зображення поїзда

Завантажте та натисніть windows v_1.8.0. Клацніть файл .exe з GitHub і натисніть «Виконати».

Далі клацніть відкритий каталог, щоб вибрати папку із зображенням. Ви побачите зображення, яке потрібно позначити. Щоб позначити, натисніть W на клавіатурі, клацніть правою кнопкою миші та перетягніть курсор, щоб намалювати рамку навколо об’єкта. Дайте йому назву та натисніть OK.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: індусмічний

Потім збережіть зображення, щоб створити XML-файл зображення в папці зображень, як показано нижче.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: індусмічний

Відкрийте файл XML, щоб побачити координати.

Обробка зображень і обмежувальні рамки для OCR PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

джерело: індусмічний

Повторіть процедуру для всіх зображень, щоб створити файли XML і знайти координати.


Якщо ви працюєте з рахунками-фактурами та квитанціями або турбуєтеся про перевірку посвідчення особи, перегляньте Nanonets онлайн OCR or Екстрактор тексту PDF для вилучення тексту з документів PDF безкоштовно. Натисніть нижче, щоб дізнатися більше про Рішення для автоматизації підприємства Nanonets.


Різні формати анотацій, що використовуються в обмежувальних рамках

По суті, обмежувальна рамка має 4 точки на осях (x,y), що представляють кути:

Верхній лівий кут: (x_min, y_min)

Верхній правий кут: (x_max, y_min)

Внизу зліва: (x_min, y_max)

Внизу праворуч: (x_max, y_max)

Координати обмежувальної рамки обчислюються відносно верхнього лівого кута зображення.

Існує кілька форматів анотації обмежувальної рамки, кожен з яких використовує власне представлення координат обмежувальної рамки.

a. Альбументації

Вони використовують чотири значення для представлення обмежувальної рамки – [x_min, y_min, x_max, y_max], які нормалізуються шляхом ділення координат у пікселях для осі x на ширину та осі y на висоту зображення.

Скажімо, координати обмежувальної рамки такі: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Нехай ширина = 870, висота = 789

Тоді [678/870, 24/789, 543/870, 213/789] = [0.779310, 0.030418, 0.624137, 0.269961]

Albummentations використовує та інтерпретує ці значення внутрішньо за допомогою обмежувальних рамок і покращує їх.

b. COCO

Це формат, який використовується набором даних COCO Common Objects in Context. У форматі COCO обмежувальна рамка представлена ​​чотирма значеннями: (x_min, y_min, ширина, висота). По суті, вони стосуються верхнього лівого кута, а також ширини та висоти обмежувальної рамки.

в. YOLO

У цьому форматі обмежувальна рамка представлена ​​чотирма значеннями: (x_center, y_center, width, height). Тут x_center і y_center позначають нормалізовані координати x і y центру обмежувальної рамки. Для нормалізації координата x центру за шириною зображення та координата y центру за висотою зображення. Значення ширини і висоти також нормуються.

d. ПАСКАЛЬ

У форматі Pascal обмежувальна рамка представлена ​​верхньою лівою та нижньою правою координатами. Отже, значення, закодовані в пікселях, такі: [x_min, y_min, x_max, y_max]. Тут [x_min, y_min] позначає верхній лівий кут, тоді як [x_max, y_max] позначає нижній правий кут обмежувальної рамки.


Хочете автоматизувати повторювані ручні завдання? Заощаджуйте час, зусилля та гроші, підвищуючи ефективність!


Запобіжні заходи та найкращі методи використання обмежувальних рамок

Деякі запобіжні заходи та найкращі методи рекомендуються для оптимального використання обмежувальних рамок під час обробки зображень. Вони включають:

Варіації розміру коробки

Використання всіх рамок однакового розміру не дасть точних результатів. Навчання ваших моделей на обмежувальних прямокутниках однакового розміру погіршить роботу моделі. Наприклад, якщо той самий об’єкт виглядає меншим за розміром, модель може не виявити його. Якщо об’єкти виглядають більшими, ніж очікувалося, вони можуть займати більшу кількість пікселів і не забезпечувати точної позиції та розташування об’єкта. Суть полягає в тому, щоб пам’ятати про зміну розміру та об’єму об’єкта для досягнення бажаних результатів.

Ідеальна герметичність пікселів

Герметичність є вирішальним фактором. Це означає, що краї обмежувальної рамки мають бути якомога ближче до відповідного об’єкта для отримання точних результатів. Постійні прогалини можуть вплинути на точність визначення області збігу між прогнозом моделі та реальним об’єктом, створюючи таким чином проблеми.

Діагональні елементи, розміщені в обмежувальних прямокутниках

Проблема, з якою стикаються елементи, розташовані по діагоналі в обмежувальній рамці, полягає в тому, що вони займають значно менше місця всередині рамки порівняно з фоном. Однак, якщо експонувати довше, модель може вважати, що ціль є фоном, оскільки це займає більше місця. Тому, як найкращу практику, рекомендується використовувати багатокутники та сегментацію екземплярів для діагональних об’єктів. Тим не менш, можна навчити моделі з обмежувальною рамкою з достатньою кількістю навчальних даних.

Зменшити перекриття коробок

Завжди безпечно уникати збігів анотацій у всіх сценаріях. Іноді це може спричинити стільки безладу, що нарешті можуть бути видимі лише деякі коробки, що перекриваються. Об’єкти, маркування яких збігається з іншими об’єктами, дають відносно гірші результати. Модель не зможе відрізнити цільовий об’єкт від інших елементів через надмірне накладання. У таких випадках для більшої точності можна використовувати багатокутники.

Висновок

Обробка зображень — це нова сфера технологій, яка пропонує широкі можливості. Тим не менш, обмежувальні прямокутники є найпоширенішим методом обробки зображень.

Підсумовуючи, обмежувальні рамки – це метод анотації зображень для навчання моделей машинного навчання на основі ШІ. Він використовується для виявлення об’єктів і розпізнавання цілей у широкому діапазоні застосувань, включаючи роботів, дронів, автономні транспортні засоби, камери спостереження та інші пристрої машинного зору.

Пропоновані ресурси:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Нанонети онлайн OCR та OCR API є багато цікавого випадки використання tкапелюх може оптимізувати ефективність вашого бізнесу, заощадити витрати та стимулювати зростання. Дізнайся як приклади використання Nanonets можуть застосовуватися до вашого продукту.


Часова мітка:

Більше від ШІ та машинне навчання