Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Обработка изображений и ограничивающие рамки для OCR

Технологии продолжают развиваться, и мы тоже. С появлением искусственного интеллекта и машинного обучения акцент сместился в сторону автоматизации. При этом для изучения и изучения применения этих новых тенденций вводятся различные дисциплины информатики.

Одним из таких примеров является Обработка изображения. Говоря простым языком, это относится к изучению изображений для извлечения значимой информации. Хотя для этого доступно несколько методов, наиболее часто используемым является: ограничивающие рамки.

В этом блоге рассматриваются различные аспекты ограничивающих рамок. Он включает в себя то, что они из себя представляют, как они работают при обработке изображений, параметры, которые их определяют, соглашения, которые их определяют, общие варианты использования, меры предосторожности и лучшие практики и многое другое.

Давай погрузимся.

Обработка изображений относится к выполнению определенных операций с изображением либо для его улучшения, либо для извлечения ценных сведений из связанных с ним функций или атрибутов. Сегодня обработка изображений является основной областью исследований в области инженерии и компьютерных технологий.

Обработка изображений может выполняться двумя способами: аналоговая обработка изображений и цифровая обработка изображений.

Аналоговая обработка изображений включает использование печатных копий распечаток и фотографий для анализа и обработки изображений. Аналитики изображений используют различные методы для интерпретации этих копий изображений и извлечения значимых результатов.

Цифровая обработка изображений использует цифровые изображения и интерпретирует их с помощью компьютеров. Это подкатегория обработки цифровых сигналов, в которой используются алгоритмы для обработки цифровых изображений. Он обеспечивает преимущества по сравнению с аналоговой обработкой изображений, такие как алгоритмы предотвращения шума и искажений при обработке.

Цифровая обработка изображений имеет несколько применений в таких областях, как медицина, производство, электронная коммерция и многое другое.


Ограничивающие рамки в обработке изображений

Вначале ограничивающая рамка представляет собой воображаемую прямоугольную рамку, включающую в себя объект и набор точек данных. В контексте обработки цифровых изображений ограничивающая рамка обозначает координаты границы по осям X и Y, которые окружают изображение. Они используются для идентификации цели и служат ориентиром для обнаружения объекта и создания поля столкновения для объекта.

Что такое ограничивающие рамки?

Ограничивающие рамки являются ключевыми элементами и одним из основных инструментов обработки изображений для проектов видеоаннотации. По сути, ограничительная рамка — это воображаемый прямоугольник, очерчивающий объект на изображении как часть требования проекта машинного обучения. Воображаемая прямоугольная рамка окружает объект на изображении.

Ограничивающие рамки определяют положение объекта, его класс и достоверность, которая говорит о степени вероятности того, что объект действительно присутствует в ограничивающей рамке.

Компьютерное зрение предлагает удивительные приложения — от беспилотных автомобилей до распознавания лиц и многого другого. А это, в свою очередь, стало возможным благодаря обработке изображений.

Итак, обработка изображений так же проста, как рисование прямоугольников или узоров вокруг объектов? Нет. При этом, что делают ограничивающие рамки?

Давайте разбираться.

Как ограничивающие рамки работают при обработке изображений?

Как уже упоминалось, ограничительная рамка представляет собой воображаемый прямоугольник, который действует как опорная точка для обнаружения объекта и создает для объекта область столкновения.

Итак, как это помогает аннотаторам данных? Что ж, профессионалы используют идею ограничивающих рамок для рисования воображаемых прямоугольников поверх изображений. Они создают контуры рассматриваемых объектов на каждом изображении и определяют его координаты X и Y. Это упрощает работу алгоритмов машинного обучения, помогая им находить пути столкновений и тому подобное, тем самым экономя вычислительные ресурсы.

Например, на изображении ниже каждое транспортное средство является ключевым объектом, положение и местоположение которого важны для обучения моделей машинного обучения. Аннотаторы данных используют технику ограничивающих рамок для рисования прямоугольников вокруг каждого из этих объектов — в данном случае транспортных средств.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: кеймакр

Затем они используют координаты, чтобы понять положение и местоположение каждого объекта, что полезно для обучения моделей машинного обучения. Один ограничивающий прямоугольник не обеспечивает хорошей скорости предсказания. Для расширенного обнаружения объектов необходимо использовать несколько ограничивающих рамок в сочетании с методами увеличения данных.

Ограничивающие рамки — это высокоэффективные и надежные методы аннотирования изображений, которые значительно сокращают затраты.

Параметры, определяющие ограничивающую рамку

Параметры основаны на соглашениях, используемых для указания ограничивающей рамки. К основным используемым параметрам относятся:

  • Класс: обозначает объект внутри ограничивающей рамки — например, автомобили, дома, здания и т. д.
  • (X1, Y1): относится к координатам X и Y верхнего левого угла прямоугольника.
  • (X2, Y2): относится к координатам X и Y нижнего правого угла прямоугольника.
  • (Xc, Yc): относится к координатам X и Y центра ограничивающей рамки.
  • Ширина: обозначает ширину ограничивающей рамки.
  • Высота: обозначает высоту ограничивающей рамки.
  • Уверенность: это представляет возможность того, что объект находится в коробке. Скажем, достоверность равна 0.9. Это означает, что с вероятностью 90 % объект действительно находится внутри коробки.

Соглашения, определяющие ограничивающую рамку

При указании ограничивающей рамки обычно необходимо учитывать два основных соглашения. Это:

  • Координаты X и Y верхней левой и нижней правой точек прямоугольника.
  • Координаты X и Y центра ограничивающей рамки, а также ее ширина и высота.

Проиллюстрируем это на примере автомобиля.

а. Что касается первого соглашения, ограничивающая рамка указывается в соответствии с координатами верхней левой и нижней правой точек.

Источник: Аналитика

б. Что касается второго соглашения, ограничивающая рамка описывается в соответствии с координатами центра, шириной и высотой.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: Аналитика

В зависимости от варианта использования возможно преобразование между различными типами соглашений.

  • Хс = (Х1 + Х2)/2
  • Yc = (Y1 + Y2)/2
  • Ширина = (Х2 – Х1)
  • Высота = (Y2 – Y1)

Объяснение ограничивающих рамок с помощью кода программирования

Давайте посмотрим на другой пример о расположении или положении объекта с помощью фрагментов кода.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Мы загружаем изображение, которое будет использоваться для этой иллюстрации. На изображении слева собака, а справа кошка. На изображении два объекта – собака и кошка.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Возьмем x и y в качестве координат верхнего левого и нижнего правого углов ограничивающей рамки. Скажем, (x1,y1) и (x2,y2). Точно так же давайте рассмотрим (x, y) - координаты оси для центра ограничивающей рамки, а также ее ширину и высоту.

Затем мы определяем две функции для преобразования этих форм: box_corner_to_center преобразует представление с двумя углами в представление с центром по высоте и ширине, а box_center_to_corner делает это наоборот.

Поля входного аргумента должны быть двумерным тензором формы (n, 4), где n — количество ограничивающих прямоугольников.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Далее определим ограничивающие рамки собаки и кошки на изображении на основе данных координат.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Чтобы проверить правильность двух функций преобразования ограничивающих рамок, мы можем преобразовать дважды.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Затем мы можем нарисовать ограничивающие рамки объектов на изображении, чтобы проверить их точность. Перед этим мы определяем функцию bbox_t_rect, которая представляет ограничивающую рамку в соответствующем формате пакета matplotlib.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Теперь, после добавления ограничивающих рамок объектов собаки и кошки к изображению, мы видим, что основной контур этих объектов находится внутри двух рамок.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: d2i


Хотите автоматизировать повторяющиеся ручные задачи? Ознакомьтесь с нашим программным обеспечением для обработки документов Nanonets, основанным на рабочих процессах. Извлекайте данные из счетов-фактур, удостоверений личности или любого документа на автопилоте!


Общие случаи использования ограничивающих рамок

Объектная локализация беспилотных транспортных средств

Ограничительные прямоугольники являются неотъемлемой частью обучения беспилотных или автономных транспортных средств для определения объектов на дороге, таких как здания, светофоры, любые препятствия и многое другое. Они помогают аннотировать любые препятствия и позволяют роботам безопасно управлять транспортным средством и предотвращать несчастные случаи даже в случае пробок.

Изображения робототехники

Методы аннотации изображений, такие как ограничивающие рамки, широко используются для обозначения точек обзора роботов и дронов. Эти автономные транспортные средства помогают классифицировать объекты на Земле с помощью фотографий, полученных с помощью этого метода аннотации.

Пометка изображений для электронной коммерции и розничной торговли

Аннотации ограничительной рамки помогают улучшить визуализацию продукта, что является большим плюсом в электронной коммерции и розничной торговле. Модели, обученные работе с похожими предметами, могут аннотировать такие объекты, как модная одежда, аксессуары, мебель, косметика и т. д., более точно, если они правильно помечены. Ниже приведены некоторые из проблем, решаемых аннотациями ограничительных рамок в розничной торговле:

  • Неверные результаты поиска

Если поиск — единственный способ, с помощью которого клиенты могут наткнуться на сайт электронной коммерции, то неправильные данные каталога могут привести к неточным результатам поиска, что не приведет к привлечению трафика клиентов на сайт.

  • Неорганизованные цепочки поставок

Для тех, кто хочет расширить свой розничный бизнес, чтобы ежегодно отгружать миллионы товаров, становится необходимым синхронизировать офлайн- и онлайн-данные.

  • Непрерывная оцифровка

Крайне важно систематически и своевременно оцифровывать и маркировать все продукты, чтобы клиенты не упустили ни одной новой возможности. Кроме того, теги должны соответствовать контексту, соблюдение которого становится затруднительным по мере расширения розничного бизнеса и добавления большего количества товаров.

Обнаруживает потерю автомобиля для страховых претензий

Техника ограничивающих прямоугольников помогает отслеживать автомобили, велосипеды или другие транспортные средства, поврежденные в результате аварии. Модели машинного обучения используют эти изображения из ограничительных рамок, чтобы понять положение и интенсивность потерь. Это помогает прогнозировать стоимость понесенных убытков, на основании чего клиенты могут представить свою оценку до подачи иска.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: Супераннотация

Обнаружение предметов в помещении

Ограничивающие рамки помогают компьютерам обнаруживать предметы в помещении, такие как кровати, диваны, столы, шкафы или электроприборы. Это позволяет компьютерам получить представление о пространстве и типах присутствующих объектов, их размерах и расположении. Это, в свою очередь, помогает моделям машинного обучения идентифицировать эти элементы в реальной ситуации.

Ограничивающие рамки широко используются в фотографиях как инструмент глубокого обучения для понимания и интерпретации различных видов объектов.

Идентификация болезней и роста растений в сельском хозяйстве

Раннее выявление болезней растений помогает фермерам предотвратить серьезные потери. С появлением умного земледелия проблема заключается в обучении данных для обучения моделей машинного обучения обнаружению болезней растений. Ограничивающие рамки являются основным фактором, обеспечивающим необходимый обзор для машин.

Обрабатывающая промышленность

Обнаружение объектов и идентификация предметов в промышленности является важным аспектом производства. Благодаря роботам и компьютерам с поддержкой ИИ роль ручного вмешательства снижается. Тем не менее, ограничительные рамки играют решающую роль, помогая обучать модели машинного обучения находить и обнаруживать промышленные компоненты. Кроме того, такие процессы, как контроль качества, сортировка и сборочная линия, которые являются частью управления качеством, нуждаются в обнаружении объектов.

Медицинская визуализация

Ограничительные рамки также находят применение в сфере здравоохранения, например, в медицинской визуализации. Техника медицинской визуализации связана с обнаружением анатомических объектов, таких как сердце, и требует быстрого и точного анализа. Ограничивающие рамки можно использовать для обучения моделей машинного обучения, которые затем смогут быстро и точно обнаруживать сердце или другие органы.

Автоматизированные камеры видеонаблюдения

Автоматизированные системы видеонаблюдения являются обязательными в большинстве жилых, коммерческих и других учреждений. Часто для длительного хранения отснятых видеоматериалов с камер видеонаблюдения требуется большой объем памяти. С помощью методов обнаружения объектов, таких как ограничивающие рамки, можно гарантировать, что отснятый материал будет записываться только тогда, когда будут идентифицированы определенные объекты. Ограничивающие рамки могут обучать модели машинного обучения, которые будут обнаруживать только эти объекты, и в этот момент кадры могут быть захвачены. Это также помогло бы свести к минимуму объем памяти, необходимой для видеонаблюдения, и снизить затраты.

Распознавание и обнаружение лиц

Распознавание лиц предлагает несколько приложений, например, оно используется в биометрическом наблюдении. Кроме того, различные агентства, такие как банки, аэропорты, розничные магазины, стадионы и другие учреждения, используют распознавание лиц для предотвращения преступлений и насилия. Тем не менее, обнаружение лиц является важным элементом компьютерного зрения, которое включает в себя обработку изображений. И здесь снова можно использовать ограничивающие рамки как эффективный инструмент для распознавания символов.


Хотите использовать роботизированную автоматизацию процессов? Ознакомьтесь с программным обеспечением для обработки документов на основе рабочего процесса Nanonets. Нет кода. Платформа без проблем.


Ограничивающие рамки для распознавания символов

Обнаружение объекта включает в себя – классификацию изображения и локализацию объекта. Это означает, что компьютеру для обнаружения объекта необходимо знать, что это за объект и где он находится. Классификация изображений присваивает изображению метку класса. Локализация объекта связана с рисованием ограничивающей рамки вокруг рассматриваемого объекта на изображении.

В процессе аннотатор рисует ограничивающие рамки вокруг объектов и помечает их. Это помогает обучать алгоритм и позволяет ему понять, как выглядит объект. В качестве первого шага для обнаружения объектов набор данных изображения должен иметь метки.

Чтобы пометить изображение, выполните следующие действия:

  • Выберите набор данных, который вы хотите обучить и протестировать. Сделайте из него папку.
  • Давайте возьмем пример проекта по обнаружению лиц, такого как: BTS, Avenger и т. Д.
  • Сделать данные имени папки.
  • На Google Диске создайте папку с названием FaceDetection.
  • В папке FaceDetection создайте папку изображения.
  • В папке изображения создайте папки тестового изображения, тестового XML, обучающего изображения и обучающего XML.
Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник:индустриальный

Теперь в папке изображений поезда загрузите и загрузите 10-15 изображений BTS и Мстителей в формате JPEG. Точно так же в папке с тестовыми изображениями сделайте то же самое для 5-6 изображений. Для получения точных результатов рекомендуется иметь больше изображений в наборе данных.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: индустриальный

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: индустриальный

Затем создайте файл XML для каждого изображения тестового изображения и обучите папки изображений.

Скачайте и нажмите windows v_1.8.0. Нажмите на файл .exe из GitHub и нажмите «Выполнить».

Затем щелкните открытый каталог, чтобы выбрать папку с изображением. Вы увидите изображение, которое нужно пометить. Чтобы пометить, нажмите W на клавиатуре, щелкните правой кнопкой мыши и перетащите курсор, чтобы нарисовать рамку вокруг объекта. Дайте ему имя и нажмите ОК.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: индустриальный

Затем сохраните изображение, чтобы сгенерировать XML-файл изображения в папке изображения, как показано ниже.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: индустриальный

Откройте файл XML, чтобы увидеть координаты.

Обработка изображений и ограничивающие рамки для OCR PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Источник: индустриальный

Повторите процедуру для всех изображений, чтобы сгенерировать XML-файлы и найти координаты.


Если вы работаете со счетами и квитанциями или беспокоитесь о проверке личности, проверьте Nanonets. онлайн-распознавание текста or Экстрактор текста PDF для извлечения текста из PDF-документов бесплатно. Нажмите ниже, чтобы узнать больше о Нанонет Решение для автоматизации предприятий.


Различные форматы аннотаций, используемые в ограничивающих рамках

По сути, ограничивающая рамка имеет 4 точки по осям (x, y), представляющие углы:

Вверху слева: (x_min, y_min)

Вверху справа: (x_max, y_min)

Внизу слева: (x_min, y_max)

Внизу справа: (x_max, y_max)

Координаты ограничивающей рамки вычисляются относительно верхнего левого угла изображения.

Существует несколько форматов аннотаций ограничивающей рамки, каждый из которых использует собственное представление координат ограничивающей рамки.

а. Альбументации

Они используют четыре значения для представления ограничительной рамки — [x_min, y_min, x_max, y_max] — которые нормализуются путем деления координат в пикселях для оси x на ширину и оси y на высоту изображения.

Скажем, координаты ограничивающей рамки: x1 = 678, y1 = 24; х2 = 543, у2 = 213.

Пусть ширина = 870, высота = 789

Тогда [678/870, 24/789, 543/870, 213/789] = [0.779310, 0.030418, 0.624137, 0.269961]

Альбументации использует и интерпретирует эти значения внутри с помощью ограничительных рамок и улучшает их.

б. КОКО

Это формат, используемый набором данных Common Objects in Context COCO. В формате COCO ограничивающая рамка представлена ​​четырьмя значениями: (x_min, y_min, ширина, высота). По сути, они относятся к верхнему левому углу, а также к ширине и высоте ограничивающей рамки.

в. ЙОЛО

В этом формате ограничивающая рамка представлена ​​четырьмя значениями: (x_center, y_center, ширина, высота). Здесь x_center и y_center обозначают нормализованные координаты x и y центра ограничивающей рамки. Чтобы нормализовать координату x центра по ширине изображения и координату y центра по высоте изображения. Значения ширины и высоты также нормализуются.

д. ПАСКАЛЬ

В формате Pascal ограничивающая рамка представлена ​​верхней левой и нижней правой координатами. Итак, значения, закодированные в пикселях: [x_min, y_min, x_max, y_max]. Здесь [x_min, y_min] соответствует верхнему левому углу, а [x_max, y_max] обозначает нижний правый угол ограничивающей рамки.


Хотите автоматизировать повторяющиеся ручные задачи? Экономьте время, усилия и деньги, повышая эффективность!


Меры предосторожности и рекомендации по использованию ограничивающих рамок

Для оптимального использования ограничительных рамок при обработке изображений рекомендуются некоторые меры предосторожности и рекомендации. Они включают:

Варианты размера коробки

Использование всех ограничивающих рамок одинакового размера не даст точных результатов. Обучение ваших моделей ограничивающим рамкам одинаковых размеров приведет к ухудшению работы модели. Например, если тот же объект кажется меньше по размеру, модель может не обнаружить его. В случае, если объекты кажутся больше, чем ожидалось, он может занимать большее количество пикселей и не обеспечивать точное положение и местоположение объекта. Суть в том, чтобы помнить об изменении размера и объема объекта для достижения желаемых результатов.

Идеальная плотность пикселей

Герметичность – решающий фактор. Это означает, что края ограничивающей рамки должны быть как можно ближе к рассматриваемому объекту для получения точных результатов. Постоянные промежутки могут повлиять на точность определения области перекрытия между предсказанием модели и реальным объектом, тем самым создавая проблемы.

Диагональные элементы, помещенные в ограничивающие рамки

Проблема с элементами, расположенными по диагонали в ограничивающей рамке, заключается в том, что они занимают значительно меньше места внутри рамки по сравнению с фоном. Однако при более длительной экспозиции модель может предположить, что целью является фон, поскольку он занимает больше места. Поэтому рекомендуется использовать полигоны и сегментацию экземпляров для диагональных объектов. Тем не менее, можно обучить модели с ограничивающей рамкой с большим количеством обучающих данных.

Уменьшить перекрытие блоков

Всегда безопасно избегать перекрытия аннотаций во всех сценариях. Иногда это может вызвать такой беспорядок, что в конечном итоге могут быть видны только некоторые перекрывающиеся поля. Объекты, маркировка которых перекрывается с другими объектами, дают относительно худшие результаты. Модель не сможет отличить целевой объект от других элементов из-за чрезмерного перекрытия. В таких случаях полигоны могут использоваться для более высокой точности.

Заключение

Обработка изображений — это развивающаяся область технологий, предлагающая широкий спектр возможностей. Тем не менее, ограничительные рамки представляют собой наиболее часто применяемый метод обработки изображений.

Подводя итог, ограничительные рамки — это метод аннотирования изображений для обучения моделей машинного обучения на основе ИИ. Он используется для обнаружения объектов и распознавания целей в широком спектре приложений, включая роботов, дроны, автономные транспортные средства, камеры наблюдения и другие устройства машинного зрения.

Предлагаемые ресурсы:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Нанонеты онлайн OCR и OCR API есть много интересного случаи использования tЭто может оптимизировать производительность вашего бизнеса, сократить расходы и ускорить рост. Узнать как примеры использования Nanonets могут быть применены к вашему продукту.


Отметка времени:

Больше от ИИ и машинное обучение