Traitement d'image et cadres de délimitation pour OCR

Republié par Platon

Suiveurs: 0

La technologie ne cesse d'évoluer, et nous aussi. Avec l'émergence de l'intelligence artificielle et de l'apprentissage automatique, l'attention s'est déplacée vers l'automatisation. Cela étant dit, diverses disciplines informatiques sont introduites pour étudier et explorer les applications de ces tendances émergentes.

Un tel exemple est traitement d'image. En langage simple, cela fait référence à l'exploration d'images pour en tirer des informations significatives. Bien que plusieurs techniques soient disponibles pour y parvenir, la plus couramment utilisée est - cadres de délimitation.

Ce blog se penche sur divers aspects des boîtes englobantes. Il comprend ce qu'ils sont, comment ils fonctionnent dans le traitement d'image, les paramètres qui les définissent, les conventions qui les spécifient, les cas d'utilisation courants, les précautions et les meilleures pratiques, et plus encore.

Plongeons dedans.

Le traitement d'image fait référence à l'exécution de certaines opérations sur une image, soit pour l'améliorer, soit pour extraire des informations précieuses des caractéristiques ou des attributs qui lui sont associés. Aujourd'hui, le traitement d'images est un domaine de recherche primordial dans les études d'ingénierie et de technologie informatique.

Le traitement d'image peut être effectué à l'aide de deux méthodes : le traitement d'image analogique et le traitement d'image numérique.

Le traitement d'images analogiques implique l'utilisation de copies papier d'impressions et de photographies pour analyser et manipuler des images. Les analystes d'images utilisent diverses méthodes pour interpréter ces copies d'images et extraire des résultats significatifs.

Le traitement numérique des images utilise des images numériques et les interprète à l'aide d'ordinateurs. Il s'agit d'une sous-catégorie du traitement du signal numérique et utilise des algorithmes pour traiter les images numériques. Il offre des avantages par rapport au traitement d'image analogique, tels que des algorithmes pour éviter le bruit et la distorsion lors du traitement.

Le traitement d'image numérique a plusieurs applications dans les domaines de la médecine, de la fabrication, du commerce électronique, etc.

Boîtes englobantes dans le traitement d'image

Au départ, la boîte englobante est une boîte rectangulaire imaginaire qui comprend un objet et un ensemble de points de données. Dans le contexte du traitement d'images numériques, la boîte englobante désigne les coordonnées de la bordure sur les axes X et Y qui entourent une image. Ils sont utilisés pour identifier une cible et servent de référence pour la détection d'objet et génèrent une boîte de collision pour l'objet.

Que sont les boîtes englobantes ?

Les cadres de délimitation sont les éléments clés et l'un des principaux outils de traitement d'image pour les projets d'annotation vidéo. Essentiellement, une boîte englobante est un rectangle imaginaire qui décrit l'objet dans une image dans le cadre d'une exigence de projet d'apprentissage automatique. Le cadre rectangulaire imaginaire enferme l'objet dans l'image.

Les boîtes englobantes spécifient la position de l'objet, sa classe et la confiance qui indique le degré de probabilité que l'objet soit réellement présent dans la boîte englobante.

La vision par ordinateur offre des applications étonnantes - des voitures autonomes à la reconnaissance faciale et plus encore. Et ceci, à son tour, est rendu possible grâce au traitement d'image.

Alors, le traitement d'image est-il aussi simple que de dessiner des rectangles ou des motifs autour d'objets ? Non. Cela dit, que font les boîtes englobantes ?

Comprenons.

Comment fonctionnent les boîtes englobantes dans le traitement d'images ?

Comme mentionné, la boîte englobante est un rectangle imaginaire qui agit comme un point de référence pour la détection d'objet et développe une boîte de collision pour l'objet.

Alors, comment cela aide-t-il les annotateurs de données ? Eh bien, les professionnels utilisent l'idée des boîtes englobantes pour dessiner des rectangles imaginaires sur les images. Ils créent les contours des objets en question dans chaque image et définissent ses coordonnées X et Y. Cela simplifie le travail des algorithmes d'apprentissage automatique, les aidant à trouver des chemins de collision et autres, économisant ainsi des ressources informatiques.

Par exemple, dans l'image ci-dessous, chaque véhicule est un objet clé dont la position et l'emplacement sont essentiels pour former les modèles d'apprentissage automatique. Les annotateurs de données utilisent la technique des boîtes englobantes pour dessiner les rectangles autour de chacun de ces objets - les véhicules, dans ce cas.

Traitement d'image et cadres de délimitation pour OCR PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

La source: keymaker

Ensuite, ils utilisent les coordonnées pour comprendre la position et l'emplacement de chaque objet, ce qui est utile pour former les modèles d'apprentissage automatique. Une seule boîte englobante ne fournit pas un bon taux de prédiction. Pour une détection d'objet améliorée, plusieurs cadres de délimitation doivent être utilisés en combinaison avec des méthodes d'augmentation de données.

Les boîtes englobantes sont des techniques d'annotation d'images très efficaces et robustes qui réduisent considérablement les coûts.

Paramètres définissant une boîte englobante

Les paramètres sont basés sur les conventions utilisées pour spécifier la boîte englobante. Les paramètres clés utilisés incluent :

Classe : il désigne l'objet à l'intérieur de la boîte englobante - par exemple, des voitures, des maisons, des bâtiments, etc.
(X1, Y1) : Il s'agit des coordonnées X et Y du coin supérieur gauche du rectangle.
(X2, Y2) : Il s'agit des coordonnées X et Y du coin inférieur droit du rectangle.
(Xc, Yc) : il s'agit des coordonnées X et Y du centre de la boîte englobante.
Largeur : indique la largeur de la boîte englobante.
Hauteur : indique la hauteur de la boîte englobante.
Confiance : Cela représente la possibilité que l'objet soit dans la boîte. Disons que la confiance est de 0.9. Cela signifie qu'il y a une probabilité de 90 % que l'objet soit réellement présent à l'intérieur de la boîte.

Conventions Spécification d'une boîte englobante

Lors de la spécification d'une boîte englobante, généralement, deux conventions principales doivent être incluses. Ceux-ci sont:

Coordonnées X et Y des points supérieur gauche et inférieur droit du rectangle.
Coordonnées X et Y du centre de la zone de délimitation, ainsi que sa largeur et sa hauteur.

Illustrons cela avec l'exemple d'une voiture.

un. En ce qui concerne la première convention, la boîte englobante est spécifiée selon les coordonnées des points supérieur gauche et inférieur droit.

La source: AnalytiqueVidhya

b. En ce qui concerne la deuxième convention, la boîte englobante est décrite selon les coordonnées du centre, la largeur et la hauteur.

La source: AnalytiqueVidhya

Selon le cas d'utilisation, il est possible de convertir entre les différents types de convention.

Xc = (X1 + X2)/2
Yc = (Y1 + Y2)/2
Largeur = (X2 – X1)
Hauteur = (Y2 – Y1)

Boîtes englobantes expliquées avec le code de programmation

Voyons un autre exemple sur l'emplacement ou la position d'un objet avec des extraits de code.

La source: d2i

Nous chargeons l'image à utiliser pour cette illustration. L'image a un chien à gauche et un chat à droite. Il y a deux objets - un chien et un chat dans l'image.

La source: d2i

Prenons x et y comme coordonnées pour les coins supérieur gauche et inférieur droit de la boîte englobante. Dites, (x1,y1) et (x2,y2). De même, considérons les coordonnées de l'axe (x, y) pour le centre de la boîte englobante, ainsi que sa largeur et sa hauteur.

Ensuite, nous définissons deux fonctions pour convertir ces formes : box_corner_to_center convertit la représentation à deux coins en représentation centre-hauteur-largeur et box_center_to_corner le fait vice-versa.

Les boîtes d'arguments d'entrée doivent être un tenseur bidimensionnel de forme (n,4), où n est le nombre de boîtes englobantes.

La source: d2i

Ensuite, définissons les boîtes englobantes du chien et du chat sur l'image en fonction des données de coordonnées.

La source: d2i

Pour vérifier l'exactitude des deux fonctions de conversion des boîtes englobantes, nous pouvons convertir deux fois.

La source: d2i

Ensuite, nous pouvons dessiner les boîtes englobantes des objets sur l'image pour vérifier si elles sont exactes. Avant cela, nous définissons une fonction bbox_t_rect qui représente la boîte englobante dans le format approprié du package matplotlib.

La source: d2i

Maintenant, après avoir ajouté les boîtes englobantes des objets chien et chat à l'image, nous voyons que le contour principal de ces objets se trouve à l'intérieur des deux boîtes.

La source: d2i

Vous souhaitez automatiser les tâches manuelles répétitives ? Consultez notre logiciel de traitement de documents basé sur le flux de travail Nanonets. Extrayez les données des factures, des cartes d'identité ou de tout document sur pilote automatique !

Cas d'utilisation courants des boîtes englobantes

Localisation d'objets de véhicules autonomes

Les boîtes englobantes font partie intégrante de la formation des véhicules autonomes ou autonomes pour identifier les objets sur la route comme les bâtiments, les feux de circulation, les obstacles, etc. Ils aident à annoter les éventuels obstacles et permettent aux robots de conduire le véhicule en toute sécurité et d'éviter les accidents, même en cas d'embouteillage.

Imagerie robotique

Les techniques d'annotation d'images telles que les boîtes englobantes sont largement utilisées pour marquer les points de vue des robots et des drones. Ces véhicules autonomes permettent de classer les objets sur terre grâce aux photographies obtenues grâce à cette méthode d'annotation.

Balisage d'image pour le commerce électronique et la vente au détail

Les annotations de la boîte englobante aident à améliorer la visualisation des produits, ce qui est un gros plus dans le commerce électronique et la vente au détail. Les modèles formés sur des articles similaires peuvent annoter des objets tels que des vêtements de mode, des accessoires, des meubles, des cosmétiques, etc., plus précisément lorsqu'ils sont correctement étiquetés. Vous trouverez ci-dessous quelques-uns des défis relevés par les annotations de cadres de délimitation dans le commerce de détail :

Résultats de recherche incorrects

Si la recherche est le seul moyen pour les clients de tomber sur le site de commerce électronique, des données de catalogue incorrectes peuvent entraîner des résultats de recherche inexacts, ne générant ainsi pas de trafic client vers le site.

Chaînes d'approvisionnement non organisées

Pour ceux qui souhaitent développer leur activité de vente au détail afin que des millions de produits puissent être expédiés chaque année, il devient impératif de synchroniser les données hors ligne et en ligne.

Numérisation continue

Il est essentiel que tous les produits soient numérisés et étiquetés systématiquement et rapidement pour garantir que les clients ne manquent aucune nouvelle opportunité. De plus, les balises doivent être en contexte, ce qui devient difficile à respecter à mesure que le commerce de détail se développe et que de nouveaux produits sont ajoutés.

Détecte la perte de voiture pour les réclamations d'assurance

La technique des boîtes englobantes permet de suivre les voitures, les vélos ou d'autres véhicules endommagés lors d'un accident. Les modèles d'apprentissage automatique utilisent ces images à partir de cadres de délimitation pour comprendre la position et l'intensité des pertes. Cela permet de prévoir le coût des pertes subies, sur la base duquel les clients peuvent présenter leur estimation avant d'intenter une action en justice.

La source: Superannoter

Détection d'objets à l'intérieur

Les cadres de délimitation aident les ordinateurs à détecter les éléments intérieurs tels que les lits, les canapés, les bureaux, les armoires ou les appareils électriques. Cela permet aux ordinateurs d'avoir une idée de l'espace et des types d'objets présents, avec leurs dimensions et leur emplacement. Ceci, à son tour, aide les modèles d'apprentissage automatique à identifier ces éléments dans une situation réelle.

Les boîtes englobantes sont largement utilisées dans les photographies comme outil d'apprentissage en profondeur pour comprendre et interpréter divers types d'objets.

Identification des maladies et de la croissance des plantes en agriculture

La détection précoce des maladies des plantes aide les agriculteurs à éviter de graves pertes. Avec l'émergence de l'agriculture intelligente, le défi réside dans la formation des données pour apprendre aux modèles d'apprentissage automatique à détecter les maladies des plantes. Les boîtes englobantes sont un moteur majeur qui fournit la vision nécessaire aux machines.

Industrie manufacturière

La détection d'objets et l'identification d'articles dans les industries est un aspect essentiel de la fabrication. Avec les robots et les ordinateurs compatibles avec l'IA, le rôle de l'intervention manuelle est réduit. Cela dit, les boîtes englobantes jouent un rôle crucial en aidant à former les modèles d'apprentissage automatique pour localiser et détecter les composants industriels. De plus, des processus tels que le contrôle qualité, le tri et les opérations de la chaîne de montage, qui font tous partie de la gestion de la qualité, nécessitent la détection d'objets.

L'imagerie médicale

Les boîtes englobantes trouvent également des applications dans le secteur de la santé, comme l'imagerie médicale. La technique d'imagerie médicale concerne la détection d'objets anatomiques comme le cœur et nécessite une analyse rapide et précise. Les boîtes englobantes peuvent être utilisées pour former les modèles d'apprentissage automatique, qui pourront alors détecter le cœur ou d'autres organes rapidement et avec précision.

CCTV automatisés

Les CCTV automatisés sont obligatoires dans la plupart des établissements résidentiels, commerciaux et autres. Souvent, un stockage de mémoire élevé est nécessaire pour conserver longtemps les images CCTV capturées. Avec des techniques de détection d'objets telles que les boîtes englobantes, il est possible de garantir que le métrage n'est enregistré que lorsque certains objets sont identifiés. Les boîtes englobantes peuvent former les modèles d'apprentissage automatique, qui ne détecteront que ces objets et, à cet instant, les images pourront être capturées. Cela aiderait également à minimiser l'étendue du stockage requis pour la vidéosurveillance et à réduire les coûts.

Reconnaissance faciale et détection

La reconnaissance faciale offre de multiples applications, telle qu'elle est utilisée dans la surveillance biométrique. En outre, diverses agences telles que les banques, les aéroports, les magasins de détail, les stades et d'autres institutions utilisent la reconnaissance faciale pour prévenir les crimes et la violence. Cela dit, la détection faciale est un élément important de la vision par ordinateur qui implique le traitement d'images. Et là encore, les boîtes englobantes peuvent être utilisées comme un outil efficace pour la reconnaissance de caractères.

Vous souhaitez utiliser l'automatisation des processus robotisés ? Découvrez le logiciel de traitement de documents basé sur le flux de travail Nanonets. Pas de code. Pas de plate-forme de tracas.

Boîtes englobantes pour la reconnaissance de caractères

La détection d'objets comprend – la classification d'images et la localisation d'objets. Cela signifie que pour qu'un ordinateur détecte un objet, il doit savoir quel est l'objet en question et où il se trouve. La classification d'image attribue une étiquette de classe à une image. La localisation d'objet est liée au dessin de la boîte englobante autour de l'objet en question dans une image.

Le processus implique qu'un annotateur dessine les cadres de délimitation autour des objets et les étiquette. Cela aide à former l'algorithme et lui permet de comprendre à quoi ressemble l'objet. Comme première étape de la détection d'objets, l'ensemble de données d'image doit avoir des étiquettes.

Pour étiqueter une image, suivez les étapes ci-dessous :

Choisissez l'ensemble de données que vous souhaitez former et tester. Faites-en un dossier.
Prenons l'exemple d'un projet de détection de visage comme : BTS, Avenger, etc.
Créer des données de nom de dossier.
Dans Google Drive, créez un dossier nommé FaceDetection.
Dans le dossier FaceDetection, créez un dossier de l'image.
Dans le dossier de l'image, créez des dossiers de l'image de test, du XML de test, de l'image d'apprentissage et du XML d'apprentissage.

La source:industriel

Maintenant, dans le dossier d'images du train, téléchargez et téléchargez 10 à 15 images de BTS et Avengers au format JPEG. De même, dans le dossier d'images de test, faites de même pour 5-6 images. Il est recommandé d'avoir plus d'images dans l'ensemble de données pour des résultats précis.

La source: industriel

Ensuite, générez un fichier XML pour chaque image de l'image de test et entraînez les dossiers d'images

Téléchargez et cliquez sur Windows v_1.8.0. Cliquez sur le fichier .exe de GitHub et appuyez sur Exécuter.

Ensuite, cliquez sur le répertoire ouvert pour sélectionner le dossier de l'image. Vous verrez l'image qui doit être étiquetée. Pour étiqueter, appuyez sur W sur le clavier, cliquez avec le bouton droit et faites glisser le curseur pour dessiner le cadre autour de l'objet. Donnez-lui un nom et cliquez sur OK.

La source: industriel

Ensuite, enregistrez l'image pour générer le fichier XML de l'image dans le dossier image, comme indiqué ci-dessous.

La source: industriel

Ouvrez le fichier XML pour voir les coordonnées.

La source: industriel

Répétez la procédure pour toutes les images pour générer les fichiers XML et recherchez les coordonnées.

Si vous travaillez avec des factures et des reçus ou si vous vous souciez de la vérification d'identité, consultez Nanonets ROC en ligne or Extracteur de texte PDF pour extraire du texte de documents PDF gratuitement. Cliquez ci-dessous pour en savoir plus sur Solution d'automatisation d'entreprise Nanonets.

Divers formats d'annotation utilisés dans les boîtes englobantes

Essentiellement, une boîte englobante a 4 points dans les axes (x, y) représentant les coins :

En haut à gauche : (x_min, y_min)

En haut à droite : (x_max, y_min)

En bas à gauche :(x_min, y_max)

En bas à droite : (x_max, y_max)

Les coordonnées de la boîte englobante sont calculées par rapport au coin supérieur gauche de l'image.

Il existe plusieurs formats d'annotation de boîte englobante, chacun utilisant sa propre représentation des coordonnées de la boîte englobante.

un. Albumentations

Ils utilisent quatre valeurs pour représenter la boîte englobante - [x_min, y_min, x_max, y_max] - qui sont normalisées en divisant les coordonnées en pixels pour l'axe des x par la largeur et l'axe des y par la hauteur de l'image.

Disons que les coordonnées de la boîte englobante sont : x1 = 678, y1 = 24 ; x2 = 543, y2= 213.

Soit largeur = 870, Hauteur = 789

Alors, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentations utilise et interprète ces valeurs en interne avec des cadres de délimitation et les améliore.

b. COCO

Il s'agit d'un format utilisé par le jeu de données Common Objects in Context COCO. Au format COCO, une boîte englobante est représentée par quatre valeurs : (x_min, y_min, largeur, hauteur). Essentiellement, ils font référence au coin supérieur gauche ainsi qu'à la largeur et à la hauteur de la boîte englobante.

c. YOLO

Dans ce format, une boîte englobante est présentée avec quatre valeurs :(x_center, y_center, width, height). Ici, x_center et y_center désignent les coordonnées x et y normalisées du centre de la boîte englobante. Pour normaliser, la coordonnée x du centre par la largeur de l'image et la coordonnée y du centre par la hauteur de l'image. Les valeurs de largeur et de hauteur sont également normalisées.

ré. PASCAL

Au format Pascal, la boîte englobante est représentée par les coordonnées en haut à gauche et en bas à droite. Ainsi, les valeurs codées en pixels sont : [x_min, y_min, x_max, y_max]. Ici, [x_min, y_min] est celui du coin supérieur gauche, tandis que [x_max, y_max] désigne le coin inférieur droit de la boîte englobante.

Vous souhaitez automatiser les tâches manuelles répétitives ? Économisez du temps, des efforts et de l'argent tout en améliorant l'efficacité !

Précautions et meilleures pratiques lors de l'utilisation des boîtes englobantes

Certaines précautions et bonnes pratiques sont recommandées pour une utilisation optimale des cadres de délimitation dans le traitement d'image. Ils comprennent:

Variations de taille de boîte

L'utilisation de toutes les boîtes englobantes de la même taille ne donnera pas de résultats précis. Entraîner vos modèles sur des boîtes englobantes de même taille rendrait le modèle moins performant. Par exemple, si le même objet semble plus petit, le modèle peut ne pas le détecter. Dans le cas d'objets apparaissant plus grands que prévu, cela peut occuper un plus grand nombre de pixels et ne pas fournir la position et l'emplacement précis de l'objet. L'essentiel est de garder à l'esprit la variation de taille et de volume de l'objet pour obtenir les résultats souhaités.

Étanchéité parfaite au pixel près

L'étanchéité est un facteur crucial. Cela signifie que les bords de la boîte englobante doivent être aussi proches que possible de l'objet en question pour des résultats précis. Des écarts constants peuvent avoir un impact sur la précision de la détermination de la zone de chevauchement entre la prédiction du modèle et l'objet réel, créant ainsi des problèmes.

Éléments en diagonale placés dans des boîtes englobantes

Le problème rencontré avec les éléments placés en diagonale dans une boîte englobante est qu'ils occupent considérablement moins d'espace à l'intérieur de la boîte par rapport à l'arrière-plan. Cependant, s'il est exposé plus longtemps, le modèle peut supposer que la cible est l'arrière-plan car cela consomme plus d'espace. Ainsi, comme meilleure pratique, il est recommandé d'utiliser des polygones et une segmentation d'instance pour les objets diagonaux. Pourtant, il est possible d'enseigner les modèles avec une boîte englobante avec une bonne quantité de données d'apprentissage.

Réduire le chevauchement des boîtes

Il est toujours prudent d'éviter les chevauchements d'annotations dans tous les scénarios. Parfois, cela peut causer tellement d'encombrement que seules certaines cases qui se chevauchent peuvent finalement être visibles. Les objets qui ont un chevauchement d'étiquetage avec d'autres entités produisent des résultats relativement pires. Le modèle ne parviendra pas à différencier l'objet cible des autres éléments en raison d'un chevauchement excessif. Dans de tels cas, des polygones peuvent être utilisés pour une plus grande précision.

Conclusion

Le traitement d'images est un domaine technologique émergent qui offre un large champ d'application. Cela dit, les boîtes englobantes constituent la technique de traitement d'image la plus couramment appliquée.

Pour résumer, les boîtes englobantes sont une méthode d'annotation d'image pour former des modèles d'apprentissage automatique basés sur l'IA. Il est utilisé pour la détection d'objets et la reconnaissance de cibles dans un large éventail d'applications, notamment les robots, les drones, les véhicules autonomes, les caméras de surveillance et d'autres dispositifs de vision artificielle.

Ressources suggérées :

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1

nanonets API OCR et OCR en ligne avoir beaucoup intéressant cas d'utilisation tCela pourrait optimiser les performances de votre entreprise, réduire les coûts et stimuler la croissance. Découvre ça comment les cas d'utilisation de Nanonets peuvent s'appliquer à votre produit.

Horodatage: 25 août 202225 août 2022