Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Beeldverwerking en begrenzingsvakken voor OCR

Technologie blijft evolueren, en wij ook. Met de opkomst van kunstmatige intelligentie en machine learning is de focus verschoven naar automatisering. Dat gezegd hebbende, worden verschillende informaticadisciplines geïntroduceerd om de toepassingen van deze opkomende trends te bestuderen en te verkennen.

Een voorbeeld hiervan is afbeelding verwerken. In eenvoudige taal verwijst het naar het verkennen van afbeeldingen om zinvolle informatie te trekken. Hoewel er verschillende technieken beschikbaar zijn om dit te bereiken, is de meest gebruikte: begrenzende vakken.

Deze blog gaat dieper in op verschillende aspecten van begrenzingsvakken. Het omvat wat ze zijn, hoe ze werken in beeldverwerking, parameters die ze definiëren, conventies die ze specificeren, veelvoorkomende gebruiksgevallen, voorzorgsmaatregelen en best practices, en meer.

Laten we erin duiken.

Beeldverwerking verwijst naar het uitvoeren van bepaalde bewerkingen op een afbeelding om deze te verbeteren of om waardevolle inzichten te extraheren uit de kenmerken of attributen die ermee verbonden zijn. Tegenwoordig is beeldverwerking een belangrijk onderzoeksgebied op het gebied van engineering en computertechnologie.

Beeldverwerking kan op twee manieren gebeuren: analoge beeldverwerking en digitale beeldverwerking.

Analoge beeldverwerking omvat het gebruik van gedrukte kopieën van afdrukken en foto's om afbeeldingen te analyseren en te manipuleren. Beeldanalisten gebruiken verschillende methoden om deze beeldkopieën te interpreteren en zinvolle resultaten te verkrijgen.

Digitale beeldverwerking maakt gebruik van digitale beelden en interpreteert deze met behulp van computers. Het is een subcategorie van digitale signaalverwerking en gebruikt algoritmen om digitale beelden te verwerken. Het biedt voordelen ten opzichte van analoge beeldverwerking, zoals algoritmen om ruis en vervorming bij de verwerking te voorkomen.

Digitale beeldverwerking heeft verschillende toepassingen op het gebied van geneeskunde, productie, e-commerce en meer.


Begrenzingskaders in beeldverwerking

In het begin is het begrenzingsvak een denkbeeldig rechthoekig vak dat een object en een set gegevenspunten bevat. In de context van digitale beeldverwerking geeft het selectiekader de coördinaten van de grens aan op de X- en Y-assen die een afbeelding omsluiten. Ze worden gebruikt om een ​​doel te identificeren en dienen als referentie voor objectdetectie en genereren een botsingsbox voor het object.

Wat zijn begrenzingsvakken?

Begrenzingsvakken zijn de belangrijkste elementen en een van de belangrijkste beeldverwerkingstools voor video-annotatieprojecten. In wezen is een begrenzingsvak een denkbeeldige rechthoek die het object in een afbeelding omlijnt als onderdeel van een machine learning-projectvereiste. Het denkbeeldige rechthoekige kader omsluit het object in het beeld.

Begrenzingsvakken specificeren de positie van het object, de klasse en betrouwbaarheid die de mate van waarschijnlijkheid aangeeft dat het object daadwerkelijk in het begrenzingsvak aanwezig is.

Computervisie biedt geweldige toepassingen - van zelfrijdende auto's tot gezichtsherkenning en meer. En dit wordt op zijn beurt mogelijk gemaakt door beeldverwerking.

Dus, is beeldverwerking zo eenvoudig als het tekenen van rechthoeken of patronen rond objecten? Nee. Dat gezegd hebbende, wat doen begrenzingsvakken?

Laten we het begrijpen.

Hoe werken begrenzingsvakken bij beeldverwerking?

Zoals vermeld, is het begrenzingskader een denkbeeldige rechthoek die fungeert als referentiepunt voor objectdetectie en een botsingskader voor het object ontwikkelt.

Dus, hoe helpt het gegevensannotators? Welnu, professionals gebruiken het idee van begrenzingsvakken om denkbeeldige rechthoeken over de afbeeldingen te tekenen. Ze creëren contouren van de objecten in kwestie binnen elke afbeelding en definiëren de X- en Y-coördinaten. Dit maakt het werk van machine learning-algoritmen eenvoudiger, waardoor ze botsingspaden en dergelijke kunnen vinden, waardoor computerbronnen worden bespaard.

In de onderstaande afbeelding is elk voertuig bijvoorbeeld een belangrijk object waarvan de positie en locatie essentieel zijn voor het trainen van de machine learning-modellen. Gegevensannotators gebruiken de techniek van de begrenzingsvakken om de rechthoeken rond elk van deze objecten, in dit geval voertuigen, te tekenen.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: keymarkr

Vervolgens gebruiken ze de coördinaten om de positie en locatie van elk object te begrijpen, wat handig is om de machine learning-modellen te trainen. Een enkel selectiekader biedt geen goede voorspellingssnelheid. Voor verbeterde objectdetectie moeten meerdere begrenzingsvakken worden gebruikt in combinatie met methoden voor gegevensvergroting.

Begrenzingskaders zijn zeer efficiënte en robuuste beeldannotatietechnieken die de kosten aanzienlijk verlagen.

Parameters die een begrenzingskader definiëren

De parameters zijn gebaseerd op de conventies die worden gebruikt om het selectiekader op te geven. De belangrijkste gebruikte parameters zijn:

  • Klasse: het geeft het object binnen het selectiekader aan, bijvoorbeeld auto's, huizen, gebouwen, enz.
  • (X1, Y1): Dit verwijst naar de X- en Y-coördinaten van de linkerbovenhoek van de rechthoek.
  • (X2, Y2): Dit verwijst naar de X- en Y-coördinaten van de rechterbenedenhoek van de rechthoek.
  • (Xc, Yc): Dit verwijst naar de X- en Y-coördinaten van het midden van het selectiekader.
  • Breedte: Dit geeft de breedte van het selectiekader aan.
  • Hoogte: Dit geeft de hoogte van het selectiekader aan.
  • Vertrouwen: dit vertegenwoordigt de mogelijkheid dat het object zich in de doos bevindt. Stel, het vertrouwen is 0.9. Dit betekent dat er een kans van 90% is dat het object daadwerkelijk in de doos aanwezig zal zijn.

Conventies die een begrenzingskader specificeren

Bij het specificeren van een begrenzingsvak moeten meestal twee hoofdconventies worden opgenomen. Dit zijn:

  • De X- en Y-coördinaten van de punten linksboven en rechtsonder van de rechthoek.
  • De X- en Y-coördinaten van het midden van het selectiekader, samen met de breedte en hoogte.

Laten we dit illustreren met het voorbeeld van een auto.

a. Met betrekking tot de eerste conventie wordt het selectiekader gespecificeerd volgens de coördinaten van de punten linksboven en rechtsonder.

Bron: AnalyseVidhya

b. Met betrekking tot de tweede conventie wordt het begrenzingsvak beschreven volgens de middencoördinaten, breedte en hoogte.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: AnalyseVidhya

Afhankelijk van de use case is het mogelijk om te converteren tussen de verschillende conventietypes.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Breedte = (X2 – X1)
  • Hoogte = (Y2 – Y1)

Begrenzingsvakken uitgelegd met programmeercode

Laten we nog een voorbeeld bekijken over de locatie of positie van een object met codefragmenten.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

We laden de afbeelding die voor deze illustratie moet worden gebruikt. De afbeelding heeft links een hond en rechts een kat. Er zijn twee objecten - een hond en een kat in de afbeelding.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Laten we de x en y nemen als coördinaten voor de linkerboven- en rechterbenedenhoek van het selectiekader. Zeg, (x1,y1) en (x2,y2). Laten we op dezelfde manier kijken naar de (x,y) - ascoördinaten voor het midden van het selectiekader, samen met de breedte en hoogte.

Vervolgens definiëren we twee functies om deze vormen te converteren: box_corner_to_center converteert de two-corner representatie naar de center-height-width representatie en box_center_to_corner doet het vice versa.

De invoerargumentvakken moeten een tweedimensionale tensor van vorm (n,4) zijn, waarbij n het aantal begrenzingsvakken is.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Laten we vervolgens de begrenzingsvakken van de hond en de kat op de afbeelding definiëren op basis van de coördinatengegevens.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Om de juistheid van de conversiefuncties van de twee begrenzingsvakken te verifiëren, kunnen we twee keer converteren.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Vervolgens kunnen we de begrenzingsvakken van de objecten op de afbeelding tekenen om te controleren of ze juist zijn. Daarvoor definiëren we een functie bbox_t_rect die het begrenzingsvak vertegenwoordigt in het relevante formaat van het matplotlib-pakket.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Nu we de begrenzingsvakken van de honden- en kattenobjecten aan de afbeelding hebben toegevoegd, zien we dat de hoofdomtrek van deze objecten zich binnen de twee vakken bevindt.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: d2i


Wilt u repetitieve handmatige taken automatiseren? Bekijk onze Nanonets workflow-gebaseerde documentverwerkingssoftware. Extraheer gegevens van facturen, identiteitskaarten of elk ander document op de automatische piloot!


Veelvoorkomende gebruiksgevallen van begrenzingsvakken

Objectlokalisatie van zelfrijdende voertuigen

Begrenzingsdozen zijn een integraal onderdeel van het trainen van zelfrijdende of autonome voertuigen om objecten op de weg te identificeren, zoals gebouwen, verkeerslichten, eventuele obstakels en meer. Ze helpen bij het annoteren van obstakels en stellen robots in staat om het voertuig veilig te besturen en ongevallen te voorkomen, zelfs in geval van opstoppingen.

Robotica-beelden

Beeldannotatietechnieken zoals begrenzingskaders worden veel gebruikt om de gezichtspunten van robots en drones te markeren. Deze autonome voertuigen helpen bij het classificeren van objecten op aarde met behulp van de foto's die zijn verkregen met deze annotatiemethode.

Afbeelding taggen voor e-commerce en detailhandel

Annotaties met begrenzingsvakken helpen de productvisualisatie te verbeteren, wat een groot pluspunt is in e-commerce en detailhandel. Modellen die zijn getraind op vergelijkbare items kunnen annotaties geven aan objecten zoals modekleding, accessoires, meubels, cosmetica, enz., nauwkeuriger als ze correct zijn geëtiketteerd. Hieronder staan ​​enkele van de uitdagingen die worden aangepakt door annotaties met begrenzingsvakken in de detailhandel:

  • Onjuiste zoekresultaten

Als zoeken de enige manier is waarop klanten de eCommerce-site kunnen vinden, kunnen onjuiste catalogusgegevens resulteren in onnauwkeurige zoekresultaten, waardoor het klantverkeer niet naar de site wordt geleid.

  • Ongeorganiseerde toeleveringsketens

Voor degenen die hun detailhandel willen uitbreiden zodat jaarlijks miljoenen producten kunnen worden verzonden, wordt het noodzakelijk om de offline en online gegevens synchroon te houden.

  • Continue digitalisering

Het is van cruciaal belang om alle producten systematisch en snel te digitaliseren en te taggen om ervoor te zorgen dat klanten geen nieuwe kansen missen. Bovendien moeten de tags in een context staan, waaraan het moeilijk wordt vast te houden naarmate de detailhandel groeit en er meer producten worden toegevoegd.

Detecteert autoverlies voor verzekeringsclaims

De techniek van begrenzingsvakken helpt bij het volgen van auto's, fietsen of andere voertuigen die bij een ongeval zijn beschadigd. Machine learning-modellen gebruiken deze afbeeldingen uit begrenzingsvakken om de positie en intensiteit van verliezen te begrijpen. Dit helpt bij het voorspellen van de kosten van geleden verliezen, op basis waarvan klanten hun schatting kunnen presenteren voordat ze een rechtszaak aanspannen.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: Superannoteren

Binnenartikelen detecteren

Begrenzingsdozen helpen computers bij het detecteren van items binnenshuis, zoals bedden, banken, bureaus, kasten of elektrische apparaten. Hierdoor krijgen computers een gevoel van ruimte en de soorten objecten die aanwezig zijn, met hun afmetingen en locatie. Dit helpt op zijn beurt machine learning-modellen bij het identificeren van deze items in een echte situatie.

Begrenzingsvakken worden veel gebruikt in foto's als een diepgaand leermiddel om verschillende soorten objecten te begrijpen en te interpreteren.

Identificatie van ziekten en plantengroei in de landbouw

Vroege opsporing van plantenziekten helpt boeren ernstige verliezen te voorkomen. Met de opkomst van smart farming ligt de uitdaging in het trainen van data om machine learning-modellen te leren om plantenziekten op te sporen. Begrenzingsdozen zijn een belangrijke drijfveer die machines de nodige visie geven.

Verwerkende industrie

Objectdetectie en identificatie van items in industrieën is een essentieel aspect van de productie. Met AI-compatibele robots en computers wordt de rol van handmatige interventie verminderd. Dat gezegd hebbende, spelen begrenzingsvakken een cruciale rol door de machine learning-modellen te helpen trainen om industriële componenten te lokaliseren en te detecteren. Bovendien hebben processen zoals kwaliteitscontrole, sortering en assemblagelijnoperaties, die allemaal deel uitmaken van kwaliteitsbeheer, objectdetectie nodig.

Medische beeldvorming

Begrenzingsdozen vinden ook toepassingen in de gezondheidszorg, zoals in medische beeldvorming. De techniek van medische beeldvorming houdt zich bezig met het detecteren van anatomische objecten zoals het hart en vereist een snelle en nauwkeurige analyse. Met begrenzingsdozen kunnen de machine learning-modellen worden getraind, die vervolgens het hart of andere organen snel en nauwkeurig kunnen detecteren.

Geautomatiseerde CCTV's

Geautomatiseerde CCTV's zijn een vereiste in de meeste residentiële, commerciële en andere instellingen. Vaak is een hoge geheugenopslag vereist om de vastgelegde CCTV-beelden lang te bewaren. Met objectdetectietechnieken zoals begrenzingskaders kan ervoor worden gezorgd dat het beeldmateriaal alleen wordt opgenomen wanneer bepaalde objecten worden geïdentificeerd. Begrenzingsdozen kunnen de machine learning-modellen trainen, die alleen die objecten detecteren en op dat moment kunnen de beelden worden vastgelegd. Dit zou ook helpen de hoeveelheid opslagruimte die nodig is voor CCTV te minimaliseren en de kosten te verlagen.

Gezichtsherkenning en detectie

Gezichtsherkenning biedt meerdere toepassingen, zoals het wordt gebruikt bij biometrische bewaking. Bovendien gebruiken verschillende instanties zoals banken, luchthavens, winkels, stadions en andere instellingen gezichtsherkenning om misdaden en geweld te voorkomen. Dat gezegd hebbende, gezichtsdetectie is een belangrijk element van computervisie waarbij beeldverwerking betrokken is. En ook hier kunnen begrenzingsvakken worden gebruikt als een effectief hulpmiddel voor tekenherkenning.


Wilt u gebruik maken van robotachtige procesautomatisering? Bekijk Nanonets op workflow gebaseerde documentverwerkingssoftware. Geen code. Geen gedoe platform.


Begrenzingsvakken voor karakterherkenning

Objectdetectie omvat: beeldclassificatie en objectlokalisatie. Dit betekent dat een computer om een ​​object te detecteren, moet weten om welk object het gaat en waar het zich bevindt. Afbeeldingsclassificatie wijst een klasselabel toe aan een afbeelding. Objectlokalisatie is gerelateerd aan het tekenen van het begrenzingskader rond het betreffende object in een afbeelding.

Het proces omvat een annotator die de begrenzingskaders rond de objecten tekent en ze labelt. Dit helpt het algoritme te trainen en stelt het in staat te begrijpen hoe het object eruitziet. Als eerste stap voor objectdetectie moet de afbeeldingsgegevensset labels hebben.

Volg de onderstaande stappen om een ​​afbeelding te labelen:

  • Kies de dataset die u wilt trainen en testen. Maak er een map van.
  • Laten we het voorbeeld nemen van een gezichtsdetectieproject zoals: BTS, Avenger, enz.
  • Maak mapnaamgegevens.
  • Maak in Google Drive een map met de naam FaceDetection.
  • Maak in de map FaceDetection een map van de afbeelding.
  • Maak in de afbeeldingsmap mappen van de testafbeelding, test-XML, treinafbeelding en trein-XML.
Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron:industrieel

Download en upload nu in de map met treinafbeeldingen 10-15 afbeeldingen van BTS en Avengers in JPEG-indeling. Doe hetzelfde in de map met testafbeeldingen voor 5-6 afbeeldingen. Het wordt aanbevolen om meer afbeeldingen in de dataset te hebben voor nauwkeurige resultaten.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: industrieel

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: industrieel

Genereer vervolgens een XML-bestand voor elke afbeelding van de testafbeelding en train afbeeldingsmappen

Download en klik op windows v_1.8.0. Klik op het .exe-bestand van GitHub en druk op Uitvoeren.

Klik vervolgens op de open map om de map van de afbeelding te selecteren. U ziet de afbeelding die moet worden gelabeld. Om een ​​label te geven, drukt u op W op het toetsenbord en klikt u met de rechtermuisknop en sleept u de cursor om het vak rond het object te tekenen. Geef het een naam en klik op OK.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: industrieel

Sla vervolgens de afbeelding op om het XML-bestand van de afbeelding in de afbeeldingsmap te genereren, zoals hieronder weergegeven.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: industrieel

Open het XML-bestand om de coördinaten te zien.

Beeldverwerking en begrenzingsvakken voor OCR PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bron: industrieel

Herhaal de procedure voor alle afbeeldingen om de XML-bestanden te genereren en zoek naar de coördinaten.


Als je met facturen en bonnen werkt of je zorgen maakt over ID-verificatie, bekijk dan Nanonets online-OCR or PDF-tekstextractor om tekst uit PDF-documenten te extraheren gratis. Klik hieronder voor meer informatie over Nanonets Enterprise Automation-oplossing.


Verschillende annotatie-indelingen die worden gebruikt in begrenzingsvakken

In wezen heeft een selectiekader 4 punten in (x,y)-assen die de hoeken vertegenwoordigen:

Linksboven : (x_min, y_min)

Rechtsboven: (x_max, y_min)

Linksonder:(x_min, y_max)

Rechtsonder: (x_max, y_max)

De coördinaten van het selectiekader worden berekend ten opzichte van de linkerbovenhoek van de afbeelding.

Er zijn verschillende formaten voor begrenzingsvakken, die elk hun eigen weergave van de coördinaten van het begrenzingsvak gebruiken.

a. Albumentaties

Ze gebruiken vier waarden om het selectiekader weer te geven - [x_min, y_min, x_max, y_max] - die worden genormaliseerd door de coördinaten in pixels voor de x-as te delen door de breedte en de y-as door de hoogte van de afbeelding.

Stel dat de coördinaten van het selectiekader zijn: x1 = 678, y1 = 24; x2 = 543, y2= 213.

Laat breedte = 870, Hoogte = 789

Dan, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentations gebruikt en interpreteert deze waarden intern met begrenzingsvakken en verbetert ze.

B. COCO

Dit is een formaat dat wordt gebruikt door de Common Objects in Context COCO-dataset. In COCO-formaat wordt een selectiekader weergegeven door vier waarden: (x_min, y_min, breedte, hoogte). In wezen verwijzen ze naar de linkerbovenhoek en de breedte en hoogte van het selectiekader.

C. YOLO

In dit formaat wordt een selectiekader gepresenteerd met vier waarden: (x_center, y_center, width, height). Hier duiden x_center en y_center de genormaliseerde x- en y-coördinaten van het midden van het selectiekader aan. Om te normaliseren, de x-coördinaat van het midden door de breedte van de afbeelding en de y-coördinaat van het midden door de hoogte van de afbeelding. De waarden van breedte en hoogte zijn ook genormaliseerd.

D. PASCAL

In het Pascal-formaat wordt het selectiekader weergegeven door de coördinaten linksboven en rechtsonder. De waarden gecodeerd in pixels zijn dus: [x_min, y_min, x_max, y_max]. Hier is [x_min, y_min] die van de linkerbovenhoek, terwijl [x_max, y_max] de rechterbenedenhoek van het selectiekader aangeeft.


Wilt u repetitieve handmatige taken automatiseren? Bespaar tijd, moeite en geld en verbeter de efficiëntie!


Voorzorgsmaatregelen en best practices bij het gebruik van begrenzingsvakken

Sommige voorzorgsmaatregelen en best practices worden aanbevolen voor optimaal gebruik van omsluitende kaders bij beeldverwerking. Ze bevatten:

Variaties in doosgrootte

Het gebruik van alle begrenzingsvakken van dezelfde grootte geeft geen nauwkeurige resultaten. Door uw modellen te trainen op begrenzingsvakken van dezelfde grootte, zou het model slechter presteren. Als hetzelfde object bijvoorbeeld kleiner lijkt, kan het model het mogelijk niet detecteren. In het geval dat objecten groter lijken dan verwacht, kan het een groter aantal pixels in beslag nemen en niet de exacte positie en locatie van het object geven. De crux is om rekening te houden met de variatie in grootte en volume van het object om de gewenste resultaten te bereiken.

Pixel-perfecte dichtheid

Strakheid is een cruciale factor. Dit betekent dat de randen van het selectiekader zo dicht mogelijk bij het object in kwestie moeten zijn voor nauwkeurige resultaten. Consistente hiaten kunnen van invloed zijn op de nauwkeurigheid bij het bepalen van het overlapgebied tussen de voorspelling van het model en het werkelijke object, waardoor problemen ontstaan.

Diagonale items geplaatst in begrenzingsvakken

Het probleem met items die diagonaal in een begrenzingsvak zijn geplaatst, is dat ze aanzienlijk minder ruimte in het vak innemen in vergelijking met de achtergrond. Als het model echter langer wordt blootgesteld, kan het veronderstellen dat het doel de achtergrond is, omdat dat meer ruimte in beslag neemt. Als best practice wordt daarom aanbevolen om polygonen en instantiesegmentatie te gebruiken voor diagonale objecten. Toch is het mogelijk om de modellen aan te leren met een begrenzingsvak met een flinke hoeveelheid trainingsdata.

Doosoverlap verminderen

Het is altijd veilig om overlappingen van annotaties in alle scenario's te vermijden. Soms kan dit zoveel rommel veroorzaken dat uiteindelijk slechts enkele overlappende vakken zichtbaar zijn. Objecten die een labeloverlap hebben met andere entiteiten, produceren relatief slechtere resultaten. Het model kan geen onderscheid maken tussen het doelobject en andere items vanwege overmatige overlapping. In dergelijke gevallen kunnen polygonen worden gebruikt voor een hogere nauwkeurigheid.

Conclusie

Beeldverwerking is een opkomend technologiegebied dat een breed toepassingsgebied biedt. Dat gezegd hebbende, begrenzingskaders vormen de meest toegepaste beeldverwerkingstechniek.

Kortom, begrenzingsvakken zijn een methode voor het annoteren van afbeeldingen om AI-gebaseerde machine learning-modellen te trainen. Het wordt gebruikt voor objectdetectie en doelherkenning in een breed scala aan toepassingen, waaronder robots, drones, autonome voertuigen, bewakingscamera's en andere machine vision-apparaten.

Voorgestelde bronnen:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Nanonetten online OCR & OCR API hebben veel interessante use cases that kan uw bedrijfsprestaties optimaliseren, kosten besparen en de groei stimuleren. Ontdek hoe de use-cases van Nanonets van toepassing kunnen zijn op uw product.


Tijdstempel:

Meer van AI en machine learning