Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Bildebehandling og avgrensningsbokser for OCR

Teknologien fortsetter å utvikle seg, og det gjør vi også. Med fremveksten av kunstig intelligens og maskinlæring har fokus skiftet mot automatisering. Når det er sagt, introduseres ulike informatikkdisipliner for å studere og utforske anvendelsene av disse nye trendene.

Et slikt eksempel er bildebehandling. På enkelt språk refererer det til å utforske bilder for å tegne meningsfull informasjon. Mens flere teknikker er tilgjengelige for å oppnå dette, er den mest brukte - avgrensende bokser.

Denne bloggen fordyper seg i ulike aspekter ved avgrensningsbokser. Det inkluderer hva de er, hvordan de fungerer i bildebehandling, parametere som definerer dem, konvensjoner som spesifiserer dem, vanlige brukstilfeller, forholdsregler og beste praksis, og mer.

La oss dykke inn.

Bildebehandling refererer til å utføre visse operasjoner på et bilde enten for å forbedre det eller trekke ut verdifull innsikt fra funksjonene eller attributtene knyttet til det. I dag er bildebehandling et primært forskningsområde innen ingeniør- og datateknologistudier.

Bildebehandling kan gjøres ved hjelp av to metoder - analog bildebehandling og digital bildebehandling.

Analog bildebehandling innebærer å bruke papirkopier av utskrifter og fotografier for å analysere og manipulere bilder. Bildeanalytikere bruker ulike metoder for å tolke disse bildekopiene og trekke ut meningsfulle resultater.

Digital bildebehandling bruker digitale bilder og tolker dem ved hjelp av datamaskiner. Det er en underkategori av digital signalbehandling og bruker algoritmer for å behandle digitale bilder. Det gir fordeler fremfor analog bildebehandling, for eksempel algoritmer for å forhindre støy og forvrengning i behandlingen.

Digital bildebehandling har flere bruksområder innen medisin, produksjon, e-handel og mer.


Avgrensningsrammer i bildebehandling

I begynnelsen er avgrensningsboksen en tenkt rektangulær boks som inkluderer et objekt og et sett med datapunkter. I sammenheng med digital bildebehandling, angir avgrensningsboksen grensens koordinater på X- og Y-aksene som omslutter et bilde. De brukes til å identifisere et mål og tjene som referanse for gjenstandsdeteksjon og generere en kollisjonsboks for objektet.

Hva er grensebokser?

Avgrensningsbokser er nøkkelelementene og et av de primære bildebehandlingsverktøyene for videokommentarprosjekter. I hovedsak er en grenseramme et tenkt rektangel som skisserer objektet i et bilde som en del av et maskinlæringsprosjektkrav. Den imaginære rektangulære rammen omslutter objektet i bildet.

Avgrensningsbokser spesifiserer posisjonen til objektet, dets klasse og konfidens som forteller graden av sannsynlighet for at objektet faktisk er tilstede i avgrensningsboksen.

Datasyn tilbyr fantastiske applikasjoner – fra selvkjørende biler til ansiktsgjenkjenning og mer. Og dette er i sin tur muliggjort med bildebehandling.

Så, er bildebehandling så enkelt som å tegne rektangler eller mønstre rundt objekter? Nei. Når det er sagt, hva gjør grensebokser?

La oss forstå.

Hvordan fungerer avgrensningsbokser i bildebehandling?

Som nevnt er grenseboksen et tenkt rektangel som fungerer som et referansepunkt for gjenstandsdeteksjon og utvikler en kollisjonsboks for objektet.

Så hvordan hjelper det dataannotatorer? Vel, profesjonelle bruker ideen om avgrensende bokser til å tegne imaginære rektangler over bildene. De lager konturer av de aktuelle objektene i hvert bilde og definerer X- og Y-koordinatene. Dette gjør jobben med maskinlæringsalgoritmer enklere, og hjelper dem med å finne kollisjonsveier og slikt, og sparer dermed dataressurser.

For eksempel, i bildet nedenfor, er hvert kjøretøy et nøkkelobjekt hvis posisjon og plassering er avgjørende for å trene maskinlæringsmodellene. Dataannotatorer bruker markeringsboksteknikken til å tegne rektanglene rundt hvert av disse objektene – kjøretøy, i dette tilfellet.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: nøkkelmakr

Deretter bruker de koordinatene til å forstå posisjonen og plasseringen til hvert objekt, noe som er nyttig for å trene maskinlæringsmodellene. En enkelt grenseramme gir ikke en god prediksjonshastighet. For forbedret objektdeteksjon må flere avgrensningsbokser brukes i kombinasjon med dataforsterkningsmetoder.

Avgrensningsbokser er svært effektive og robuste bildekommentarteknikker som reduserer kostnadene betraktelig.

Parametere som definerer en grenseramme

Parametrene er basert på konvensjonene som brukes til å spesifisere avgrensningsboksen. De viktigste parametrene som brukes inkluderer:

  • Klasse: Det angir objektet inne i avgrensningsboksen - for eksempel biler, hus, bygninger osv.
  • (X1, Y1): Dette refererer til X- og Y-koordinatene til øverste venstre hjørne av rektangelet.
  • (X2, Y2): Dette refererer til X- og Y-koordinatene til nedre høyre hjørne av rektangelet.
  • (Xc, Yc): Dette refererer til X- og Y-koordinatene til midten av avgrensningsrammen.
  • Bredde: Dette angir bredden på avgrensningsrammen.
  • Høyde: Dette angir høyden på avgrensningsboksen.
  • Tillit: Dette representerer muligheten for at objektet er i boksen. Si at konfidensen er 0.9. Dette betyr at det er 90 % sannsynlighet for at objektet faktisk vil være tilstede inne i boksen.

Konvensjoner som spesifiserer en grenseramme

Når du spesifiserer en avgrensningsramme, må vanligvis to hovedkonvensjoner inkluderes. Disse er:

  • X- og Y-koordinatene til toppen til venstre og nederst til høyre i rektangelet.
  • X- og Y-koordinatene til midten av avgrensningsrammen, sammen med dens bredde og høyde.

La oss illustrere dette med eksempelet på en bil.

en. Med hensyn til den første konvensjonen er avgrensningsrammen spesifisert i henhold til koordinatene til øverste venstre og nederste høyre punkt.

kilde: AnalyticsVidhya

b. Med hensyn til den andre konvensjonen er avgrensningsboksen beskrevet i henhold til senterkoordinatene, bredden og høyden.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: AnalyticsVidhya

Avhengig av brukstilfellet er det mulig å konvertere mellom de ulike konvensjonstypene.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Bredde = (X2 – X1)
  • Høyde = (Y2 – Y1)

Avgrensningsbokser forklart med programmeringskode

La oss se et annet eksempel om plasseringen eller posisjonen til et objekt med kodebiter.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

Vi laster inn bildet som skal brukes til denne illustrasjonen. Bildet har en hund til venstre og en katt til høyre. Det er to objekter - en hund og en katt i bildet.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

La oss ta x og y som koordinater for øvre venstre og nedre høyre hjørne av avgrensningsrammen. Si, (x1,y1) og (x2,y2). På samme måte, la oss vurdere (x,y) – aksekoordinatene for midten av avgrensningsboksen, sammen med bredden og høyden.

Deretter definerer vi to funksjoner for å konvertere disse formene: box_corner_to_center konverterer to-hjørne-representasjonen til center-height-width-representasjonen og box_center_to_corner gjør det omvendt.

Inndataargumentboksene må være en todimensjonal formtensor (n,4), der n er antallet avgrensende bokser.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

La oss deretter definere grenseboksene til hunden og katten på bildet basert på koordinatdataene.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

For å verifisere riktigheten av konverteringsfunksjonene for de to avgrensende rammene, kan vi konvertere to ganger.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

Deretter kan vi tegne avgrensningsboksene til objektene på bildet for å sjekke om de er nøyaktige. Før det definerer vi en funksjon bbox_t_rect som representerer grenseboksen i det relevante formatet til matplotlib-pakken.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

Nå, etter å ha lagt til avgrensningsboksene til hunde- og katteobjektene i bildet, ser vi at hovedomrisset av disse objektene er innenfor de to boksene.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: d2i


Ønsker du å automatisere repeterende manuelle oppgaver? Sjekk vår Nanonets arbeidsflyt-baserte dokumentbehandlingsprogramvare. Trekk ut data fra fakturaer, identitetskort eller et hvilket som helst dokument på autopilot!


Vanlige brukstilfeller av avgrensningsbokser

Objektlokalisering av selvkjørende kjøretøy

Begrensningsbokser er integrert i trening av selvkjørende eller autonome kjøretøy for å identifisere objekter på veien som bygninger, trafikksignaler, eventuelle hindringer og mer. De bidrar til å kommentere eventuelle hindringer og gjør det mulig for roboter å kjøre kjøretøyet trygt og forhindre ulykker, selv i tilfelle overbelastning.

Robotikk bilder

Teknikker for bildekommentarer som avgrensende bokser er mye brukt for å markere synspunktene til roboter og droner. Disse autonome kjøretøyene hjelper til med å klassifisere objekter på jorden ved å bruke fotografiene som er hentet fra denne merknadsmetoden.

Bildemerking for e-handel og detaljhandel

Avgrensende bokskommentarer bidrar til å forbedre produktvisualiseringen, noe som er et stort pluss i e-handel og detaljhandel. Modeller som er trent på lignende gjenstander, kan kommentere objekter som moteklær, tilbehør, møbler, kosmetikk osv., mer presist når de er riktig merket. Nedenfor er noen av utfordringene som tas opp av merknader med avgrensende bokser i detaljhandelen:

  • Feil søkeresultater

Hvis søk er den eneste måten kunder kan snuble over e-handelssiden, kan feil katalogdata resultere i unøyaktige søkeresultater, og dermed ikke lede kundetrafikken til nettstedet.

  • Uorganiserte forsyningskjeder

For de som ønsker å utvide sin detaljhandelsvirksomhet slik at millioner av produkter kan sendes årlig, blir det viktig å ha offline og online data synkronisert.

  • Kontinuerlig digitalisering

Det er avgjørende å få alle produkter digitalisert og tagget systematisk og raskt for å sikre at kundene ikke går glipp av nye muligheter. I tillegg må taggene være i kontekst, noe som blir vanskelig å følge ettersom detaljhandelen utvides og flere produkter legges til.

Oppdager biltap for forsikringskrav

Teknikken med å avgrense bokser hjelper med å spore biler, sykler eller andre kjøretøy som er skadet i en ulykke. Maskinlæringsmodeller bruker disse bildene fra avgrensende bokser for å forstå plasseringen og intensiteten til tap. Dette hjelper til med å forutsi kostnadene for tap som påløper, basert på hvilke klienter kan presentere sine estimater før de foretar et søksmål.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: Superannotat

Oppdage innendørs gjenstander

Avgrensningsbokser hjelper datamaskiner med å oppdage innendørs gjenstander som senger, sofaer, skrivebord, skap eller elektriske apparater. Dette lar datamaskiner få en følelse av rom og hvilke typer gjenstander som finnes, med deres dimensjoner og plassering. Dette hjelper på sin side maskinlæringsmodeller med å identifisere disse elementene i en virkelig situasjon.

Avgrensningsbokser er mye brukt i fotografier som et dypt læringsverktøy for å forstå og tolke ulike typer objekter.

Identifikasjon av sykdommer og plantevekst i landbruket

Tidlig påvisning av plantesykdommer hjelper bøndene med å forhindre alvorlige tap. Med fremveksten av smart jordbruk ligger utfordringen i treningsdata for å lære maskinlæringsmodeller for å oppdage plantesykdommer. Begrensningsbokser er en viktig driver som gir maskinene det nødvendige synet.

Produksjonsindustri

Gjenstandsgjenkjenning og identifisering av gjenstander i industrien er et viktig aspekt ved produksjon. Med AI-aktiverte roboter og datamaskiner reduseres rollen til manuell intervensjon. Når det er sagt, spiller grensebokser en avgjørende rolle ved å hjelpe med å trene maskinlæringsmodellene til å lokalisere og oppdage industrielle komponenter. I tillegg trenger prosesser som kvalitetskontroll, sortering og samlebåndsoperasjoner, som alle er en del av kvalitetsstyring, objektdeteksjon.

Medisinsk bildebehandling

Avgrensningsbokser finner også anvendelser i helsesektoren, for eksempel innen medisinsk bildebehandling. Teknikken med medisinsk bildediagnostikk handler om å oppdage anatomiske gjenstander som hjertet og krever rask og nøyaktig analyse. Begrensningsbokser kan brukes til å trene maskinlæringsmodellene, som deretter vil kunne oppdage hjertet eller andre organer raskt og nøyaktig.

Automatiserte CCTV-er

Automatiserte CCTV-er er et mandat i de fleste boliger, kommersielle og andre virksomheter. Ofte kreves det høy minnelagring for å beholde de fangede CCTV-opptakene lenge. Med teknikker for gjenkjenning av objekter som avgrensningsbokser, kan det sikres at opptakene bare tas opp når visse objekter er identifisert. Begrensningsbokser kan trene maskinlæringsmodellene, som vil oppdage bare disse objektene, og på det øyeblikket kan opptakene fanges. Dette vil også bidra til å minimere omfanget av lagring som kreves for CCTV og redusere kostnadene.

Ansiktsgjenkjenning og gjenkjenning

Ansiktsgjenkjenning tilbyr flere bruksområder, slik som den brukes i biometrisk overvåking. Dessuten bruker ulike byråer som banker, flyplasser, butikker, stadioner og andre institusjoner ansiktsgjenkjenning for å forhindre forbrytelser og vold. Når det er sagt, er ansiktsgjenkjenning et viktig element i datasyn som involverer bildebehandling. Og her igjen kan avgrensende bokser brukes som et effektivt verktøy for karaktergjenkjenning.


Vil du bruke robotisert prosessautomatisering? Sjekk ut Nanonets arbeidsflytbasert dokumentbehandlingsprogramvare. Ingen kode. Ingen problemfri plattform.


Avgrensende bokser for karaktergjenkjenning

Objektdeteksjon omfatter – bildeklassifisering og objektlokalisering. Dette betyr at for en datamaskin å oppdage et objekt, må den vite hva som er det aktuelle objektet og hvor det befinner seg. Bildeklassifisering tildeler en klasseetikett til et bilde. Objektlokalisering er relatert til å tegne avgrensningsrammen rundt det aktuelle objektet i et bilde.

Prosessen innebærer at en kommentator tegner avgrensningsboksene rundt objektene og merker dem. Dette hjelper til med å trene algoritmen og lar den forstå hvordan objektet ser ut. Som det første trinnet for objektdeteksjon må bildedatasettet ha etiketter.

Følg trinnene nedenfor for å merke et bilde:

  • Velg datasettet du vil trene og teste. Lag en mappe av det.
  • La oss ta eksemplet med et ansiktsgjenkjenningsprosjekt som: BTS, Avenger, etc.
  • Lag mappenavndata.
  • I Google Disk oppretter du en mappe med navnet FaceDetection.
  • Lag en mappe med bildet i FaceDetection-mappen.
  • I bildemappen lager du mapper av testbildet, test XML, train image og train XML.
Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde:industrielle

Nå, i togbildemappen, last ned og last opp 10-15 bilder av BTS og Avengers i JPEG-format. På samme måte, i testbildemappen, gjør du det samme for 5-6 bilder. Det anbefales å ha flere bilder i datasettet for nøyaktige resultater.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: industrielle

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: industrielle

Deretter genererer du en XML-fil for hvert bilde av testbildet og tren bildemapper

Last ned og klikk på windows v_1.8.0. Klikk på .exe-filen fra GitHub og trykk Kjør.

Klikk deretter på den åpne katalogen for å velge mappen til bildet. Du vil se bildet som må merkes. For å merke, trykk W på tastaturet og høyreklikk og dra markøren for å tegne boksen rundt objektet. Gi den et navn og klikk OK.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: industrielle

Deretter lagrer du bildet for å generere XML-filen til bildet i bildemappen, som vist nedenfor.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: industrielle

Åpne XML-filen for å se koordinatene.

Bildebehandling og avgrensningsbokser for OCR PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kilde: industrielle

Gjenta prosedyren for alle bildene for å generere XML-filene og se etter koordinatene.


Hvis du jobber med fakturaer og kvitteringer eller bekymrer deg for ID-verifisering, sjekk ut Nanonets online OCR or PDF-tekstuttrekk for å trekke ut tekst fra PDF-dokumenter gratis. Klikk nedenfor for å lære mer om Nanonets Enterprise Automation Solution.


Forskjellige merknadsformater brukt i avgrensningsrammer

I hovedsak har en grenseramme 4 punkter i (x,y) akser som representerer hjørnene:

Øverst til venstre: (x_min, y_min)

Øverst til høyre: (x_max, y_min)

Nederst til venstre:(x_min, y_max)

Nederst til høyre: (x_max, y_max)

Koordinatene til avgrensningsboksen beregnes i forhold til øverste venstre hjørne av bildet.

Det finnes flere merknadsformater for markeringsramme, som hver bruker sin egen representasjon av avgrensningsrammekoordinatene.

en. Albumenteringer

De bruker fire verdier for å representere grenseboksen – [x_min, y_min, x_max, y_max] – som normaliseres ved å dele koordinatene i piksler for x-aksen med bredden og y-aksen med høyden på bildet.

Si at koordinatene til avgrensningsboksen er: x1 = 678, y1 = 24; x2 = 543, y2= 213.

La bredde = 870, Høyde = 789

Deretter, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentations bruker og tolker disse verdiene internt med avgrensende bokser og forbedrer dem.

b. COCO

Dette er et format som brukes av Common Objects in Context COCO-datasettet. I COCO-format er en grenseramme representert av fire verdier: (x_min, y_min, width, height). I hovedsak refererer de til øverste venstre hjørne og bredden og høyden på avgrensningsboksen.

c. YOLO

I dette formatet presenteres en grenseramme med fire verdier:(x_center, y_center, width, height). Her betegner x_senter og y_senter de normaliserte x- og y-koordinatene til midten av avgrensningsrammen. For å normalisere, x-koordinaten til sentrum med bredden på bildet og y-koordinaten til sentrum med høyden på bildet. Verdiene for bredde og høyde er også normalisert.

d. PASCAL

I Pascal-formatet er avgrensningsrammen representert av koordinatene øverst til venstre og nederst til høyre. Så verdiene kodet i piksler er: [x_min, y_min, x_max, y_max]. Her er [x_min, y_min] det i det øverste venstre hjørnet, mens [x_max, y_max] angir det nederste høyre hjørnet av avgrensningsrammen.


Ønsker du å automatisere repeterende manuelle oppgaver? Spar tid, innsats og penger samtidig som du øker effektiviteten!


Forholdsregler og beste fremgangsmåter ved bruk av avgrensningsbokser

Noen forholdsregler og beste fremgangsmåter anbefales for optimal bruk av avgrensingsbokser i bildebehandling. De inkluderer:

Variasjoner i boksstørrelse

Bruk av alle avgrensingsbokser av samme størrelse vil ikke gi nøyaktige resultater. Å trene modellene dine på avgrensende bokser av samme størrelse vil gjøre at modellen presterer dårligere. For eksempel, hvis det samme objektet virker mindre i størrelse, kan modellen mislykkes i å oppdage det. I tilfelle objekter som ser ut til å være større enn forventet, kan det ta opp et større antall piksler og ikke gi den nøyaktige posisjonen og plasseringen til objektet. Poenget er å huske på variasjonen i størrelse og volum på objektet for å oppnå ønskede resultater.

Pixel-perfekt tetthet

Tetthet er en avgjørende faktor. Dette betyr at kantene på avgrensningsboksen må være så nær det aktuelle objektet som mulig for nøyaktige resultater. Konsistente hull kan påvirke nøyaktigheten i å bestemme overlappingsområdet mellom modellens prediksjon og det virkelige objektet, og dermed skape problemer.

Diagonale gjenstander plassert i avgrensende bokser

Problemet med elementer som er plassert diagonalt i en avgrensningsboks, er at de tar opp betydelig mindre plass inne i boksen sammenlignet med bakgrunnen. Men hvis den eksponeres lenger, kan modellen anta at målet er bakgrunnen, da det bruker mer plass. Så, som en beste praksis, anbefales det å bruke polygoner og instanssegmentering for diagonale objekter. Likevel er det mulig å lære modellene med en avgrensningsboks med en god mengde treningsdata.

Reduser boksoverlapping

Det er alltid trygt å unngå merknadsoverlapping i alle scenarier. Noen ganger kan dette føre til så mye rot at bare noen overlappende bokser kan bli endelig synlige. Objekter som har en merking overlapper med andre enheter gir relativt dårligere resultater. Modellen klarer ikke å skille mellom målobjektet og andre elementer på grunn av overlapping. I slike tilfeller kan polygoner brukes for høyere nøyaktighet.

konklusjonen

Bildebehandling er et fremvoksende teknologiområde som tilbyr bredt spekter. Når det er sagt, danner avgrensende bokser den mest brukte bildebehandlingsteknikken.

For å oppsummere er avgrensningsbokser en bildekommentarmetode for å trene AI-baserte maskinlæringsmodeller. Den brukes til gjenkjenning av objekter og målgjenkjenning i et bredt spekter av applikasjoner, inkludert roboter, droner, autonome kjøretøy, overvåkingskameraer og andre maskinsynsenheter.

Foreslåtte ressurser:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Nanonetter online OCR & OCR API har mange interessante bruk saker that kan optimalisere forretningsytelsen, spare kostnader og øke veksten. Finne ut hvordan Nanonets brukstilfeller kan gjelde for produktet ditt.


Tidstempel:

Mer fra AI og maskinlæring