Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Kuvankäsittely- ja rajoituslaatikot tekstintunnistusta varten

Tekniikka kehittyy jatkuvasti, niin mekin. Tekoälyn ja koneoppimisen myötä painopiste on siirtynyt kohti automaatiota. Tästä huolimatta erilaisia ​​tietojenkäsittelytieteen tieteenaloja esitellään näiden nousevien suuntausten tutkimiseksi ja sovellusten tutkimiseksi.

Yksi sellainen esimerkki on kuvankäsittely. Yksinkertaisella kielellä se viittaa kuvien tutkimiseen merkityksellisen tiedon hankkimiseksi. Vaikka tämän saavuttamiseksi on saatavilla useita tekniikoita, yleisimmin käytetty on sitovat laatikot.

Tämä blogi perehtyy rajoitusruutujen eri puoliin. Se sisältää mitä ne ovat, kuinka ne toimivat kuvankäsittelyssä, parametrit, jotka määrittävät ne, käytännöt, jotka määrittävät ne, yleiset käyttötapaukset, varotoimet ja parhaat käytännöt ja paljon muuta.

Sukeltava sisään.

Kuvankäsittely tarkoittaa tiettyjen toimintojen suorittamista kuvalle joko sen parantamiseksi tai arvokkaiden oivallusten poimimiseksi siihen liittyvistä ominaisuuksista tai attribuuteista. Nykyään kuvankäsittely on tekniikan ja tietotekniikan opintojen ensisijainen tutkimusalue.

Kuvankäsittely voidaan tehdä kahdella menetelmällä – analogisella kuvankäsittelyllä ja digitaalisella kuvankäsittelyllä.

Analoginen kuvankäsittely sisältää tulosteiden ja valokuvien paperikopioiden käyttämisen kuvien analysointiin ja käsittelyyn. Kuva-analyytikot käyttävät erilaisia ​​menetelmiä näiden kuvakopioiden tulkitsemiseen ja merkityksellisten tulosten poimimiseen.

Digitaalinen kuvankäsittely käyttää digitaalisia kuvia ja tulkitsee niitä tietokoneiden avulla. Se on digitaalisen signaalinkäsittelyn alaluokka ja käyttää algoritmeja digitaalisten kuvien käsittelyyn. Se tarjoaa etuja analogiseen kuvankäsittelyyn verrattuna, kuten algoritmeja, jotka estävät kohinaa ja vääristymiä käsittelyssä.

Digitaalisella kuvankäsittelyllä on useita sovelluksia lääketieteen, valmistuksen, sähköisen kaupankäynnin ja muiden alueilla.


Rajauslaatikot kuvankäsittelyssä

Alussa rajoituslaatikko on kuvitteellinen suorakaiteen muotoinen laatikko, joka sisältää objektin ja joukon tietopisteitä. Digitaalisen kuvankäsittelyn yhteydessä rajoitusruutu ilmaisee reunuksen koordinaatit X- ja Y-akseleilla, jotka ympäröivät kuvaa. Niitä käytetään kohteen tunnistamiseen ja ne toimivat viitteenä kohteen havaitsemiseen ja luovat törmäyslaatikon kohteelle.

Mitä ovat rajoituslaatikot?

Rajoituslaatikot ovat avainelementtejä ja yksi tärkeimmistä kuvankäsittelytyökaluista videomerkintäprojekteissa. Pohjimmiltaan rajaava laatikko on kuvitteellinen suorakulmio, joka ääriviivat kuvassa olevan objektin osana koneoppimisprojektin vaatimusta. Kuvitteellinen suorakaiteen muotoinen kehys sulkee kohteen kuvassa.

Rajauslaatikot määrittävät objektin sijainnin, sen luokan ja luotettavuuden, mikä kertoo todennäköisyyden, että objekti on todella läsnä rajoituslaatikossa.

Tietokonenäkö tarjoaa uskomattomia sovelluksia – itseohjautuvista autoista kasvojentunnistukseen ja paljon muuta. Ja tämä puolestaan ​​on mahdollista kuvankäsittelyn avulla.

Onko kuvankäsittely niin yksinkertaista kuin suorakulmioiden tai kuvioiden piirtäminen esineiden ympärille? Ei. Mitä rajoituslaatikot tekevät?

Ymmärretään.

Kuinka rajoituslaatikot toimivat kuvankäsittelyssä?

Kuten mainittiin, rajoituslaatikko on kuvitteellinen suorakulmio, joka toimii vertailupisteenä kohteen havaitsemisessa ja kehittää törmäyslaatikon objektille.

Joten miten se auttaa datan annotaattoreita? Ammattilaiset piirtävät kuvien päälle kuvitteellisia suorakulmioita käyttämällä kehysten rajaamista. Ne luovat ääriviivat kyseessä oleville kohteille kunkin kuvan sisällä ja määrittelevät sen X- ja Y-koordinaatit. Tämä tekee koneoppimisalgoritmien työstä yksinkertaisempaa, auttaen niitä löytämään törmäyspolut ja vastaavat, mikä säästää laskentaresursseja.

Esimerkiksi alla olevassa kuvassa jokainen ajoneuvo on avainkohde, jonka sijainti ja sijainti ovat oleellisia koneoppimismallien koulutuksessa. Tietojen annotaattorit käyttävät rajauslaatikoiden tekniikkaa suorakulmioiden piirtämiseen kunkin kohteen – tässä tapauksessa ajoneuvojen – ympärille.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: keymakr

Sitten he käyttävät koordinaatteja ymmärtääkseen kunkin kohteen sijainnin ja sijainnin, mikä on hyödyllistä koneoppimismallien kouluttamisessa. Yksittäinen rajausruutu ei tarjoa hyvää ennustetta. Parannettua objektien havaitsemista varten on käytettävä useita rajausruutuja yhdessä tietojen lisäysmenetelmien kanssa.

Rajoituslaatikot ovat erittäin tehokkaita ja kestäviä kuvamerkintöjä, jotka vähentävät kustannuksia huomattavasti.

Rajoituslaatikon määrittävät parametrit

Parametrit perustuvat rajoituslaatikon määrittämiseen käytettyihin käytäntöihin. Keskeisiä käytettyjä parametreja ovat:

  • Luokka: Se tarkoittaa rajoituslaatikon sisällä olevaa kohdetta – esimerkiksi autoja, taloja, rakennuksia jne.
  • (X1, Y1): Tämä viittaa suorakulmion vasemman yläkulman X- ja Y-koordinaatteihin.
  • (X2, Y2): Tämä viittaa suorakulmion oikean alakulman X- ja Y-koordinaatteihin.
  • (Xc, Yc): Tämä viittaa rajauslaatikon keskipisteen X- ja Y-koordinaatteihin.
  • Leveys: Tämä ilmaisee rajoituslaatikon leveyden.
  • Korkeus: Tämä ilmaisee rajoituslaatikon korkeuden.
  • Luottamus: Tämä edustaa mahdollisuutta, että esine on laatikossa. Sanotaan, että luottamus on 0.9. Tämä tarkoittaa, että on 90 %:n todennäköisyys, että esine todellakin on laatikon sisällä.

Rajoituslaatikon määrittelytavat

Kun määritetään rajoitusruutua, on yleensä sisällytettävä kaksi pääkäytäntöä. Nämä ovat:

  • Suorakulmion vasemman ylä- ja alaoikean pisteen X- ja Y-koordinaatit.
  • Rajauslaatikon keskipisteen X- ja Y-koordinaatit sekä sen leveys ja korkeus.

Havainnollistetaan tätä auton esimerkillä.

a. Mitä tulee ensimmäiseen sopimukseen, rajoitusruutu määritetään vasemman ylä- ja alaoikean pisteen koordinaattien mukaan.

Lähde: AnalyticsVidhya

b. Mitä tulee toiseen käytäntöön, rajoituslaatikko kuvataan keskikoordinaattien, leveyden ja korkeuden mukaan.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: AnalyticsVidhya

Käyttötapauksesta riippuen on mahdollista muuntaa eri käytäntötyyppien välillä.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Leveys = (X2 – X1)
  • Korkeus = (Y2 – Y1)

Rajoituslaatikot selitetty ohjelmointikoodilla

Katsotaanpa toinen esimerkki koodinpätkän sisältävän objektin sijainnista tai sijainnista.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Lataamme kuvan käytettäväksi tässä kuvassa. Kuvassa vasemmalla koira ja oikealla kissa. Kuvassa on kaksi esinettä – koira ja kissa.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Otetaan x ja y rajauslaatikon vasemman ja oikean alakulman koordinaatteiksi. Sano, (x1,y1) ja (x2,y2). Samoin tarkastellaan (x,y) – akselikoordinaatteja rajauslaatikon keskipisteelle sekä sen leveys ja korkeus.

Seuraavaksi määritetään kaksi funktiota näiden muotojen muuntamiseksi: box_corner_to_center muuntaa kahden kulman esityksen keskikorkeus-leveysesitykseen ja box_center_to_corner tekee sen päinvastoin.

Syöttöargumenttilaatikoiden on oltava kaksiulotteinen muodon tensori (n,4), jossa n on rajattujen ruutujen lukumäärä.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Seuraavaksi määritellään koiran ja kissan rajaavat laatikot kuvaan koordinaattitietojen perusteella.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Kahden rajauslaatikon muunnosfunktion oikeellisuuden tarkistamiseksi voimme muuntaa kahdesti.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Seuraavaksi voimme piirtää kuvan objektien rajoitusruudut tarkistaaksemme, ovatko ne tarkkoja. Ennen sitä määritämme funktion bbox_t_rect, joka edustaa rajoituslaatikkoa matplotlib-paketin asianmukaisessa muodossa.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Nyt kun olet lisännyt kuvaan koiran ja kissan objektien rajaavat laatikot, näemme, että näiden objektien pääääriviivat ovat kahden laatikon sisällä.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: d2i


Haluatko automatisoida toistuvia manuaalisia tehtäviä? Tarkista Nanonets-työnkulkupohjainen asiakirjankäsittelyohjelmistomme. Poimi tiedot laskuista, henkilökorteista tai mistä tahansa asiakirjasta automaattiohjauksella!


Rajoituslaatikoiden yleiset käyttötapaukset

Itseajavien ajoneuvojen esineiden lokalisointi

Rajoituslaatikot ovat olennainen osa itseohjautuvien tai autonomisten ajoneuvojen koulutuksessa tunnistamaan tiellä olevat kohteet, kuten rakennukset, liikennevalot, mahdolliset esteet ja paljon muuta. Ne auttavat merkitsemään esteet ja antavat roboteille mahdollisuuden ajaa ajoneuvoa turvallisesti ja ehkäistä onnettomuuksia myös ruuhkassa.

Robotiikan kuvat

Kuvamerkintätekniikoita, kuten rajauslaatikoita, käytetään laajasti robottien ja droonien näkökulmien merkitsemiseen. Nämä autonomiset ajoneuvot auttavat luokittelemaan maan päällä olevia esineitä käyttämällä tällä merkintämenetelmällä saatuja valokuvia.

Kuvan merkitseminen verkkokauppaan ja vähittäiskauppaan

Rajaavat merkinnät auttavat parantamaan tuotteiden visualisointia, mikä on suuri plussa verkkokaupassa ja vähittäiskaupassa. Samankaltaisiin esineisiin koulutetut mallit voivat merkitä esineitä, kuten muotivaatteita, asusteita, huonekaluja, kosmetiikkaa jne., tarkemmin, kun ne on merkitty asianmukaisesti. Alla on joitain haasteita, joihin vähittäiskaupan rajoitusruutujen huomautukset puuttuvat:

  • Virheelliset hakutulokset

Jos haku on ainoa tapa, jolla asiakkaat voivat törmätä verkkokauppasivustolle, virheelliset luettelotiedot voivat johtaa epätarkkoihin hakutuloksiin, jolloin asiakasliikenne ei ohjaudu sivustolle.

  • Järjestämättömät toimitusketjut

Niille, jotka haluavat laajentaa vähittäiskauppaansa niin, että miljoonia tuotteita voidaan toimittaa vuosittain, on välttämätöntä synkronoida offline- ja online-tiedot.

  • Jatkuva digitalisointi

On tärkeää, että kaikki tuotteet digitoidaan ja merkitään järjestelmällisesti ja nopeasti, jotta asiakkaat eivät menetä uusia mahdollisuuksia. Lisäksi tunnisteiden tulee olla kontekstissa, johon kiinnittäminen vaikeutuu vähittäiskaupan laajentuessa ja tuotteita tulee lisää.

Havaitsee auton katoamisen vakuutuskorvauksia varten

Rajoituslaatikoiden tekniikka auttaa jäljittämään onnettomuudessa vaurioituneita autoja, polkupyöriä tai muita ajoneuvoja. Koneoppimismallit käyttävät näitä rajauslaatikoiden kuvia ymmärtääkseen häviöiden sijainnin ja voimakkuuden. Tämä auttaa ennakoimaan syntyneiden tappioiden kustannuksia, joiden perusteella asiakkaat voivat esittää arvionsa ennen kanteen nostamista.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: Superannotate

Sisätavaroiden tunnistaminen

Rajoituslaatikot auttavat tietokoneita havaitsemaan sisätiloissa olevia esineitä, kuten sänkyjä, sohvia, työpöytää, kaappia tai sähkölaitteita. Näin tietokoneet saavat tilantuntuman ja läsnä olevien esineiden tyypit niiden mitoilla ja sijainnilla. Tämä puolestaan ​​auttaa koneoppimismalleja tunnistamaan nämä kohteet tosielämässä.

Rajoituslaatikoita käytetään laajalti valokuvissa syvällisenä oppimisvälineenä erilaisten esineiden ymmärtämiseen ja tulkitsemiseen.

Tautien ja kasvien kasvun tunnistaminen maataloudessa

Kasvitautien varhainen havaitseminen auttaa viljelijöitä estämään vakavia menetyksiä. Älykkään maatalouden ilmaantumisen myötä haasteena on kouluttaa dataa koneoppimismallien opettamiseksi havaitsemaan kasvitaudit. Rajoituslaatikot ovat tärkeä tekijä, joka tarjoaa tarvittavan näkemyksen koneille.

Tuotantoteollisuus

Esineiden havaitseminen ja tuotteiden tunnistaminen teollisuudessa on olennainen osa valmistusta. Tekoälyllä varustetuilla roboteilla ja tietokoneilla manuaalisen toiminnan rooli pienenee. Rajoituslaatikoilla on kuitenkin ratkaiseva rooli, koska ne auttavat kouluttamaan koneoppimismalleja paikantamaan ja havaitsemaan teollisia komponentteja. Lisäksi prosessit, kuten laadunvalvonta, lajittelu ja kokoonpanolinjatoiminnot, jotka ovat osa laadunhallintaa, tarvitsevat objektien havaitsemista.

Lääketieteellinen kuvantaminen

Rajoituslaatikot löytävät käyttökohteita myös terveydenhuoltoalalla, kuten lääketieteellisessä kuvantamisessa. Lääketieteellisen kuvantamisen tekniikka käsittelee anatomisten kohteiden, kuten sydämen, havaitsemista ja vaatii nopeaa ja tarkkaa analysointia. Rajoituslaatikoilla voidaan kouluttaa koneoppimismalleja, jotka pystyvät tunnistamaan sydämen tai muut elimet nopeasti ja tarkasti.

Automatisoidut CCTV:t

Automatisoidut CCTV:t ovat mandaatti useimmissa asuin-, kaupallisissa ja muissa laitoksissa. Usein tarvitaan paljon muistia, jotta kaapattu CCTV-materiaali säilyy pitkään. Kohteentunnistustekniikoilla, kuten rajauslaatikoilla, voidaan varmistaa, että materiaali tallennetaan vain, kun tietyt kohteet tunnistetaan. Rajaavat laatikot voivat opettaa koneoppimismalleja, jotka havaitsevat vain kyseiset kohteet ja sillä hetkellä materiaali voidaan kaapata. Tämä auttaisi myös minimoimaan CCTV:n vaatiman tallennustilan määrän ja vähentämään kustannuksia.

Kasvojen tunnistus ja tunnistus

Kasvojentunnistus tarjoaa useita sovelluksia, kuten sitä käytetään biometrisessä valvonnassa. Lisäksi monet virastot, kuten pankit, lentokentät, vähittäiskaupat, stadionit ja muut laitokset käyttävät kasvojentunnistusta rikosten ja väkivallan estämiseen. Kasvojentunnistus on kuitenkin tärkeä osa tietokonenäköä, joka sisältää kuvankäsittelyn. Ja tässäkin rajauslaatikoita voidaan käyttää tehokkaana työkaluna hahmojen tunnistamiseen.


Haluatko käyttää robottiprosessiautomaatiota? Tutustu Nanonets-työnkulkuun perustuvaan asiakirjankäsittelyohjelmistoon. Ei koodia. Ei ongelmia alusta.


Rajoituslaatikot hahmojen tunnistamiseen

Kohteen tunnistus sisältää – kuvan luokituksen ja objektin lokalisoinnin. Tämä tarkoittaa, että tietokoneen havaitsemiseksi kohteen on tiedettävä, mikä on kyseessä ja missä se sijaitsee. Kuvan luokittelu määrittää kuvalle luokkatunnisteen. Objektin lokalisointi liittyy rajoituslaatikon piirtämiseen kuvan kohteen ympärille.

Prosessi sisältää annotaattorin, joka piirtää rajauslaatikot objektien ympärille ja merkitsee ne. Tämä auttaa harjoittamaan algoritmia ja antaa sen ymmärtää, miltä objekti näyttää. Ensimmäisenä vaiheena kohteen havaitsemiseksi kuvatietojoukossa on oltava tunnisteet.

Voit merkitä kuvan seuraavasti:

  • Valitse tietojoukko, jota haluat kouluttaa ja testata. Tee siitä kansio.
  • Otetaan esimerkki kasvojentunnistusprojektista, kuten: BTS, Avenger jne.
  • Tee kansion nimitiedot.
  • Luo Google Drivessa kansio, jonka nimi on FaceDetection.
  • Luo kuvasta kansio FaceDetection-kansioon.
  • Tee kuvakansiossa testikuvan kansiot, testaa XML:ää, harjoittele kuvaa ja harjoittele XML:ää.
Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde:teollinen

Lataa ja lähetä nyt junakuvakansioon 10–15 kuvaa BTS:stä ja Avengersista JPEG-muodossa. Tee samoin testikuvakansiossa 5-6 kuvalle. On suositeltavaa, että tietojoukossa on enemmän kuvia tarkkojen tulosten saamiseksi.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: teollinen

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: teollinen

Luo seuraavaksi XML-tiedosto jokaiselle testikuvan kuvalle ja harjoittele kuvakansioita

Lataa ja napsauta Windows v_1.8.0. Napsauta .exe-tiedostoa GitHubista ja paina Suorita.

Napsauta seuraavaksi avointa hakemistoa valitaksesi kuvan kansio. Näet kuvan, joka on merkittävä. Merkitse nimi painamalla näppäimistön W-näppäintä ja napsauta hiiren kakkospainikkeella ja vedä kohdistinta piirtääksesi laatikon kohteen ympärille. Anna sille nimi ja napsauta OK.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: teollinen

Tallenna seuraavaksi kuva luodaksesi kuvan XML-tiedoston kuvakansioon alla olevan kuvan mukaisesti.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: teollinen

Avaa XML-tiedosto nähdäksesi koordinaatit.

Kuvankäsittely- ja rajoituslaatikot OCR PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Lähde: teollinen

Toista toimenpide kaikille kuville luodaksesi XML-tiedostot ja etsi koordinaatit.


Jos työskentelet laskujen ja kuittien parissa tai olet huolissasi henkilöllisyyden vahvistamisesta, tutustu Nanonetsiin verkossa OCR or PDF-tekstin purku poimia tekstiä PDF-dokumenteista ilmaiseksi. Napsauta alla saadaksesi lisätietoja Nanonets Enterprise Automation Solution.


Erilaisia ​​merkintämuotoja, joita käytetään rajauslaatikoissa

Käytännössä rajoituslaatikossa on 4 pistettä (x,y)-akseleilla, jotka edustavat kulmia:

Ylävasen : (x_min, y_min)

Yläoikea: (x_max, y_min)

Alhaalla vasen: (x_min, y_max)

Alhaalla oikealla: (x_max, y_max)

Rajauslaatikon koordinaatit lasketaan suhteessa kuvan vasempaan yläkulmaan.

Rajoituslaatikoiden merkintämuotoja on useita, joista jokainen käyttää omaa esitystään rajauslaatikon koordinaateista.

a. Albumit

Ne käyttävät neljää arvoa edustamaan rajoitusruutua – [x_min, y_min, x_max, y_max], jotka normalisoidaan jakamalla x-akselin koordinaatit pikseleinä kuvan leveydellä ja y-akselin korkeudella.

Oletetaan, että rajoituslaatikon koordinaatit ovat: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Leveys = 870, korkeus = 789

Sitten [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentations käyttää ja tulkitsee näitä arvoja sisäisesti rajauslaatikoilla ja parantaa niitä.

b. COCO

Tämä on muoto, jota käyttää Common Objects in Context COCO -tietosarja. COCO-muodossa rajoitusruutua edustaa neljä arvoa: (x_min, y_min, leveys, korkeus). Pohjimmiltaan ne viittaavat vasempaan yläkulmaan ja rajoituslaatikon leveyteen ja korkeuteen.

c. ELÄT VAIN KERRAN

Tässä muodossa rajaava laatikko esitetään neljällä arvolla: (x_center, y_center, leveys, korkeus). Tässä x_center ja y_center tarkoittavat rajoituslaatikon keskipisteen normalisoituja x- ja y-koordinaatteja. Normalisoimiseksi keskipisteen x-koordinaatti kuvan leveyden mukaan ja keskustan y-koordinaatti kuvan korkeuden mukaan. Myös leveyden ja korkeuden arvot normalisoidaan.

d. PASCAL

Pascal-muodossa rajoitusruutua edustavat vasemman ylä- ja alaoikean koordinaatit. Joten pikseleinä koodatut arvot ovat: [x_min, y_min, x_max, y_max]. Tässä [x_min, y_min] on vasemman yläkulman arvo, kun taas [x_max, y_max] tarkoittaa rajauslaatikon oikeaa alakulmaa.


Haluatko automatisoida toistuvia manuaalisia tehtäviä? Säästä aikaa, vaivaa ja rahaa samalla kun tehostat!


Varotoimet ja parhaat käytännöt rajoituslaatikoiden käytössä

Joitakin varotoimia ja parhaita käytäntöjä suositellaan rajoitusruutujen optimaaliseen käyttöön kuvankäsittelyssä. Ne sisältävät:

Laatikon koon vaihtelut

Kaikkien samankokoisten rajoitusruutujen käyttäminen ei anna tarkkoja tuloksia. Mallien kouluttaminen samankokoisiin rajoitusruutuihin heikentäisi mallin suorituskykyä. Esimerkiksi jos sama kohde näyttää pienemmältä, malli ei ehkä tunnista sitä. Jos objektit näyttävät odotettua suuremmilta, se voi viedä suuremman määrän pikseleitä eikä anna kohteen tarkkaa sijaintia ja sijaintia. Ydin on pitää mielessä kohteen koon ja tilavuuden vaihtelu haluttujen tulosten saavuttamiseksi.

Pixel-Perfect Tightness

Kireys on ratkaiseva tekijä. Tämä tarkoittaa, että rajoituslaatikon reunojen on oltava mahdollisimman lähellä kyseistä kohdetta tarkkojen tulosten saamiseksi. Johdonmukaiset aukot voivat vaikuttaa tarkkuuteen määritettäessä päällekkäisyyttä mallin ennusteen ja todellisen kohteen välillä, mikä aiheuttaa ongelmia.

Reunuslaatikoihin sijoitetut diagonaaliset kohteet

Rajoituslaatikon sisään vinottain sijoitettujen kohteiden ongelmana on, että ne vievät huomattavasti vähemmän tilaa laatikon sisällä kuin tausta. Jos kuitenkin altistuu pidempään, malli voi olettaa, että kohteena on tausta, koska se vie enemmän tilaa. Joten parhaana käytäntönä on suositeltavaa käyttää polygoneja ja ilmentymien segmentointia diagonaalisille objekteille. Silti malleja on mahdollista opettaa rajoituslaatikolla, jossa on hyvä määrä harjoitustietoja.

Vähennä laatikon päällekkäisyyttä

On aina turvallista välttää merkintöjen päällekkäisyydet kaikissa skenaarioissa. Joskus tämä voi aiheuttaa niin paljon sotkua, että vain jotkin päällekkäiset laatikot voivat lopulta olla näkyvissä. Objektit, joilla on päällekkäisyys muiden yksiköiden kanssa, tuottavat suhteellisen huonompia tuloksia. Malli ei pysty erottamaan kohdeobjektia muista kohteista liiallisen päällekkäisyyden vuoksi. Tällaisissa tapauksissa polygoneja voidaan käyttää tarkkuuden lisäämiseksi.

Yhteenveto

Kuvankäsittely on nouseva teknologian alue, joka tarjoaa laajan valikoiman. Rajoituslaatikot ovat kuitenkin yleisimmin käytetty kuvankäsittelytekniikka.

Yhteenvetona voidaan todeta, että rajauslaatikot ovat kuvien huomautusmenetelmä tekoälypohjaisten koneoppimismallien kouluttamiseen. Sitä käytetään kohteen havaitsemiseen ja kohteen tunnistamiseen monissa sovelluksissa, mukaan lukien robotit, droonit, autonomiset ajoneuvot, valvontakamerat ja muut konenäkölaitteet.

Ehdotetut resurssit:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Nanonetit online-OCR- ja OCR-sovellusliittymä on monia mielenkiintoisia Käytä koteloita thattu voisi optimoida liiketoimintasi suorituskyvyn, säästää kustannuksia ja vauhdittaa kasvua. Selvittää miten Nanonetsin käyttötapaukset voivat soveltua tuotteeseesi.


Aikaleima:

Lisää aiheesta Tekoäly ja koneoppiminen