Image Processing And Bounding Boxes For OCR

Újra kiadta Platón

Követő: 0

A technológia folyamatosan fejlődik, és mi is. A mesterséges intelligencia és a gépi tanulás megjelenésével a hangsúly az automatizálás felé tolódott el. Ennek ellenére különböző számítástechnikai tudományágakat vezetnek be, hogy tanulmányozzák és feltárják ezeknek a feltörekvő trendeknek az alkalmazásait.

Ilyen például képfeldolgozás. In simple language, it refers to exploring images to draw meaningful information. While several techniques are available to achieve this, the most commonly used is – határoló dobozok.

Ez a blog a határolókeretek különféle vonatkozásaival foglalkozik. Tartalmazza, hogy mik ezek, hogyan működnek a képfeldolgozás során, az őket meghatározó paraméterek, az őket meghatározó konvenciók, általános használati esetek, óvintézkedések és bevált gyakorlatok stb.

Búcsúzzunk be.

A képfeldolgozás arra utal, hogy bizonyos műveleteket hajtanak végre a képen, hogy javítsák azt, vagy értékes betekintést nyerjenek a hozzá tartozó jellemzőkből vagy attribútumokból. Ma a képfeldolgozás a mérnöki és számítástechnikai tanulmányok elsődleges kutatási területe.

Image processing can be done using two methods – analog image processing and digital image processing.

Az analóg képfeldolgozás magában foglalja a nyomtatott dokumentumok és fényképek nyomtatott másolatait a képek elemzéséhez és manipulálásához. A képelemzők különféle módszereket alkalmaznak a képmásolatok értelmezésére és értelmes eredmények kinyerésére.

A digitális képfeldolgozás digitális képeket használ és számítógép segítségével értelmezi azokat. Ez a digitális jelfeldolgozás egy alkategóriája, és algoritmusokat használ a digitális képek feldolgozására. Előnyöket biztosít az analóg képfeldolgozáshoz képest, például olyan algoritmusokat, amelyek megakadályozzák a zajt és a torzítást a feldolgozás során.

A digitális képfeldolgozásnak számos alkalmazása van az orvostudomány, a gyártás, az e-kereskedelem és egyebek területén.

Határolódobozok a képfeldolgozásban

Kezdetben a határolókeret egy képzeletbeli téglalap alakú doboz, amely egy objektumot és egy adatpontkészletet tartalmaz. A digitális képfeldolgozás kontextusában a határolókeret a keret koordinátáit jelöli a képet körülvevő X és Y tengelyeken. A cél azonosítására szolgálnak, referenciaként szolgálnak az objektumészleléshez, és ütközési dobozt generálnak az objektumhoz.

Mik azok a határolódobozok?

A határolókeretek a kulcselemek és az egyik elsődleges képfeldolgozó eszköz a videoannotációs projekteknél. Lényegében a határolókeret egy képzeletbeli téglalap, amely egy gépi tanulási projekt követelményének részeként körvonalazza az objektumot a képen. A képzeletbeli téglalap alakú keret körülveszi a tárgyat a képen.

A határolókeretek meghatározzák az objektum pozícióját, osztályát és megbízhatóságát, amely megmondja annak valószínűségét, hogy az objektum valóban jelen van a határolókeretben.

A számítógépes látás lenyűgöző alkalmazásokat kínál – az önvezető autóktól az arcfelismerésig és így tovább. Ezt pedig a képfeldolgozás teszi lehetővé.

Tehát a képfeldolgozás olyan egyszerű, mint téglalapok vagy minták rajzolása az objektumok köré? Nem. Ennek ellenére mit csinálnak a határoló dobozok?

Let’s understand.

Hogyan működnek a határolódobozok a képfeldolgozásban?

Mint említettük, a határolókeret egy képzeletbeli téglalap, amely referenciapontként működik az objektumészlelésnél, és ütközési keretet hoz létre az objektum számára.

Szóval, hogyan segít ez az adatjegyzőknek? Nos, a szakemberek a határolókeretek ötletét használják arra, hogy képzeletbeli téglalapokat rajzoljanak a képek fölé. Minden képen belül körvonalakat készítenek a kérdéses objektumokról, és meghatározzák annak X és Y koordinátáit. Ez leegyszerűsíti a gépi tanulási algoritmusok munkáját, segít megtalálni az ütközési útvonalakat és hasonlókat, ezáltal megtakarítva a számítási erőforrásokat.

Például az alábbi képen minden jármű kulcsfontosságú objektum, amelynek helyzete és elhelyezkedése elengedhetetlen a gépi tanulási modellek betanításához. Az adatfeliratozók a határoló dobozok technikáját használják a téglalapok megrajzolására ezen objektumok – jelen esetben járművek – köré.

Image Processing and Bounding Boxes for OCR PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Forrás: keymakr

Ezután a koordináták segítségével megértik az egyes objektumok helyzetét és elhelyezkedését, ami hasznos a gépi tanulási modellek betanításához. Egyetlen határolókeret nem ad jó előrejelzési arányt. A továbbfejlesztett objektumészlelés érdekében több határolókeretet kell használni az adatkiegészítési módszerekkel kombinálva.

A határolódobozok rendkívül hatékony és robusztus képannotációs technikák, amelyek jelentősen csökkentik a költségeket.

Határolódobozt meghatározó paraméterek

A paraméterek a határolókeret meghatározásához használt konvenciókon alapulnak. A legfontosabb használt paraméterek a következők:

Osztály: A határolókereten belüli objektumot jelöli – például autókat, házakat, épületeket stb.
(X1, Y1): Ez a téglalap bal felső sarkának X és Y koordinátáira vonatkozik.
(X2, Y2): Ez a téglalap jobb alsó sarkának X és Y koordinátáira vonatkozik.
(Xc, Yc): Ez a határolókeret középpontjának X és Y koordinátáira vonatkozik.
Szélesség: Ez a határolókeret szélességét jelöli.
Magasság: Ez a határolókeret magasságát jelöli.
Bizalom: Ez azt jelenti, hogy az objektum a dobozban van. Tegyük fel, hogy a konfidencia 0.9. Ez azt jelenti, hogy 90% a valószínűsége annak, hogy a tárgy valóban jelen lesz a dobozban.

A határolódobozt meghatározó egyezmények

A határolókeret megadásakor általában két fő konvenciót kell figyelembe venni. Ezek:

A téglalap bal felső és jobb alsó pontjának X és Y koordinátái.
A határolókeret középpontjának X és Y koordinátái a szélességével és magasságával együtt.

Illusztráljuk ezt egy autó példájával.

a. Az első konvencióhoz képest a határolókeret a bal felső és a jobb alsó pont koordinátái szerint van megadva.

Forrás: AnalyticsVidhya

b. A második konvenció tekintetében a határolókeret a középponti koordináták, szélesség és magasság szerint van leírva.

Forrás: AnalyticsVidhya

A használati esettől függően lehetséges a különböző konvenciótípusok közötti átalakítás.

Xc = (X1 + X2)/2
Yc = (Y1 + Y2)/2
Width = (X2 – X1)
Height = (Y2 – Y1)

Programozási kóddal magyarázott határolódobozok

Lássunk egy másik példát egy kódrészlettel rendelkező objektum helyére vagy pozíciójára.

Forrás: d2i

We load the image to be used for this illustration. The image has a dog on the left and a cat on the right. There are two objects – a dog and a cat in the image.

Forrás: d2i

Let’s take the x and y as coordinates for the upper left and lower-right corners of the bounding box. Say, (x1,y1) and (x2,y2). Similarly, let’s consider the (x,y) – axis coordinates for the center of the bounding box, along with its width and height.

Ezután két függvényt definiálunk ezen formák konvertálására: a box_corner_to_center a két sarok ábrázolást középmagasság-szélesség ábrázolássá alakítja, a box_center_to_corner pedig fordítva.

A bemeneti argumentumdobozoknak egy kétdimenziós alaktenzornak kell lenniük (n,4), ahol n a határoló dobozok száma.

Forrás: d2i

Ezután határozzuk meg a képen a kutya és a macska határoló dobozait a koordinátaadatok alapján.

Forrás: d2i

A két határolódoboz-konverziós függvény helyességének ellenőrzésére kétszer konvertálhatunk.

Forrás: d2i

Ezután megrajzolhatjuk a képen lévő objektumok határolókereteit, hogy ellenőrizzük, hogy pontosak-e. Ezt megelőzően definiálunk egy bbox_t_rect függvényt, amely a matplotlib csomag megfelelő formátumában képviseli a határolókeretet.

Forrás: d2i

Most, miután hozzáadtuk a képhez a kutya és macska objektumok határoló dobozait, azt látjuk, hogy ezeknek az objektumoknak a fő körvonala a két dobozon belül van.

Forrás: d2i

Szeretné automatizálni az ismétlődő manuális feladatokat? Tekintse meg Nanonets munkafolyamat-alapú dokumentumfeldolgozó szoftverünket. Kivonat adatokat számlákból, személyi igazolványokból vagy bármilyen dokumentumból robotpilóta segítségével!

A határolódobozok általános használati esetei

Önvezető járművek objektum lokalizációja

A határolódobozok az önvezető vagy autonóm járművek oktatásának szerves részét képezik az úton lévő tárgyak, például épületek, közlekedési jelzések, akadályok és egyebek azonosítására. Segítenek feljegyezni az akadályokat, és lehetővé teszik a robotok számára a jármű biztonságos vezetését és a balesetek megelőzését még torlódások esetén is.

Robotika képek

A képannotációs technikákat, például a határoló dobozokat széles körben használják a robotok és drónok nézőpontjainak megjelölésére. Ezek az autonóm járművek segítenek a földi objektumok osztályozásában az ezzel a megjegyzési módszerrel kapott fényképek segítségével.

Képcímkézés az e-kereskedelemhez és a kiskereskedelemhez

A határolókeret-jelölések segítenek a termékmegjelenítés javításában, ami nagy előny az e-kereskedelemben és a kiskereskedelemben. A hasonló cikkekre kiképzett modellek pontosabban megjelölhetnek olyan tárgyakat, mint a divatruházat, kiegészítők, bútorok, kozmetikumok stb. Az alábbiakban felsorolunk néhány olyan kihívást, amellyel a kiskereskedelemben a határoló dobozok megjegyzései megválaszolnak:

Helytelen keresési eredmények

Ha az ügyfelek csak a kereséssel bukkanhatnak rá az e-kereskedelmi webhelyre, akkor a hibás katalógusadatok pontatlan keresési eredményeket eredményezhetnek, ezáltal nem irányítják az ügyfelek forgalmát az oldalra.

Szervezetlen ellátási láncok

Azok számára, akik szeretnék bővíteni kiskereskedelmi üzletüket, hogy évente több millió terméket lehessen szállítani, elengedhetetlenné válik az offline és az online adatok szinkronizálása.

Folyamatos digitalizálás

It’s critical to have all products digitized and tagged systematically and promptly to ensure that customers do not miss any new opportunities. In addition, the tags must be in context, adhering to which becomes difficult as the retail business expands and more products are added.

Észleli az autó elvesztését a biztosítási kárigényeknél

A határolódobozok technikája segít nyomon követni a balesetben megsérült autókat, kerékpárokat vagy más járműveket. A gépi tanulási modellek ezeket a határolódobozokból származó képeket használják a veszteségek helyzetének és intenzitásának megértéséhez. Ez segít megjósolni a felmerült veszteségek költségeit, amely alapján az ügyfelek bemutathatják becslésüket, mielőtt pert indítanak.

Forrás: Superannotate

Beltéri tárgyak észlelése

A határoló dobozok segítségével a számítógépek felismerhetik a beltéri tárgyakat, például ágyakat, kanapékat, íróasztalokat, szekrényeket vagy elektromos készülékeket. Ez lehetővé teszi a számítógépek számára, hogy érzékeljék a teret és a jelenlévő objektumok típusait, méretükkel és elhelyezkedésükkel együtt. Ez pedig segíti a gépi tanulási modelleket abban, hogy valós helyzetben azonosítsák ezeket az elemeket.

A határolókereteket széles körben használják a fényképeken, mint mély tanulási eszközt a különféle tárgyak megértéséhez és értelmezéséhez.

Betegségek és növénynövekedés azonosítása a mezőgazdaságban

A növénybetegségek korai felismerése segít a gazdálkodóknak megelőzni a súlyos veszteségeket. Az intelligens gazdálkodás megjelenésével a kihívás az adatok képzésében rejlik, hogy megtanítsák a gépi tanulási modelleket a növénybetegségek kimutatására. A határolódobozok fő mozgatórugói, amelyek biztosítják a gépek számára a szükséges látást.

Feldolgozó ipar

A tárgyak felismerése és azonosítása az iparágakban a gyártás alapvető eleme. Az AI-kompatibilis robotoknál és számítógépeknél a kézi beavatkozás szerepe csökken. Ennek ellenére a határolódobozok kulcsfontosságú szerepet játszanak azáltal, hogy segítik a gépi tanulási modellek betanítását az ipari alkatrészek lokalizálására és észlelésére. Ezenkívül az olyan folyamatoknak, mint a minőség-ellenőrzés, a válogatás és az összeszerelősor-műveletek, amelyek mind a minőségirányítás részét képezik, objektumészlelést igényelnek.

Orvosi képalkotás

A határolódobozokat az egészségügyi iparban is alkalmazzák, például az orvosi képalkotásban. Az orvosi képalkotó technika olyan anatómiai objektumok kimutatásával foglalkozik, mint a szív, és gyors és pontos elemzést igényel. Határolódobozok használhatók a gépi tanulási modellek betanításához, amelyek ezután képesek lesznek gyorsan és pontosan észlelni a szívet vagy más szerveket.

Automatizált CCTV-k

Az automatizált CCTV-k a legtöbb lakossági, kereskedelmi és egyéb létesítményben kötelezőek. A rögzített CCTV felvételek hosszú távú megőrzéséhez gyakran nagy memória szükséges. Az objektumészlelési technikákkal, például a határolókeretekkel, biztosítható, hogy a felvétel csak bizonyos objektumok azonosításakor kerüljön rögzítésre. A határoló dobozok betaníthatják a gépi tanulási modelleket, amelyek csak azokat az objektumokat észlelik, és abban a pillanatban rögzíthetők a felvételek. Ez a CCTV-hez szükséges tárhely mennyiségének minimalizálását és a költségek csökkentését is segítené.

Arcfelismerés és -érzékelés

Az arcfelismerés többféle alkalmazást kínál, például a biometrikus megfigyelésben. Emellett különféle ügynökségek, például bankok, repülőterek, kiskereskedelmi üzletek, stadionok és más intézmények használják az arcfelismerést a bűncselekmények és az erőszak megelőzésére. Ennek ellenére az arcfelismerés a számítógépes látás fontos eleme, amely képfeldolgozást is magában foglal. És itt is a határoló dobozok hatékony eszközként használhatók a karakterfelismeréshez.

Robotizált folyamatautomatizálást szeretne használni? Nézze meg a Nanonets munkafolyamat-alapú dokumentumfeldolgozó szoftvert. Nincs kód. Nincs probléma platform.

Határolódobozok a karakterfelismeréshez

Object detection comprises – image classification and object localization. This means for a computer to detect an object, it needs to know what is the object in question and where it is located. Image classification assigns a class label to an image. Object localization is related to drawing the bounding box around the object in question in an image.

A folyamat abból áll, hogy egy annotátor megrajzolja az objektumok köré a határolókereteket, és felcímkézi azokat. Ez segít az algoritmus betanításában, és lehetővé teszi számára, hogy megértse, hogyan néz ki az objektum. Az objektumészlelés első lépéseként a képadatkészletnek címkékkel kell rendelkeznie.

Egy kép címkézéséhez kövesse az alábbi lépéseket:

Válassza ki a betanítani és tesztelni kívánt adatkészletet. Csinálj belőle mappát.
Vegyünk példát egy arcfelismerő projektre, mint például: BTS, Avenger stb.
Mappanév adatok létrehozása.
A Google Drive-ban hozzon létre egy mappát FaceDetection néven.
A FaceDetection mappában hozzon létre egy mappát a képből.
A képmappában készítsen mappákat a tesztképből, tesztelje az XML-t, a betanítási képet és az XML-t.

Forrás:ipari

Most a vonatkép mappában töltsön le és töltsön fel 10-15 képet a BTS-ről és a Bosszúállókról JPEG formátumban. Hasonlóképpen, a tesztkép mappában 5-6 képpel végezze el ugyanezt. Javasoljuk, hogy több kép legyen az adatkészletben a pontos eredmények érdekében.

Forrás: ipari

Ezután hozzon létre egy XML-fájlt a tesztkép minden egyes képéhez, és készítsen képmappákat

Töltse le és kattintson a Windows v_1.8.0 gombra. Kattintson a GitHub .exe fájljára, és nyomja meg a Futtatás gombot.

Ezután kattintson a megnyitott könyvtárra a kép mappájának kiválasztásához. Látni fogja a képet, amelyet fel kell címkézni. A címkézéshez nyomja meg a W billentyűt a billentyűzeten, majd kattintson a jobb gombbal, és húzza a kurzort a doboz körberajzolásához. Adjon nevet, és kattintson az OK gombra.

Forrás: ipari

Ezután mentse el a képet, hogy létrehozza a kép XML-fájlját a képmappában, az alábbiak szerint.

Forrás: ipari

Nyissa meg az XML-fájlt a koordináták megtekintéséhez.

Forrás: ipari

Ismételje meg az eljárást az összes képnél az XML-fájlok létrehozásához, és keresse meg a koordinátákat.

Ha számlákkal és nyugtákkal dolgozik, vagy aggódik a személyi igazolvány ellenőrzése miatt, nézze meg a Nanonets-t online OCR or PDF szövegkivonat szöveg kinyeréséhez PDF dokumentumokból ingyen. Kattintson az alábbiakra, ha többet szeretne megtudni erről Nanonets vállalati automatizálási megoldás.

A határolódobozokban használt különféle megjegyzésformátumok

Lényegében egy határolókeretnek 4 pontja van az (x,y) tengelyeken, amelyek a sarkokat képviselik:

Bal felső : (x_min, y_min)

Jobbra fent: (x_max, y_min)

Balra lent:(x_min, y_max)

Jobbra lent: (x_max, y_max)

A határolókeret koordinátáit a rendszer a kép bal felső sarkához viszonyítva számítja ki.

Számos határolókeret-jelölési formátum létezik, amelyek mindegyike a határolókeret koordinátáinak saját reprezentációját használja.

a. Albumentációk

They use four values to represent the bounding box – [x_min, y_min, x_max, y_max] – which are normalized by dividing the coordinates in pixels for the x-axis by the width and y-axis by the height of the image.

Tegyük fel, hogy a határolókeret koordinátái: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Legyen szélesség = 870, magasság = 789

Ezután [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Az Albumentations belsőleg használja és értelmezi ezeket az értékeket határolókeretekkel, és javítja őket.

b. KÓKUSZDIÓ

Ezt a formátumot a Common Objects in Context COCO adatkészlet használja. COCO formátumban a határolókeretet négy érték képviseli: (x_min, y_min, szélesség, magasság). Lényegében a bal felső sarokra, valamint a határolókeret szélességére és magasságára utalnak.

c. YOLO

Ebben a formátumban egy határolókeret négy értékkel jelenik meg: (x_center, y_center, szélesség, magasság). Itt x_center és y_center a határolókeret középpontjának normalizált x és y koordinátáit jelöli. A normalizáláshoz a középpont x koordinátáját a kép szélességével, a középpont y koordinátáját pedig a kép magasságával. A szélesség és magasság értékeit is normalizáljuk.

d. PASCAL

Pascal formátumban a határolókeretet a bal felső és a jobb alsó koordináták képviselik. Tehát a pixelben kódolt értékek a következők: [x_min, y_min, x_max, y_max]. Itt az [x_min, y_min] a bal felső sarok értéke, míg az [x_max, y_max] a határolókeret jobb alsó sarkát jelöli.

Szeretné automatizálni az ismétlődő manuális feladatokat? Takarítson meg időt, erőfeszítést és pénzt, miközben növeli a hatékonyságot!

Óvintézkedések és bevált gyakorlatok a határolódobozok használatához

Néhány óvintézkedés és bevált gyakorlat javasolt a határolókeretek képfeldolgozásban történő optimális használatához. Tartalmazzák:

Dobozméret-változatok

Az összes azonos méretű határolókeret használata nem ad pontos eredményeket. A modellek azonos méretű határolódobozokra való betanítása rontaná a modell teljesítményét. Például, ha ugyanaz az objektum kisebb méretűnek tűnik, előfordulhat, hogy a modell nem észleli. A vártnál nagyobbnak látszó objektumok esetén előfordulhat, hogy több pixelt foglal el, és nem adja meg az objektum pontos helyzetét és helyét. A lényeg az, hogy szem előtt tartsuk az objektum méretének és térfogatának változását a kívánt eredmények elérése érdekében.

Pixel-tökéletes tömítettség

A szorosság döntő tényező. Ez azt jelenti, hogy a határolókeret széleinek a lehető legközelebb kell lenniük a kérdéses objektumhoz a pontos eredmények érdekében. A következetes hézagok befolyásolhatják a modell előrejelzése és a valós objektum közötti átfedési terület meghatározásának pontosságát, ami problémákat okozhat.

Átlós elemek Határolódobozokba helyezve

A határolókereten belül átlósan elhelyezett tárgyakkal az a probléma, hogy lényegesen kevesebb helyet foglalnak el a dobozon belül, mint a háttérben. Ha azonban hosszabb ideig van kitéve, a modell feltételezheti, hogy a cél a háttér, mivel ez több helyet foglal el. Ezért a legjobb gyakorlatként az átlós objektumokhoz poligonok és példányszegmentálás használata javasolt. Mégis lehetséges a modellek betanítása egy határoló dobozzal, jó mennyiségű képzési adattal.

A doboz átfedésének csökkentése

Mindig biztonságosan elkerülheti a megjegyzések átfedését minden forgatókönyvben. Néha ez akkora rendetlenséget okozhat, hogy végül csak néhány átfedő doboz látható. Azok az objektumok, amelyek címkézése átfedésben van más entitásokkal, viszonylag rosszabb eredményeket produkál. A túlzott átfedés miatt a modell nem tud különbséget tenni a célobjektum és más elemek között. Ilyen esetekben sokszögek használhatók a nagyobb pontosság érdekében.

Következtetés

A képfeldolgozás a technológia feltörekvő birodalma, amely széles skálát kínál. Ennek ellenére a határolódobozok alkotják a leggyakrabban alkalmazott képfeldolgozási technikát.

Összefoglalva, a határolókeretek egy képannotációs módszer az AI-alapú gépi tanulási modellek betanításához. Tárgyérzékelésre és célfelismerésre használják számos alkalmazásban, beleértve a robotokat, drónokat, autonóm járműveket, térfigyelő kamerákat és egyéb gépi látóeszközöket.

Javasolt források:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1

Nanonetek online OCR és OCR API sok érdekesség van használati esetek tkalap optimalizálhatja az üzleti teljesítményt, megtakaríthatja a költségeket és fellendítheti a növekedést. Kitalál hogyan vonatkozhatnak a Nanonets használati esetei az Ön termékére.

Időbélyeg: 25. augusztus 2022.25. augusztus 2022.

Időbélyeg: 22. szeptember 2023.

Képfeldolgozó és határoló dobozok OCR-hez

Újra kiadta Platón