Űrlapadatok kinyerése

Újra kiadta Platón

Követő: 0

Adatokat szeretne kinyerni nyomtatott vagy kézzel írt űrlapokból? Nézze meg Nanonetek™ űrlap adatkivonó ingyen és automatizálja az információk exportálását bármilyen formából!

A formák mindenhol ott vannak; ezek olyan dokumentumok, amelyeket információgyűjtés céljából hoztak létre, felkérve a résztvevőket, hogy a szükséges információkat egy meghatározott formátumban töltsék ki. Hasznosak, mert képesek rövid időn belül sok adatot összegyűjteni. Azonban nem minden űrlap ugyanolyan kapacitással rendelkezik az adatgyűjtéshez, és gyakran kézi munkát igényel később. Ezért olyan eszközökre és algoritmusokra támaszkodunk, amelyek intelligensen automatizálják az űrlapadatok kinyerésének folyamatát. Ez a blogbejegyzés mélyrehatóan foglalkozik különböző forgatókönyvekkel és technikákkal, amelyek segítségével OCR és Deep Learning segítségével nyerhet ki adatokat az űrlapokból.

Mi az űrlapadatok kinyerése?
Mitől válik kihívássá a probléma?
A formakivonási probléma mélysége
Hogyan fejlődtek az űrlapadat-kinyerési megoldások?
Űrlapadatok kinyerése OCR használatával
Űrlapadatok kinyerésének megoldása Deep Learning segítségével
Írja be a Nanonets-t

Mi az űrlapadatok kinyerése?

Az űrlapadatok kinyerése az adatok kinyerésének folyamata az űrlapokból – online és offline egyaránt. Ezek az adatok bármilyen formátumban megtalálhatók, általában egy űrlapot tartalmaznak a vonatkozó információkkal. Az adatok kinyerése azonban nem mindig könnyű feladat, mert sok elrendezés és terv nem teszi lehetővé a szöveg könnyű kiválasztását. Nincs natív módszer az adatok másolására róluk. Ezért automatizált technikákra támaszkodunk, amelyek segítségével hatékonyabban és kevésbé hibásan lehet adatokat kinyerni az űrlapokból.

Mi az űrlap adatkinyerése?

Például manapság sok felhasználó PDF-alapú űrlapokra támaszkodik az elérhetőségi adatok gyűjtéséhez. Ez egy rendkívül hatékony módja az információgyűjtésnek, mivel nem szükséges a feladótól és a címzetttől bevitelt megadni. Az adatok PDF-űrlapból történő kinyerése azonban kihívást és költséges lehet.

Itt az űrlapadatok kinyerése segíthet adatokat kinyerni egy PDF-űrlapból, például nevet, e-mail címet, telefonszámot stb. Importálható egy másik alkalmazásba, például Excelbe, Táblázatokba vagy bármilyen más strukturált formátumba. Úgy működik, hogy a kicsomagoló eszközök átolvassák a PDF-fájlt, automatikusan kihúzzák, amit kell, és könnyen olvasható formátumba rendezik. Ezek az adatok más formátumokba, például Excel, CSV, JSON és más jól strukturált adatformátumokba exportálhatók. A következő részben nézzünk meg néhány gyakran felmerülő kihívást az űrlapadat-kinyerési algoritmusok felépítése során.

Adatokat szeretne kinyerni nyomtatott vagy kézzel írt űrlapokból? Nézze meg a Nanonets-t™ űrlap adatkivonó ingyen és automatizálja az információk exportálását bármilyen formából!

Mi teszi kihívássá az űrlapadatok kinyerését?

Az adatkinyerés több okból is izgalmas probléma. Egyrészt ez egy képfelismerési probléma, de figyelembe kell vennie a képen előforduló szöveget és az űrlap elrendezését is, ami bonyolultabbá teszi az algoritmus felépítését. Ez a szakasz néhány olyan gyakori kihívást tárgyal, amelyekkel az emberek űrlapadat-kinyerési algoritmusok készítése során szembesülnek.

Adathiány: Az adatkinyerési algoritmusok általában hatékony mélytanulási és számítógépes látásalapú algoritmusok felhasználásával készülnek. Ezek jellemzően hatalmas mennyiségű adatra támaszkodnak a legkorszerűbb teljesítmény elérése érdekében. Így a konzisztens és megbízható adatkészlet megtalálása és feldolgozása döntő fontosságú bármilyen adatkinyerési eszköz vagy szoftver esetében. Tegyük fel például, hogy több sablont tartalmazó űrlapjaink vannak, akkor ezeknek az algoritmusoknak képesnek kell lenniük az űrlapok széles skálájának megértésére; ezért egy robusztus adatkészleten való betanításuk pontosabb teljesítményt nyújtana.
Betűtípusok, nyelvek és elrendezések kezelése: Szédítő mennyiségű különböző betűtípus, formatervezés és sablon áll rendelkezésre a különböző típusú űrlapadatokhoz. Több teljesen eltérő besorolásba eshetnek, ami kihívást jelent a pontos felismerés biztosítása, amikor rengeteg különböző karaktertípust kell figyelembe venni. Ezért fontos, hogy a betűkészlet gyűjteményét egy adott nyelvre és típusra korlátozza, mert ez számos folyamatot hoz létre, amelyek zökkenőmentesen haladnak, miután ezeket a dokumentumokat megfelelően feldolgozta. Többnyelvű esetekben a több nyelvből származó karakterek közötti zsonglőrködésre fel kell készülni, és gondoskodni kell a bonyolult tipográfiáról is.

Image Source: közepes

Tájolás és ferdeség (Forgatás): Az adatkezelés során gyakran szkennelünk képeket, hogy algoritmusokat tanítsunk be a bemeneti adatgyűjtéshez. Ha valaha is használt szkennert vagy digitális fényképezőgépet, akkor észrevehette, hogy a dokumentumok képeinek rögzítési szöge néha elferdítheti azokat. Ezt ferdeségnek nevezik, ami a szög mértékére utal. Ez a ferdeség csökkentheti a modell pontosságát. Szerencsére különféle technikák használhatók a probléma megoldására, egyszerűen módosítva, hogy szoftverünk hogyan észleli a funkciókat a kép bizonyos régióiban. Ilyen technikák például a Projection Profile módszerek vagy a Fourier Transformation módszerek, amelyek sokkal tisztább eredményt tesznek lehetővé alak-, méret- és textúrafelismerésben! Bár a tájolás és a ferdeség egyszerű hibák lehetnek, ezek nagy számban befolyásolhatják a modell pontosságát.

Image Source: pyimagesearch

Data Security: Ha különböző forrásokból nyer ki adatokat adatgyűjtés céljából, fontos, hogy tisztában legyen az érvényben lévő biztonsági intézkedésekkel. Ellenkező esetben fennáll a veszélye annak, hogy az átvitt információ veszélybe kerül. Ez olyan helyzetekhez vezethet, amikor a személyes adatok megsértése megtörténik, vagy az API-nak küldött információ nem biztonságos. Ezért, amikor ETL-szkriptekkel és online API-kkal dolgozik adatkinyeréshez, az adatbiztonsági problémákkal is tisztában kell lennie.
Táblázat kivonás: Néha űrlapadatokat látunk a táblákon belül; kihívást jelenthet egy robusztus algoritmus felépítése, amely képes kezelni mind az űrlap-, mind a táblakivonást. A szokásos megközelítés szerint ezeket az algoritmusokat egymástól függetlenül építik fel és alkalmazzák az adatokra, de ez nagyobb számítási teljesítmény felhasználásához vezet, ami növeli a költségeket. Ezért egy ideális űrlapkivonatnak képesnek kell lennie mind űrlapadatok, mind adatok kinyerésére egy adott dokumentumból.

Image Source: GCN-ek

Utófeldolgozás / Kimenet exportálása: Az adatkinyerés kimeneti adatai nem egyenesek. Ezért a fejlesztők az utófeldolgozási technikákra hagyatkoznak, hogy az eredményeket strukturáltabb formátumba szűrjék. Az adatok feldolgozása után az adatok strukturáltabb formátumba, például CSV-be, Excelbe vagy adatbázisba kerülnek exportálásra. A szervezetek harmadik féltől származó integrációkra támaszkodnak, vagy API-kat fejlesztenek ennek a folyamatnak az automatizálására, ami ismét időigényes. Ezért az ideális adatkinyerési algoritmusoknak rugalmasnak és könnyen kommunikálhatónak kell lenniük a külső adatforrásokkal.

Utófeldolgozás Form Data Extractionben

A formakivonás mélységének megértése különféle forgatókönyvekkel

Eddig az űrlapadatok kinyerésének alapjait és kihívásait tárgyaltuk. Ebben a részben részletesen megvizsgáljuk a különböző forgatókönyveket, és megértjük az űrlapadatok kinyerésének mélységét. Megvizsgáljuk azt is, hogyan automatizálhatjuk a kinyerési folyamatot ezekben a konkrét forgatókönyvekben.

1. forgatókönyv: Kézzel írt felismerés offline űrlapokhoz

Az offline űrlapokkal gyakran találkozunk a mindennapi életben. Elengedhetetlen, hogy az űrlapok könnyen kitölthetők és benyújthatók legyenek. Az offline űrlapok manuális digitalizálása hektikus és költséges feladat lehet, ezért van szükség mély tanulási algoritmusokra. A kézzel írt dokumentumok nagy kihívást jelentenek az adatok kinyerésében a kézzel írt karakterek összetettsége miatt. Ezért erősen használják az adatfelismerő algoritmusokat, amelyek segítségével a gép megtanulja olvasni és értelmezni a kézzel írt szöveget. A folyamat során beszkenneljük a kézzel írt szavak képeit, és azokat egy algoritmussal feldolgozható és elemezhető adatokká alakítjuk. Az algoritmus ezután vonások alapján karaktertérképet hoz létre, és felismeri a megfelelő betűket a szöveg kinyerése érdekében.

Image Source: NSIT adatkészlet

2. forgatókönyv: Jelölőnégyzet azonosítása az űrlapokon

A jelölőnégyzet-űrlapok olyan adatbeviteli formák, amelyek segítségével információkat gyűjtenek a felhasználótól egy beviteli mezőben. Az ilyen típusú adatok általában olyan listákban és táblázatokban találhatók, amelyek megkövetelik a felhasználótól, hogy válasszon ki egy vagy több elemet, például olyan elemeket, amelyekkel kapcsolatba kíván lépni. Bármilyen helyen megtalálható – online űrlapokon, kérdőíveken és felméréseken stb. Ma már egyes algoritmusok már a jelölőnégyzetekből is automatizálhatják az adatkinyerési folyamatot. Ennek az algoritmusnak az elsődleges célja a bemeneti régiók azonosítása számítógépes látástechnikák segítségével. Ezek magukban foglalják a vonalak azonosítását (vízszintes és függőleges), szűrőket, kontúrokat és élek észlelését a képeken. A beviteli régió azonosítása után könnyen kivonhatja a megjelölt vagy nem jelölt jelölőnégyzet tartalmát.

Jelölőnégyzet azonosítása űrlap adatkinyeréskor

3. forgatókönyv: Elrendezés Az űrlap időről időre történő módosítása

Az űrlapok kitöltésekor jellemzően két különböző lehetőség létezik. Egyes űrlapoknál az összes megfelelő mezőbe beírva kell megadnunk az adatainkat, míg másoknál néhány jelölőnégyzetből kiválasztva tudjuk megadni az adatokat. Az űrlap elrendezése is változik az űrlap típusától és kontextusától függően. Ezért elengedhetetlen egy olyan algoritmus felépítése, amely képes több strukturálatlan dokumentum kezelésére, és az űrlapcímkéktől függően intelligensen kinyerni a tartalmat. A dokumentumelrendezések kezelésére szolgáló mély tanulási architektúra egyik népszerű technikája a Graph CNN. A Graph Convolutional Networks (GCN-ek) mögött az a gondolat áll, hogy biztosítsák, hogy az idegsejtek aktiválása adatvezérelt legyen. Úgy tervezték, hogy csomópontokból és élekből álló gráfokon működjenek. A gráf konvolúciós rétege feladatspecifikus képzési jel hiányában is képes mintákat felismerni. Ezért ezek akkor megfelelőek, ha az adatok robusztusak.

4. forgatókönyv: Táblázatcella-észlelés

Egyes esetekben a vállalkozások speciális, táblázatcellákból álló űrlapokkal találkoznak. A táblázat cellái a táblázaton belüli téglalap alakú területek, ahol az adatokat tárolják. Fejlécekbe, sorokba vagy oszlopokba sorolhatók. Egy ideális algoritmusnak azonosítania kell az összes ilyen típusú cellát és azok határait, hogy kivonja belőlük az adatokat. Néhány népszerű táblakivonási technika közé tartozik a Stream és a Lattice; ezek olyan algoritmusok, amelyek egyszerű izomorf műveletek segítségével képesek felismerni a vonalakat, alakzatokat, sokszögeket a képeken.

Hogyan fejlődtek az űrlapadat-kinyerési megoldások?

Az űrlapadatok kinyerése a számítógép előtti időkből ered, amikor az emberek papíralapú űrlapokat kezeltek. A számítástechnika megjelenésével lehetővé vált az adatok elektronikus tárolása. A számítógépes programok felhasználhatják az adatokat jelentések, például értékesítési statisztikák készítésére. Ezzel a szoftverrel postai címkéket, például az ügyfelek nevét és címét, valamint számlákat, például az esedékes összeget és a küldési címet is fel lehet használni. Ma azonban az űrlapadat-kinyerő szoftver más verzióját látjuk; ezek rendkívül pontosak, gyorsabbak, és rendkívül szervezetten és strukturáltan szállítják az adatokat. Most röviden tárgyaljuk az űrlapadat-kinyerési technikák különböző típusait.

Szabályalapú adatkinyerésből: A szabályalapú kibontás egy olyan technika, amely automatikusan kivonja az adatokat egy adott sablonűrlapból. Minden emberi beavatkozás nélkül képes adatokat kinyerni. Úgy dolgoznak, hogy megvizsgálják az oldal különböző mezőit, és a környező szövegek, címkék és egyéb kontextusra utaló nyomok alapján eldöntik, melyeket kívánják kinyerni. Ezeket az algoritmusokat általában ETL-szkriptek vagy webkaparás segítségével fejlesztik és automatizálják. Ha azonban nem látott adatokon tesztelik őket, teljesen kudarcot vallanak.
Űrlapadatok kinyerése OCR használatával: Az OCR mindenféle adatkinyerési probléma megoldása. A pontos teljesítmény eléréséhez azonban további szkripteket és programokat kell írni. Az OCR működéséhez szöveges kép bevitele szükséges. A szoftver ezután beolvassa az egyes képpontokat, és összehasonlítja az egyes képpontokat a megfelelő betűvel. Ha egyezik, akkor kiírja azt a betűt és a betűhöz elég közeli számokat vagy szimbólumokat. Az OCR legnagyobb kihívása a betűk elkülönítésének kitalálása. Például, ha a hangjegyek közel vannak egymáshoz vagy átfedik egymást, például „a” és „e”. Ezért előfordulhat, hogy ezek nem működnek, amikor offline űrlapokat bontunk ki.
NER az űrlapadatok kinyeréséhez: Az elnevezett entitások felismerése az előre meghatározott entitások azonosításának és osztályozásának feladata természetes nyelvi szövegben. Gyakran használják információk kinyerésére olyan űrlapokból, ahol az emberek neveket, címeket, megjegyzéseket stb. írnak be. A megnevezett entitások felismerésének feladata szorosan összefügg a korreferenciafeloldás tágabb feladatával, amely meghatározza, hogy ugyanazon entitások említése utal-e a ugyanazok a való világ entitásai. Ma fejlett programozási eszközökkel és keretrendszerekkel előre kiképzett modelleket használhatunk fel NER alapú modellek létrehozására az információ-kinyerési feladatokhoz.

Image Source: közepes

A Deep Learning használata az űrlapadatok kinyeréséhez: A mély tanulás nem új keletű, évtizedek óta létezik, de a mély tanulási architektúrák és a számítási teljesítmény legújabb fejlesztései áttörő eredményekhez vezettek. A mély tanulással végzett űrlapadat-kinyerés szinte bármilyen formátumban csúcsteljesítményt ért el, legyen az digitális vagy kézírásos. A folyamat azzal kezdődik, hogy a mély neurális hálózatot (DNN) több ezer vagy millió különböző példával látják el, amelyekre fel vannak címkézve. Például a képformátumú címkék olyan entitásokkal, mint a név, e-mail cím, azonosító stb. A DNN feldolgozza ezeket az információkat, és magától megtanulja, hogyan kapcsolódnak ezek a darabok. A rendkívül pontos modell felépítése azonban sok szakértelmet és kísérletezést igényel.

Mély tanulás az űrlapadatok kinyeréséhez

Űrlapadatok kinyerése OCR használatával

Számos különböző könyvtár áll rendelkezésre adatok kinyerésére az űrlapokból. De mi van akkor, ha adatokat szeretne kinyerni egy űrlap képéből? Itt jön a képbe a Tesseract OCR (optikai karakterfelismerés). A Tesseract a HP által kifejlesztett nyílt forráskódú OCR (Optical Character Recognition) motor. A Tesseract OCR használatával lehetőség nyílik a beszkennelt dokumentumok, például papíralapú számlák, nyugták és csekkek kereshető, szerkeszthető digitális fájlokká alakítására. Több nyelven is elérhető, és különféle képformátumokban képes felismerni a karaktereket. A Tesseract általában más könyvtárakkal együtt használják képek feldolgozására szöveg kivonatolása céljából.

Ennek teszteléséhez telepítse a Tesseractot a helyi gépére. Az OCR futtatásához Tesseract CLI vagy Python összerendeléseket is használhat. A Python-tesseract a Google Tesseract-OCR motorjának burkolója. Használható a Pillow és Leptonica képkönyvtárak által támogatott összes képtípus olvasására, beleértve a jpeg-et, png-t, gif-et, bmp-t, tiff-et és másokat. Könnyen használhatja önálló meghívó szkriptként, hogy szükség esetén tesseract-ot készítsen.

Most vegyünk egy űrlapadatokat tartalmazó nyugtát, és próbáljuk meg azonosítani a szöveg helyét a Computer Vision és a Tesseract segítségével.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Űrlapadatok kinyerése OCR használatával

Itt, a kimenetben, amint látjuk, a program az űrlapon belüli összes szöveget azonosítani tudta. Most alkalmazzuk az OCR-t az összes információ kinyeréséhez. Ezt egyszerűen megtehetjük a image_to_string függvény Pythonban.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

output:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Itt minden információt kinyerhetünk az űrlapból. A legtöbb esetben azonban az OCR használata nem segít, mivel a kinyert adatok teljesen strukturálatlanok lesznek. Ezért a felhasználók a kulcs-érték pár kinyerésére hagyatkoznak az űrlapokon, amelyek csak meghatározott entitásokat tudnak azonosítani, például azonosítót, dátumot, adóösszeget stb. Ez csak mély tanulással lehetséges. A következő részben nézzük meg, hogyan hasznosíthatunk különböző mély tanulási technikákat információkinyerési algoritmusok felépítéséhez.

Űrlapadatok kinyerésének megoldása Deep Learning segítségével

Grafikonkonvolúció multimodális információk kinyeréséhez vizuálisan gazdag dokumentumokból

Graph Convolutional Networks (Graph CNN-ek) a mély konvolúciós neurális hálózatok (CNN-ek) egy osztálya, amelyek képesek hatékonyan megtanulni a gráf adatstruktúrák erősen nemlineáris jellemzőit, miközben megőrzik a csomópont- és élszerkezetet. Bemenetként használhatják a gráf adatstruktúrákat, és „szolgáltatástérképeket” generálhatnak a csomópontokhoz és élekhez. Az eredményül kapott jellemzők használhatók gráfosztályozásra, klaszterezésre vagy közösségi észlelésre. A GCN-ek hatékony megoldást kínálnak információk kinyerésére nagy, vizuálisan gazdag dokumentumokból, például számlákból és nyugtákból. Ezek feldolgozásához minden képet csomópontokból és élekből álló gráfba kell alakítani. A képen szereplő bármely szót a saját csomópontja képviseli; a többi adat megjelenítése a csomópont jellemzővektorába van kódolva.

Dokumentum grafikon. A grafikon minden csomópontja teljesen össze van kötve egymással.(SRC)

Ez a modell először a dokumentum minden szövegszegmensét gráfbeágyazásba kódolja. Ezzel rögzíti az egyes szövegelemeket körülvevő vizuális és szöveges kontextust, valamint annak helyzetét vagy helyét egy szövegblokkon belül. Ezután ezeket a grafikonokat szövegbeágyazásokkal kombinálja, hogy átfogó képet hozzon létre a dokumentum szerkezetéről és a benne írottakról. A modell megtanul nagyobb súlyt rendelni olyan szövegekhez, amelyek valószínűleg entitások egymáshoz viszonyított elhelyezkedésük és a kontextus alapján, amelyben megjelennek egy nagyobb olvasói blokkon belül. Végül egy szabványos BiLSTM-CRF modellt alkalmaz az entitások kinyerésére. Az eredmények azt mutatják, hogy ez az algoritmus nagy mértékben felülmúlja az alapmodellt (BiLSTM-CRF).

LayoutLM: Szöveg és elrendezés előképzése a dokumentum képeinek megértéséhez

A LayoutLM modell architektúráját erősen a BERT ihlette, és a Faster R-CNN képbeágyazásait tartalmazza. A LayoutLM bemeneti beágyazások szöveg- és pozícióbeágyazások kombinációjaként jönnek létre, majd kombinálják a Faster R-CNN modell által generált képbeágyazásokkal. A maszkolt vizuális nyelvi modelleket és a többcímkés dokumentumosztályozást elsősorban a LayoutLM előképzési feladataiként használják. A LayoutLM modell értékes, dinamikus és kellően erős minden olyan munkához, amely megköveteli az elrendezés megértését, mint például az űrlap/nyugta kivonatolása, a dokumentum képbesorolása, vagy akár a vizuális kérdések megválaszolása is elvégezhető ezzel a képzési modellel.

Image Source: LayoutML

A LayoutLM modellt az IIT-CDIP Test Collection 1.0-n képezték ki, amely több mint 6 millió dokumentumot és több mint 11 millió szkennelt dokumentumképet tartalmaz, összesen több mint 12 GB adatot. Ez a modell lényegesen felülmúlta a SOTA által előre betanított modelleket az űrlapértelmezési, a nyugtaértési és a szkennelt dokumentumkép-osztályozási feladatokban.

Form2Seq: Keretrendszer a magasabb rendű űrlapszerkezetek kivonásához

A Form2Seq egy olyan keretrendszer, amely a struktúrák kinyerésére összpontosít a bemeneti szövegből pozíciószekvenciák segítségével. A hagyományos seq2seq keretrendszerekkel ellentétben a Form2Seq a struktúrák relatív térbeli pozícióit használja ki, nem pedig a sorrendjüket.

Ebben a módszerben először az alacsony szintű elemeket osztályozzuk, amelyek jobb feldolgozást és rendszerezést tesznek lehetővé. 10 típusú űrlap létezik, például mezőfeliratok, listaelemek stb. Ezután az alacsonyabb szintű elemeket, például a szövegmezőket és a választási mezőket magasabb rendű konstrukciókba csoportosítjuk, amelyeket ChoiceGroupsnak neveznek. Ezeket információgyűjtési mechanizmusként használják, hogy jobb felhasználói élményt érjenek el az alacsonyabb szintű elemek magasabb rendű konstrukciókba, mint például a szövegmezők, a választási mezők és a választási csoportok, amelyeket információgyűjtési mechanizmusként használnak az űrlapokon. Ez úgy lehetséges, hogy az alkotóelemeket lineáris sorrendbe rendezzük természetes olvasási sorrendben, és térbeli és szöveges reprezentációikat betápláljuk a Seq2Seq keretrendszerbe. A Seq2Seq keretrendszer a kontextustól függően szekvenciálisan előrejelzéseket készít a mondat minden elemére. Ez lehetővé teszi, hogy több információt dolgozzon fel, és jobban megértse az adott feladatot.

Form2seq Model Architecture elemtípus-osztályozáshoz. A különböző szakaszok betűkkel vannak jelölve (SRC).

A modell 90%-os pontosságot ért el az osztályozási feladatban, ami magasabb volt, mint a szegmentáció alapú alapmodelleké. A szövegblokkok, szövegmezők és választási mezők F1 értéke 86.01%, 61.63% volt. Ez a keretrendszer elérte az eredmények állapotát az ICDAR adatkészlet táblaszerkezet-felismerésére vonatkozóan.

Miért a Nanonets AI-alapú OCR a legjobb megoldás?

Bár az OCR szoftver képes a beolvasott szövegeket formázott digitális fájlokká, például PDF-ekké, DOC-kká és PPT-kké konvertálni, ez nem mindig pontos. Napjaink élvonalbeli szoftverei, mint például a Nanonets AI-alapú OCR mélytanulási rendszer, számos kihívást leküzdöttek, amelyekkel a hagyományos OCR-rendszerek szembesültek, miközben szerkeszthető fájlokat hoztak létre beolvasott dokumentumból. Ez lett a legjobb lehetőség az adatkinyerésre, mert nagy pontosságot és magas toleranciaszintet tud biztosítani a zaj, a grafikus elemek és a formázási változtatások tekintetében. Most beszéljünk meg néhány pontot arról, hogy az AI-alapú OCR miként a legjobb megoldás.

Nanonet – Űrlapadatok kinyerése

Az OCR, amint már említettük, egy egyszerű technika az adatok kinyerésére. Azonban nem működnek következetesen, ha nem látott/új adatokra helyezik őket. Az AI-alapú OCR azonban képes kezelni az ehhez hasonló helyzeteket, mivel az adatok széles skáláján tanulnak.
A normál OCR-ek nem tudják kezelni az űrlapadatok kinyeréséhez szükséges összetett elrendezéseket. Ezért ha mély tanulással vagy mesterséges intelligenciával működtetik, akkor a legjobb eredményt nyújtják az adatok elrendezésének, szövegének és kontextusának megértésével.
Az OCR-ek alulteljesíthetnek, ha az adatokban zaj van, például ferdeség, gyenge megvilágítású szkennelt képek stb., míg a mélytanulási modellek képesek kezelni az ilyen körülményeket, és így is nagyon pontos eredményeket adnak.
Az AI-alapú OCR-ek nagymértékben testreszabhatók és rugalmasak a hagyományos OCR-ekhez képest; különféle típusú adatokra épülhetnek, így a strukturálatlan adatokat bármilyen strukturált formátumba konvertálhatják.
Az AI-alapú OCR utófeldolgozási kimenetei elérhetők a sima OCR-hez képest; közvetlenül a modellből exportálhatók bármilyen adatformátumba, például JSON-ba, CSV-be, Excel-táblázatokba, vagy akár olyan adatbázisba, mint a Postgres.
Az AI-alapú OCR egyszerű API-ként exportálható előre betanított modellek segítségével. Ez más hagyományos módszerekkel továbbra is lehetséges, de nehéz lehet a modelleket időben következetesen javítani. A mesterséges intelligencia alapú OCR használatakor a hibák automatikusan hangolhatók.
A táblázat kinyerése nagyon lehetetlen egyenes OCR használatával. Az AI/DL erejével azonban könnyedén megtehető. Manapság az AI-alapú OCR-ek pozitívan mutathatnak táblázatalapú űrlapokat a dokumentumokon belül, és információkat nyerhetnek ki.
Ha a dokumentumokban pénzügyi vagy bizalmas adatok vannak, az AI modellek csalásellenőrzést is végezhetnek. Alapvetően a szerkesztett/elmosott szöveget keresi a beolvasott dokumentumokból, és értesíti a rendszergazdákat. Az ismétlődő dokumentumok vagy információk is azonosíthatók ezeken a modelleken keresztül. Míg az OCR ilyen esetekben egyszerűen meghiúsul.

Időbélyeg: Március 6, 2022

Időbélyeg: 15. november 2023.

Űrlapadatok kinyerése

Újra kiadta Platón

Mi az űrlapadatok kinyerése?

Mi teszi kihívássá az űrlapadatok kinyerését?

A formakivonás mélységének megértése különféle forgatókönyvekkel

1. forgatókönyv: Kézzel írt felismerés offline űrlapokhoz

2. forgatókönyv: Jelölőnégyzet azonosítása az űrlapokon

3. forgatókönyv: Elrendezés Az űrlap időről időre történő módosítása

4. forgatókönyv: Táblázatcella-észlelés

Hogyan fejlődtek az űrlapadat-kinyerési megoldások?

Űrlapadatok kinyerése OCR használatával

Űrlapadatok kinyerésének megoldása Deep Learning segítségével

Miért a Nanonets AI-alapú OCR a legjobb megoldás?

Még több AI és gépi tanulás

Útmutató a 2024-es számlák (AP) jelentésekhez és jelentésekhez

Mi az a költségnyugta?

12 izgalmas RPA-statisztika, amelyet nem hagyhatsz ki 2022-ben

Telefonszám kivonó: Minden, amit tudnod kell

Argus Modellezés: Adatalapú ingatlandöntések vezetése

A szállítókezelési folyamat: fontosság, előnyök és kihívások

Mennyi a kifizetendő napok hátraléka? És hogyan kell kiszámítani az adatvédelmi tisztviselőt?

Teljes útmutató a számlák digitális átalakításához

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók