Izvleček podatkov obrazca

Ponovno objavil Platon

Spremljevalci: 0

Želite pridobiti podatke iz natisnjenih ali ročno napisanih obrazcev? Preveri Nanoneti™ ekstraktor podatkov iz obrazca brezplačno in avtomatizirajte izvoz informacij iz katere koli oblike!

Obrazci so povsod; opredeljeni so kot dokumenti, ustvarjeni za zbiranje informacij tako, da se od udeležencev zahteva, da izpolnijo potrebne informacije v posebnem formatu. V pomoč so zaradi svoje sposobnosti, da zberejo veliko podatkov v kratkem času. Vendar pa vsi obrazci nimajo enake zmogljivosti za zbiranje podatkov in pogosto kasneje zahtevajo ročno delo. Zato se zanašamo na orodja in algoritme za inteligentno avtomatizacijo postopka pridobivanja podatkov obrazca. Ta objava v spletnem dnevniku se bo poglobila v različne scenarije in tehnike za pridobivanje podatkov iz obrazcev z uporabo OCR in poglobljenega učenja.

Kaj je ekstrakcija podatkov obrazca?
Kaj naredi problem izziv?
Globina problema ekstrakcije obrazca
Kako so se razvile rešitve za ekstrakcijo podatkov iz obrazcev?
Izvleček podatkov iz obrazca z OCR-ji
Reševanje ekstrakcije podatkov iz obrazcev z uporabo globokega učenja
Vstopite v Nanonets

Kaj je ekstrakcija podatkov obrazca?

Izvleček podatkov iz obrazca je postopek pridobivanja podatkov iz obrazcev – tako na spletu kot zunaj njega. Te podatke je mogoče najti v kateri koli obliki, običajno vsebuje obrazec z ustreznimi informacijami. Vendar pridobivanje teh podatkov ni vedno lahka naloga, ker številne postavitve in dizajni ne omogočajo enostavnega izbire besedila. Ni izvornega načina kopiranja podatkov iz njih. Zato se zanašamo na avtomatizirane tehnike za pomoč pri pridobivanju podatkov iz obrazcev, ki so učinkovitejši in manj nagnjeni k napakam.

Kaj je pridobivanje podatkov iz obrazca?

Danes je na primer veliko uporabnikov za zbiranje kontaktnih podatkov odvisnih od obrazcev, ki temeljijo na PDF. To je zelo učinkovit način zbiranja informacij, saj ne zahteva vnosa od pošiljatelja in prejemnika. Toda pridobivanje teh podatkov iz obrazca PDF je lahko zahtevno in drago.

Tukaj lahko pridobivanje podatkov iz obrazca pomaga izvleči podatke iz obrazca PDF, kot so ime, e-poštni naslov, telefonska številka itd. Lahko ga uvozite v drugo aplikacijo, kot je Excel, Preglednice ali katero koli drugo strukturirano obliko. Deluje tako, da orodja za ekstrakcijo preberejo datoteko PDF, samodejno izvlečejo tisto, kar potrebuje, in jo organizirajo v formatu, ki ga je enostavno brati. Te podatke je mogoče izvoziti v druge formate, kot so Excel, CSV, JSON in druge dobro strukturirane formate podatkov. V naslednjem razdelku si oglejmo nekaj pogostih izzivov pri gradnji algoritmov za pridobivanje podatkov iz obrazca.

Želite pridobiti podatke iz natisnjenih ali ročno napisanih obrazcev? Oglejte si Nanonets™ brezplačen ekstraktor podatkov iz obrazcev in avtomatizirajte izvoz informacij iz katerega koli obrazca!

Zakaj je pridobivanje podatkov iz obrazca izziv?

Pridobivanje podatkov je vznemirljiv problem zaradi različnih razlogov. Prvič, to je problem prepoznavanja slike, vendar mora upoštevati tudi besedilo, ki je lahko prisotno na sliki, in postavitev obrazca, zaradi česar je sestavljanje algoritma bolj zapleteno. V tem razdelku so obravnavani nekateri pogosti izzivi, s katerimi se ljudje srečujejo pri izdelavi algoritmov za ekstrakcijo podatkov obrazca.

Pomanjkanje podatkov: Algoritmi za ekstrakcijo podatkov so običajno zgrajeni z uporabo zmogljivih algoritmov globokega učenja in računalniškega vida. Ti se običajno zanašajo na ogromne količine podatkov, da dosežejo najsodobnejšo zmogljivost. Zato sta iskanje doslednega in zanesljivega nabora podatkov in njihova obdelava ključnega pomena za katero koli obliko orodja ali programske opreme za pridobivanje podatkov. Recimo, da imamo obrazce z več predlogami, potem bi morali biti ti algoritmi sposobni razumeti širok nabor obrazcev; zato bi njihovo usposabljanje na robustnem naboru podatkov imelo natančnejšo učinkovitost.
Ravnanje s pisavami, jeziki in postavitvami: Na voljo so vrtoglave količine različnih pisav, dizajnov in predlog za različne vrste podatkov obrazcev. Lahko spadajo v več popolnoma različnih klasifikacij, zaradi česar je težko zagotoviti natančno prepoznavanje, ko je treba upoštevati ogromno različnih vrst znakov. Zato je pomembno, da zbirko pisav omejite na določen jezik in vrsto, ker bo ustvarilo številne procese, ki bodo potekali gladko, ko boste te dokumente ustrezno obdelali. V večjezičnih primerih je treba biti pripravljen na žongliranje med znaki iz več jezikov in poskrbeti tudi za kompleksno tipografijo.

Izvirni naslov: srednje

Usmerjenost in poševnost (rotacija): Med kuriranjem podatkov pogosto skeniramo slike, da urimo algoritme za zbiranje vhodnih podatkov. Če ste kdaj uporabljali optični bralnik ali digitalni fotoaparat, ste morda opazili, da lahko kot, pod katerim zajemate slike dokumentov, včasih povzroči, da so videti poševno. To je znano kot poševnost, ki se nanaša na stopnjo kota. Ta asimetrija lahko zmanjša natančnost modela. Na srečo lahko to težavo odpravite z različnimi tehnikami, tako da preprosto spremenite, kako naša programska oprema zaznava funkcije v določenih delih slike. Primer takšne tehnike so metode projekcijskega profila ali metode Fourierjeve transformacije, ki omogočajo veliko čistejše rezultate pri prepoznavanju oblike, dimenzije in teksture! Čeprav sta lahko orientacija in nagnjenost preprosti napaki, lahko v velikem številu vplivata na natančnost modela.

Izvirni naslov: pyimagesearch

Varnost podatkov: Če pridobivate podatke iz različnih virov za zbiranje podatkov, je pomembno, da se zavedate varnostnih ukrepov, ki so na voljo. V nasprotnem primeru tvegate, da boste ogrozili podatke, ki se prenašajo. To lahko privede do situacij, ko pride do kršitve osebnih podatkov ali pa informacije, poslane v API, niso varne. Zato se moramo pri delu s skripti ETL in spletnimi API-ji za pridobivanje podatkov zavedati tudi vprašanj glede varnosti podatkov.
Izvleček tabele: včasih vidimo podatke obrazca znotraj tabel; izdelava robustnega algoritma, ki lahko obravnava tako ekstrakcijo obrazca kot ekstrakcijo tabele, je lahko izziv. Običajni pristop je, da te algoritme zgradimo neodvisno in jih uporabimo za podatke, vendar bo to povzročilo uporabo več računske moči, kar poveča stroške. Zato mora biti idealna ekstrakcija obrazca sposobna izvleči tako podatke obrazca kot tudi podatke iz danega dokumenta.

Izvirni naslov: GCN-ji

Naknadna obdelava/izvoz izhoda: Izhodni podatki iz kakršnega koli pridobivanja podatkov niso ravni. Zato se razvijalci zanašajo na tehnike naknadne obdelave za filtriranje rezultatov v bolj strukturirano obliko. Po obdelavi se podatki izvozijo v bolj strukturiran format, kot je CSV, Excel ali zbirka podatkov. Organizacije se za avtomatizacijo tega procesa zanašajo na integracije tretjih oseb ali razvijajo API-je, kar je spet dolgotrajno. Zato morajo biti idealni algoritmi za pridobivanje podatkov prilagodljivi in enostavni za komunikacijo z zunanjimi viri podatkov.

Naknadna obdelava v ekstrakciji podatkov obrazca

Razumevanje globine ekstrakcije obrazca z različnimi scenariji

Doslej smo razpravljali o osnovah in izzivih pridobivanja podatkov iz obrazcev. V tem razdelku se bomo poglobili v različne scenarije in razumeli globino pridobivanja podatkov obrazca. Preučili bomo tudi, kako lahko avtomatiziramo postopek ekstrakcije za te posebne scenarije.

Scenarij #1: Ročno napisano prepoznavanje obrazcev brez povezave

Obrazce brez povezave pogosto srečamo v vsakdanjem življenju. Nujno je, da so obrazci enostavni za izpolnjevanje in pošiljanje. Ročna digitalizacija obrazcev brez povezave je lahko naporna in draga naloga, zato so potrebni algoritmi globokega učenja. Ročno napisani dokumenti so velik izziv za pridobivanje podatkov zaradi zapletenosti ročno napisanih znakov. Zato se močno uporabljajo algoritmi za prepoznavanje podatkov, s katerimi se stroj nauči brati in interpretirati ročno napisano besedilo. Postopek vključuje skeniranje slik ročno napisanih besed in njihovo pretvorbo v podatke, ki jih je mogoče obdelati in analizirati z algoritmom. Algoritem nato ustvari zemljevid znakov na podlagi potez in prepozna ustrezne črke, da izlušči besedilo.

Izvirni naslov: Nabor podatkov NSIT

Scenarij #2: Identifikacija potrditvenega polja na obrazcih

Obrazci potrditvenega polja so oblika vnosa podatkov, ki se uporablja za zbiranje informacij od uporabnika v vnosnem polju. To vrsto podatkov običajno najdemo na seznamih in tabelah, ki od uporabnika zahtevajo, da izbere enega ali več elementov, na primer elemente, s katerimi želi vzpostaviti stik. Najdete ga lahko na številnih mestih – v spletnih obrazcih, vprašalnikih in anketah itd. Danes lahko nekateri algoritmi avtomatizirajo postopek pridobivanja podatkov tudi iz potrditvenih polj. Primarni cilj tega algoritma je identificirati vhodne regije z uporabo tehnik računalniškega vida. Ti vključujejo prepoznavanje črt (vodoravnih in navpičnih), uporabo filtrov, kontur in zaznavanje robov na slikah. Ko je območje vnosa identificirano, je preprosto ekstrahirati vsebino potrditvenega polja, ki je označeno ali neoznačeno.

Identifikacija potrditvenega polja pri pridobivanju podatkov obrazca

Scenarij #3: Postavitev Občasne spremembe obrazca

Ko gre za izpolnjevanje obrazcev, sta običajno na voljo dve različni vrsti možnosti. Pri nekaterih obrazcih moramo svoje podatke vnesti tako, da vpišemo v vsa ustrezna polja, pri drugih pa jih lahko zagotovimo tako, da izberemo nekaj potrditvenih polj. Tudi postavitev obrazca se spreminja glede na vrsto obrazca in njegov kontekst. Zato je bistveno zgraditi algoritem, ki lahko obravnava več nestrukturiranih dokumentov in inteligentno ekstrahira vsebino glede na oznake obrazcev. Ena priljubljena tehnika arhitekture globokega učenja za obdelavo postavitev dokumentov je Graph CNN. Ideja za grafičnimi konvolucijskimi omrežji (GCN) je zagotoviti, da aktivacije nevronov temeljijo na podatkih. Zasnovani so za delovanje na grafih, ki so sestavljeni iz vozlišč in robov. Konvolucijski sloj grafa je sposoben prepoznati vzorce v odsotnosti signala za usposabljanje, specifičnega za nalogo. Zato so ti primerni, ko so podatki zanesljivi.

Scenarij #4: Zaznavanje celic tabele

V nekaterih primerih podjetja naletijo na posebne vrste obrazcev, sestavljenih iz celic tabele. Celice tabele so pravokotna območja znotraj tabele, kjer so shranjeni podatki. Lahko jih razvrstimo kot glave, vrstice ali stolpce. Idealen algoritem bi moral identificirati vse te vrste celic in njihove meje, da iz njih izvleče podatke. Nekatere priljubljene tehnike za ekstrakcijo tabele vključujejo Stream in Lattice; to so algoritmi, ki lahko pomagajo zaznati črte, oblike, poligone z uporabo preprostih izomorfnih operacij na slikah.

Kako so se razvile rešitve za ekstrakcijo podatkov iz obrazcev?

Pridobivanje podatkov iz obrazcev izvira iz predračunalniških dni, ko so ljudje ravnali s papirnatimi obrazci. S pojavom računalništva je postalo mogoče podatke shranjevati v elektronski obliki. Računalniški programi bi lahko uporabili podatke za ustvarjanje poročil, kot je statistika prodaje. To programsko opremo bi lahko uporabili tudi za tiskanje poštnih nalepk, kot sta ime in naslov strank, in za tiskanje računov, kot sta zapadli znesek in naslov, na katerega je treba poslati. Vendar pa danes vidimo drugačno različico programske opreme za pridobivanje podatkov iz obrazca; ti so zelo natančni, hitrejši in zagotavljajo podatke na zelo organiziran in strukturiran način. Zdaj pa na kratko razpravljajmo o različnih vrstah tehnik pridobivanja podatkov iz obrazcev.

Na podlagi pravil iz pridobivanja podatkov: Ekstrakcija na podlagi pravil je tehnika, ki samodejno ekstrahira podatke iz določenega obrazca predloge. Lahko izvleče podatke brez človekovega posredovanja. Delujejo tako, da pregledajo različna polja na strani in se odločijo, katera bodo izluščili na podlagi okoliškega besedila, oznak in drugih kontekstualnih namigov. Ti algoritmi so običajno razviti in avtomatizirani z uporabo skriptov ETL ali spletnega strganja. Ko pa so preizkušeni na nevidnih podatkih, popolnoma odpovejo.
Izvleček podatkov obrazca z OCR: OCR je najboljša rešitev za kakršno koli težavo pri pridobivanju podatkov. Vendar je treba napisati dodatne skripte in programe, da bi dosegli natančno delovanje. Da OCR deluje, zahteva vnos slike z besedilom. Programska oprema nato prebere vsako slikovno piko in jo primerja z ustrezno črko. Če se ujema, bo izpisal to črko in vse številke ali simbole, ki so dovolj blizu črki. Največji izziv pri OCR je ugotoviti, kako ločiti črke. Na primer, ko sta noti blizu skupaj ali se prekrivata, na primer "a" in "e." Zato ti morda ne bodo delovali, ko ekstrahiramo obrazce brez povezave.
NER za ekstrakcijo podatkov iz obrazca: Prepoznavanje poimenovanih entitet je naloga prepoznavanja in razvrščanja vnaprej določenih entitet v besedilu naravnega jezika. Pogosto se uporablja za pridobivanje informacij iz obrazcev, kjer ljudje vnašajo imena, naslove, komentarje itd. Naloga prepoznavanja poimenovanih entitet je tesno povezana s širšo nalogo reševanja koreferenc, ki določa, ali se omembe istih entitet nanašajo na iste entitete iz resničnega sveta. Danes lahko z naprednimi programskimi orodji in ogrodji izkoristimo vnaprej usposobljene modele za izdelavo modelov, ki temeljijo na NER, za naloge pridobivanja informacij.

Izvirni naslov: srednje

Uporaba globokega učenja za ekstrakcijo podatkov obrazca: Globoko učenje ni novost, obstaja že desetletja, vendar je nedavni razvoj arhitektur globokega učenja in računalniške moči privedel do prebojnih rezultatov. Ekstrakcija podatkov iz obrazcev z uporabo globokega učenja je dosegla najsodobnejšo zmogljivost v skoraj vseh formatih, bodisi digitalnih ali ročno napisanih. Postopek se začne tako, da globoki nevronski mreži (DNN) vnese na tisoče ali milijone različnih primerov, označenih s tem, kar so. Na primer oznake v obliki slike s svojimi entitetami, kot so ime, e-pošta, id itd. DNN obdela vse te informacije in se sam nauči, kako so ti deli povezani. Vendar izdelava zelo natančnega modela zahteva veliko strokovnega znanja in eksperimentiranja.

Globoko učenje za ekstrakcijo podatkov obrazca

Izvleček podatkov iz obrazca z OCR-ji

Na voljo je veliko različnih knjižnic za pridobivanje podatkov iz obrazcev. Kaj pa, če želite izvleči podatke iz slike obrazca? Tu nastopi Tesseract OCR (optično prepoznavanje znakov). Tesseract je odprtokodni motor OCR (optično prepoznavanje znakov), ki ga je razvil HP. Z uporabo Tesseract OCR je možno pretvoriti skenirane dokumente, kot so papirnati računi, potrdila in čeki, v digitalne datoteke, ki jih je mogoče iskati in urejati. Na voljo je v več jezikih in lahko prepozna znake v različnih formatih slik. Tesseract se običajno uporablja v kombinaciji z drugimi knjižnicami za obdelavo slik za ekstrahiranje besedila.

Če želite to preizkusiti, se prepričajte, da namestite Tesseract na vaš lokalni računalnik. Za izvajanje OCR lahko uporabite Tesseract CLI ali Python. Python-tesseract je ovoj za Googlov motor Tesseract-OCR. Uporablja se lahko za branje vseh vrst slik, ki jih podpirata slikovni knjižnici Pillow in Leptonica, vključno z jpeg, png, gif, bmp, tiff in drugimi. Z lahkoto ga lahko uporabite kot samostojen priklicni skript za tesseract, če je to potrebno.

Zdaj pa vzemimo potrdilo, ki vsebuje podatke obrazca, in poskusimo identificirati lokacijo besedila s pomočjo računalniškega vida in Tesseracta.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Izvleček podatkov iz obrazca z OCR-ji

Tukaj, v izhodu, kot lahko vidimo, je program uspel prepoznati celotno besedilo znotraj obrazca. Zdaj pa uporabimo OCR za to, da izvlečemo vse informacije. To lahko preprosto storimo z uporabo slika_v_niz funkcijo v Pythonu.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

izhod:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Tukaj lahko izvlečemo vse podatke iz obrazca. Vendar v večini primerov uporaba samo OCR ne bo pomagala, saj bodo ekstrahirani podatki popolnoma nestrukturirani. Zato se uporabniki zanašajo na ekstrakcijo parov ključ-vrednost na obrazcih, ki lahko prepoznajo samo določene entitete, kot so ID, datumi, znesek davka itd. To je mogoče le z globokim učenjem. V naslednjem razdelku si poglejmo, kako lahko uporabimo različne tehnike globokega učenja za izdelavo algoritmov za pridobivanje informacij.

Reševanje ekstrakcije podatkov iz obrazcev z uporabo globokega učenja

Koncept grafike za pridobivanje multimodalnih informacij iz vizualno bogatih dokumentov

Graf konvolucijskih omrežij (graf CNN) so razred globokih konvolucijskih nevronskih mrež (CNN), ki se lahko učinkovito učijo zelo nelinearnih značilnosti v podatkovnih strukturah grafov, hkrati pa ohranjajo strukturo vozlišč in robov. Kot vhod lahko vzamejo podatkovne strukture grafov in ustvarijo 'karte funkcij' za vozlišča in robove. Dobljene funkcije je mogoče uporabiti za klasifikacijo grafov, združevanje v gruče ali zaznavanje skupnosti. GCN zagotavljajo zmogljivo rešitev za pridobivanje informacij iz velikih, vizualno bogatih dokumentov, kot so računi in potrdila. Za njihovo obdelavo je treba vsako sliko pretvoriti v graf, sestavljen iz vozlišč in robov. Vsaka beseda na sliki je predstavljena z lastnim vozliščem; vizualizacija preostalih podatkov je kodirana v vektorju značilnosti vozlišča.

Graf dokumenta. Vsako vozlišče v grafu je med seboj popolnoma povezano.(SRC)

Ta model najprej kodira vsak segment besedila v dokumentu v vdelavo grafa. S tem zajamete vizualni in besedilni kontekst, ki obdaja vsak element besedila, skupaj z njegovim položajem ali lokacijo znotraj bloka besedila. Nato te grafe združi z vdelanimi besedili, da ustvari celovito predstavitev strukture dokumenta in tega, kar je v njem napisano. Model se nauči dodeljevati višje uteži besedilom, ki so verjetno entitete, glede na njihove medsebojne lokacije in kontekst, v katerem se pojavljajo v večjem bloku bralcev. Končno uporablja standardni model BiLSTM-CRF za ekstrakcijo entitet. Rezultati kažejo, da ta algoritem močno prekaša osnovni model (BiLSTM-CRF).

LayoutLM: Predhodno usposabljanje besedila in postavitve za razumevanje slike dokumenta

Arhitektura modela LayoutLM se močno zgleduje po BERT in vključuje vdelave slik iz Faster R-CNN. Vhodne vdelave LayoutLM so ustvarjene kot kombinacija vdelav besedila in položaja, nato pa združene z vdelavami slik, ustvarjenimi z modelom Faster R-CNN. Zamaskirani vizualni jezikovni modeli in klasifikacija dokumentov z več oznakami se uporabljajo predvsem kot naloge pred usposabljanjem za LayoutLM. Model LayoutLM je dragocen, dinamičen in dovolj močan za vsako delo, ki zahteva razumevanje postavitve, kot je ekstrakcija obrazca/potrdila, klasifikacija slik dokumentov ali celo vizualno odgovarjanje na vprašanja, ki se lahko izvede s tem modelom usposabljanja.

Izvirni naslov: LayoutML

Model LayoutLM je bil usposobljen na testni zbirki IIT-CDIP 1.0, ki vključuje več kot 6 milijonov dokumentov in več kot 11 milijonov skeniranih slik dokumentov s skupno več kot 12 GB podatkov. Ta model je bistveno prekašal več predhodno usposobljenih modelov SOTA pri razumevanju obrazcev, razumevanju potrdil in opravilih klasifikacije slike skeniranega dokumenta.

Form2Seq: Ogrodje za ekstrakcijo strukture obrazca višjega reda

Form2Seq je ogrodje, ki se osredotoča na pridobivanje struktur iz vhodnega besedila z uporabo pozicijskih zaporedij. Za razliko od tradicionalnih ogrodij seq2seq Form2Seq izkorišča relativne prostorske položaje struktur namesto njihovega vrstnega reda.

Pri tej metodi najprej razvrstimo nizkonivojske elemente, ki bodo omogočili boljšo obdelavo in organizacijo. Obstaja 10 vrst obrazcev, kot so napisi polj, elementi seznama itd. Nato združimo elemente nižje ravni, kot so Text Fields in ChoiceFields, v konstrukte višjega reda, imenovane ChoiceGroups. Ti se uporabljajo kot mehanizmi za zbiranje informacij za doseganje boljše uporabniške izkušnje elementov nižje ravni v konstrukte višjega reda, kot so besedilna polja, ChoiceFields in ChoiceGroups, ki se uporabljajo kot mehanizmi za zbiranje informacij v obrazcih. To je mogoče z razporeditvijo sestavnih elementov v linearnem vrstnem redu v naravnem vrstnem redu branja in dovajanjem njihovih prostorskih in besedilnih predstavitev v okvir Seq2Seq. Ogrodje Seq2Seq zaporedno naredi napovedi za vsak element stavka glede na kontekst. To mu omogoča obdelavo več informacij in doseganje boljšega razumevanja naloge.

Arhitektura modela Form2seq za klasifikacijo tipov elementov. Različne stopnje so označene s črkami (SRC).

Model je pri nalogi klasifikacije dosegel 90-odstotno natančnost, kar je bilo višje kot pri osnovnih modelih, ki temeljijo na segmentaciji. F1 na besedilnih blokih, besedilnih poljih in izbirnih poljih je bil 86.01 %, 61.63 % oz. Ta okvir je dosegel stanje rezultatov nabora podatkov ICDAR za prepoznavanje strukture tabel.

Zakaj je OCR na osnovi nanonetov najboljša možnost

Čeprav lahko programska oprema OCR pretvori optično prebrane slike besedila v oblikovane digitalne datoteke, kot so PDF-ji, DOC-ji in PPT-ji, ni vedno točna. Današnja vrhunska programska oprema, kot je sistem za globoko učenje OCR, ki temelji na Nanonets AI, je premagala številne izzive, s katerimi so se soočali tradicionalni sistemi OCR pri ustvarjanju datoteke, ki jo je mogoče urejati iz skeniranega dokumenta. Postal je najboljša možnost za ekstrakcijo podatkov, saj lahko zagotovi visoke stopnje natančnosti in visoke ravni tolerance za hrup, grafične elemente in spremembe oblikovanja. Zdaj pa se pogovorimo o nekaj točkah o tem, kako je OCR na osnovi umetne inteligence najboljša možnost.

Nanonets – pridobivanje podatkov iz obrazca

OCR, kot smo že omenili, je preprosta tehnika za pridobivanje podatkov. Vendar pa ne bodo delovali dosledno, če jih namestimo na nevidene/nove podatke. Vendar bi OCR, ki temelji na umetni inteligenci, lahko obvladal takšne situacije, saj se usposabljajo na širokem naboru podatkov.
Običajni OCR-ji ne morejo obravnavati zapletenih postavitev za ekstrakcije podatkov obrazcev. Zato, če jih poganja globoko učenje ali AI, dajejo najboljše rezultate z razumevanjem postavitev, besedila in konteksta podatkov.
OCR-ji so morda slabši, če je v podatkih šum, kot je asimetrija, optično prebrane slike pri šibki svetlobi itd., medtem ko modeli globokega učenja lahko obvladajo takšne pogoje in še vedno vrnejo zelo natančne rezultate.
OCR-ji na osnovi umetne inteligence so zelo prilagodljivi in prilagodljivi v primerjavi s tradicionalnimi OCR-ji; se lahko zgradijo na različnih vrstah podatkov za pretvorbo nestrukturiranih podatkov v kateri koli strukturiran format.
Izhodi naknadne obdelave iz optičnega prepoznavanja znakov na osnovi umetne inteligence so dostopni v primerjavi z navadnim OCR; izvoziti jih je mogoče v poljubne podatkovne formate, kot so JSON, CSV, Excel Sheets, ali celo bazo podatkov, kot je Postgres, neposredno iz modela.
OCR na osnovi umetne inteligence je mogoče izvoziti kot preprost API z uporabo vnaprej usposobljenih modelov. To je še vedno mogoče pri drugih tradicionalnih metodah, vendar bo modele morda težko dosledno pravočasno izboljšati. Medtem ko uporablja OCR na osnovi umetne inteligence, se lahko samodejno prilagodi zaradi napak.
Ekstrakcija tabele je zelo nemogoča z uporabo neposrednega OCR. Vendar pa je to mogoče narediti z lahkoto z močjo AI/DL. Danes lahko OCR-ji, ki temeljijo na umetni inteligenci, pozitivno pokažejo obrazce, ki temeljijo na tabelah, znotraj dokumentov in izvlečejo informacije.
Če so v dokumentih kakršni koli finančni ali zaupni podatki, lahko modeli AI izvajajo tudi preglede goljufij. V bistvu poišče urejeno/zamegljeno besedilo iz skeniranih dokumentov in o tem obvesti skrbnike. S temi modeli je mogoče prepoznati tudi podvojene dokumente ali informacije. Medtem ko OCR v takih primerih preprosto odpove.

Časovni žig: Marec 6, 2022

Časovni žig: November 15, 2023

Izvleček podatkov obrazca

Ponovno objavil Platon

Kaj je ekstrakcija podatkov obrazca?

Zakaj je pridobivanje podatkov iz obrazca izziv?

Razumevanje globine ekstrakcije obrazca z različnimi scenariji

Scenarij #1: Ročno napisano prepoznavanje obrazcev brez povezave

Scenarij #2: Identifikacija potrditvenega polja na obrazcih

Scenarij #3: Postavitev Občasne spremembe obrazca

Scenarij #4: Zaznavanje celic tabele

Kako so se razvile rešitve za ekstrakcijo podatkov iz obrazcev?

Izvleček podatkov iz obrazca z OCR-ji

Reševanje ekstrakcije podatkov iz obrazcev z uporabo globokega učenja

Zakaj je OCR na osnovi nanonetov najboljša možnost

Več od AI in strojno učenje

Vodnik po poročilih in poročanju o obveznostih (AP) v letu 2024

Kaj je potrdilo o stroških?

12 razburljivih statističnih podatkov RPA, ki jih ne smete zamuditi v letu 2022

Ekstraktor telefonskih številk: vse, kar morate vedeti

Argus Modeling: Spodbujanje odločitev o nepremičninah na podlagi podatkov

Proces upravljanja prodajalcev: pomen, prednosti in izzivi

Kaj so neporavnani dnevi? In kako izračunati DPO?

Popoln vodnik za digitalno preobrazbo v računovodskih izkazih

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun