Vormiandmete ekstraheerimine

Taasavaldanud Platon

järgijaid: 0

Kas soovite andmeid välja võtta trükitud või käsitsi kirjutatud vormidest? Kontrollige Nanonetid™ vormiandmete ekstraktor tasuta ja automatiseerige teabe eksportimine mis tahes kujul!

Vormid on kõikjal; need on määratletud kui dokumendid, mis on loodud teabe kogumiseks, paludes osalejatel täita vajalik teave kindlas vormingus. Need on abiks nende võime tõttu koguda lühikese aja jooksul palju andmeid. Kõigil vormidel ei ole aga andmete kogumiseks sama võimekust ja need nõuavad sageli hiljem käsitsi tööd. Seetõttu toetume vormiandmete väljavõtmise protsessi arukalt automatiseerimiseks tööriistadele ja algoritmidele. See ajaveebi postitus käsitleb sügavalt erinevaid stsenaariume ja tehnikaid, mille abil saab OCR-i ja süvaõppe abil vormidest andmeid eraldada.

Mis on vormiandmete ekstraheerimine?
Mis teeb probleemi keeruliseks?
Vormi väljavõtmise probleemi sügavus
Kuidas on vormiandmete ekstraheerimise lahendused arenenud?
Vormiandmete ekstraheerimine OCR-ide abil
Vormiandmete ekstraheerimise lahendamine süvaõppe abil
Sisestage Nanonets

Mis on vormiandmete ekstraheerimine?

Vormiandmete ekstraheerimine on vormidest andmete hankimise protsess – nii võrgus kui ka võrguühenduseta. Neid andmeid võib leida mis tahes vormingus, tavaliselt sisaldab vorm asjakohase teabega. Nende andmete väljavõtmine ei ole aga alati lihtne ülesanne, kuna paljud paigutused ja kujundused ei võimalda teksti lihtsalt valida. Nendest andmete kopeerimiseks pole loomulikku viisi. Seetõttu toetume automaatsetele tehnikatele, mis aitavad vormidelt andmeid ekstraheerida, mis on tõhusamad ja vähem veaohtlikud.

Mis on vormiandmete ekstraheerimine?

Näiteks tänapäeval kasutavad paljud kasutajad kontaktteabe kogumiseks PDF-i põhiseid vorme. See on väga tõhus viis teabe kogumiseks, kuna see ei nõua saatjalt ja saajalt sisendit. Kuid nende andmete väljavõtmine PDF-vormingust võib olla keeruline ja kulukas.

Siin võib vormiandmete ekstraheerimine aidata PDF-vormingust eraldada andmeid, nagu nimi, e-posti aadress, telefoninumber jne. Neid saab importida mõnda teise rakendusse, nagu Excel, Sheets või mis tahes muusse struktureeritud vormingusse. See toimib nii, et ekstraktimise tööriistad loevad PDF-faili üle, tõmbavad vajaliku automaatselt välja ja korraldavad selle hõlpsasti loetavas vormingus. Neid andmeid saab eksportida muudesse vormingutesse, nagu Excel, CSV, JSON ja muud hästi struktureeritud andmevormingud. Järgmises jaotises vaatleme mõningaid vormiandmete ekstraheerimisalgoritmide loomisel sageli esinevaid väljakutseid.

Kas soovite andmeid välja võtta trükitud või käsitsi kirjutatud vormidest? Vaadake Nanonetsit™ tasuta vormiandmete ekstraktija ja automatiseerige teabe eksportimine mis tahes kujul!

Mis teeb vormiandmete ekstraheerimise keeruliseks?

Andmete eraldamine on põnev probleem mitmel põhjusel. Esiteks on see pildituvastuse probleem, kuid see peab arvestama ka pildil esineda võiva tekstiga ja vormi paigutusega, mis muudab algoritmi koostamise keerulisemaks. Selles jaotises käsitletakse mõningaid levinumaid väljakutseid, millega inimesed vormiandmete ekstraheerimisalgoritmide loomisel kokku puutuvad.

Andmete puudumine: Andmete ekstraheerimise algoritmid koostatakse tavaliselt võimsate süvaõppe- ja arvutinägemispõhiste algoritmide abil. Need toetuvad tipptasemel jõudluse saavutamiseks tavaliselt tohututele andmemahtudele. Seega on järjepideva ja usaldusväärse andmekogumi leidmine ja nende töötlemine mis tahes andmeväljavõtu tööriista või tarkvara jaoks ülioluline. Näiteks oletame, et meil on mitme malliga vormid, siis peaksid need algoritmid suutma aru saada paljudest vormidest; seetõttu oleks nende treenimine tugeva andmestiku põhjal täpsem.
Fontide, keelte ja paigutuste käsitlemine: Erinevat tüüpi vormiandmete jaoks on saadaval peadpööritavalt palju erinevaid kirjatüüpe, kujundusi ja malle. Need võivad jaguneda mitmesse täiesti erinevasse klassifikatsiooni, mis muudab täpse äratundmise tagamise keeruliseks, kui arvestada tuleb suure hulga erinevate märgitüüpidega. Seetõttu on oluline piirata fondikogu teatud keele ja tüübiga, kuna see loob palju protsesse, mis sujuvad pärast nende dokumentide sobivat töötlemist. Mitmekeelsetel juhtudel tuleb mitme keele tähemärkide vahel žongleerimiseks valmis olla ja hoolitseda ka keerulise tüpograafia eest.

Pildi allikas: Keskmine

Orientatsioon ja kaldus (pööramine): Andmete kureerimise ajal skannime sageli pilte, et treenida sisendandmete kogumise algoritme. Kui olete kunagi kasutanud skannerit või digikaamerat, siis olete võib-olla märganud, et dokumentide pildistamise nurk võib mõnikord põhjustada nende viltuse. Seda nimetatakse viltuseks, mis viitab nurga astmele. See kalduvus võib vähendada mudeli täpsust. Õnneks saab selle probleemi lahendamiseks kasutada erinevaid tehnikaid, muutes lihtsalt seda, kuidas meie tarkvara pildi teatud piirkondades funktsioone tuvastab. Sellise tehnika näiteks on Projection Profile meetodid või Fourier' teisendusmeetodid, mis võimaldavad saada palju puhtamaid tulemusi nii kuju, mõõtmete kui ka tekstuuri tuvastamisel! Kuigi orientatsioon ja kalduvus võivad olla lihtsad vead, võivad need mudeli täpsust suurel määral mõjutada.

Pildi allikas: pyimagesearch

Andmeturve: kui hankite andmete kogumiseks andmeid erinevatest allikatest, on oluline olla teadlik kehtivatest turvameetmetest. Vastasel juhul võite ohustada edastatavat teavet. See võib põhjustada olukordi, kus isikuandmeid rikutakse või API-le saadetav teave ei ole turvaline. Seetõttu tuleb andmete ekstraheerimiseks ETL-skriptide ja veebipõhiste API-dega töötades olla teadlik ka andmeturbe probleemidest.
Tabeli ekstraheerimine: Mõnikord näeme vormiandmeid tabelites; Tugeva algoritmi loomine, mis saab hakkama nii vormide kui ka tabelite ekstraheerimisega, võib olla keeruline. Tavaline lähenemisviis on koostada need algoritmid iseseisvalt ja rakendada neid andmetele, kuid see toob kaasa suurema arvutusvõimsuse kasutamise, mis suurendab kulusid. Seetõttu peaks ideaalne vormi väljavõte suutma eraldada nii vormiandmeid kui ka andmeid antud dokumendist.

Pildi allikas: GCN-id

Järeltöötlus / väljundi eksport: mis tahes andmete eraldamise väljundandmed ei ole sirged. Seetõttu tuginevad arendajad tulemuste struktureeritumasse vormingusse filtreerimiseks järeltöötlusmeetoditele. Pärast andmete töötlemist eksporditakse need rohkem struktureeritud vormingusse, nagu CSV, Excel või andmebaas. Selle protsessi automatiseerimiseks kasutavad organisatsioonid kolmandate osapoolte integratsioone või arendavad API-sid, mis on jällegi aeganõudev. Seetõttu peaksid ideaalsed andmete ekstraheerimise algoritmid olema paindlikud ja väliste andmeallikatega hõlpsasti suhtlevad.

Järeltöötlus vormiandmete ekstraktsioonis

Kas soovite andmeid välja võtta trükitud või käsitsi kirjutatud vormidest? Vaadake Nanonetsit™ tasuta vormiandmete ekstraktija ja automatiseerige teabe eksportimine mis tahes kujul!

Vormi ekstraheerimise sügavuse mõistmine erinevate stsenaariumide abil

Siiani oleme arutanud vormiandmete kaevandamise põhialuseid ja väljakutseid. Selles jaotises sukeldume põhjalikult erinevatesse stsenaariumidesse ja mõistame vormiandmete kaevandamise sügavust. Samuti uurime, kuidas saame nende konkreetsete stsenaariumide jaoks ekstraheerimisprotsessi automatiseerida.

1. stsenaarium: võrguühenduseta vormide käsitsi kirjutatud äratundmine

Võrguühenduseta vorme kohtab igapäevaelus sageli. Vorme peab olema lihtne täita ja esitada. Võrguühenduseta vormide käsitsi digitaliseerimine võib olla kirglik ja kulukas ülesanne, mistõttu on vaja süvaõppe algoritme. Käsitsi kirjutatud dokumendid on käsitsi kirjutatud märkide keerukuse tõttu andmete hankimisel suur väljakutse. Seetõttu kasutatakse laialdaselt andmetuvastusalgoritme, mille abil masin õpib käsitsi kirjutatud teksti lugema ja tõlgendama. Protsess hõlmab käsitsi kirjutatud sõnade kujutiste skaneerimist ja nende teisendamist andmeteks, mida saab algoritmi abil töödelda ja analüüsida. Algoritm loob seejärel tõmmete põhjal märgikaardi ja tunneb teksti eraldamiseks ära vastavad tähed.

Pildi allikas: NSIT-i andmestik

2. stsenaarium: märkeruudu identifitseerimine vormidel

Märkeruudu vormid on andmesisestusvorm, mida kasutatakse kasutajalt teabe kogumiseks sisestusväljale. Seda tüüpi andmeid leidub tavaliselt loendites ja tabelites, mis nõuavad, et kasutaja valiks ühe või mitu üksust, näiteks üksused, millega ta soovib ühendust võtta. Seda võib leida paljudest kohtadest – veebivormidest, küsimustikest ja küsitlustest jne. Tänapäeval saavad mõned algoritmid automatiseerida andmete ekstraheerimise protsessi isegi märkeruutudest. Selle algoritmi esmane eesmärk on tuvastada sisendpiirkonnad arvutinägemise tehnikate abil. Need hõlmavad joonte (horisontaalsete ja vertikaalsete) tuvastamist, filtrite, kontuuride ja piltide servade tuvastamist. Pärast sisestuspiirkonna tuvastamist on märgistatud või märgistamata märkeruutude sisu lihtne eraldada.

Märkeruudu identifitseerimine vormiandmete väljavõtmisel

Stsenaarium nr 3: kujundus Vormi aeg-ajalt muudatused

Kui tegemist on vormide täitmisega, on tavaliselt kaks erinevat tüüpi valikut. Mõne vormi puhul peame oma teabe esitama, kirjutades kõikidele asjakohastele väljadele, samas kui teiste vormide puhul saame teabe esitada mõne märkeruudu hulgast valides. Vormi paigutus muutub ka sõltuvalt vormi tüübist ja selle kontekstist. Seetõttu on oluline koostada algoritm, mis suudab olenevalt vormisiltidest käsitleda mitut struktureerimata dokumenti ja targalt sisu välja võtta. Üks populaarne süvaõppe arhitektuuri tehnika dokumendipaigutuste käsitlemiseks on Graph CNN-id. Graafi konvolutsioonivõrkude (GCN) idee on tagada, et neuronite aktiveerimine oleks andmepõhine. Need on loodud töötama graafikutel, mis koosnevad sõlmedest ja servadest. Graafiku konvolutsioonikiht on võimeline ära tundma mustreid ülesandespetsiifilise treeningsignaali puudumisel. Seetõttu sobivad need siis, kui andmed on kindlad.

Stsenaarium nr 4: tabelirakkude tuvastamine

Mõnel juhul puutuvad ettevõtted kokku spetsiaalsete tabelilahtritest koosnevate vormidega. Tabeli lahtrid on ristkülikukujulised alad tabeli sees, kuhu andmeid salvestatakse. Neid saab liigitada päisteks, ridadeks või veergudeks. Ideaalne algoritm peaks tuvastama kõik seda tüüpi rakud ja nende piirid, et neist andmeid eraldada. Mõned populaarsed tabeli ekstraheerimise tehnikad hõlmavad Stream ja Lattice; need on algoritmid, mis aitavad tuvastada jooni, kujundeid, hulknurki, kasutades piltidel lihtsaid isomorfseid toiminguid.

Kuidas on vormiandmete ekstraheerimise lahendused arenenud?

Vormiandmete väljavõtmine sai alguse arvutieelsetest aegadest, mil inimesed pabervorme käsitlesid. Arvutustehnika tulekuga sai võimalikuks andmete elektrooniline salvestamine. Arvutiprogrammid võivad neid andmeid kasutada aruannete, näiteks müügistatistika koostamiseks. Seda tarkvara saab kasutada ka postisiltide (nt klientide nimed ja aadressid) printimiseks ning arvete printimiseks (nt tasumisele kuuluv summa ja aadress, kuhu see tuleb saata). Tänapäeval näeme aga vormiandmete väljavõtmise tarkvara teistsugust versiooni; need on väga täpsed, kiiremad ja edastavad andmeid hästi organiseeritud ja struktureeritult. Räägime nüüd lühidalt vormiandmete ekstraheerimise eri tüüpidest.

Reeglipõhine andmete ekstraheerimisest: reeglipõhine ekstraktimine on meetod, mis ekstraheerib automaatselt andmed konkreetsest mallivormist. See suudab andmeid välja võtta ilma inimese sekkumiseta. Nad uurivad lehe erinevaid välju ja otsustavad ümbritseva teksti, siltide ja muude kontekstipõhiste vihjete põhjal, millised neist eraldada. Need algoritmid töötatakse välja ja automatiseeritakse tavaliselt ETL-skriptide või veebikraapimise abil. Kuid kui neid testitakse nähtamatute andmetega, ebaõnnestuvad need täielikult.
Vormiandmete ekstraheerimine OCR-i abil: OCR on hea lahendus mis tahes vormis andmete eraldamise probleemidele. Täpse jõudluse saavutamiseks tuleb aga kirjutada täiendavaid skripte ja programme. OCR-i toimimiseks on vaja sisestada pilt koos tekstiga. Seejärel loeb tarkvara iga piksli ja võrdleb iga pikslit vastava tähega. Kui see ühtib, väljastab see selle tähe ja kõik sellele piisavalt lähedal olevad numbrid või sümbolid. OCR-i suurim väljakutse on tähtede eraldamise väljamõtlemine. Näiteks kui noodid on lähestikku või kattuvad, näiteks "a" ja "e". Seetõttu ei pruugi need võrguühenduseta vormide ekstraktimisel töötada.
NER vormiandmete ekstraheerimiseks: Nimega olemi tuvastamine on loomuliku keele tekstis eelmääratletud üksuste tuvastamise ja klassifitseerimise ülesanne. Seda kasutatakse sageli teabe hankimiseks vormidest, kuhu inimesed sisestavad nimesid, aadresse, kommentaare jne. Nimetatud olemite äratundmise ülesanne on tihedalt seotud laiema põhiresolutsiooni ülesandega, mis määrab, kas samade üksuste mainimine viitab samad reaalse maailma olemid. Tänapäeval saame täiustatud programmeerimistööriistade ja raamistikega kasutada eelkoolitatud mudeleid, et luua teabe hankimise ülesannete jaoks NER-põhiseid mudeleid.

Pildi allikas: Keskmine

Süvaõppe kasutamine vormiandmete ekstraheerimiseks: Süvaõpe ei ole uus, see on eksisteerinud aastakümneid, kuid hiljutised arengud süvaõppe arhitektuuri ja arvutusvõimsuse vallas on viinud läbimurdeliste tulemusteni. Vormiandmete ekstraheerimine süvaõppe abil saavutas tipptasemel jõudluse peaaegu igas vormingus, olgu see siis digitaalne või käsitsi kirjutatud. Protsess algab sügavale närvivõrgule (DNN) tuhandete või miljonite erinevate näidetega, mis on märgistatud nende olemusega. Näiteks pildivormis sildid oma olemitega, nagu nimi, e-posti aadress, ID jne. DNN töötleb kogu seda teavet ja õpib ise, kuidas need osad on ühendatud. Väga täpse mudeli loomine nõuab aga palju teadmisi ja katsetamist.

Sügav õpe vormiandmete ekstraheerimiseks

Kas soovite andmeid välja võtta trükitud või käsitsi kirjutatud vormidest? Vaadake Nanonetsit™ tasuta vormiandmete ekstraktija ja automatiseerige teabe eksportimine mis tahes kujul!

Vormiandmete ekstraheerimine OCR-ide abil

Vormidest andmete väljavõtmiseks on saadaval palju erinevaid teeke. Aga mis siis, kui soovite vormi kujutisest andmeid eraldada? Siin tuleb appi Tesseract OCR (Optical Character Recognition). Tesseract on HP välja töötatud avatud lähtekoodiga OCR (Optical Character Recognition) mootor. Tesseracti OCR-i abil on võimalik skannitud dokumente (nt paberarved, kviitungid ja tšekid) teisendada otsitavateks redigeeritavateks digitaalfailideks. See on saadaval mitmes keeles ja suudab ära tunda erinevates pildivormingutes olevaid märke. Tesseracti kasutatakse tavaliselt koos teiste raamatukogudega piltide töötlemiseks teksti eraldamiseks.

Selle testimiseks installige kindlasti Tesseract oma kohalikku arvutisse. OCR-i käitamiseks saate kasutada Tesseract CLI või Pythoni sidumist. Python-tesseract on Google'i Tesseract-OCR mootori ümbris. Seda saab kasutada kõigi Pillow ja Leptonica pilditeekide toetatud pilditüüpide lugemiseks, sealhulgas jpeg, png, gif, bmp, tiff ja teised. Saate seda vajaduse korral hõlpsasti kasutada eraldiseisva kutsumisskriptina.

Nüüd võtame vormiandmeid sisaldava kviitungi ja proovime Computer Visioni ja Tesseracti abil teksti asukohta tuvastada.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Vormiandmete ekstraheerimine OCR-ide abil

Siin, väljundis, nagu näeme, suutis programm tuvastada kogu vormi sees oleva teksti. Nüüd rakendame sellele OCR-i, et kogu teave eraldada. Saame seda lihtsalt teha, kasutades pilt_stringiks funktsioon Pythonis.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

Väljund:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Siin saame vormist kogu teabe välja võtta. Kuid enamikul juhtudel ei aita ainult OCR-i kasutamine, kuna eraldatud andmed on täiesti struktureerimata. Seetõttu toetuvad kasutajad vormide võtme-väärtuste paari ekstraheerimisele, mis suudab tuvastada ainult konkreetseid üksusi, nagu ID, kuupäevad, maksusumma jne. See on võimalik ainult sügava õppimisega. Järgmises jaotises vaatleme, kuidas saame kasutada erinevaid süvaõppe tehnikaid teabe eraldamise algoritmide koostamiseks.

Vormiandmete ekstraheerimise lahendamine süvaõppe abil

Graafikakonvolutsioon multimodaalse teabe ekstraheerimiseks visuaalselt rikkalikest dokumentidest

Graafika konvolutsioonivõrgud (CNN-id) on sügavate konvolutsiooniliste närvivõrkude (CNN) klass, mis on võimeline tõhusalt õppima graafi andmestruktuuride väga mittelineaarseid funktsioone, säilitades samal ajal sõlmede ja servade struktuuri. Nad saavad kasutada graafiku andmestruktuure sisendina ja genereerida sõlmede ja servade jaoks funktsioonikaarte. Saadud funktsioone saab kasutada graafiku klassifitseerimiseks, rühmitamiseks või kogukonna tuvastamiseks. GCN-id pakuvad võimsat lahendust teabe hankimiseks suurtest visuaalselt rikkalikest dokumentidest, nagu arved ja kviitungid. Nende töötlemiseks tuleb iga pilt teisendada sõlmedest ja servadest koosnevaks graafikuks. Kujutise mis tahes sõna esindab tema enda sõlm; ülejäänud andmete visualiseerimine on kodeeritud sõlme funktsioonivektorisse.

Dokumendi graafik. Graafiku kõik sõlmed on üksteisega täielikult ühendatud.(SRC)

See mudel kodeerib kõigepealt dokumendi iga tekstisegmendi graafiku manustamiseks. See jäädvustab iga tekstielementi ümbritseva visuaalse ja tekstilise konteksti koos selle asukoha või asukohaga tekstiplokis. Seejärel ühendab see need graafikud teksti manustega, et luua üldine esitus dokumendi struktuurist ja selles kirjutatust. Mudel õpib määrama suuremat kaalu tekstidele, mis on tõenäoliselt üksused, lähtudes nende asukohast üksteise suhtes ja kontekstist, milles need suuremas lugejaskonnas ilmuvad. Lõpuks rakendab see olemi ekstraheerimiseks standardset BiLSTM-CRF mudelit. Tulemused näitavad, et see algoritm ületab suurel määral baasmudelit (BiLSTM-CRF).

LayoutLM: teksti ja paigutuse eelkoolitus dokumendi kujutise mõistmiseks

Mudeli LayoutLM arhitektuur on suuresti inspireeritud BERT-ist ja sisaldab pildimanustusi Faster R-CNN-ist. LayoutLM-i sisendmanused genereeritakse teksti- ja positsioonimanustuste kombinatsioonina ning seejärel kombineeritakse Faster R-CNN-i mudeli genereeritud pildimanustustega. Maskeeritud visuaalkeelemudeleid ja mitmesildiga dokumentide klassifikatsiooni kasutatakse peamiselt LayoutLM-i eelkoolitusülesannetena. LayoutLM-mudel on väärtuslik, dünaamiline ja piisavalt tugev iga töö jaoks, mis nõuab paigutuse mõistmist, näiteks vormi/kviitungi väljavõtmist, dokumendi kujutiste klassifitseerimist või isegi visuaalset küsimustele vastamist.

Pildi allikas: LayoutML

LayoutLM-i mudelit koolitati IIT-CDIP Test Collection 1.0 abil, mis sisaldab üle 6 miljoni dokumendi ja enam kui 11 miljonit skannitud dokumendipilti, kokku üle 12 GB andmemahu. See mudel oli vormi mõistmise, kviitungi mõistmise ja skannitud dokumentide kujutiste klassifitseerimise ülesannete osas oluliselt edestanud mitut SOTA eelkoolitatud mudelit.

Form2Seq: raamistik kõrgema järgu vormistruktuuride ekstraheerimiseks

Form2Seq on raamistik, mis keskendub struktuuride eraldamisele sisendtekstist, kasutades positsioonijärjestusi. Erinevalt traditsioonilistest seq2seq raamistikest kasutab Form2Seq struktuuride suhtelisi ruumilisi positsioone, mitte nende järjestust.

Selle meetodi puhul klassifitseerime kõigepealt madala taseme elemendid, mis võimaldavad paremat töötlemist ja organiseerimist. Vorme on 10 tüüpi, näiteks väljade pealdised, loendiüksused jne. Järgmisena rühmitame madalama taseme elemendid, nagu tekstiväljad ja valikuväljad, kõrgemat järku konstruktsioonidesse nimega ChoiceGroups. Neid kasutatakse teabe kogumise mehhanismidena, et saavutada parem kasutajakogemus madalama taseme elemendid kõrgema järgu konstruktsioonideks, nagu tekstiväljad, valikuväljad ja valikurühmad, mida kasutatakse vormides teabe kogumise mehhanismidena. See on võimalik, paigutades koostisosad loomulikus lugemisjärjestuses lineaarses järjekorras ja sisestades nende ruumilised ja tekstilised esitused Seq2Seq raamistikku. Seq2Seq raamistik ennustab järjestikku lause iga elemendi kohta olenevalt kontekstist. See võimaldab tal töödelda rohkem teavet ja paremini mõista käsilolevat ülesannet.

Form2seq mudeliarhitektuur elemenditüüpide klassifitseerimiseks. Erinevad etapid on tähistatud tähtedega (SRC).

Mudel saavutas klassifitseerimisülesande täpsuse 90%, mis oli kõrgem kui segmenteerimisel põhinevatel baasmudelitel. F1 tekstiplokkidel, tekstiväljadel ja valikuväljadel oli vastavalt 86.01%, 61.63%. See raamistik saavutas tabelistruktuuri tuvastamise ICDAR-i andmestiku tulemuste taseme.

Kas soovite andmeid välja võtta trükitud või käsitsi kirjutatud vormidest? Vaadake Nanonetsit™ tasuta vormiandmete ekstraktija ja automatiseerige teabe eksportimine mis tahes kujul!

Miks on Nanonetsi AI-põhine OCR parim valik?

Kuigi OCR-tarkvara saab teisendada skannitud tekstipildid vormindatud digitaalfailideks, nagu PDF-id, DOC-id ja PPT-d, ei ole see alati täpne. Tänapäeva tipptarkvara, nagu Nanonets AI-põhine OCR-i süvaõppesüsteem, on ületanud palju väljakutseid, millega traditsioonilised OCR-süsteemid on skannitud dokumendist redigeeritava faili loomisel silmitsi seisnud. Sellest on saanud parim valik andmete eraldamiseks, kuna see võib pakkuda kõrget täpsust ja kõrget tolerantsi taset müra, graafiliste elementide ja vormingumuudatuste jaoks. Nüüd arutame mõnda punkti selle kohta, kuidas AI-põhine OCR on parim valik.

Nanonetid – vormiandmete ekstraheerimine

OCR, nagu arutatud, on andmete eraldamiseks lihtne meetod. Siiski ei tööta need järjepidevalt, kui need on nägemata/uutele andmetele lisatud. Tehisintellektil põhinev OCR saab aga selliste olukordadega hakkama, kuna nad treenivad paljude andmete põhjal.
Tavalised OCR-id ei suuda vormiandmete ekstraheerimiseks keerulisi paigutusi käsitleda. Seetõttu annavad need süvaõppe või tehisintellektiga töötades parimad tulemused, kui mõistavad andmete paigutust, teksti ja konteksti.
OCR-id võivad kehvemini toimida, kui andmetes on müra, nagu viltused, vähese valgusega skannitud kujutised jne, samas kui süvaõppemudelid saavad sellistes tingimustes hakkama ja annavad siiski väga täpseid tulemusi.
AI-põhised OCR-id on traditsiooniliste OCR-idega võrreldes väga kohandatavad ja paindlikud; neid saab ehitada erinevat tüüpi andmetele, et teisendada struktureerimata andmed mis tahes struktureeritud vormingusse.
AI-põhise OCR-i järeltöötlusväljundid on tavalise OCR-iga võrreldes kättesaadavad; neid saab otse mudelist eksportida mis tahes andmevormingusse, nagu JSON, CSV, Exceli lehed või isegi andmebaasi, nagu Postgres.
AI-l põhinevat OCR-i saab eksportida lihtsa API-na, kasutades eelkoolitatud mudeleid. See on muude traditsiooniliste meetodite puhul endiselt võimalik, kuid mudeleid võib olla raske järjekindlalt õigeaegselt täiustada. Tehisintellektil põhineva OCR-i puhul saab seda automaatselt häälestada vigade tõttu.
Tabeli ekstraheerimine on sirge OCR-i abil väga võimatu. Seda saab aga hõlpsasti teha AI/DL-i abil. Tänapäeval suudavad AI-põhised OCR-id positiivselt suunata tabelipõhiseid vorme dokumentide sees ja hankida teavet.
Kui dokumentides on finants- või konfidentsiaalseid andmeid, saavad tehisintellekti mudelid läbi viia ka pettuste kontrolli. Põhimõtteliselt otsib see skannitud dokumentidest redigeeritud/hägustatud teksti ja teavitab administraatoreid. Nende mudelite abil saab tuvastada ka dubleerivaid dokumente või teavet. Kuigi sellistel juhtudel OCR lihtsalt ebaõnnestub.

Ajatempel: Märtsil 6, 2022

Ajatempel: November 15, 2023

Vormiandmete ekstraheerimine

Taasavaldanud Platon

Mis on vormiandmete ekstraheerimine?

Mis teeb vormiandmete ekstraheerimise keeruliseks?

Vormi ekstraheerimise sügavuse mõistmine erinevate stsenaariumide abil

1. stsenaarium: võrguühenduseta vormide käsitsi kirjutatud äratundmine

2. stsenaarium: märkeruudu identifitseerimine vormidel

Stsenaarium nr 3: kujundus Vormi aeg-ajalt muudatused

Stsenaarium nr 4: tabelirakkude tuvastamine

Kuidas on vormiandmete ekstraheerimise lahendused arenenud?

Vormiandmete ekstraheerimine OCR-ide abil

Vormiandmete ekstraheerimise lahendamine süvaõppe abil

Miks on Nanonetsi AI-põhine OCR parim valik?

Veel alates Tehisintellekt ja masinõpe

2024. aasta võlgnevuse aruannete ja aruandluse juhend

Mis on kulukviitung?

12 põnevat RPA statistikat, millest 2022. aastal ei saa mööda vaadata

Telefoninumbrite väljavõte: kõik, mida peate teadma

Arguse modelleerimine: andmepõhiste kinnisvaraotsuste juhtimine

Müüjahaldusprotsess: tähtsus, eelised ja väljakutsed

Mis on tasumata päevad? Ja kuidas arvutada DPO-d?

Täielik juhend võlgnevuste digitaalseks muutmiseks

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto