Lomaketietojen purkaminen

Julkaissut Platon

seuraajia: 0

Haluatko poimia tietoja painetuista tai käsinkirjoitetuista lomakkeista? Tarkista Nanonetit™ lomaketietojen poimija ilmaiseksi ja automatisoi tiedon vienti mistä tahansa muodosta!

Lomakkeita on kaikkialla; ne määritellään asiakirjoiksi, jotka on luotu keräämään tietoja pyytämällä osallistujia täyttämään tarvittavat tiedot tietyssä muodossa. Ne ovat hyödyllisiä, koska ne pystyvät keräämään paljon tietoa lyhyessä ajassa. Kaikilla lomakkeilla ei kuitenkaan ole samanlaista tiedonkeruukapasiteettia, ja ne vaativat usein manuaalista työtä myöhemmin. Siksi luotamme työkaluihin ja algoritmeihin lomaketietojen poimintaprosessin älykkääseen automatisointiin. Tämä blogikirjoitus sukeltaa syvällisesti erilaisiin skenaarioihin ja tekniikoihin tietojen poimimiseksi lomakkeista OCR:n ja Deep Learningin avulla.

Mikä on lomaketietojen purkaminen?
Mikä tekee ongelmasta haastavan?
Muotin purkamisongelman syvyys
Miten lomaketietojen erotusratkaisut ovat kehittyneet?
Lomaketietojen purkaminen OCR:llä
Lomaketietojen poiminnan ratkaiseminen syväoppimisen avulla
Syötä Nanonets

Mikä on lomaketietojen purkaminen?

Lomaketietojen purku on prosessi, jolla poimitaan tietoja lomakkeista – sekä online- että offline-tilassa. Nämä tiedot löytyvät missä tahansa muodossa, yleensä ne sisältävät lomakkeen, jossa on tarvittavat tiedot. Näiden tietojen purkaminen ei kuitenkaan aina ole helppoa, koska monet asettelut ja mallit eivät salli tekstin valintaa helposti. Niistä ei ole olemassa alkuperäistä tapaa kopioida tietoja. Siksi luotamme automatisoituihin tekniikoihin, jotka auttavat poimimaan tietoja lomakkeista, jotka ovat tehokkaampia ja vähemmän virhealttiita.

Mikä on lomaketietojen purkaminen?

Esimerkiksi nykyään monet käyttäjät käyttävät PDF-pohjaisia lomakkeita kerätäkseen yhteystietoja. Tämä on erittäin tehokas tapa kerätä tietoja, koska se ei vaadi lähettäjän ja vastaanottajan syöttämistä. Mutta näiden tietojen purkaminen PDF-lomakkeesta voi olla haastavaa ja kallista.

Tässä lomaketietojen purkaminen voi auttaa poimimaan PDF-lomakkeesta tietoja, kuten nimen, sähköpostiosoitteen, puhelinnumeron jne. Se voidaan tuoda toiseen sovellukseen, kuten Exceliin, Sheetsiin tai mihin tahansa muuhun strukturoituun muotoon. Se toimii siten, että purkutyökalut lukevat PDF-tiedoston, poistavat sen tarvitseman automaattisesti ja järjestävät sen helposti luettavaan muotoon. Nämä tiedot voidaan viedä muihin muotoihin, kuten Exceliin, CSV:hen, JSONiin ja muihin hyvin jäsenneltyihin tietomuotoihin. Seuraavassa osiossa tarkastellaan joitain usein kohtaamia haasteita lomaketietojen poiminta-algoritmien rakentamisessa.

Haluatko poimia tietoja painetuista tai käsinkirjoitetuista lomakkeista? Tutustu Nanonetsiin™ lomakkeiden tiedonpoiminta ilmaiseksi ja automatisoi tietojen vienti mistä tahansa muodosta!

Mikä tekee lomaketietojen poimimisesta haastavaa?

Tietojen poimiminen on jännittävä ongelma useista syistä. Ensinnäkin se on kuvantunnistusongelma, mutta siinä on myös otettava huomioon kuvassa mahdollisesti esiintyvä teksti ja lomakkeen asettelu, mikä tekee algoritmin rakentamisesta monimutkaisempaa. Tässä osiossa käsitellään joitain yleisiä haasteita, joita ihmiset kohtaavat rakentaessaan lomaketietojen poimintaalgoritmeja.

Tietojen puute: Tiedonpoistoalgoritmit rakennetaan yleensä tehokkailla syväoppimis- ja tietokonenäköpohjaisilla algoritmeilla. Ne luottavat tyypillisesti suuriin tietomääriin saavuttaakseen huippuluokan suorituskyvyn. Siksi johdonmukaisen ja luotettavan tietojoukon löytäminen ja niiden käsittely on erittäin tärkeää kaikenlaisille tiedonpoimintatyökaluille tai -ohjelmistoille. Oletetaan esimerkiksi, että meillä on useita malleja sisältäviä lomakkeita, niin näiden algoritmien pitäisi pystyä ymmärtämään monenlaisia lomakkeita. siksi niiden kouluttaminen vankalla tietojoukolla olisi tarkempi suorituskyky.
Fonttien, kielten ja asettelujen käsittely: Erilaisia kirjasintyyppejä, malleja ja malleja on tarjolla huimaavia määriä erilaisille lomaketietoille. Ne voivat jakaa useisiin täysin erilaisiin luokitteluihin, mikä tekee tarkan tunnistamisen varmistamisesta haastavaa, kun on otettava huomioon suuri määrä erilaisia hahmotyyppejä. Tästä syystä on tärkeää rajoittaa kirjasinkokoelma tiettyyn kieleen ja tyyppiin, koska se luo monia prosesseja, jotka sujuvat sujuvasti, kun asiakirjat on käsitelty asianmukaisesti. Monikielisissä tapauksissa jongleeraukseen useiden kielten merkkien välillä on varauduttava ja huolehdittava myös monimutkaisesta typografiasta.

Image Source: Keskikokoinen

Suunta ja vino (kierto): Tietojen kuroinnin aikana skannaamme usein kuvia harjoittaaksemme algoritmeja syötetietojen keräämistä varten. Jos olet joskus käyttänyt skanneria tai digitaalikameraa, olet ehkä huomannut, että kulma, jossa otat kuvia asiakirjoista, voi joskus saada ne näyttämään vinoilta. Tätä kutsutaan vinoudeksi, joka viittaa kulman asteeseen. Tämä vinous voi heikentää mallin tarkkuutta. Onneksi eri tekniikoilla voidaan korjata tämä ongelma yksinkertaisesti muokkaamalla sitä, miten ohjelmistomme havaitsee piirteitä tietyillä kuvan alueilla. Esimerkki tällaisesta tekniikasta on Projection Profile -menetelmät tai Fourier-muunnosmenetelmät, jotka mahdollistavat paljon puhtaamman tuloksen muodon, ulottuvuuden ja tekstuurin tunnistamisessa! Vaikka suuntaus ja vinous voivat olla yksinkertaisia virheitä, ne voivat vaikuttaa mallin tarkkuuteen suurissa määrin.

Image Source: pyimagesearch

Tietoturva: Jos poimit tietoja eri lähteistä tiedonkeruuta varten, on tärkeää olla tietoinen käytössä olevista turvatoimista. Muussa tapauksessa saatat vaarantaa siirrettävät tiedot. Tämä voi johtaa tilanteisiin, joissa henkilökohtaisia tietoja rikotaan tai API:lle lähetettävät tiedot eivät ole turvallisia. Siksi, kun työskentelet ETL-komentosarjojen ja online-sovellusliittymien kanssa tietojen poiminnassa, sinun on myös oltava tietoisia tietoturvaongelmista.
Taulukon uuttaminen: Joskus näemme lomaketietoja taulukoiden sisällä; vankan algoritmin rakentaminen, joka pystyy käsittelemään sekä lomakkeiden että taulukoiden purkamisen, voi olla haastavaa. Tavallinen lähestymistapa on rakentaa nämä algoritmit itsenäisesti ja soveltaa niitä dataan, mutta tämä johtaa enemmän laskentatehon käyttöön, mikä lisää kustannuksia. Siksi ihanteellisen lomakkeen poiminnan pitäisi pystyä poimimaan sekä lomaketiedot että tiedot tietystä asiakirjasta.

Image Source: GCN:t

Jälkikäsittely / Tuotoksen vienti: Tiedonpoiminnan lähtötiedot eivät ole suoria. Siksi kehittäjät luottavat jälkikäsittelytekniikoihin suodattaakseen tulokset jäsennellympään muotoon. Tietojen käsittelyn jälkeen ne viedään jäsennellympään muotoon, kuten CSV, Excel tai tietokanta. Organisaatiot luottavat kolmannen osapuolen integraatioihin tai kehittävät sovellusliittymiä automatisoidakseen tämän prosessin, joka taas vie aikaa. Siksi ihanteellisten tiedonpoiminta-algoritmien tulisi olla joustavia ja helposti kommunikoitavissa ulkoisten tietolähteiden kanssa.

Jälkikäsittely lomaketietojen poiminnassa

Haluatko poimia tietoja painetuista tai käsinkirjoitetuista lomakkeista? Tutustu Nanonetsiin™ lomakkeiden tiedonpoiminta ilmaiseksi ja automatisoi tietojen vienti mistä tahansa muodosta!

Lomakkeen syvyyden ymmärtäminen eri skenaarioissa

Tähän mennessä olemme keskustelleet lomaketietojen poimimisen perusteista ja haasteista. Tässä osiossa sukeltamme syvällisesti erilaisiin skenaarioihin ja ymmärrämme lomaketietojen poiminnan syvyyden. Tarkastelemme myös, kuinka voimme automatisoida poimintaprosessin näissä erityisissä skenaarioissa.

Skenaario 1: Käsinkirjoitettu tunnistus offline-lomakkeille

Offline-lomakkeet kohdataan yleisesti jokapäiväisessä elämässä. Lomakkeiden on oltava helppoja täyttää ja lähettää. Offline-lomakkeiden manuaalinen digitalisointi voi olla hektistä ja kallista, minkä vuoksi syväoppimisalgoritmeja tarvitaan. Käsinkirjoitetut asiakirjat ovat suuri haaste tietojen poimimiselle käsinkirjoitettujen merkkien monimutkaisuuden vuoksi. Siksi tiedontunnistusalgoritmeja käytetään paljon, jotta kone oppii lukemaan ja tulkitsemaan käsin kirjoitettua tekstiä. Prosessi sisältää käsinkirjoitettujen sanojen kuvien skannauksen ja niiden muuntamisen dataksi, joka voidaan käsitellä ja analysoida algoritmin avulla. Tämän jälkeen algoritmi luo merkkikartan viivojen perusteella ja tunnistaa vastaavat kirjaimet poimiakseen tekstin.

Image Source: NSIT-tietojoukko

Skenaario 2: Valintaruudun tunnistus lomakkeissa

Valintaruutulomakkeet ovat tiedonsyöttömuoto, jota käytetään tietojen keräämiseen käyttäjältä syöttökenttään. Tämäntyyppiset tiedot löytyvät yleensä luetteloista ja taulukoista, joissa käyttäjän on valittava yksi tai useampi kohde, kuten kohteet, joihin hän haluaa ottaa yhteyttä. Se löytyy mistä tahansa paikasta - verkkolomakkeista, kyselylomakkeista ja kyselyistä ja niin edelleen. Nykyään jotkin algoritmit voivat automatisoida tietojen poimintaprosessin jopa valintaruuduista. Tämän algoritmin ensisijainen tavoite on tunnistaa syöttöalueet tietokonenäkötekniikoiden avulla. Näihin kuuluu viivojen (vaaka- ja pystysuuntaisten) tunnistaminen, suodattimien, ääriviivojen ja reunojen tunnistaminen kuvista. Kun syöttöalue on tunnistettu, on helppo purkaa valintaruudun sisältö, joka on joko merkitty tai merkitsemätön.

Valintaruudun tunnistaminen lomakkeen tietojen poiminnassa

Skenaario 3: Asettelu Lomakkeen muutokset ajoittain

Lomakkeiden täyttämisessä on yleensä kaksi erilaista vaihtoehtoa. Joissakin lomakkeissa meidän on annettava tietomme kirjoittamalla kaikkiin asiaankuuluviin kenttiin, kun taas toisissa voimme antaa tiedot valitsemalla muutamasta valintaruudusta. Myös lomakkeen ulkoasu muuttuu lomakkeen tyypin ja kontekstin mukaan. Siksi on välttämätöntä rakentaa algoritmi, joka pystyy käsittelemään useita jäsentelemättömiä asiakirjoja ja poimimaan älykkäästi sisältöä lomaketunnisteista riippuen. Yksi suosittu syväoppimisarkkitehtuurin tekniikka asiakirja-asettelujen käsittelemiseksi on Graph CNN:t. Graph Convolutional Networksin (GCN) ideana on varmistaa, että hermosolujen aktivaatiot ovat dataohjattuja. Ne on suunniteltu toimimaan kaavioissa, jotka koostuvat solmuista ja reunoista. Graafin konvoluutiokerros pystyy tunnistamaan kuvioita tehtäväkohtaisen harjoitussignaalin puuttuessa. Siksi nämä ovat sopivia, kun tiedot ovat vankkoja.

Skenaario 4: Taulukkosolujen tunnistus

Joissakin tapauksissa yritykset törmäävät erityisiin lomakkeisiin, jotka koostuvat taulukkosoluista. Taulukon solut ovat suorakaiteen muotoisia alueita taulukon sisällä, jonne tiedot tallennetaan. Ne voidaan luokitella otsikoiksi, riveiksi tai sarakkeiksi. Ihanteellisen algoritmin pitäisi tunnistaa kaikki tämäntyyppiset solut ja niiden rajat tietojen poimimiseksi niistä. Joitakin suosittuja taulukon poimintatekniikoita ovat Stream ja Lattice; Nämä ovat algoritmeja, jotka voivat auttaa havaitsemaan viivoja, muotoja ja polygoneja käyttämällä kuviin yksinkertaisia isomorfisia operaatioita.

Miten lomaketietojen erotusratkaisut ovat kehittyneet?

Lomaketietojen poimiminen juontaa juurensa tietokonetta edeltäneiltä ajoilta, jolloin ihmiset käsittelivät paperilomakkeita. Tietotekniikan myötä tietojen tallentaminen sähköisesti tuli mahdolliseksi. Tietojen avulla tietokoneohjelmat voisivat luoda raportteja, kuten myyntitilastoja. Tämän ohjelmiston avulla voidaan myös tulostaa postitusetikettejä, kuten asiakkaiden nimet ja osoitteet, ja tulostaa laskuja, kuten erääntyvä summa ja osoite, johon se tulee lähettää. Tänään näemme kuitenkin eri version lomaketietojen poimintaohjelmistosta; ne ovat erittäin tarkkoja, nopeampia ja toimittavat tiedot erittäin organisoidulla ja jäsennellyllä tavalla. Keskustellaan nyt lyhyesti erilaisista lomaketietojen poimintatekniikoista.

Sääntöpohjainen Tietojen purkamisesta: Sääntöpohjainen purkaminen on tekniikka, joka poimii tiedot automaattisesti tietystä mallilomakkeesta. Se voi poimia tietoja ilman ihmisen väliintuloa. He työskentelevät tutkimalla sivun eri kenttiä ja päättämällä, mitkä niistä poimitaan ympäröivän tekstin, tarrojen ja muiden asiayhteyteen liittyvien vihjeiden perusteella. Nämä algoritmit kehitetään ja automatisoidaan yleensä ETL-komentosarjoilla tai web-kaappauksella. Kuitenkin, kun niitä testataan näkymättömillä tiedoilla, ne epäonnistuvat kokonaan.
Lomaketietojen purkaminen OCR:llä: OCR on täydellinen ratkaisu kaikenlaisiin tiedonpoimintaongelmiin. On kuitenkin kirjoitettava lisää komentosarjoja ja ohjelmia tarkan suorituskyvyn saavuttamiseksi. Jotta OCR toimisi, se vaatii kuvan, jossa on tekstiä, syöttämisen. Ohjelmisto lukee sitten jokaisen pikselin ja vertaa jokaista pikseliä vastaavaan kirjaimeen. Jos se täsmää, se tulostaa kyseisen kirjaimen ja kaikki numerot tai symbolit riittävän lähellä kirjainta. OCR:n suurin haaste on kirjainten erottaminen toisistaan. Esimerkiksi kun nuotit ovat lähellä toisiaan tai limittyvät, kuten "a" ja "e". Siksi nämä eivät välttämättä toimi, kun poimimme offline-lomakkeita.
NER lomaketietojen poimimiseen: Nimettyjen entiteettien tunnistus on tehtävä ennalta määritettyjen entiteettien tunnistamiseen ja luokitteluun luonnollisen kielen tekstissä. Sitä käytetään usein poimimaan tietoa lomakkeista, joihin ihmiset kirjoittavat nimiä, osoitteita, kommentteja jne. Nimettyjen entiteettien tunnistamisen tehtävä liittyy läheisesti laajempaan coreference-resoluutioon, joka määrittää, viittaavatko samojen entiteettien maininnat samoja reaalimaailman olentoja. Nykyään edistyneiden ohjelmointityökalujen ja -kehysten avulla voimme hyödyntää esikoulutettuja malleja rakentaaksemme NER-pohjaisia malleja tiedonkeruutehtäviin.

Image Source: Keskikokoinen

Deep Learningin käyttäminen lomaketietojen poimimiseen: Syväoppiminen ei ole uutta, se on ollut olemassa jo vuosikymmeniä, mutta viimeaikainen kehitys syvän oppimisen arkkitehtuurissa ja laskentatehossa on johtanut läpimurtotuloksiin. Lomaketietojen poiminta syväoppimisen avulla saavutti huippuluokan suorituskyvyn melkein missä tahansa muodossa, oli se sitten digitaalinen tai käsinkirjoitettu. Prosessi alkaa syöttämällä syvälle hermoverkkoon (DNN) tuhansia tai miljoonia erilaisia esimerkkejä, jotka on merkitty mitä ne ovat. Esimerkiksi kuvamuotoiset etiketit entiteeteillään, kuten nimi, sähköpostiosoite, tunnus jne. DNN käsittelee kaiken tämän tiedon ja oppii itse, kuinka nämä osat yhdistetään. Erittäin tarkan mallin rakentaminen vaatii kuitenkin paljon asiantuntemusta ja kokeilua.

Syväoppiminen lomaketietojen poimimiseen

Haluatko poimia tietoja painetuista tai käsinkirjoitetuista lomakkeista? Tutustu Nanonetsiin™ lomakkeiden tiedonpoiminta ilmaiseksi ja automatisoi tietojen vienti mistä tahansa muodosta!

Lomaketietojen purkaminen OCR:llä

Käytettävissä on monia erilaisia kirjastoja tietojen poimimiseen lomakkeista. Mutta entä jos haluat poimia tietoja lomakkeen kuvasta? Tässä Tesseract OCR (Optical Character Recognition) tulee käyttöön. Tesseract on HP:n kehittämä avoimen lähdekoodin OCR (Optical Character Recognition) -moottori. Tesseract OCR:n avulla on mahdollista muuntaa skannatut asiakirjat, kuten paperilaskut, kuitit ja shekit haettavissa oleviksi, muokattaviksi digitaalisiksi tiedostoiksi. Se on saatavana useilla kielillä ja pystyy tunnistamaan eri kuvamuodoissa olevia merkkejä. Tesseractia käytetään tyypillisesti yhdessä muiden kirjastojen kanssa kuvien käsittelyyn tekstin poimimiseksi.

Testaaksesi tämän, varmista, että asennat Tesseractin paikalliselle koneellesi. Voit käyttää joko Tesseract CLI- tai Python-sidoksia OCR:n suorittamiseen. Python-tesseract on kääre Googlen Tesseract-OCR Enginelle. Sitä voidaan käyttää kaikkien Pillow- ja Leptonica-kuvakirjastojen tukemien kuvatyyppien lukemiseen, mukaan lukien jpeg, png, gif, bmp, tiff ja muut. Voit käyttää sitä helposti erillisenä kutsukomentosarjana tesseraktiin tarvittaessa.

Otetaan nyt lomaketiedot sisältävä kuitti ja yritetään tunnistaa tekstin sijainti Computer Visionin ja Tesseractin avulla.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Lomaketietojen purkaminen OCR:llä

Tässä tulosteessa, kuten näemme, ohjelma pystyi tunnistamaan kaiken lomakkeen sisällä olevan tekstin. Käytä nyt OCR:ää tähän poimimaan kaikki tiedot. Voimme tehdä tämän käyttämällä kuva_merkkijonoon toiminto Pythonissa.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

lähtö:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Täällä voimme poimia kaikki tiedot lomakkeesta. Useimmissa tapauksissa pelkän OCR:n käyttö ei kuitenkaan auta, koska poimitut tiedot ovat täysin jäsentelemättömiä. Siksi käyttäjät luottavat avain-arvoparien poimimiseen lomakkeissa, jotka voivat tunnistaa vain tietyt entiteetit, kuten tunnuksen, päivämäärät, verosumman jne. Tämä on mahdollista vain syväopetuksen avulla. Seuraavassa osiossa tarkastellaan, kuinka voimme hyödyntää erilaisia syväoppimistekniikoita tiedonpoimintaalgoritmien rakentamiseen.

Lomaketietojen poiminnan ratkaiseminen syväoppimisen avulla

Graafin konvoluutio multimodaalisen tiedon poimimiseen visuaalisesti rikkaista asiakirjoista

Graph Convolutional Networks (kaavio CNN:t) ovat luokka syväkonvoluutiohermoverkkoja (CNN), jotka pystyvät tehokkaasti oppimaan erittäin epälineaarisia piirteitä graafitietorakenteissa säilyttäen samalla solmu- ja reunarakenteen. He voivat ottaa graafisen datan rakenteita syötteenä ja luoda "ominaisuuskarttoja" solmuille ja reunoille. Tuloksena olevia ominaisuuksia voidaan käyttää kuvaajien luokitukseen, klusterointiin tai yhteisön havaitsemiseen. GCN:t tarjoavat tehokkaan ratkaisun tiedon poimimiseen suurista, visuaalisesti monipuolisista asiakirjoista, kuten laskuista ja kuiteista. Näiden käsittelemiseksi jokainen kuva on muutettava graafiksi, joka koostuu solmuista ja reunoista. Mitä tahansa kuvan sanaa edustaa oma solmunsa; muun datan visualisointi on koodattu solmun ominaisuusvektoriin.

Asiakirjan kaavio. Jokainen kaavion solmu on täysin yhteydessä toisiinsa.(SRC)

Tämä malli koodaa ensin jokaisen asiakirjan tekstisegmentin kaavion upotukseen. Tämä kaappaa kutakin tekstielementtiä ympäröivän visuaalisen ja tekstillisen kontekstin sekä sen sijainnin tai sijainnin tekstilohkossa. Sitten se yhdistää nämä kaaviot tekstin upotuksiin luodakseen yleisesityksen asiakirjan rakenteesta ja siitä, mitä siihen on kirjoitettu. Malli oppii antamaan suurempia painoja teksteille, jotka ovat todennäköisesti kokonaisuuksia, perustuen niiden sijaintiin suhteessa toisiinsa ja kontekstiin, jossa ne esiintyvät suuremmassa lukijajoukossa. Lopuksi se soveltaa tavallista BiLSTM-CRF-mallia kokonaisuuden poimimiseen. Tulokset osoittavat, että tämä algoritmi ylittää perusmallin (BiLSTM-CRF) laajalla marginaalilla.

LayoutLM: Tekstin ja asettelun esikoulutus asiakirjan kuvan ymmärtämiseen

LayoutLM-mallin arkkitehtuuri on vahvasti inspiroitunut BERT:stä, ja se sisältää kuvien upotuksia Faster R-CNN:stä. LayoutLM-syöteupotukset luodaan tekstin ja paikan upotuksen yhdistelmänä, minkä jälkeen ne yhdistetään Faster R-CNN -mallin luomiin kuvaupotuksiin. Peitettyjä visuaalisia kielimalleja ja usean merkinnän dokumenttien luokittelua käytetään ensisijaisesti LayoutLM:n esikoulutustehtävinä. LayoutLM-malli on arvokas, dynaaminen ja riittävän vahva mihin tahansa työhön, joka vaatii asettelun ymmärtämistä, kuten lomakkeen/kuitin poimimista, asiakirjan kuvien luokittelua tai jopa visuaalista kysymykseen vastaamista voidaan suorittaa tällä koulutusmallilla.

Image Source: AsetteluML

LayoutLM-malli opetettiin IIT-CDIP Test Collection 1.0 -testikokoelmalla, joka sisältää yli 6 miljoonaa asiakirjaa ja yli 11 miljoonaa skannattua asiakirjakuvaa, yhteensä yli 12 Gt dataa. Tämä malli oli huomattavasti parempi kuin useita SOTA:lla esikoulutettuja malleja lomakkeen ymmärtämisessä, kuitin ymmärtämisessä ja skannattujen asiakirjojen kuvien luokittelutehtävissä.

Form2Seq: Framework korkeamman asteen lomakerakenteen purkamiseen

Form2Seq on kehys, joka keskittyy poimimaan rakenteita syöttötekstistä sijaintisekvenssien avulla. Toisin kuin perinteiset seq2seq-kehykset, Form2Seq hyödyntää rakenteiden suhteellisia spatiaalisia sijainteja niiden järjestyksen sijaan.

Tässä menetelmässä luokittelemme ensin matalan tason elementit, jotka mahdollistavat paremman käsittelyn ja organisoinnin. Lomakkeita on 10 tyyppiä, kuten kenttien kuvatekstejä, luettelokohteita ja niin edelleen. Seuraavaksi ryhmittelemme alemman tason elementit, kuten tekstikentät ja valintakentät, korkeamman asteen rakenteiksi nimeltä ChoiceGroups. Näitä käytetään tiedonkeruumekanismeina paremman käyttökokemuksen saavuttamiseksi alemman tason elementeistä korkeamman asteen rakenteisiin, kuten tekstikenttiä, valintakenttiä ja valintaryhmiä, joita käytetään tiedonkeruumekanismeina lomakkeissa. Tämä on mahdollista järjestämällä osaelementit lineaariseen järjestykseen luonnolliseen lukujärjestykseen ja syöttämällä niiden tila- ja tekstiesitykset Seq2Seq-kehykseen. Seq2Seq-kehys tekee ennusteita peräkkäin jokaiselle lauseen elementille kontekstista riippuen. Näin se pystyy käsittelemään enemmän tietoa ja ymmärtämään paremmin käsillä olevaa tehtävää.

Form2seq-malliarkkitehtuuri elementtityyppien luokittelua varten. Eri vaiheet on merkitty kirjaimilla (SRC).

Malli saavutti luokittelutehtävässä 90 % tarkkuuden, mikä oli korkeampi kuin segmentointiin perustuvilla perusmalleilla. F1 tekstilohkoissa, tekstikentissä ja valintakentissä oli vastaavasti 86.01 %, 61.63 %. Tämä kehys saavutti taulukkorakenteen tunnistamisen ICDAR-tietojoukon tulosten tilan.

Haluatko poimia tietoja painetuista tai käsinkirjoitetuista lomakkeista? Tutustu Nanonetsiin™ lomakkeiden tiedonpoiminta ilmaiseksi ja automatisoi tietojen vienti mistä tahansa muodosta!

Miksi Nanonets AI-pohjainen OCR on paras vaihtoehto

Vaikka OCR-ohjelmisto voi muuntaa skannatut tekstikuvat muotoilluiksi digitaalitiedostoiksi, kuten PDF-, DOC- ja PPT-tiedostoiksi, se ei aina ole tarkka. Nykypäivän huippuluokan ohjelmistot, kuten Nanonets AI -pohjainen OCR-syväoppimisjärjestelmä, on voittanut monia haasteita, joita perinteiset OCR-järjestelmät ovat kohdanneet luodessaan muokattavaa tiedostoa skannatusta asiakirjasta. Siitä on tullut paras vaihtoehto tiedon poimimiseen, koska se voi tarjota korkeat tarkkuusasteet ja korkeat toleranssitasot kohinalle, graafisille elementeille ja muotoilumuutoksille. Keskustellaan nyt muutamasta kohdasta, kuinka tekoälypohjainen OCR on paras vaihtoehto.

Nanonets – lomaketietojen purkaminen

OCR, kuten keskusteltiin, on suoraviivainen tekniikka tietojen poimimiseen. Ne eivät kuitenkaan toimi johdonmukaisesti, kun ne asetetaan näkemättömille/uudelle datalle. Tekoälypohjainen OCR voisi kuitenkin käsitellä tällaisia tilanteita, koska ne harjoittelevat monenlaisia tietoja.
Normaalit tekstintunnistusohjelmat eivät pysty käsittelemään monimutkaisia asetteluja lomaketietojen poimimista varten. Siksi syväoppimisen tai tekoälyn avulla ne antavat parhaat tulokset ymmärtämällä datan asettelun, tekstin ja kontekstin.
OCR:t saattavat toimia huonommin, jos tiedoissa on kohinaa, kuten vinoutta, hämärässä skannattuja kuvia jne., kun taas syväoppimismallit voivat käsitellä tällaisia olosuhteita ja silti palauttaa erittäin tarkkoja tuloksia.
Tekoälypohjaiset OCR:t ovat erittäin muokattavissa ja joustavia perinteisiin tekstintunnistusohjelmiin verrattuna; ne voidaan rakentaa erityyppisille tiedoille strukturoimattoman tiedon muuntamiseksi mihin tahansa strukturoituun muotoon.
Tekoälypohjaisen OCR:n jälkikäsittelytulokset ovat käytettävissä verrattuna tavalliseen tekstintunnistusohjelmaan; ne voidaan viedä mihin tahansa tietomuotoon, kuten JSON, CSV, Excel Sheets, tai jopa tietokantaan, kuten Postgres, suoraan mallista.
Tekoälypohjainen OCR voidaan viedä yksinkertaisena API:na käyttämällä esikoulutettuja malleja. Tämä on edelleen mahdollista muilla perinteisillä menetelmillä, mutta mallien jatkuva parantaminen ajoissa saattaa olla vaikeaa. Tekoälypohjaisessa OCR:ssä sitä voidaan virittää automaattisesti virheiden vuoksi.
Taulukon purkaminen on erittäin mahdotonta suoralla OCR:llä. Se voidaan kuitenkin tehdä helposti AI/DL:n avulla. Nykyään tekoälypohjaiset OCR:t voivat osoittaa taulukkopohjaisia lomakkeita asiakirjojen sisällä ja poimia tietoja.
Jos asiakirjoissa on taloudellisia tai luottamuksellisia tietoja, tekoälymallit voivat myös suorittaa petostarkistuksia. Se etsii pohjimmiltaan muokattua/sumentunutta tekstiä skannatuista asiakirjoista ja ilmoittaa asiasta järjestelmänvalvojille. Näiden mallien avulla voidaan myös tunnistaa päällekkäiset asiakirjat tai tiedot. Vaikka OCR yksinkertaisesti epäonnistuu tällaisissa tapauksissa.

Aikaleima: Maaliskuussa 6, 2022

Aikaleima: Marraskuu 15, 2023

Lomaketietojen purkaminen

Julkaissut Platon

Mikä on lomaketietojen purkaminen?

Mikä tekee lomaketietojen poimimisesta haastavaa?

Lomakkeen syvyyden ymmärtäminen eri skenaarioissa

Skenaario 1: Käsinkirjoitettu tunnistus offline-lomakkeille

Skenaario 2: Valintaruudun tunnistus lomakkeissa

Skenaario 3: Asettelu Lomakkeen muutokset ajoittain

Skenaario 4: Taulukkosolujen tunnistus

Miten lomaketietojen erotusratkaisut ovat kehittyneet?

Lomaketietojen purkaminen OCR:llä

Lomaketietojen poiminnan ratkaiseminen syväoppimisen avulla

Miksi Nanonets AI-pohjainen OCR on paras vaihtoehto

Lisää aiheesta Tekoäly ja koneoppiminen

Opas ostoreskontraraportteihin ja -raportointiin vuonna 2024

Mikä on kulukuitti?

12 jännittävää RPA-tilastoa, joita et voi missata vuonna 2022

Puhelinnumeroiden poisto: kaikki mitä sinun tarvitsee tietää

Argus Modeling: Tietoihin perustuvien kiinteistöpäätösten tekeminen

Toimittajan hallintaprosessi: tärkeys, edut ja haasteet

Mitä maksettavia päiviä on jäljellä? Ja miten DPO lasketaan?

Täydellinen opas ostovelkojen digitaaliseen muuntamiseen

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili