Mitä asiakirjojen käsittely on?
Asiakirjojen käsittely on prosessi, jolla automatisoidaan strukturoidun tiedon poimiminen asiakirjoista. Tämä voi olla mitä tahansa asiakirjaa, esimerkiksi laskua, ansioluetteloa, henkilökortteja jne. Haastava osa tässä ei ole vain tekstintunnistus. Tarjolla on monia vaihtoehtoja edullisin kustannuksin, jotka voivat poimia tekstiä ja antaa sinulle sijainnin. Todellinen haaste on nimetä nämä tekstit tarkasti ja automaattisesti.
Asiakirjojen käsittelyn vaikutus liiketoimintaan
Useat toimialat ovat päivittäisessä toiminnassaan vahvasti riippuvaisia asiakirjojen käsittelystä. Rahoitusorganisaatiot tarvitsevat pääsyn SEC-ilmoituksiin, vakuutusilmoituksiin, verkkokauppa- tai toimitusketjuyhtiö saattaa tarvita pääsyn käytössä oleviin laskuihin, luettelo jatkuu. Näiden tietojen tarkkuus on yhtä tärkeää kuin säästetty aika, minkä vuoksi suosittelemme aina käyttämään kehittyneitä syväoppimismenetelmiä, jotka yleistävät enemmän ja ovat tarkempia.
Tämän PwC:n raportin mukaan [linkkiä] alkeellisinkin määrä strukturoidun tiedon poiminta voi auttaa säästämään 30–50 % työntekijöiden ajasta, joka kuluu manuaaliseen kopiointiin ja liittämiseen PDF-tiedostoista Excel-laskentataulukoihin. LayoutLM:n kaltaiset mallit eivät todellakaan ole alkeellisia, vaan ne on rakennettu äärimmäisen älykkäiksi agenteiksi, jotka pystyvät poimimaan tarkkaa dataa mittakaavassa eri käyttötapauksissa. Jopa monien omien asiakkaidemme kanssa olemme lyhentäneet tietojen manuaaliseen poimimiseen tarvittavaa aikaa 20 minuutista asiakirjaa kohden alle 10 sekuntiin. Se on valtava muutos, joka mahdollistaa työntekijöiden tuottavuuden ja suuremman kokonaismäärän.
Joten missä voidaan soveltaa LayoutLM:n kaltaista tekoälyä? Olemme Nanonetsissa käyttäneet tällaista tekniikkaa
- Laskujen käsittelyn automatisointi
- Taulukkotietojen purkaminen
- Lomaketietojen purkaminen
- Jatka jäsentämistä
ja monia muita käyttötapauksia.
Miksi LayoutLM?
Miten syväoppimismalli ymmärtää, onko tietty tekstiosa laskun nimikekuvaus vai laskun numero? Yksinkertaisesti sanottuna, kuinka malli oppii määrittämään tunnisteet oikein?
Yksi tapa on käyttää tekstin upotuksia massiivisesta kielimallista, kuten BERT tai GPT-3, ja ajaa se luokittimen läpi – vaikka tämä ei ole kovin tehokasta. On paljon tietoa, jota ei voi mitata pelkästään tekstin avulla. Tai voisi käyttää kuvapohjaista tietoa. Tämä saavutettiin käyttämällä R-CNN- ja Faster R-CNN -malleja. Tämä ei kuitenkaan vielä täysin hyödynnä asiakirjoissa olevia tietoja. Toinen käytetty lähestymistapa oli Graph Convolutional Neural Networks, joka yhdisti sekä sijainti- että tekstitiedot, mutta ei ottanut kuvainformaatiota huomioon.
Miten sitten hyödynnetään kaikkia kolmea tiedon ulottuvuutta eli tekstiä, kuvaa ja myös annetun tekstin sijaintia? Siellä tulevat esiin mallit, kuten LayoutLM. Vaikka LayoutLM oli aktiivinen tutkimusalue useita vuosia aiemmin, se oli yksi ensimmäisistä malleista, jotka onnistuivat yhdistämällä kappaleet yksittäiseksi malliksi, joka suorittaa merkinnät käyttämällä sijaintitietoja, tekstipohjaisia tietoja, ja myös kuvatiedot.
LayoutLM opetusohjelma
Tässä artikkelissa oletetaan, että ymmärrät, mikä kielimalli on. Jos ei, älä huoli, kirjoitimme myös artikkelin siitä! Jos haluat oppia lisää muuntajamalleista ja mihin huomiota kiinnitetään, täältä on hämmästyttävä artikkeli Jay Alammarilta.
Olettaen, että olemme saaneet nämä asiat pois tieltä, aloitetaan opetusohjelma. Käytämme alkuperäistä LayoutLM-paperia pääviitteenä.
OCR-tekstin purkaminen
Aivan ensimmäinen asia, jonka teemme asiakirjan kanssa, on poimia tekstipohjaiset tiedot asiakirjasta ja etsiä niiden sijainnit. Sijainnin mukaan viittaamme johonkin, jota kutsutaan "rajoituslaatikoksi". Rajoituslaatikko on suorakulmio, joka tiivistää sivulla olevan tekstin.
Useimmissa tapauksissa oletetaan, että rajoituslaatikon origo on vasemmassa yläkulmassa ja että positiivinen x-akseli on suunnattu origosta sivun oikealle puolelle ja positiivinen y-akseli on suunnattu origosta sivun oikealle puolelle. sivun alareunassa, ja yhtä pikseliä pidetään mittayksikkönä.
Kielen ja sijainnin upotukset
Seuraavaksi käytämme viittä erilaista upotuskerrosta. Yksi on kieleen liittyvän tiedon koodaaminen – eli tekstin upottaminen.
Muut neljä on varattu sijainti upotuksiin. Olettaen, että tiedämme arvot xmin, ymin, xmax ja ymax, voimme määrittää koko rajauslaatikon (jos et voi visualisoida sitä, tässä sinulle linkki). Nämä koordinaatit välitetään vastaavien upotuskerrosten läpi sijaintitietojen koodaamiseksi.
Viisi upotusta – yksi tekstille ja neljä koordinaateille – lasketaan sitten yhteen, jolloin luodaan LayoutLM:n kautta välitettävä upotuksen lopullinen arvo. Tulosta kutsutaan LayoutLM-upotukseksi.
Kuvan upotukset
Okei, olemme onnistuneet löytämään tekstiin ja sijaintiin liittyvät tiedot yhdistämällä niiden upotukset ja viemällä ne kielimallin läpi. Miten voimme nyt kiertää kuviin liittyvän tiedon yhdistämisprosessia?
Kun tekstiä ja asettelutietoja koodataan, käytämme samanaikaisesti Faster R-CNN:ää dokumenttiin liittyvien tekstialueiden poimimiseen. Nopeampi R-CNN on kuvamalli, jota käytetään kohteen havaitsemiseen. Meidän tapauksessamme käytämme sitä tunnistamaan erilaisia tekstinpätkiä (olettaen, että jokainen lause on objekti) ja sitten kuljettaa segmentoidut kuvat täysin yhdistetyn kerroksen läpi, mikä auttaa myös kuvien upotusten luomisessa.
LayoutLM-upotukset sekä kuvan upotukset yhdistetään lopulliseksi upotukseksi, jota voidaan sitten käyttää jatkokäsittelyyn.
Pre-training LayoutLM
Kaikella yllä olevalla on järkeä vain, jos ymmärrämme menetelmän, jolla LayoutLM koulutettiin. Loppujen lopuksi, riippumatta siitä, millaisia yhteyksiä me muodostamme hermoverkkoon, kunnes ja ellei sitä ole koulutettu oikealla oppimistavoitteella, se ei ole aivan älykästä. LayoutLM:n kirjoittajat halusivat noudattaa samanlaista menetelmää kuin mitä käytettiin BERT:n esikoulutuksessa.
Masked Visual Language Model (MVLM)
Auttaakseen mallia oppimaan, mitä tekstiä tietyssä paikassa saattoi olla, kirjoittajat naamioivat satunnaisesti muutamia tekstimerkkejä säilyttäen samalla paikkaan liittyvät tiedot ja upotukset. Tämä mahdollisti LayoutLM:n menemään yksinkertaista peitettyä kielen mallintamista pidemmälle ja auttoi yhdistämään tekstin upotukset myös sijaintiin liittyviin menetelmiin.
Multi-label Document Classification (MDC)
Kaikkien asiakirjan tietojen luokitteleminen luokkiin auttaa mallia ymmärtämään, mitkä tiedot ovat tärkeitä tietyn asiakirjaluokan kannalta. Kirjoittajat huomauttavat kuitenkin, että suurempien tietojoukkojen osalta asiakirjaluokkien tiedot eivät välttämättä ole helposti saatavilla. Siksi he ovat tarjonneet tulosperustan sekä MVLM-koulutuksen yksin että MVLM + MDC-koulutuksen.
Hienosäätö LayoutLM loppupään tehtäviin
LayoutLM:llä voidaan suorittaa useita loppupään tehtäviä. Keskustelemme niistä, joihin kirjoittajat sitoutuivat.
Lomakkeen ymmärtäminen
Tämä tehtävä edellyttää tarratyypin linkittämistä tiettyyn tekstiosaan. Tämän avulla voimme poimia jäsenneltyä dataa mistä tahansa asiakirjasta. Kun otetaan huomioon lopullinen tulos, eli LayouLM-upotukset + kuva upotukset, ne kulkevat täysin yhdistetyn kerroksen läpi ja sitten softmaxin läpi ennustamaan luokkatodennäköisyydet tietyn tekstiosan etiketille.
Kuitin ymmärtäminen
Tässä tehtävässä kuiteissa jätettiin useita tietopaikkoja tyhjiksi ja mallin piti sijoittaa tekstit oikein omiin paikkoihinsa.
Asiakirjan kuvien luokitus
Asiakirjan tekstin ja kuvan tiedot yhdistetään asiakirjan luokan ymmärtämiseksi yksinkertaisesti kuljettamalla se softmax-kerroksen läpi.
Huggingface LayoutLM
Yksi tärkeimmistä syistä, miksi LayoutLM:stä keskustellaan niin paljon, on se, että malli oli avoimen lähdekoodin lähde ajat sitten. se on saatavilla Hugging Facessa, joten LayoutLM:n käyttö on nyt huomattavasti helpompaa.
Ennen kuin sukeltaamme yksityiskohtiin siitä, kuinka voit hienosäätää LayoutLM:n omiin tarpeisiisi, on otettava huomioon muutama seikka.
Kirjastojen asentaminen
LayoutLM:n suorittamiseksi tarvitset Hugging Facen muuntajakirjaston, joka puolestaan on riippuvainen PyTorch-kirjastosta. Asenna ne (jos niitä ei ole vielä asennettu) suorittamalla seuraavat komennot
Rajoituslaatikoissa
Yhdenmukaisen upotusmallin luomiseksi kuvan koosta riippumatta rajoituslaatikon koordinaatit normalisoidaan asteikolla 1000
Konfigurointi
Transformers.LayoutLMConfig-luokan avulla voit asettaa mallin koon tarpeisiisi parhaiten sopivaksi, koska nämä mallit ovat tyypillisesti raskaita ja vaativat melko vähän laskentatehoa. Sen määrittäminen pienempään malliin saattaa auttaa sinua suorittamaan sen paikallisesti. Sinä pystyt lue lisää luokasta täältä.
LayoutLM asiakirjojen luokittelulle (Linkki)
Jos haluat suorittaa dokumenttien luokittelun, tarvitset luokan transformers.LayoutLMForSequenceClassification. Tämä järjestys on tekstin sekvenssi poimimastasi asiakirjasta. Tässä on pieni koodinäyte Hugging Face.co:lta, joka selittää kuinka sitä käytetään
LayoutLM tekstimerkinnöille (Linkki)
Jotta voit suorittaa semanttisen merkinnän, eli määrittää tunnisteet asiakirjan tekstin eri osiin, tarvitset luokan transformers.LayoutLMForTokenClassification. Saatat löytää lisätietoja aiheesta sama täällä.Tässä on pieni koodinäyte, jotta näet, kuinka se voi toimia sinulle
Joitakin huomioitavia kohtia halaavien kasvojen asettelusta LM
- Tällä hetkellä Hugging Face LayoutLM -malli käyttää Tesseract avoimen lähdekoodin kirjastoa tekstin purkamiseen, mikä ei ole kovin tarkkaa. Sinun kannattaa harkita toisen maksullisen OCR-työkalun, kuten AWS Textractin tai Google Cloud Visionin, käyttöä
- Nykyinen malli tarjoaa vain kielimallin eli LayoutLM-upotukset, ei lopullisia visuaalisia ominaisuuksia yhdistäviä tasoja. LayoutLMv2 (käsitellään seuraavassa jaksossa) käyttää Detectron-kirjastoa mahdollistaakseen myös visuaalisten ominaisuuksien upottamisen.
- Tarrojen luokittelu tapahtuu sanatasolla, joten OCR-tekstinpoimintakoneen tehtävänä on varmistaa, että kaikki kentän sanat ovat jatkuvassa järjestyksessä, tai yksi kenttä voidaan ennustaa kahdeksi.
LayoutLMv2
LayoutLM syntyi vallankumouksena siinä, miten dataa poimittiin asiakirjoista. Kuitenkin syvän oppimisen tutkimuksen osalta mallit vain paranevat ajan myötä. LayoutLM:ää seurasi samalla tavalla LayoutLMv2, jossa kirjoittajat tekivät muutamia merkittäviä muutoksia mallin koulutukseen.
Sisältää yksiulotteiset spatiaaliset upotukset ja visuaaliset tunnuksen upotukset
LayoutLMv2 sisälsi tiedot 1-D suhteellisesta sijainnista sekä yleiskuvaan liittyviä tietoja. Tämä on tärkeä syy uusien koulutustavoitteiden vuoksi, joista keskustelemme nyt
Uudet koulutustavoitteet
LayoutLMv2 sisälsi joitain muokattuja harjoitustavoitteita. Nämä ovat seuraavat:
- Masked Visual Language Modelling: Tämä on sama kuin LayoutLM:ssä
- Tekstin kuvan tasaus: Teksti peitettiin satunnaisesti kuvasta, kun taas mallille annettiin tekstitunnisteet. Jokaisen merkin kohdalla mallin oli opittava, oliko annettu teksti peitetty vai ei. Tämän avulla malli pystyi yhdistämään tietoa sekä visuaalisista että tekstimuodoista
- Tekstikuvan täsmäytys: Mallia pyydetään tarkistamaan, vastaako annettu kuva annettua tekstiä. Negatiiviset näytteet joko syötetään väärinä kuvina tai kuvien upotuksia ei tarjota ollenkaan. Tämä tehdään sen varmistamiseksi, että malli oppii enemmän siitä, miten teksti ja kuvat liittyvät toisiinsa.
Näitä uusia menetelmiä ja upotteita käyttämällä malli pystyi saavuttamaan korkeammat F1-pisteet lähes kaikissa testidatajoukoissa LayoutLM:nä.
- Meistä
- pääsy
- Tili
- tarkka
- saavutettu
- poikki
- aktiivinen
- kehittynyt
- aineet
- AI
- Kaikki
- jo
- Vaikka
- määrä
- Toinen
- lähestymistapa
- ALUE
- noin
- artikkeli
- Tekijät
- saatavissa
- AWS
- perusta
- ovat
- PARAS
- Bitti
- Laatikko
- Kortit
- tapauksissa
- haaste
- luokittelu
- pilvi
- koodi
- yhdistetty
- yritys
- Laskea
- Konfigurointi
- Liitännät
- harkinta
- kustannukset
- voisi
- Asiakkaat
- tiedot
- päivä
- Huolimatta
- Detection
- DID
- eri
- asiakirjat
- alas
- verkkokaupan
- Tehokas
- mahdollistaa
- perustaa
- kunnostautua
- Kasvot
- nopeampi
- Ominaisuus
- Ominaisuudet
- Fed
- taloudellinen
- Etunimi
- jälkeen
- tuottaa
- GitHub
- auttaa
- auttaa
- tätä
- Miten
- Miten
- HTTPS
- kuva
- Vaikutus
- tärkeä
- parantaa
- mukana
- teollisuuden
- tiedot
- vakuutus
- Älykäs
- IT
- merkinnät
- tarrat
- Kieli
- suurempi
- OPPIA
- oppiminen
- Taso
- Kirjasto
- LINK
- Lista
- paikallisesti
- sijainti
- sijainnit
- käsin
- massiivinen
- matching
- asia
- malli
- mallit
- eniten
- verkko
- verkot
- avata
- avoimen lähdekoodin
- Operations
- Vaihtoehdot
- tilata
- organisaatioiden
- Muut
- maksettu
- Paperi
- kappale
- teho
- prosessi
- tarjoaa
- PWC
- syistä
- suositella
- raportti
- tarvitaan
- vaatimukset
- tutkimus
- tulokset
- jatkaa
- ajaa
- Asteikko
- järjestelmä
- SEK
- tunne
- setti
- asetus
- siirtää
- merkittävä
- samankaltainen
- Yksinkertainen
- Koko
- pieni
- fiksu
- So
- jotain
- alkoi
- menestys
- toimittaa
- toimitusketju
- tehtävät
- Elektroniikka
- testi
- Kautta
- aika
- symbolinen
- tokens
- ylin
- koulutus
- ymmärtää
- käyttää
- käyttää
- arvo
- Mitä
- onko
- sanoja
- Referenssit
- työntekijöitä
- vuotta