LayoutLM selitetty

Julkaissut Platon

seuraajia: 0

Mitä asiakirjojen käsittely on?

LayoutLM selitetty

Asiakirjojen käsittely on prosessi, jolla automatisoidaan strukturoidun tiedon poimiminen asiakirjoista. Tämä voi olla mitä tahansa asiakirjaa, esimerkiksi laskua, ansioluetteloa, henkilökortteja jne. Haastava osa tässä ei ole vain tekstintunnistus. Tarjolla on monia vaihtoehtoja edullisin kustannuksin, jotka voivat poimia tekstiä ja antaa sinulle sijainnin. Todellinen haaste on nimetä nämä tekstit tarkasti ja automaattisesti.

Asiakirjojen käsittelyn vaikutus liiketoimintaan

Useat toimialat ovat päivittäisessä toiminnassaan vahvasti riippuvaisia asiakirjojen käsittelystä. Rahoitusorganisaatiot tarvitsevat pääsyn SEC-ilmoituksiin, vakuutusilmoituksiin, verkkokauppa- tai toimitusketjuyhtiö saattaa tarvita pääsyn käytössä oleviin laskuihin, luettelo jatkuu. Näiden tietojen tarkkuus on yhtä tärkeää kuin säästetty aika, minkä vuoksi suosittelemme aina käyttämään kehittyneitä syväoppimismenetelmiä, jotka yleistävät enemmän ja ovat tarkempia.

Tämän PwC:n raportin mukaan [linkkiä] alkeellisinkin määrä strukturoidun tiedon poiminta voi auttaa säästämään 30–50 % työntekijöiden ajasta, joka kuluu manuaaliseen kopiointiin ja liittämiseen PDF-tiedostoista Excel-laskentataulukoihin. LayoutLM:n kaltaiset mallit eivät todellakaan ole alkeellisia, vaan ne on rakennettu äärimmäisen älykkäiksi agenteiksi, jotka pystyvät poimimaan tarkkaa dataa mittakaavassa eri käyttötapauksissa. Jopa monien omien asiakkaidemme kanssa olemme lyhentäneet tietojen manuaaliseen poimimiseen tarvittavaa aikaa 20 minuutista asiakirjaa kohden alle 10 sekuntiin. Se on valtava muutos, joka mahdollistaa työntekijöiden tuottavuuden ja suuremman kokonaismäärän.

Joten missä voidaan soveltaa LayoutLM:n kaltaista tekoälyä? Olemme Nanonetsissa käyttäneet tällaista tekniikkaa

ja monia muita käyttötapauksia.

Miksi LayoutLM?

Miten syväoppimismalli ymmärtää, onko tietty tekstiosa laskun nimikekuvaus vai laskun numero? Yksinkertaisesti sanottuna, kuinka malli oppii määrittämään tunnisteet oikein?

Yksi tapa on käyttää tekstin upotuksia massiivisesta kielimallista, kuten BERT tai GPT-3, ja ajaa se luokittimen läpi – vaikka tämä ei ole kovin tehokasta. On paljon tietoa, jota ei voi mitata pelkästään tekstin avulla. Tai voisi käyttää kuvapohjaista tietoa. Tämä saavutettiin käyttämällä R-CNN- ja Faster R-CNN -malleja. Tämä ei kuitenkaan vielä täysin hyödynnä asiakirjoissa olevia tietoja. Toinen käytetty lähestymistapa oli Graph Convolutional Neural Networks, joka yhdisti sekä sijainti- että tekstitiedot, mutta ei ottanut kuvainformaatiota huomioon.

Miten sitten hyödynnetään kaikkia kolmea tiedon ulottuvuutta eli tekstiä, kuvaa ja myös annetun tekstin sijaintia? Siellä tulevat esiin mallit, kuten LayoutLM. Vaikka LayoutLM oli aktiivinen tutkimusalue useita vuosia aiemmin, se oli yksi ensimmäisistä malleista, jotka onnistuivat yhdistämällä kappaleet yksittäiseksi malliksi, joka suorittaa merkinnät käyttämällä sijaintitietoja, tekstipohjaisia tietoja, ja myös kuvatiedot.

LayoutLM opetusohjelma

LayoutLM selitetty — LayoutLM-arkkitehtuuri

Tässä artikkelissa oletetaan, että ymmärrät, mikä kielimalli on. Jos ei, älä huoli, kirjoitimme myös artikkelin siitä! Jos haluat oppia lisää muuntajamalleista ja mihin huomiota kiinnitetään, täältä on hämmästyttävä artikkeli Jay Alammarilta.

Olettaen, että olemme saaneet nämä asiat pois tieltä, aloitetaan opetusohjelma. Käytämme alkuperäistä LayoutLM-paperia pääviitteenä.

OCR-tekstin purkaminen

Aivan ensimmäinen asia, jonka teemme asiakirjan kanssa, on poimia tekstipohjaiset tiedot asiakirjasta ja etsiä niiden sijainnit. Sijainnin mukaan viittaamme johonkin, jota kutsutaan "rajoituslaatikoksi". Rajoituslaatikko on suorakulmio, joka tiivistää sivulla olevan tekstin.

Useimmissa tapauksissa oletetaan, että rajoituslaatikon origo on vasemmassa yläkulmassa ja että positiivinen x-akseli on suunnattu origosta sivun oikealle puolelle ja positiivinen y-akseli on suunnattu origosta sivun oikealle puolelle. sivun alareunassa, ja yhtä pikseliä pidetään mittayksikkönä.

Kielen ja sijainnin upotukset

Seuraavaksi käytämme viittä erilaista upotuskerrosta. Yksi on kieleen liittyvän tiedon koodaaminen – eli tekstin upottaminen.

Muut neljä on varattu sijainti upotuksiin. Olettaen, että tiedämme arvot xmin, ymin, xmax ja ymax, voimme määrittää koko rajauslaatikon (jos et voi visualisoida sitä, tässä sinulle linkki). Nämä koordinaatit välitetään vastaavien upotuskerrosten läpi sijaintitietojen koodaamiseksi.

Viisi upotusta – yksi tekstille ja neljä koordinaateille – lasketaan sitten yhteen, jolloin luodaan LayoutLM:n kautta välitettävä upotuksen lopullinen arvo. Tulosta kutsutaan LayoutLM-upotukseksi.

Kuvan upotukset

Okei, olemme onnistuneet löytämään tekstiin ja sijaintiin liittyvät tiedot yhdistämällä niiden upotukset ja viemällä ne kielimallin läpi. Miten voimme nyt kiertää kuviin liittyvän tiedon yhdistämisprosessia?

Kun tekstiä ja asettelutietoja koodataan, käytämme samanaikaisesti Faster R-CNN:ää dokumenttiin liittyvien tekstialueiden poimimiseen. Nopeampi R-CNN on kuvamalli, jota käytetään kohteen havaitsemiseen. Meidän tapauksessamme käytämme sitä tunnistamaan erilaisia tekstinpätkiä (olettaen, että jokainen lause on objekti) ja sitten kuljettaa segmentoidut kuvat täysin yhdistetyn kerroksen läpi, mikä auttaa myös kuvien upotusten luomisessa.

LayoutLM-upotukset sekä kuvan upotukset yhdistetään lopulliseksi upotukseksi, jota voidaan sitten käyttää jatkokäsittelyyn.

Pre-training LayoutLM

Kaikella yllä olevalla on järkeä vain, jos ymmärrämme menetelmän, jolla LayoutLM koulutettiin. Loppujen lopuksi, riippumatta siitä, millaisia yhteyksiä me muodostamme hermoverkkoon, kunnes ja ellei sitä ole koulutettu oikealla oppimistavoitteella, se ei ole aivan älykästä. LayoutLM:n kirjoittajat halusivat noudattaa samanlaista menetelmää kuin mitä käytettiin BERT:n esikoulutuksessa.

Masked Visual Language Model (MVLM)

Auttaakseen mallia oppimaan, mitä tekstiä tietyssä paikassa saattoi olla, kirjoittajat naamioivat satunnaisesti muutamia tekstimerkkejä säilyttäen samalla paikkaan liittyvät tiedot ja upotukset. Tämä mahdollisti LayoutLM:n menemään yksinkertaista peitettyä kielen mallintamista pidemmälle ja auttoi yhdistämään tekstin upotukset myös sijaintiin liittyviin menetelmiin.

Multi-label Document Classification (MDC)

Kaikkien asiakirjan tietojen luokitteleminen luokkiin auttaa mallia ymmärtämään, mitkä tiedot ovat tärkeitä tietyn asiakirjaluokan kannalta. Kirjoittajat huomauttavat kuitenkin, että suurempien tietojoukkojen osalta asiakirjaluokkien tiedot eivät välttämättä ole helposti saatavilla. Siksi he ovat tarjonneet tulosperustan sekä MVLM-koulutuksen yksin että MVLM + MDC-koulutuksen.

Hienosäätö LayoutLM loppupään tehtäviin

LayoutLM:llä voidaan suorittaa useita loppupään tehtäviä. Keskustelemme niistä, joihin kirjoittajat sitoutuivat.

Lomakkeen ymmärtäminen

Tämä tehtävä edellyttää tarratyypin linkittämistä tiettyyn tekstiosaan. Tämän avulla voimme poimia jäsenneltyä dataa mistä tahansa asiakirjasta. Kun otetaan huomioon lopullinen tulos, eli LayouLM-upotukset + kuva upotukset, ne kulkevat täysin yhdistetyn kerroksen läpi ja sitten softmaxin läpi ennustamaan luokkatodennäköisyydet tietyn tekstiosan etiketille.

Kuitin ymmärtäminen

Tässä tehtävässä kuiteissa jätettiin useita tietopaikkoja tyhjiksi ja mallin piti sijoittaa tekstit oikein omiin paikkoihinsa.

Asiakirjan kuvien luokitus

Asiakirjan tekstin ja kuvan tiedot yhdistetään asiakirjan luokan ymmärtämiseksi yksinkertaisesti kuljettamalla se softmax-kerroksen läpi.

Huggingface LayoutLM

Yksi tärkeimmistä syistä, miksi LayoutLM:stä keskustellaan niin paljon, on se, että malli oli avoimen lähdekoodin lähde ajat sitten. se on saatavilla Hugging Facessa, joten LayoutLM:n käyttö on nyt huomattavasti helpompaa.

Ennen kuin sukeltaamme yksityiskohtiin siitä, kuinka voit hienosäätää LayoutLM:n omiin tarpeisiisi, on otettava huomioon muutama seikka.

Kirjastojen asentaminen

LayoutLM:n suorittamiseksi tarvitset Hugging Facen muuntajakirjaston, joka puolestaan on riippuvainen PyTorch-kirjastosta. Asenna ne (jos niitä ei ole vielä asennettu) suorittamalla seuraavat komennot

Rajoituslaatikoissa

Yhdenmukaisen upotusmallin luomiseksi kuvan koosta riippumatta rajoituslaatikon koordinaatit normalisoidaan asteikolla 1000

Konfigurointi

Transformers.LayoutLMConfig-luokan avulla voit asettaa mallin koon tarpeisiisi parhaiten sopivaksi, koska nämä mallit ovat tyypillisesti raskaita ja vaativat melko vähän laskentatehoa. Sen määrittäminen pienempään malliin saattaa auttaa sinua suorittamaan sen paikallisesti. Sinä pystyt lue lisää luokasta täältä.

LayoutLM asiakirjojen luokittelulle (Linkki)

Jos haluat suorittaa dokumenttien luokittelun, tarvitset luokan transformers.LayoutLMForSequenceClassification. Tämä järjestys on tekstin sekvenssi poimimastasi asiakirjasta. Tässä on pieni koodinäyte Hugging Face.co:lta, joka selittää kuinka sitä käytetään

LayoutLM tekstimerkinnöille (Linkki)

Jotta voit suorittaa semanttisen merkinnän, eli määrittää tunnisteet asiakirjan tekstin eri osiin, tarvitset luokan transformers.LayoutLMForTokenClassification. Saatat löytää lisätietoja aiheesta sama täällä.Tässä on pieni koodinäyte, jotta näet, kuinka se voi toimia sinulle

Joitakin huomioitavia kohtia halaavien kasvojen asettelusta LM

Tällä hetkellä Hugging Face LayoutLM -malli käyttää Tesseract avoimen lähdekoodin kirjastoa tekstin purkamiseen, mikä ei ole kovin tarkkaa. Sinun kannattaa harkita toisen maksullisen OCR-työkalun, kuten AWS Textractin tai Google Cloud Visionin, käyttöä
Nykyinen malli tarjoaa vain kielimallin eli LayoutLM-upotukset, ei lopullisia visuaalisia ominaisuuksia yhdistäviä tasoja. LayoutLMv2 (käsitellään seuraavassa jaksossa) käyttää Detectron-kirjastoa mahdollistaakseen myös visuaalisten ominaisuuksien upottamisen.
Tarrojen luokittelu tapahtuu sanatasolla, joten OCR-tekstinpoimintakoneen tehtävänä on varmistaa, että kaikki kentän sanat ovat jatkuvassa järjestyksessä, tai yksi kenttä voidaan ennustaa kahdeksi.

LayoutLMv2

LayoutLM syntyi vallankumouksena siinä, miten dataa poimittiin asiakirjoista. Kuitenkin syvän oppimisen tutkimuksen osalta mallit vain paranevat ajan myötä. LayoutLM:ää seurasi samalla tavalla LayoutLMv2, jossa kirjoittajat tekivät muutamia merkittäviä muutoksia mallin koulutukseen.

Sisältää yksiulotteiset spatiaaliset upotukset ja visuaaliset tunnuksen upotukset

LayoutLMv2 sisälsi tiedot 1-D suhteellisesta sijainnista sekä yleiskuvaan liittyviä tietoja. Tämä on tärkeä syy uusien koulutustavoitteiden vuoksi, joista keskustelemme nyt

Uudet koulutustavoitteet

LayoutLMv2 sisälsi joitain muokattuja harjoitustavoitteita. Nämä ovat seuraavat:

Masked Visual Language Modelling: Tämä on sama kuin LayoutLM:ssä
Tekstin kuvan tasaus: Teksti peitettiin satunnaisesti kuvasta, kun taas mallille annettiin tekstitunnisteet. Jokaisen merkin kohdalla mallin oli opittava, oliko annettu teksti peitetty vai ei. Tämän avulla malli pystyi yhdistämään tietoa sekä visuaalisista että tekstimuodoista
Tekstikuvan täsmäytys: Mallia pyydetään tarkistamaan, vastaako annettu kuva annettua tekstiä. Negatiiviset näytteet joko syötetään väärinä kuvina tai kuvien upotuksia ei tarjota ollenkaan. Tämä tehdään sen varmistamiseksi, että malli oppii enemmän siitä, miten teksti ja kuvat liittyvät toisiinsa.

Näitä uusia menetelmiä ja upotteita käyttämällä malli pystyi saavuttamaan korkeammat F1-pisteet lähes kaikissa testidatajoukoissa LayoutLM:nä.

Aikaleima: Maaliskuussa 7, 2022

Aikaleima: Helmikuu 7, 2023

Julkaissut Platon

Mitä ostoreskontraen ulkoistaminen on?

Kumoa täsmäytys QuickBooks Onlinessa: Helppo opas

Selviytyminen Silicon Valley Bankin apokalypsista: Multi-Bank Management for Startups

Työnkulun automatisointiopas ja 5 parasta työnkulkuohjelmistoa vuodelle 2022

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili