Rakenna mukautettu kokonaisuuden tunnistus PDF-dokumenteille Amazon Comprehendin avulla

Julkaissut Platon

seuraajia: 0

Monilla toimialoilla on tärkeää poimia mukautetut kokonaisuudet asiakirjoista ajoissa. Tämä voi olla haastavaa. Esimerkiksi vakuutuskorvaukset sisältävät usein kymmeniä tärkeitä attribuutteja (kuten päivämäärät, nimet, sijainnit ja raportit) pitkien ja tiheiden asiakirjojen päälle. Tällaisten tietojen manuaalinen skannaus ja purkaminen voi olla virhealtista ja aikaa vievää. Sääntöihin perustuva ohjelmisto voi auttaa, mutta se on viime kädessä liian jäykkä mukautuakseen moniin erilaisiin asiakirjatyyppeihin ja asetteluihin.

Voit automatisoida ja nopeuttaa tätä prosessia käyttämällä Amazonin käsitys tunnistaa mukautetut kokonaisuudet nopeasti ja tarkasti koneoppimisen (ML) avulla. Tämä lähestymistapa on joustava ja tarkka, koska järjestelmä voi mukautua uusiin asiakirjoihin käyttämällä aiemmin oppimaansa. Viime aikoihin asti tätä ominaisuutta voitiin kuitenkin soveltaa vain pelkkää tekstiä koskeviin asiakirjoihin, mikä tarkoitti, että sijaintitiedot katosivat, kun asiakirjoja muunnettiin niiden alkuperäisestä muodosta. Asian ratkaisemiseksi se oli ilmoitti äskettäin että Amazon Comprehend voi poimia mukautettuja kokonaisuuksia PDF-, kuva- ja Word-tiedostomuodoissa.

Tässä viestissä käymme läpi konkreettisen esimerkin vakuutusalalta siitä, kuinka voit rakentaa mukautetun tunnistimen käyttämällä PDF-merkintöjä.

Ratkaisun yleiskatsaus

Opastamme sinut seuraavien korkean tason vaiheiden läpi:

Luo PDF-merkintöjä.
Käytä PDF-merkintöjä mukautetun mallin kouluttamiseen Python API:n avulla.
Hanki arviointimittarit koulutetusta mallista.
Tee johtopäätös näkemättömästä asiakirjasta.

Tämän viestin loppuun mennessä haluamme lähettää raa'an PDF-dokumentin koulutetulle mallillemme ja saada sen tulostamaan jäsennellyn tiedoston, joka sisältää tietoja kiinnostavista tarroistamme. Koulutamme malliamme erityisesti tunnistamaan seuraavat viisi kokonaisuutta, jotka valitsimme niiden merkityksen vuoksi vakuutuskorvausten kannalta: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossja InsuredMailingAddress. Kun olet lukenut jäsennellyn tulosteen, voimme visualisoida tarratiedot suoraan PDF-dokumenttiin, kuten seuraavassa kuvassa.

Tähän viestiin liittyy Jupyter-muistikirja, joka sisältää samat vaiheet. Voit vapaasti seurata mukana suorittaessasi sen vaiheita muistikirja. Huomaa, että sinun on määritettävä Amazon Sage Maker ympäristö, josta Amazon Comprehend voi lukea Amazonin yksinkertainen tallennuspalvelu (Amazon S3) muistikirjan yläosassa kuvatulla tavalla.

Luo PDF-merkintöjä

Voit luoda huomautuksia PDF-dokumenteille käyttämällä Amazon SageMaker Ground Totuus, täysin hallittu tietojen merkintäpalvelu, jonka avulla on helppo rakentaa erittäin tarkkoja harjoitustietojoukkoja ML:lle.

Tätä opetusohjelmaa varten olemme jo lisänneet PDF-tiedostot alkuperäisessä muodossaan (muuntamatta tekstiksi) käyttämällä Ground Truthia. Ground Truth -työ luo kolme polkua, joita tarvitsemme mukautetun Amazon Comprehend -mallimme kouluttamiseen:

Lähteet – Polku syötettyihin PDF-tiedostoihin.
Merkinnät – Polku merkintä JSON-tiedostoihin, jotka sisältävät tunnistetun entiteetin tiedot.
Ilmeinen – Tiedosto, joka osoittaa huomautusten ja lähde-PDF-tiedostojen sijaintiin. Tätä tiedostoa käytetään luomaan Amazon Comprehend mukautetun kokonaisuuden tunnistuskoulutustyö ja kouluttamaan mukautettu malli.

Seuraavassa kuvakaappauksessa näkyy esimerkkimerkintä.

Mukautettu Ground Truth -työ luo PDF-huomautuksen, joka kaappaa lohkotason tiedot entiteetistä. Sellainen lohkotason informaatio tarjoaa olion tarkat sijaintikoordinaatit (alilohkot edustavat jokaista sanaa entiteettilohkossa). Tämä eroaa tavallisesta Ground Truth -työstä, jossa PDF-tiedoston tiedot litistetään tekstimuotoon ja vain offset-tiedot - mutta ei tarkkoja koordinaattitietoja - kaapataan huomautuksen aikana. Tämän mukautetun merkintäparadigman avulla saamiemme runsaiden sijaintitietojen avulla voimme kouluttaa tarkemman mallin.

Tämän tyyppisestä työstä luotua luetteloa kutsutaan lisätyksi luetteloksi, toisin kuin CSV-tiedosto, jota käytetään vakiomerkintöihin. Katso lisätietoja Merkinnät.

Käytä PDF-merkintöjä mukautetun mallin opettamiseen Python API:n avulla

Lisätty luettelotiedosto on muotoiltava JSON Lines -muotoon. JSON Lines -muodossa jokainen tiedoston rivi on täydellinen JSON-objekti, jota seuraa rivinvaihdon erotin.

Seuraava koodi on merkintä tässä laajennetussa luettelotiedostossa.

Ota huomioon seuraavat seikat:

Tähän työhön liittyy viisi merkintätyyppiä: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossja InsuredMailingAddress.
Luettelotiedosto viittaa sekä PDF-lähteen sijaintiin että huomautuksen sijaintiin.
Merkintätyötä koskevat metatiedot (kuten luontipäivämäärä) kaapataan.
Use-textract-only asetetaan False, eli merkintätyökalu päättää, käytetäänkö PDFPlumberia (alkuperäiselle PDF-tiedostolle) vai Amazonin teksti (skannattulle PDF-tiedostolle). Jos asetettu true, Amazon Textractia käytetään kummassakin tapauksessa (joka on kalliimpaa, mutta mahdollisesti tarkempaa).

Nyt voimme kouluttaa tunnistimen seuraavan esimerkkikoodin osoittamalla tavalla.

Luomme tunnistimen tunnistamaan kaikki viisi entiteettityyppiä. Olisimme voineet käyttää osajoukkoa näistä kokonaisuuksista, jos olisimme halunneet. Voit käyttää enintään 25 kokonaisuutta.

Katso kunkin parametrin yksityiskohdat kohdasta create_entity_recognizer.

Harjoitussarjan koosta riippuen harjoitusaika voi vaihdella. Tämän tietojoukon harjoittelu kestää noin 1 tunnin. Voit seurata koulutustyön tilaa käyttämällä describe_entity_recognizer API.

Hanki arviointimittarit koulutetusta mallista

Amazon Comprehend tarjoaa mallin suorituskykymittareita koulutetulle mallille, joka osoittaa, kuinka hyvin koulutetun mallin odotetaan tekevän ennusteita käyttämällä samanlaisia syöttöjä. Voimme saada sekä globaaleja tarkkuus- ja palautusmittareita että kokonaisuuskohtaisia mittareita. Tarkalla mallilla on korkea tarkkuus ja korkea muisti. Suuri tarkkuus tarkoittaa, että malli on yleensä oikea, kun se osoittaa tietyn etiketin; korkea muistutus tarkoittaa, että malli löysi suurimman osan tarroista. F1 on näiden mittojen yhdistetty metriikka (harmoninen keskiarvo) ja on siksi korkea, kun molemmat komponentit ovat korkeita. Katso tarkempi kuvaus mittareista Mukautettujen entiteettien tunnistustiedot.

Kun toimitat asiakirjat koulutustyöhön, Amazon Comprehend erottaa ne automaattisesti juna- ja testisarjaksi. Kun malli on saavuttanut TRAINED tila, voit käyttää describe_entity_recognizer API uudelleen saadaksesi testijoukon arviointitiedot.

Seuraavassa on esimerkki maailmanlaajuisista mittareista.

Seuraavassa on esimerkki kokonaisuuskohtaisista mittareista.

Korkeat pisteet osoittavat, että malli on oppinut hyvin havaitsemaan nämä kokonaisuudet.

Tee johtopäätös näkemättömästä asiakirjasta

Tehdään päättely koulutetulla mallillamme asiakirjasta, joka ei ollut osa koulutusta. Voimme käyttää tätä asynkronista API:ta tavalliselle tai mukautetulle NER:lle. Jos käytät sitä mukautettuun NER:iin (kuten tässä viestissä), meidän on läpäistävä koulutetun mallin ARN.

Voimme tarkistaa lähetetyn työn tulostamalla vastauksen.

Voimme muotoilla Pandasin tunnistustyön tulosteen taulukoksi. The Score arvo ilmaisee luotettavuustason, joka mallilla on entiteetistä.

Lopuksi voimme peittää ennusteet näkymättömissä asiakirjoissa, mikä antaa tuloksen, joka näkyy tämän viestin yläosassa.

Yhteenveto

Tässä viestissä näit kuinka purkaa mukautettuja kokonaisuuksia alkuperäisessä PDF-muodossaan Amazon Comprehendin avulla. Harkitse seuraavaksi sukeltamista syvemmälle:

Harjoittele omaa tunnistajaasi mukana tulevan muistikirjan avulla tätä. Muista poistaa kaikki resurssit, kun olet valmis, välttääksesi tulevat maksut.
Määritä oma mukautettu merkintätyösi kerätäksesi PDF-merkintöjä kiinnostaville kohteillesi. Lisätietoja on kohdassa Mukautettu asiakirjamerkintä nimettyjen entiteettien poimimiseen asiakirjoista Amazon Comprehendin avulla.
Harjoittele mukautettua NER-mallia Amazon Comprehend -konsolilla. Katso lisätietoja Pura mukautettuja kokonaisuuksia asiakirjoista niiden alkuperäisessä muodossa Amazon Comprehendin avulla.

Tietoja Tekijät

Joshua Levy on vanhempi soveltuva tutkija Amazon Machine Learning Solutions -laboratoriossa, jossa hän auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja keskeisten liiketoimintaongelmien ratkaisemiseksi.

Andrew Ang on koneoppimisinsinööri Amazon Machine Learning Solutions Labissa, jossa hän auttaa asiakkaita eri toimialoilla tunnistamaan ja rakentamaan tekoäly/ML-ratkaisuja ratkaisemaan heidän kiireellisimpiä liiketoimintaongelmiaan. Työn ulkopuolella hän katselee mielellään matkailu- ja ruokavlogeja.

Alex Chirayath on ohjelmistosuunnittelija Amazon Machine Learning Solutions Labissa, joka keskittyy rakentamiseen käyttötapauspohjaisiin ratkaisuihin, jotka näyttävät asiakkaille, kuinka AWS AI/ML -palveluiden tehot voidaan vapauttaa todellisen liiketoiminnan ongelmien ratkaisemiseksi.

Jennifer Zhu on soveltuva tutkija Amazon AI Machine Learning Solutions Labista. Hän työskentelee AWS:n asiakkaiden kanssa rakentaen AI/ML-ratkaisuja heidän ensisijaisiin liiketoimintatarpeisiinsa.

Niharika Jayanthi on käyttöliittymä-insinööri Amazon Machine Learning Solutions Lab – Human in the Loop -tiimissä. Hän auttaa luomaan käyttökokemusratkaisuja Amazon SageMaker Ground Truthin asiakkaille.

Boris Aronchik on johtaja Amazon AI Machine Learning Solutions Labissa, jossa hän johtaa ML-tieteilijöiden ja -insinöörien tiimiä auttaakseen AWS-asiakkaita saavuttamaan liiketoimintatavoitteensa hyödyntäen AI/ML-ratkaisuja.

Aikaleima: Huhtikuu 8, 2022

Aikaleima: Mar 29, 2022

Luo mukautettu entiteetin tunnistus PDF-dokumenteille Amazon Comprehendin avulla

Julkaissut Platon

Ratkaisun yleiskatsaus

Luo PDF-merkintöjä

Käytä PDF-merkintöjä mukautetun mallin opettamiseen Python API:n avulla

Hanki arviointimittarit koulutetusta mallista

Tee johtopäätös näkemättömästä asiakirjasta

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Kustannustehokas ML-päätelmä Amazon SageMakerin monikehysmalleilla

Amazon Rekognition esittelee Streaming Video Events -toiminnon tarjotakseen reaaliaikaisia hälytyksiä suorista videostriimista

Vähennä koneoppimisen energiankulutusta jopa 90 % AWS:n tarkoitukseen rakennetuilla kiihdyttimillä | Amazon Web Services

Chronomics havaitsee COVID-19-testitulokset Amazon Rekognitionin mukautetuilla tarroilla

T-Mobile US, Inc. käyttää tekoälyä Amazon Transcriben ja Amazon Translaten kautta toimittaakseen puhepostin asiakkaidensa valitsemalla kielellä | Amazon Web Services

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili