Build A Custom Entity Recognizer For PDF Documents Using Amazon Comprehend

Taasavaldanud Platon

järgijaid: 0

Paljudes tööstusharudes on ülioluline kohandatud olemid dokumentidest õigeaegselt eraldada. See võib olla keeruline. Näiteks kindlustusnõuded sisaldavad sageli kümneid olulisi atribuute (nt kuupäevad, nimed, asukohad ja aruanded), mis on puistatud pikkadele ja tihedatele dokumentidele. Sellise teabe käsitsi skannimine ja ekstraheerimine võib olla tõrkeoht ja aeganõudev. Reeglipõhine tarkvara võib aidata, kuid lõpuks on see liiga jäik, et kohaneda paljude erinevate dokumenditüüpide ja paigutustega.

Selle protsessi automatiseerimiseks ja kiirendamiseks võite kasutada Amazoni mõistmine kohandatud olemite kiireks ja täpseks tuvastamiseks masinõppe (ML) abil. Selline lähenemine on paindlik ja täpne, kuna süsteem suudab kohaneda uute dokumentidega, kasutades varem õpitut. Kuni viimase ajani sai seda võimalust rakendada vaid lihtteksti dokumentide puhul, mis tähendas, et dokumentide algvormingust teisendamisel läks asukohateave kaduma. Selle lahendamiseks oli teatas hiljuti et Amazon Comprehend saab kohandatud üksusi välja võtta PDF-failides, piltides ja Wordi failivormingutes.

Selles postituses tutvustame konkreetset näidet kindlustussektorist selle kohta, kuidas saate PDF-i märkuste abil kohandatud tuvastaja luua.

Lahenduse ülevaade

Juhendame teid läbi järgmiste kõrgetasemeliste sammude:

Looge PDF-i märkusi.
Kasutage Pythoni API abil kohandatud mudeli koolitamiseks PDF-märkusi.
Hankige koolitatud mudelilt hindamismõõdikud.
Tehke järeldused nähtamatu dokumendi kohta.

Selle postituse lõpuks soovime saata oma koolitatud mudelile toores PDF-dokumendi ja lasta sellel väljastada struktureeritud faili, mis sisaldab teavet meie huvipakkuvate siltide kohta. Eelkõige treenime oma mudelit tuvastama järgmised viis üksust, mille valisime nende asjakohasuse tõttu kindlustusnõuete jaoks: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossja InsuredMailingAddress. Pärast struktureeritud väljundi lugemist saame sildi teabe visualiseerida otse PDF-dokumendil, nagu järgmisel pildil.

Selle postitusega on kaasas Jupyteri märkmik, mis sisaldab samu samme. Järgige selle samme tehes kaasa märkmik. Pange tähele, et peate seadistama Amazon SageMaker keskkond, millest Amazon Comprehend saaks lugeda Amazoni lihtne salvestusteenus (Amazon S3), nagu on kirjeldatud sülearvuti ülaosas.

Looge PDF-i märkusi

PDF-dokumentidele märkuste loomiseks võite kasutada Amazon SageMaker Ground Truth, täielikult hallatav andmete märgistamise teenus, mis muudab ML jaoks väga täpsete treeningandmete kogumite loomise lihtsaks.

Selle õpetuse jaoks oleme juba lisanud PDF-failidele nende loomulikul kujul (ilma lihttekstiks teisendamata) Ground Truthi abil märkused. Ground Truthi töö loob kolm teed, mida vajame kohandatud Amazon Comprehendi mudeli koolitamiseks:

Allikad – sisend-PDF-ide tee.
Annotatsioonid – märgistatud olemi teavet sisaldavate annotatsiooni JSON-failide tee.
Manifest – fail, mis osutab märkuste ja lähte-PDF-ide asukohale. Seda faili kasutatakse Amazon Comprehendi kohandatud olemituvastuse koolitustöö loomiseks ja kohandatud mudeli koolitamiseks.

Järgmisel ekraanipildil on annotatsiooni näidis.

Kohandatud Ground Truth töö loob PDF-märkuse, mis jäädvustab olemi kohta plokitasemel teabe. Selline plokitaseme teave annab olemi täpsed asukohakoordinaadid (alamplokid esindavad iga sõna olemiplokis). See erineb tavalisest Ground Truthi tööst, mille puhul PDF-failis olevad andmed tasandatakse tekstivormingusse ja annotatsiooni ajal püütakse ainult nihketeavet, kuid mitte täpset koordinaatide teavet. Selle kohandatud annotatsiooniparadigma abil saadud rikkalik asukohateave võimaldab meil treenida täpsemat mudelit.

Seda tüüpi tööde põhjal loodud manifesti nimetatakse laiendatud manifestiks, mitte CSV-ks, mida kasutatakse standardsete märkuste jaoks. Lisateabe saamiseks vt Annotatsioonid.

Kasutage Pythoni API abil kohandatud mudeli koolitamiseks PDF-märkusi

Täiustatud manifesti fail peab olema vormindatud JSON Lines vormingus. JSON-ridade vormingus on faili iga rida täielik JSON-objekt, millele järgneb reavahetuse eraldaja.

Järgmine kood on kirje selles täiendatud manifesti failis.

Mõned märkused:

Selle tööga on seotud viis märgistustüüpi: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossja InsuredMailingAddress.
Manifestifail viitab nii PDF-i lähtekohale kui ka märkuse asukohale.
Jäädvustatakse annotatsioonitöö metaandmed (nt loomise kuupäev).
Use-textract-only on seatud väärtusele False, mis tähendab, et märkuste tööriist otsustab, kas kasutada PDFPlumberit (natiivse PDF-i jaoks) või Amazoni tekst (skannitud PDF-i jaoks). Kui see on määratud true, kasutatakse mõlemal juhul Amazon Textracti (mis on kulukam, kuid potentsiaalselt täpsem).

Nüüd saame äratundjat koolitada, nagu on näidatud järgmises näitekoodis.

Loome tuvastaja kõigi viie tüüpi olemite tuvastamiseks. Soovi korral oleksime võinud kasutada nende üksuste alamhulka. Saate kasutada kuni 25 olemit.

Iga parameetri üksikasjade kohta vt loo_olemi_tuvastaja.

Sõltuvalt treeningkomplekti suurusest võib treeninguaeg varieeruda. Selle andmestiku puhul võtab koolitus umbes 1 tunni. Koolitustöö oleku jälgimiseks saate kasutada describe_entity_recognizer API.

Hankige koolitatud mudelilt hindamismõõdikud

Amazon Comprehend pakub koolitatud mudelile mudeli jõudlusmõõdikuid, mis näitavad, kui hästi koolitatud mudel prognoosib sarnaseid sisendeid kasutades. Saame hankida nii globaalseid täpsus- ja tagasikutsumise mõõdikuid kui ka olemipõhiseid mõõdikuid. Täpsel mudelil on suur täpsus ja hea meeldejäävus. Kõrge täpsus tähendab, et mudel on tavaliselt õige, kui see viitab konkreetsele märgisele; kõrge tagasikutsumine tähendab, et mudel leidis enamiku siltidest. F1 on nende mõõtude liitmõõdik (harmooniline keskmine) ja on seetõttu kõrge, kui mõlemad komponendid on kõrged. Mõõdikute üksikasjalikku kirjeldust vt Kohandatud olemi tuvastamise mõõdikud.

Kui esitate dokumendid koolitustööle, eraldab Amazon Comprehend need automaatselt rongi- ja katsekomplektiks. Kui mudel on jõudnud TRAINED olekut, saate kasutada describe_entity_recognizer API uuesti, et saada testikomplekti hindamismõõdikud.

Järgmine on näide globaalsetest mõõdikutest.

Järgmine on näide olemite mõõdikutest.

Kõrged hinded näitavad, et mudel on õppinud hästi neid üksusi tuvastama.

Tehke järeldused nähtamatu dokumendi kohta

Teeme oma koolitatud mudeliga järelduse dokumendile, mis ei olnud koolitusprotseduuri osa. Seda asünkroonset API-t saame kasutada standardse või kohandatud NER-i jaoks. Kui kasutate seda kohandatud NER-i jaoks (nagu selles postituses), peame läbima koolitatud mudeli ARN-i.

Saame esitatud töö üle vaadata, printides vastuse välja.

Saame Pandaga tuvastustöö väljundi vormindada tabelisse. The Score väärtus näitab usaldustaset, mis mudelil olemi suhtes on.

Lõpuks saame ennustused üle kanda nähtamatutele dokumentidele, mis annab tulemuse, nagu on näidatud selle postituse ülaosas.

Järeldus

Selles postituses nägite, kuidas kohandatud üksusi nende loomulikus PDF-vormingus Amazon Comprehendi abil ekstraheerida. Järgmiste sammudena kaaluge sügavamale sukeldumist:

Treenige kaasasoleva märkmiku abil oma äratundjat siin. Ärge unustage kustutada kõik ressursid, kui olete lõpetanud, et vältida tulevasi tasusid.
Seadistage oma kohandatud märkuste töö, et koguda huvipakkuvate üksuste jaoks PDF-märkusi. Lisateabe saamiseks vaadake Kohandatud dokumendimärkus nimeliste üksuste ekstraktimiseks dokumentidest Amazon Comprehendi abil.
Treenige kohandatud NER-mudelit Amazon Comprehendi konsoolil. Lisateabe saamiseks vt Rakenduse Amazon Comprehend eraldage dokumentidest kohandatud üksused nende algvormingus.

Autoritest

Joshua Levy on vanemrakendusteadlane Amazoni masinõppelahenduste laboris, kus ta aitab klientidel kavandada ja luua tehisintellekti/ML-lahendusi peamiste äriprobleemide lahendamiseks.

Andrew Ang on masinõppeinsener Amazoni masinõppelahenduste laboris, kus ta aitab klientidel erinevatest tööstusharudest tuvastada ja luua AI/ML-lahendusi nende kõige pakilisemate äriprobleemide lahendamiseks. Väljaspool tööd meeldib talle vaadata reisi- ja toiduvloge.

Alex Chirayath on Amazoni masinõppelahenduste labori tarkvarainsener, kes keskendub kasutusjuhtumipõhiste lahenduste ehitamisele, mis näitavad klientidele, kuidas avada AWS AI/ML teenuste võimsus, et lahendada tegelikke äriprobleeme.

Jennifer Zhu on Amazon AI Machine Learning Solutions Labi rakendusteadlane. Ta töötab koos AWS-i klientidega, kes ehitavad AI/ML-lahendusi nende esmatähtsate ärivajaduste jaoks.

Niharika Jayanthi on Amazon Machine Learning Solutions Lab – In the Loop meeskonna esiotsa insener. Ta aitab luua Amazon SageMaker Ground Truthi klientidele kasutajakogemuse lahendusi.

Boriss Aronchik on Amazon AI masinõppelahenduste labori juht, kus ta juhib ML teadlaste ja inseneride meeskonda, et aidata AWS-i klientidel saavutada ärieesmärke, kasutades AI/ML lahendusi.

Ajatempel: Aprill 8, 2022

Ajatempel: Mar 29, 2022

Looge Amazon Comprehendi abil PDF-dokumentide jaoks kohandatud olemituvastaja

Taasavaldanud Platon

Lahenduse ülevaade

Looge PDF-i märkusi

Kasutage Pythoni API abil kohandatud mudeli koolitamiseks PDF-märkusi

Hankige koolitatud mudelilt hindamismõõdikud

Tehke järeldused nähtamatu dokumendi kohta

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Kulusäästlik ML-i järeldus Amazon SageMakeri mitme raamistiku mudelite abil

Amazon Rekognition tutvustab voogesituse videosündmusi, et pakkuda reaalajas teateid reaalajas videovoogudest

Vähendage oma masinõppe töökoormuse energiatarbimist kuni 90% AWS-i spetsiaalselt ehitatud kiirenditega | Amazoni veebiteenused

Chronomics tuvastab COVID-19 testi tulemused Amazon Rekognitioni kohandatud siltide abil

T-Mobile US, Inc. kasutab tehisintellekti Amazon Transcribe'i ja Amazon Translate'i kaudu kõneposti edastamiseks klientide valitud keeles | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto