Build A Custom Entity Recognizer For PDF Documents Using Amazon Comprehend

Ponovno objavil Platon

Spremljevalci: 0

V mnogih panogah je ključnega pomena, da iz dokumentov pravočasno izvlečete entitete po meri. To je lahko izziv. Zavarovalni zahtevki na primer pogosto vsebujejo na desetine pomembnih atributov (kot so datumi, imena, lokacije in poročila), raztresenih po dolgih in gostih dokumentih. Ročno skeniranje in ekstrahiranje takšnih informacij je lahko nagnjeno k napakam in zamudno. Programska oprema, ki temelji na pravilih, lahko pomaga, vendar je na koncu preveč toga, da bi se prilagodila številnim različnim vrstam dokumentov in postavitvam.

Za avtomatizacijo in pospešitev tega postopka lahko uporabite Amazonsko razumevanje za hitro in natančno odkrivanje entitet po meri z uporabo strojnega učenja (ML). Ta pristop je prilagodljiv in natančen, saj se lahko sistem prilagaja novim dokumentom z uporabo naučenega v preteklosti. Do nedavnega pa je bilo to zmožnost mogoče uporabiti samo za dokumente z navadnim besedilom, kar je pomenilo, da so se informacije o položaju izgubile pri pretvorbi dokumentov iz izvorne oblike. Za obravnavo tega je bilo je pred kratkim napovedal, da lahko Amazon Comprehend ekstrahira entitete po meri v PDF-jih, slikah in oblikah datotek Word.

V tem prispevku se sprehodimo skozi konkreten primer iz zavarovalniške industrije, kako lahko sestavite razpoznavalec po meri z opombami PDF.

Pregled rešitev

Vodimo vas skozi naslednje korake na visoki ravni:

Ustvarite opombe PDF.
Uporabite opombe PDF za usposabljanje modela po meri z API-jem Python.
Pridobite meritve vrednotenja iz usposobljenega modela.
Izvedite sklepanje na neviden dokument.

Do konca te objave želimo, da bi lahko našemu usposobljenemu modelu poslali neobdelani dokument PDF in da bi ta izpisal strukturirano datoteko z informacijami o nalepkah, ki nas zanimajo. Zlasti naš model usposabljamo za odkrivanje naslednjih petih subjektov, ki smo jih izbrali zaradi njihovega pomena za zavarovalne zahtevke: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossin InsuredMailingAddress. Po branju strukturiranega izhoda lahko vizualiziramo informacije o nalepki neposredno na dokumentu PDF, kot je na naslednji sliki.

To objavo spremlja Jupyterjev zvezek, ki vsebuje enake korake. Med izvajanjem korakov v tem lahko sledite prenosnik. Upoštevajte, da morate nastaviti Amazon SageMaker okolje, iz katerega Amazon Comprehend omogoča branje Preprosta storitev shranjevanja Amazon (Amazon S3), kot je opisano na vrhu prenosnika.

Ustvarite opombe PDF

Če želite ustvariti opombe za dokumente PDF, lahko uporabite Amazon SageMaker Ground Truth, popolnoma upravljana storitev za označevanje podatkov, ki olajša izdelavo zelo natančnih naborov podatkov za usposabljanje za ML.

Za to vadnico smo dokumente PDF že označili v njihovi izvorni obliki (brez pretvorbe v golo besedilo) z uporabo Ground Truth. Posel Ground Truth ustvari tri poti, ki jih potrebujemo za usposabljanje našega prilagojenega modela Amazon Comprehend:

Viri – Pot do vhodnih PDF-jev.
Pripombe – Pot do datotek JSON z opombami, ki vsebujejo informacije o označeni entiteti.
Manifest – Datoteka, ki kaže na lokacijo opomb in izvornih PDF-jev. Ta datoteka se uporablja za ustvarjanje opravila usposabljanja za prepoznavanje entitet po meri Amazon Comprehend in usposabljanje modela po meri.

Naslednji posnetek zaslona prikazuje vzorčno opombo.

Opravilo Ground Truth po meri ustvari opombo PDF, ki zajame informacije o entiteti na ravni bloka. Takšne informacije na ravni bloka zagotavljajo natančne položajne koordinate entitete (pri čemer podrejeni bloki predstavljajo vsako besedo znotraj bloka entitete). To se razlikuje od standardnega opravila Ground Truth, pri katerem so podatki v PDF-ju sploščeni v besedilno obliko in so med opombami zajete samo informacije o odmiku – vendar ne informacije o natančnih koordinatah. Bogate informacije o položaju, ki jih pridobimo s to paradigmo opomb po meri, nam omogočajo, da usposobimo natančnejši model.

Manifest, ki je ustvarjen iz te vrste opravila, se imenuje razširjen manifest, v nasprotju s CSV, ki se uporablja za standardne opombe. Za več informacij glejte Pripombe.

Uporabite opombe PDF za usposabljanje modela po meri z API-jem Python

Datoteka razširjenega manifesta mora biti oblikovana v obliki vrstic JSON. V obliki vrstic JSON je vsaka vrstica v datoteki celoten predmet JSON, ki mu sledi ločilo za novo vrstico.

Naslednja koda je vnos znotraj te razširjene datoteke manifesta.

Še nekaj stvari:

S tem opravilom je povezanih pet vrst označevanja: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossin InsuredMailingAddress.
Datoteka manifesta se sklicuje na izvorno lokacijo PDF in lokacijo opombe.
Zajeti so metapodatki o opravilu opombe (kot je datum ustvarjanja).
Use-textract-only nastavljena na False, kar pomeni, da se orodje za opombe odloči, ali bo uporabilo PDFPlumber (za izvorni PDF) ali Amazonovo besedilo (za skeniran PDF). Če je nastavljeno na true, se v obeh primerih uporablja Amazon Texttract (kar je dražje, a potencialno bolj natančno).

Zdaj lahko urimo prepoznavanje, kot je prikazano v naslednjem primeru kode.

Izdelamo prepoznavalnik za prepoznavanje vseh petih tipov entitet. Če bi želeli, bi lahko uporabili podmnožico teh entitet. Uporabite lahko do 25 entitet.

Za podrobnosti o vsakem parametru glejte create_entity_recognizer.

Odvisno od velikosti vadbenega sklopa se lahko čas vadbe razlikuje. Za ta niz podatkov usposabljanje traja približno 1 uro. Za spremljanje statusa usposabljanja lahko uporabite describe_entity_recognizer API.

Pridobite meritve vrednotenja iz usposobljenega modela

Amazon Comprehend zagotavlja meritve uspešnosti modela za usposobljen model, ki kaže, kako dobro se pričakuje, da bo usposobljeni model napovedoval z uporabo podobnih vhodnih podatkov. Pridobimo lahko tako globalne metrike natančnosti in odpoklica kot tudi metrike na entiteto. Natančen model ima visoko natančnost in visok priklic. Visoka natančnost pomeni, da je model običajno pravilen, ko označuje določeno oznako; visok priklic pomeni, da je model našel večino oznak. F1 je sestavljena metrika (harmonična sredina) teh meritev in je zato visoka, če sta obe komponenti visoki. Za podroben opis meritev glejte Meritve prepoznavanja subjekta po meri.

Ko zagotovite dokumente za usposabljanje, jih Amazon Comprehend samodejno loči v niz za usposabljanje in preizkus. Ko model doseže TRAINED status, lahko uporabite describe_entity_recognizer Ponovno API za pridobitev metrike vrednotenja na testnem nizu.

Sledi primer globalne metrike.

Sledi primer metrike na entiteto.

Visoki rezultati kažejo, da se je model dobro naučil zaznati te entitete.

Izvedite sklepanje na neviden dokument

Zaženimo sklepanje z našim usposobljenim modelom na dokumentu, ki ni bil del postopka usposabljanja. Ta asinhroni API lahko uporabimo za standardni ali prilagojeni NER. Če ga uporabljamo za NER po meri (kot v tej objavi), moramo posredovati ARN usposobljenega modela.

Oddano delo lahko pregledamo tako, da natisnemo odgovor.

Izhod opravila zaznavanja s programom Pandas lahko oblikujemo v tabelo. The Score vrednost označuje stopnjo zaupanja, ki jo ima model o entiteti.

Končno lahko prekrivamo napovedi na nevidenih dokumentih, kar daje rezultat, kot je prikazan na vrhu te objave.

zaključek

V tej objavi ste videli, kako z Amazon Comprehend izvleči entitete po meri v njihovi izvirni obliki zapisa PDF. Kot naslednji korak razmislite o globljem potapljanju:

Naučite svojega prepoznavalca s pomočjo priloženega zvezka tukaj. Ko končate, ne pozabite izbrisati vseh virov, da se izognete prihodnjim stroškom.
Nastavite svoje lastno opravilo opomb po meri za zbiranje opomb PDF za entitete, ki vas zanimajo. Za več informacij glejte Opomba dokumenta po meri za ekstrahiranje poimenovanih entitet v dokumentih z uporabo Amazon Comprehend.
Usposobite model NER po meri na konzoli Amazon Comprehend. Za več informacij glejte Izvlecite entitete po meri iz dokumentov v izvornem formatu z Amazon Comprehend.

O avtorjih

Joshua Levy je višji aplikativni znanstvenik v laboratoriju Amazon Machine Learning Solutions, kjer strankam pomaga oblikovati in zgraditi rešitve AI/ML za reševanje ključnih poslovnih problemov.

Andrej Ang je inženir strojnega učenja v laboratoriju Amazon Machine Learning Solutions Lab, kjer strankam iz raznolikega spektra panog pomaga prepoznati in zgraditi rešitve AI/ML za reševanje njihovih najbolj perečih poslovnih težav. Zunaj službe rad gleda vloge o potovanjih in hrani.

Alex Chirayath je programski inženir v laboratoriju Amazon Machine Learning Solutions Lab, ki se osredotoča na ustvarjanje rešitev na podlagi primerov uporabe, ki strankam pokažejo, kako odkleniti moč storitev AWS AI/ML za reševanje poslovnih problemov v resničnem svetu.

Jennifer Zhu je uporabni znanstvenik iz laboratorija Amazon AI Machine Learning Solutions Lab. Sodeluje s strankami AWS, ki gradijo rešitve AI/ML za njihove visoko prioritetne poslovne potrebe.

Niharika Jayanthi je front end inženir v Amazon Machine Learning Solutions Lab – ekipa Human in the Loop. Pomaga ustvariti rešitve uporabniške izkušnje za stranke Amazon SageMaker Ground Truth.

Boris Arončik je vodja v laboratoriju Amazon AI Machine Learning Solutions Lab, kjer vodi skupino znanstvenikov in inženirjev ML, ki strankam AWS pomaga uresničiti poslovne cilje z uporabo rešitev AI/ML.

Časovni žig: April 8, 2022

Časovni žig: Marec 29, 2022

Z Amazon Comprehend zgradite prepoznavanje entitet po meri za dokumente PDF

Ponovno objavil Platon

Pregled rešitev

Ustvarite opombe PDF

Uporabite opombe PDF za usposabljanje modela po meri z API-jem Python

Pridobite meritve vrednotenja iz usposobljenega modela

Izvedite sklepanje na neviden dokument

zaključek

O avtorjih

Več od Strojno učenje AWS

Stroškovno učinkovito sklepanje ML z modeli z več okvirji na Amazon SageMaker

Amazon Rekognition uvaja Streaming Video Events za zagotavljanje opozoril v realnem času o video tokovih v živo

Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon

Chronomics zazna rezultate testov za COVID-19 z oznakami po meri Amazon Rekognition

T-Mobile US, Inc. uporablja umetno inteligenco prek storitev Amazon Transcribe in Amazon Translate za pošiljanje glasovne pošte v jeziku po izbiri svojih strank | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun