Introducing One-step Classification And Entity Recognition With Amazon Comprehend For Intelligent Document Processing

Ponovno objavil Platon

Spremljevalci: 0

»Rešitve za inteligentno obdelavo dokumentov (IDP) pridobivajo podatke za podporo avtomatizacije obsežnih, ponavljajočih se nalog obdelave dokumentov ter za analizo in vpogled. IDP uporablja tehnologije naravnega jezika in računalniški vid za pridobivanje podatkov iz strukturirane in nestrukturirane vsebine, zlasti iz dokumentov, za podporo avtomatizaciji in povečanju.” – Gartner

Cilj Amazonove inteligentne obdelave dokumentov (IDP) je avtomatizirati obdelavo velikih količin dokumentov z uporabo strojnega učenja (ML), da bi povečali produktivnost, zmanjšali stroške, povezane s človeškim delom, in zagotovili brezhibno uporabniško izkušnjo. Stranke porabijo veliko časa in truda za prepoznavanje dokumentov in pridobivanje kritičnih informacij iz njih za različne primere uporabe. danes, Amazonsko razumevanje podpira klasifikacijo za dokumente z navadnim besedilom, kar zahteva, da vnaprej obdelate dokumente v polstrukturiranih formatih (skenirani, digitalni PDF ali slike, kot so PNG, JPG, TIFF) in nato uporabite izhod z navadnim besedilom za izvajanje sklepanja z vašim klasifikacija po meri model. Podobno za prepoznavanje entitet po meri v realnem času je za delno strukturirane dokumente, kot so PDF in slikovne datoteke, potrebna predhodna obdelava za ekstrahiranje besedila. Ta dvostopenjski postopek uvaja zapletenost v poteke dela za obdelavo dokumentov.

Lani smo ga napovedal podporo za domače formate dokumentov s prepoznavanjem poimenovanih entitet po meri (NER) asinhrona opravila. Danes z veseljem napovedujemo klasifikacijo dokumentov v enem koraku in analizo v realnem času za NER za polstrukturirane dokumente v izvornih formatih (PDF, TIFF, JPG, PNG) z uporabo Amazon Comprehend. Natančneje, napovedujemo naslednje zmogljivosti:

Podpora za dokumente v izvornih formatih za analizo klasifikacije po meri v realnem času in asinhrona opravila
Podpora za dokumente v izvornih formatih za analizo prepoznavanja entitet po meri v realnem času

S to novo izdajo Amazon Comprehend klasifikacija po meri in prepoznavanje entitet po meri (NER) podpirata neposredno dokumente v formatih, kot so PDF, TIFF, PNG in JPEG, ne da bi bilo treba iz njih ekstrahirati golo besedilo, kodirano z UTF8. Naslednja slika primerja prejšnji postopek z novim postopkom in podporo.

Ta funkcija poenostavlja delovne tokove obdelave dokumentov z odpravo vseh korakov predprocesiranja, ki so potrebni za ekstrahiranje navadnega besedila iz dokumentov, in skrajša skupni čas, potreben za njihovo obdelavo.

V tej objavi razpravljamo o zasnovi rešitve poteka dela IDP na visoki ravni, nekaj primerih uporabe v industriji, novih funkcijah Amazon Comprehend in kako jih uporabljati.

Pregled rešitve

Začnimo z raziskovanjem običajnega primera uporabe v zavarovalništvu. Tipičen postopek zavarovalnega zahtevka vključuje paket zahtevkov, ki lahko vsebuje več dokumentov. Ko je vložen zavarovalni zahtevek, vključuje dokumente, kot so obrazec zavarovalnega zahtevka, poročila o incidentih, osebne dokumente in dokumente o zahtevkih tretjih oseb. Obseg dokumentov za obdelavo in razsojanje zavarovalnega zahtevka lahko obsega do več sto ali celo tisoče strani, odvisno od vrste zahtevka in vključenih poslovnih procesov. Zastopniki za zavarovalne zahtevke in razsodniki običajno porabijo na stotine ur za ročno presejanje, razvrščanje in pridobivanje informacij iz stotin ali celo tisočev zahtevkov.

Podobno kot v primeru uporabe v zavarovalniški industriji tudi plačilna industrija obdeluje velike količine delno strukturiranih dokumentov za pogodbe o čezmejnem plačilu, račune in devizne izpiske. Poslovni uporabniki porabijo večino svojega časa za ročne dejavnosti, kot so prepoznavanje, organiziranje, potrjevanje, ekstrahiranje in posredovanje zahtevanih informacij nadaljnjim aplikacijam. Ta ročni postopek je dolgočasen, ponavljajoč se, nagnjen k napakam, drag in ga je težko prilagoditi. Druge panoge, ki se soočajo s podobnimi izzivi, vključujejo hipoteke in posojila, zdravstvo in znanosti o življenju, pravo, računovodstvo in davčno upravljanje. Za podjetja je izjemno pomembno, da tako velike količine dokumentov obdelajo pravočasno z visoko stopnjo natančnosti in nominalnim ročnim naporom.

Amazon Comprehend zagotavlja ključne zmogljivosti za avtomatizacijo klasifikacije dokumentov in ekstrakcijo informacij iz velike količine dokumentov z visoko natančnostjo, na razširljiv in stroškovno učinkovit način. Naslednji diagram prikazuje logični potek dela IDP z Amazon Comprehend. Jedro delovnega toka je sestavljeno iz klasifikacije dokumentov in ekstrakcije informacij z uporabo NER z modeli po meri Amazon Comprehend. Diagram tudi prikazuje, kako je mogoče modele po meri nenehno izboljševati, da zagotovijo večjo natančnost, ko se dokumenti in poslovni procesi razvijajo.

Razvrstitev dokumentov po meri

S klasifikacijo po meri Amazon Comprehend lahko svoje dokumente organizirate v vnaprej določene kategorije (razrede). Na visoki ravni so naslednji koraki za nastavitev klasifikatorja dokumentov po meri in izvedbo klasifikacije dokumentov:

Pripravite podatke za usposabljanje za usposabljanje klasifikatorja dokumentov po meri.
Usposobite klasifikator dokumentov stranke s podatki za usposabljanje.
Ko je model usposobljen, po želji uvedite končno točko v realnem času.
Izvedite klasifikacijo dokumentov z asinhronim opravilom ali v realnem času z uporabo končne točke.

Koraka 1 in 2 se običajno izvedeta na začetku projekta IDP, potem ko so identificirani razredi dokumentov, pomembni za poslovni proces. Model klasifikatorja po meri je mogoče nato občasno ponovno usposobiti za izboljšanje natančnosti in uvedbo novih razredov dokumentov. Model klasifikacije po meri lahko usposobite bodisi v večrazredni način or način z več oznakami. Usposabljanje je mogoče izvesti za vsakega na enega od dveh načinov: z uporabo datoteke CSV ali z uporabo razširjene datoteke manifesta. Nanašati se na Priprava podatkov o usposabljanju za več podrobnosti o usposabljanju modela klasifikacije po meri. Ko je model klasifikatorja po meri usposobljen, je mogoče dokument klasificirati z uporabo analiza v realnem času ali asinhrono delo. Analiza v realnem času zahteva končna točka, ki bo uvedena z usposobljenim modelom in je najbolj primeren za majhne dokumente, odvisno od primera uporabe. Za veliko število dokumentov je najprimernejše opravilo asinhrone klasifikacije.

Usposobite model klasifikacije dokumentov po meri

Za predstavitev nove funkcije smo usposobili model klasifikacije po meri v načinu z več oznakami, ki lahko razvrsti zavarovalne dokumente v enega od sedmih različnih razredov. Razredi so INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYin CMS1500. Želimo razvrstiti vzorčne dokumente v izvirnem formatu PDF, PNG in JPEG, shranjene v Preprosta storitev shranjevanja Amazon (Amazon S3) z uporabo klasifikacijskega modela. Če želite začeti opravilo asinhrone klasifikacije, dokončajte naslednje korake:

Na konzoli Amazon Comprehend izberite Opravila za analizo v podoknu za krmarjenje.
Izberite Ustvari službo.
za Ime, vnesite ime za svojo klasifikacijsko nalogo.
za Vrsta analize¸ izberite Razvrstitev po meri.
za Model klasifikatorja, izberite ustrezen usposobljen model klasifikacije.
za različica, izberite ustrezno različico modela.

v Vhodni podatki razdelku posredujemo lokacijo, kjer so shranjeni naši dokumenti.

za Vhodna oblika, izberite En dokument na datoteko.
za Način branja dokumenta¸ izberite Vsili dejanje branja dokumenta.
za Dejanje branja dokumenta, izberite Besedilo zazna besedilo dokumenta.

To Amazon Comprehendu omogoča uporabo Amazonovo besedilo DetectDocumentText API za branje dokumentov pred izvedbo klasifikacije. The DetectDocumentText API je v pomoč pri pridobivanju vrstic in besed besedila iz dokumentov. Lahko tudi izberete Dokument za analizo besedila za Dejanje branja dokumenta, v tem primeru Amazon Comprehend uporablja Amazon Texttract AnalyzeDocument API za branje dokumentov. z AnalyzeDocument API, lahko izberete ekstrahiranje Mize, Obrazci, ali oboje. The Način branja dokumenta omogoča Amazon Comprehend, da izvleče besedilo iz dokumentov v zakulisju, kar pomaga zmanjšati dodatni korak izvleka besedila iz dokumenta, ki je potreben v našem delovnem procesu obdelave dokumentov.

Klasifikator po meri Amazon Comprehend lahko obdela tudi neobdelane odgovore JSON, ki jih ustvari DetectDocumentText in AnalyzeDocument API-ji brez kakršnih koli sprememb ali predprocesiranja. To je uporabno za obstoječe poteke dela, kjer Amazon Texttract že sodeluje pri pridobivanju besedila iz dokumentov. V tem primeru se lahko izhod JSON iz Amazon Texttract posreduje neposredno API-jem za klasifikacijo dokumentov Amazon Comprehend.

v Izhodni podatki odsek, za S3 lokacija, določite lokacijo Amazon S3, kamor želite, da asinhrono opravilo zapiše rezultate sklepanja.
Preostale možnosti pustite privzete.
Izberite Ustvari službo za začetek dela.

Status posla si lahko ogledate na Opravila za analizo stran.

Ko je opravilo končano, si lahko ogledamo izhod opravila analize, ki je shranjen na lokaciji Amazon S3, določeni med konfiguracijo opravila. Izhod klasifikacije za naš enostranski PDF vzorčni dokument CMS1500 je naslednji. Izhod je datoteka v obliki vrstic JSON, ki je bila oblikovana za izboljšanje berljivosti.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Prejšnji vzorec je enostranski dokument PDF; vendar lahko klasifikacija po meri obravnava tudi večstranske dokumente PDF. V primeru dokumentov z več stranmi izhod vsebuje več vrstic JSON, kjer je vsaka vrstica rezultat klasifikacije vsake strani v dokumentu. Sledi vzorčni rezultat večstranske klasifikacije:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Prepoznavanje entitete po meri

S prepoznavalnikom entitet po meri Amazon Comprehend lahko analizirate dokumente in izvlečete entitete, kot so kode izdelkov ali poslovne entitete, ki ustrezajo vašim posebnim potrebam. Na visoki ravni so naslednji koraki za nastavitev prepoznavalnika entitet po meri in izvajanje zaznavanja entitet:

Pripravite podatke za usposabljanje za usposabljanje prepoznavalnika entitet po meri.
Usposobite prepoznavanje entitet po meri s podatki za usposabljanje.
Ko je model usposobljen, po želji uvedite končno točko v realnem času.
Izvedite zaznavanje entitet z asinhronim opravilom ali v realnem času z uporabo končne točke.

Model prepoznavalnika entitet po meri je mogoče redno usposobiti za izboljšanje natančnosti in uvedbo novih tipov entitet. Model prepoznavalnika entitet po meri lahko usposobite z obema seznami entitet or pripombe. V obeh primerih se Amazon Comprehend seznani z vrsto dokumentov in kontekstom, kjer se entitete pojavljajo, da zgradi model prepoznavalnika entitet, ki lahko posploši za odkrivanje novih entitet. Nanašati se na Priprava podatkov o usposabljanju če želite izvedeti več o pripravi podatkov za usposabljanje za prepoznavanje entitet po meri.

Ko je model prepoznavalnika entitet po meri usposobljen, je mogoče zaznavanje entitet izvesti z uporabo analiza v realnem času ali asinhrono delo. Analiza v realnem času zahteva končna točka, ki bo uvedena z usposobljenim modelom in je najbolj primeren za majhne dokumente, odvisno od primera uporabe. Za veliko število dokumentov je najprimernejše opravilo asinhrone klasifikacije.

Usposobite model za prepoznavanje entitet po meri

Da bi prikazali zaznavanje entitet v realnem času, smo usposobili model prepoznavalnika entitet po meri z zavarovalnimi dokumenti in razširjenimi datotekami manifesta z uporabo opomb po meri ter uvedli končno točko z uporabo usposobljenega modela. Vrste entitet so Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionin Sender. Želimo zaznati entitete iz vzorčnih dokumentov v izvornem formatu PDF, PNG in JPEG, shranjenih v vedru S3, z uporabo modela prepoznavalnika.

Upoštevajte, da lahko uporabite model za prepoznavanje entitet po meri, ki je učen z dokumenti PDF, da izvlečete entitete po meri iz dokumentov PDF, TIFF, slik, Worda in navadnega besedila. Če je vaš model učen z besedilnimi dokumenti in seznamom entitet, lahko za ekstrahiranje entitet uporabite le dokumente z navadnim besedilom.

Zaznati moramo entitete iz vzorčnega dokumenta v kateri koli izvorni obliki PDF, PNG in JPEG z uporabo modela prepoznavalnika. Če želite začeti opravilo zaznavanja sinhronih entitet, dokončajte naslednje korake:

Na konzoli Amazon Comprehend izberite Analiza v realnem času v podoknu za krmarjenje.
Pod Vrsta analizetako, da izberete po meri.
za Prepoznavanje entitete po meri, izberite vrsto modela po meri.
za Končna točka, izberite končno točko v realnem času, ki ste jo ustvarili za svoj model prepoznavalnika entitet.
Izberite Naloži datoteko In izberite Izberite datoteko za nalaganje PDF ali slikovne datoteke za sklepanje.
Razširi Napreden vnos dokumentov razdelek in za Način branja dokumenta, izberite Privzeta storitev.
za Dejanje branja dokumenta, izberite Besedilo zazna besedilo dokumenta.
Izberite Analizirajte za analizo dokumenta v realnem času.

Priznani subjekti so navedeni v Vpogled razdelek. Vsaka entiteta vsebuje vrednost entitete (besedilo), vrsto entitete, kot jo definirate med procesom usposabljanja, in ustrezen rezultat zaupanja.

Za več podrobnosti in celoten potek o tem, kako usposobiti model prepoznavalnika entitet po meri in ga uporabiti za izvajanje asinhronega sklepanja z uporabo opravil asinhrone analize, glejte Izvlecite entitete po meri iz dokumentov v izvornem formatu z Amazon Comprehend.

zaključek

Ta objava je pokazala, kako lahko razvrstite in kategorizirate delno strukturirane dokumente v njihovi izvirni obliki in v njih zaznate poslovno specifične entitete z uporabo Amazon Comprehend. Uporabite lahko API-je v realnem času za primere uporabe z nizko zakasnitvijo ali uporabite asinhrona opravila analize za množično obdelavo dokumentov.

Kot naslednji korak vam priporočamo, da obiščete Amazon Comprehend GitHub repozitorij za celotne vzorce kode, da preizkusite te nove funkcije. Obiščete lahko tudi Vodnik za razvijalce Amazon Comprehend in Viri za razvijalce Amazon Comprehend za videoposnetke, vadnice, bloge in drugo.

O avtorjih

Wrick Talukdar je višji arhitekt pri skupini Amazon Comprehend Service. Sodeluje s strankami AWS, da bi jim pomagal sprejeti strojno učenje v velikem obsegu. Poleg dela se ukvarja z branjem in fotografijo.

Anjan Biswas je višji arhitekt rešitev za storitve AI s poudarkom na AI/ML in podatkovni analitiki. Anjan je del svetovne ekipe za storitve AI in sodeluje s strankami, da bi jim pomagal razumeti in razviti rešitve za poslovne težave z AI in ML. Anjan ima več kot 14 let izkušenj pri delu z globalno dobavno verigo, proizvodnjo in maloprodajnimi organizacijami ter strankam dejavno pomaga pri začetku in širitvi storitev umetne inteligence AWS.

Godwin Sahayaraj Vincent je arhitekt za podjetniške rešitve pri AWS, ki se navdušuje nad strojnim učenjem in zagotavlja smernice strankam za načrtovanje, uvajanje in upravljanje delovnih obremenitev in arhitektur AWS. V prostem času rad igra kriket s prijatelji in tenis s tremi otroki.

Časovni žig: December 2, 2022December 2, 2022

Več od Strojno učenje AWS

Amazon SageMaker Feature Store zdaj podpira skupno rabo, odkrivanje in dostop med računi | Spletne storitve Amazon

Izvorni grozd:

Strojno učenje AWS

Izvorno vozlišče: 1947390

Časovni žig: Februar 13, 2024

AWS izvaja fino nastavitev na velikem jezikovnem modelu (LLM), da razvrsti strupen govor za veliko igralniško podjetje | Spletne storitve Amazon

Strojno učenje AWS

Izvorno vozlišče: 1822975

Časovni žig: April 7, 2023

Predstavljamo klasifikacijo v enem koraku in prepoznavanje entitet z Amazon Comprehend za inteligentno obdelavo dokumentov

Ponovno objavil Platon

Pregled rešitve

Razvrstitev dokumentov po meri

Usposobite model klasifikacije dokumentov po meri

Prepoznavanje entitete po meri

Usposobite model za prepoznavanje entitet po meri

zaključek

O avtorjih

Več od Strojno učenje AWS

Startupi v pospeševalnikih AWS uporabljajo AI in ML za reševanje kritičnih izzivov strank

Uporabite računalniški vid za merjenje donosa v kmetijstvu z oznakami po meri Amazon Rekognition

Enostavno in natančno napovedovanje z AutoGluon-TimeSeries

Zgradite detektor vsiljene e-pošte z uporabo Amazon SageMaker | Spletne storitve Amazon

Zaznavanje in visokofrekvenčno spremljanje točkovnih virov emisij metana z uporabo geoprostorskih zmogljivosti Amazon SageMaker | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun