Tutvustame intelligentse dokumenditöötluse jaoks Amazon Comprehendiga üheastmelist klassifitseerimist ja olemituvastust

Taasavaldanud Platon

järgijaid: 0

„Intelligentsed dokumenditöötluse (IDP) lahendused eraldavad andmeid, et toetada suure mahuga korduvate dokumenditöötlustoimingute automatiseerimist ning analüüsi ja ülevaate saamiseks. IDP kasutab loomuliku keele tehnoloogiaid ja arvutinägemust, et eraldada andmeid struktureeritud ja struktureerimata sisust, eriti dokumentidest, et toetada automatiseerimist ja täiendamist. - Gartner

Amazoni intelligentse dokumenditöötluse (IDP) eesmärk on automatiseerida suurte dokumentide töötlemist masinõppe (ML) abil, et tõsta tootlikkust, vähendada inimtööjõuga seotud kulusid ja pakkuda sujuvat kasutuskogemust. Kliendid kulutavad palju aega ja vaeva dokumentide tuvastamisele ja nendest erinevate kasutusjuhtude jaoks kriitilise teabe hankimisele. Täna Amazoni mõistmine toetab lihtteksti dokumentide klassifitseerimist, mis nõuab dokumentide eeltöötlemist poolstruktureeritud vormingus (skaneeritud, digitaalne PDF või pildid, nagu PNG, JPG, TIFF) ja seejärel lihtteksti väljundit, et teha järeldusi kohandatud klassifikatsioon mudel. Samamoodi jaoks kohandatud olemi tuvastamine reaalajas on poolstruktureeritud dokumentide (nt PDF- ja pildifailid) jaoks vaja teksti eraldamiseks eeltöötlust. See kaheetapiline protsess muudab dokumenditöötluse töövoogude keerukamaks.

Eelmisel aastal me teatas omakeelsete dokumendivormingute toetamisest kohandatud nimega olemituvastusega (NER) asünkroonsed tööd. Täna teatame hea meelega NER-i üheastmelisest dokumentide klassifitseerimisest ja reaalajas analüüsist poolstruktureeritud dokumentide jaoks algvormingus (PDF, TIFF, JPG, PNG), kasutades Amazon Comprehendi. Täpsemalt anname teada järgmistest võimalustest:

Omavormingus dokumentide tugi kohandatud klassifitseerimise reaalajas analüüsi ja asünkroonsete tööde jaoks
Omavormingus dokumentide tugi kohandatud olemi tuvastamise reaalajas analüüsimiseks

Selle uue versiooniga toetab Amazon Comprehend kohandatud klassifikatsioon ja kohandatud olemituvastus (NER) otse dokumente sellistes vormingutes nagu PDF, TIFF, PNG ja JPEG, ilma et oleks vaja neist UTF8-kodeeritud lihtteksti eraldada. Järgmisel joonisel võrreldakse eelmist protsessi uue protseduuri ja toega.

See funktsioon lihtsustab dokumentide töötlemise töövooge, välistades kõik eeltöötlusetapid, mis on vajalikud dokumentidest lihtteksti eraldamiseks, ja vähendab nende töötlemiseks kuluvat üldist aega.

Selles postituses käsitleme kõrgetasemelist IDP töövoolahenduse disaini, mõnda tööstusharu kasutusjuhtu, Amazon Comprehendi uusi funktsioone ja nende kasutamist.

Ülevaade lahendusest

Alustuseks uurime kindlustussektoris levinud kasutusjuhtumeid. Tüüpiline kindlustusnõuete protsess hõlmab nõuete paketti, mis võib sisaldada mitut dokumenti. Kui kindlustusnõue esitatakse, sisaldab see selliseid dokumente nagu kindlustusnõude vorm, vahejuhtumiaruanded, isikut tõendavad dokumendid ja kolmanda osapoole nõudedokumendid. Kindlustusnõude menetlemiseks ja lahendamiseks vajalike dokumentide maht võib olenevalt nõude tüübist ja äriprotsessidest olla kuni sadu ja isegi tuhandeid lehekülgi. Kindlustusnõuete esindajad ja kohtunikud veedavad tavaliselt sadu tunde käsitsi sõelumiseks, sorteerimiseks ja teabe hankimiseks sadadest või isegi tuhandetest kahjunõuetest.

Sarnaselt kindlustussektori kasutusjuhtumitele töötleb maksetööstus ka suures mahus poolstruktureeritud dokumente piiriüleste maksete lepingute, arvete ja valuutaväljavõtete jaoks. Ärikasutajad kulutavad suurema osa oma ajast käsitsi tegevustele, nagu identifitseerimine, korrastamine, valideerimine, eraldamine ja nõutava teabe edastamine alljärgnevatele rakendustele. See käsitsi toimiv protsess on tüütu, korduv, veatundlik, kallis ja raskesti skaleeritav. Muud tööstusharud, mis seisavad silmitsi sarnaste väljakutsetega, on hüpoteeklaenud ja laenud, tervishoid ja bioteadused, õigusteadus, raamatupidamine ja maksuhaldus. Ettevõtete jaoks on äärmiselt oluline töödelda nii suuri dokumente õigeaegselt suure täpsuse ja nominaalse käsitsitööga.

Amazon Comprehend pakub võtmevõimalusi, et automatiseerida dokumentide klassifitseerimist ja suure täpsusega teabe väljavõtmist suurest mahust dokumentidest skaleeritaval ja kuluefektiivsel viisil. Järgmine diagramm näitab IDP loogilist töövoogu Amazon Comprehendiga. Töövoo tuum koosneb dokumentide klassifitseerimisest ja teabe hankimisest, kasutades NER-i koos Amazon Comprehendi kohandatud mudelitega. Diagramm näitab ka, kuidas kohandatud mudeleid saab pidevalt täiustada, et tagada dokumentide ja äriprotsesside arenedes suurem täpsus.

Kohandatud dokumentide klassifikatsioon

Amazon Comprehendi kohandatud klassifikatsiooniga saate korraldada oma dokumendid eelnevalt määratletud kategooriatesse (klassidesse). Kõrgel tasemel on kohandatud dokumendiklassifikaatori seadistamiseks ja dokumentide klassifitseerimiseks järgmised sammud.

Valmistage ette koolitusandmed kohandatud dokumendiklassifikaatori koolitamiseks.
Koolitage koolitusandmetega kliendidokumentide klassifikaatorit.
Pärast mudeli väljaõpetamist saate soovi korral juurutada reaalajas lõpp-punkti.
Tehke dokumentide klassifitseerimine kas asünkroonse tööga või reaalajas, kasutades lõpp-punkti.

Sammud 1 ja 2 tehakse tavaliselt IDP projekti alguses pärast äriprotsessi jaoks oluliste dokumendiklasside tuvastamist. Kohandatud klassifikaatori mudelit saab seejärel perioodiliselt ümber õpetada, et parandada täpsust ja võtta kasutusele uusi dokumendiklasse. Saate treenida kohandatud klassifitseerimismudelit mõlemas mitme klassi režiim or mitme sildi režiim. Igaühe jaoks saab koolitust läbi viia kahel viisil: kasutades CSV-faili või laiendatud manifesti faili. Viitama Treeninguandmete ettevalmistamine Lisateavet kohandatud klassifitseerimismudeli väljaõppe kohta. Pärast kohandatud klassifikaatori mudeli väljaõpetamist saab dokumendi klassifitseerida kas kasutades reaalajas analüüs või asünkroonne töö. Reaalajas analüüs nõuab lõpp-punkt koolitatud mudeliga ja sobib olenevalt kasutusjuhtumist kõige paremini väikeste dokumentide jaoks. Suure hulga dokumentide jaoks sobib kõige paremini asünkroonne klassifitseerimistöö.

Treenige kohandatud dokumentide klassifitseerimise mudelit

Uue funktsiooni demonstreerimiseks koolitasime mitme sildi režiimis kohandatud klassifitseerimismudeli, mis suudab liigitada kindlustusdokumendid ühte seitsmest erinevast klassist. Klassid on INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYja CMS1500. Soovime liigitada näidisdokumendid natiivsesse PDF-, PNG- ja JPEG-vormingusse, mis on salvestatud Amazoni lihtne salvestusteenus (Amazon S3) kopp, kasutades klassifitseerimismudelit. Asünkroonse klassifitseerimistöö käivitamiseks toimige järgmiselt.

Amazon Comprehendi konsoolil valige Analüüsitööd navigeerimispaanil.
Vali Loo töökoht.
eest Nimi, sisestage oma klassifitseerimistöö nimi.
eest Analüüsi tüüp¸ vali Kohandatud klassifikatsioon.
eest Klassifikaatori mudel, valige sobiv koolitatud klassifitseerimismudel.
eest versioon, valige sobiv mudeli versioon.

aasta Sisendandmed jaotises pakume välja meie dokumentide säilitamise asukoha.

eest Sisendvorming, vali Üks dokument faili kohta.
eest Dokumendi lugemise režiim¸ vali Dokumendi lugemise sundimine.
eest Dokumendi lugemise toiming, vali Tekstakt tuvastab dokumendi teksti.

See võimaldab Amazon Comprehendil kasutada Amazoni tekst Tuvasta DocumentText API dokumentide lugemiseks enne klassifikatsiooni käivitamist. The DetectDocumentText API on abiks dokumentidest tekstiridade ja sõnade eraldamisel. Võite ka valida Tekstianalüüsi dokument eest Dokumendi lugemise toiming, sel juhul kasutab Amazon Comprehend Amazon Textracti Analüüsidokument API dokumentide lugemiseks. Koos AnalyzeDocument API, saate valida ekstraktimise Tabelid, Blanketid, või mõlemad. Dokumendi lugemise režiim suvand võimaldab Amazon Comprehendil telgitagustest dokumentidest teksti eraldada, mis aitab vähendada dokumendist teksti eraldamise täiendavat sammu, mis on vajalik meie dokumenditöötluse töövoos.

Amazon Comprehendi kohandatud klassifikaator saab töödelda ka JSON-i töötlemata vastuseid, mille on genereerinud DetectDocumentText ja AnalyzeDocument API-sid ilma muutmise või eeltöötluseta. See on kasulik olemasolevate töövoogude puhul, kus Amazon Textract on juba kaasatud dokumentidest teksti eraldamisse. Sel juhul saab Amazon Textracti JSON-i väljundi otse Amazon Comprehendi dokumentide klassifitseerimise API-liidesesse suunata.

aasta Väljundandmed jaotis, jaoks S3 asukoht, määrake Amazon S3 asukoht, kuhu soovite asünkroonse tööga järelduse tulemused kirjutada.
Jätke ülejäänud valikud vaikevalikuks.
Vali Loo töökoht töö alustamiseks.

Töö olekut saate vaadata lehel Analüüsitööd lehel.

Kui töö on lõpetatud, saame vaadata analüüsitöö väljundit, mis on salvestatud töö konfigureerimisel antud Amazon S3 asukohta. Meie üheleheküljelise PDF-näidis CMS1500 dokumendi klassifitseerimise väljund on järgmine. Väljund on JSON ridade vormingus fail, mis on loetavuse parandamiseks vormindatud.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Eelnev näidis on üheleheküljeline PDF-dokument; kohandatud klassifikatsioon võib aga käsitleda ka mitmeleheküljelisi PDF-dokumente. Mitmeleheküljeliste dokumentide puhul sisaldab väljund mitut JSON-rida, kus iga rida on dokumendi iga lehe klassifitseerimise tulemus. Järgnev on mitmelehelise klassifikatsiooni näidisväljund:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Kohandatud olemi tuvastamine

Amazon Comprehendi kohandatud olemituvastaja abil saate analüüsida dokumente ja eraldada üksusi, näiteks tootekoode või ettevõttepõhiseid üksusi, mis vastavad teie konkreetsetele vajadustele. Kõrgel tasemel on kohandatud olemituvastaja seadistamiseks ja olemi tuvastamiseks järgmised sammud.

Valmistage ette koolitusandmed kohandatud olemi tuvastaja koolitamiseks.
Treenige koolitusandmetega kohandatud olemi tuvastajat.
Pärast mudeli väljaõpetamist saate soovi korral juurutada reaalajas lõpp-punkti.
Tehke olemi tuvastamine kas asünkroonse tööga või reaalajas, kasutades lõpp-punkti.

Kohandatud olemituvastusmudelit saab täpsuse parandamiseks ja uute olemitüüpide kasutuselevõtmiseks perioodiliselt ümber õpetada. Saate koolitada kohandatud olemituvastusmudelit kummagiga üksuste loendid or märkused. Mõlemal juhul õpib Amazon Comprehend tundma dokumentide tüüpe ja konteksti, kus olemid esinevad, et luua olemituvastusmudel, mis suudab üldistada uute olemite tuvastamiseks. Viitama Treeningandmete ettevalmistamine lisateabe saamiseks kohandatud olemi tuvastaja jaoks koolitusandmete ettevalmistamise kohta.

Pärast kohandatud olemituvastusmudeli väljaõpetamist saab olemi tuvastada kas kasutades reaalajas analüüs või asünkroonne töö. Reaalajas analüüs nõuab lõpp-punkt koolitatud mudeliga ja sobib olenevalt kasutusjuhtumist kõige paremini väikeste dokumentide jaoks. Suure hulga dokumentide jaoks sobib kõige paremini asünkroonne klassifitseerimistöö.

Treenige kohandatud olemi tuvastamise mudelit

Olemi tuvastamise reaalajas demonstreerimiseks koolitasime kohandatud olemituvastusmudelit koos kindlustusdokumentide ja täiendatud manifestifailidega, kasutades kohandatud märkusi, ning juurutasime lõpp-punkti koolitatud mudeli abil. Olemitüübid on Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionja Sender. Soovime tuvastada S3 ämbrisse salvestatud PDF-, PNG- ja JPEG-vormingus näidisdokumentidest üksused, kasutades tuvastusmudelit.

Pange tähele, et kohandatud olemite eraldamiseks PDF-, TIFF-, pilt-, Word- ja lihttekstidokumentidest saate kasutada kohandatud olemituvastusmudelit, mis on koolitatud PDF-dokumentidega. Kui teie mudelit õpetatakse tekstidokumentide ja olemiloendi abil, saate olemite ekstraktimiseks kasutada ainult lihtteksti dokumente.

Peame tuvastama tuvastusmudelit kasutades olemid näidisdokumendist mis tahes loomulikus PDF-, PNG- ja JPEG-vormingus. Sünkroonse olemi tuvastamise töö alustamiseks toimige järgmiselt.

Amazon Comprehendi konsoolil valige Reaalajas analüüs navigeerimispaanil.
alla Analüüsi tüüpvalige tava.
eest Kohandatud olemi tuvastamine, valige kohandatud mudeli tüüp.
eest Lõpp-punkt, valige olemituvastusmudeli jaoks loodud reaalajas lõpp-punkt.
valima Faili üles laadima Ja vali Vali fail PDF- või pildifaili üleslaadimiseks järelduste tegemiseks.
Laienda Täpsem dokumendisisend jaotis ja jaoks Dokumendi lugemise režiim, vali Teenus vaikeseade.
eest Dokumendi lugemise toiming, vali Tekstakt tuvastab dokumendi teksti.
Vali Analüüsima dokumenti reaalajas analüüsida.

Tunnustatud üksused on loetletud Insights osa. Iga olem sisaldab olemi väärtust (teksti), olemi tüüpi, mille olete koolitusprotsessi käigus määratlenud, ja vastavat usaldusskoori.

Lisateavet ja täielikku ülevaadet kohandatud olemituvastusmudeli koolitamise ja selle kasutamise asünkroonsete järelduste tegemiseks asünkroonsete analüüsitööde abil leiate jaotisest Rakenduse Amazon Comprehend eraldage dokumentidest kohandatud üksused nende algvormingus.

Järeldus

See postitus näitas, kuidas saate Amazon Comprehendi abil klassifitseerida ja kategoriseerida poolstruktureeritud dokumente nende algvormingus ning tuvastada nendest ettevõttepõhiseid üksusi. Saate kasutada reaalajas API-sid madala latentsusajaga kasutusjuhtudel või kasutada asünkroonseid analüüsitöid dokumentide hulgitöötluseks.

Järgmise sammuna soovitame teil külastada Amazon Comprehendi GitHubi hoidla täielike koodinäidiste jaoks, et neid uusi funktsioone proovida. Võite külastada ka Amazon Comprehend Developer Guide ja Amazon Comprehendi arendajaressursid videote, õpetuste, ajaveebi ja muu jaoks.

Autoritest

Wrick Talukdar on Amazon Comprehend Service meeskonna vanemarhitekt. Ta teeb koostööd AWS-i klientidega, et aidata neil masinõpet laialdaselt kasutusele võtta. Töövälisel ajal meeldib talle lugeda ja pildistada.

Anjan Biswas on tehisintellektiteenuste lahenduste vanemarhitekt, kes keskendub tehisintellektile/ML-ile ja andmeanalüüsile. Anjan on osa ülemaailmsest AI-teenuste meeskonnast ja teeb koostööd klientidega, et aidata neil mõista ja arendada lahendusi tehisintellekti ja ML-ga seotud äriprobleemidele. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-i tehisintellekti teenustega algust teha ja laiendada.

Godwin Sahayaraj Vincent on AWS-i Enterprise Solutions Architect, kes on kirglik masinõppesse ja juhendab kliente oma AWS-i töökoormuse ja arhitektuuri kavandamisel, juurutamisel ja haldamisel. Vabal ajal meeldib talle sõpradega kriketit mängida ja kolme lapsega tennist mängida.

Ajatempel: Detsember 2, 2022Detsember 2, 2022

Veel alates AWS-i masinõpe

Amazon SageMaker Feature Store toetab nüüd kontoülest jagamist, avastamist ja juurdepääsu | Amazoni veebiteenused

Allikaklaster:

AWS-i masinõpe

Allikasõlm: 1947390

Ajatempel: Veebruar 13, 2024

AWS teostab suure keelemudeli (LLM) peenhäälestust, et klassifitseerida suure mängufirma jaoks mürgine kõne | Amazoni veebiteenused

AWS-i masinõpe

Allikasõlm: 1822975

Ajatempel: Aprill 7, 2023

Tutvustame üheastmelist klassifikatsiooni ja olemituvastust Amazon Comprehendiga intelligentseks dokumenditöötluseks

Taasavaldanud Platon

Ülevaade lahendusest

Kohandatud dokumentide klassifikatsioon

Treenige kohandatud dokumentide klassifitseerimise mudelit

Kohandatud olemi tuvastamine

Treenige kohandatud olemi tuvastamise mudelit

Järeldus

Autoritest

Veel alates AWS-i masinõpe

AWS-i kiirendite idufirmad kasutavad tehisintellekti ja ML-i missioonikriitiliste klientide väljakutsete lahendamiseks

Kasutage Amazon Rekognitioni kohandatud siltide abil põllumajanduse saagikuse mõõtmiseks arvutinägemust

Lihtne ja täpne prognoosimine AutoGluon-TimeSeriesiga

Looge Amazon SageMakeri abil e-posti rämpspostidetektor | Amazoni veebiteenused

Metaani emissioonipunktallikate tuvastamine ja kõrgsageduslik jälgimine Amazon SageMakeri georuumiliste võimaluste abil | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto