Arukas dokumenditöötlus AWS AI teenustega: 2. osa

Taasavaldanud Platon

järgijaid: 0

Amazoni intelligentne dokumenditöötlus (IDP) aitab teil kiirendada äriotsuste tsükleid ja vähendada kulusid. Mitmes tööstusharus peavad kliendid oma äritegevuse käigus töötlema miljoneid dokumente aastas. Klientide jaoks, kes töötlevad miljoneid dokumente, on see lõppkasutaja kogemuse jaoks ülioluline aspekt ja digitaalse teisendamise prioriteet. Erinevate vormingute tõttu töötlevad enamik ettevõtteid käsitsi dokumente, nagu W2-d, nõuded, isikut tõendavad dokumendid, arved ja juriidilised lepingud, või kasutavad OCR-i (optilise märgituvastuse) pärandlahendusi, mis on aeganõudvad, veaohtlikud ja kulukad. IDP-konveier koos AWS-i AI-teenustega annab teile võimaluse minna OCR-ist kaugemale, kasutades täpsemat ja mitmekülgsemat teabevõttu, töödelda dokumente kiiremini, säästa raha ja suunata ressursse suurema väärtusega ülesannetele.

Selles seerias anname ülevaate IDP torustikust, et vähendada aega ja vaeva, mis kulub dokumendi sissevõtmiseks ja põhiteabe hankimiseks allavoolusüsteemidesse. Järgmisel joonisel on näidatud etapid, mis on tavaliselt osa IDP töövoost.

Selles kaheosalises seerias arutame, kuidas saate AWS AI teenuste abil dokumente mastaapselt automatiseerida ja arukalt töödelda. sisse osa 1, arutasime IDP töövoo kolme esimest etappi. Selles postituses käsitleme ülejäänud töövoo etappe.

Lahenduse ülevaade

Järgmine viitearhitektuur näitab, kuidas saate kasutada näiteks AWS AI teenuseid Amazoni tekst ja Amazoni mõistmineIDP töövoo rakendamiseks koos teiste AWS-teenustega. 1. osas kirjeldasime andmete kogumise ja dokumentide klassifitseerimise etappe, kus kategoriseerisime ja märgistasime dokumendid, nagu pangaväljavõtted, arved ja kviitungidokumendid. Arutasime ka väljavõtetetappi, kus saate oma dokumentidest sisukat äriteavet välja võtta. Selles postituses laiendame IDP-konveieri, vaadates väljavõttefaasis Amazon Comprehendi vaike- ja kohandatud üksusi, teostame dokumentide rikastamist ja põgusalt ka Amazoni laiendatud AI (Amazon A2I), et kaasata ülevaatuse ja valideerimisetappi ka ülevaatustööjõud.

Kasutame ka Amazon Comprehend Medical osana sellest lahendusest, mis on teenus struktureerimata meditsiinitekstist teabe täpseks ja kiireks eraldamiseks ning ekstraheeritud terviseteabe vaheliste seoste tuvastamiseks ning lingiteks meditsiiniliste ontoloogiatega, nagu ICD-10-CM, RxNorm ja SNOMED CT.

Amazon A2I on masinõppe (ML) teenus, mis muudab inimese ülevaatamiseks vajalike töövoogude loomise lihtsaks. Amazon A2I toob kõigi arendajate käsutusse inimülevaate, eemaldades eristamata rasked raskused, mis on seotud inimeste arvustussüsteemide ehitamisega või suure hulga inimeste arvustajate haldamisega, olenemata sellest, kas see töötab AWS-is või mitte. Amazon A2I integreerub Amazoni tekst ja Amazoni mõistmine et saaksite oma IDP töövoo raames sisse viia inimeste ülevaatuse samme.

Eeldused

Enne alustamist vaadake osa 1 kõrgetasemelise ülevaate saamiseks IDP-st ja andmete kogumise, klassifitseerimise ja ekstraheerimise etappide üksikasjadest.

Ekstraheerimise faas

Selle seeria 1. osas arutasime, kuidas saame kasutada Amazon Textracti funktsioone mis tahes tüüpi dokumentide täpseks andmete ekstraheerimiseks. Selle etapi pikendamiseks kasutame Amazon Comprehendi eelkoolitatud üksusi ja Amazon Comprehendi kohandatud olemituvastajat dokumentide edasiseks väljavõtmiseks. Kohandatud olemituvastaja eesmärk on tuvastada konkreetsed olemid ja luua meie dokumentide kohta kohandatud metaandmeid CSV-vormingus või inimloetavas vormingus, mida ärikasutajad hiljem analüüsivad.

Nimega olemi tuvastamine

Nimega olemi tuvastamine (NER) on loomuliku keele töötlemise (NLP) alamülesanne, mis hõlmab tekstiandmete sõelumist nimisõnafraaside leidmiseks, mida nimetatakse nimega üksusteks, ja igaühe kategoriseerimist sildi abil, nagu bränd, kuupäev, sündmus, asukoht, organisatsioonid. , isik, kogus või tiitel. Näiteks avalduses "Ma tellisin hiljuti Amazon Prime'i" on Amazon Prime nimetatud üksus ja selle võib liigitada kaubamärgiks.

Amazon Comprehend võimaldab teil selliseid kohandatud üksusi teie dokumendis tuvastada. Igal olemil on ka usaldustaseme skoor, mille Amazon Comprehend iga olemitüübi kohta tagastab. Järgmine diagramm illustreerib olemi tuvastamise protsessi.

Nimetatud olemi tuvastamine Amazon Comprehendiga

Tekstidokumendist olemite hankimiseks kutsume comprehend.detect_entities() meetod ja konfigureerige keelekood ja tekst sisendparameetritena:

def get_entities(text):
    try:
        #detect entities
        entities = comprehend.detect_entities(LanguageCode="en", Text=text)  
        df = pd.DataFrame(entities["Entities"], columns = ['Text', 'Type'])
        display(HTML(df.to_html(index=False)))
    except Exception as e:
        print(e)

Me juhime get_entities() meetod pangadokumendil ja hankige tulemustes olemiloend.

Vastus meetodi get_entities poolt Comprehendist.

Kuigi olemi eraldamine toimis pangadokumendis kõige jaoks vaikeolemitüüpide tuvastamisel üsna hästi, soovime, et meie kasutusjuhtumi puhul tuvastataks konkreetsed olemid. Täpsemalt peame pangaväljavõttel tuvastama kliendi säästu- ja arvelduskonto numbrid. Saame need peamised äritingimused välja võtta, kasutades Amazon Comprehendi kohandatud olemituvastust.

Treenige Amazon Comprehendi kohandatud olemi tuvastamise mudelit

Meid huvitavate konkreetsete üksuste tuvastamiseks kliendi pangaväljavõttest koolitame kahe kohandatud olemi abil kohandatud olemi tuvastaja: SAVINGS_AC ja CHECKING_AC.

Seejärel õpetame välja kohandatud olemi tuvastamise mudeli. Saame Amazon Comprehendile andmete edastamiseks valida ühe kahest viisist: märkused või olemiloendid.

Märkuste meetod võib sageli viia pildifailide, PDF-ide või Wordi dokumentide jaoks täpsemate tulemusteni, kuna koolitate mudelit, esitades koos dokumentidega annotatsioonidena täpsema konteksti. Annotatsioonimeetod võib aga olla aega- ja töömahukas. Selle ajaveebipostituse lihtsuse huvides kasutame olemiloendite meetodit, mida saate kasutada ainult lihtteksti dokumentide jaoks. See meetod annab meile CSV-faili, mis peaks sisaldama lihtteksti ja sellele vastavat olemitüüpi, nagu on näidatud eelmises näites. Selles failis olevad üksused vastavad meie ärivajadustele (säästu- ja arvelduskontode numbrid).

Lisateavet selle kohta, kuidas treeningandmeid erinevateks kasutusjuhtudeks annotatsioonide või olemiloendite meetodite abil ette valmistada, leiate aadressilt Treeningandmete ettevalmistamine.

Järgmisel ekraanipildil on näide meie olemite loendist.

Olemite loendi hetktõmmis.

Looge Amazon Comprehendi kohandatud NER-i reaalajas lõpp-punkt

Järgmisena loome kohandatud olemituvastaja reaalajas lõpp-punkti, kasutades meie koolitatud mudelit. Me kasutame Loo lõpp-punkt API kaudu comprehend.create_endpoint() meetod reaalajas lõpp-punkti loomiseks:

#create comprehend endpoint
model_arn = entity_recognizer_arn
ep_name = 'idp-er-endpoint'

try:
    endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ER_ENDPOINT_ARN=endpoint_response['EndpointArn']
    print(f'Endpoint created with ARN: {ER_ENDPOINT_ARN}')
    %store ER_ENDPOINT_ARN
except Exception as error:
    if error.response['Error']['Code'] == 'ResourceInUseException':
        print(f'An endpoint with the name "{ep_name}" already exists.')
        ER_ENDPOINT_ARN = f'arn:aws:comprehend:{region}:{account_id}:entity-recognizer-endpoint/{ep_name}'
        print(f'The classifier endpoint ARN is: "{ER_ENDPOINT_ARN}"')
        %store ER_ENDPOINT_ARN
    else:
        print(error)

Pärast kohandatud olemituvastaja koolitamist kasutame kohandatud reaalajas lõpp-punkti, et eraldada dokumendist rikastatud teave ja seejärel teostada dokumendi redigeerimine Amazon Comprehendi tuvastatud kohandatud olemite ja Amazon Textracti piirdekasti teabe abil.

Rikastamise faas

Dokumendi rikastamise etapis saame teostada dokumentide rikastamist, redigeerides isikut tuvastava teabe (PII) andmeid, kohandades äritermini väljavõtet ja nii edasi. Meie eelmine näidisdokument (pangaväljavõte) sisaldab klientide säästu- ja arvelduskontode numbreid, mida soovime redigeerida. Kuna me juba teame neid kohandatud üksusi oma Amazon Comprehendi kohandatud NER-mudeli abil, saame hõlpsasti kasutada Amazon Textracti geomeetria andmetüüpi, et redigeerida neid isikut tuvastavaid üksusi kõikjal, kus need dokumendis kuvatakse. Järgmises arhitektuuris eemaldame pangaväljavõtte dokumendist peamised äritingimused (hoiu- ja arvelduskontod).

Dokumendi rikastamise etapp.

Nagu järgmisest näitest näha, on pangakonto väljavõttel praegu arveldus- ja kogumiskonto numbrid peidetud.

Redigeeritud pangaväljavõtte näidis.

Traditsioonilistel OCR-lahendustel on raske enamikust struktureerimata ja poolstruktureeritud dokumentidest andmeid täpselt eraldada, kuna nende dokumentide mitmes versioonis ja vormingus on andmete paigutus oluliselt erinev. Seejärel peate võib-olla rakendama kohandatud eeltöötlusloogikat või isegi nendest dokumentidest teabe käsitsi eraldama. Sel juhul toetab IDP torujuhe kahte funktsiooni, mida saate kasutada: Amazon Comprehend kohandatud NER ja Amazon Textract päringud. Mõlemad teenused kasutavad dokumentide sisu kohta ülevaate saamiseks NLP-d.

Väljavõte Amazon Textracti päringutega

Dokumendi töötlemisel Amazon Textractiga saate oma analüüsi lisada uue päringufunktsiooni, et täpsustada, millist teavet vajate. See hõlmab NLP-küsimuse edastamist, näiteks "Mis on kliendi sotsiaalkindlustuse number?" Amazon Textracti. Amazon Textract leiab selle küsimuse jaoks dokumendist teabe ja tagastab selle vastusestruktuuris, mis on muust dokumendi teabest eraldiseisev. Päringuid saab töödelda üksi või koos mõne muuga FeatureTypeNagu Tables or Forms.

Päringupõhine ekstraheerimine Amazon Textracti abil.

Amazon Textracti päringutega saate teavet suure täpsusega ekstraktida, olenemata sellest, kuidas andmed on dokumendistruktuuris, nagu vormid, tabelid ja märkeruudud, paigutatud või paigutatud dokumendi pesastatud jaotistesse.

Päringufunktsiooni demonstreerimiseks eraldame sellistest dokumentidest nagu COVID-19 vaktsineerimiskaart väärtuslikku teavet, nagu patsiendi ees- ja perekonnanimed, annuse tootja ja nii edasi.

Vaktsineerimiskaardi näidis.

Me kasutame textract.analyze_document() funktsioon ja määrake FeatureType as QUERIES samuti lisada päringuid loomuliku keele küsimuste kujul QueriesConfig.

Järgmine kood on lihtsustamise eesmärgil kärbitud. Täieliku koodi leiate GitHubist näidiskood eest analyze_document().

response = None
with open(image_filename, 'rb') as document:
    imageBytes = bytearray(document.read())

# Call Textract
response = textract.analyze_document(
    Document={'Bytes': imageBytes},
    FeatureTypes=["QUERIES"],
    QueriesConfig={
            "Queries": [{
                "Text": "What is the date for the 1st dose covid-19?",
                "Alias": "COVID_VACCINATION_FIRST_DOSE_DATE"
            },
# code trimmed down for simplification
#..
]
})

Päringute funktsiooni jaoks textract.analyze_document() funktsioon väljastab vastuse JSON-is kõik OCR-SÕNAD ja JOONED, geomeetriateabe ja usaldusskoorid. Siiski saame küsitud teabe lihtsalt välja printida.

Document on ümbrisfunktsioon, mida kasutatakse API JSON-vastuse sõelumiseks. See pakub kõrgetasemelist abstraktsiooni ja muudab API väljundi itereeritavaks ja teabe hõlpsaks hankimiseks. Lisateabe saamiseks vaadake Textract Response Parser ja Tekstraator GitHubi repod. Pärast vastuse töötlemist saame järgmise teabe, nagu on näidatud ekraanipildil.

import trp.trp2 as t2
from tabulate import tabulate

d = t2.TDocumentSchema().load(response)
page = d.pages[0]

query_answers = d.get_query_answers(page=page)

print(tabulate(query_answers, tablefmt="github"))

Vastus päringute ekstraktimisest.

Ülevaatamise ja kinnitamise etapp

See on meie IDP torujuhtme viimane etapp. Selles etapis saame kasutada oma ärireegleid, et kontrollida dokumendi täielikkust. Näiteks kindlustusnõuete dokumendist võetakse kahju ID täpselt ja edukalt välja. Saame kasutada AWS-i serverita tehnoloogiaid nagu AWS Lambda nende ärireeglite edasiseks automatiseerimiseks. Lisaks saame prognooside täpsuse tagamiseks kaasata dokumentide läbivaatamiseks inimtööjõudu. Amazon A2I kiirendab töövoogude loomist, mis on vajalikud ML-i prognooside inimeste ülevaatamiseks.

Amazon A2I abil saate lubada inimestest ülevaatajatel sekkuda, kui mudel ei suuda teha suure usaldusväärsusega ennustust või oma ennustusi pidevalt auditeerida. IDP torujuhtme eesmärk on vähendada inimsisendi hulka, mis on vajalik täpse teabe saamiseks teie otsustussüsteemidesse. IDP abil saate oma dokumendiprotsessides vähendada inimsisendi hulka ja dokumentide töötlemise kogukulusid.

Kui olete dokumentidest kogu täpse teabe välja võtnud, saate Lambda funktsioonide abil täiendavalt lisada ettevõttepõhiseid reegleid ja lõpuks integreerida lahenduse allavoolu andmebaaside või rakendustega.

Inimese läbivaatamise ja kontrollimise etapp.

Amazon A2I töövoo loomise kohta lisateabe saamiseks järgige jaotises olevaid juhiseid Ettevalmistus 4. mooduliks samm lõpus 03-idp-document-enrichment.ipynb meie GitHub repo.

Koristage

AWS-i kontolt tulevaste tasude vältimiseks kustutage hoidla seadistamisel eraldatud ressursid, navigeerides Puhastusosa meie repos.

Järeldus

Selles kaheosalises postituses nägime, kuidas luua täielik IDP torujuhe vähese või üldse mitte ML kogemusega. Arutasime torujuhtme erinevaid etappe ja praktilist lahendust AWS AI teenustega, nagu Amazon Textract, Amazon Comprehend, Amazon Comprehend Medical ja Amazon A2I, et kujundada ja ehitada tööstusharuspetsiifilisi kasutusjuhtumeid. Aastal esimene postitus seeriast näitasime, kuidas kasutada Amazon Textracti ja Amazon Comprehendit teabe hankimiseks erinevatest dokumentidest. Selles postituses uurisime põhjalikult, kuidas koolitada Amazon Comprehend kohandatud olemi tuvastajat, et eraldada meie dokumentidest kohandatud olemid. Teostasime ka dokumentide rikastamise tehnikaid, nagu redigeerimine Amazon Textracti ja Amazon Comprehendi olemiloendi abil. Lõpuks nägime, kuidas saate kasutada Amazon Textracti jaoks Amazon A2I inimülevaate töövoogu, kaasates privaatse töörühma.

Selle postituse täielike koodinäidiste kohta lisateabe saamiseks vaadake GitHub repo.

Soovitame teil tutvuda turvalisuse jaotistega Amazoni tekst, Amazoni mõistmineja Amazon A2I dokumentatsiooni ja järgige antud juhiseid. Samuti leidke hetk, et vaadata üle ja mõista hinnakujundust Amazoni tekst, Amazoni mõistmineja Amazon A2I.

Autoritest

Lõug Rane on AI/ML spetsialistilahenduste arhitekt ettevõttes Amazon Web Services. Ta on kirglik rakendusmatemaatika ja masinõppe vastu. Ta keskendub intelligentsete dokumenditöötluslahenduste kavandamisele AWS-i klientidele. Väljaspool tööd naudib ta salsat ja bachata tantsu.

Sonali Sahu on Amazon Web Servicesi intelligentse dokumenditöötluse AI/ML-lahenduste arhitektide meeskond. Ta on kirglik tehnofiil ja naudib koostööd klientidega, et lahendada keerulisi probleeme uuenduste abil. Tema põhivaldkonnad on tehisintellekt ja masinõpe intelligentseks dokumenditöötluseks.

Anjan Biswas on AI/ML-spetsialist vanemlahenduste arhitekt. Anjan töötab äriklientidega ning on kirglik AI/ML-i, andmeanalüütika ja suurandmete lahenduste arendamise, juurutamise ja selgitamise vastu. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-iga alustada ja laiendada.

Suprakash Dutta on Amazon Web Servicesi lahenduste arhitekt. Ta keskendub digitaalse ümberkujundamise strateegiale, rakenduste moderniseerimisele ja migratsioonile, andmeanalüütikale ja masinõppele. Ta on osa AWS-i AI/ML kogukonnast ja kavandab intelligentseid dokumenditöötluslahendusi.