Älykäs asiakirjojen käsittely AWS AI -palveluilla: Osa 2

Julkaissut Platon

seuraajia: 0

Amazonin älykäs asiakirjankäsittely (IDP) auttaa sinua nopeuttamaan liiketoimintasi päätössyklejä ja alentamaan kustannuksia. Useilla toimialoilla asiakkaiden on käsiteltävä miljoonia asiakirjoja vuodessa liiketoimintansa aikana. Asiakkaille, jotka käsittelevät miljoonia asiakirjoja, tämä on kriittinen näkökohta loppukäyttäjäkokemuksen kannalta ja digitaalisen muutoksen tärkein prioriteetti. Erilaisten muotojen vuoksi useimmat yritykset käsittelevät manuaalisesti asiakirjoja, kuten W2-asiakirjoja, vaateita, henkilöllisyysasiakirjoja, laskuja ja laillisia sopimuksia, tai käyttävät vanhoja OCR-ratkaisuja (optinen merkintunnistus), jotka ovat aikaa vieviä, virhealttiita ja kalliita. IDP-putkilinja AWS AI -palveluineen antaa sinulle mahdollisuuden mennä tekstintunnistusta pidemmälle tarkemmalla ja monipuolisemmalla tiedon poiminnalla, käsitellä asiakirjoja nopeammin, säästää rahaa ja siirtää resursseja arvokkaampiin tehtäviin.

Tässä sarjassa annamme yleiskatsauksen IDP-putkistosta, mikä vähentää aikaa ja vaivaa, joka kuluu asiakirjan käsittelyyn ja tärkeiden tietojen saamiseen loppupään järjestelmiin. Seuraava kuva näyttää vaiheet, jotka ovat tyypillisesti osa IDP-työnkulkua.

Tässä kaksiosaisessa sarjassa keskustelemme siitä, kuinka voit automatisoida ja älykkäästi käsitellä asiakirjoja mittakaavassa AWS AI -palveluiden avulla. Sisään osa 1, keskustelimme IDP-työnkulun kolmesta ensimmäisestä vaiheesta. Tässä viestissä käsittelemme jäljellä olevia työnkulun vaiheita.

Ratkaisun yleiskatsaus

Seuraava viitearkkitehtuuri näyttää, kuinka voit käyttää AWS AI -palveluita, kuten Amazonin teksti ja Amazonin käsitys, yhdessä muiden AWS-palvelujen kanssa IDP-työnkulun toteuttamiseksi. Osassa 1 kuvasimme tiedonkeruun ja dokumenttien luokittelun vaiheita, joissa luokittelimme ja merkitsimme asiakirjoja, kuten tiliotteita, laskuja ja kuittitositteita. Keskustelimme myös poimintavaiheesta, jossa voit poimia asiakirjoistasi merkityksellisiä liiketoimintatietoja. Tässä viestissä laajennamme IDP-putkilinjaa tarkastelemalla Amazon Comprehendin oletus- ja mukautettuja entiteettejä purkuvaiheessa, suoritamme asiakirjojen rikastamista ja tarkastellaan myös lyhyesti Amazonin laajennettu AI (Amazon A2I) sisällyttää tarkastelu- ja validointivaiheeseen ihmisen arviointityövoiman.

Käytämme myös Amazon ymmärtää lääketieteen osana tätä ratkaisua, joka on palvelu, jolla poimitaan tietoa jäsentämättömästä lääketieteellisestä tekstistä tarkasti ja nopeasti ja tunnistetaan poimittujen terveystietojen väliset suhteet ja linkitetään lääketieteellisiin ontologioihin, kuten ICD-10-CM, RxNorm ja SNOMED CT.

Amazon A2I on koneoppimispalvelu (ML), jonka avulla on helppo rakentaa ihmisen tarkasteluun tarvittavia työnkulkuja. Amazon A2I tuo ihmisen arvioinnin kaikkien kehittäjien ulottuville ja poistaa ihmisten tarkastelujärjestelmien rakentamiseen tai suuren ihmismäärän arvioijien hallintaan liittyvän erottelemattoman raskasnostotyön riippumatta siitä, toimiiko se AWS:llä vai ei. Amazon A2I integroituu Amazonin teksti ja Amazonin käsitys antaa sinulle mahdollisuuden ottaa käyttöön ihmisen tarkastelun vaiheet IDP-työnkulussasi.

Edellytykset

Ennen kuin aloitat, katso osa 1 saadaksesi korkean tason yleiskatsauksen IDP:stä ja tietoja tiedonkeruu-, luokittelu- ja poimintavaiheista.

Uuttovaihe

Tämän sarjan osassa 1 keskustelimme siitä, kuinka voimme käyttää Amazon Textract -ominaisuuksia tarkan tiedon poimimiseen kaikentyyppisistä asiakirjoista. Tämän vaiheen pidentämiseksi käytämme Amazon Comprehendin esikoulutettuja kokonaisuuksia ja mukautettua Amazon Comprehend -kokonaisuuden tunnistusta dokumenttien poimimiseen. Mukautetun entiteettitunnistimen tarkoitus on tunnistaa tietyt entiteetit ja luoda mukautettuja metatietoja asiakirjoistamme CSV- tai ihmisen luettavassa muodossa yrityskäyttäjien myöhemmin analysoitavaksi.

Nimetty kokonaisuuden tunnistus

Nimettyjen entiteettien tunnistus (NER) on luonnollisen kielen käsittelyn (NLP) osatehtävä, jossa seulotaan tekstidataa substantiivilauseiden, joita kutsutaan nimettyjen entiteettien, paikallistamiseksi ja kukin luokitellaan tunnisteella, kuten brändi, päivämäärä, tapahtuma, sijainti, organisaatiot. , henkilö, määrä tai nimike. Esimerkiksi lausunnossa "tilasin äskettäin Amazon Primen" Amazon Prime on nimetty kokonaisuus, ja se voidaan luokitella tuotemerkiksi.

Amazon Comprehendin avulla voit havaita tällaiset mukautetut entiteetit asiakirjassasi. Jokaisella entiteetillä on myös luottamustason pisteet, jotka Amazon Comprehend palauttaa kullekin entiteettityypille. Seuraava kaavio havainnollistaa kokonaisuuden tunnistusprosessia.

Nimetyn kokonaisuuden tunnistus Amazon Comprehendillä

Saadaksesi entiteetit tekstiasiakirjasta kutsumme comprehend.detect_entities() menetelmä ja määritä kielikoodi ja teksti syöttöparametreiksi:

def get_entities(text):
    try:
        #detect entities
        entities = comprehend.detect_entities(LanguageCode="en", Text=text)  
        df = pd.DataFrame(entities["Entities"], columns = ['Text', 'Type'])
        display(HTML(df.to_html(index=False)))
    except Exception as e:
        print(e)

Me pyöritämme get_entities() menetelmä pankkitositteessa ja hanki kokonaisuusluettelo tuloksista.

Vastaus Get_entities -menetelmästä Comprehendistä.

Vaikka entiteetin purkaminen onnistui melko hyvin tunnistamaan oletusentiteettityypit kaikkeen pankkitositteeseen, haluamme, että tietyt entiteetit tunnistetaan käyttötapauksessamme. Tarkemmin sanottuna meidän on tunnistettava tiliotteesta asiakkaan säästö- ja sekkitilinumerot. Voimme poimia nämä keskeiset liiketoimintatermit Amazon Comprehend mukautetun entiteettitunnistuksen avulla.

Kouluta Amazon Comprehendin mukautetun kokonaisuuden tunnistusmalli

Jotta voimme havaita tietyt tahot, joista olemme kiinnostuneita asiakkaan tiliotteesta, koulutamme mukautetun entiteetin tunnistimen kahdella mukautetulla entiteetillä: SAVINGS_AC ja CHECKING_AC.

Sitten koulutamme mukautetun kokonaisuuden tunnistusmallin. Voimme valita toisen kahdesta tavasta toimittaa tietoja Amazon Comprehendille: huomautukset tai entiteettiluettelot.

Merkintämenetelmä voi usein johtaa tarkempiin tuloksiin kuvatiedostoille, PDF-tiedostoille tai Word-asiakirjoille, koska koulutat mallin lähettämällä tarkemman kontekstin huomautuksina asiakirjojen mukana. Annotointimenetelmä voi kuitenkin olla aikaa vievä ja työintensiivinen. Tämän blogikirjoituksen yksinkertaistamiseksi käytämme entiteettiluettelot-menetelmää, jota voit käyttää vain tekstidokumenteille. Tämä menetelmä antaa meille CSV-tiedoston, jonka pitäisi sisältää pelkkä teksti ja sitä vastaava entiteettityyppi, kuten edellisessä esimerkissä näkyy. Tämän tiedoston entiteetit vastaavat liiketoimintatarpeitamme (säästö- ja sekkitilinumerot).

Katso lisätietoja harjoitustietojen valmistelusta eri käyttötapauksiin käyttämällä huomautuksia tai entiteettiluetteloita Harjoitustietojen valmistelu.

Seuraavassa kuvakaappauksessa on esimerkki entiteettiluettelostamme.

Tilannekuva entiteettiluettelosta.

Luo Amazon Comprehend -muokattu reaaliaikainen NER-päätepiste

Seuraavaksi luomme mukautetun entiteetin tunnistimen reaaliaikaisen päätepisteen käyttämällä kouluttamaamme mallia. Käytämme Luo päätepiste API kautta comprehend.create_endpoint() menetelmä reaaliaikaisen päätepisteen luomiseen:

#create comprehend endpoint
model_arn = entity_recognizer_arn
ep_name = 'idp-er-endpoint'

try:
    endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ER_ENDPOINT_ARN=endpoint_response['EndpointArn']
    print(f'Endpoint created with ARN: {ER_ENDPOINT_ARN}')
    %store ER_ENDPOINT_ARN
except Exception as error:
    if error.response['Error']['Code'] == 'ResourceInUseException':
        print(f'An endpoint with the name "{ep_name}" already exists.')
        ER_ENDPOINT_ARN = f'arn:aws:comprehend:{region}:{account_id}:entity-recognizer-endpoint/{ep_name}'
        print(f'The classifier endpoint ARN is: "{ER_ENDPOINT_ARN}"')
        %store ER_ENDPOINT_ARN
    else:
        print(error)

Kun olemme kouluttaneet mukautetun entiteetin tunnistimen, käytämme mukautettua reaaliaikaista päätepistettä poimimaan rikastettuja tietoja dokumentista ja suorittamaan sitten asiakirjan muokkauksen Amazon Comprehendin tunnistamien mukautettujen entiteettien ja Amazon Textractin rajoitusruututietojen avulla.

Rikastusvaihe

Asiakirjan rikastusvaiheessa voimme tehdä asiakirjoja rikastuttamalla poistamalla henkilökohtaisia tunnistetietoja (PII), mukautettuja liiketoimintatermejä ja niin edelleen. Edellinen esimerkkiasiakirjamme (tiliote) sisältää asiakkaiden säästö- ja sekkitilinumerot, jotka haluamme muokata. Koska tunnemme jo nämä mukautetut entiteetit mukautetun Amazon Comprehend NER -mallimme avulla, voimme helposti käyttää Amazon Textract -geometriatietotyyppiä näiden henkilökohtaisten tunnistetietojen poistamiseen kaikkialla asiakirjassa. Seuraavassa arkkitehtuurissa poistamme keskeiset liiketoimintaehdot (säästö- ja sekkitilit) tilioteasiakirjasta.

Asiakirjan rikastusvaihe.

Kuten seuraavasta esimerkistä näet, sekki- ja säästötilinumerot ovat nyt piilossa tiliotteessa.

Muokattu tiliote näyte.

Perinteisillä OCR-ratkaisuilla on vaikeuksia poimia tietoja tarkasti useimmista jäsentelemättömistä ja puolirakenteisista asiakirjoista, koska näiden asiakirjojen useissa versioissa ja formaateissa on merkittäviä eroja. Tämän jälkeen saatat joutua toteuttamaan mukautetun esikäsittelylogiikan tai jopa purkaa tiedot manuaalisesti näistä asiakirjoista. Tässä tapauksessa IDP-putki tukee kahta ominaisuutta, joita voit käyttää: Amazon Comprehend mukautettuja NER- ja Amazon Textract -kyselyjä. Molemmat palvelut käyttävät NLP:tä saadakseen näkemyksiä asiakirjojen sisällöstä.

Purkaminen Amazon Textract -kyselyillä

Kun käsittelet asiakirjaa Amazon Textractilla, voit lisätä analyysiisi uuden kyselyominaisuuden määrittääksesi, mitä tietoja tarvitset. Tämä edellyttää NLP-kysymyksen, kuten "Mikä on asiakkaan sosiaaliturvatunnus?" Amazon Textractiin. Amazon Textract etsii asiakirjasta kyseisen kysymyksen tiedot ja palauttaa ne muusta asiakirjan tiedoista erillään olevassa vastausrakenteessa. Kyselyt voidaan käsitellä yksinään tai yhdessä minkä tahansa muun kanssa FeatureType, Kuten Tables or Forms.

Kyselyihin perustuva purku Amazon Textractin avulla.

Amazon Textract -kyselyillä voit poimia tietoja suurella tarkkuudella riippumatta siitä, miten tiedot on asetettu asiakirjarakenteeseen, kuten lomakkeisiin, taulukoihin ja valintaruutuihin, tai asiakirjan sisäkkäisiin osiin.

Kyselyominaisuuden esittelemiseksi poimimme arvokkaita tietoja, kuten potilaan etu- ja sukunimet, annostelun valmistajan ja niin edelleen asiakirjoista, kuten COVID-19-rokotuskortista.

Rokotuskortin näyte.

Käytämme textract.analyze_document() toiminto ja määritä FeatureType as QUERIES sekä lisätä kyselyt luonnollisen kielen kysymysten muodossa QueriesConfig.

Seuraavaa koodia on leikattu yksinkertaistamisen vuoksi. Katso koko koodi GitHubista näytekoodi varten analyze_document().

response = None
with open(image_filename, 'rb') as document:
    imageBytes = bytearray(document.read())

# Call Textract
response = textract.analyze_document(
    Document={'Bytes': imageBytes},
    FeatureTypes=["QUERIES"],
    QueriesConfig={
            "Queries": [{
                "Text": "What is the date for the 1st dose covid-19?",
                "Alias": "COVID_VACCINATION_FIRST_DOSE_DATE"
            },
# code trimmed down for simplification
#..
]
})

Kyselyominaisuuden osalta textract.analyze_document() toiminto tulostaa kaikki OCR-SANAT ja VIIVOT, geometriatiedot ja luottamuspisteet vastauksen JSON-tiedostoon. Voimme kuitenkin vain tulostaa pyytämämme tiedot.

Document on kääretoiminto, jota käytetään jäsentämään API:n JSON-vastausta. Se tarjoaa korkean tason abstraktion ja tekee API-tulosta iteroitavan ja helpon saada tietoa. Lisätietoja on osoitteessa Textract Response Parser ja Textractor GitHub-reposit. Kun olemme käsitelleet vastauksen, saamme seuraavat tiedot, kuten kuvakaappauksessa näkyy.

import trp.trp2 as t2
from tabulate import tabulate

d = t2.TDocumentSchema().load(response)
page = d.pages[0]

query_answers = d.get_query_answers(page=page)

print(tabulate(query_answers, tablefmt="github"))

Vastaus kyselyiden poiminnasta.

Tarkastus- ja validointivaihe

Tämä on IDP-putkistomme viimeinen vaihe. Tässä vaiheessa voimme käyttää liiketoimintasääntöjämme tarkistaaksemme asiakirjan täydellisyyden. Esimerkiksi vakuutuskorvausasiakirjasta korvaustunnus poimitaan tarkasti ja onnistuneesti. Voimme käyttää AWS-palvelimettomia teknologioita, kuten AWS Lambda näiden liiketoimintasääntöjen automatisoimiseksi edelleen. Lisäksi voimme käyttää henkilötyövoimaa asiakirjojen tarkistamiseen varmistaaksemme, että ennusteet ovat tarkkoja. Amazon A2I nopeuttaa ML-ennusteiden ihmisen tarkastamiseen tarvittavien työnkulkujen rakentamista.

Amazon A2I:n avulla voit sallia arvioijien puuttua asiaan, kun malli ei pysty tekemään korkean luotettavuuden ennustetta tai tarkastamaan ennusteitaan jatkuvasti. IDP-putkilinjan tavoitteena on vähentää ihmisen panosta, joka tarvitaan oikean tiedon saamiseksi päätöksentekojärjestelmiisi. IDP:n avulla voit vähentää dokumenttiprosesseissasi käytettävää ihmisen panosta sekä dokumenttien käsittelyn kokonaiskustannuksia.

Kun olet saanut kaikki tarkat tiedot asiakirjoista, voit lisätä yrityskohtaisia sääntöjä Lambda-toimintojen avulla ja lopuksi integroida ratkaisun loppupään tietokantoihin tai sovelluksiin.

Ihmisten tarkistus- ja varmistusvaihe.

Saat lisätietoja Amazon A2I -työnkulun luomisesta seuraamalla osoitteen ohjeita Valmistautuminen moduuliin 4 vaihe lopussa 03-idp-document-enrichment.ipynb meidän GitHub repo.

Puhdistaa

Jotta AWS-tilillesi ei aiheudu tulevia kuluja, poista resurssit, jotka olemme käyttäneet arkiston asennuksessa siirtymällä kohtaan Puhdistusosio meidän repossa.

Yhteenveto

Tässä kaksiosaisessa postauksessa näimme kuinka rakentaa päästä päähän IDP-putki ilman tai vähän ML-kokemusta. Keskustelimme putkilinjan eri vaiheista ja käytännön ratkaisusta AWS AI -palveluiden, kuten Amazon Textract, Amazon Comprehend, Amazon Comprehend Medical ja Amazon A2I, kanssa alakohtaisten käyttötapausten suunnitteluun ja rakentamiseen. Vuonna ensimmäinen viesti osoitimme, kuinka Amazon Textract ja Amazon Comprehend poimii tietoa eri asiakirjoista. Tässä viestissä pohdimme syvällisesti, kuinka Amazon Comprehend mukautetun entiteetin tunnistus voidaan opettaa poimimaan mukautettuja kokonaisuuksia asiakirjoistamme. Suoritimme myös asiakirjojen rikastustekniikoita, kuten editoinnin Amazon Textractin avulla sekä Amazon Comprehendin entiteettiluettelon. Lopuksi näimme, kuinka voit käyttää Amazon A2I -työnkulkua Amazon Textractille ottamalla mukaan yksityisen työryhmän.

Lisätietoja tämän viestin täydellisistä koodinäytteistä on kohdassa GitHub repo.

Suosittelemme, että tutustut tietoturvaosioihin Amazonin teksti, Amazonin käsitysja Amazon A2I dokumentaatiota ja noudata annettuja ohjeita. Käy myös hetki tarkistaaksesi ja ymmärtääksesi tuotteen hinnoittelu Amazonin teksti, Amazonin käsitysja Amazon A2I.

Tietoja kirjoittajista

Chin Rane on AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesissä. Hän on intohimoinen soveltavaan matematiikkaan ja koneoppimiseen. Hän keskittyy älykkäiden asiakirjojen käsittelyratkaisujen suunnitteluun AWS-asiakkaille. Työn ulkopuolella hän harrastaa salsaa ja bachata-tanssia.

Sonali Sahu on johtava älykkään asiakirjankäsittelyn AI/ML Solutions Architect -tiimi Amazon Web Services -palvelussa. Hän on intohimoinen teknofiili ja nauttii työskentelystä asiakkaiden kanssa monimutkaisten ongelmien ratkaisemiseksi innovaatioiden avulla. Hänen painopistealueensa ovat tekoäly ja koneoppiminen älykkään asiakirjojen käsittelyyn.

Anjan Biswas on AI/ML-asiantuntija Senior Solutions Architect. Anjan työskentelee yritysasiakkaiden kanssa ja on intohimoinen tekoälyn/ML:n, data-analytiikan ja big data -ratkaisujen kehittämiseen, käyttöönottoon ja selittämiseen. Anjanilla on yli 14 vuoden kokemus työskentelystä maailmanlaajuisten toimitusketjujen, valmistus- ja vähittäismyyntiorganisaatioiden kanssa, ja hän auttaa aktiivisesti asiakkaita pääsemään alkuun ja skaalautumaan AWS:ssä.

Suprakash Dutta on ratkaisuarkkitehti Amazon Web Servicesissä. Hän keskittyy digitaalisen transformaation strategiaan, sovellusten modernisointiin ja migraatioon, data-analytiikkaan ja koneoppimiseen. Hän on osa AWS:n AI/ML-yhteisöä ja suunnittelee älykkäitä asiakirjankäsittelyratkaisuja.