Älykäs asiakirjojen käsittely AWS AI -palveluilla: Osa 1

Julkaissut Platon

seuraajia: 0

Organisaatiot eri aloilla, kuten terveydenhuolto, rahoitus ja luotonanto, lakiasiat, vähittäiskauppa ja valmistus, joutuvat usein käsittelemään monia asiakirjoja päivittäisissä liiketoimintaprosesseissaan. Nämä asiakirjat sisältävät tärkeitä tietoja, jotka ovat avainasemassa oikea-aikaisten päätösten tekemisessä, jotta asiakastyytyväisyys pysyisi korkeimmalla tasolla, asiakkaiden omaksuminen olisi nopeampaa ja asiakkaiden vaihtuvuus vähenee. Useimmissa tapauksissa asiakirjat käsitellään manuaalisesti tiedon ja oivallusten poimimiseksi, mikä on aikaa vievää, virhealtista, kallista ja vaikeasti skaalautuvaa. Nykyään on saatavilla rajoitetusti automaatiota näiden asiakirjojen tietojen käsittelyyn ja poimimiseen. Älykäs dokumenttien käsittely (IDP) AWS-keinoälypalveluilla auttaa automatisoimaan tiedon poimimista erityyppisistä ja -muotoisista asiakirjoista nopeasti ja suurella tarkkuudella ilman koneoppimistaitoja (ML). Nopeampi ja erittäin tarkka tiedonkeruu auttaa tekemään laadukkaita liiketoimintapäätöksiä ajoissa ja vähentämään samalla kokonaiskustannuksia.

Vaikka IDP-työnkulun vaiheet voivat vaihdella ja käyttötapaukset ja liiketoiminnan vaatimukset voivat vaikuttaa niihin, seuraava kuva näyttää vaiheet, jotka ovat tyypillisesti osa IDP-työnkulkua. Asiakirjojen, kuten verolomakkeiden, vaateiden, lääketieteellisten huomautusten, uusien asiakaslomakkeiden, laskujen, laillisten sopimusten ja muiden käsittely, ovat vain muutamia IDP:n käyttötapauksia.

Tässä kaksiosaisessa sarjassa keskustelemme siitä, kuinka voit automatisoida ja älykkäästi käsitellä asiakirjoja mittakaavassa AWS AI -palveluiden avulla. Tässä viestissä keskustelemme IDP-työnkulun kolmesta ensimmäisestä vaiheesta. Sisään osa 2, keskustelemme jäljellä olevista työnkulun vaiheista.

Ratkaisun yleiskatsaus

Seuraava arkkitehtuurikaavio näyttää IDP-työnkulun vaiheet. Se alkaa tiedonkeruuvaiheesta eri tiedostomuotojen (PDF, JPEG, PNG, TIFF) ja asiakirjojen asettelujen turvalliseen tallentamiseen ja yhdistämiseen. Seuraava vaihe on luokittelu, jossa asiakirjat luokitellaan (kuten sopimukset, reklamaatiolomakkeet, laskut tai kuitit), minkä jälkeen suoritetaan asiakirjojen poimiminen. Poimintavaiheessa voit poimia asiakirjoistasi merkityksellisiä yritystietoja. Näitä poimittuja tietoja käytetään usein oivallusten keräämiseen data-analyysin avulla tai ne lähetetään loppupään järjestelmiin, kuten tietokantoihin tai tapahtumajärjestelmiin. Seuraava vaihe on rikastus, jossa asiakirjoja voidaan rikastaa poistamalla suojattuja terveystietoja (PHI) tai henkilökohtaisia tunnistetietoja (PII), mukautettuja liiketoimintatermejä poimimalla ja niin edelleen. Lopuksi, tarkistus- ja validointivaiheessa voit sisällyttää henkilötyövoimaa asiakirjojen tarkistamiseen varmistaaksesi, että tulos on oikea.

Tätä viestiä varten otamme huomioon joukon esimerkkiasiakirjoja, kuten tiliotteita, laskuja ja varastokuitit. Asiakirjanäytteet ja esimerkkikoodi löytyvät sivuiltamme GitHub-arkisto. Seuraavissa osioissa käymme läpi nämä koodiesimerkit sekä todellisen käytännön sovelluksen. Näytämme kuinka voit hyödyntää ML-ominaisuuksia Amazonin teksti, Amazonin käsitysja Amazonin laajennettu AI (Amazon A2I) käsittelemään asiakirjoja ja validoimaan niistä poimitut tiedot.

Amazon Textract on ML-palvelu, joka poimii automaattisesti tekstin, käsinkirjoituksen ja tiedot skannatuista asiakirjoista. Se ylittää yksinkertaisen optisen merkintunnistuksen (OCR) tietojen tunnistamiseksi, ymmärtämiseksi ja poimimiseksi lomakkeista ja taulukoista. Amazon Textract käyttää ML:ää kaikentyyppisten asiakirjojen lukemiseen ja käsittelemiseen ja poimii tekstin, käsinkirjoituksen, taulukot ja muut tiedot tarkasti ilman manuaalista vaivaa.

Amazon Comprehend on luonnollisen kielen käsittelypalvelu (NLP), joka käyttää ML:ää saadakseen näkemyksiä asiakirjojen sisällöstä. Amazon Comprehend voi tunnistaa asiakirjoista tärkeitä elementtejä, mukaan lukien viittaukset kieleen, ihmisiin ja paikkoihin, ja luokitella ne olennaisiin aiheisiin tai ryhmiin. Se voi suorittaa tunneanalyysin määrittääkseen asiakirjan tunteen reaaliajassa käyttämällä yksittäisen asiakirjan tai erän havaitsemista. Se voi esimerkiksi analysoida blogitekstin kommentteja selvittääkseen, pitävätkö lukijasi viestistä vai eivät. Amazon Comprehend havaitsee myös henkilökohtaisia tunnistetietoja, kuten osoitteet, pankkitilinumerot ja puhelinnumerot tekstiasiakirjoissa reaaliajassa ja asynkronisissa erätöissä. Se voi myös poistaa henkilökohtaisia tunnistetietoja asynkronisissa erätöissä.

Amazon A2I on ML-palvelu, jonka avulla on helppo rakentaa ihmisen tarkasteluun tarvittavia työnkulkuja. Amazon A2I tuo ihmisten tarkastelun kaikille kehittäjille ja poistaa yksilöimättömän raskasnostotyön, joka liittyy ihmisten arviointijärjestelmien rakentamiseen tai suurten arvioijien hallintaan riippumatta siitä, toimiiko se AWS:llä vai ei. Amazon A2I integroi molemmat Amazonin teksti ja Amazonin käsitys antaa sinulle mahdollisuuden ottaa käyttöön ihmisen tarkastelun vaiheet älykkään asiakirjojen käsittelyn työnkulkuun.

Tiedonkeruuvaihe

Voit tallentaa asiakirjoja erittäin skaalautuvaan ja kestävään säilytystilaan, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Amazon S3 on objektien tallennuspalvelu, joka tarjoaa alan johtavan skaalautuvuuden, tiedon saatavuuden, turvallisuuden ja suorituskyvyn. Amazon S3 on suunniteltu kestämään 11 9 vuotta, ja se tallentaa tietoja miljoonille asiakkaille ympäri maailmaa. Asiakirjat voivat olla eri muodoissa ja asetteluissa, ja ne voivat tulla eri kanavista, kuten verkkoportaaleista tai sähköpostin liitteistä.

Luokitteluvaihe

Edellisessä vaiheessa keräsimme erityyppisiä ja -muotoisia asiakirjoja. Tässä vaiheessa meidän on luokiteltava asiakirjat, ennen kuin voimme tehdä lisäpoiminnan. Tätä varten käytämme Amazon Comprehendia mukautettu luokitus. Asiakirjojen luokittelu on kaksivaiheinen prosessi. Ensin koulutat mukautetun Amazon Comprehend -luokituksen tunnistamaan sinua kiinnostavat luokat. Seuraavaksi otat mallin käyttöön a mukautettu luokitin reaaliaikainen päätepiste ja lähetä merkitsemättömät asiakirjat reaaliaikaiseen päätepisteeseen luokiteltavaksi.

Seuraava kuva esittää tyypillistä dokumenttien luokittelun työnkulkua.

Luokitteluvaihe

Voit kouluttaa luokittelijan tunnistamalla sinua kiinnostavat luokat ja toimittamalla kunkin luokan asiakirjoja koulutusmateriaalina. Antamiesi vaihtoehtojen perusteella Amazon Comprehend luo mukautetun ML-mallin, jota se kouluttaa antamiesi asiakirjojen perusteella. Tämä mukautettu malli (luokitin) tutkii jokaisen lähettämäsi asiakirjan. Se palauttaa joko sisällön parhaiten edustavan tietyn luokan (jos käytät moniluokkatilaa) tai siihen sovellettavien luokkien joukon (jos käytät usean tunnisteen tilaa).

Valmistele harjoitustiedot

Ensimmäinen askel on poimia tekstiä asiakirjoista, joita Amazon Comprehend mukautettua luokittelijaa varten tarvitaan. Käytämme Amazon Textractia kaikkien Amazon S3:n asiakirjojen raakatekstitietojen poimimiseen detect_document_text() API. Merkitsemme tiedot myös asiakirjatyypin mukaan, jota käytetään mukautetun Amazon Comprehend -luokittajan kouluttamiseen.

Seuraavaa koodia on leikattu yksinkertaistamisen vuoksi. Katso täydellinen koodi GitHubista näytekoodi varten textract_extract_text(). Toiminto call_textract() on wr4apper-funktio, joka kutsuu Analysoi asiakirja API sisäisesti, ja menetelmälle välitetyt parametrit tiivistävät joitakin määrityksiä, joita API tarvitsee poimintatehtävän suorittamiseen.

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)

Kouluta mukautettu luokitin

Tässä vaiheessa käytämme Amazon Comprehend mukautettua luokittelua kouluttaaksemme malliamme asiakirjojen luokitteluun. Käytämme CreateDocumentClassifier API luokittelijan luomiseen, joka kouluttaa mukautetun mallin käyttämällä merkittyjä tietojamme. Katso seuraava koodi:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

Ota käyttöön reaaliaikainen päätepiste

Jotta voit käyttää mukautettua Amazon Comprehend -luokitusta, luomme reaaliaikaisen päätepisteen käyttämällä CreateEndpoint API:t:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')

Luokittele asiakirjat reaaliaikaisen päätepisteen avulla

Kun Amazon Comprehend -päätepiste on luotu, voimme käyttää reaaliaikaista päätepistettä asiakirjojen luokittelemiseen. Käytämme comprehend.classify_document() toiminto, jossa poimittu asiakirjateksti ja päätepiste on syöttöparametreina:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

Amazon Comprehend palauttaa kaikki asiakirjaluokat luotettavuuspisteillä, jotka on linkitetty kuhunkin luokkaan avainarvoparien joukossa (nimi-pisteet). Valitsemme asiakirjaluokan, jolla on korkein luottamuspiste. Seuraava kuvakaappaus on esimerkkivastauksesta.

Luokittele asiakirjat reaaliaikaisen päätepisteen avulla

Suosittelemme käymään läpi yksityiskohtaisen asiakirjaluokituksen mallikoodin GitHub.

Uuttovaihe

Amazon Textractin avulla voit poimia tekstiä ja strukturoituja tietoja Amazon Textractin avulla DetectDocumentText ja Analysoi asiakirja API:t. Nämä sovellusliittymät vastaavat JSON-tiedoilla, jotka sisältävät SANOJA, RIVIÄ, LOMAKEJA, TAULUKKOJA, geometria- tai rajoitusruututietoja, suhteita ja niin edelleen. Molemmat DetectDocumentText ja AnalyzeDocument ovat synkronisia operaatioita. Jos haluat analysoida asiakirjoja asynkronisesti, käytä AloitaDocumentTextDetection.

Strukturoitu tiedon poiminta

Voit poimia asiakirjoista jäsenneltyä tietoa, kuten taulukoita, säilyttäen samalla tietorakenteen ja havaittujen kohteiden väliset suhteet. Voit käyttää Analysoi asiakirja API kanssa FeatureType as TABLE tunnistaa kaikki asiakirjan taulukot. Seuraava kuva havainnollistaa tätä prosessia.

Strukturoitu tiedon poiminta

Katso seuraava koodi:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

Me pyöritämme analyze_document() menetelmän kanssa FeatureType as TABLES työntekijähistoria-asiakirjassa ja hanki taulukon poiminta seuraavissa tuloksissa.

Analysoi asiakirjan API-vastaus taulukoiden poimimista varten

Puolistrukturoitu tiedon poiminta

Voit poimia asiakirjoista puolistrukturoituja tietoja, kuten lomakkeita tai avainarvopareja, säilyttäen samalla tietorakenteen ja havaittujen kohteiden väliset suhteet. Voit käyttää Analysoi asiakirja API kanssa FeatureType as FORMS tunnistaa kaikki asiakirjan lomakkeet. Seuraava kaavio havainnollistaa tätä prosessia.

Puolistrukturoitu tiedon poiminta

Katso seuraava koodi:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

Täällä ohjaamme analyze_document() menetelmän kanssa FeatureType as FORMS työntekijän hakemusasiakirjaan ja hanki tuloksista taulukkootteen.

Älykäs asiakirjojen käsittely AWS AI -palveluilla: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Strukturoimaton tiedon poiminta

Amazon Textract on optimaalinen tiheän tekstin poimimiseen alan johtavalla OCR-tarkkuudella. Voit käyttää DetectDocumentText API tunnistaa tekstirivit ja sanat, jotka muodostavat tekstirivin, kuten seuraavassa kuvassa.

Strukturoimaton tiedon poiminta

Katso seuraava koodi:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

Nyt ohjaamme detect_document_text() menetelmällä näytekuvassa ja saada raakatekstin poimiminen tuloksista.

Älykäs asiakirjojen käsittely AWS AI -palveluilla: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Laskut ja kuitit

Amazon Textract tarjoaa erikoistuen laskujen ja kuittien käsittelyyn mittakaavassa. The AnalyzeExpense API voi poimia eksplisiittisesti merkittyjä tietoja, oletettuja tietoja ja rivikohtia eritellystä tavara- tai palveluluettelosta melkein mistä tahansa laskusta tai kuitista ilman malleja tai määrityksiä. Seuraava kuva havainnollistaa tätä prosessia.

Laskut ja kuitit poiminta

Katso seuraava koodi:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Textract voi löytää toimittajan nimen kuitista, vaikka se olisi merkitty vain sivun logoon ilman nimenomaista "toimittaja" -nimiötä. Se voi myös etsiä ja poimia kuluerät, määrät ja hinnat, joita ei ole merkitty rivikohtien sarakeotsikoilla.

Analysoi kustannusten API-vastaus

Henkilöllisyystodistukset

Amazonin teksti AnalysoiID API voi auttaa sinua poimimaan automaattisesti tietoja henkilöllisyysasiakirjoista, kuten ajokorteista ja passeista, ilman malleja tai määrityksiä. Voimme poimia tiettyjä tietoja, kuten vanhenemisajan ja syntymäajan, sekä älykkäästi tunnistaa ja poimia oletettuja tietoja, kuten nimen ja osoitteen. Seuraava kaavio havainnollistaa tätä prosessia.

Henkilöllisyystodistusten purku

Katso seuraava koodi:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

Voimme käyttää tabulate saadaksesi kauniin tulosteen:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

Älykäs asiakirjojen käsittely AWS AI -palveluilla: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Suosittelemme käymään läpi yksityiskohtaisen asiakirjan poiminta näytekoodi GitHubissa. Lisätietoja tämän viestin täydellisistä koodinäytteistä on kohdassa GitHub repo.

Yhteenveto

Tässä kaksiosaisen sarjan ensimmäisessä postauksessa keskustelimme IDP:n ja ratkaisuarkkitehtuurin eri vaiheista. Keskustelimme myös asiakirjojen luokituksesta Amazon Comprehend mukautetun luokittelijan avulla. Seuraavaksi tutkimme tapoja, joilla voit käyttää Amazon Textractia tiedon poimimiseen jäsentämättömistä, puolirakenteisista, strukturoiduista ja erikoistuneista asiakirjatyypeistä.

In osa 2 Jatkamme tämän sarjan keskustelua Amazon Textractin ote- ja kyselyominaisuuksilla. Tarkastelemme, kuinka voit käyttää Amazon Comprehendin ennalta määritettyjä kokonaisuuksia ja mukautettuja kokonaisuuksia keskeisten liiketoimintatermien poimimiseen asiakirjoista, joissa on tiheää tekstiä, ja kuinka integroida Amazon A2I:n ihmissilmukan tarkistus IDP-prosesseihisi.

Suosittelemme tutustumaan tietoturvaosioihin Amazonin teksti, Amazonin käsitysja Amazon A2I dokumentaatiota ja noudattamalla annettuja ohjeita. Käy myös hetki tarkistaaksesi ja ymmärtääksesi tuotteen hinnoittelu Amazonin teksti, Amazonin käsitysja Amazon A2I.

Tietoja kirjoittajista

Suprakash Dutta on ratkaisuarkkitehti Amazon Web Servicesissä. Hän keskittyy digitaalisen transformaation strategiaan, sovellusten modernisointiin ja migraatioon, data-analytiikkaan ja koneoppimiseen.

Sonali Sahu on johtava älykkään asiakirjankäsittelyn AI/ML Solutions Architect -tiimi Amazon Web Services -palvelussa. Hän on intohimoinen teknofiili ja nauttii työskentelystä asiakkaiden kanssa monimutkaisten ongelmien ratkaisemiseksi innovaatioiden avulla. Hänen painopistealueensa ovat tekoäly ja koneoppiminen älykkään asiakirjojen käsittelyyn.

Anjan Biswas on Senior AI Services Solutions -arkkitehti, joka keskittyy AI/ML:ään ja data-analytiikkaan. Anjan on osa maailmanlaajuista tekoälypalvelutiimiä ja työskentelee asiakkaiden kanssa auttaakseen heitä ymmärtämään ja kehittämään ratkaisuja tekoälyn ja ML:n liiketoimintaongelmiin. Anjanilla on yli 14 vuoden kokemus työskentelystä maailmanlaajuisten toimitusketju-, valmistus- ja vähittäismyyntiorganisaatioiden kanssa, ja hän auttaa aktiivisesti asiakkaita pääsemään alkuun ja skaalaamaan AWS AI -palveluita.

Chinmayee Rane on AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesissä. Hän on intohimoinen soveltavaan matematiikkaan ja koneoppimiseen. Hän keskittyy älykkäiden asiakirjojen käsittelyratkaisujen suunnitteluun AWS-asiakkaille. Työn ulkopuolella hän harrastaa salsaa ja bachata-tanssia.

Aikaleima: Elokuu 15, 2022Elokuu 16, 2022

Aikaleima: Jan 13, 2023

Älykäs asiakirjojen käsittely AWS AI -palveluilla: Osa 1

Julkaissut Platon

Ratkaisun yleiskatsaus

Tiedonkeruuvaihe

Luokitteluvaihe

Valmistele harjoitustiedot

Kouluta mukautettu luokitin

Ota käyttöön reaaliaikainen päätepiste

Luokittele asiakirjat reaaliaikaisen päätepisteen avulla

Uuttovaihe

Strukturoitu tiedon poiminta

Puolistrukturoitu tiedon poiminta

Strukturoimaton tiedon poiminta

Laskut ja kuitit

Henkilöllisyystodistukset

Yhteenveto

Tietoja kirjoittajista

Lisää aiheesta AWS-koneoppiminen

Optimaalinen hinnoittelu suurimman voiton saamiseksi käyttämällä Amazon SageMakeria

Valitse tietyt aikasarjat ennustettaviksi Amazon Forecastin avulla

Nopeuta henkilöllisyyden vahvistusprojektejasi käyttämällä AWS Amplify- ja Amazon Rekognition -mallitoteutuksia

Amazon SageMaker -mallin rinnakkaiskirjasto nopeuttaa nyt PyTorchin FSDP-työkuormia jopa 20 % | Amazon Web Services

Lisää ML-mallin suorituskykyä ja lyhennä harjoitusaikaa käyttämällä Amazon SageMakerin sisäänrakennettuja algoritmeja esikoulutetuilla malleilla

Amazon EC2 DL2q -instanssi kustannustehokkaaseen ja suorituskykyiseen tekoälypäätelmään on nyt yleisesti saatavilla | Amazon Web Services

Vähennä ML-esikäsittelyn kustannuksia ja monimutkaisuutta Amazon S3 Object Lambdan avulla

Suorita koneoppimispäätelmien työkuormia AWS Graviton -pohjaisissa tapauksissa Amazon SageMakerin avulla

Mittarit sisällön moderoinnin arvioimiseksi Amazon Rekognitionissa ja muissa sisällönvalvontapalveluissa

Hyödynnä tekoälyä ja koneoppimista Parsonsissa AWS DeepRacerin kanssa

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili