Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textracti uut päringufunktsiooni

Amazoni tekst on masinõppe (ML) teenus, mis ekstraheerib automaatselt teksti, käsitsikirja ja andmed mis tahes dokumendist või pildist. Amazon Textract pakub nüüd paindlikkust dokumentidest eraldatavate andmete täpsustamiseks, kasutades uut päringud funktsiooni Analüüsi dokumendi API-s. Te ei pea teadma dokumendis olevate andmete struktuuri (tabel, vorm, kaudne väli, pesastatud andmed) ega muretsema dokumendi versioonide ja vormingute erinevuste pärast.

Selles postituses käsitleme järgmisi teemasid:

  • AWS-i klientide edulood ja uue päringufunktsiooni eelised
  • Kuidas dokumentide päringute analüüsimise API aitab dokumentidest teavet hankida
  • Amazon Textracti konsooli ülevaade
  • Koodinäited dokumendipäringute API kasutamiseks
  • Kuidas töödelda vastust Amazon Textracti parseriteegi abil

Uue päringufunktsiooni eelised

Traditsioonilistel OCR-lahendustel on raske enamikust poolstruktureeritud ja struktureerimata dokumentidest andmeid täpselt eraldada, kuna nende dokumentide mitmes versioonis ja vormingus on andmete paigutus oluliselt erinev. Peate juurutama kohandatud järeltöötluskoodi või nendest dokumentidest eraldatud teabe käsitsi üle vaatama. Funktsiooni Päringud abil saate määrata vajaliku teabe loomuliku keele küsimuste kujul (nt "Mis on kliendi nimi") ja saada täpse teabe ("John Doe") API vastuse osana. Funktsioon kasutab otsitava teabe suure täpsusega eraldamiseks visuaalsete, ruumiliste ja keelemudelite kombinatsiooni. Funktsioon Päringud on eelkoolitatud paljudele poolstruktureeritud ja struktureerimata dokumentidele. Mõned näited hõlmavad makselehti, pangaväljavõtteid, W-2-sid, laenutaotluse vorme, hüpoteegi märkmeid ning vaktsiini- ja kindlustuskaarte.

"Amazon Textract võimaldab meil automatiseerida klientide dokumenditöötlusvajadusi. Funktsiooni Päringud abil saame veelgi suurema paindlikkuse ja täpsusega eraldada andmeid mitmesugustest dokumentidest," ütles TekStream Solutionsi tegevjuht Robert Jansen. "Näeme seda suure tootlikkuse võiduna meie äriklientidele, kes saavad meie IDP-lahenduse osana kasutada päringute võimalust, et saada kiiresti oma dokumentidest välja põhiteave."

"Amazon Textract võimaldab meil piltidelt suure täpsusega eraldada nii teksti kui ka struktureeritud elemente, nagu vormid ja tabelid. Amazon Textract Queries on aidanud meil drastiliselt parandada teabe hankimise kvaliteeti mitmetest ärikriitilistest dokumentidest, nagu ohutuskaardid või materjali spetsifikatsioonid" ütles Thorsten Warnecke, direktor | PC Analyticsi juht, Camelot Management Consultants. "Loomuliku keele päringusüsteem pakub suurt paindlikkust ja täpsust, mis on vähendanud meie järeltöötluskoormust ja võimaldanud meil kiiremini lisada uusi dokumente oma andmeväljavõtte tööriistadesse."

Kuidas dokumentide päringute analüüsimise API aitab dokumentidest teavet hankida

Ettevõtted on suurendanud digitaalsete platvormide kasutuselevõttu, eriti COVID-19 pandeemia valguses. Enamik organisatsioone pakub nüüd digitaalset viisi oma teenuste ja toodete hankimiseks nutitelefonide ja muude mobiilseadmete abil, mis pakub kasutajatele paindlikkust, kuid suurendab ka digitaalsete dokumentide ülevaatamise, töötlemise ja analüüsimise ulatust. Mõne töökoormuse korral, kus näiteks hüpoteeklaenu dokumente, vaktsineerimiskaarte, palgalehti, kindlustuskaarte ja muid dokumente tuleb digitaalselt analüüsida, võib andmete väljavõtmise keerukus muutuda eksponentsiaalselt raskemaks, kuna nendel dokumentidel puudub standardvorm või nende andmevormingus on olulisi erinevusi. dokumendi erinevates versioonides.

Isegi võimsate optilise tekstituvastuse lahenduste abil on raske nendest dokumentidest andmeid täpselt eraldada ja teil võib tekkida vajadus rakendada nende dokumentide jaoks kohandatud järeltöötlust. See hõlmab vormivõtmete võimalike variatsioonide vastendamist kliendi väljade nimedega või kohandatud masinõppe kaasamist, et tuvastada struktureerimata dokumendis spetsiifiline teave.

Amazon Textracti uus dokumendipäringute analüüsimise API suudab vastata loomulikus keeles kirjalikke küsimusi, nagu "Mis on intressimäär?" ja teostage dokumendil võimas AI- ja ML-analüüs, et leida soovitud teave ja see ilma järeltöötluseta dokumendist eraldada. Funktsioon Päringud ei nõua kohandatud mudeli väljaõpet ega mallide või konfiguratsioonide seadistamist. Saate kiiresti alustada, laadides üles oma dokumendid ja täpsustades nende kohta küsimusi Amazon Textracti konsooli kaudu. AWS-i käsurea liides (AWS CLI) või AWS SDK.

Selle postituse järgmistes osades käsitleme üksikasjalikke näiteid selle uue funktsiooni kasutamise kohta tavalistel töökoormuse kasutusjuhtudel ja kuidas kasutada dokumendipäringute analüüsi API-t, et lisada oma töökoormuse digitaliseerimise protsessi paindlikkust.

Kasutage Amazon Textracti konsooli funktsiooni Päringud

Enne API ja koodinäidistega alustamist vaatame üle Amazon Textracti konsooli. Järgmisel pildil on näide vaktsineerimiskaardist Päringud vahekaart Analüüsi dokumenti API jaoks Amazon Textracti konsoolis. Pärast dokumendi Amazon Textracti konsooli üleslaadimist valige Päringud aasta Konfigureerige dokument osa. Seejärel saate lisada päringuid loomuliku keele küsimuste vormis. Pärast kõigi päringute lisamist valige Rakenda konfiguratsioon. Vastused küsimustele asuvad aadressil Päringud Tab.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.

Koodi näited

Selles jaotises selgitame, kuidas käivitada parameetriga Päringud API analüüsi dokumenti, et saada vastuseid loomuliku keele küsimustele dokumendi kohta. Sisenddokument on kas baitimassiivi vormingus või asub Amazoni lihtne salvestusteenus (Amazon S3) kopp. Saate edastada pildibaite Amazon Textract API toimingule, kasutades atribuuti Bytes. Näiteks võite kasutada Bytes atribuut kohalikust failisüsteemist laaditud dokumendi edastamiseks. Pildibaidid edastati kasutades Bytes atribuut peab olema base64 kodeeritud. Kui kasutate Amazon Textract API toimingute kutsumiseks AWS SDK-d, ei pruugi teie kood vajada dokumendifaili baite kodeerimist. Teise võimalusena saate S3 ämbrisse salvestatud pilte Amazon Textract API toimingule edastada, kasutades S3Object vara. S3 ämbrisse salvestatud dokumendid ei pea olema base64 kodeeritud.

Saate kasutada päringufunktsiooni, et saada vastuseid erinevat tüüpi dokumentidelt, nagu palgalehed, vaktsineerimiskaardid, hüpoteegi dokumendid, pangaväljavõtted, W-2 vormid, 1099 vormid ja muud. Järgmistes jaotistes käsitleme mõnda neist dokumentidest ja näitame, kuidas funktsioon Päringud töötab.

Palgaleht

Selles näites käime läbi toimingud, mille abil analüüsida palganumbrit funktsiooni Päringud abil, nagu on näidatud järgmisel näitepildil.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.

Kasutame järgmist Pythoni näidiskoodi:

import boto3
import json #create a Textract Client
textract = boto3.client('textract') image_filename = "paystub.jpg" response = None
with open(image_filename, 'rb') as document: imageBytes = bytearray(document.read()) # Call Textract AnalyzeDocument by passing a document from local disk
response = textract.analyze_document( Document={'Bytes': imageBytes}, FeatureTypes=["QUERIES"], QueriesConfig={ "Queries": [{ "Text": "What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS" }, { "Text": "What is the current gross pay?", "Alias": "PAYSTUB_CURRENT_GROSS" }] })

Järgmine kood on näidis AWS CLI käsk:

aws textract analyze-document —document '{"S3Object":{"Bucket":"your-s3-bucket","Name":"paystub.jpg"}}' —feature-types '["QUERIES"]' —queries-config '{"Queries":[{"Text":"What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS"}]}' 

Analüüsime vastust, mille saame kahe päringu kohta, mille me eelmises näites dokumendi analüüsi API-le edastasime. Järgmist vastust on kärbitud, et kuvada ainult asjakohased osad:

{ "BlockType":"QUERY", "Id":"cbbba2fa-45be-452b-895b-adda98053153", #id of first QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT ] } ], "Query":{ "Text":"What is the year to date gross pay", #First Query "Alias":"PAYSTUB_YTD_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":87.0, "Text":"23,526.80", #Answer to the first Query "Geometry":{...}, "Id":"f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT }, { "BlockType":"QUERY", "Id":"4e2a17f0-154f-4847-954c-7c2bf2670c52", #id of second QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "350ab92c-4128-4aab-a78a-f1c6f6718959"#id of second QUERY_RESULT ] } ], "Query":{ "Text":"What is the current gross pay?", #Second Query "Alias":"PAYSTUB_CURRENT_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":95.0, "Text":"$ 452.43", #Answer to the Second Query "Geometry":{...}, "Id":"350ab92c-4128-4aab-a78a-f1c6f6718959" #id of second QUERY_RESULT }

Vastuses on a BlockType of QUERY see näitab küsitud küsimust ja a Relationships jaotis, millel on vastust sisaldava ploki ID. Vastus on BlockType of QUERY_RESULT. Analüüsi dokumendi API-le sisendina edastatud pseudonüüm tagastatakse vastuse osana ja seda saab kasutada vastuse märgistamiseks.

Me kasutame Amazon Textract Response Parser et eraldada ainult küsimused, varjunimed ja nendele küsimustele vastavad vastused:

import trp.trp2 as t2 d = t2.TDocumentSchema().load(response)
page = d.pages[0] # get_query_answers returns a list of [query, alias, answer]
query_answers = d.get_query_answers(page=page)
for x in query_answers: print(f"{image_filename},{x[1]},{x[2]}") from tabulate import tabulate
print(tabulate(query_answers, tablefmt="github"))

Eelnev kood tagastab järgmised tulemused:

|------------------------------------|-----------------------|-----------|
| What is the current gross pay? | PAYSTUB_CURRENT_GROSS | $ 452.43 |
| What is the year to date gross pay | PAYSTUB_YTD_GROSS | 23,526.80 |

Rohkem küsimusi ja täieliku koodi leiate sülearvutist aadressil GitHub repo.

Hüpoteeklaenu märkus

Dokumendipäringute analüüsimise API töötab hästi ka järgmiste hüpoteeklaenu märkidega.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.

API kutsumise ja tulemuste töötlemise protsess on sama, mis eelmises näites. Koodi täieliku näite leiate veebisaidilt GitHub repo.

Järgmine kood näitab API abil saadud vastuseid:

|------------------------------------------------------------|----------------------------------|---------------|
| When is this document dated? | MORTGAGE_NOTE_DOCUMENT_DATE | March 4, 2022 |
| What is the note date? | MORTGAGE_NOTE_DATE | March 4, 2022 |
| When is the Maturity date the borrower has to pay in full? | MORTGAGE_NOTE_MATURITY_DATE | April, 2032 |
| What is the note city and state? | MORTGAGE_NOTE_CITY_STATE | Anytown, ZZ |
| what is the yearly interest rate? | MORTGAGE_NOTE_YEARLY_INTEREST | 4.150% |
| Who is the lender? | MORTGAGE_NOTE_LENDER | AnyCompany |
| When does payments begin? | MORTGAGE_NOTE_BEGIN_PAYMENTS | April, 2022 |
| What is the beginning date of payment? | MORTGAGE_NOTE_BEGIN_DATE_PAYMENT | April, 2022 |
| What is the initial monthly payments? | MORTGAGE_NOTE_MONTHLY_PAYMENTS | $ 2500 |
| What is the interest rate? | MORTGAGE_NOTE_INTEREST_RATE | 4.150% |
| What is the principal amount borrower has to pay? | MORTGAGE_NOTE_PRINCIPAL_PAYMENT | $ 500,000 |

Vaktsineerimiskaart

Funktsioon Amazon Textract Queries töötab väga hästi ka vaktsineerimiskaartidelt või seda meenutavatelt kaartidelt teabe hankimiseks, nagu järgmises näites.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.

API-le helistamise ja tulemuste sõelumise protsess on sama, mida kasutatakse palganumbri puhul. Pärast vastuse töötlemist saame järgmise teabe:

|------------------------------------------------------------|--------------------------------------|--------------|
| What is the patients first name | PATIENT_FIRST_NAME | Major |
| What is the patients last name | PATIENT_LAST_NAME | Mary |
| Which clinic site was the 1st dose COVID-19 administrated? | VACCINATION_FIRST_DOSE_CLINIC_SITE | XYZ |
| Who is the manufacturer for 1st dose of COVID-19? | VACCINATION_FIRST_DOSE_MANUFACTURER | Pfizer |
| What is the date for the 2nd dose covid-19? | VACCINATION_SECOND_DOSE_DATE | 2/8/2021 |
| What is the patient number | PATIENT_NUMBER | 012345abcd67 |
| Who is the manufacturer for 2nd dose of COVID-19? | VACCINATION_SECOND_DOSE_MANUFACTURER | Pfizer |
| Which clinic site was the 2nd dose covid-19 administrated? | VACCINATION_SECOND_DOSE_CLINIC_SITE | CVS |
| What is the lot number for 2nd dose covid-19? | VACCINATION_SECOND_DOSE_LOT_NUMBER | BB5678 |
| What is the date for the 1st dose covid-19? | VACCINATION_FIRST_DOSE_DATE | 1/18/21 |
| What is the lot number for 1st dose covid-19? | VACCINATION_FIRST_DOSE_LOT_NUMBER | AA1234 |
| What is the MI? | MIDDLE_INITIAL | M |

Täieliku koodi leiate sülearvutist aadressil GitHub repo.

Kindlustuskaart

Funktsioon Päringud töötab hästi ka järgmiste kindlustuskaartidega.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.

API kutsumise ja tulemuste töötlemise protsess on sama, mis varem näidatud. Koodi täielik näide on saadaval sülearvutis aadressil GitHub repo.

Järgmised on API abil saadud vastused.

|-------------------------------------|-----------------------------------|---------------|
| What is the insured name? | INSURANCE_CARD_NAME | Jacob Michael |
| What is the level of benefits? | INSURANCE_CARD_LEVEL_BENEFITS | SILVER |
| What is medical insurance provider? | INSURANCE_CARD_PROVIDER | Anthem |
| What is the OOP max? | INSURANCE_CARD_OOP_MAX | $6000/$12000 |
| What is the effective date? | INSURANCE_CARD_EFFECTIVE_DATE | 11/02/2021 |
| What is the office visit copay? | INSURANCE_CARD_OFFICE_VISIT_COPAY | $55/0% |
| What is the specialist visit copay? | INSURANCE_CARD_SPEC_VISIT_COPAY | $65/0% |
| What is the member id? | INSURANCE_CARD_MEMBER_ID | XZ 9147589652 |
| What is the plan type? | INSURANCE_CARD_PLAN_TYPE | Pathway X-EPO |
| What is the coinsurance amount? | INSURANCE_CARD_COINSURANCE | 30% |

Parimad tavad päringute koostamiseks

Päringute koostamisel võtke arvesse järgmisi parimaid tavasid.

  • Üldiselt esitage loomulikus keeles küsimus, mis algab sõnadega "Mis on", "Kus on" või "Kes on". Erandiks on see, kui proovite ekstraheerida standardseid võtme-väärtuse paare. Sel juhul saate võtme nime päringuna edastada.
  • Vältige valesti vormistatud või grammatiliselt valesid küsimusi, kuna need võivad põhjustada ootamatuid vastuseid. Näiteks valesti vormindatud päring on "Millal?" arvestades, et hästi vormistatud päring on "Millal manustati esimene vaktsiiniannus?"
  • Võimaluse korral kasutage päringu koostamiseks dokumendi sõnu. Kuigi funktsioon Päringud üritab leida akronüüme ja sünonüüme mõnele tööstusharu levinud terminile, nagu "SSN", "maksu ID" ja "sotsiaalkindlustusnumber", parandab otse dokumendist pärit keele kasutamine tulemusi. Näiteks kui dokumendis on kirjas „töö edenemine“, proovige vältida selliste variatsioonide kasutamist nagu „projekti edenemine“, „programmi edenemine“ või „töö olek“.
  • Koostage päring, mis sisaldab sõnu nii reapäisest kui ka veerupäisest. Näiteks eelmises vaktsineerimiskaardi näites saate teise vaktsineerimise kuupäeva teadasaamiseks esitada päringu järgmiselt: "Mis kuupäeval manustati 2. annus?"
  • Pikad vastused suurendavad vastuse latentsust ja võivad põhjustada ajalõpu. Proovige esitada küsimusi, mille vastused on vähem kui 100 sõna.
  • Vormi standardsete võtme-väärtuste paaride eraldamisel toimib küsimusena ainult võtme nime edastamine. Kõigi muude ekstraktimise kasutusjuhtude jaoks soovitame raamida täisküsimused.
  • Olge võimalikult konkreetne. Näiteks:
    • Kui dokument sisaldab mitut jaotist (nt "laenuvõtja" ja "kaaslaenaja") ja mõlemas osas on väli nimega "SSN", küsige "Mis on laenuvõtja SSN?" ja "Mis on kaaslaenaja SSN?"
    • Kui dokumendil on mitu kuupäevaga seotud välja, olge päringukeeles konkreetne ja küsige "Mis on dokumendi allkirjastamise kuupäev?" või "Mis on taotluse sünnikuupäev?" Vältige mitmetähenduslike küsimuste esitamist, nagu "Mis on kuupäev?"
  • Kui teate eelnevalt dokumendi kujundust, andke tulemuste täpsuse parandamiseks asukohavihjeid. Näiteks küsige "Mis on ülaosas olev kuupäev?" või "What is the date on the left?" või "Mis on allosas olev kuupäev?"

Funktsiooni Päringud kohta lisateabe saamiseks vaadake Textracti dokumentatsioon.

Järeldus

Selles postituses andsime ülevaate Amazon Textracti uuest funktsioonist Päringud, et kiiresti ja lihtsalt hankida teavet sellistest dokumentidest nagu palgalehed, hüpoteeklaenulehed, kindlustuskaardid ja vaktsineerimiskaardid loomuliku keele küsimuste põhjal. Samuti kirjeldasime, kuidas saate vastuse JSON-i sõeluda.

Täpsema info saamiseks vt Dokumentide analüüsimine või vaadake Amazon Textracti konsooli ja proovige seda funktsiooni.


Autoritest

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.Uday Narayanan on AWS-i lahenduste vanemarhitekt. Talle meeldib aidata klientidel leida uuenduslikke lahendusi keerukatele äriprobleemidele. Tema põhivaldkonnad on andmeanalüütika, suurandmesüsteemid ja masinõpe. Vabal ajal meeldib talle sportida, uisapäisa telesaateid vaadata ja reisida.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.Rafael Caixeta on Californias asuva AWS-i vanemlahenduste arhitekt. Tal on üle 10-aastane kogemus pilvearhitektuuride arendamisel. Tema põhivaldkonnad on serverita, konteinerid ja masinõpe. Vabal ajal meeldib talle lugeda ilukirjanduslikke raamatuid ja reisida mööda maailma.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai. Navneeth Nair on Amazon Textracti meeskonna tehniline vanem tootejuht. Ta on keskendunud masinõppepõhiste teenuste loomisele AWS-i klientidele.

Määrake ja eraldage dokumentidest teavet, kasutades Amazon Textract PlatoBlockchain Data Intelligence'i uut päringufunktsiooni. Vertikaalne otsing. Ai.Martin Schade on Senior ML Product SA koos Amazon Textracti meeskonnaga. Tal on üle 20-aastane kogemus internetiga seotud tehnoloogiate, inseneri- ja arhitektuurilahendustega. Ta liitus AWS-iga 2014. aastal, juhendades esmalt mõningaid suurimaid AWS-i kliente AWS-i teenuste kõige tõhusamal ja skaleeritavamal kasutamisel ning hiljem keskendus AI/ML-ile, keskendudes arvutinägemisele. Praegu on ta kinnisideeks dokumentidest teabe hankimisest.

Ajatempel:

Veel alates AWS-i masinõpe