Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa

Organisatsioonid erinevates tööstusharudes, nagu tervishoid, rahandus ja laenuandmine, juriidiline, jaekaubandus ja tootmine, peavad oma igapäevaste äriprotsesside käigus sageli tegelema paljude dokumentidega. Need dokumendid sisaldavad olulist teavet, mis on õigeaegsete otsuste tegemisel võtmetähtsusega, et säilitada klientide kõrgeim rahulolu, kiirem kliendiga liitumine ja väiksem klientidest loobumine. Enamikul juhtudel töödeldakse dokumente teabe ja ülevaate saamiseks käsitsi, mis on aeganõudev, veaohtlik, kallis ja raskesti mastaapne. Nendest dokumentidest teabe töötlemiseks ja nendest väljavõtmiseks on tänapäeval saadaval piiratud automatiseerimine. Intelligentne dokumenditöötlus (IDP) koos AWS tehisintellekti (AI) teenustega aitab automatiseerida info väljavõtmist erinevat tüüpi ja vormingus dokumentidest kiiresti ja suure täpsusega, ilma et oleks vaja masinõppe (ML) oskusi. Kiirem ja suure täpsusega teabe hankimine aitab teha kvaliteetseid äriotsuseid õigeaegselt, vähendades samal ajal üldkulusid.

Kuigi IDP töövoo etapid võivad erineda ning neid võivad mõjutada kasutusjuhtumid ja ärinõuded, on järgmisel joonisel näidatud etapid, mis on tavaliselt IDP töövoo osad. Dokumentide, nagu maksuvormid, nõuded, meditsiinilised märkmed, uued kliendivormid, arved, juriidilised lepingud ja palju muud, töötlemine on vaid mõned IDP kasutusjuhtudest.

Selles kaheosalises seerias arutame, kuidas saate AWS AI teenuste abil dokumente mastaapselt automatiseerida ja arukalt töödelda. Selles postituses käsitleme IDP töövoo kolme esimest etappi. sisse osa 2, arutame ülejäänud töövoo etappe.

Lahenduse ülevaade

Järgmine arhitektuuriskeem näitab IDP töövoo etappe. See algab andmete kogumise etapist, et turvaliselt salvestada ja koondada erinevaid failivorminguid (PDF, JPEG, PNG, TIFF) ja dokumentide paigutusi. Järgmine etapp on klassifitseerimine, kus kategoriseerite oma dokumendid (nt lepingud, nõudevormid, arved või kviitungid), millele järgneb dokumentide väljavõtmine. Väljavõttetapis saate oma dokumentidest sisukat äriteavet eraldada. Neid ekstraheeritud andmeid kasutatakse sageli andmete analüüsi kaudu arusaamade kogumiseks või saadetakse järgnevatesse süsteemidesse, nagu andmebaasid või tehingusüsteemid. Järgmine etapp on rikastamine, kus dokumente saab rikastada kaitstud terviseteabe (PHI) või isikut tuvastava teabe (PII) andmete redigeerimise, kohandatud äritermini väljavõtte jms abil. Lõpuks saate ülevaatamise ja kinnitamise etapis kaasata dokumentide ülevaatamiseks tööjõudu, et tagada tulemuse täpsus.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selle postituse jaoks võtame arvesse näidisdokumente, nagu pangaväljavõtted, arved ja poekviitungid. Dokumendinäidised koos näidiskoodiga leiate meie veebisaidilt GitHubi hoidla. Järgmistes jaotistes tutvustame teile neid koodinäidiseid koos tegeliku praktilise rakendusega. Näitame, kuidas saate ML-i võimalusi kasutada Amazoni tekst, Amazoni mõistmineja Amazoni laiendatud AI (Amazon A2I), et töödelda dokumente ja kinnitada neist eraldatud andmeid.

Amazon Textract on ML-teenus, mis eraldab skannitud dokumentidest automaatselt teksti, käsitsikirja ja andmed. Vormide ja tabelite andmete tuvastamine, mõistmine ja nendest eraldamine läheb kaugemale lihtsast optilisest märgituvastusest (OCR). Amazon Textract kasutab ML-i mis tahes tüüpi dokumentide lugemiseks ja töötlemiseks, ekstraheerides teksti, käsitsikirja, tabelid ja muud andmed täpselt ilma käsitsi tehtud pingutusteta.

Amazon Comprehend on loomuliku keele töötlemise (NLP) teenus, mis kasutab ML-i dokumentide sisu kohta ülevaate saamiseks. Amazon Comprehend suudab tuvastada dokumentides olulisi elemente, sealhulgas viiteid keelele, inimestele ja kohtadele, ning liigitada need asjakohastesse teemadesse või klastritesse. See võib teha sentimentanalüüsi, et määrata reaalajas dokumendi sentiment, kasutades ühe dokumendi või partii tuvastamist. Näiteks saab see analüüsida ajaveebi postituse kommentaare, et teada saada, kas postitus meeldib teie lugejatele või mitte. Amazon Comprehend tuvastab ka reaalajas ja asünkroonsete pakktöödena tekstidokumentides PII-d, nagu aadressid, pangakonto numbrid ja telefoninumbrid. Samuti saab see redigeerida asünkroonsete pakktööde PII-üksusi.

Amazon A2I on ML-teenus, mis muudab inimese ülevaatamiseks vajalike töövoogude loomise lihtsaks. Amazon A2I toob inimestepoolse ülevaate kõigi arendajateni, eemaldades eristamata rasked raskused, mis on seotud inimeste ülevaatussüsteemide ehitamise või suure hulga inimeste arvustajate haldamisega, olenemata sellest, kas see töötab AWS-is või mitte. Amazon A2I integreerib mõlemad Amazoni tekst ja Amazoni mõistmine et saaksite oma intelligentsesse dokumenditöötluse töövoogu sisse viia inimliku ülevaatuse samme.

Andmete kogumise faas

Saate salvestada dokumente hästi skaleeritavas ja vastupidavas salvestusruumis, näiteks Amazoni lihtne salvestusteenus (Amazon S3). Amazon S3 on objektide salvestusteenus, mis pakub valdkonna juhtivat mastaapsust, andmete kättesaadavust, turvalisust ja jõudlust. Amazon S3 on loodud 11 9-ks vastupidavaks ja salvestab andmeid miljonite klientide jaoks üle kogu maailma. Dokumendid võivad olla erineva vormingu ja paigutusega ning pärineda erinevatest kanalitest, näiteks veebiportaalidest või meilimanustest.

Klassifikatsiooni faas

Eelmises etapis kogusime erinevat tüüpi ja vormingus dokumente. Selles etapis peame dokumendid kategoriseerima, enne kui saame täiendavat väljavõtet teha. Selleks kasutame Amazon Comprehendi kohandatud klassifikatsioon. Dokumentide klassifitseerimine on kaheetapiline protsess. Esiteks treenite Amazon Comprehendi kohandatud klassifikaatorit, et tuvastada teile huvipakkuvad klassid. Järgmisena juurutage mudel nupuga a kohandatud klassifikaator reaalajas lõpp-punkt ja saatke märgistamata dokumendid reaalajas asuvasse lõpp-punkti salastamiseks.

Järgmine joonis kujutab tüüpilist dokumentide klassifitseerimise töövoogu.

Klassifikatsiooni faas

Klassifikaatori koolitamiseks tuvastage teid huvitavad klassid ja esitage õppematerjalina iga klassi dokumentide näidised. Teie märgitud valikute põhjal loob Amazon Comprehend kohandatud ML-mudeli, mida ta teie esitatud dokumentide põhjal treenib. See kohandatud mudel (klassifikaator) uurib iga teie esitatud dokumenti. See tagastab kas konkreetse klassi, mis esindab sisu kõige paremini (kui kasutate mitme klassi režiimi) või sellele kehtivate klasside komplekti (kui kasutate mitme sildi režiimi).

Valmistage ette treeningandmed

Esimene samm on Amazon Comprehendi kohandatud klassifikaatori jaoks vajalike dokumentide teksti eraldamine. Kõigi Amazon S3 dokumentide toorteksti teabe eraldamiseks kasutame Amazon Textracti detect_document_text() API. Samuti märgistame andmed vastavalt dokumenditüübile, mida kasutatakse kohandatud Amazon Comprehendi klassifikaatori koolitamiseks.

Järgmine kood on lihtsustamise eesmärgil kärbitud. Täieliku koodi leiate GitHubist näidiskood eest textract_extract_text(). Funktsioon call_textract() on wr4apper funktsioon, mis kutsub esile Analüüsidokument API sisemiselt ja meetodile edastatud parameetrid võtavad kokku mõned konfiguratsioonid, mida API vajab ekstraheerimisülesande käitamiseks.

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)        

Treenige kohandatud klassifikaatorit

Selles etapis kasutame Amazon Comprehendi kohandatud klassifikatsiooni, et koolitada oma mudelit dokumentide klassifitseerimiseks. Me kasutame CreateDocumentClassifier API, et luua klassifikaator, mis koolitab kohandatud mudelit, kasutades meie märgistatud andmeid. Vaadake järgmist koodi:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

Juurutage reaalajas lõpp-punkt

Kohandatud klassifikaatori Amazon Comprehend kasutamiseks loome reaalajas lõpp-punkti kasutades CreateEndpoint API-d:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')  

Klassifitseerige dokumente reaalajas lõpp-punktiga

Pärast Amazon Comprehendi lõpp-punkti loomist saame dokumentide klassifitseerimiseks kasutada reaalajas lõpp-punkti. Me kasutame comprehend.classify_document() funktsioon ekstraheeritud dokumendi teksti ja järelduse lõpp-punktiga sisendparameetritena:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

Amazon Comprehend tagastab kõik dokumendiklassid usaldusskooriga, mis on iga klassiga seotud võtme-väärtuste paaride massiivi (nimi-skoor). Valime kõrgeima usaldusskooriga dokumendiklassi. Järgmine ekraanipilt on vastuse näidis.

Klassifitseerige dokumente reaalajas lõpp-punktiga

Soovitame tutvuda üksikasjaliku dokumendi klassifikatsiooni näidiskoodiga GitHub.

Ekstraheerimise faas

Amazon Textract võimaldab teil Amazon Textracti abil teksti- ja struktureeritud andmete teavet ekstraheerida Tuvasta DocumentText ja Analüüsidokument vastavalt API-d. Need API-d vastavad JSON-andmetega, mis sisaldavad SÕNU, RIID, VORME, TABELE, geomeetria või piirdekasti teavet, seoseid ja nii edasi. Mõlemad DetectDocumentText ja AnalyzeDocument on sünkroonsed toimingud. Dokumentide asünkroonseks analüüsimiseks kasutage StartDocumentTextDetection.

Struktureeritud andmete ekstraheerimine

Saate dokumentidest eraldada struktureeritud andmeid, näiteks tabeleid, säilitades samas andmestruktuuri ja tuvastatud üksuste vahelised seosed. Võite kasutada Analüüsidokument API koos FeatureType as TABLE et tuvastada dokumendis kõik tabelid. Järgmine joonis illustreerib seda protsessi.

Struktureeritud andmete ekstraheerimine

Vaadake järgmist koodi:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

Me juhime analyze_document() meetodiga FeatureType as TABLES töötaja ajaloo dokumendil ja hankige tabeli väljavõte järgmistes tulemustes.

Analüüsige dokumendi API vastust tabelite ekstraheerimiseks

Poolstruktureeritud andmete eraldamine

Saate dokumentidest eraldada poolstruktureeritud andmeid, näiteks vorme või võtme-väärtuste paare, säilitades samas andmestruktuuri ja tuvastatud üksuste vahelised seosed. Võite kasutada Analüüsidokument API koos FeatureType as FORMS et tuvastada dokumendis kõik vormid. Seda protsessi illustreerib järgmine diagramm.

Poolstruktureeritud andmete eraldamine

Vaadake järgmist koodi:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

Siin juhime analyze_document() meetodiga FeatureType as FORMS töötaja avalduse dokumendile ja hankige tulemustes tabeli väljavõte.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Struktureerimata andmete ekstraheerimine

Amazon Textract on optimaalne tiheda teksti ekstraheerimiseks tööstusharu juhtiva OCR-i täpsusega. Võite kasutada Tuvasta DocumentText API tekstiridade ja tekstirea moodustavate sõnade tuvastamiseks, nagu on näidatud järgmisel joonisel.

Struktureerimata andmete ekstraheerimine

Vaadake järgmist koodi:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

Nüüd juhime detect_document_text() meetodil näidispildil ja saada tulemustes toorteksti väljavõte.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Arved ja kviitungid

Amazon Textract pakub spetsiaalset tuge arvete ja kviitungite ulatuslikuks töötlemiseks. The Analüüsi kulu API saab välja võtta selgesõnaliselt märgistatud andmed, kaudsed andmed ja reaüksused üksikasjalikust kaupade või teenuste loendist peaaegu igalt arvelt või kviitungilt ilma mallide või konfiguratsioonita. Järgmine joonis illustreerib seda protsessi.

Arvete ja kviitungite väljavõte

Vaadake järgmist koodi:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Textract leiab kviitungilt hankija nime isegi siis, kui see on märgitud ainult lehel olevas logos ilma selgesõnalise sildita "müüja". Samuti võib see leida ja eraldada kuluartikleid, koguseid ja hindu, millel pole reaüksuste veerupäiseid.

Analüüsige kulu API vastust

Isikut tõendavad dokumendid

Amazonase tekst Analüüsi ID API aitab teil automaatselt välja võtta teavet isikut tõendavatest dokumentidest (nt juhilubadest ja passidest), ilma et oleks vaja malle või konfiguratsiooni. Saame eraldada konkreetset teavet, näiteks aegumiskuupäeva ja sünnikuupäeva, samuti arukalt tuvastada ja eraldada kaudset teavet, nagu nimi ja aadress. Seda protsessi illustreerib järgmine diagramm.

Isikut tõendavate dokumentide väljavõtmine

Vaadake järgmist koodi:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

Meil on võimalik kasutada tabulate ilusa prinditud väljundi saamiseks:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Soovitame läbida üksikasjaliku dokumendi väljavõtte näidiskood GitHubis. Selle postituse täielike koodinäidiste kohta lisateabe saamiseks vaadake GitHub repo.

Järeldus

Selles kaheosalise seeria esimeses postituses arutasime IDP ja lahenduse arhitektuuri erinevaid etappe. Arutasime ka dokumentide klassifitseerimist, kasutades kohandatud klassifikaatorit Amazon Comprehend. Järgmisena uurisime, kuidas saate Amazon Textracti kasutada teabe hankimiseks struktureerimata, poolstruktureeritud, struktureeritud ja spetsiaalsetest dokumenditüüpidest.

In osa 2 Selle seeria osas jätkame arutelu Amazon Textracti väljavõtete ja päringute funktsioonidega. Vaatleme, kuidas kasutada Amazon Comprehendi eelmääratletud oleme ja kohandatud üksusi, et eraldada tiheda tekstiga dokumentidest peamised äriterminid ning kuidas integreerida Amazon A2I in-the-loop ülevaade oma IDP protsessidesse.

Soovitame tutvuda turvalisuse jaotistega Amazoni tekst, Amazoni mõistmineja Amazon A2I dokumentatsiooni ja järgides antud juhiseid. Samuti võtke hetk aega, et vaadata üle ja mõista hinnakujundust Amazoni tekst, Amazoni mõistmineja Amazon A2I.


Autoritest

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Suprakash Dutta on Amazon Web Servicesi lahenduste arhitekt. Ta keskendub digitaalse transformatsiooni strateegiale, rakenduste moderniseerimisele ja migratsioonile, andmeanalüütikale ja masinõppele.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Sonali Sahu on Amazon Web Servicesi intelligentse dokumenditöötluse AI/ML-lahenduste arhitektide meeskond. Ta on kirglik tehnofiil ja naudib koostööd klientidega, et lahendada keerulisi probleeme uuenduste abil. Tema põhivaldkonnaks on tehisintellekt ja masinõpe intelligentseks dokumenditöötluseks.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Anjan Biswas on AI teenuste lahenduste vanemarhitekt, kes keskendub AI/ML-ile ja andmeanalüütikale. Anjan on osa ülemaailmsest AI-teenuste meeskonnast ja teeb koostööd klientidega, et aidata neil mõista ja arendada lahendusi tehisintellekti ja ML-ga seotud äriprobleemidele. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-i tehisintellekti teenustega algust teha ja laiendada.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Chinmayee Rane on AI/ML spetsialistilahenduste arhitekt ettevõttes Amazon Web Services. Ta on kirglik rakendusmatemaatika ja masinõppe vastu. Ta keskendub intelligentsete dokumenditöötluslahenduste kavandamisele AWS-i klientidele. Väljaspool tööd naudib ta salsat ja bachata tantsu.

Ajatempel:

Veel alates AWS-i masinõpe