Arukas dokumenditöötlus AWS AI teenustega: 1. osa

Taasavaldanud Platon

järgijaid: 0

Organisatsioonid erinevates tööstusharudes, nagu tervishoid, rahandus ja laenuandmine, juriidiline, jaekaubandus ja tootmine, peavad oma igapäevaste äriprotsesside käigus sageli tegelema paljude dokumentidega. Need dokumendid sisaldavad olulist teavet, mis on õigeaegsete otsuste tegemisel võtmetähtsusega, et säilitada klientide kõrgeim rahulolu, kiirem kliendiga liitumine ja väiksem klientidest loobumine. Enamikul juhtudel töödeldakse dokumente teabe ja ülevaate saamiseks käsitsi, mis on aeganõudev, veaohtlik, kallis ja raskesti mastaapne. Nendest dokumentidest teabe töötlemiseks ja nendest väljavõtmiseks on tänapäeval saadaval piiratud automatiseerimine. Intelligentne dokumenditöötlus (IDP) koos AWS tehisintellekti (AI) teenustega aitab automatiseerida info väljavõtmist erinevat tüüpi ja vormingus dokumentidest kiiresti ja suure täpsusega, ilma et oleks vaja masinõppe (ML) oskusi. Kiirem ja suure täpsusega teabe hankimine aitab teha kvaliteetseid äriotsuseid õigeaegselt, vähendades samal ajal üldkulusid.

Kuigi IDP töövoo etapid võivad erineda ning neid võivad mõjutada kasutusjuhtumid ja ärinõuded, on järgmisel joonisel näidatud etapid, mis on tavaliselt IDP töövoo osad. Dokumentide, nagu maksuvormid, nõuded, meditsiinilised märkmed, uued kliendivormid, arved, juriidilised lepingud ja palju muud, töötlemine on vaid mõned IDP kasutusjuhtudest.

Selles kaheosalises seerias arutame, kuidas saate AWS AI teenuste abil dokumente mastaapselt automatiseerida ja arukalt töödelda. Selles postituses käsitleme IDP töövoo kolme esimest etappi. sisse osa 2, arutame ülejäänud töövoo etappe.

Lahenduse ülevaade

Järgmine arhitektuuriskeem näitab IDP töövoo etappe. See algab andmete kogumise etapist, et turvaliselt salvestada ja koondada erinevaid failivorminguid (PDF, JPEG, PNG, TIFF) ja dokumentide paigutusi. Järgmine etapp on klassifitseerimine, kus kategoriseerite oma dokumendid (nt lepingud, nõudevormid, arved või kviitungid), millele järgneb dokumentide väljavõtmine. Väljavõttetapis saate oma dokumentidest sisukat äriteavet eraldada. Neid ekstraheeritud andmeid kasutatakse sageli andmete analüüsi kaudu arusaamade kogumiseks või saadetakse järgnevatesse süsteemidesse, nagu andmebaasid või tehingusüsteemid. Järgmine etapp on rikastamine, kus dokumente saab rikastada kaitstud terviseteabe (PHI) või isikut tuvastava teabe (PII) andmete redigeerimise, kohandatud äritermini väljavõtte jms abil. Lõpuks saate ülevaatamise ja kinnitamise etapis kaasata dokumentide ülevaatamiseks tööjõudu, et tagada tulemuse täpsus.

Selle postituse jaoks võtame arvesse näidisdokumente, nagu pangaväljavõtted, arved ja poekviitungid. Dokumendinäidised koos näidiskoodiga leiate meie veebisaidilt GitHubi hoidla. Järgmistes jaotistes tutvustame teile neid koodinäidiseid koos tegeliku praktilise rakendusega. Näitame, kuidas saate ML-i võimalusi kasutada Amazoni tekst, Amazoni mõistmineja Amazoni laiendatud AI (Amazon A2I), et töödelda dokumente ja kinnitada neist eraldatud andmeid.

Amazon Textract on ML-teenus, mis eraldab skannitud dokumentidest automaatselt teksti, käsitsikirja ja andmed. Vormide ja tabelite andmete tuvastamine, mõistmine ja nendest eraldamine läheb kaugemale lihtsast optilisest märgituvastusest (OCR). Amazon Textract kasutab ML-i mis tahes tüüpi dokumentide lugemiseks ja töötlemiseks, ekstraheerides teksti, käsitsikirja, tabelid ja muud andmed täpselt ilma käsitsi tehtud pingutusteta.

Amazon Comprehend on loomuliku keele töötlemise (NLP) teenus, mis kasutab ML-i dokumentide sisu kohta ülevaate saamiseks. Amazon Comprehend suudab tuvastada dokumentides olulisi elemente, sealhulgas viiteid keelele, inimestele ja kohtadele, ning liigitada need asjakohastesse teemadesse või klastritesse. See võib teha sentimentanalüüsi, et määrata reaalajas dokumendi sentiment, kasutades ühe dokumendi või partii tuvastamist. Näiteks saab see analüüsida ajaveebi postituse kommentaare, et teada saada, kas postitus meeldib teie lugejatele või mitte. Amazon Comprehend tuvastab ka reaalajas ja asünkroonsete pakktöödena tekstidokumentides PII-d, nagu aadressid, pangakonto numbrid ja telefoninumbrid. Samuti saab see redigeerida asünkroonsete pakktööde PII-üksusi.

Amazon A2I on ML-teenus, mis muudab inimese ülevaatamiseks vajalike töövoogude loomise lihtsaks. Amazon A2I toob inimestepoolse ülevaate kõigi arendajateni, eemaldades eristamata rasked raskused, mis on seotud inimeste ülevaatussüsteemide ehitamise või suure hulga inimeste arvustajate haldamisega, olenemata sellest, kas see töötab AWS-is või mitte. Amazon A2I integreerib mõlemad Amazoni tekst ja Amazoni mõistmine et saaksite oma intelligentsesse dokumenditöötluse töövoogu sisse viia inimliku ülevaatuse samme.

Andmete kogumise faas

Saate salvestada dokumente hästi skaleeritavas ja vastupidavas salvestusruumis, näiteks Amazoni lihtne salvestusteenus (Amazon S3). Amazon S3 on objektide salvestusteenus, mis pakub valdkonna juhtivat mastaapsust, andmete kättesaadavust, turvalisust ja jõudlust. Amazon S3 on loodud 11 9-ks vastupidavaks ja salvestab andmeid miljonite klientide jaoks üle kogu maailma. Dokumendid võivad olla erineva vormingu ja paigutusega ning pärineda erinevatest kanalitest, näiteks veebiportaalidest või meilimanustest.

Klassifikatsiooni faas

Eelmises etapis kogusime erinevat tüüpi ja vormingus dokumente. Selles etapis peame dokumendid kategoriseerima, enne kui saame täiendavat väljavõtet teha. Selleks kasutame Amazon Comprehendi kohandatud klassifikatsioon. Dokumentide klassifitseerimine on kaheetapiline protsess. Esiteks treenite Amazon Comprehendi kohandatud klassifikaatorit, et tuvastada teile huvipakkuvad klassid. Järgmisena juurutage mudel nupuga a kohandatud klassifikaator reaalajas lõpp-punkt ja saatke märgistamata dokumendid reaalajas asuvasse lõpp-punkti salastamiseks.

Järgmine joonis kujutab tüüpilist dokumentide klassifitseerimise töövoogu.

Klassifikatsiooni faas

Klassifikaatori koolitamiseks tuvastage teid huvitavad klassid ja esitage õppematerjalina iga klassi dokumentide näidised. Teie märgitud valikute põhjal loob Amazon Comprehend kohandatud ML-mudeli, mida ta teie esitatud dokumentide põhjal treenib. See kohandatud mudel (klassifikaator) uurib iga teie esitatud dokumenti. See tagastab kas konkreetse klassi, mis esindab sisu kõige paremini (kui kasutate mitme klassi režiimi) või sellele kehtivate klasside komplekti (kui kasutate mitme sildi režiimi).

Valmistage ette treeningandmed

Esimene samm on Amazon Comprehendi kohandatud klassifikaatori jaoks vajalike dokumentide teksti eraldamine. Kõigi Amazon S3 dokumentide toorteksti teabe eraldamiseks kasutame Amazon Textracti detect_document_text() API. Samuti märgistame andmed vastavalt dokumenditüübile, mida kasutatakse kohandatud Amazon Comprehendi klassifikaatori koolitamiseks.

Järgmine kood on lihtsustamise eesmärgil kärbitud. Täieliku koodi leiate GitHubist näidiskood eest textract_extract_text(). Funktsioon call_textract() on wr4apper funktsioon, mis kutsub esile Analüüsidokument API sisemiselt ja meetodile edastatud parameetrid võtavad kokku mõned konfiguratsioonid, mida API vajab ekstraheerimisülesande käitamiseks.

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)

Treenige kohandatud klassifikaatorit

Selles etapis kasutame Amazon Comprehendi kohandatud klassifikatsiooni, et koolitada oma mudelit dokumentide klassifitseerimiseks. Me kasutame CreateDocumentClassifier API, et luua klassifikaator, mis koolitab kohandatud mudelit, kasutades meie märgistatud andmeid. Vaadake järgmist koodi:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

Juurutage reaalajas lõpp-punkt

Kohandatud klassifikaatori Amazon Comprehend kasutamiseks loome reaalajas lõpp-punkti kasutades CreateEndpoint API-d:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')

Klassifitseerige dokumente reaalajas lõpp-punktiga

Pärast Amazon Comprehendi lõpp-punkti loomist saame dokumentide klassifitseerimiseks kasutada reaalajas lõpp-punkti. Me kasutame comprehend.classify_document() funktsioon ekstraheeritud dokumendi teksti ja järelduse lõpp-punktiga sisendparameetritena:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

Amazon Comprehend tagastab kõik dokumendiklassid usaldusskooriga, mis on iga klassiga seotud võtme-väärtuste paaride massiivi (nimi-skoor). Valime kõrgeima usaldusskooriga dokumendiklassi. Järgmine ekraanipilt on vastuse näidis.

Klassifitseerige dokumente reaalajas lõpp-punktiga

Soovitame tutvuda üksikasjaliku dokumendi klassifikatsiooni näidiskoodiga GitHub.

Ekstraheerimise faas

Amazon Textract võimaldab teil Amazon Textracti abil teksti- ja struktureeritud andmete teavet ekstraheerida Tuvasta DocumentText ja Analüüsidokument vastavalt API-d. Need API-d vastavad JSON-andmetega, mis sisaldavad SÕNU, RIID, VORME, TABELE, geomeetria või piirdekasti teavet, seoseid ja nii edasi. Mõlemad DetectDocumentText ja AnalyzeDocument on sünkroonsed toimingud. Dokumentide asünkroonseks analüüsimiseks kasutage StartDocumentTextDetection.

Struktureeritud andmete ekstraheerimine

Saate dokumentidest eraldada struktureeritud andmeid, näiteks tabeleid, säilitades samas andmestruktuuri ja tuvastatud üksuste vahelised seosed. Võite kasutada Analüüsidokument API koos FeatureType as TABLE et tuvastada dokumendis kõik tabelid. Järgmine joonis illustreerib seda protsessi.

Struktureeritud andmete ekstraheerimine

Vaadake järgmist koodi:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

Me juhime analyze_document() meetodiga FeatureType as TABLES töötaja ajaloo dokumendil ja hankige tabeli väljavõte järgmistes tulemustes.

Analüüsige dokumendi API vastust tabelite ekstraheerimiseks

Poolstruktureeritud andmete eraldamine

Saate dokumentidest eraldada poolstruktureeritud andmeid, näiteks vorme või võtme-väärtuste paare, säilitades samas andmestruktuuri ja tuvastatud üksuste vahelised seosed. Võite kasutada Analüüsidokument API koos FeatureType as FORMS et tuvastada dokumendis kõik vormid. Seda protsessi illustreerib järgmine diagramm.

Poolstruktureeritud andmete eraldamine

Vaadake järgmist koodi:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

Siin juhime analyze_document() meetodiga FeatureType as FORMS töötaja avalduse dokumendile ja hankige tulemustes tabeli väljavõte.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Struktureerimata andmete ekstraheerimine

Amazon Textract on optimaalne tiheda teksti ekstraheerimiseks tööstusharu juhtiva OCR-i täpsusega. Võite kasutada Tuvasta DocumentText API tekstiridade ja tekstirea moodustavate sõnade tuvastamiseks, nagu on näidatud järgmisel joonisel.

Struktureerimata andmete ekstraheerimine

Vaadake järgmist koodi:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

Nüüd juhime detect_document_text() meetodil näidispildil ja saada tulemustes toorteksti väljavõte.

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Arved ja kviitungid

Amazon Textract pakub spetsiaalset tuge arvete ja kviitungite ulatuslikuks töötlemiseks. The Analüüsi kulu API saab välja võtta selgesõnaliselt märgistatud andmed, kaudsed andmed ja reaüksused üksikasjalikust kaupade või teenuste loendist peaaegu igalt arvelt või kviitungilt ilma mallide või konfiguratsioonita. Järgmine joonis illustreerib seda protsessi.

Arvete ja kviitungite väljavõte

Vaadake järgmist koodi:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Textract leiab kviitungilt hankija nime isegi siis, kui see on märgitud ainult lehel olevas logos ilma selgesõnalise sildita "müüja". Samuti võib see leida ja eraldada kuluartikleid, koguseid ja hindu, millel pole reaüksuste veerupäiseid.

Analüüsige kulu API vastust

Isikut tõendavad dokumendid

Amazonase tekst Analüüsi ID API aitab teil automaatselt välja võtta teavet isikut tõendavatest dokumentidest (nt juhilubadest ja passidest), ilma et oleks vaja malle või konfiguratsiooni. Saame eraldada konkreetset teavet, näiteks aegumiskuupäeva ja sünnikuupäeva, samuti arukalt tuvastada ja eraldada kaudset teavet, nagu nimi ja aadress. Seda protsessi illustreerib järgmine diagramm.

Isikut tõendavate dokumentide väljavõtmine

Vaadake järgmist koodi:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

Meil on võimalik kasutada tabulate ilusa prinditud väljundi saamiseks:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

Arukas dokumenditöötlus AWS AI teenustega: 1. osa PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Soovitame läbida üksikasjaliku dokumendi väljavõtte näidiskood GitHubis. Selle postituse täielike koodinäidiste kohta lisateabe saamiseks vaadake GitHub repo.

Järeldus

Selles kaheosalise seeria esimeses postituses arutasime IDP ja lahenduse arhitektuuri erinevaid etappe. Arutasime ka dokumentide klassifitseerimist, kasutades kohandatud klassifikaatorit Amazon Comprehend. Järgmisena uurisime, kuidas saate Amazon Textracti kasutada teabe hankimiseks struktureerimata, poolstruktureeritud, struktureeritud ja spetsiaalsetest dokumenditüüpidest.

In osa 2 Selle seeria osas jätkame arutelu Amazon Textracti väljavõtete ja päringute funktsioonidega. Vaatleme, kuidas kasutada Amazon Comprehendi eelmääratletud oleme ja kohandatud üksusi, et eraldada tiheda tekstiga dokumentidest peamised äriterminid ning kuidas integreerida Amazon A2I in-the-loop ülevaade oma IDP protsessidesse.

Soovitame tutvuda turvalisuse jaotistega Amazoni tekst, Amazoni mõistmineja Amazon A2I dokumentatsiooni ja järgides antud juhiseid. Samuti võtke hetk aega, et vaadata üle ja mõista hinnakujundust Amazoni tekst, Amazoni mõistmineja Amazon A2I.

Autoritest

Suprakash Dutta on Amazon Web Servicesi lahenduste arhitekt. Ta keskendub digitaalse transformatsiooni strateegiale, rakenduste moderniseerimisele ja migratsioonile, andmeanalüütikale ja masinõppele.

Sonali Sahu on Amazon Web Servicesi intelligentse dokumenditöötluse AI/ML-lahenduste arhitektide meeskond. Ta on kirglik tehnofiil ja naudib koostööd klientidega, et lahendada keerulisi probleeme uuenduste abil. Tema põhivaldkonnaks on tehisintellekt ja masinõpe intelligentseks dokumenditöötluseks.

Anjan Biswas on AI teenuste lahenduste vanemarhitekt, kes keskendub AI/ML-ile ja andmeanalüütikale. Anjan on osa ülemaailmsest AI-teenuste meeskonnast ja teeb koostööd klientidega, et aidata neil mõista ja arendada lahendusi tehisintellekti ja ML-ga seotud äriprobleemidele. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-i tehisintellekti teenustega algust teha ja laiendada.

Chinmayee Rane on AI/ML spetsialistilahenduste arhitekt ettevõttes Amazon Web Services. Ta on kirglik rakendusmatemaatika ja masinõppe vastu. Ta keskendub intelligentsete dokumenditöötluslahenduste kavandamisele AWS-i klientidele. Väljaspool tööd naudib ta salsat ja bachata tantsu.

Ajatempel: August 15, 2022August 16, 2022

Ajatempel: Jan 13, 2023

Arukas dokumenditöötlus AWS AI teenustega: 1. osa

Taasavaldanud Platon

Lahenduse ülevaade

Andmete kogumise faas

Klassifikatsiooni faas

Valmistage ette treeningandmed

Treenige kohandatud klassifikaatorit

Juurutage reaalajas lõpp-punkt

Klassifitseerige dokumente reaalajas lõpp-punktiga

Ekstraheerimise faas

Struktureeritud andmete ekstraheerimine

Poolstruktureeritud andmete eraldamine

Struktureerimata andmete ekstraheerimine

Arved ja kviitungid

Isikut tõendavad dokumendid

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Optimaalne hinnakujundus maksimaalse kasumi saamiseks Amazon SageMakeri abil

Valige Amazon Forecastiga prognoosimiseks konkreetsed ajaread

Kiirendage oma identiteedi kinnitamise projekte, kasutades AWS Amplify ja Amazon Rekognitioni näidisrakendusi

Amazon SageMakeri mudeli paralleelteek kiirendab nüüd PyTorchi FSDP töökoormust kuni 20% | Amazoni veebiteenused

Suurendage ML-mudeli jõudlust ja vähendage treeninguaega, kasutades Amazon SageMakeri sisseehitatud algoritme koos eelkoolitatud mudelitega

Amazon EC2 DL2q eksemplar kulutõhusaks ja suure jõudlusega AI järelduste tegemiseks on nüüd üldiselt saadaval | Amazoni veebiteenused

Vähendage ML-i eeltöötluse kulusid ja keerukust Amazon S3 Object Lambda abil

Käivitage masinõppe järelduste töökoormusi AWS Gravitoni-põhistel eksemplaridel rakendusega Amazon SageMaker

Mõõdikud sisu modereerimise hindamiseks Amazon Rekognitionis ja muudes sisu modereerimisteenustes

Tehisintellekti ja masinõppe võimendamine Parsonsis koos AWS DeepRaceriga

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto