Bygg en sporbar, tilpasset dokumentparsing-pipeline i flere formater med Amazon Textract

Publisert av Platon

Følgere: 0

Organisasjonsformer fungerer som et primært forretningsverktøy på tvers av bransjer – fra finansielle tjenester, til helsetjenester og mer. Vurder for eksempel skatteregistreringsskjemaer i skatteforvaltningsbransjen, hvor nye skjemaer kommer ut hvert år med stort sett samme informasjon. AWS-kunder på tvers av sektorer må behandle og lagre informasjon i skjemaer som en del av deres daglige forretningspraksis. Disse skjemaene fungerer ofte som en primær måte for informasjon å strømme inn i en organisasjon der teknologiske metoder for datafangst er upraktiske.

I tillegg til å bruke skjemaer for å fange informasjon, gjennom årene med tilbud amazontekst, har vi observert at AWS-kunder ofte versjonerer organisasjonsformene sine basert på strukturelle endringer som er gjort, felter lagt til eller endret, eller andre hensyn som for eksempel endring av år eller versjon av skjemaet.

Når strukturen eller innholdet i et skjema endres, kan dette ofte forårsake utfordringer for tradisjonelle OCR-systemer eller påvirke nedstrømsverktøy som brukes til å fange informasjon, selv når du trenger å fange den samme informasjonen år for år og samle dataene for bruk uavhengig av formatet av dokumentet.

For å løse dette problemet, i dette innlegget demonstrerer vi hvordan du kan bygge og distribuere en hendelsesdrevet, serverløs, multi-format dokumentparsing pipeline med Amazon Textract.

Løsningsoversikt

Følgende diagram illustrerer løsningsarkitekturen vår:

For det første tilbyr løsningen pipeline inntak ved hjelp av Amazon enkel lagringstjeneste (Amazon S3), Amazon S3 hendelsesvarsler og en Amazon enkel køtjeneste (Amazon SQS) køen slik at behandlingen starter når et skjema lander i mål-Amazon S3-partisjonen. Et arrangement på Amazon EventBridge opprettes og sendes til en AWS Lambda mål som utløser en Amazon Textract-jobb.

Du kan bruke serverløse AWS-tjenester som Lambda og AWS trinnfunksjoner å lage asynkrone tjenesteintegrasjoner mellom AWS AI-tjenester og AWS Analytics og Database-tjenester for lager, analyse og AI og maskinlæring (ML). I dette innlegget demonstrerer vi hvordan du bruker Step Functions til asynkront å kontrollere og vedlikeholde tilstanden til forespørsler til Amazon Textract asynkrone APIer. Dette oppnås ved å bruke en tilstandsmaskin for å administrere anrop og svar. Vi bruker Lambda i statsmaskinen for å slå sammen de paginerte API-svardataene fra Amazon Textract til et enkelt JSON-objekt som inneholder semistrukturerte tekstdata ekstrahert ved hjelp av OCR.

Deretter filtrerer vi på tvers av forskjellige skjemaer ved å bruke en standardisert tilnærming for å samle disse OCR-dataene til et felles strukturert format ved å bruke Amazonas Athena og en SQL Amazon Textract JSON SerDe.

Du kan spore trinnene som er tatt gjennom denne rørledningen ved å bruke serverløse trinnfunksjoner for å spore behandlingstilstanden og beholde utdataene fra hver tilstand. Dette er noe kunder i enkelte bransjer foretrekker å gjøre når de jobber med data der du må beholde resultatene av alle spådommer fra tjenester som Amazon Textract for å fremme forklarbarheten til pipelineresultatene dine på lang sikt.

Til slutt kan du spørre de utpakkede dataene i Athena-tabeller.

I de følgende avsnittene leder vi deg gjennom å sette opp rørledningen ved hjelp av AWS skyformasjon, teste rørledningen og legge til nye skjemaversjoner. Denne pipelinen gir en vedlikeholdbar løsning fordi hver komponent (inntak, tekstutvinning, tekstbehandling) er uavhengig og isolert.

Definer standard inndataparametere for CloudFormation-stabler

Åpne for å definere inngangsparametrene for CloudFormation-stablene default.properties under params mappe og skriv inn følgende kode:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Distribuere løsningen

For å distribuere rørledningen, fullfør følgende trinn:

Velg Start Stack:
Velg neste.
Spesifiser stabeldetaljene som vist i følgende skjermbilde og velg neste.
på Konfigurer stakkalternativer seksjonen, legg til valgfrie tagger, tillatelser og andre avanserte innstillinger.
Velg neste.
Se gjennom stabeldetaljene og velg Jeg erkjenner at AWS CloudFormation kan lage IAM-ressurser med tilpassede navn.
Velg Lag stabel.

Dette starter stabeldistribusjon i AWS-kontoen din.

Etter at stabelen er vellykket distribuert, kan du begynne å teste rørledningen som beskrevet i neste avsnitt.

Test rørledningen

Etter en vellykket distribusjon, fullfør følgende trinn for å teste pipeline:

Last ned eksempelfiler på datamaskinen din.
Lag en /uploads mappe (partisjon) under den nyopprettede S3-inngangen.
Lag separate mapper (partisjoner) som jobapplications etter /uploads.
Last opp den første versjonen av jobbsøknaden fra prøvedokumentmappen til /uploads/jobapplications skillevegg.

Når pipelinen er fullført, kan du finne den utpakkede nøkkelverdien for denne versjonen av dokumentet i /OuputS3/03-textract-parsed-output/jobapplications på Amazon S3-konsollen.

Du kan også finne den i Athena-tabellen (applications_data_table) på Database Meny (jobapplicationsdatabase).

Last opp den andre versjonen av jobbsøknaden fra prøvedokumentmappen til /uploads/jobapplications skillevegg.

Når rørledningen er fullført, kan du finne den utpakkede nøkkelverdien for denne versjonen i /OuputS3/03-textract-parsed-output/jobapplications på Amazon S3-konsollen.

Du kan også finne den i Athena-tabellen (applications_data_table) på Database Meny (jobapplicationsdatabase).

Du er ferdig! Du har implementert rørledningen.

Legg til nye skjemaversjoner

Det er enkelt å oppdatere løsningen for en ny skjemaversjon – hver skjemaversjon trenger bare å oppdateres ved å teste spørringene i behandlingsstakken.

Etter at du har foretatt oppdateringene, kan du distribuere den oppdaterte pipelinen på nytt ved å bruke AWS CloudFormation APIer og behandle nye dokumenter, og komme frem til de samme standarddatapunktene for skjemaet ditt med minimal avbrudd og utviklingsinnsats som er nødvendig for å gjøre endringer i pipelinen. Denne fleksibiliteten, som oppnås ved å koble fra parsing- og ekstraksjonsatferden og bruke JSON SerDe-funksjonaliteten i Athena, gjør denne pipelinen til en vedlikeholdbar løsning for et hvilket som helst antall skjemaversjoner som organisasjonen din trenger å behandle for å samle informasjon.

Når du kjører innføringsløsningen, fylles data fra innkommende skjemaer automatisk ut til Athena med informasjon om filene og inndataene knyttet til dem. Når dataene i skjemaene dine går fra ustrukturerte til strukturerte data, er de klare til bruk for nedstrømsapplikasjoner som analyse, ML-modellering og mer.

Rydd opp

For å unngå løpende kostnader, slett ressursene du opprettet som en del av denne løsningen når du er ferdig.

Slett bøttene du opprettet som en del av CloudFormation-stabelen manuelt på Amazon S3-konsollen.
Velg på AWS CloudFormation-konsollen Stabler i navigasjonsruten.
Velg hovedstabelen og velg Delete.

Dette sletter automatisk de nestede stablene.

konklusjonen

I dette innlegget demonstrerte vi hvordan kunder som ønsker å spore og tilpasse dokumentbehandlingen, kan bygge og distribuere en hendelsesdrevet, serverløs, flerformats dokumentparsing-pipeline med Amazon Textract. Denne pipelinen gir en vedlikeholdbar løsning fordi hver komponent (inntak, tekstutvinning, tekstbehandling) er uavhengige og isolerte, slik at organisasjoner kan operasjonalisere sine løsninger for å møte ulike behandlingsbehov.

Prøv løsningen i dag og gi tilbakemelding i kommentarfeltet.

Om forfatterne

Emily Soward er en dataforsker med AWS Professional Services. Hun har en Master of Science with Distinction in Artificial Intelligence fra University of Edinburgh i Skottland, Storbritannia med vekt på Natural Language Processing (NLP). Emily har tjent i anvendte vitenskapelige og ingeniørroller med fokus på AI-aktivert produktforskning og -utvikling, operasjonell fortreffelighet og styring for AI-arbeidsmengder som kjører i organisasjoner i offentlig og privat sektor. Hun bidrar til kundeveiledning som AWS Senior Speaker og nylig som forfatter for AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh er en dataforsker med AWS Professional Services. Han har en Master of Science i informasjonssystemer med konsentrasjon i AI og datavitenskap fra San Diego State University (SDSU), California. Han er en full stack Data Scientist med en sterk informatikkbakgrunn og pålitelig rådgiver med spesialisering i AI-systemer og kontrolldesign. Han er lidenskapelig opptatt av å hjelpe kunder med å få prosjektene sine med høy effekt i riktig retning, gi råd og veiledning i deres Cloud-reise, og bygge toppmoderne AI/ML-aktiverte løsninger.

Tidstempel: Mars 17, 2022

Tidstempel: Juli 18, 2023

Bygg en sporbar, tilpasset dokumentparsing-pipeline i flere formater med Amazon Textract

Publisert av Platon

Løsningsoversikt

Definer standard inndataparametere for CloudFormation-stabler

Distribuere løsningen

Test rørledningen

Legg til nye skjemaversjoner

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Kunnskapsbaser for Amazon Bedrock støtter nå metadatafiltrering for å forbedre gjenfinningsnøyaktigheten | Amazon Web Services

Sett opp et tekstoppsummeringsprosjekt med Hugging Face Transformers: Del 1

Bygg en spamdetektor for e-post ved å bruke Amazon SageMaker | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn