Build A Traceable, Custom, Multi-format Document Parsing Pipeline With Amazon Textract

Genudgivet af Platon

Abonnenter: 0

Organisationsformer fungerer som et primært forretningsværktøj på tværs af brancher – fra finansielle tjenesteydelser til sundhedspleje og meget mere. Overvej for eksempel skatteanmeldelsesblanketter i skatteforvaltningsbranchen, hvor der hvert år kommer nye formularer med stort set de samme oplysninger. AWS-kunder på tværs af sektorer har brug for at behandle og opbevare information i former som en del af deres daglige forretningspraksis. Disse former tjener ofte som et primært middel til, at information kan flyde ind i en organisation, hvor teknologiske metoder til datafangst er upraktiske.

Ud over at bruge formularer til at fange information, gennem årene med at tilbyde amazontekst, har vi observeret, at AWS-kunder ofte versionerer deres organisationsformularer baseret på foretagne strukturelle ændringer, felter tilføjet eller ændret eller andre overvejelser såsom ændring af år eller version af formularen.

Når strukturen eller indholdet af en formular ændres, kan dette ofte forårsage udfordringer for traditionelle OCR-systemer eller påvirke downstream-værktøjer, der bruges til at fange information, selv når du har brug for at fange den samme information år for år og aggregere dataene til brug uanset formatet af dokumentet.

For at løse dette problem demonstrerer vi i dette indlæg, hvordan du kan bygge og implementere en hændelsesdrevet, serverløs, multi-format dokumentparsing pipeline med Amazon Textract.

Løsningsoversigt

Følgende diagram illustrerer vores løsningsarkitektur:

For det første tilbyder løsningen pipeline indtagelse ved hjælp af Amazon Simple Storage Service (Amazon S3), Amazon S3 Event Notifications og en Amazon Simple Queue Service (Amazon SQS) køen, så behandlingen begynder, når en formular lander i Amazon S3-målpartitionen. Et arrangement på Amazon Eventbridge oprettes og sendes til en AWS Lambda mål, der udløser et Amazon Textract-job.

Du kan bruge serverløse AWS-tjenester såsom Lambda og AWS-trinfunktioner at skabe asynkrone serviceintegrationer mellem AWS AI-tjenester og AWS Analytics og Database-tjenester til lager, analyse og AI og maskinlæring (ML). I dette indlæg demonstrerer vi, hvordan man bruger Step Functions til asynkront at kontrollere og vedligeholde status for anmodninger til Amazon Textract asynkrone API'er. Dette opnås ved at bruge en tilstandsmaskine til at styre opkald og svar. Vi bruger Lambda i tilstandsmaskinen til at flette de paginerede API-svardata fra Amazon Textract til et enkelt JSON-objekt, der indeholder semistrukturerede tekstdata udtrukket ved hjælp af OCR.

Derefter filtrerer vi på tværs af forskellige formularer ved hjælp af en standardiseret tilgang til at aggregere disse OCR-data til et fælles struktureret format vha Amazonas Athena og en SQL Amazon Textract JSON SerDe.

Du kan spore de trin, der er taget gennem denne pipeline, ved at bruge serverløse trinfunktioner til at spore behandlingstilstanden og bevare outputtet fra hver tilstand. Dette er noget, som kunder i nogle brancher foretrækker at gøre, når de arbejder med data, hvor du skal beholde resultaterne af alle forudsigelser fra tjenester som Amazon Textract for at fremme forklarligheden af dine pipeline-resultater på lang sigt.

Endelig kan du forespørge på de udtrukne data i Athena-tabeller.

I de følgende afsnit guider vi dig gennem opsætningen af pipeline ved hjælp af AWS CloudFormation, test af pipelinen og tilføjelse af nye formularversioner. Denne pipeline giver en løsning, der kan vedligeholdes, fordi hver komponent (indtagelse, tekstudtrækning, tekstbehandling) er uafhængig og isoleret.

Definer standardinputparametre for CloudFormation stakke

For at definere inputparametrene for CloudFormation-stakkene skal du åbne default.properties under params mappe og indtast følgende kode:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Implementer løsningen

Udfør følgende trin for at implementere din pipeline:

Vælg Start Stack:
Vælg Næste.
Angiv stakdetaljerne som vist på det følgende skærmbillede, og vælg Næste.
I Konfigurer stakindstillinger sektion, tilføje valgfri tags, tilladelser og andre avancerede indstillinger.
Vælg Næste.
Gennemgå stakdetaljerne og vælg Jeg anerkender, at AWS CloudFormation kan skabe IAM-ressourcer med brugerdefinerede navne.
Vælg Opret stak.

Dette initierer stakimplementering på din AWS-konto.

Når stakken er implementeret med succes, kan du begynde at teste pipelinen som beskrevet i næste afsnit.

Test rørledningen

Efter en vellykket implementering skal du udføre følgende trin for at teste din pipeline:

Download eksempelfiler på din computer.
Opret en /uploads mappe (partition) under den nyoprettede input S3-bøtte.
Opret de separate mapper (partitioner) som jobapplications under /uploads.
Upload den første version af jobansøgningen fra prøvedokumentmappen til /uploads/jobapplications skillevæg.

Når pipelinen er færdig, kan du finde den udpakkede nøgleværdi for denne version af dokumentet i /OuputS3/03-textract-parsed-output/jobapplications på Amazon S3-konsollen.

Du kan også finde det i Athena-tabellen (applications_data_table) på den Database menu (jobapplicationsdatabase).

Upload den anden version af jobansøgningen fra prøvedokumentmappen til /uploads/jobapplications skillevæg.

Når pipelinen er færdig, kan du finde den udtrukne nøgleværdi for denne version i /OuputS3/03-textract-parsed-output/jobapplications på Amazon S3-konsollen.

Du kan også finde det i Athena-tabellen (applications_data_table) på den Database menu (jobapplicationsdatabase).

Du er færdig! Du har implementeret din pipeline.

Tilføj nye formularversioner

Opdatering af løsningen til en ny formularversion er ligetil – hver formularversion skal kun opdateres ved at teste forespørgslerne i behandlingsstakken.

Når du har foretaget opdateringerne, kan du geninstallere den opdaterede pipeline ved hjælp af AWS CloudFormation API'er og behandle nye dokumenter, der ankommer til de samme standarddatapunkter for dit skema med minimal afbrydelse og udviklingsindsats, der er nødvendig for at foretage ændringer i din pipeline. Denne fleksibilitet, som opnås ved at afkoble parsing- og ekstraktionsadfærden og bruge JSON SerDe-funktionaliteten i Athena, gør denne pipeline til en vedligeholdelsesvenlig løsning for et hvilket som helst antal formularversioner, som din organisation skal behandle for at indsamle information.

Når du kører indlæsningsløsningen, udfyldes data fra indgående formularer automatisk til Athena med oplysninger om de filer og input, der er knyttet til dem. Når dataene i dine formularer bevæger sig fra ustrukturerede til strukturerede data, er de klar til brug til downstream-applikationer såsom analyse, ML-modellering og mere.

Ryd op

For at undgå at pådrage sig løbende gebyrer skal du slette de ressourcer, du har oprettet som en del af denne løsning, når du er færdig.

På Amazon S3-konsollen skal du manuelt slette de buckets, du har oprettet som en del af CloudFormation-stakken.
På AWS CloudFormation-konsollen skal du vælge Stakke i navigationsruden.
Vælg hovedstakken og vælg Slette.

Dette sletter automatisk de indlejrede stakke.

Konklusion

I dette indlæg demonstrerede vi, hvordan kunder, der søger at spore og tilpasse dokumentbehandlingen, kan bygge og implementere en hændelsesdrevet, serverløs, multi-format dokumentparsing pipeline med Amazon Textract. Denne pipeline giver en løsning, der kan vedligeholdes, fordi hver komponent (indtagelse, tekstudtræk, tekstbehandling) er uafhængige og isolerede, hvilket giver organisationer mulighed for at operationalisere deres løsninger for at imødekomme forskellige behandlingsbehov.

Prøv løsningen i dag, og giv din feedback i kommentarfeltet.

Om forfatterne

Emily Soward er dataforsker med AWS Professional Services. Hun har en Master of Science with Distinction in Artificial Intelligence fra University of Edinburgh i Skotland, Storbritannien med vægt på Natural Language Processing (NLP). Emily har tjent i anvendte videnskabelige og ingeniørroller med fokus på AI-aktiveret produktforskning og -udvikling, operationel ekspertise og styring af AI-arbejdsbelastninger, der kører i organisationer i den offentlige og private sektor. Hun bidrager til kundevejledning som AWS Senior Speaker og for nylig som forfatter til AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh er dataforsker med AWS Professional Services. Han har en Master of Science i informationssystemer med koncentration i AI og datavidenskab fra San Diego State University (SDSU), Californien. Han er en fuld stack Data Scientist med en stærk datalogisk baggrund og betroet rådgiver med speciale i AI-systemer og kontroldesign. Han brænder for at hjælpe kunder med at få deres projekter med stor effekt i den rigtige retning, rådgive og vejlede dem i deres Cloud-rejse og bygge state-of-the-art AI/ML-aktiverede løsninger.

Tidsstempel: Marts 17, 2022

Tidsstempel: Juli 18, 2023

Byg en sporbar, brugerdefineret dokumentparsing-pipeline i flere formater med Amazon Textract

Genudgivet af Platon

Løsningsoversigt

Definer standardinputparametre for CloudFormation stakke

Implementer løsningen

Test rørledningen

Tilføj nye formularversioner

Ryd op

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Vidensbaser for Amazon Bedrock understøtter nu metadatafiltrering for at forbedre genfindingsnøjagtigheden | Amazon Web Services

Opret et tekstresuméprojekt med Hugging Face Transformers: Del 1

Byg en e-mail-spammatektor ved hjælp af Amazon SageMaker | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto