Bygg en spårbar, anpassad dokumentanalyspipeline i flera format med Amazon Textract

Återutgiven av Platon

anhängare: 0

Organisationsformer fungerar som ett primärt affärsverktyg över branscher – från finansiella tjänster till hälso- och sjukvård och mer. Tänk till exempel på skatteanmälningsblanketter inom skatteförvaltningsbranschen, där nya blanketter kommer ut varje år med i stort sett samma information. AWS-kunder över sektorer behöver bearbeta och lagra information i former som en del av deras dagliga affärspraxis. Dessa formulär fungerar ofta som ett primärt sätt för information att flöda in i en organisation där tekniska metoder för datafångst är opraktiska.

Förutom att använda formulär för att fånga information, under årens lopp amazontext, har vi observerat att AWS-kunder ofta versionerar sina organisationsformer baserat på gjorda strukturella ändringar, fält som lagts till eller ändrats, eller andra överväganden som t.ex. byte av år eller version av formuläret.

När strukturen eller innehållet i ett formulär ändras kan detta ofta orsaka utmaningar för traditionella OCR-system eller påverka nedströmsverktyg som används för att fånga information, även när du behöver fånga samma information år efter år och aggregera data för användning oavsett format av dokumentet.

För att lösa detta problem demonstrerar vi i det här inlägget hur du kan bygga och distribuera en händelsedriven, serverlös, dokumentanalyspipeline i flera format med Amazon Textract.

Lösningsöversikt

Följande diagram illustrerar vår lösningsarkitektur:

För det första erbjuder lösningen pipeline intag med hjälp av Amazon enkel lagringstjänst (Amazon S3), Amazon S3 Event Notifications och en Amazon enkel kötjänst (Amazon SQS) kö så att behandlingen börjar när ett formulär landar i målpartitionen för Amazon S3. En händelse på Amazon EventBridge skapas och skickas till en AWS Lambda mål som utlöser ett Amazon Textract-jobb.

Du kan använda serverlösa AWS-tjänster som Lambda och AWS stegfunktioner att skapa asynkrona tjänsteintegrationer mellan AWS AI-tjänster och AWS Analytics- och databastjänster för lagerhållning, analys och AI och maskininlärning (ML). I det här inlägget visar vi hur man använder Step Functions för att asynkront kontrollera och underhålla tillståndet för förfrågningar till Amazon Textracts asynkrona API:er. Detta uppnås genom att använda en tillståndsmaskin för att hantera samtal och svar. Vi använder Lambda i tillståndsmaskinen för att slå samman sidnumrerade API-svarsdata från Amazon Textract till ett enda JSON-objekt som innehåller semistrukturerad textdata extraherad med OCR.

Sedan filtrerar vi över olika former med ett standardiserat tillvägagångssätt för att aggregera denna OCR-data till ett gemensamt strukturerat format med hjälp av Amazonas Athena och en SQL Amazon Textract JSON SerDe.

Du kan spåra stegen som tagits genom denna pipeline med hjälp av serverlösa stegfunktioner för att spåra bearbetningstillståndet och behålla utdata från varje tillstånd. Detta är något som kunder i vissa branscher föredrar att göra när de arbetar med data där du måste behålla resultaten av alla förutsägelser från tjänster som Amazon Textract för att främja förklarabarheten av dina pipelineresultat på lång sikt.

Slutligen kan du fråga efter extraherade data i Athena-tabeller.

I följande avsnitt går vi igenom hur du ställer in pipeline med hjälp av AWS molnformation, testa pipelinen och lägga till nya formulärversioner. Denna pipeline ger en underhållbar lösning eftersom varje komponent (intag, textextraktion, textbearbetning) är oberoende och isolerad.

Definiera standardinmatningsparametrar för CloudFormation-stackar

För att definiera inmatningsparametrarna för CloudFormation-stackarna, öppna default.properties under params mapp och ange följande kod:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Distribuera lösningen

Utför följande steg för att distribuera din pipeline:

Välja Starta stack:
Välja Nästa.
Ange stackdetaljerna som visas i följande skärmdump och välj Nästa.
I Konfigurera stackalternativ lägg till valfria taggar, behörigheter och andra avancerade inställningar.
Välja Nästa.
Granska stackdetaljerna och välj Jag erkänner att AWS CloudFormation kan skapa IAM-resurser med anpassade namn.
Välja Skapa stack.

Detta initierar stackdistribution i ditt AWS-konto.

Efter att stacken har distribuerats framgångsrikt kan du börja testa pipeline enligt beskrivningen i nästa avsnitt.

Testa pipelinen

Efter en framgångsrik implementering, slutför följande steg för att testa din pipeline:

ladda ner exempel på filer på din dator.
Skapa ett /uploads mapp (partition) under den nyskapade S3-inmatningshinken.
Skapa separata mappar (partitioner) som jobapplications under /uploads.
Ladda upp den första versionen av jobbansökan från mappen med exempeldokument till /uploads/jobapplications dela.

När pipelinen är klar kan du hitta det extraherade nyckel-värdet för denna version av dokumentet i /OuputS3/03-textract-parsed-output/jobapplications på Amazon S3-konsolen.

Du kan också hitta den i Athena-tabellen (applications_data_table) på Databas meny (jobapplicationsdatabase).

Ladda upp den andra versionen av jobbansökan från mappen med exempeldokument till /uploads/jobapplications dela.

När pipelinen är klar kan du hitta det extraherade nyckel-värdet för denna version i /OuputS3/03-textract-parsed-output/jobapplications på Amazon S3-konsolen.

Du kan också hitta den i Athena-tabellen (applications_data_table) på Databas meny (jobapplicationsdatabase).

Du är klar! Du har framgångsrikt distribuerat din pipeline.

Lägg till nya formulärversioner

Att uppdatera lösningen för en ny formulärversion är enkel – varje formulärversion behöver bara uppdateras genom att testa frågorna i bearbetningsstacken.

Efter att du har gjort uppdateringarna kan du distribuera om den uppdaterade pipelinen med AWS CloudFormation API:er och bearbeta nya dokument, som kommer till samma standarddatapunkter för ditt schema med minimala avbrott och utvecklingsansträngningar som krävs för att göra ändringar i din pipeline. Denna flexibilitet, som uppnås genom att koppla bort parsnings- och extraktionsbeteendet och använda JSON SerDe-funktionaliteten i Athena, gör denna pipeline till en underhållbar lösning för valfritt antal formulärversioner som din organisation behöver bearbeta för att samla information.

När du kör inmatningslösningen fylls data från inkommande formulär automatiskt i Athena med information om filerna och indata som är kopplade till dem. När data i dina formulär går från ostrukturerad till strukturerad data är den redo att användas för nedströmsapplikationer som analys, ML-modellering och mer.

Städa upp

Ta bort de resurser du skapade som en del av den här lösningen när du är klar för att undvika löpande avgifter.

På Amazon S3-konsolen, radera manuellt de hinkar du skapade som en del av CloudFormation-stacken.
Välj på AWS CloudFormation-konsolen Stacks i navigeringsfönstret.
Välj huvudstacken och välj Radera.

Detta tar automatiskt bort de kapslade staplarna.

Slutsats

I det här inlägget demonstrerade vi hur kunder som vill spåra och anpassa dokumentbearbetningen kan bygga och distribuera en händelsedriven, serverlös dokumentanalyspipeline i flera format med Amazon Textract. Denna pipeline ger en underhållbar lösning eftersom varje komponent (intag, textextraktion, textbearbetning) är oberoende och isolerade, vilket gör att organisationer kan operationalisera sina lösningar för att tillgodose olika bearbetningsbehov.

Prova lösningen idag och lämna din feedback i kommentarsfältet.

Om författarna

Emily Soward är en dataforskare med AWS Professional Services. Hon har en Master of Science with Distinction in Artificiell Intelligens från University of Edinburgh i Skottland, Storbritannien med tonvikt på Natural Language Processing (NLP). Emily har arbetat i tillämpad vetenskap och ingenjörsroller med fokus på AI-aktiverad produktforskning och -utveckling, operationell excellens och styrning av AI-arbetsbelastningar inom organisationer i den offentliga och privata sektorn. Hon bidrar till kundvägledning som AWS Senior Speaker och nyligen som författare för AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh är en dataforskare med AWS Professional Services. Han har en Master of Science i informationssystem med koncentration inom AI och datavetenskap från San Diego State University (SDSU), Kalifornien. Han är en full stack Data Scientist med en stark datavetenskaplig bakgrund och betrodd rådgivare med specialisering inom AI-system och kontrolldesign. Han brinner för att hjälpa kunder att få sina projekt med stor effekt i rätt riktning, ge råd och vägleda dem i deras molnresa och bygga toppmoderna AI/ML-aktiverade lösningar.

Tidsstämpel: Mars 17, 2022

Tidsstämpel: Juli 18, 2023

Bygg en spårbar, anpassad dokumentanalyspipeline i flera format med Amazon Textract

Återutgiven av Platon

Lösningsöversikt

Definiera standardinmatningsparametrar för CloudFormation-stackar

Distribuera lösningen

Testa pipelinen

Lägg till nya formulärversioner

Städa upp

Slutsats

Om författarna

Mer från AWS maskininlärning

Kunskapsbaser för Amazon Bedrock stöder nu metadatafiltrering för att förbättra hämtningsnoggrannheten | Amazon webbtjänster

Skapa ett textsammanfattningsprojekt med Hugging Face Transformers: Del 1

Bygg en skräppostdetektor för e-post med Amazon SageMaker | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto