Bouw een traceerbare, aangepaste, multi-format documentparseerpijplijn met Amazon Textract

Heruitgegeven door Plato

volgers: 0

Organisatieformulieren dienen als een primair zakelijk hulpmiddel in alle sectoren, van financiële dienstverlening tot gezondheidszorg en meer. Denk bijvoorbeeld aan belastingaangifteformulieren in de branche voor belastingbeheer, waar elk jaar nieuwe formulieren verschijnen met grotendeels dezelfde informatie. AWS-klanten in verschillende sectoren moeten informatie verwerken en opslaan in formulieren als onderdeel van hun dagelijkse zakelijke praktijk. Deze formulieren dienen vaak als een primair middel om informatie in een organisatie te laten stromen waar technologische middelen voor het vastleggen van gegevens onpraktisch zijn.

Naast het gebruik van formulieren om informatie vast te leggen, door de jaren heen, Amazon T-extract, hebben we geconstateerd dat AWS-klanten hun organisatieformulieren vaak aanpassen op basis van aangebrachte structurele wijzigingen, toegevoegde of gewijzigde velden of andere overwegingen, zoals een verandering van jaar of versie van het formulier.

Wanneer de structuur of inhoud van een formulier verandert, kan dit vaak leiden tot uitdagingen voor traditionele OCR-systemen of van invloed zijn op downstream-tools die worden gebruikt om informatie vast te leggen, zelfs wanneer u jaar na jaar dezelfde informatie moet vastleggen en de gegevens moet verzamelen voor gebruik, ongeacht het formaat van het document.

Om dit probleem op te lossen, laten we in dit bericht zien hoe u een gebeurtenisgestuurde, serverloze, multi-format documentparsingpijplijn kunt bouwen en implementeren met Amazon Textract.

Overzicht oplossingen

Het volgende diagram illustreert onze oplossingsarchitectuur:

Ten eerste biedt de oplossing pijplijnopname met behulp van: Amazon eenvoudige opslagservice (Amazon S3), Amazon S3-gebeurtenismeldingen en an Amazon Simple Queue-service (Amazon SQS) wachtrij zodat de verwerking begint wanneer een formulier in de doel-Amazon S3-partitie terechtkomt. Een evenement op Amazon EventBridge wordt gemaakt en verzonden naar een AWS Lambda doel dat een Amazon Textract-taak activeert.

U kunt serverloze AWS-services gebruiken, zoals Lambda en AWS Stap Functies om asynchrone service-integraties te creëren tussen AWS AI-services en AWS Analytics en Database-services voor warehousing, analyse en AI en machine learning (ML). In dit bericht laten we zien hoe u Step Functions kunt gebruiken om de status van verzoeken aan Amazon Textract asynchrone API's asynchroon te controleren en te onderhouden. Dit wordt bereikt door een statusmachine te gebruiken voor het beheren van oproepen en antwoorden. We gebruiken Lambda in de state-machine om de gepagineerde API-responsgegevens van Amazon Textract samen te voegen tot een enkel JSON-object met semi-gestructureerde tekstgegevens die zijn geëxtraheerd met behulp van OCR.

Vervolgens filteren we over verschillende formulieren met behulp van een gestandaardiseerde aanpak om deze OCR-gegevens samen te voegen in een gemeenschappelijk gestructureerd formaat met behulp van: Amazone Athene en een SQL Amazon Textract JSON SerDe.

U kunt de stappen die door deze pijplijn zijn genomen, traceren met behulp van serverloze stapfuncties om de verwerkingsstatus te volgen en de uitvoer van elke status te behouden. Dit is iets dat klanten in sommige sectoren het liefst doen wanneer ze met gegevens werken, waarbij je de resultaten van alle voorspellingen van services zoals Amazon Textract moet behouden om de verklaarbaarheid van je pijplijnresultaten op de lange termijn te bevorderen.

Ten slotte kunt u de geëxtraheerde gegevens in Athena-tabellen opvragen.

In de volgende secties begeleiden we u bij het instellen van de pijplijn met behulp van AWS CloudFormatie, het testen van de pijplijn en het toevoegen van nieuwe formulierversies. Deze pijplijn biedt een onderhoudbare oplossing omdat elk onderdeel (opname, tekstextractie, tekstverwerking) onafhankelijk en geïsoleerd is.

Definieer standaard invoerparameters voor CloudFormation-stacks

Om de invoerparameters voor de CloudFormation-stacks te definiëren, opent u default.properties onder de params map en voer de volgende code in:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Implementeer de oplossing

Voer de volgende stappen uit om uw pijplijn te implementeren:

Kies Start Stack:
Kies Volgende.
Specificeer de stapeldetails zoals getoond in de volgende schermafbeelding en kies Volgende.
In het Configureer stapelopties sectie, voeg optionele tags, machtigingen en andere geavanceerde instellingen toe.
Kies Volgende.
Bekijk de stapeldetails en selecteer Ik erken dat AWS CloudFormation IAM-bronnen met aangepaste namen kan maken.
Kies Maak een stapel.

Hiermee wordt de stack-implementatie in uw AWS-account gestart.

Nadat de stapel met succes is geïmplementeerd, kunt u beginnen met het testen van de pijplijn, zoals beschreven in de volgende sectie.

Test de pijplijn

Na een succesvolle implementatie voert u de volgende stappen uit om uw pijplijn te testen:

Download de voorbeeldbestanden op uw computer.
Maak een /uploads map (partitie) onder de nieuw gemaakte invoer S3-bucket.
Maak de afzonderlijke mappen (partities) zoals jobapplications voor /uploads.
Upload de eerste versie van de sollicitatie vanuit de voorbeeldmap met documenten naar de /uploads/jobapplications partitie.

Wanneer de pijplijn is voltooid, kunt u de geëxtraheerde sleutelwaarde voor deze versie van het document vinden in /OuputS3/03-textract-parsed-output/jobapplications op de Amazon S3-console.

Je kunt het ook vinden in de Athena-tabel (applications_data_table) op de Database menu (jobapplicationsdatabase).

Upload de tweede versie van de sollicitatie vanuit de voorbeeldmap met documenten naar de /uploads/jobapplications partitie.

Wanneer de pijplijn is voltooid, kunt u de geëxtraheerde sleutelwaarde voor deze versie vinden in /OuputS3/03-textract-parsed-output/jobapplications op de Amazon S3-console.

Je kunt het ook vinden in de Athena-tabel (applications_data_table) op de Database menu (jobapplicationsdatabase).

Je bent klaar! U heeft uw pijplijn met succes geïmplementeerd.

Nieuwe formulierversies toevoegen

Het bijwerken van de oplossing voor een nieuwe formulierversie is eenvoudig: elke formulierversie hoeft alleen te worden bijgewerkt door de query's in de verwerkingsstack te testen.

Nadat u de updates hebt aangebracht, kunt u de bijgewerkte pijplijn opnieuw implementeren met behulp van AWS CloudFormation API's en nieuwe documenten verwerken, waarbij u op dezelfde standaardgegevenspunten voor uw schema aankomt met minimale onderbrekingen en ontwikkelingsinspanningen die nodig zijn om wijzigingen in uw pijplijn aan te brengen. Deze flexibiliteit, die wordt bereikt door het ontkoppelen van het parseer- en extractiegedrag en het gebruik van de JSON SerDe-functionaliteit in Athena, maakt deze pijplijn een onderhoudbare oplossing voor een willekeurig aantal formulierversies die uw organisatie moet verwerken om informatie te verzamelen.

Terwijl u de ingest-oplossing uitvoert, worden gegevens van inkomende formulieren automatisch ingevuld naar Athena met informatie over de bestanden en invoer die eraan zijn gekoppeld. Wanneer de gegevens in uw formulieren van ongestructureerde naar gestructureerde gegevens gaan, zijn ze klaar voor gebruik voor downstream-toepassingen zoals analyse, ML-modellering en meer.

Opruimen

Om lopende kosten te voorkomen, verwijdert u de resources die u als onderdeel van deze oplossing hebt gemaakt wanneer u klaar bent.

Verwijder op de Amazon S3-console handmatig de buckets die u hebt gemaakt als onderdeel van de CloudFormation-stack.
Kies op de AWS CloudFormation-console Stacks in het navigatievenster.
Selecteer de hoofdstapel en kies Verwijder.

Hiermee worden de geneste stapels automatisch verwijderd.

Conclusie

In dit bericht hebben we laten zien hoe klanten die de documentverwerking willen traceren en aanpassen, een gebeurtenisgestuurde, serverloze, multi-format documentparsingpijplijn kunnen bouwen en implementeren met Amazon Textract. Deze pijplijn biedt een onderhoudbare oplossing omdat elk onderdeel (opname, tekstextractie, tekstverwerking) onafhankelijk en geïsoleerd is, waardoor organisaties hun oplossingen kunnen operationaliseren om aan uiteenlopende verwerkingsbehoeften te voldoen.

Probeer de oplossing vandaag nog en laat uw feedback achter in het opmerkingengedeelte.

Over de auteurs

Emily Soward is een datawetenschapper bij AWS Professional Services. Ze heeft een Master of Science met onderscheiding in kunstmatige intelligentie van de Universiteit van Edinburgh in Schotland, Verenigd Koninkrijk, met de nadruk op natuurlijke taalverwerking (NLP). Emily heeft toegepaste wetenschappelijke en technische functies vervuld die gericht waren op productonderzoek en -ontwikkeling op basis van AI, operationele uitmuntendheid en governance voor AI-workloads die worden uitgevoerd bij organisaties in de publieke en private sector. Ze draagt bij aan klantbegeleiding als AWS Senior Speaker en recentelijk als auteur voor AWS Well-Architected in de Machine Learning Lens.

Sandeep Singh is een datawetenschapper bij AWS Professional Services. Hij heeft een Master of Science in Information Systems met een concentratie in AI en Data Science van de San Diego State University (SDSU), Californië. Hij is een full-stack datawetenschapper met een sterke computerwetenschappelijke achtergrond en een vertrouwde adviseur met specialisatie in AI-systemen en regelontwerp. Hij heeft een passie voor het helpen van klanten om hun projecten met grote impact in de goede richting te krijgen, hen te adviseren en te begeleiden in hun Cloud-reis en om state-of-the-art AI/ML-oplossingen te bouwen.

Tijdstempel: 17 maart 2022

Tijdstempel: Juli 18, 2023

Bouw een traceerbare, aangepaste, multi-format document parsing pijplijn met Amazon Textract

Heruitgegeven door Plato

Overzicht oplossingen

Definieer standaard invoerparameters voor CloudFormation-stacks

Implementeer de oplossing

Test de pijplijn

Nieuwe formulierversies toevoegen

Opruimen

Conclusie

Over de auteurs

Meer van AWS-machine learning

Knowledge Bases voor Amazon Bedrock ondersteunt nu het filteren van metagegevens om de nauwkeurigheid van het ophalen te verbeteren | Amazon-webservices

Zet een tekstsamenvattingsproject op met Hugging Face Transformers: Part 1

Bouw een e-mailspamdetector met behulp van Amazon SageMaker | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account