Créez un pipeline d'analyse de documents traçable, personnalisé et multiformat avec Amazon Textract

Republié par Platon

Suiveurs: 0

Les formulaires organisationnels servent d'outil commercial principal dans tous les secteurs, des services financiers aux soins de santé, etc. Considérons, par exemple, les formulaires de déclaration de revenus dans le secteur de la gestion fiscale, où de nouveaux formulaires sortent chaque année avec en grande partie les mêmes informations. Les clients AWS de tous les secteurs ont besoin de traiter et de stocker des informations dans des formulaires dans le cadre de leurs pratiques commerciales quotidiennes. Ces formulaires servent souvent de moyen principal pour que l'information circule dans une organisation où les moyens technologiques de saisie de données ne sont pas pratiques.

En plus d'utiliser des formulaires pour saisir des informations, au fil des années d'offre Extrait d'Amazon, nous avons observé que les clients AWS versionnent fréquemment leurs formulaires organisationnels en fonction des modifications structurelles apportées, des champs ajoutés ou modifiés, ou d'autres considérations telles qu'un changement d'année ou de version du formulaire.

Lorsque la structure ou le contenu d'un formulaire change, cela peut souvent poser des problèmes aux systèmes OCR traditionnels ou avoir un impact sur les outils en aval utilisés pour capturer des informations, même lorsque vous devez capturer les mêmes informations d'une année sur l'autre et agréger les données à utiliser quel que soit le format. du document.

Pour résoudre ce problème, dans cet article, nous montrons comment créer et déployer un pipeline d'analyse de documents multiformat, sans serveur et piloté par les événements avec Amazon Textract.

Vue d'ensemble de la solution

Le schéma suivant illustre l'architecture de notre solution :

Tout d'abord, la solution propose l'ingestion de pipeline à l'aide de Service de stockage simple Amazon (Amazon S3), les notifications d'événements Amazon S3 et un Service Amazon Simple Queue (Amazon SQS) afin que le traitement commence lorsqu'un formulaire arrive dans la partition Amazon S3 cible. Un événement sur Amazon Event Bridge est créé et envoyé à un AWS Lambda cible qui déclenche une tâche Amazon Textract.

Vous pouvez utiliser des services AWS sans serveur tels que Lambda et Fonctions d'étape AWS pour créer des intégrations de services asynchrones entre les services AWS AI et AWS Analytics et les services de base de données pour l'entreposage, l'analyse, l'IA et l'apprentissage automatique (ML). Dans cet article, nous montrons comment utiliser Step Functions pour contrôler et maintenir de manière asynchrone l'état des demandes aux API asynchrones Amazon Textract. Ceci est réalisé en utilisant une machine d'état pour gérer les appels et les réponses. Nous utilisons Lambda dans la machine d'état pour fusionner les données de réponse d'API paginées d'Amazon Textract en un seul objet JSON contenant des données de texte semi-structurées extraites à l'aide de l'OCR.

Ensuite, nous filtrons sur différents formulaires en utilisant une approche standardisée pour agréger ces données OCR dans un format structuré commun en utilisant Amazone Athéna et un JSON SQL Amazon Textract SerDe.

Vous pouvez suivre les étapes suivies dans ce pipeline à l'aide de Step Functions sans serveur pour suivre l'état de traitement et conserver la sortie de chaque état. C'est quelque chose que les clients de certains secteurs préfèrent faire lorsqu'ils travaillent avec des données où vous devez conserver les résultats de toutes les prédictions de services tels qu'Amazon Textract pour favoriser l'explicabilité des résultats de votre pipeline à long terme.

Enfin, vous pouvez interroger les données extraites dans les tables Athena.

Dans les sections suivantes, nous vous expliquons comment configurer le pipeline à l'aide de AWS CloudFormation, tester le pipeline et ajouter de nouvelles versions de formulaire. Ce pipeline fournit une solution maintenable car chaque composant (ingestion, extraction de texte, traitement de texte) est indépendant et isolé.

Définir les paramètres d'entrée par défaut pour les piles CloudFormation

Pour définir les paramètres d'entrée des piles CloudFormation, ouvrez default.properties sous le params dossier et entrez le code suivant:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Déployez la solution

Pour déployer votre pipeline, procédez comme suit :

Selectionnez Lancer la pile:
Selectionnez Suivant.
Spécifiez les détails de la pile comme indiqué dans la capture d'écran suivante et choisissez Suivant.
Dans le Configurer les options de pile section, ajoutez des balises facultatives, des autorisations et d'autres paramètres avancés.
Selectionnez Suivant.
Vérifiez les détails de la pile et sélectionnez Je reconnais qu'AWS CloudFormation peut créer des ressources IAM avec des noms personnalisés.
Selectionnez Créer une pile.

Cela lance le déploiement de la pile dans votre compte AWS.

Une fois la pile déployée avec succès, vous pouvez commencer à tester le pipeline comme décrit dans la section suivante.

Tester le pipeline

Après un déploiement réussi, procédez comme suit pour tester votre pipeline :

Télécharger exemples de fichiers sur votre ordinateur.
Créer un /uploads dossier (partition) sous le compartiment S3 d'entrée nouvellement créé.
Créez les dossiers séparés (partitions) comme jobapplications sous /uploads.
Téléchargez la première version de la demande d'emploi à partir du dossier d'exemples de documents vers le /uploads/jobapplications cloison.

Lorsque le pipeline est terminé, vous pouvez trouver la valeur-clé extraite pour cette version du document dans /OuputS3/03-textract-parsed-output/jobapplications sur la console Amazon S3.

Vous pouvez également le trouver dans le tableau Athéna (applications_data_table) sur le Base de données menu (jobapplicationsdatabase).

Téléchargez la deuxième version de la demande d'emploi à partir du dossier d'exemples de documents vers le /uploads/jobapplications cloison.

Lorsque le pipeline est terminé, vous pouvez trouver la valeur-clé extraite pour cette version dans /OuputS3/03-textract-parsed-output/jobapplications sur la console Amazon S3.

Vous pouvez également le trouver dans le tableau Athéna (applications_data_table) sur le Base de données menu (jobapplicationsdatabase).

Vous avez terminé! Vous avez déployé votre pipeline avec succès.

Ajouter de nouvelles versions de formulaire

La mise à jour de la solution pour une nouvelle version de formulaire est simple : chaque version de formulaire ne doit être mise à jour qu'en testant les requêtes dans la pile de traitement.

Après avoir effectué les mises à jour, vous pouvez redéployer le pipeline mis à jour à l'aide des API AWS CloudFormation et traiter de nouveaux documents, en arrivant aux mêmes points de données standard pour votre schéma avec un minimum d'interruptions et d'efforts de développement nécessaires pour apporter des modifications à votre pipeline. Cette flexibilité, qui est obtenue en découplant le comportement d'analyse et d'extraction et en utilisant la fonctionnalité JSON SerDe dans Athena, fait de ce pipeline une solution maintenable pour n'importe quel nombre de versions de formulaire que votre organisation doit traiter pour collecter des informations.

Lorsque vous exécutez la solution d'ingestion, les données des formulaires entrants sont automatiquement renseignées dans Athena avec des informations sur les fichiers et les entrées qui leur sont associées. Lorsque les données de vos formulaires passent de données non structurées à des données structurées, elles sont prêtes à être utilisées pour des applications en aval telles que l'analyse, la modélisation ML, etc.

Nettoyer

Pour éviter d'encourir des frais permanents, supprimez les ressources que vous avez créées dans le cadre de cette solution lorsque vous avez terminé.

Sur la console Amazon S3, supprimez manuellement les compartiments que vous avez créés dans le cadre de la pile CloudFormation.
Sur la console AWS CloudFormation, choisissez Combos dans le volet de navigation.
Sélectionnez la pile principale et choisissez Supprimer.

Cela supprime automatiquement les piles imbriquées.

Conclusion

Dans cet article, nous avons démontré comment les clients cherchant à tracer et à personnaliser le traitement des documents peuvent créer et déployer un pipeline d'analyse de documents multiformat, sans serveur et piloté par les événements avec Amazon Textract. Ce pipeline fournit une solution maintenable car chaque composant (ingestion, extraction de texte, traitement de texte) est indépendant et isolé, ce qui permet aux organisations d'opérationnaliser leurs solutions pour répondre à divers besoins de traitement.

Essayez la solution aujourd'hui et laissez vos commentaires dans la section des commentaires.

À propos des auteurs

Emilie Soward est un Data Scientist avec AWS Professional Services. Elle est titulaire d'une maîtrise ès sciences avec distinction en intelligence artificielle de l'Université d'Édimbourg en Écosse, au Royaume-Uni, avec un accent sur le traitement du langage naturel (TAL). Emily a occupé des postes scientifiques et d'ingénierie appliqués axés sur la recherche et le développement de produits basés sur l'IA, l'excellence opérationnelle et la gouvernance des charges de travail d'IA exécutées dans des organisations des secteurs public et privé. Elle contribue à l'orientation des clients en tant que conférencière principale d'AWS et, récemment, en tant qu'auteur pour AWS Well-Architected dans l'objectif d'apprentissage automatique.

Sandeep Singh est un Data Scientist avec AWS Professional Services. Il est titulaire d'une maîtrise ès sciences en systèmes d'information avec concentration en IA et en science des données de l'Université d'État de San Diego (SDSU), en Californie. Il est un scientifique des données complet avec une solide formation en informatique et un conseiller de confiance spécialisé dans la conception de systèmes d'IA et de contrôle. Il se passionne pour aider les clients à orienter leurs projets à fort impact dans la bonne direction, en les conseillant et en les guidant dans leur parcours vers le Cloud et en créant des solutions de pointe compatibles avec l'IA/ML.

Horodatage: 17 mars 2022

Horodatage: Le 18 juillet 2023

Créez un pipeline d'analyse de documents traçable, personnalisé et multiformat avec Amazon Textract

Republié par Platon

Vue d'ensemble de la solution

Définir les paramètres d'entrée par défaut pour les piles CloudFormation

Déployez la solution

Tester le pipeline

Ajouter de nouvelles versions de formulaire

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Les bases de connaissances pour Amazon Bedrock prennent désormais en charge le filtrage des métadonnées pour améliorer la précision de la récupération | Services Web Amazon

Mettre en place un projet de synthèse de texte avec Hugging Face Transformers : Partie 1

Créez un détecteur de spam par e-mail à l'aide d'Amazon SageMaker | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte