Modérer, classer et traiter des documents à l'aide d'Amazon Rekognition et d'Amazon Textract

Republié par Platon

Suiveurs: 0

De nombreuses entreprises sont submergées par le volume abondant de documents qu'elles doivent traiter, organiser et classer pour mieux servir leurs clients. Des exemples de tels peuvent être les demandes de prêt, les déclarations de revenus et la facturation. Ces documents sont plus couramment reçus sous forme d'images et sont pour la plupart multipages et dans un format de faible qualité. Pour être plus compétitives et rentables, et pour rester sécurisées et conformes en même temps, ces entreprises doivent faire évoluer leurs capacités de traitement des documents afin de réduire les délais de traitement et d'améliorer la précision de la classification de manière automatisée et évolutive. Ces entreprises sont confrontées aux défis suivants dans le traitement des documents :

Effectuer une modération sur les documents pour détecter le contenu inapproprié, indésirable ou offensant
La classification manuelle des documents, qui est adoptée par les petites entreprises, prend du temps, est sujette aux erreurs et coûteuse
Les techniques d'OCR avec des systèmes basés sur des règles ne sont pas assez intelligentes et ne peuvent pas s'adapter aux changements de format de document
Les entreprises qui adoptent des approches d'apprentissage automatique (ML) n'ont souvent pas les ressources nécessaires pour faire évoluer leur modèle afin de gérer les pics de volume de documents entrants

Cet article aborde ces défis et fournit une architecture qui résout efficacement ces problèmes. Nous montrons comment vous pouvez utiliser Amazon Reconnaissance et les Extrait d'Amazon pour optimiser et réduire les efforts humains dans le traitement des documents. Amazon Rekognition identifie les étiquettes de modération dans votre document et les classe à l'aide Étiquettes personnalisées Amazon Rekognition. Amazon Textract extrait le texte de vos documents.

Dans cet article, nous couvrons la construction de deux pipelines ML (formation et inférence) pour traiter les documents sans avoir besoin d'effort manuel ou de code personnalisé. Les étapes de haut niveau du pipeline d'inférence incluent :

Effectuez la modération des documents téléchargés à l'aide d'Amazon Rekognition.
Classez les documents en différentes catégories telles que les W-2, les factures, les relevés bancaires et les fiches de paie à l'aide des étiquettes personnalisées de Rekognition.
Extrayez du texte de documents tels que du texte imprimé, de l'écriture manuscrite, des formulaires et des tableaux à l'aide d'Amazon Textract.

Vue d'ensemble de la solution

Cette solution utilise les services d'IA, les technologies sans serveur et les services gérés suivants pour implémenter une architecture évolutive et rentable:

Amazon DynamoDB - Une base de données de valeurs-clés et de documents qui offre des performances à la milliseconde à un chiffre à n'importe quelle échelle.
Amazon Event Bridge – Un bus d'événements sans serveur pour créer des applications pilotées par événements à grande échelle à l'aide d'événements générés à partir de vos applications, d'applications intégrées de logiciel en tant que service (SaaS) et de services AWS.
AWS Lambda – Un service de calcul sans serveur qui vous permet d'exécuter du code en réponse à des déclencheurs tels que des modifications de données, des changements d'état du système ou des actions de l'utilisateur.
Amazon Reconnaissance – Utilise ML pour identifier des objets, des personnes, du texte, des scènes et des activités dans des images et des vidéos, ainsi que pour détecter tout contenu inapproprié.
Étiquettes personnalisées Amazon Rekognition – Utilise AutoML pour la vision par ordinateur et l'apprentissage par transfert pour vous aider à former des modèles personnalisés afin d'identifier les objets et les scènes dans les images qui sont spécifiques aux besoins de votre entreprise.
Service de stockage simple Amazon (Amazon S3) – Sert de magasin d'objets pour vos documents et permet une gestion centralisée avec des contrôles d'accès affinés.
Fonctions Amazon Step – Un orchestrateur de fonctions sans serveur qui facilite le séquencement des fonctions Lambda et de plusieurs services dans des applications critiques pour l'entreprise.
Extrait d'Amazon - Utilise ML pour extraire du texte et des données à partir de documents numérisés aux formats PDF, JPEG ou PNG.

Le diagramme suivant illustre l'architecture du pipeline d'inférence.

Notre flux de travail comprend les étapes suivantes:

L'utilisateur télécharge des documents dans le compartiment S3 d'entrée.
Le téléchargement déclenche un Notification d'événement Amazon S3 pour diffuser des événements en temps réel directement sur EventBridge. Les événements Amazon S3 qui correspondent au "object created” filtre défini pour un Règle EventBridge démarre le workflow Step Functions.
Le workflow Step Functions déclenche une série de fonctions Lambda, qui effectuent les tâches suivantes :
1. La première fonction effectue des tâches de prétraitement et effectue des appels d'API vers Amazon Rekognition :
  - Si les documents entrants sont au format image (tel que JPG ou PNG), la fonction appelle l'API Amazon Rekognition et fournit les documents en tant qu'objets S3. Toutefois, si le document est au format PDF, la fonction diffuse les octets de l'image lors de l'appel de l'API Amazon Rekognition.
  - Si un document contient plusieurs pages, la fonction divise le document en pages individuelles et les enregistre dans un dossier intermédiaire dans le compartiment S3 de sortie avant de les traiter individuellement.
  - Une fois les tâches de prétraitement terminées, la fonction effectue un appel d'API vers Amazon Rekognition pour détecter le contenu inapproprié, indésirable ou offensant, et effectue un autre appel d'API vers le modèle Rekognition Custom Labels formé pour classer les documents.
2. La deuxième fonction effectue un appel d'API à Amazon Textract pour lancer une tâche d'extraction de texte du document d'entrée et de stockage dans le compartiment S3 de sortie.
3. La troisième fonction stocke les métadonnées du document telles que l'étiquette de modération, la classification du document, la fiabilité de la classification, l'ID de tâche Amazon Textract et le chemin du fichier dans une table DynamoDB.

Vous pouvez ajuster le flux de travail selon vos besoins, par exemple, vous pouvez ajouter une capacité de traitement du langage naturel (NLP) dans ce flux de travail en utilisant Amazon comprendre pour mieux comprendre le texte extrait.

Canal de formation

Avant de déployer cette architecture, nous entraînons un modèle personnalisé pour classer les documents en différentes catégories à l'aide des étiquettes personnalisées de Rekognition. Dans le pipeline de formation, nous étiquetons les documents en utilisant Vérité au sol Amazon SageMaker. Nous utilisons ensuite les documents étiquetés pour former un modèle avec Rekognition Custom Labels. Dans cet exemple, nous utilisons un Amazon Sage Maker Notebook pour effectuer ces étapes, mais vous pouvez également annoter des images à l'aide de la console Rekognition Custom Labels. Pour obtenir des instructions, reportez-vous à Étiquetage des images.

Architecture du pipeline de formation

Ensemble de données

Pour entraîner le modèle, nous utilisons les ensembles de données publics suivants contenant des W2 et des factures :

Vous pouvez utiliser un autre ensemble de données pertinent pour votre secteur.

Le tableau suivant résume les répartitions de l'ensemble de données entre la formation et les tests.

Classe	Set d'entraînement	Ensemble d'essai
Factures	352	75
W-2	86	16
Total	438	91

Déployer le pipeline de formation avec AWS CloudFormation

Vous déployez un AWS CloudFormation modèle pour fournir le nécessaire Gestion des identités et des accès AWS (IAM) rôles et composants du pipeline de formation, y compris une instance de bloc-notes SageMaker.

Lancez le modèle CloudFormation suivant dans la région USA Est (Virginie du Nord) :
Pour Nom de la pile, entrez un nom, tel que document-processing-training-pipeline.
Selectionnez Suivant.
Dans le Capacités et transformations section, cochez la case pour reconnaître qu'AWS CloudFormation peut créer Ressources IAM.
Selectionnez Créer une pile.

La page des détails de la pile doit afficher l'état de la pile comme CREATE_IN_PROGRESS. Cela peut prendre jusqu'à 5 minutes pour que le statut passe à CREATE_COMPLETE. Une fois terminé, vous pouvez afficher les sorties sur le Sortie languette.

Une fois la pile lancée avec succès, ouvrez la console SageMaker et choisissez Instances de bloc-notes dans le nom de navigation.
Recherchez une instance avec le DocProcessingNotebookInstance- préfixe et attendez que son état soit InService.
Sous Actions, choisissez Ouvrez Jupyter.

Exécutez l'exemple de bloc-notes

Pour exécuter votre bloc-notes, procédez comme suit:

Choisissez le Rekognition_Custom_Labels exemple de cahier.
Selectionnez Courir pour exécuter les cellules dans l'exemple de bloc-notes dans l'ordre.

Le bloc-notes illustre le cycle de vie complet de la préparation des images de formation et de test, de leur étiquetage, de la création de fichiers manifestes, de la formation d'un modèle et de l'exécution du modèle formé avec Rekognition Custom Labels. Vous pouvez également former et exécuter le modèle à l'aide de la console Rekognition Custom Labels. Pour obtenir des instructions, reportez-vous à Entraîner un modèle (Console).

Le carnet est explicite ; vous pouvez suivre les étapes pour terminer la formation du modèle.

Prenez note de la ProjectVersionArn pour fournir le pipeline d'inférence dans une étape ultérieure.

Pour les instances de bloc-notes SageMaker, vous êtes facturé pour le type d'instance que vous choisissez, en fonction de la durée d'utilisation. Si vous avez terminé la formation du modèle, vous pouvez arrêter l'instance de bloc-notes pour éviter le coût des ressources inactives.

Déployer le pipeline d'inférence avec AWS CloudFormation

Pour déployer le pipeline d'inférence, procédez comme suit :

Lancez le modèle CloudFormation suivant dans la région USA Est (Virginie du Nord) :
Pour Nom de la pile, entrez un nom, tel que document-processing-inference-pipeline.
Pour DynamoDBTableName, entrez un nom de table DynamoDB unique ; par exemple, document-processing-table.
Pour Nom du bucket d'entrée, entrez un nom unique pour le compartiment S3 créé par la pile ; par exemple, document-processing-input-bucket.

Les documents d'entrée sont chargés dans ce bucket avant d'être traités. Utilisez uniquement des caractères minuscules et aucun espace lorsque vous créez le nom du compartiment d'entrée. De plus, cette opération crée un nouveau compartiment S3, n'utilisez donc pas le nom d'un compartiment existant. Pour plus d'informations, voir Règles de dénomination des compartiments.

Pour Nom du bucket de sortie, saisissez un nom unique pour votre compartiment de sortie ; par exemple, document-processing-output-bucket.

Ce bucket stocke les documents de sortie après leur traitement. Il stocke également des pages de documents d'entrée PDF de plusieurs pages après leur division par la fonction Lambda. Suivez les mêmes règles de dénomination que votre bucket d'entrée.

Pour RekognitionCustomLabelModelARN, entrer le ProjectVersionArn valeur que vous avez notée dans le cahier Jupyter.
Selectionnez Suivant.
Sur le Configurer les options de pile page, définissez tous les paramètres supplémentaires pour la pile, y compris les balises.
Selectionnez Suivant.
Dans le Capacités et transformations , cochez la case pour reconnaître qu'AWS CloudFormation peut créer des ressources IAM.
Selectionnez Créer une pile.

Traiter un document via le pipeline

Nous avons déployé des pipelines de formation et d'inférence, et sommes maintenant prêts à utiliser la solution et à traiter un document.

Sur la console Amazon S3, ouvrez le compartiment d'entrée.
Téléchargez un exemple de document dans le dossier S3.

Cela démarre le flux de travail. Le processus remplit la table DynamoDB avec les étiquettes de classification et de modération des documents. La sortie d'Amazon Textract est livrée au compartiment S3 de sortie dans le TextractOutput dossier.

Nous avons soumis quelques exemples de documents différents au flux de travail et avons reçu les informations suivantes renseignées dans la table DynamoDB.

Stockage des métadonnées dans DynamoDB

Si vous ne voyez pas d'éléments dans la table DynamoDB ou de documents téléchargés dans le compartiment S3 de sortie, vérifiez le Journaux Amazon CloudWatch pour la fonction Lambda correspondante et recherchez les erreurs potentielles à l'origine de l'échec.

Nettoyer

Effectuez les étapes suivantes pour nettoyer les ressources déployées pour cette solution :

Sur la console CloudFormation, choisissez Combos.
Sélectionnez les piles déployées pour cette solution.
Selectionnez Supprimer.

Ces étapes ne suppriment pas les compartiments S3, la table DynamoDB et le modèle Rekognition Custom Labels formé. Vous continuez à payer des frais de stockage s'ils ne sont pas supprimés. Vous devez supprimer ces ressources directement via leurs consoles de service respectives si vous n'en avez plus besoin.

Conclusion

Dans cet article, nous avons présenté une approche évolutive, sécurisée et automatisée pour modérer, classer et traiter les documents. Les entreprises de plusieurs secteurs peuvent utiliser cette solution pour améliorer leurs activités et mieux servir leurs clients. Il permet un traitement plus rapide des documents et une plus grande précision, et réduit la complexité de l'extraction des données. Il offre également une meilleure sécurité et une meilleure conformité à la législation sur les données personnelles en réduisant la main-d'œuvre humaine impliquée dans le traitement des documents entrants.

Pour plus d'informations, consultez le Guide des étiquettes personnalisées Amazon Rekognition, Guide du développeur Amazon Rekognition et les Guide du développeur Amazon Textract. Si vous débutez avec Amazon Rekognition Custom Labels, essayez-le en utilisant notre offre gratuite, qui dure 3 mois et comprend 10 heures de formation gratuites par mois et 4 heures d'inférence gratuites par mois. L'offre gratuite d'Amazon Rekognition inclut le traitement de 5,000 12 images par mois pendant 1,000 mois. L'offre gratuite d'Amazon Textract dure également trois mois et comprend XNUMX XNUMX pages par mois pour l'API Detect Document Text.

À propos des auteurs

Jay Rao est architecte principal de solutions chez AWS. Il aime fournir des conseils techniques et stratégiques aux clients et les aider à concevoir et à mettre en œuvre des solutions sur AWS.

Uchenna Egbé est architecte de solutions associé chez AWS. Il passe son temps libre à faire des recherches sur les herbes, les thés, les superaliments et comment il peut les incorporer dans son alimentation quotidienne.

Horodatage: 12 mai 2022

Horodatage: Le 16 novembre 2022

Modérer, classer et traiter des documents à l'aide d'Amazon Rekognition et d'Amazon Textract

Republié par Platon

Vue d'ensemble de la solution

Canal de formation

Ensemble de données

Déployer le pipeline de formation avec AWS CloudFormation

Exécutez l'exemple de bloc-notes

Déployer le pipeline d'inférence avec AWS CloudFormation

Traiter un document via le pipeline

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Comment Amazon Search parvient à une inférence T5 à faible latence et haut débit avec NVIDIA Triton sur AWS

Améliorez la qualité des prédictions dans les modèles de classification personnalisés avec Amazon Comprehend | Services Web Amazon

Comment Sophos forme un détecteur de malware PDF puissant et léger à très grande échelle avec Amazon SageMaker

Formation distribuée avec Amazon EKS et Torch Distributed Elastic

Comment Sportradar a utilisé la bibliothèque Deep Java pour créer des plates-formes ML à l'échelle de la production pour des performances et une efficacité accrues

Premiers pas avec le connecteur Amazon Kendra Box

Obtenez un hébergement à faible latence pour les modèles ML basés sur un arbre de décision sur le serveur d'inférence NVIDIA Triton sur Amazon SageMaker

Activation des workflows ML hybrides sur Amazon EKS et Amazon SageMaker avec le déploiement en un clic de Kubeflow sur AWS

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte