Présentation de la classification et de la reconnaissance d'entités en une étape avec Amazon Comprehend pour un traitement intelligent des documents

Republié par Platon

Suiveurs: 0

« Les solutions de traitement intelligent des documents (IDP) extraient les données pour prendre en charge l'automatisation des tâches de traitement de documents répétitives et volumineuses, ainsi que pour l'analyse et la compréhension. IDP utilise des technologies de langage naturel et la vision par ordinateur pour extraire des données de contenus structurés et non structurés, en particulier de documents, afin de prendre en charge l'automatisation et l'augmentation. – Gartner

L'objectif du traitement intelligent des documents (IDP) d'Amazon est d'automatiser le traitement de grandes quantités de documents à l'aide de l'apprentissage automatique (ML) afin d'augmenter la productivité, de réduire les coûts associés au travail humain et de fournir une expérience utilisateur transparente. Les clients consacrent beaucoup de temps et d'efforts à identifier des documents et à en extraire des informations critiques pour divers cas d'utilisation. Aujourd'hui, Amazon comprendre prend en charge la classification des documents en texte brut, ce qui vous oblige à prétraiter les documents dans des formats semi-structurés (numérisés, PDF numérique ou images telles que PNG, JPG, TIFF), puis à utiliser la sortie en texte brut pour exécuter l'inférence avec votre classement personnalisé maquette. De même, pour reconnaissance d'entité personnalisée en temps réel, un prétraitement pour extraire le texte est nécessaire pour les documents semi-structurés tels que les fichiers PDF et image. Ce processus en deux étapes introduit des complexités dans les workflows de traitement de documents.

L'année dernière, nous prise en charge annoncée des formats de documents natifs avec reconnaissance d'entité nommée personnalisée (NER) travaux asynchrones. Aujourd'hui, nous sommes ravis d'annoncer la classification des documents en une étape et l'analyse en temps réel pour NER pour les documents semi-structurés dans des formats natifs (PDF, TIFF, JPG, PNG) à l'aide d'Amazon Comprehend. Plus précisément, nous annonçons les fonctionnalités suivantes :

Prise en charge des documents aux formats natifs pour une classification personnalisée, une analyse en temps réel et des tâches asynchrones
Prise en charge des documents aux formats natifs pour l'analyse en temps réel de la reconnaissance d'entités personnalisées

Avec cette nouvelle version, la classification personnalisée et la reconnaissance d'entité personnalisée (NER) d'Amazon Comprehend prennent directement en charge les documents dans des formats tels que PDF, TIFF, PNG et JPEG, sans qu'il soit nécessaire d'en extraire du texte brut encodé en UTF8. La figure suivante compare le processus précédent à la nouvelle procédure et à la prise en charge.

Cette fonctionnalité simplifie les workflows de traitement des documents en éliminant toutes les étapes de prétraitement nécessaires pour extraire le texte brut des documents et réduit le temps global nécessaire à leur traitement.

Dans cet article, nous discutons d'une conception de solution de flux de travail IDP de haut niveau, de quelques cas d'utilisation de l'industrie, des nouvelles fonctionnalités d'Amazon Comprehend et de la manière de les utiliser.

Présentation de la solution

Commençons par explorer un cas d'utilisation courant dans le secteur de l'assurance. Un processus typique de réclamation d'assurance implique un dossier de réclamation qui peut contenir plusieurs documents. Lorsqu'une réclamation d'assurance est déposée, elle comprend des documents tels qu'un formulaire de réclamation d'assurance, des rapports d'incident, des pièces d'identité et des documents de réclamation de tiers. Le volume de documents à traiter et à statuer sur une réclamation d'assurance peut atteindre des centaines, voire des milliers de pages, selon le type de réclamation et les processus commerciaux concernés. Les représentants et les arbitres des réclamations d'assurance passent généralement des centaines d'heures à passer au crible, trier et extraire manuellement des informations à partir de centaines, voire de milliers de déclarations de sinistres.

Semblable au cas d'utilisation de l'industrie de l'assurance, l'industrie du paiement traite également de grands volumes de documents semi-structurés pour les accords de paiement transfrontaliers, les factures et les relevés de change. Les utilisateurs professionnels consacrent la majorité de leur temps à des activités manuelles telles que l'identification, l'organisation, la validation, l'extraction et la transmission des informations requises aux applications en aval. Ce processus manuel est fastidieux, répétitif, sujet aux erreurs, coûteux et difficile à mettre à l'échelle. Parmi les autres secteurs confrontés à des défis similaires, citons les prêts hypothécaires et les prêts, les soins de santé et les sciences de la vie, le droit, la comptabilité et la gestion fiscale. Il est extrêmement important pour les entreprises de traiter de tels volumes de documents en temps opportun avec un haut niveau de précision et un effort manuel nominal.

Amazon Comprehend fournit des fonctionnalités clés pour automatiser la classification des documents et l'extraction d'informations à partir d'un grand volume de documents avec une grande précision, de manière évolutive et rentable. Le diagramme suivant montre un flux de travail logique IDP avec Amazon Comprehend. Le cœur du flux de travail consiste en la classification de documents et l'extraction d'informations à l'aide de NER avec des modèles personnalisés Amazon Comprehend. Le diagramme montre également comment les modèles personnalisés peuvent être continuellement améliorés pour fournir des précisions plus élevées à mesure que les documents et les processus métier évoluent.

Classement personnalisé des documents

Avec la classification personnalisée d'Amazon Comprehend, vous pouvez organiser vos documents en catégories prédéfinies (classes). À un niveau élevé, voici les étapes pour configurer un classificateur de documents personnalisé et effectuer la classification des documents :

Préparez les données d'entraînement pour entraîner un classificateur de documents personnalisé.
Former un classificateur de documents client avec les données de formation.
Une fois le modèle formé, déployez éventuellement un point de terminaison en temps réel.
Effectuez la classification des documents avec une tâche asynchrone ou en temps réel à l'aide du point de terminaison.

Les étapes 1 et 2 sont généralement effectuées au début d'un projet IDP une fois que les classes de documents pertinentes pour le processus métier ont été identifiées. Un modèle de classificateur personnalisé peut ensuite être périodiquement recyclé pour améliorer la précision et introduire de nouvelles classes de documents. Vous pouvez entraîner un modèle de classification personnalisé soit dans mode multi-classe or mode multi-étiquettes. La formation peut être effectuée pour chacun de deux manières : à l'aide d'un fichier CSV ou à l'aide d'un fichier manifeste augmenté. Faire référence à Préparation des données d'entraînement pour plus de détails sur la formation d'un modèle de classification personnalisé. Après la formation d'un modèle de classificateur personnalisé, un document peut être classé soit à l'aide de analyse en temps réel ou d’une tâche asynchrone. L'analyse en temps réel nécessite une endpoint à déployer avec le modèle formé et convient mieux aux petits documents en fonction du cas d'utilisation. Pour un grand nombre de documents, un travail de classification asynchrone est le mieux adapté.

Former un modèle de classification de documents personnalisé

Pour démontrer la nouvelle fonctionnalité, nous avons formé un modèle de classification personnalisé en mode multi-étiquettes, qui peut classer les documents d'assurance dans l'une des sept classes différentes. Les cours sont INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYet CMS1500. Nous souhaitons classer des exemples de documents au format natif PDF, PNG et JPEG, stockés dans un Service de stockage simple Amazon (Amazon S3), en utilisant le modèle de classification. Pour démarrer une tâche de classification asynchrone, procédez comme suit :

Sur la console Amazon Comprehend, choisissez Emplois d'analyse dans le volet de navigation.
Selectionnez Créer un emploi.
Pour Nom, entrez un nom pour votre tâche de classification.
Pour Type d'analyse¸ choisissez Classement personnalisé.
Pour Modèle de classificateur, choisissez le modèle de classification entraîné approprié.
Pour Version, choisissez la version de modèle appropriée.

Dans le Des données d'entrée section, nous fournissons l'endroit où nos documents sont stockés.

Pour Format d'entrée, choisissez Un document par dossier.
Pour Mode de lecture de documents¸ choisissez Forcer la lecture du document.
Pour Action de lecture de document, choisissez Texttract détecter le texte du document.

Cela permet à Amazon Comprehend d'utiliser le Extrait d'Amazon DétecterTexteDocument API pour lire les documents avant d'exécuter la classification. La DetectDocumentText L'API est utile pour extraire des lignes et des mots de texte à partir des documents. Vous pouvez également choisir Document d'analyse de texte en Action de lecture de document, auquel cas Amazon Comprehend utilise l'Amazon Textract AnalyserDocument API pour lire les documents. Avec le AnalyzeDocument API, vous pouvez choisir d'extraire Tables, Formulaires, ou les deux. Le Mode de lecture de documents L'option permet à Amazon Comprehend d'extraire le texte des documents en arrière-plan, ce qui permet de réduire l'étape supplémentaire d'extraction du texte du document, qui est requise dans notre flux de travail de traitement de documents.

Le classificateur personnalisé Amazon Comprehend peut également traiter les réponses JSON brutes générées par le DetectDocumentText ainsi que le AnalyzeDocument API, sans aucune modification ni prétraitement. Ceci est utile pour les flux de travail existants où Amazon Textract est déjà impliqué dans l'extraction de texte à partir des documents. Dans ce cas, la sortie JSON d'Amazon Textract peut être transmise directement aux API de classification de documents Amazon Comprehend.

Dans le Des données de sortie section, pour Emplacement S3, spécifiez un emplacement Amazon S3 où vous souhaitez que la tâche asynchrone écrive les résultats de l'inférence.
Laissez les options restantes par défaut.
Selectionnez Créer un emploi pour commencer le travail.

Vous pouvez afficher l'état du travail sur le Emplois d'analyse .

Lorsque la tâche est terminée, nous pouvons afficher la sortie de la tâche d'analyse, qui est stockée à l'emplacement Amazon S3 fourni lors de la configuration de la tâche. La sortie de classification pour notre exemple de document PDF d'une seule page CMS1500 est la suivante. La sortie est un fichier au format de lignes JSON, qui a été formaté pour améliorer la lisibilité.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

L'exemple précédent est un document PDF d'une seule page ; cependant, la classification personnalisée peut également gérer des documents PDF de plusieurs pages. Dans le cas de documents de plusieurs pages, la sortie contient plusieurs lignes JSON, où chaque ligne est le résultat de la classification de chacune des pages d'un document. Voici un exemple de sortie de classification multipage :

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Reconnaissance d'entités personnalisées

Avec un outil de reconnaissance d'entités personnalisées Amazon Comprehend, vous pouvez analyser des documents et extraire des entités telles que des codes de produit ou des entités spécifiques à l'entreprise qui répondent à vos besoins particuliers. De manière générale, voici les étapes pour configurer un outil de reconnaissance d'entité personnalisé et effectuer la détection d'entité :

Préparez les données de formation pour former un module de reconnaissance d'entité personnalisé.
Entraînez un module de reconnaissance d'entité personnalisé avec les données d'entraînement.
Une fois le modèle formé, déployez éventuellement un point de terminaison en temps réel.
Effectuez la détection d'entité avec une tâche asynchrone ou en temps réel à l'aide du point de terminaison.

Un modèle de reconnaissance d'entité personnalisé peut être périodiquement recyclé pour améliorer la précision et introduire de nouveaux types d'entités. Vous pouvez former un modèle de reconnaissance d'entité personnalisé avec soit listes d'entités or annotations. Dans les deux cas, Amazon Comprehend apprend le type de documents et le contexte dans lequel les entités se produisent pour créer un modèle de reconnaissance d'entité qui peut se généraliser pour détecter de nouvelles entités. Faire référence à Préparation des données d'entraînement pour en savoir plus sur la préparation des données de formation pour le module de reconnaissance d'entité personnalisé.

Une fois qu'un modèle de reconnaissance d'entité personnalisé est formé, la détection d'entité peut être effectuée soit à l'aide de analyse en temps réel ou d’une tâche asynchrone. L'analyse en temps réel nécessite une endpoint à déployer avec le modèle formé et convient mieux aux petits documents en fonction du cas d'utilisation. Pour un grand nombre de documents, un travail de classification asynchrone est le mieux adapté.

Entraîner un modèle de reconnaissance d'entité personnalisé

Pour démontrer la détection d'entité en temps réel, nous avons formé un modèle de reconnaissance d'entité personnalisé avec des documents d'assurance et des fichiers manifestes augmentés à l'aide d'annotations personnalisées et avons déployé le point de terminaison à l'aide du modèle formé. Les types d'entités sont Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionet Sender. Nous souhaitons détecter des entités à partir d'exemples de documents au format natif PDF, PNG et JPEG, stockés dans un compartiment S3, à l'aide du modèle de reconnaissance.

Notez que vous pouvez utiliser un modèle de reconnaissance d'entité personnalisé formé avec des documents PDF pour extraire des entités personnalisées à partir de documents PDF, TIFF, image, Word et texte brut. Si votre modèle est formé à l'aide de documents texte et d'une liste d'entités, vous ne pouvez utiliser que des documents en texte brut pour extraire les entités.

Nous devons détecter les entités d'un exemple de document dans n'importe quel format natif PDF, PNG et JPEG à l'aide du modèle de reconnaissance. Pour démarrer une tâche de détection d'entité synchrone, procédez comme suit :

Sur la console Amazon Comprehend, choisissez Analyse en temps réel dans le volet de navigation.
Sous Type d'analyse, sélectionnez Coutume.
Pour Reconnaissance d'entités personnalisées, choisissez le type de modèle personnalisé.
Pour Endpoint, choisissez le point de terminaison en temps réel que vous avez créé pour votre modèle de reconnaissance d'entité.
Sélectionnez Envoyer le fichier et choisissez Choisissez Fichier pour télécharger le fichier PDF ou image pour l'inférence.
Élargir la Saisie de documents avancée section et pour Mode de lecture de documents, choisissez Service par défaut.
Pour Action de lecture de document, choisissez Texttract détecter le texte du document.
Selectionnez Analysez pour analyser le document en temps réel.

Les entités reconnues sont répertoriées dans le ACTUALITES section. Chaque entité contient la valeur de l'entité (le texte), le type d'entité tel que défini par vous lors du processus de formation et le score de confiance correspondant.

Pour plus de détails et une procédure pas à pas complète sur la façon de former un modèle de reconnaissance d'entité personnalisé et de l'utiliser pour effectuer une inférence asynchrone à l'aide de tâches d'analyse asynchrones, reportez-vous à Extrayez des entités personnalisées à partir de documents dans leur format natif avec Amazon Comprehend.

Conclusion

Cet article a démontré comment vous pouvez classer et catégoriser des documents semi-structurés dans leur format natif et détecter des entités spécifiques à l'entreprise à l'aide d'Amazon Comprehend. Vous pouvez utiliser des API en temps réel pour les cas d'utilisation à faible latence ou utiliser des tâches d'analyse asynchrones pour le traitement de documents en masse.

Comme prochaine étape, nous vous encourageons à visiter le Amazon Comprehend GitHub référentiel pour obtenir des exemples de code complets afin d'essayer ces nouvelles fonctionnalités. Vous pouvez également visiter le Guide du développeur Amazon Comprehend ainsi que le Ressources pour les développeurs Amazon Comprehend pour des vidéos, des tutoriels, des blogs, et plus encore.

À propos des auteurs

Wrick Talukdar est architecte senior au sein de l'équipe Amazon Comprehend Service. Il travaille avec les clients d'AWS pour les aider à adopter l'apprentissage automatique à grande échelle. En dehors du travail, il aime lire et photographier.

Anjan Biswas est un architecte senior de solutions de services d'IA avec un accent sur l'IA/ML et l'analyse de données. Anjan fait partie de l'équipe mondiale des services d'IA et travaille avec les clients pour les aider à comprendre et à développer des solutions aux problèmes commerciaux liés à l'IA et au ML. Anjan a plus de 14 ans d'expérience de travail avec des organisations mondiales de chaîne d'approvisionnement, de fabrication et de vente au détail, et aide activement les clients à démarrer et à évoluer sur les services AWS AI.

Godwin Sahayaraj Vincent est un architecte de solutions d'entreprise chez AWS qui est passionné par l'apprentissage automatique et fournit des conseils aux clients pour concevoir, déployer et gérer leurs charges de travail et architectures AWS. Dans ses temps libres, il aime jouer au cricket avec ses amis et au tennis avec ses trois enfants.

Horodatage: 2 décembre 20222 décembre 2022

Plus de Apprentissage automatique AWS

Amazon SageMaker Feature Store prend désormais en charge le partage, la découverte et l'accès entre comptes | Services Web Amazon

Cluster source:

Apprentissage automatique AWS

Nœud source: 1947390

Horodatage: 13 février 2024

AWS effectue des ajustements sur un Large Language Model (LLM) pour classer les discours toxiques pour une grande société de jeux | Services Web Amazon

Apprentissage automatique AWS

Nœud source: 1822975

Horodatage: 7 avril 2023

Présentation de la classification et de la reconnaissance des entités en une seule étape avec Amazon Comprehend pour un traitement intelligent des documents

Republié par Platon

Présentation de la solution

Classement personnalisé des documents

Former un modèle de classification de documents personnalisé

Reconnaissance d'entités personnalisées

Entraîner un modèle de reconnaissance d'entité personnalisé

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Les startups des accélérateurs AWS utilisent l'IA et le ML pour résoudre les défis clients critiques

Utilisez la vision par ordinateur pour mesurer le rendement agricole avec Amazon Rekognition Custom Labels

Prévision simple et précise avec AutoGluon-TimeSeries

Créez un détecteur de spam par e-mail à l'aide d'Amazon SageMaker | Services Web Amazon

Détection et surveillance haute fréquence des sources ponctuelles d'émission de méthane à l'aide des capacités géospatiales d'Amazon SageMaker | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte