Amazon Comprehend Document Classifier ajoute une prise en charge de la mise en page pour une plus grande précision

Republié par Platon

Suiveurs: 0

La capacité de gérer et de traiter efficacement d'énormes quantités de documents est devenue essentielle pour les entreprises du monde moderne. En raison de l'afflux continu d'informations que traitent toutes les entreprises, la classification manuelle des documents n'est plus une option viable. Les modèles de classification de documents peuvent automatiser la procédure et aider les organisations à économiser du temps et des ressources. Les techniques de catégorisation traditionnelles, telles que le traitement manuel et les recherches par mots-clés, deviennent moins efficaces et prennent plus de temps à mesure que le volume de documents augmente. Cette inefficacité entraîne une baisse de la productivité et des dépenses d'exploitation plus élevées. De plus, cela peut empêcher l'accès à des informations cruciales en cas de besoin, ce qui pourrait entraîner une mauvaise expérience client et avoir un impact sur la prise de décision. À AWS re:Invent 2022, Amazon comprendre, un service de traitement du langage naturel (TAL) qui utilise le machine learning (ML) pour découvrir des informations à partir d'un texte, lancé prise en charge des types de documents natifs. Cette nouvelle fonctionnalité vous a donné la possibilité de classer des documents dans des formats natifs (PDF, TIFF, JPG, PNG, DOCX) à l'aide d'Amazon Comprehend.

Aujourd'hui, nous sommes ravis d'annoncer qu'Amazon Comprehend prend désormais en charge la formation de modèles de classification personnalisés avec des documents tels que PDF, Word et des formats d'image. Vous pouvez désormais former des modèles de classification de documents sur mesure sur des documents natifs qui prennent en charge la mise en page en plus du texte, ce qui augmente la précision des résultats.

Dans cet article, nous fournissons un aperçu de la façon dont vous pouvez commencer à former un modèle de classification de documents personnalisé Amazon Comprehend.

Vue d’ensemble

La capacité à comprendre les emplacements relatifs des objets dans un espace défini est appelée connaissance de la mise en page. Dans ce cas, cela aide le modèle à comprendre comment les en-têtes, les sous-titres, les tableaux et les graphiques sont liés les uns aux autres dans un document. Le modèle peut catégoriser plus efficacement un document en fonction de son contenu lorsqu'il connaît la structure et la disposition du texte.

Le classificateur de documents Amazon Comprehend ajoute la prise en charge de la mise en page pour une plus grande précision PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans cet article, nous passons en revue les étapes de préparation des données impliquées, démontrons le processus de formation du modèle et discutons des avantages de l'utilisation du nouveau modèle de classification de documents personnalisé dans Amazon Comprehend. En tant que meilleure pratique, vous devez tenir compte des points suivants avant de commencer la formation du modèle de classification de documents personnalisé.

Évaluez vos besoins en classification de documents

Identifiez les différents types de documents que vous devrez peut-être classer, ainsi que les différentes classes ou catégories pour prendre en charge votre cas d'utilisation. Déterminez la structure de classification ou la taxonomie appropriée après avoir évalué la quantité et les types de documents qui doivent être classés. Les types de documents peuvent varier de PDF, Word, images, etc. Assurez-vous d'avoir un accès autorisé à un ensemble diversifié de documents étiquetés via un système de gestion de documents ou d'autres mécanismes de stockage.

Préparez vos données

Assurez-vous que les fichiers de documents que vous avez l'intention d'utiliser pour la formation du modèle ne sont pas cryptés ou verrouillés, par exemple, assurez-vous que vos fichiers PDF ne sont pas cryptés et verrouillés avec un mot de passe. Vous devez déchiffrer ces fichiers avant de pouvoir les utiliser à des fins de formation. Étiquetez un échantillon de vos documents avec les catégories ou étiquettes appropriées (les classes). Déterminer si la classification à étiquette unique (mode multi-classe) ou classement multi-étiquettes est adapté à votre cas d'utilisation. Le mode multi-classes n'associe qu'une seule classe à chaque document, tandis que le mode multi-étiquettes associe une ou plusieurs classes à un document.

Envisager l'évaluation du modèle

Utilisez le jeu de données étiqueté pour former le modèle afin qu'il puisse apprendre à classer avec précision les nouveaux documents et évaluer les performances de la version du modèle nouvellement formé en comprenant les métriques du modèle. Pour comprendre les métriques fournies par la formation post-modèle d'Amazon Comprehend, reportez-vous à Métriques de classificateur personnalisées. Une fois le processus de formation terminé, vous pouvez commencer à classer les documents de manière asynchrone ou en temps réel. Nous expliquons comment former un modèle de classification personnalisé dans les sections suivantes.

Préparer les données d'entraînement

Avant de former notre modèle de classification personnalisé, nous devons préparer les données de formation. Les données de formation sont composées d'un ensemble de documents étiquetés, qui peuvent être des documents pré-identifiés à partir d'un référentiel de documents auquel vous avez déjà accès. Pour notre exemple, nous avons formé un modèle de classification personnalisé avec quelques types de documents différents que l'on trouve généralement dans un processus de règlement des réclamations d'assurance maladie : résumé de sortie du patient, factures, reçus, etc. Nous devons également préparer un fichier d'annotations au format CSV. Voici un exemple de fichier d'annotations de données CSV requis pour la formation :

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

Le fichier CSV d'annotations doit contenir trois colonnes. La première colonne contient la classe (étiquette) souhaitée pour le document, la deuxième colonne est le nom du document (nom de fichier) et la dernière colonne est le numéro de page du document que vous souhaitez inclure dans l'ensemble de données d'apprentissage. Étant donné que le processus de formation prend en charge les fichiers PDF et DOCX multipages natifs, vous devez spécifier le numéro de page dans le cas où le document est un document multipage. Si vous souhaitez inclure toutes les pages d'un document de plusieurs pages dans l'ensemble de données d'apprentissage, vous devez spécifier chaque page sur une ligne distincte dans le fichier d'annotations CSV. Par exemple, dans le fichier d'annotations précédent, invoice-1.pdf est un document de deux pages, et nous voulons inclure les deux pages dans l'ensemble de données de classification. Étant donné que les fichiers tels que PDF, PNG et TIFF sont des formats d'image, la valeur du numéro de page (troisième colonne) doit toujours être 1. Si votre jeu de données contient des fichiers TIF multi-images (multi-pages), vous devez les diviser en fichiers TIF séparés dans afin de les utiliser dans le processus de formation.

Nous avons préparé un fichier d'annotations appelé test.csv avec les données appropriées pour former un modèle de classification personnalisé. Pour chaque exemple de document, le fichier CSV contient la classe à laquelle appartient le document, l'emplacement du document dans Service de stockage simple Amazon (Amazon S3), comme path/to/prefix/document.pdf, et le numéro de page (le cas échéant). Étant donné que la plupart de nos documents sont soit des fichiers DOCX, PDF d'une seule page, soit des fichiers TIF, JPG ou PNG, le numéro de page attribué est 1. Étant donné que nos annotations CSV et nos exemples de documents sont tous sous le même préfixe Amazon S3, nous ne t besoin de spécifier explicitement le préfixe dans la deuxième colonne. Nous préparons également au moins 10 échantillons de documents ou plus pour chaque classe, et nous avons utilisé un mélange de fichiers JPG, PNG, DOCX, PDF et TIF pour former le modèle. Notez qu'il est généralement recommandé d'avoir un ensemble diversifié d'exemples de documents pour la formation du modèle afin d'éviter le surajustement du modèle, ce qui a un impact sur sa capacité à reconnaître de nouveaux documents. Il est également recommandé d'équilibrer le nombre d'échantillons par classe, bien qu'il ne soit pas obligatoire d'avoir exactement le même nombre d'échantillons par classe. Ensuite, nous téléchargeons le test.csv fichier d'annotations et tous les documents dans Amazon S3. L'image suivante montre une partie de notre fichier CSV d'annotations.

Le classificateur de documents Amazon Comprehend ajoute la prise en charge de la mise en page pour une plus grande précision PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Former un modèle de classification personnalisé

Maintenant que nous avons le fichier d'annotations et tous nos exemples de documents prêts, nous configurons un modèle de classification personnalisé et le formons. Avant de commencer à configurer la formation du modèle de classification personnalisé, assurez-vous que les annotations CSV et les exemples de documents existent dans un emplacement Amazon S3.

Sur la console Amazon Comprehend, choisissez Classement personnalisé dans le volet de navigation.
Selectionnez Créer un nouveau modèle.
Pour Nom du modèle, saisissez un nom unique.
Pour Nom de la version, entrez un nom de version unique.
Pour Type de modèle de formation, sélectionnez Documents natifs.

Cela indique à Amazon Comprehend que vous avez l'intention d'utiliser des types de documents natifs pour former le modèle au lieu du texte sérialisé.

Pour Mode classificateur, sélectionnez Utilisation du mode étiquette unique.

Ce mode indique au classificateur que nous avons l'intention de classer les documents dans une seule classe. Si vous avez besoin de former un modèle avec le mode multi-étiquette, ce qui signifie qu'un document peut appartenir à une ou plusieurs classes, vous devez configurer le fichier d'annotations de manière appropriée en spécifiant les classes du document séparées par un caractère spécial dans les annotations CSV déposer. Dans ce cas, vous sélectionneriez le Utilisation du mode multi-étiquettes option.

Pour Emplacement des annotations sur S3, entrez le chemin du fichier CSV d'annotations.
Pour Emplacement des données d'entraînement sur S3, entrez l'emplacement Amazon S3 où résident vos documents.
Laissez toutes les autres options par défaut dans cette section.
Dans le Des données de sortie , spécifiez un emplacement Amazon S3 pour votre sortie.

Ceci est facultatif, mais c'est une bonne pratique de fournir un emplacement de sortie, car Amazon Comprehend générera les métriques d'évaluation de la formation post-modèle à cet emplacement. Ces données sont utiles pour évaluer les performances du modèle, itérer et améliorer la précision de votre modèle.

Dans le Rôle IAM section, choisissez une section appropriée Gestion des identités et des accès AWS (IAM) qui permet à Amazon Comprehend d'accéder à l'emplacement Amazon S3, d'y écrire et de le lire.
Selectionnez Création pour initier la formation du modèle.

L'entraînement du modèle peut prendre plusieurs minutes, selon le nombre de classes et la taille de l'ensemble de données. Vous pouvez consulter l'état de l'entraînement sur le Classement personnalisé page. Le processus de formation affichera un Soumis statut juste après le début du processus de formation et passera à Formation statut lorsque le processus de formation commence. Une fois votre modèle formé, le État de la version va changer pour Qualifié. Si Amazon Comprehend trouve des incohérences dans vos données de formation, le statut s'affichera En erreur ainsi qu'une alerte qui affiche le message d'erreur approprié afin que vous puissiez prendre des mesures correctives et redémarrer le processus de formation avec les données corrigées.

Le classificateur de documents Amazon Comprehend ajoute la prise en charge de la mise en page pour une plus grande précision PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans cet article, nous avons démontré les étapes pour former un modèle de classificateur personnalisé à l'aide de la console Amazon Comprehend. Vous pouvez également utiliser le SDK AWS dans n'importe quelle langue (par exemple, Boto3 pour Python) ou la Interface de ligne de commande AWS (AWS CLI) pour lancer une formation de modèle de classification personnalisée. Avec le SDK ou l'AWS CLI, vous pouvez utiliser le CreateDocumentClassifierCreateDocumentClassifier API pour lancer la formation du modèle, puis utiliser le DescribeDocumentClassifierDescribeDocumentClassifier API pour vérifier l'état du modèle.

Une fois le modèle formé, vous pouvez effectuer soit analyse en temps réel or tâches d'analyse asynchrones (par lots) sur de nouveaux documents. Pour effectuer une classification en temps réel sur des documents, vous devez déployer un point de terminaison en temps réel Amazon Comprehend avec le modèle de classification personnalisé formé. Les points de terminaison en temps réel conviennent mieux aux cas d'utilisation qui nécessitent des résultats d'inférence en temps réel à faible latence, tandis que pour classer un grand nombre de documents, une tâche d'analyse asynchrone est plus appropriée. Pour savoir comment effectuer une inférence asynchrone sur de nouveaux documents à l'aide d'un modèle de classification formé, reportez-vous à Présentation de la classification et de la reconnaissance des entités en une seule étape avec Amazon Comprehend pour un traitement intelligent des documents.

Avantages du modèle de classification personnalisé prenant en charge la mise en page

Le nouveau modèle de classificateur offre un certain nombre d'améliorations. Il est non seulement plus facile de former le nouveau modèle, mais vous pouvez également former un nouveau modèle avec seulement quelques échantillons pour chaque classe. De plus, vous n'avez plus besoin d'extraire du texte brut sérialisé à partir de documents numérisés ou numériques tels que des images ou des PDF pour préparer l'ensemble de données de formation. Voici quelques améliorations supplémentaires notables que vous pouvez attendre du nouveau modèle de classification :

Précision améliorée – Le modèle prend désormais en compte la mise en page et la structure des documents, ce qui conduit à une meilleure compréhension de la structure et du contenu des documents. Cela permet de distinguer les documents avec un texte similaire mais des mises en page ou des structures différentes, ce qui améliore la précision de la classification.
La solidité des mécanismes : – Le modèle gère désormais les variations de structure et de formatage des documents. Cela le rend mieux adapté à la classification de documents provenant de différentes sources avec des mises en page ou des styles de formatage variables, ce qui est un défi courant dans les tâches de classification de documents du monde réel. Il est compatible avec plusieurs types de documents de manière native, ce qui le rend polyvalent et applicable à différents secteurs et cas d'utilisation.
Intervention manuelle réduite – Une plus grande précision entraîne moins d'interventions manuelles dans le processus de classification. Cela peut économiser du temps et des ressources, et augmenter l'efficacité opérationnelle de votre charge de travail de traitement de documents.

Conclusion

Le nouveau modèle de classification de documents Amazon Comprehend, qui intègre la sensibilité à la mise en page, change la donne pour les entreprises traitant de gros volumes de documents. En comprenant la structure et la mise en page des documents, ce modèle améliore la précision et l'efficacité de la classification. La mise en œuvre d'une solution de classification de documents robuste et précise à l'aide d'un modèle sensible à la mise en page peut aider votre entreprise à gagner du temps, à réduire les coûts opérationnels et à améliorer les processus de prise de décision.

Dans une prochaine étape, nous vous encourageons à essayer le nouveau modèle de classification personnalisé Amazon Comprehend via le Console Amazon Comprehend. Nous vous recommandons également de revoir nos annonces d'amélioration du modèle de classification personnalisé de année dernière et visitez le GitHub référentiel pour les exemples de code.

À propos des auteurs

Anjan Biswas est un architecte senior de solutions de services d'IA avec un accent sur l'IA/ML et l'analyse de données. Anjan fait partie de l'équipe mondiale des services d'IA et travaille avec les clients pour les aider à comprendre et à développer des solutions aux problèmes commerciaux liés à l'IA et au ML. Anjan a plus de 14 ans d'expérience de travail avec des organisations mondiales de chaîne d'approvisionnement, de fabrication et de vente au détail, et aide activement les clients à démarrer et à évoluer sur les services AWS AI.

Godwin Sahayaraj Vincent est un architecte de solutions d'entreprise chez AWS qui est passionné par l'apprentissage automatique et fournit des conseils aux clients pour concevoir, déployer et gérer leurs charges de travail et architectures AWS. Dans ses temps libres, il aime jouer au cricket avec ses amis et au tennis avec ses trois enfants.

Wrick Talukdar est architecte senior au sein de l'équipe Amazon Comprehend Service. Il travaille avec les clients d'AWS pour les aider à adopter l'apprentissage automatique à grande échelle. En dehors du travail, il aime lire et photographier.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
Frapper l'avenir avec Adryenn Ashley. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/amazon-comprehend-document-classifier-adds-layout-support-for-higher-accuracy/

Horodatage: 19 avril 2023

Horodatage: Le 13 novembre 2023

Republié par Platon

Créez un workflow de traduction de documents multilingue avec une personnalisation spécifique au domaine et à la langue

Empêchez la prise de contrôle de compte lors de la connexion avec le nouveau modèle Account Takeover Insights dans Amazon Fraud Detector

AWS et Mistral AI s'engagent à démocratiser l'IA générative avec une collaboration renforcée | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte