Extrait d'Amazon est un service d'apprentissage automatique (ML) qui extrait automatiquement le texte, l'écriture manuscrite et les données des documents numérisés. Requêtes est une fonctionnalité qui vous permet d'extraire des informations spécifiques à partir de documents variés et complexes en utilisant le langage naturel. Requêtes personnalisées vous permet de personnaliser la fonctionnalité Requêtes pour les documents non standard spécifiques à votre entreprise, tels que les contrats de prêt automatique, les chèques et les relevés de paie, en libre-service. En personnalisant la fonctionnalité pour reconnaître les termes, structures et informations clés uniques spécifiques à ces types de documents, vous pouvez répondre à vos besoins de traitement en aval avec une plus grande précision et une intervention humaine minimale. Les requêtes personnalisées sont faciles à intégrer dans votre pipeline Textract existant et vous continuez à bénéficier des fonctionnalités de traitement de documents intelligents entièrement gérées d'Amazon Textract sans avoir à investir dans une expertise ML ou dans la gestion de l'infrastructure.
Dans cet article, nous montrons comment les requêtes personnalisées peuvent extraire avec précision les données de chèques qui sont des documents complexes et non standard. De plus, nous discutons des avantages des requêtes personnalisées et partageons les meilleures pratiques pour utiliser efficacement cette fonctionnalité.
Vue d'ensemble de la solution
Lorsque vous démarrez un nouveau cas d'utilisation, vous pouvez évaluer les performances des requêtes textuelles sur vos documents en accédant à l'onglet Console de texte et en utilisant la démo Analyse de documents ou le téléchargeur de documents en masse. Faire référence à Meilleures pratiques pour les requêtes pour rédiger des requêtes applicables à votre cas d’utilisation. Si vous identifiez des erreurs dans les réponses aux requêtes en raison de la nature de vos documents commerciaux, vous pouvez utiliser des requêtes personnalisées pour améliorer la précision. En quelques heures, vous pouvez annoter vos exemples de documents à l'aide du Console de gestion AWS et former un adaptateur. Les adaptateurs sont des composants qui se connectent au modèle d'apprentissage en profondeur pré-entraîné Amazon Textract, personnalisant sa sortie en fonction de vos documents annotés. Vous pouvez utiliser l'adaptateur pour l'inférence en transmettant l'identifiant de l'adaptateur comme paramètre supplémentaire au Analyser les requêtes de documents Requête API.
Examinons comment Requêtes personnalisées peut améliorer la précision de l'extraction dans un scénario réel difficile, tel que l'extraction de données à partir de chèques. Le principal défi lors du traitement des chèques vient de leur degré élevé de variation selon le type (par exemple, chèques personnels ou de banque), l'institution financière et le pays (par exemple, format de ligne MICR). . Ces variations peuvent inclure l'emplacement du nom du bénéficiaire, le montant en chiffres et en mots, la date et la signature. Reconnaître et s'adapter à ces variations peut être une tâche complexe lors de l'extraction des données. Pour améliorer l'extraction des données, les organisations ont souvent recours à des processus de vérification et de validation manuels, ce qui augmente le coût et la durée du processus d'extraction.
Les requêtes personnalisées répondent à ces défis en vous permettant de personnaliser les fonctionnalités de requêtes pré-entraînées sur les différentes variantes de contrôles. La personnalisation de la fonctionnalité pré-entraînée vous aide à obtenir une précision d'extraction de données élevée sur la variété spécifique de mises en page que vous traitez.
Dans notre cas d'utilisation, une institution financière souhaite extraire les champs suivants d'un chèque : nom du bénéficiaire, nom du payeur, numéro de compte, numéro d'acheminement, montant du paiement (en chiffres), montant du paiement (en lettres), numéro du chèque, date et note.
Explorons le processus de génération d'un adaptateur (composant qui personnalise la sortie) pour le traitement des chèques. Les adaptateurs peuvent être créés via la console ou par programme via l'API. Cet article détaille l'expérience de la console ; cependant, si vous souhaitez créer l'adaptateur par programmation, reportez-vous aux exemples de code dans le requêtes personnalisées-checks-blog.ipynb Carnet Jupyter (Option 2).
Le processus de génération d'adaptateur implique cinq étapes de haut niveau : créer un adaptateur, télécharger des exemples de documents, annoter les documents, former l'adaptateur et évaluer les mesures de performances.
Créer un adaptateur
Sur la console Amazon Textract, créez un nouvel adaptateur en fournissant un nom, une description et des balises facultatives qui peuvent vous aider à identifier l'adaptateur. Vous avez la possibilité d'activer les mises à jour automatiques, ce qui permet à Amazon Textract de mettre à jour votre adaptateur lorsque la fonctionnalité Requêtes sous-jacentes est mise à jour avec de nouvelles fonctionnalités.
Une fois l'adaptateur créé, vous verrez une page de détails de l'adaptateur avec une liste d'étapes dans le Comment ça marche section. Cette section activera vos prochaines étapes au fur et à mesure que vous les compléterez séquentiellement.
Télécharger des exemples de documents
La phase initiale de la génération de l'adaptateur implique la sélection minutieuse d'un ensemble approprié d'exemples de documents pour l'annotation, la formation et les tests. Nous avons la possibilité de diviser automatiquement les documents en ensembles de données de test et d'entraînement ; cependant, pour ce processus, nous divisons manuellement l'ensemble de données.
Il est important de noter que vous pouvez construire un adaptateur avec seulement cinq échantillons de test et cinq échantillons de formation, mais il est essentiel de garantir que cet ensemble d'échantillons est diversifié et représentatif de la charge de travail rencontrée dans un environnement de production.
Pour ce didacticiel, nous avons sélectionné des exemples d'ensembles de données de contrôle que vous pouvez download. Notre ensemble de données comprend des variantes telles que les chèques personnels, les chèques de banque, les chèques de relance et les chèques intégrés aux fiches de paie. Nous avons également inclus des chèques manuscrits et imprimés ; ainsi que des variations dans des champs tels que la ligne mémo.
Annoter des exemples de documents
Dans une étape suivante, vous annotez les exemples de documents en associant les requêtes aux réponses correspondantes via la console. Vous pouvez lancer l'annotation via l'étiquetage automatique ou l'étiquetage manuel. L'étiquetage automatique utilise Amazon Textract Queries pour pré-étiqueter l'ensemble de données. Nous vous recommandons d'utiliser l'étiquetage automatique pour accélérer le processus d'annotation.
Pour ce cas d'utilisation du traitement des chèques, nous utilisons les requêtes suivantes. Si votre cas d'utilisation implique d'autres types de documents, reportez-vous à Meilleures pratiques pour les requêtes pour rédiger des requêtes applicables à votre cas d’utilisation.
- Qui est le bénéficiaire ?
- Quel est le numéro du chèque ?
- Quelle est l'adresse du bénéficiaire ?
- Quelle est la date?
- Quel est le numéro de compte ?
- Quel est le montant du chèque en lettres ?
- Quel est le nom du compte/payeur/tireur ?
- Quel est le montant en dollars ?
- Quel est le nom de la banque/du tiré ?
- Quel est le numéro d'acheminement bancaire ?
- Qu'est-ce que la ligne MICR ?
- Quel est le mémo ?
Une fois le processus d'étiquetage automatique terminé, vous avez la possibilité de consulter et de modifier les réponses fournies pour chaque document. Choisir Commencer à réviser pour revoir les annotations par rapport à chaque image.
Si la réponse à une requête est manquante ou erronée, vous pouvez ajouter ou modifier la réponse en dessinant un cadre de délimitation ou en saisissant la réponse manuellement.
Pour accélérer votre procédure pas à pas, nous avons pré-annoté les exemples de chèques que vous pouvez copier sur votre compte AWS. Exécutez le requêtes personnalisées-checks-blog.ipynb Notebook Jupyter dans le Exemples de code Amazon Text bibliothèque pour mettre à jour automatiquement vos annotations.
Former l'adaptateur
Après avoir examiné tous les exemples de documents pour garantir l’exactitude des annotations, vous pouvez commencer le processus de formation de l’adaptateur. Au cours de cette étape, vous devez désigner un emplacement de stockage où l'adaptateur doit être enregistré. La durée du processus de formation variera en fonction de la taille de l'ensemble de données utilisé pour la formation. L'API de formation peut également être invoquée par programme si vous choisissez d'utiliser un outil d'annotation de votre choix et de transmettre les fichiers d'entrée pertinents à l'API. Faire référence à Requêtes personnalisées pour plus de détails.
Évaluer les mesures de performance
Une fois la formation de l'adaptateur terminée, vous pouvez évaluer ses performances en examinant les mesures d'évaluation telles que Score F1, précision et rappel. Vous pouvez analyser ces métriques collectivement ou document par document. En utilisant notre exemple d'ensemble de données de contrôles, vous verrez la métrique de précision (score F1) passer de 68 % à 92 % avec l'adaptateur formé.
De plus, vous pouvez tester la sortie de l'adaptateur sur de nouveaux documents en choisissant Essayez l'adaptateur.
Après l'évaluation, vous pouvez choisir d'améliorer les performances de l'adaptateur en incorporant des exemples de documents supplémentaires dans l'ensemble de données d'entraînement ou en réannotant les documents avec des scores inférieurs à votre seuil. Pour réannoter des documents, choisissez Vérifier les documents sur la page de détails de l'adaptateur, sélectionnez le document, puis choisissez Réviser les annotations.
Tester l'adaptateur par programme
Une fois la formation terminée avec succès, vous pouvez désormais utiliser l'adaptateur dans votre AnalyserDocument Appels API. La requête API est similaire à la requête API Amazon Textract Queries, avec l'ajout du AdaptersConfig
objet.
Vous pouvez exécuter l'exemple de code suivant ou l'exécuter directement dans le requêtes personnalisées-checks-blog.ipynb Carnet Jupyter. L'exemple de bloc-notes fournit également du code pour comparer les résultats entre les requêtes Amazon Textract et les requêtes personnalisées Amazon Textract.
Créer un AdaptateursConfig avec l'ID de l'adaptateur et la version de l'adaptateur, et éventuellement inclure les pages auxquelles vous souhaitez que l'adaptateur soit appliqué :
Créer un QueriesConfig
avec les requêtes avec lesquelles vous avez formé l'adaptateur et appelez l'API Amazon Textract. Notez que vous pouvez également inclure des requêtes supplémentaires pour lesquelles l'adaptateur n'a pas été formé. Amazon Textract utilisera automatiquement la fonctionnalité Requêtes pour ces questions et non pour les requêtes personnalisées, vous offrant ainsi la flexibilité d'utiliser les requêtes personnalisées uniquement lorsque cela est nécessaire.
Enfin, nous tablons nos résultats pour une meilleure lisibilité :
Nettoyer
Pour nettoyer vos ressources, procédez comme suit:
- Sur la console Amazon Text, choisissez Requêtes personnalisées dans le volet de navigation.
- Sélectionnez l'adaptateur que vous souhaitez supprimer.
- Selectionnez Supprimer.
Gestion des adaptateurs
Vous pouvez régulièrement améliorer vos adaptateurs en créant de nouvelles versions d'un adaptateur généré précédemment. Pour créer une nouvelle version d'un adaptateur, vous ajoutez de nouveaux exemples de documents à un adaptateur existant, étiquetez les documents et effectuez une formation. Vous pouvez gérer simultanément plusieurs versions d'un adaptateur à utiliser dans vos pipelines de développement. Pour mettre à jour vos adaptateurs de manière transparente, n'apportez pas de modifications ni ne supprimez votre Service de stockage simple Amazon (Amazon S3) dans lequel les fichiers nécessaires à la génération de l'adaptateur sont enregistrés.
des pratiques d’excellence;
Lorsque vous utilisez des requêtes personnalisées sur vos documents, reportez-vous à Meilleures pratiques pour les requêtes personnalisées Amazon Textact pour des considérations supplémentaires et les meilleures pratiques.
Avantages des requêtes personnalisées
Les requêtes personnalisées offrent les avantages suivants :
- Compréhension améliorée des documents – Grâce à sa capacité à extraire et à normaliser les données avec une grande précision, les requêtes personnalisées réduisent le recours aux révisions manuelles et aux audits et vous permettent de créer une automatisation plus fiable pour vos flux de travail de traitement intelligent des documents.
- Délai de valorisation plus rapide – Lorsque vous rencontrez de nouveaux types de documents nécessitant une plus grande précision, vous pouvez utiliser des requêtes personnalisées pour générer un adaptateur en libre-service en quelques heures. Vous n'avez pas besoin d'attendre une mise à jour du modèle pré-entraîné lorsque vous rencontrez de nouveaux types de documents ou des variantes de documents existants dans votre flux de travail. Vous avez un contrôle total sur votre pipeline et n'avez pas besoin de dépendre d'Amazon Textract pour prendre en charge vos nouveaux types de documents.
- Confidentialité des données – Les requêtes personnalisées ne conservent ni n'utilisent les données utilisées pour générer des adaptateurs pour améliorer nos modèles généraux pré-entraînés disponibles pour tous les clients. L'adaptateur est limité au compte du client ou à d'autres comptes explicitement désignés par le client, garantissant que seuls ces comptes peuvent accéder aux améliorations apportées à l'aide des données du client.
- Pratique –Les requêtes personnalisées offrent une expérience d'inférence entièrement gérée similaire aux requêtes. La formation de l'adaptateur est gratuite et vous ne paierez que l'inférence. Les requêtes personnalisées vous permettent d'économiser les frais généraux et les dépenses liés à la formation et à l'exploitation de modèles personnalisés.
Conclusion
Dans cet article, nous avons discuté des avantages des requêtes personnalisées, montré comment les requêtes personnalisées peuvent extraire avec précision les données des chèques et partagé les meilleures pratiques pour utiliser efficacement cette fonctionnalité. En quelques heures seulement, vous pouvez créer un adaptateur à l'aide de la console et l'utiliser dans l'API AnalyseDocument pour vos besoins d'extraction de données. Pour plus d'informations, reportez-vous à Requêtes personnalisées.
À propos des auteurs
Shibin Michaelraj est chef de produit senior au sein de l'équipe Amazon Texttract. Il se concentre sur la création de produits basés sur l'IA/ML pour les clients AWS. Il est ravi d'aider les clients à résoudre leurs défis commerciaux complexes en tirant parti des technologies d'IA et de ML. Dans ses temps libres, il aime courir, écouter des podcasts et perfectionner ses compétences en tennis amateur.
Keith Mascarenhas est un architecte de solutions senior au sein de l'équipe de service Amazon Texttract. Il est passionné par la résolution de problèmes commerciaux à grande échelle grâce à l'apprentissage automatique et aide actuellement nos clients du monde entier à automatiser le traitement de leurs documents afin d'accélérer la mise sur le marché et de réduire les coûts opérationnels.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
- La source: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- :possède
- :est
- :ne pas
- :où
- $UP
- 1
- 10
- 100
- 17
- 36
- 7
- a
- capacité
- A Propos
- accélérer
- accès
- Compte
- hybrides
- précision
- avec précision
- atteindre
- s'adapter
- ajouter
- ajout
- Supplémentaire
- propos
- adresses
- à opposer à
- AI
- Tous
- permet
- le long de
- aussi
- amateur
- Amazon
- Extrait d'Amazon
- Amazon Web Services
- montant
- an
- il analyse
- et les
- réponses
- api
- en vigueur
- appliqué
- approprié
- SONT
- AS
- Evaluer
- At
- audits
- auto
- automatiser
- Automatique
- automatiquement
- Automation
- disponibles
- AWS
- Banque
- basé
- base
- BE
- était
- commencer
- profiter
- avantages.
- LES MEILLEURS
- les meilleures pratiques
- Améliorée
- jusqu'à XNUMX fois
- Box
- construire
- Développement
- la performance des entreprises
- mais
- by
- Appelez-nous
- Appels
- CAN
- capacités
- prudent
- maisons
- challenge
- globaux
- difficile
- Modifications
- vérifier
- Contrôles
- le choix
- Selectionnez
- choose
- espace extérieur plus propre,
- code
- collectivement
- comparer
- complet
- Complété
- complexe
- composant
- composants électriques
- considérations
- Console
- construire
- continuer
- contrats
- des bactéries
- Correspondant
- Prix
- Costs
- Pays
- engendrent
- créée
- La création
- organisée
- Lecture
- Customiser
- des clients
- Clients
- personnalisation
- personnaliser
- données
- ensembles de données
- Date
- profond
- l'apprentissage en profondeur
- Degré
- demo
- Selon
- la description
- désigné
- détails
- Développement
- différent
- directement
- discuter
- discuté
- plusieurs
- do
- document
- INSTITUTIONNELS
- Dollar
- Ne pas
- avant-projet
- dessin
- deux
- durée
- pendant
- e
- chacun
- Easy
- de manière efficace
- non plus
- intégré
- employés
- permettre
- permet
- permettant
- de renforcer
- assurer
- assurer
- entrant
- Environment
- Erreurs
- essential
- évaluer
- évaluation
- examiner
- Examiner
- excité
- existant
- dépenses
- d'experience
- nous a permis de concevoir
- explicitement
- explorez
- extrait
- extraction
- Extraits
- f1
- plus rapide
- Fonctionnalité
- Fonctionnalités:
- few
- Des champs
- Fichiers
- la traduction de documents financiers
- institution financière
- cinq
- Flexibilité
- concentré
- Abonnement
- Pour
- le format
- gratuitement ici
- De
- d’étiquettes électroniques entièrement
- Général
- générer
- généré
- générateur
- génération
- GitHub
- plus grand
- Vous avez
- ayant
- he
- vous aider
- aider
- aide
- Haute
- de haut niveau
- augmentation
- sa
- HEURES
- Comment
- Cependant
- HTML
- http
- HTTPS
- humain
- ID
- identifiant
- identifier
- if
- image
- importer
- important
- améliorer
- améliorations
- in
- comprendre
- inclus
- inclut
- incorporation
- Augmente
- d'information
- Infrastructure
- initiale
- initier
- contribution
- installer
- Institution
- intégrer
- Intelligent
- Traitement intelligent des documents
- intervention
- développement
- Investir
- invoqué
- IT
- SES
- jpg
- juste
- ACTIVITES
- Libellé
- l'étiquetage
- langue
- apprentissage
- prêt
- en tirant parti
- Bibliothèque
- comme
- limité
- Gamme
- Liste
- emplacement
- baisser
- click
- machine learning
- LES PLANTES
- maintenir
- a prendre une
- gérés
- gestion
- manager
- manière
- Manuel
- manuellement
- Marché
- Découvrez
- Note
- métrique
- Métrique
- minimal
- manquant
- ML
- modèle
- numériques jumeaux (digital twin models)
- PLUS
- plusieurs
- prénom
- Nature
- Nature
- navigation
- Navigation
- Besoin
- nécessaire
- Besoins
- Nouveauté
- next
- cahier
- maintenant
- nombre
- numéros
- objet
- of
- Offres Speciales
- souvent
- on
- et, finalement,
- uniquement
- d'exploitation
- opérationnel
- Option
- or
- organisations
- Autre
- nos
- sortie
- plus de
- propre
- page
- pages
- pain
- paramètre
- pass
- En passant
- passionné
- Payer
- Paiement
- Effectuer
- performant
- effectue
- personnel
- phase
- pièces
- pipeline
- placement
- Platon
- Intelligence des données Platon
- PlatonDonnées
- fiche
- Podcasts
- Post
- pratiques
- La précision
- précédemment
- primaire
- d'ouvrabilité
- processus
- les process
- traitement
- Produit
- chef de produit
- Vidéo
- Produits
- à condition de
- fournit
- aportando
- requêtes
- fréquemment posées
- monde réel
- reconnaître
- reconnaissant
- recommander
- Prix Réduit
- réduit
- reportez-vous
- raffinage
- régulièrement
- pertinent
- fiable
- dépendance
- représentant
- nécessaire
- Resources
- réponse
- réponses
- Résultats
- conserver
- Avis
- examiné
- Avis
- routage
- Courir
- pour le running
- sauvé
- Escaliers intérieurs
- scénario
- But
- de façon transparente
- Section
- sur le lien
- sélection
- En libre service
- service
- Services
- set
- Partager
- commun
- devrait
- montrer
- montré
- Signature
- similaires
- étapes
- simultanément
- Taille
- compétences
- Solutions
- RÉSOUDRE
- Résoudre
- groupe de neurones
- scission
- Commencez
- déclarations
- étapes
- Étapes
- stimulus
- contrôles de relance
- storage
- structures
- Avec succès
- tel
- Support
- Tâche
- équipe
- Les technologies
- conditions
- tester
- Essais
- texte
- que
- qui
- Le
- leur
- Les
- ainsi
- Ces
- this
- порог
- Avec
- fiable
- à
- outil
- Train
- qualifié
- Formation
- TRP
- réglage
- tutoriel
- type
- types
- sous-jacent
- expérience unique et authentique
- Mises à jour
- a actualisé
- Actualités
- utilisé
- cas d'utilisation
- Usages
- en utilisant
- utilisé
- Utilisant
- validation
- variété
- variant
- Vérification
- version
- versions
- via
- attendez
- walkthrough
- souhaitez
- veut
- Façon..
- we
- web
- services Web
- Quoi
- Qu’est ce qu'
- quand
- qui
- WHO
- Wikipédia
- sera
- comprenant
- dans les
- sans
- des mots
- workflow
- workflows
- partout dans le monde
- faux
- Vous n'avez
- Votre
- zéphyrnet
- Zip