Des entreprises de divers secteurs créent, numérisent et stockent de gros volumes de documents PDF. Dans de nombreux cas, le contenu est lourd de texte et souvent écrit dans une langue différente et nécessite une traduction. Pour résoudre ce problème, vous avez besoin d'une solution automatisée pour extraire le contenu de ces PDF et les traduire rapidement et à moindre coût.
De nombreuses entreprises ont divers utilisateurs mondiaux et doivent traduire du texte pour permettre une communication multilingue entre elles. Il s'agit d'un effort humain manuel, lent et coûteux. Il est nécessaire de trouver une solution évolutive, fiable et rentable pour traduire des documents tout en conservant la mise en forme du document d'origine.
Pour les secteurs verticaux tels que la santé, en raison des exigences réglementaires, les documents traduits nécessitent un humain supplémentaire dans la boucle pour vérifier la validité du document traduit automatiquement.
Si le document traduit ne conserve pas la mise en forme et la structure d'origine, il perd son contexte. Il peut donc être difficile pour un réviseur humain de valider et d'apporter des corrections.
Dans cet article, nous montrons comment créer un nouveau PDF traduit à partir d'un PDF numérisé tout en conservant la structure et le formatage du document d'origine à l'aide d'une approche basée sur la géométrie avec Extrait d'Amazon, Amazon Traduireet une Apache PDFBoxComment.
Vue d'ensemble de la solution
La solution présentée dans cet article utilise les composants suivants:
- Extrait d'Amazon - Un service d'apprentissage automatique (ML) entièrement géré qui extrait automatiquement le texte imprimé, l'écriture manuscrite et d'autres données à partir de documents numérisés qui va au-delà de la simple reconnaissance optique de caractères (OCR) pour identifier, comprendre et extraire des données de formulaires et de tableaux. Amazon Textract peut détecter du texte dans une variété de documents, notamment des rapports financiers, des dossiers médicaux et des formulaires fiscaux.
- Amazon Traduire – Un service de traduction automatique neuronale qui offre une traduction linguistique rapide, de haute qualité et abordable. Amazon Translate fournit des capacités de traduction à la demande et par lots de haute qualité dans plus de 2,970 XNUMX paires de langues, tout en réduisant vos coûts de traduction.
- Traduire PDF – Une bibliothèque open-source écrite en Java et publiée sur Exemples AWS dans GitHub. Cette bibliothèque contient une logique pour générer des documents PDF traduits dans la langue de votre choix avec Amazon Textract et Amazon Translate. Il utilise également la bibliothèque Java open source Apache PDFBox pour créer des documents PDF. Il existe des bibliothèques de traitement PDF similaires disponibles dans d'autres langages de programmation, par exemple Noeud PDFBox.
Lors de l'exécution de traductions automatiques, vous pouvez rencontrer des situations dans lesquelles vous souhaitez empêcher la traduction de sections spécifiques de texte, telles que des noms ou des identifiants uniques. Amazon Translate autorise les modifications de balises, ce qui vous permet de spécifier quel texte ne doit pas être traduit. Amazon Translate prend également en charge la personnalisation de la formalité, ce qui vous permet de personnaliser le niveau de formalité de votre sortie de traduction.
Pour plus de détails sur les limites d'Amazon Textract, consultez Quotas dans Amazon Textract.
La solution est limitée aux langues pouvant être extraites par Amazon Textract, qui prend actuellement en charge l'anglais, l'espagnol, l'italien, le portugais, le français et l'allemand. Ces langues sont également prises en charge par Amazon Translate. Pour la liste complète des langues prises en charge par Amazon Translate, consultez Langues et codes de langue pris en charge.
Nous utilisons le PDF suivant pour démontrer la traduction du texte de l'anglais vers l'espagnol. La solution prend également en charge la génération du document traduit sans aucun formatage. La position du texte traduit est conservée. Les documents PDF source et traduits se trouvent également dans le Dépôt AWS Samples GitHub.
Dans les sections suivantes, nous montrons comment exécuter le code de traduction sur une machine locale et examinons le code de traduction plus en détail.
Pré-requis
Avant de commencer, configurez votre compte AWS et le Interface de ligne de commande AWS (AWS CLI). Pour accéder à tous les services AWS tels que Textract et Translate, des autorisations IAM appropriées sont nécessaires. Nous vous recommandons d'utiliser les autorisations de moindre privilège. Pour en savoir plus sur les autorisations IAM, consultez Stratégies et autorisations dans IAM ainsi que Comment Amazon Textract fonctionne avec IAM et les Comment Amazon Translate fonctionne avec IAM.
Exécutez le code de traduction sur une machine locale
Cette solution se concentre sur le code Java autonome pour extraire et traduire un document PDF. Cela facilite les tests et les personnalisations pour obtenir le document PDF traduit au meilleur rendu. Le code peut ensuite être intégré dans une solution automatisée à déployer et à exécuter dans AWS. Voir Traduction de documents PDF à l'aide d'Amazon Translate et d'Amazon Textract pour un exemple d'architecture qui utilise Service de stockage simple Amazon (Amazon S3) pour stocker les documents et AWS Lambda pour exécuter le code.
Pour exécuter le code sur un ordinateur local, procédez comme suit. Les exemples de code sont disponibles sur le Repo GitHub.
- Clonez le dépôt GitHub :
- Exécutez la commande suivante:
- Exécutez la commande suivante pour traduire de l'anglais vers l'espagnol :
Deux documents PDF traduits sont créés dans le dossier documents, avec et sans la mise en forme d'origine (SampleOutput-es.pdf
et les SampleOutput-min-es.pdf
).
Code pour générer le PDF traduit
Les extraits de code suivants montrent comment prendre un document PDF et générer un document PDF traduit correspondant. Il extrait le texte à l'aide d'Amazon Textract et crée le PDF traduit en ajoutant le texte traduit en tant que couche à l'image. Il s'appuie sur la solution présentée dans le post Génération automatique de PDF consultables à partir de documents numérisés avec Amazon Textract.
Le code obtient d'abord chaque ligne de texte avec Amazon Textract. Amazon Translate est utilisé pour obtenir le texte traduit et enregistrer la géométrie du texte traduit.
La taille de la police est calculée comme suit et peut facilement être configurée :
Le PDF traduit est créé à partir de la géométrie enregistrée et du texte traduit. Les changements de couleur du texte traduit peuvent être facilement configurés.
L'image suivante montre le document traduit en espagnol avec la mise en forme d'origine (SampleOutput-es.pdf
).
L'image suivante montre le PDF traduit en espagnol sans aucune mise en forme (SampleOutput-min-es.pdf
).
Temps de traitement
Le pdf de demande d'emploi a pris environ 10 secondes pour extraire, traiter et rendre le pdf traduit. Le temps de traitement des documents contenant beaucoup de texte tels que le Déclaration de l'Indépendance PDF a pris moins d'une minute.
Prix
Avec Amazon Textract, vous payez au fur et à mesure en fonction du nombre de pages et d'images traitées. Avec Amazon Translate, vous payez au fur et à mesure en fonction du nombre de caractères de texte traités. Faire référence à Tarification d'Amazon Textract et les Tarification d'Amazon Translate pour les coûts réels.
Conclusion
Cet article a montré comment utiliser Amazon Textract et Amazon Translate pour générer des documents PDF traduits tout en conservant la structure du document d'origine. Vous pouvez éventuellement post-traiter les résultats d'Amazon Textract pour améliorer la qualité de la traduction, par exemple les mots extraits peuvent être passés par des correcteurs orthographiques basés sur ML tels que SymSpell pour la validation des données, ou des algorithmes de clustering peuvent être utilisés pour préserver l'ordre de lecture. Vous pouvez aussi utiliser IA augmentée d'Amazon (Amazon A2I) pour créer des flux de travail de révision humaine où vous pouvez utiliser votre propre main-d'œuvre privée pour réviser les documents PDF originaux et traduits afin de fournir plus de précision et de contexte. Voir Conception de workflows de révision humaine avec Amazon Translate et Amazon Augmented AI et les Création d'un workflow de traduction de documents multilingues avec une personnalisation spécifique au domaine et à la langue pour commencer.
À propos des auteurs
Anubha Singhal est architecte cloud senior chez Amazon Web Services au sein de l'organisation AWS Professional Services.
Sean Laurent était auparavant ingénieur front-end chez AWS. Il s'est spécialisé dans le développement frontal au sein de l'organisation AWS Professional Services et de l'équipe Amazon Privacy.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Automobile / VE, Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- Décalages de bloc. Modernisation de la propriété des compensations environnementales. Accéder ici.
- La source: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :est
- :ne pas
- :où
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- A Propos
- accès
- Compte
- précision
- à travers
- présenter
- ajoutant
- Supplémentaire
- propos
- abordables
- algorithmes
- permet
- aussi
- Amazon
- Extrait d'Amazon
- Amazon Traduire
- Amazon Web Services
- an
- et les
- tous
- Apache
- Application
- une approche
- approprié
- architecture
- SONT
- AS
- At
- augmentée
- Automatisation
- automatiquement
- disponibles
- AWS
- Services professionnels AWS
- basé
- BE
- va
- jusqu'à XNUMX fois
- Au-delà
- Noir
- Block
- Blocs
- Box
- construire
- construit
- entreprises
- by
- calculé
- CAN
- capacités
- cas
- Modifications
- caractère
- reconnaissance des caractères
- caractères
- le cloud
- regroupement
- code
- Couleur
- Communication
- complet
- configurée
- contient
- contenu
- contenu
- contexte
- Corrections
- Correspondant
- rentable
- Costs
- engendrent
- créée
- crée des
- Lecture
- personnalisation
- personnaliser
- données
- offre
- démontrer
- déployer
- voulu
- détail
- détails
- Développement
- différent
- difficile
- plusieurs
- document
- INSTITUTIONNELS
- Ne fait pas
- deux
- chacun
- plus facilement
- même
- effort
- d'autre
- emploi
- permettre
- fin
- ingénieur
- Anglais
- exemple
- exemples
- cher
- extrait
- Extraits
- non
- RAPIDE
- remplir
- la traduction de documents financiers
- Trouvez
- Prénom
- flotteur
- se concentre
- Abonnement
- suit
- Pour
- anciennement
- document
- trouvé
- Français
- De
- avant
- L'extrémité avant
- Développement front-end
- plein
- d’étiquettes électroniques entièrement
- générer
- générateur
- Allemand
- obtenez
- GitHub
- Global
- Go
- Goes
- Vous avez
- he
- la médecine
- lourd
- la taille
- ici
- de haute qualité
- Villa
- Comment
- How To
- HTML
- http
- HTTPS
- humain
- Identificateurs
- identifier
- if
- image
- satellite
- améliorer
- in
- Dans d'autres
- comprendre
- Y compris
- secteurs
- contribution
- des services
- développement
- IT
- SES
- Java
- langue
- Langues
- gros
- couche
- APPRENTISSAGE
- apprentissage
- au
- à gauche
- moins
- Niveau
- bibliothèques
- Bibliothèque
- limites
- Gamme
- lignes
- Liste
- locales
- logique
- Style
- Perd
- click
- machine learning
- a prendre une
- gérés
- Manuel
- de nombreuses
- Mai..
- médical
- minute
- ML
- Modifications
- PLUS
- noms
- Besoin
- nécessaire
- Nouveauté
- nombre
- objet
- OCR
- of
- souvent
- on
- À la demande
- open source
- opération
- reconnaissance optique de caractères
- or
- de commander
- organisation
- original
- Autre
- sortie
- propre
- page
- pages
- paires
- passé
- Payer
- effectuer
- autorisations
- Platon
- Intelligence des données Platon
- PlatonDonnées
- Portugais
- position
- Post
- présenté
- la confidentialité
- Privé
- privilège
- processus
- Traité
- traitement
- professionels
- Programmation
- langages de programmation
- fournir
- fournit
- publié
- qualité
- vite.
- en cours
- reconnaissance
- recommander
- Articles
- région
- régulateurs
- fiable
- Rapports
- exigent
- Exigences
- a besoin
- limité
- Résultats
- conserver
- retenue
- retourner
- Avis
- Courir
- Épargnez
- évolutive
- balayage
- secondes
- les sections
- sur le lien
- supérieur
- service
- Services
- set
- devrait
- montrer
- montré
- montré
- Spectacles
- similaires
- étapes
- situations
- Taille
- lent
- sur mesure
- Identifier
- Espagnol
- spécialisé
- groupe de neurones
- autonome
- j'ai commencé
- Étapes
- storage
- Boutique
- Chaîne
- structure
- tel
- Appareils
- Les soutiens
- TAG
- Prenez
- impôt
- équipe
- Essais
- que
- qui
- Le
- La Source
- Les
- puis
- Là.
- Ces
- this
- Avec
- fiable
- à
- a
- top
- traduire
- Traduction
- comprendre
- expérience unique et authentique
- utilisé
- d'utiliser
- utilisateurs
- Usages
- en utilisant
- Utilisant
- VALIDER
- validation
- variété
- divers
- vérifier
- verticales
- Voir
- volumes
- était
- we
- web
- services Web
- WELL
- Quoi
- qui
- tout en
- blanc
- largeur
- comprenant
- dans les
- sans
- des mots
- workflow
- workflows
- Nos inspecteurs
- vos contrats
- code écrit
- Vous n'avez
- Votre
- zéphyrnet