Personnalisez vos résultats de traduction automatique en utilisant la correspondance floue avec Amazon Translate

Republié par Platon

Suiveurs: 0

La langue vernaculaire d'une personne fait partie des caractéristiques qui la rendent unique. Il existe souvent d'innombrables façons d'exprimer une idée spécifique. Lorsqu'une entreprise communique avec ses clients, il est essentiel que le message soit transmis d'une manière qui représente au mieux l'information qu'elle essaie de transmettre. Cela devient encore plus important lorsqu'il s'agit de traduction professionnelle. Les clients des systèmes et services de traduction attendent des résultats précis et hautement personnalisés. Pour y parvenir, ils réutilisent souvent les résultats de traduction précédents, appelés mémoires de traduction (MT), et les comparent au nouveau texte d'entrée. En traduction assistée par ordinateur, cette technique est connue sous le nom de correspondance floue. La fonction principale de la correspondance approximative est d'aider le traducteur en accélérant le processus de traduction. Lorsqu'une correspondance exacte ne peut pas être trouvée dans la base de données de MT pour le texte à traduire, les systèmes de gestion de la traduction (TMS) ont souvent la possibilité de rechercher une correspondance moins qu'exacte. Les correspondances potentielles sont fournies au traducteur comme entrée supplémentaire pour la traduction finale. Les traducteurs qui améliorent leur flux de travail avec des capacités de traduction automatique telles que Amazon Traduire s'attendent souvent à ce que les données de correspondance approximative soient utilisées dans le cadre de la solution de traduction automatique.

Dans cet article, vous apprendrez à personnaliser la sortie d'Amazon Translate en fonction des scores de qualité de correspondance approximative de la mémoire de traduction.

Correspondance de la qualité de la traduction

Le format de fichier d'échange de localisation XML (XLIFF) est souvent utilisé comme format d'échange de données entre les TMS et Amazon Translate. Les fichiers XLIFF produits par les TMS incluent des données de texte source et cible ainsi que des scores de qualité de correspondance basés sur la MT disponible. Ces scores, généralement exprimés en pourcentage, indiquent à quel point la mémoire de traduction est proche du texte à traduire.

Certains clients ayant des exigences très strictes souhaitent que la traduction automatique ne soit utilisée que lorsque les scores de qualité de correspondance sont inférieurs à un certain seuil. Au-delà de ce seuil, ils s'attendent à ce que leur propre mémoire de traduction prime. Les traducteurs doivent souvent appliquer ces préférences manuellement, soit dans leur TMS, soit en modifiant les données textuelles. Ce flux est illustré dans le schéma suivant. Le système de traduction automatique traite les données de traduction (texte et scores de correspondance partielle) qui sont ensuite examinées et modifiées manuellement par les traducteurs, en fonction des seuils de qualité souhaités. L'application de seuils dans le cadre de l'étape de traduction automatique vous permet de supprimer ces étapes manuelles, ce qui améliore l'efficacité et optimise les coûts.

Figure 1 : flux de révision de la traduction automatique

La solution présentée dans cet article vous permet d'appliquer des règles basées sur des seuils de score de qualité de correspondance pour déterminer si un texte d'entrée donné doit être traduit automatiquement par Amazon Translate ou non. Lorsqu'il n'est pas traduit automatiquement, le texte résultant est laissé à la discrétion des traducteurs examinant le résultat final.

Architecture de solution

L'architecture de la solution illustrée à la figure 2 exploite les services suivants :

Service de stockage simple Amazon – Les buckets Amazon S3 contiennent le contenu suivant :
- Fichiers de configuration du seuil de correspondance approximative
- Texte source à traduire
- Emplacements des données d'entrée et de sortie d'Amazon Translate
Gestionnaire de systèmes AWS - Nous utilisons Magasin de paramètres paramètres pour stocker des valeurs de configuration de seuil de qualité de correspondance
AWS Lambda – Nous utilisons deux fonctions Lambda :
- Une fonction prétraite les fichiers de configuration du seuil de correspondance de qualité et conserve les données dans Parameter Store
- Une fonction crée automatiquement les travaux de traduction asynchrones
Service Amazon Simple Queue – Une file d'attente Amazon SQS déclenche le flux de traduction à la suite de l'arrivée de nouveaux fichiers dans le compartiment source

Illustration 2 : Architecture de la solution

Vous configurez d'abord des seuils de qualité pour vos tâches de traduction en modifiant un fichier de configuration et en le téléchargeant dans le compartiment S3 de configuration du seuil de correspondance approximative. Voici un exemple de configuration au format CSV. Nous avons choisi CSV pour la simplicité, bien que vous puissiez utiliser n'importe quel format. Chaque ligne représente un seuil à appliquer soit à une tâche de traduction spécifique, soit comme valeur par défaut à n'importe quelle tâche.

default, 75
SourceMT-Test, 80

Les spécifications du fichier de configuration sont les suivantes :

La colonne 1 doit contenir le nom du fichier XLIFF (sans extension) fourni à la tâche Amazon Translate en tant que données d'entrée.
La colonne 2 doit être remplie avec le seuil de pourcentage de correspondance de qualité. Pour tout score inférieur à cette valeur, la traduction automatique est utilisée.
Pour tous les fichiers XLIFF dont le nom ne correspond à aucun nom répertorié dans le fichier de configuration, le seuil par défaut est utilisé : la ligne contenant le mot-clé default défini dans la colonne 1.

Figure 3 : Paramètre généré automatiquement dans Systems Manager Parameter Store

Lorsqu'un nouveau fichier est chargé, Amazon S3 déclenche la fonction Lambda en charge du traitement des paramètres. Cette fonction lit et stocke les paramètres de seuil dans Parameter Store pour une utilisation future. L'utilisation de Parameter Store évite d'effectuer des requêtes Amazon S3 GET redondantes chaque fois qu'une nouvelle tâche de traduction est lancée. L'exemple de fichier de configuration produit les balises de paramètre présentées dans la capture d'écran suivante.

La fonction Lambda d'initialisation de la tâche utilise ces paramètres pour prétraiter les données avant d'appeler Amazon Translate. Nous utilisons un fichier d'entrée XLIFF de traduction anglais-espagnol, comme indiqué dans le code suivant. Il contient le texte initial à traduire, décomposé en ce que l'on appelle segments, représenté dans les balises source.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Le texte source a été préalablement mis en correspondance avec la mémoire de traduction. Les données contiennent des alternatives de traduction potentielles, représentées par <alt-trans> balises—accompagnées d'un attribut de qualité de correspondance, exprimé en pourcentage. La règle métier est la suivante :

Les segments reçus avec des traductions alternatives et une qualité de correspondance inférieure au seuil sont intacts ou vides. Cela signale à Amazon Translate qu'ils doivent être traduits.
Les segments reçus avec des traductions alternatives avec une qualité de correspondance supérieure au seuil sont préremplis avec le texte cible suggéré. Amazon Translate ignore ces segments.

Supposons que le seuil de correspondance de qualité configuré pour ce travail est de 80 %. Le premier segment avec une qualité de correspondance de 99 % n'est pas traduit automatiquement, tandis que le deuxième segment l'est, car sa qualité de correspondance est inférieure au seuil défini. Dans cette configuration, Amazon Translate produit la sortie suivante :

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Dans le deuxième segment, Amazon Translate écrase le texte cible initialement suggéré (Selección) avec une traduction de meilleure qualité : Visita de selección.

Une extension possible de ce cas d'utilisation pourrait être de réutiliser la sortie traduite et de créer notre propre mémoire de traduction. Amazon Translate prend en charge la personnalisation de la traduction automatique à l'aide de la mémoire de traduction grâce à la données parallèles fonctionnalité. Les segments de texte précédemment traduits automatiquement en raison de leur faible niveau de qualité initial pourraient ensuite être réutilisés dans de nouveaux projets de traduction.

Dans les sections suivantes, nous vous expliquons le processus de déploiement et de test de cette solution. Tu utilises AWS CloudFormation des scripts et des échantillons de données pour lancer une tâche de traduction asynchrone personnalisée avec un seuil de correspondance de qualité configurable.

Pré-requis

Pour cette procédure pas à pas, vous devez disposer d'un Compte AWS. Si vous n'avez pas encore de compte, vous pouvez créer et activer un.

Lancer la pile AWS CloudFormation

Selectionnez Lancer la pile:
Pour Nom de la pile, entrez un nom.
Pour ConfigBucketNameConfigBucketName, entrez le compartiment S3 contenant les fichiers de configuration de seuil.
Pour ParamètreStoreRoot, entrez le chemin racine des paramètres créés par la fonction Lambda de traitement des paramètres.
Pour NomFile, entrez la file d'attente SQS que vous créez pour publier de nouvelles notifications de fichiers depuis le compartiment source vers la fonction Lambda d'initialisation de la tâche. C'est la fonction qui lit le fichier de configuration.
Pour Nom du compartiment source, saisissez le bucket S3 contenant les fichiers XLIFF à traduire. Si vous préférez utiliser un compartiment préexistant, vous devez modifier la valeur du paramètre CreateSourceBucket sur No.
Pour Nom du compartiment de travail, entrez le compartiment S3 qu'Amazon Translate utilise pour les données d'entrée et de sortie.
Selectionnez Suivant.

Figure 4 : Détails de la pile CloudFormation
En option sur le Stack Options page, ajoutez des noms de clé et des valeurs pour les balises que vous souhaitez affecter aux ressources sur le point d'être créées.
Selectionnez Suivant.
Sur le Avis page, sélectionnez Je reconnais que ce modèle peut amener AWS CloudFormation à créer des ressources IAM.
Passez en revue les autres paramètres, puis choisissez Créer une pile.

AWS CloudFormation prend plusieurs minutes pour créer les ressources en votre nom. Vous pouvez suivre l'évolution sur le Événements onglet sur la console AWS CloudFormation. Lorsque la pile a été créée, vous pouvez voir un CREATE_COMPLETE message dans le Statut colonne sur le Vue d’ensemble languette.

Testez la solution

Passons en revue un exemple simple.

Téléchargez ce qui suit échantillon de données.
Décompressez le contenu.

Il doit y avoir deux fichiers : un fichier .xlf au format XLIFF et un fichier de configuration de seuil avec l'extension .cfg. Ce qui suit est un extrait du fichier XLIFF.

Exemple d'extrait de fichier anglais vers français

Figure 5 : Exemple d'extrait de fichier de l'anglais vers le français

Sur la console Amazon S3, chargez le fichier de configuration du seuil de qualité dans le compartiment de configuration que vous avez spécifié précédemment.

La valeur fixée pour test_En_to_Fr est de 75 %. Vous devriez pouvoir voir les paramètres sur la console Systems Manager dans la section Parameter Store.

Toujours sur la console Amazon S3, chargez le fichier .xlf dans le compartiment S3 que vous avez configuré comme source. Assurez-vous que le fichier se trouve dans un dossier nommé translate (par exemple, <my_bucket>/translate/test_En_to_Fr.xlf).

Cela démarre le flux de traduction.

Ouvrez la console Amazon Translate.

Une nouvelle tâche devrait apparaître avec le statut En cours.

Figure 6 : Tâches de traduction en cours sur la console Amazon Translate

Une fois le travail terminé, cliquez sur le lien du travail et consultez la sortie. Tous les segments doivent avoir été traduits.

Tous les segments doivent avoir été traduits. Dans le fichier XLIFF traduit, recherchez les segments avec des attributs supplémentaires nommés lscustom:match-quality, comme illustré dans la capture d'écran suivante. Ces attributs personnalisés identifient les segments où la traduction suggérée a été retenue en fonction du score.

Figure 7 : Attributs personnalisés identifiant les segments où la traduction suggérée a été retenue en fonction du score

Celles-ci ont été dérivées de la mémoire de traduction en fonction du seuil de qualité. Tous les autres segments ont été traduits automatiquement.

Vous avez maintenant déployé et testé un assistant de tâche de traduction asynchrone automatisé qui applique des seuils de qualité de correspondance de mémoire de traduction configurables. Bon travail!

Nettoyer

Si vous avez déployé la solution dans votre compte, n'oubliez pas de supprimer la pile CloudFormation pour éviter tout coût inattendu. Vous devez au préalable vider manuellement les compartiments S3.

Conclusion

Dans cet article, vous avez appris à personnaliser vos tâches de traduction Amazon Translate en fonction des métriques de qualité de correspondance approximative XLIFF standard. Avec cette solution, vous pouvez réduire considérablement le travail manuel nécessaire à la révision du texte traduit automatiquement tout en optimisant votre utilisation d'Amazon Translate. Vous pouvez également étendre la solution avec des fonctionnalités d'automatisation de l'ingestion de données et d'orchestration de flux de travail, comme décrit dans Accélérez les travaux de traduction avec un assistant de système de traduction entièrement automatisé.

À propos des auteurs

Narcisse Zekpa est un architecte de solutions basé à Boston. Il aide les clients du nord-est des États-Unis à accélérer leur adoption du cloud AWS, en fournissant des directives architecturales, des solutions de conception innovantes et évolutives. Lorsque Narcisse ne construit pas, il aime passer du temps avec sa famille, voyager, cuisiner et jouer au basket.

Dimitri Restaino est un architecte de solutions chez AWS, basé à Brooklyn, New York. Il travaille principalement avec des entreprises de soins de santé et de services financiers du Nord-Est, aidant à concevoir des solutions innovantes et créatives pour mieux servir leurs clients. Issu d'une formation en développement de logiciels, il est enthousiasmé par les nouvelles possibilités que la technologie sans serveur peut apporter au monde. En dehors du travail, il adore faire de la randonnée et explorer la scène culinaire de New York.

Horodatage: 16 mai 2022

Republié par Platon

Les startups des accélérateurs AWS utilisent l'IA et le ML pour résoudre les défis clients critiques

Utilisez Amazon SageMaker Data Wrangler pour la préparation des données et Studio Labs pour apprendre et expérimenter le ML

Présentation de Fortuna : une bibliothèque pour la quantification des incertitudes

Recommandations de puissance et recherche à l'aide d'un graphe de connaissances IMDb - Partie 3

Prédire les prix de l'immobilier résidentiel chez ImmoScout24 avec Amazon SageMaker

Le modèle de fondation AI21 Jurassic-1 est désormais disponible sur Amazon SageMaker

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte