使用 Amazon Translate 的模糊匹配来个性化您的机器翻译结果

由柏拉图重新发布

关注： 0

一个人的白话是使他们独一无二的特征的一部分。通常有无数种不同的方式来表达一个特定的想法。当一家公司与他们的客户沟通时，以最能代表他们试图传达的信息的方式传递信息至关重要。在专业语言翻译方面，这一点变得更加重要。翻译系统和服务的客户期望得到准确且高度定制的输出。为了实现这一点，他们经常重复使用以前的翻译输出——称为翻译记忆库 (TM)——并将它们与新的输入文本进行比较。在计算机辅助翻译中，这种技术被称为 模糊匹配. 模糊匹配的主要功能是通过加快翻译过程来辅助翻译者。当在 TM 数据库中找不到正在翻译的文本的完全匹配时，翻译管理系统 (TMS) 通常可以选择搜索不太精确的匹配。潜在的匹配作为最终翻译的附加输入提供给翻译人员。使用机器翻译功能增强工作流程的翻译人员，例如亚马逊翻译通常期望将模糊匹配数据用作自动翻译解决方案的一部分。

在这篇文章中，您将了解如何根据翻译记忆库模糊匹配质量分数自定义 Amazon Translate 的输出。

翻译质量匹配

XML 本地化交换文件格式 (XLIF) 标准通常用作 TMS 和 Amazon Translate 之间的数据交换格式。 TMS 生成的 XLIFF 文件包括源文本数据和目标文本数据以及基于可用 TM 的匹配质量分数。这些分数（通常以百分比表示）表示翻译记忆库与被翻译文本的接近程度。

一些要求非常严格的客户只希望在匹配质量分数低于某个阈值时使用机器翻译。超过这个门槛，他们希望自己的翻译记忆库优先。翻译人员通常需要在他们的 TMS 中手动应用这些首选项，或者通过更改文本数据。此流程如下图所示。机器翻译系统处理翻译数据——文本和模糊匹配分数——然后由翻译人员根据他们所需的质量阈值进行审查和手动编辑。应用阈值作为机器翻译步骤的一部分，您可以删除这些手动步骤，从而提高效率并优化成本。

图 1：机器翻译审核流程

本文中介绍的解决方案允许您根据匹配质量得分阈值强制执行规则，以驱动给定的输入文本是否应由 Amazon Translate 进行机器翻译。如果不是机器翻译，则结果文本由审查最终输出的翻译人员自行决定。

解决方案架构

图 2 所示的解决方案架构利用以下服务：

亚马逊简单存储服务 – Amazon S3 存储桶包含以下内容：
- 模糊匹配阈值配置文件
- 待翻译的源文本
- Amazon Translate 输入和输出数据位置
AWS系统经理 - 我们用参数存储存储匹配质量阈值配置值的参数
AWS Lambda – 我们使用两个 Lambda 函数：
- 一个函数预处理质量匹配阈值配置文件并将数据保存到 Parameter Store
- 一项功能自动创建异步翻译作业
Amazon Simple Queue服务 – 由于新文件进入源存储桶，Amazon SQS 队列触发翻译流

图 2：解决方案架构

您首先通过编辑配置文件并将其上传到模糊匹配阈值配置 S3 存储桶来为翻译作业设置质量阈值。以下是 CSV 格式的示例配置。为简单起见，我们选择了 CSV，尽管您可以使用任何格式。每条线代表一个阈值，该阈值应用于特定翻译作业或作为任何作业的默认值。

default, 75
SourceMT-Test, 80

配置文件的规格如下：

第 1 列应填充作为输入数据提供给 Amazon Translate 作业的 XLIFF 文件的名称（不带扩展名）。
第 2 列应填充质量匹配百分比阈值。对于低于此值的任何分数，将使用机器翻译。
对于名称与配置文件中列出的任何名称都不匹配的所有 XLIFF 文件，使用默认阈值 — 带有关键字的行 default 在第 1 列中设置。

图 3：Systems Manager Parameter Store 中自动生成的参数

上传新文件时，Amazon S3 会触发负责处理参数的 Lambda 函数。此函数读取阈值参数并将其存储到 Parameter Store 以供将来使用。使用 Parameter Store 可避免在每次启动新翻译作业时执行多余的 Amazon S3 GET 请求。示例配置文件生成以下屏幕截图中显示的参数标签。

作业初始化 Lambda 函数使用这些参数在调用 Amazon Translate 之前预处理数据。我们使用英语到西班牙语翻译的 XLIFF 输入文件，如下面的代码所示。它包含要翻译的初始文本，分解成所谓的 中模板，在源标签中表示。

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

源文本已预先与翻译记忆库进行预匹配。数据包含潜在的翻译选项——表示为 <alt-trans> 标记—与匹配质量属性一起，以百分比表示。业务规则如下：

接收到的带有替代翻译且匹配质量低于阈值的句段未触及或为空。这向 Amazon Translate 发出信号，表明它们必须被翻译。
接收到的带有匹配质量高于阈值的替代翻译的句段会预先填充建议的目标文本。 Amazon Translate 会跳过这些片段。

假设为此作业配置的质量匹配阈值为 80%。具有 99% 匹配质量的第一个片段不是机器翻译的，而第二个片段是，因为它的匹配质量低于定义的阈值。在此配置中，Amazon Translate 生成以下输出：

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

在第二段中，Amazon Translate 会覆盖最初建议的目标文本 (Selección) 具有更高质量的翻译： Visita de selección.

此用例的一个可能扩展是重用翻译的输出并创建我们自己的翻译记忆库。 Amazon Translate 支持使用翻译记忆库自定义机器翻译，这要归功于并行数据特征。由于最初的低质量分数，以前机器翻译的文本片段可以在新的翻译项目中重复使用。

在以下部分中，我们将引导您完成部署和测试此解决方案的过程。你用 AWS CloudFormation 脚本和数据样本，以启动具有可配置质量匹配阈值的个性化异步翻译作业。

先决条件

对于本演练，您必须有一个 AWS账户. 如果您还没有账户，您可以创建并激活一个.

启动 AWS CloudFormation 堆栈

启动堆栈:
针对 堆栈名称，输入名称。
针对 配置桶名，输入包含阈值配置文件的 S3 存储桶。
针对 参数存储根，输入参数处理Lambda函数创建的参数的根路径。
针对 队列名称，输入您创建的 SQS 队列，以将新文件通知从源存储桶发布到作业初始化 Lambda 函数。这是读取配置文件的函数。
针对 源桶名，输入包含要翻译的 XLIFF 文件的 S3 存储桶。如果您更喜欢使用预先存在的存储桶，则需要将 CreateSourceBucket 参数的值更改为 No。
针对 工作桶名，输入 Amazon Translate 用于输入和输出数据的 S3 存储桶。
下一页.

图 4：CloudFormation 堆栈详细信息
可选地在堆 附加选项 页面，为您可能希望分配给即将创建的资源的标签添加键名和值。
下一页.
点击评论页面，选择 我承认此模板可能会导致 AWS CloudFormation 创建 IAM 资源.
查看其他设置，然后选择 创建堆栈.

AWS CloudFormation 需要几分钟才能代表您创建资源。你可以看一下进度 展会活动 AWS CloudFormation 控制台上的选项卡。创建堆栈后，您可以看到一个 CREATE_COMPLETE 中的讯息 Status 列上概述标签。

测试解决方案

让我们通过一个简单的例子。

下载以下样本数据.
解压缩内容。

应该有两个文件：一个 XLIFF 格式的 .xlf 文件，以及一个扩展名为 .cfg 的阈值配置文件。以下是 XLIFF 文件的摘录。

图 5：英法文样本文件提取

在 Amazon S3 控制台上，将质量阈值配置文件上传到您之前指定的配置存储桶中。

设置的值 test_En_to_Fr 是 75%。您应该能够在 Systems Manager 控制台的 Parameter Store 部分中看到参数。

仍然在 Amazon S3 控制台上，将 .xlf 文件上传到您配置为源的 S3 存储桶中。确保文件位于名为 translate （例如， <my_bucket>/translate/test_En_to_Fr.xlf).

这将启动翻译流程。

打开亚马逊翻译控制台。

新作业应显示为进行中状态。

图 6：Amazon Translate 控制台上正在进行的翻译作业

作业完成后，单击作业链接并查看输出。所有片段都应该已翻译。

所有片段都应该已翻译。在翻译的 XLIFF 文件中，查找具有名为 lscustom:match-quality，如以下屏幕截图所示。这些自定义属性根据分数确定保留建议翻译的句段。

图 7：自定义属性识别基于分数保留建议翻译的片段

这些是根据质量阈值从翻译记忆库中得出的。所有其他片段都是机器翻译的。

您现在已经部署并测试了一个自动异步翻译作业助手，该助手强制执行可配置的翻译记忆库匹配质量阈值。做得好！

净化

如果您将解决方案部署到您的帐户中，请不要忘记删除 CloudFormation 堆栈以避免任何意外成本。您需要事先手动清空 S3 存储桶。

结论

在本文中，您了解了如何根据标准 XLIFF 模糊匹配质量指标自定义您的 Amazon Translate 翻译作业。使用此解决方案，您可以大大减少审阅机器翻译文本所涉及的体力劳动，同时还可以优化您对 Amazon Translate 的使用。您还可以使用数据摄取自动化和工作流编排功能扩展解决方案，如中所述使用全自动翻译系统助手加快翻译工作.

作者简介

纳西斯·泽克帕 是波士顿的解决方案架构师。他通过提供架构指南、设计创新和可扩展的解决方案，帮助美国东北部的客户加速采用 AWS 云。当 Narcisse 不建造时，他喜欢与家人共度时光、旅行、烹饪和打篮球。

迪米特里餐厅 是 AWS 的解决方案架构师，常驻纽约布鲁克林。他主要与东北部的医疗保健和金融服务公司合作，帮助设计创新和创造性的解决方案，以最好地服务于他们的客户。来自软件开发背景的他对无服务器技术可以为世界带来的新可能性感到兴奋。工作之余，他喜欢徒步旅行和探索纽约市的美食。

时间戳记： 2022 年 5 月 16 日

由柏拉图重新发布

跨 AWS Accelerators 的初创公司使用 AI 和 ML 来解决关键任务客户挑战

使用 Amazon SageMaker Data Wrangler 进行数据准备，使用 Studio Labs 学习和试验机器学习

介绍 Fortuna：不确定性量化库

使用 IMDb 知识图增强推荐和搜索——第 3 部分

使用 Amazon SageMaker 在 ImmoScout24 预测住宅房地产价格

AI21 Jurassic-1 基础模型现已在 Amazon SageMaker 上可用

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理