Personalice los resultados de su traducción automática mediante el uso de coincidencias aproximadas con Amazon Translate

Reeditado por Platón

seguidores: 0

La lengua vernácula de una persona es parte de las características que la hacen única. A menudo hay innumerables formas diferentes de expresar una idea específica. Cuando una empresa se comunica con sus clientes, es fundamental que el mensaje se entregue de la manera que mejor represente la información que están tratando de transmitir. Esto se vuelve aún más importante cuando se trata de traducción profesional de idiomas. Los clientes de sistemas y servicios de traducción esperan resultados precisos y altamente personalizados. Para lograr esto, a menudo reutilizan resultados de traducción anteriores, llamados memoria de traducción (TM), y los comparan con el nuevo texto de entrada. En la traducción asistida por computadora, esta técnica se conoce como coincidencia difusa. La función principal de la coincidencia aproximada es ayudar al traductor acelerando el proceso de traducción. Cuando no se puede encontrar una coincidencia exacta en la base de datos de TM para el texto que se está traduciendo, los sistemas de gestión de traducción (TMS) a menudo tienen la opción de buscar una coincidencia que no sea exacta. Las posibles coincidencias se proporcionan al traductor como entrada adicional para la traducción final. Traductores que mejoran su flujo de trabajo con capacidades de traducción automática como Traductor de Amazon a menudo esperan que los datos de coincidencia aproximada se utilicen como parte de la solución de traducción automática.

En esta publicación, aprenderá a personalizar la salida de Amazon Translate de acuerdo con los puntajes de calidad de coincidencia aproximada de la memoria de traducción.

Coincidencia de calidad de traducción

El formato de archivo de intercambio de localización XML (XLIFF) se utiliza a menudo como formato de intercambio de datos entre TMS y Amazon Translate. Los archivos XLIFF producidos por TMS incluyen datos de texto de origen y de destino junto con puntuaciones de calidad de coincidencia basadas en la TM disponible. Estas puntuaciones, generalmente expresadas como porcentaje, indican qué tan cerca está la memoria de traducción del texto que se está traduciendo.

Algunos clientes con requisitos muy estrictos solo quieren que se use la traducción automática cuando los puntajes de calidad de las coincidencias están por debajo de cierto umbral. Más allá de este umbral, esperan que su propia memoria de traducción tenga prioridad. Los traductores a menudo necesitan aplicar estas preferencias manualmente, ya sea dentro de su TMS o modificando los datos de texto. Este flujo se ilustra en el siguiente diagrama. El sistema de traducción automática procesa los datos de traducción (puntuaciones de coincidencia aproximada y de texto) que luego los traductores revisan y editan manualmente, en función de los umbrales de calidad deseados. La aplicación de umbrales como parte del paso de traducción automática le permite eliminar estos pasos manuales, lo que mejora la eficiencia y optimiza los costos.

Figura 1: Flujo de revisión de traducción automática

La solución presentada en esta publicación le permite aplicar reglas basadas en umbrales de puntuación de calidad de coincidencia para determinar si un texto de entrada determinado debe ser traducido automáticamente por Amazon Translate o no. Cuando no está traducido automáticamente, el texto resultante se deja a discreción de los traductores que revisan el resultado final.

Arquitectura de soluciones

La arquitectura de la solución ilustrada en la Figura 2 aprovecha los siguientes servicios:

Servicio de almacenamiento simple de Amazon – Los depósitos de Amazon S3 contienen el siguiente contenido:
- Archivos de configuración de umbral de coincidencia parcial
- Texto fuente a traducir
- Ubicaciones de datos de entrada y salida de Amazon Translate
Gerente de sistemas de AWS - Usamos Tienda de parámetros parámetros para almacenar valores de configuración de umbral de calidad de coincidencia
AWS Lambda – Usamos dos funciones Lambda:
- Una función preprocesa los archivos de configuración del umbral de coincidencia de calidad y conserva los datos en el almacén de parámetros
- Una función crea automáticamente los trabajos de traducción asincrónicos
Servicio de cola simple de Amazon – Una cola de Amazon SQS activa el flujo de traducción como resultado de la entrada de nuevos archivos en el depósito de origen.

Diagrama de la arquitectura de la solución

Figura 2: Arquitectura de la solución

Primero configura umbrales de calidad para sus trabajos de traducción editando un archivo de configuración y cargándolo en el depósito S3 de configuración de umbral de coincidencia parcial. La siguiente es una configuración de muestra en formato CSV. Elegimos CSV por simplicidad, aunque puedes usar cualquier formato. Cada línea representa un umbral que se aplicará a un trabajo de traducción específico o como valor predeterminado a cualquier trabajo.

default, 75
SourceMT-Test, 80

Las especificaciones del archivo de configuración son las siguientes:

La columna 1 debe completarse con el nombre del archivo XLIFF, sin extensión, proporcionado al trabajo de Amazon Translate como datos de entrada.
La columna 2 debe completarse con el umbral de porcentaje de coincidencia de calidad. Para cualquier puntuación por debajo de este valor, se utiliza la traducción automática.
Para todos los archivos XLIFF cuyo nombre no coincida con ningún nombre enumerado en el archivo de configuración, se utiliza el umbral predeterminado: la línea con la palabra clave default establecido en la columna 1.

Figura 3: parámetro generado automáticamente en el almacén de parámetros de Systems Manager

Cuando se carga un nuevo archivo, Amazon S3 activa la función Lambda encargada de procesar los parámetros. Esta función lee y almacena los parámetros de umbral en el almacén de parámetros para uso futuro. El uso de Parameter Store evita realizar solicitudes GET de Amazon S3 redundantes cada vez que se inicia un nuevo trabajo de traducción. El archivo de configuración de muestra produce las etiquetas de parámetros que se muestran en la siguiente captura de pantalla.

La función Lambda de inicialización del trabajo utiliza estos parámetros para preprocesar los datos antes de invocar a Amazon Translate. Usamos un archivo de entrada XLIFF de traducción de inglés a español, como se muestra en el siguiente código. Contiene el texto inicial a traducir, desglosado en lo que se denomina segmentos, representado en las etiquetas de origen.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

El texto de origen se ha emparejado previamente con la memoria de traducción. Los datos contienen posibles alternativas de traducción, representadas como <alt-trans> etiquetas, junto con un atributo de calidad de coincidencia, expresado como porcentaje. La regla de negocio es la siguiente:

Los segmentos recibidos con traducciones alternativas y una calidad de coincidencia por debajo del umbral no se tocan o están vacíos. Esto le indica a Amazon Translate que deben traducirse.
Los segmentos recibidos con traducciones alternativas con una calidad de coincidencia por encima del umbral se rellenan previamente con el texto de destino sugerido. Amazon Translate salta esos segmentos.

Supongamos que el umbral de coincidencia de calidad configurado para este trabajo es del 80 %. El primer segmento con una calidad de coincidencia del 99 % no está traducido automáticamente, mientras que el segundo segmento sí lo está porque su calidad de coincidencia está por debajo del umbral definido. En esta configuración, Amazon Translate genera el siguiente resultado:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

En el segundo segmento, Amazon Translate sobrescribe el texto de destino sugerido inicialmente (Selección) con una traducción de mayor calidad: Visita de selección.

Una posible extensión de este caso de uso podría ser reutilizar el resultado traducido y crear nuestra propia memoria de traducción. Amazon Translate admite la personalización de la traducción automática mediante la memoria de traducción gracias a la datos paralelos rasgo. Los segmentos de texto previamente traducidos automáticamente debido a su puntuación inicial de baja calidad podrían reutilizarse en nuevos proyectos de traducción.

En las siguientes secciones, lo guiaremos a través del proceso de implementación y prueba de esta solución. Tu usas Formación en la nube de AWS scripts y muestras de datos para lanzar un trabajo de traducción asíncrono personalizado con un umbral de coincidencia de calidad configurable.

Requisitos previos

Para este tutorial, debe tener un Cuenta de AWS. Si aún no tienes una cuenta, puedes crear y activar uno.

Inicie la pila de AWS CloudFormation

Elige Pila de lanzamiento:
Nombre de pila, ingresa un nombre.
Nombre del depósito de configuración, ingrese el depósito de S3 que contiene los archivos de configuración de umbral.
ParámetroStoreRoot, ingrese la ruta raíz de los parámetros creados por la función Lambda de procesamiento de parámetros.
Nombre de cola, ingrese la cola de SQS que crea para publicar notificaciones de archivos nuevos desde el depósito de origen a la función de Lambda de inicialización del trabajo. Esta es la función que lee el archivo de configuración.
Nombre del depósito de origen, ingrese el depósito S3 que contiene los archivos XLIFF que se van a traducir. Si prefiere usar un depósito preexistente, debe cambiar el valor del parámetro CreateSourceBucket a No.
Nombre del depósito de trabajo, ingrese el depósito de S3 que Amazon Translate usa para los datos de entrada y salida.
Elige Siguiente.

Figura 4: Detalles de la pila de CloudFormation
Opcionalmente en el Apilar Opciones página, agregue nombres clave y valores para las etiquetas que desee asignar a los recursos que se van a crear.
Elige Siguiente.
En Revisar página, seleccione Acepto que esta plantilla podría hacer que AWS CloudFormation cree recursos de IAM.
Revise las otras configuraciones, luego elija Crear pila.

AWS CloudFormation tarda varios minutos en crear los recursos en su nombre. Puedes ver el progreso en el Eventos pestaña en la consola de AWS CloudFormation. Cuando se ha creado la pila, puede ver un CREATE_COMPLETE mensaje en el Estado columna en el General .

Prueba la solución

Veamos un ejemplo simple.

Descargue lo siguiente Data de muestra.
Descomprimir el contenido.

Debe haber dos archivos: un archivo .xlf en formato XLIFF y un archivo de configuración de umbral con la extensión .cfg. El siguiente es un extracto del archivo XLIFF.

Figura 5: extracto de archivo de muestra de inglés a francés

En la consola de Amazon S3, cargue el archivo de configuración del umbral de calidad en el depósito de configuración que especificó anteriormente.

El valor establecido para test_En_to_Fr es 75%. Debería poder ver los parámetros en la consola de Systems Manager en la sección Almacén de parámetros.

Todavía en la consola de Amazon S3, cargue el archivo .xlf en el depósito de S3 que configuró como fuente. Asegúrese de que el archivo esté en una carpeta llamada translate (por ejemplo, <my_bucket>/translate/test_En_to_Fr.xlf).

Esto inicia el flujo de traducción.

Abra la consola de Amazon Translate.

Debería aparecer un nuevo trabajo con el estado En curso.

Figura 6: Trabajos de traducción en curso en la consola de Amazon Translate

Una vez que el trabajo esté completo, haga clic en el enlace del trabajo y consulte la salida. Todos los segmentos deberían haber sido traducidos.

Todos los segmentos deberían haber sido traducidos. En el archivo XLIFF traducido, busque segmentos con atributos adicionales denominados lscustom:match-quality, como se muestra en la siguiente captura de pantalla. Estos atributos personalizados identifican los segmentos en los que se retuvo la traducción sugerida en función de la puntuación.

Figura 7: Atributos personalizados que identifican segmentos en los que se retuvo la traducción sugerida en función de la puntuación

Estos se derivaron de la memoria de traducción según el umbral de calidad. Todos los demás segmentos fueron traducidos automáticamente.

Ha implementado y probado un asistente de trabajo de traducción asíncrono automatizado que impone umbrales de calidad de coincidencia de memoria de traducción configurables. ¡Gran trabajo!

Limpiar

Si implementó la solución en su cuenta, no olvide eliminar la pila de CloudFormation para evitar costos inesperados. Debe vaciar los cubos S3 manualmente de antemano.

Conclusión

En esta publicación, aprendió a personalizar sus trabajos de traducción de Amazon Translate en función de las métricas de calidad de coincidencia aproximada XLIFF estándar. Con esta solución, puede reducir en gran medida el trabajo manual involucrado en la revisión del texto traducido automáticamente y, al mismo tiempo, optimizar el uso de Amazon Translate. También puede ampliar la solución con capacidades de orquestación de flujo de trabajo y automatización de ingesta de datos, como se describe en Acelere los trabajos de traducción con un asistente de sistema de traducción totalmente automatizado.

Acerca de los autores

Narciso Zekpa es un arquitecto de soluciones con sede en Boston. Ayuda a los clientes en el noreste de EE. UU. a acelerar su adopción de la nube de AWS, al brindar pautas arquitectónicas y diseñar soluciones escalables e innovadoras. Cuando Narcisse no está construyendo, disfruta pasar tiempo con su familia, viajar, cocinar y jugar baloncesto.

dimitri restaino es arquitecto de soluciones en AWS, con sede en Brooklyn, Nueva York. Trabaja principalmente con empresas de servicios financieros y de salud en el noreste, ayudando a diseñar soluciones innovadoras y creativas para servir mejor a sus clientes. Viniendo de un entorno de desarrollo de software, está entusiasmado con las nuevas posibilidades que la tecnología sin servidor puede brindar al mundo. Fuera del trabajo, le encanta caminar y explorar la escena gastronómica de Nueva York.

Sello de tiempo: 16 de mayo de 2022

Reeditado por Platón

Las empresas emergentes de AWS Accelerators utilizan IA y ML para resolver los desafíos de misión crítica de los clientes

Use Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML

Presentamos Fortuna: una biblioteca para la cuantificación de la incertidumbre

Recomendaciones de potencia y búsqueda usando un gráfico de conocimiento de IMDb - Parte 3

Prediga los precios de bienes raíces residenciales en ImmoScout24 con Amazon SageMaker

El modelo base AI21 Jurassic-1 ya está disponible en Amazon SageMaker

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta