La lengua vernácula de una persona es parte de las características que la hacen única. A menudo hay innumerables formas diferentes de expresar una idea específica. Cuando una empresa se comunica con sus clientes, es fundamental que el mensaje se entregue de la manera que mejor represente la información que están tratando de transmitir. Esto se vuelve aún más importante cuando se trata de traducción profesional de idiomas. Los clientes de sistemas y servicios de traducción esperan resultados precisos y altamente personalizados. Para lograr esto, a menudo reutilizan resultados de traducción anteriores, llamados memoria de traducción (TM), y los comparan con el nuevo texto de entrada. En la traducción asistida por computadora, esta técnica se conoce como coincidencia difusa. La función principal de la coincidencia aproximada es ayudar al traductor acelerando el proceso de traducción. Cuando no se puede encontrar una coincidencia exacta en la base de datos de TM para el texto que se está traduciendo, los sistemas de gestión de traducción (TMS) a menudo tienen la opción de buscar una coincidencia que no sea exacta. Las posibles coincidencias se proporcionan al traductor como entrada adicional para la traducción final. Traductores que mejoran su flujo de trabajo con capacidades de traducción automática como Traductor de Amazon a menudo esperan que los datos de coincidencia aproximada se utilicen como parte de la solución de traducción automática.
En esta publicación, aprenderá a personalizar la salida de Amazon Translate de acuerdo con los puntajes de calidad de coincidencia aproximada de la memoria de traducción.
Coincidencia de calidad de traducción
El formato de archivo de intercambio de localización XML (XLIFF) se utiliza a menudo como formato de intercambio de datos entre TMS y Amazon Translate. Los archivos XLIFF producidos por TMS incluyen datos de texto de origen y de destino junto con puntuaciones de calidad de coincidencia basadas en la TM disponible. Estas puntuaciones, generalmente expresadas como porcentaje, indican qué tan cerca está la memoria de traducción del texto que se está traduciendo.
Algunos clientes con requisitos muy estrictos solo quieren que se use la traducción automática cuando los puntajes de calidad de las coincidencias están por debajo de cierto umbral. Más allá de este umbral, esperan que su propia memoria de traducción tenga prioridad. Los traductores a menudo necesitan aplicar estas preferencias manualmente, ya sea dentro de su TMS o modificando los datos de texto. Este flujo se ilustra en el siguiente diagrama. El sistema de traducción automática procesa los datos de traducción (puntuaciones de coincidencia aproximada y de texto) que luego los traductores revisan y editan manualmente, en función de los umbrales de calidad deseados. La aplicación de umbrales como parte del paso de traducción automática le permite eliminar estos pasos manuales, lo que mejora la eficiencia y optimiza los costos.
La solución presentada en esta publicación le permite aplicar reglas basadas en umbrales de puntuación de calidad de coincidencia para determinar si un texto de entrada determinado debe ser traducido automáticamente por Amazon Translate o no. Cuando no está traducido automáticamente, el texto resultante se deja a discreción de los traductores que revisan el resultado final.
Arquitectura de soluciones
La arquitectura de la solución ilustrada en la Figura 2 aprovecha los siguientes servicios:
- Servicio de almacenamiento simple de Amazon – Los depósitos de Amazon S3 contienen el siguiente contenido:
- Archivos de configuración de umbral de coincidencia parcial
- Texto fuente a traducir
- Ubicaciones de datos de entrada y salida de Amazon Translate
- Gerente de sistemas de AWS - Usamos Tienda de parámetros parámetros para almacenar valores de configuración de umbral de calidad de coincidencia
- AWS Lambda – Usamos dos funciones Lambda:
- Una función preprocesa los archivos de configuración del umbral de coincidencia de calidad y conserva los datos en el almacén de parámetros
- Una función crea automáticamente los trabajos de traducción asincrónicos
- Servicio de cola simple de Amazon – Una cola de Amazon SQS activa el flujo de traducción como resultado de la entrada de nuevos archivos en el depósito de origen.
Primero configura umbrales de calidad para sus trabajos de traducción editando un archivo de configuración y cargándolo en el depósito S3 de configuración de umbral de coincidencia parcial. La siguiente es una configuración de muestra en formato CSV. Elegimos CSV por simplicidad, aunque puedes usar cualquier formato. Cada línea representa un umbral que se aplicará a un trabajo de traducción específico o como valor predeterminado a cualquier trabajo.
Las especificaciones del archivo de configuración son las siguientes:
- La columna 1 debe completarse con el nombre del archivo XLIFF, sin extensión, proporcionado al trabajo de Amazon Translate como datos de entrada.
- La columna 2 debe completarse con el umbral de porcentaje de coincidencia de calidad. Para cualquier puntuación por debajo de este valor, se utiliza la traducción automática.
- Para todos los archivos XLIFF cuyo nombre no coincida con ningún nombre enumerado en el archivo de configuración, se utiliza el umbral predeterminado: la línea con la palabra clave
default
establecido en la columna 1.
Cuando se carga un nuevo archivo, Amazon S3 activa la función Lambda encargada de procesar los parámetros. Esta función lee y almacena los parámetros de umbral en el almacén de parámetros para uso futuro. El uso de Parameter Store evita realizar solicitudes GET de Amazon S3 redundantes cada vez que se inicia un nuevo trabajo de traducción. El archivo de configuración de muestra produce las etiquetas de parámetros que se muestran en la siguiente captura de pantalla.
La función Lambda de inicialización del trabajo utiliza estos parámetros para preprocesar los datos antes de invocar a Amazon Translate. Usamos un archivo de entrada XLIFF de traducción de inglés a español, como se muestra en el siguiente código. Contiene el texto inicial a traducir, desglosado en lo que se denomina segmentos, representado en las etiquetas de origen.
El texto de origen se ha emparejado previamente con la memoria de traducción. Los datos contienen posibles alternativas de traducción, representadas como <alt-trans>
etiquetas, junto con un atributo de calidad de coincidencia, expresado como porcentaje. La regla de negocio es la siguiente:
- Los segmentos recibidos con traducciones alternativas y una calidad de coincidencia por debajo del umbral no se tocan o están vacíos. Esto le indica a Amazon Translate que deben traducirse.
- Los segmentos recibidos con traducciones alternativas con una calidad de coincidencia por encima del umbral se rellenan previamente con el texto de destino sugerido. Amazon Translate salta esos segmentos.
Supongamos que el umbral de coincidencia de calidad configurado para este trabajo es del 80 %. El primer segmento con una calidad de coincidencia del 99 % no está traducido automáticamente, mientras que el segundo segmento sí lo está porque su calidad de coincidencia está por debajo del umbral definido. En esta configuración, Amazon Translate genera el siguiente resultado:
En el segundo segmento, Amazon Translate sobrescribe el texto de destino sugerido inicialmente (Selección
) con una traducción de mayor calidad: Visita de selección
.
Una posible extensión de este caso de uso podría ser reutilizar el resultado traducido y crear nuestra propia memoria de traducción. Amazon Translate admite la personalización de la traducción automática mediante la memoria de traducción gracias a la datos paralelos rasgo. Los segmentos de texto previamente traducidos automáticamente debido a su puntuación inicial de baja calidad podrían reutilizarse en nuevos proyectos de traducción.
En las siguientes secciones, lo guiaremos a través del proceso de implementación y prueba de esta solución. Tu usas Formación en la nube de AWS scripts y muestras de datos para lanzar un trabajo de traducción asíncrono personalizado con un umbral de coincidencia de calidad configurable.
Requisitos previos
Para este tutorial, debe tener un Cuenta de AWS. Si aún no tienes una cuenta, puedes crear y activar uno.
Inicie la pila de AWS CloudFormation
- Elige Pila de lanzamiento:
- Nombre de pila, ingresa un nombre.
- Nombre del depósito de configuración, ingrese el depósito de S3 que contiene los archivos de configuración de umbral.
- ParámetroStoreRoot, ingrese la ruta raíz de los parámetros creados por la función Lambda de procesamiento de parámetros.
- Nombre de cola, ingrese la cola de SQS que crea para publicar notificaciones de archivos nuevos desde el depósito de origen a la función de Lambda de inicialización del trabajo. Esta es la función que lee el archivo de configuración.
- Nombre del depósito de origen, ingrese el depósito S3 que contiene los archivos XLIFF que se van a traducir. Si prefiere usar un depósito preexistente, debe cambiar el valor del parámetro CreateSourceBucket a No.
- Nombre del depósito de trabajo, ingrese el depósito de S3 que Amazon Translate usa para los datos de entrada y salida.
- Elige Siguiente.
- Opcionalmente en el Apilar Opciones página, agregue nombres clave y valores para las etiquetas que desee asignar a los recursos que se van a crear.
- Elige Siguiente.
- En Revisar página, seleccione Acepto que esta plantilla podría hacer que AWS CloudFormation cree recursos de IAM.
- Revise las otras configuraciones, luego elija Crear pila.
AWS CloudFormation tarda varios minutos en crear los recursos en su nombre. Puedes ver el progreso en el Eventos pestaña en la consola de AWS CloudFormation. Cuando se ha creado la pila, puede ver un CREATE_COMPLETE
mensaje en el Estado columna en el General .
Prueba la solución
Veamos un ejemplo simple.
- Descargue lo siguiente Data de muestra.
- Descomprimir el contenido.
Debe haber dos archivos: un archivo .xlf en formato XLIFF y un archivo de configuración de umbral con la extensión .cfg. El siguiente es un extracto del archivo XLIFF.
- En la consola de Amazon S3, cargue el archivo de configuración del umbral de calidad en el depósito de configuración que especificó anteriormente.
El valor establecido para test_En_to_Fr
es 75%. Debería poder ver los parámetros en la consola de Systems Manager en la sección Almacén de parámetros.
- Todavía en la consola de Amazon S3, cargue el archivo .xlf en el depósito de S3 que configuró como fuente. Asegúrese de que el archivo esté en una carpeta llamada
translate
(por ejemplo,<my_bucket>/translate/test_En_to_Fr.xlf
).
Esto inicia el flujo de traducción.
- Abra la consola de Amazon Translate.
Debería aparecer un nuevo trabajo con el estado En curso.
- Una vez que el trabajo esté completo, haga clic en el enlace del trabajo y consulte la salida. Todos los segmentos deberían haber sido traducidos.
Todos los segmentos deberían haber sido traducidos. En el archivo XLIFF traducido, busque segmentos con atributos adicionales denominados lscustom:match-quality
, como se muestra en la siguiente captura de pantalla. Estos atributos personalizados identifican los segmentos en los que se retuvo la traducción sugerida en función de la puntuación.
Estos se derivaron de la memoria de traducción según el umbral de calidad. Todos los demás segmentos fueron traducidos automáticamente.
Ha implementado y probado un asistente de trabajo de traducción asíncrono automatizado que impone umbrales de calidad de coincidencia de memoria de traducción configurables. ¡Gran trabajo!
Limpiar
Si implementó la solución en su cuenta, no olvide eliminar la pila de CloudFormation para evitar costos inesperados. Debe vaciar los cubos S3 manualmente de antemano.
Conclusión
En esta publicación, aprendió a personalizar sus trabajos de traducción de Amazon Translate en función de las métricas de calidad de coincidencia aproximada XLIFF estándar. Con esta solución, puede reducir en gran medida el trabajo manual involucrado en la revisión del texto traducido automáticamente y, al mismo tiempo, optimizar el uso de Amazon Translate. También puede ampliar la solución con capacidades de orquestación de flujo de trabajo y automatización de ingesta de datos, como se describe en Acelere los trabajos de traducción con un asistente de sistema de traducción totalmente automatizado.
Acerca de los autores
Narciso Zekpa es un arquitecto de soluciones con sede en Boston. Ayuda a los clientes en el noreste de EE. UU. a acelerar su adopción de la nube de AWS, al brindar pautas arquitectónicas y diseñar soluciones escalables e innovadoras. Cuando Narcisse no está construyendo, disfruta pasar tiempo con su familia, viajar, cocinar y jugar baloncesto.
dimitri restaino es arquitecto de soluciones en AWS, con sede en Brooklyn, Nueva York. Trabaja principalmente con empresas de servicios financieros y de salud en el noreste, ayudando a diseñar soluciones innovadoras y creativas para servir mejor a sus clientes. Viniendo de un entorno de desarrollo de software, está entusiasmado con las nuevas posibilidades que la tecnología sin servidor puede brindar al mundo. Fuera del trabajo, le encanta caminar y explorar la escena gastronómica de Nueva York.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- Nuestra Empresa
- acelerar
- Conforme
- Mi Cuenta
- preciso
- Lograr
- Adicionales
- Adopción
- Todos
- alternativa
- Aunque
- Amazon
- La aplicación de
- arquitectónico
- arquitectura
- Legal
- atributos
- Confirmación de Viaje
- Automatización
- Hoy Disponibles
- AWS
- fondo
- Baloncesto
- "Ser"
- a continuación
- MEJOR
- Más allá de
- frontera
- Boston
- Construir la
- capacidades
- Causar
- a ciertos
- el cambio
- CHARGE
- Elige
- Soluciones
- código
- Columna
- viniendo
- Empresas
- Configuración
- consentimiento
- Consola
- contiene
- contenido
- podría
- Para crear
- creado
- crea
- Estudio
- crítico
- personalizado
- Clientes
- datos
- Base de datos
- liberado
- desplegado
- Desplegando
- descrito
- Diseño
- Desarrollo
- una experiencia diferente
- discreción
- No
- DE INSCRIPCIÓN
- el lado de la transmisión
- eficiencia
- Inglés
- Participar
- ejemplo
- Intercambio
- excitado
- esperar
- explorar
- expresados
- ampliar
- familia
- Feature
- Figura
- financiero
- servicios financieros
- Firme
- Nombre
- de tus señales
- siguiendo
- siguiente
- Comida
- formato
- encontrado
- Francés
- función
- funciones
- futuras
- maravillosa
- muy
- Grupo procesos
- orientaciones
- la salud
- ayudando
- ayuda
- más alto
- altamente
- Cómo
- Como Hacer
- HTTPS
- idea
- Identifique
- identificar
- importante
- incluir
- información
- originales
- Las opciones de entrada
- involucra
- IT
- Trabajos
- Empleo
- Clave
- conocido
- mano de obra
- idioma
- lanzamiento
- APRENDE:
- aprendido
- apalancamientos
- línea
- LINK
- Listado
- máquina
- Management
- gerente
- manual
- a mano
- Match
- pareo
- Salud Cerebral
- Métrica
- podría
- más,
- nombres
- New York
- North
- Nueva York
- optimizando
- Optión
- orquestación
- Otro
- EL DESARROLLADOR
- parte
- porcentaje
- realizar
- personalizar
- jugando
- POSIBILIDADES
- posible
- posible
- anterior
- primario
- en costes
- tratamiento
- producido
- Profesional
- proyecta
- proporcionando
- calidad
- recibido
- reducir
- representado
- representa
- solicitudes
- Requisitos
- Recursos
- Resultados
- una estrategia SEO para aparecer en las búsquedas de Google.
- reglas
- escalable
- escena
- Buscar
- segmento
- segmentos
- Sin servidor
- Servicios
- set
- mostrado
- sencillos
- Software
- Desarrollo de software ad-hoc
- sólido
- a medida
- Soluciones
- Especificaciones
- Gastos
- montón
- estándar
- comienza
- Estado
- STORAGE
- tienda
- tiendas
- soportes
- te
- Todas las funciones a su disposición
- Target
- Tecnología
- Pruebas
- La Fuente
- el mundo
- umbral
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- Traducción
- Viajar
- nosotros
- único
- utilizan el
- propuesta de
- Ver ahora
- ¿
- Que es
- sean
- mientras
- QUIENES
- dentro de
- Actividades:
- funciona
- mundo
- XML