Персонализируйте результаты машинного перевода с помощью нечеткого сопоставления с Amazon Translate

Переиздано Платоном

Читают: 0

Народный язык человека является частью характеристик, которые делают его уникальным. Часто существует бесчисленное множество способов выразить одну конкретную идею. Когда фирма общается со своими клиентами, очень важно, чтобы сообщение было доставлено таким образом, чтобы наилучшим образом представить информацию, которую они пытаются передать. Это становится еще более важным, когда речь идет о профессиональном языковом переводе. Клиенты переводческих систем и услуг ожидают точных и точно настроенных результатов. Для этого они часто повторно используют предыдущие результаты перевода, называемые памятью переводов (TM), и сравнивают их с новым входным текстом. В компьютерном переводе этот метод известен как нечеткое соответствие. Основная функция нечеткого сопоставления состоит в том, чтобы помочь переводчику ускорить процесс перевода. Когда в базе данных переводимого текста не удается найти точное совпадение для переводимого текста, системы управления переводами (TMS) часто имеют возможность поиска менее точного совпадения. Возможные совпадения предоставляются переводчику в качестве дополнительных данных для окончательного перевода. Переводчики, которые улучшают свой рабочий процесс с помощью таких возможностей машинного перевода, как Amazon Translate часто ожидают, что данные нечеткого соответствия будут использоваться как часть решения для автоматического перевода.

В этом посте вы узнаете, как настроить вывод из Amazon Translate в соответствии с показателями качества нечеткого соответствия памяти переводов.

Соответствие качества перевода

Формат файла обмена локализацией XML (XLIFF) часто используется в качестве формата обмена данными между TMS и Amazon Translate. Файлы XLIFF, создаваемые TMS, включают исходные и целевые текстовые данные, а также показатели качества сопоставления на основе доступной TM. Эти баллы, обычно выражаемые в процентах, показывают, насколько близка память переводов к переводимому тексту.

Некоторые клиенты с очень строгими требованиями хотят, чтобы машинный перевод использовался только тогда, когда показатели качества соответствия ниже определенного порога. За пределами этого порога они ожидают, что их собственная память переводов будет иметь приоритет. Переводчикам часто приходится применять эти настройки вручную либо в своей TMS, либо путем изменения текстовых данных. Этот поток показан на следующей диаграмме. Система машинного перевода обрабатывает данные перевода — текст и оценки нечеткого соответствия, — которые затем просматриваются и редактируются переводчиками вручную в зависимости от желаемых порогов качества. Применение пороговых значений на этапе машинного перевода позволяет исключить эти ручные операции, что повышает эффективность и оптимизирует затраты.

Рисунок 1. Процесс проверки машинного перевода

Решение, представленное в этом посте, позволяет вам применять правила, основанные на пороговых значениях оценки качества соответствия, чтобы определить, должен ли данный входной текст быть переведен автоматически с помощью Amazon Translate или нет. Если машинный перевод не выполнен, итоговый текст остается на усмотрение переводчиков, просматривающих окончательный результат.

Архитектура решения

Архитектура решения, показанная на рис. 2, использует следующие сервисы:

Простой сервис хранения Amazon – Сегменты Amazon S3 содержат следующее содержимое:
- Файлы конфигурации порога нечеткого совпадения
- Исходный текст для перевода
- Расположение входных и выходных данных Amazon Translate
Менеджер систем AWS - Мы используем Магазин параметров параметры для хранения значений конфигурации порога качества совпадения
AWS Lambda – Мы используем две лямбда-функции:
- Одна функция выполняет предварительную обработку файлов конфигурации порога соответствия качества и сохраняет данные в хранилище параметров.
- Одна функция автоматически создает задания асинхронного перевода
Простой сервис очередей Amazon – Очередь Amazon SQS запускает поток перевода в результате поступления новых файлов в исходную корзину.

Рис. 2. Архитектура решения

Сначала вы устанавливаете пороги качества для своих переводческих заданий, редактируя файл конфигурации и загружая его в корзину S3 конфигурации порога нечеткого соответствия. Ниже приведен пример конфигурации в формате CSV. Мы выбрали CSV для простоты, хотя вы можете использовать любой формат. Каждая строка представляет собой пороговое значение, которое должно применяться либо к конкретному заданию на перевод, либо в качестве значения по умолчанию для любого задания.

default, 75
SourceMT-Test, 80

Спецификации файла конфигурации следующие:

Столбец 1 должен быть заполнен именем файла XLIFF (без расширения), предоставленного заданию Amazon Translate в качестве входных данных.
Столбец 2 должен быть заполнен процентным порогом соответствия качества. Для любого балла ниже этого значения используется машинный перевод.
Для всех файлов XLIFF, имя которых не совпадает ни с одним из имен, перечисленных в конфигурационном файле, используется порог по умолчанию — строка с ключевым словом default установить в столбце 1.

Рис. 3. Автоматически сгенерированный параметр в хранилище параметров Systems Manager

При загрузке нового файла Amazon S3 запускает функцию Lambda, отвечающую за обработку параметров. Эта функция считывает и сохраняет пороговые параметры в хранилище параметров для использования в будущем. Использование хранилища параметров позволяет избежать выполнения избыточных запросов Amazon S3 GET каждый раз, когда инициируется новое задание перевода. Пример файла конфигурации создает теги параметров, показанные на следующем снимке экрана.

Функция Lambda инициализации задания использует эти параметры для предварительной обработки данных перед вызовом Amazon Translate. Мы используем входной файл XLIFF для перевода с английского на испанский, как показано в следующем коде. Он содержит исходный текст для перевода, разбитый на так называемые сегментами, представленный в исходных тегах.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Исходный текст был заранее сопоставлен с памятью переводов. Данные содержат потенциальные альтернативы перевода, представленные как <alt-trans> теги — вместе с атрибутом качества соответствия, выраженным в процентах. Бизнес-правило выглядит следующим образом:

Сегменты, полученные с альтернативными переводами и качеством соответствия ниже порогового, остаются нетронутыми или пустыми. Это сигнализирует Amazon Translate, что их необходимо перевести.
Сегменты, полученные с альтернативными переводами с качеством соответствия выше порогового, предварительно заполняются предлагаемым целевым текстом. Amazon Translate пропускает эти сегменты.

Предположим, что порог соответствия качества, настроенный для этого задания, составляет 80%. Первый сегмент с качеством соответствия 99 % не переводится автоматически, в то время как второй сегмент переводится, потому что его качество соответствия ниже заданного порога. В этой конфигурации Amazon Translate выдает следующий результат:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Во втором сегменте Amazon Translate перезаписывает изначально предложенный целевой текст (Selección) с более качественным переводом: Visita de selección.

Одним из возможных расширений этого варианта использования может быть повторное использование переведенного вывода и создание собственной памяти переводов. Amazon Translate поддерживает настройку машинного перевода с использованием памяти переводов благодаря параллельные данные характерная черта. Текстовые сегменты, ранее переведенные машинным способом из-за их первоначальной оценки низкого качества, затем можно было повторно использовать в новых проектах перевода.

В следующих разделах мы познакомим вас с процессом развертывания и тестирования этого решения. Ты используешь AWS CloudFormation сценарии и образцы данных для запуска задания асинхронного перевода, персонализированного с настраиваемым порогом соответствия качества.

Предпосылки

Для этого пошагового руководства у вас должен быть Аккаунт AWS. Если у вас еще нет учетной записи, вы можете создать и активировать один.

Запуск стека AWS CloudFormation

Выберите Стек запуска:
Что касается Название стекавведите имя.
Что касается ConfigBucketName, войдите в корзину S3, содержащую файлы конфигурации порогов.
Что касается Параметрсторерут, введите корневой путь к параметрам, созданным функцией Lambda, обрабатывающей параметры.
Что касается имя очереди, войдите в очередь SQS, которую вы создаете для публикации уведомлений о новых файлах из исходной корзины в функцию Lambda инициализации задания. Это функция, которая читает файл конфигурации.
Что касается SourceBucketName, введите корзину S3, содержащую файлы XLIFF для перевода. Если вы предпочитаете использовать уже существующую корзину, вам нужно изменить значение параметра CreateSourceBucket на Нет.
Что касается имя рабочего ведра, введите корзину S3, которую Amazon Translate использует для ввода и вывода данных.
Выберите Следующая.

Рисунок 4: Детали стека CloudFormation
Опционально на Стек Опции на странице добавьте имена ключей и значения для тегов, которые вы, возможно, захотите присвоить ресурсам, которые должны быть созданы.
Выберите Следующая.
На Обзор страницы, выберите Я признаю, что этот шаблон может привести к тому, что AWS CloudFormation создаст ресурсы IAM..
Просмотрите другие настройки, затем выберите Создать стек.

AWS CloudFormation требуется несколько минут, чтобы создать ресурсы от вашего имени. Вы можете следить за прогрессом на Мероприятия вкладку на консоли AWS CloudFormation. Когда стек создан, вы можете увидеть CREATE_COMPLETE сообщение в Статус: колонка на Обзор меню.

Проверить решение

Давайте рассмотрим простой пример.

Загрузите следующие образец данных.
Разархивируйте содержимое.

Должно быть два файла: файл .xlf в формате XLIFF и файл конфигурации порога с расширением .cfg. Ниже приведен фрагмент файла XLIFF.

Выдержка из файла примера с английского на французский

Рис. 5. Извлечение файла примера с английского на французский

В консоли Amazon S3 загрузите файл конфигурации порога качества в корзину конфигурации, указанную ранее.

Значение, установленное для test_En_to_Fr составляет 75%. Вы должны увидеть параметры на консоли диспетчера систем в разделе Хранилище параметров.

Находясь в консоли Amazon S3, загрузите файл .xlf в корзину S3, настроенную в качестве источника. Убедитесь, что файл находится в папке с именем translate (например, <my_bucket>/translate/test_En_to_Fr.xlf).

Это запускает поток перевода.

Откройте консоль Amazon Translate.

Должно появиться новое задание со статусом In Progress.

Рис. 6. Выполняемые задания на перевод в консоли Amazon Translate

После завершения задания щелкните ссылку задания и просмотрите результат. Все сегменты должны быть переведены.

Все сегменты должны быть переведены. В переведенном файле XLIFF найдите сегменты с дополнительными атрибутами с именем lscustom:match-quality, как показано на следующем снимке экрана. Эти настраиваемые атрибуты определяют сегменты, в которых предложенный перевод был сохранен на основе оценки.

Пользовательские атрибуты, определяющие сегменты, в которых предложенный перевод был сохранен на основе оценки

Рисунок 7. Пользовательские атрибуты, идентифицирующие сегменты, в которых предложенный перевод был сохранен на основе оценки

Они были получены из памяти переводов в соответствии с порогом качества. Все остальные сегменты были переведены машинным способом.

Вы развернули и протестировали автоматизированный помощник по асинхронному переводу, который применяет настраиваемые пороговые значения соответствия памяти переводов. Отличная работа!

уборка

Если вы развернули решение в своей учетной записи, не забудьте удалить стек CloudFormation, чтобы избежать непредвиденных расходов. Вам необходимо заранее очистить корзины S3 вручную.

Заключение

В этом посте вы узнали, как настраивать задания на перевод Amazon Translate на основе стандартных показателей качества нечеткого сопоставления XLIFF. С помощью этого решения вы можете значительно сократить объем ручного труда, связанного с просмотром машинно переведенного текста, а также оптимизировать использование Amazon Translate. Вы также можете расширить решение за счет автоматизации приема данных и возможностей оркестровки рабочих процессов, как описано в разделе Ускорьте работу по переводу с помощью полностью автоматизированной системы перевода.

Об авторах

Нарцисс Зекпа является архитектором решений из Бостона. Он помогает клиентам на северо-востоке США ускорить внедрение облака AWS, предоставляя рекомендации по архитектуре, разрабатывая инновационные и масштабируемые решения. Когда Нарсисс не занимается строительством, он любит проводить время со своей семьей, путешествовать, готовить и играть в баскетбол.

Дмитрий Рестейно является архитектором решений в AWS, базирующейся в Бруклине, Нью-Йорк. В основном он работает с компаниями здравоохранения и финансовых услуг на Северо-Востоке, помогая разрабатывать инновационные и креативные решения для наилучшего обслуживания своих клиентов. Имея опыт разработки программного обеспечения, он воодушевлен новыми возможностями, которые бессерверные технологии могут открыть миру. Вне работы он любит ходить в походы и исследовать гастрономическую сцену Нью-Йорка.

Отметка времени: 16 мая 2022

Отметка времени: Август 7, 2023

Переиздано Платоном

Запускайте рабочие нагрузки логического вывода машинного обучения на инстансах на базе AWS Graviton с помощью Amazon SageMaker.

Создайте платформу агрономических данных с помощью геопространственных возможностей Amazon SageMaker

Amazon Comprehend объявляет о снижении лимита аннотаций для распознавания пользовательских сущностей

Объявление об обновленном соединителе Salesforce (V2) для Amazon Kendra

Путь виртуального помощника с генеративным искусственным интеллектом PGA TOUR: от концепции до разработки и прототипа | Веб-сервисы Amazon

Автоматизируйте процесс изменения фона изображения с помощью Amazon Bedrock и AWS Step Functions | Веб-сервисы Amazon

Настройте контейнер алгоритма Amazon SageMaker XGBoost

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись