Народный язык человека является частью характеристик, которые делают его уникальным. Часто существует бесчисленное множество способов выразить одну конкретную идею. Когда фирма общается со своими клиентами, очень важно, чтобы сообщение было доставлено таким образом, чтобы наилучшим образом представить информацию, которую они пытаются передать. Это становится еще более важным, когда речь идет о профессиональном языковом переводе. Клиенты переводческих систем и услуг ожидают точных и точно настроенных результатов. Для этого они часто повторно используют предыдущие результаты перевода, называемые памятью переводов (TM), и сравнивают их с новым входным текстом. В компьютерном переводе этот метод известен как нечеткое соответствие. Основная функция нечеткого сопоставления состоит в том, чтобы помочь переводчику ускорить процесс перевода. Когда в базе данных переводимого текста не удается найти точное совпадение для переводимого текста, системы управления переводами (TMS) часто имеют возможность поиска менее точного совпадения. Возможные совпадения предоставляются переводчику в качестве дополнительных данных для окончательного перевода. Переводчики, которые улучшают свой рабочий процесс с помощью таких возможностей машинного перевода, как Amazon Translate часто ожидают, что данные нечеткого соответствия будут использоваться как часть решения для автоматического перевода.
В этом посте вы узнаете, как настроить вывод из Amazon Translate в соответствии с показателями качества нечеткого соответствия памяти переводов.
Соответствие качества перевода
Формат файла обмена локализацией XML (XLIFF) часто используется в качестве формата обмена данными между TMS и Amazon Translate. Файлы XLIFF, создаваемые TMS, включают исходные и целевые текстовые данные, а также показатели качества сопоставления на основе доступной TM. Эти баллы, обычно выражаемые в процентах, показывают, насколько близка память переводов к переводимому тексту.
Некоторые клиенты с очень строгими требованиями хотят, чтобы машинный перевод использовался только тогда, когда показатели качества соответствия ниже определенного порога. За пределами этого порога они ожидают, что их собственная память переводов будет иметь приоритет. Переводчикам часто приходится применять эти настройки вручную либо в своей TMS, либо путем изменения текстовых данных. Этот поток показан на следующей диаграмме. Система машинного перевода обрабатывает данные перевода — текст и оценки нечеткого соответствия, — которые затем просматриваются и редактируются переводчиками вручную в зависимости от желаемых порогов качества. Применение пороговых значений на этапе машинного перевода позволяет исключить эти ручные операции, что повышает эффективность и оптимизирует затраты.
Решение, представленное в этом посте, позволяет вам применять правила, основанные на пороговых значениях оценки качества соответствия, чтобы определить, должен ли данный входной текст быть переведен автоматически с помощью Amazon Translate или нет. Если машинный перевод не выполнен, итоговый текст остается на усмотрение переводчиков, просматривающих окончательный результат.
Архитектура решения
Архитектура решения, показанная на рис. 2, использует следующие сервисы:
- Простой сервис хранения Amazon – Сегменты Amazon S3 содержат следующее содержимое:
- Файлы конфигурации порога нечеткого совпадения
- Исходный текст для перевода
- Расположение входных и выходных данных Amazon Translate
- Менеджер систем AWS - Мы используем Магазин параметров параметры для хранения значений конфигурации порога качества совпадения
- AWS Lambda – Мы используем две лямбда-функции:
- Одна функция выполняет предварительную обработку файлов конфигурации порога соответствия качества и сохраняет данные в хранилище параметров.
- Одна функция автоматически создает задания асинхронного перевода
- Простой сервис очередей Amazon – Очередь Amazon SQS запускает поток перевода в результате поступления новых файлов в исходную корзину.
Сначала вы устанавливаете пороги качества для своих переводческих заданий, редактируя файл конфигурации и загружая его в корзину S3 конфигурации порога нечеткого соответствия. Ниже приведен пример конфигурации в формате CSV. Мы выбрали CSV для простоты, хотя вы можете использовать любой формат. Каждая строка представляет собой пороговое значение, которое должно применяться либо к конкретному заданию на перевод, либо в качестве значения по умолчанию для любого задания.
Спецификации файла конфигурации следующие:
- Столбец 1 должен быть заполнен именем файла XLIFF (без расширения), предоставленного заданию Amazon Translate в качестве входных данных.
- Столбец 2 должен быть заполнен процентным порогом соответствия качества. Для любого балла ниже этого значения используется машинный перевод.
- Для всех файлов XLIFF, имя которых не совпадает ни с одним из имен, перечисленных в конфигурационном файле, используется порог по умолчанию — строка с ключевым словом
default
установить в столбце 1.
При загрузке нового файла Amazon S3 запускает функцию Lambda, отвечающую за обработку параметров. Эта функция считывает и сохраняет пороговые параметры в хранилище параметров для использования в будущем. Использование хранилища параметров позволяет избежать выполнения избыточных запросов Amazon S3 GET каждый раз, когда инициируется новое задание перевода. Пример файла конфигурации создает теги параметров, показанные на следующем снимке экрана.
Функция Lambda инициализации задания использует эти параметры для предварительной обработки данных перед вызовом Amazon Translate. Мы используем входной файл XLIFF для перевода с английского на испанский, как показано в следующем коде. Он содержит исходный текст для перевода, разбитый на так называемые сегментами, представленный в исходных тегах.
Исходный текст был заранее сопоставлен с памятью переводов. Данные содержат потенциальные альтернативы перевода, представленные как <alt-trans>
теги — вместе с атрибутом качества соответствия, выраженным в процентах. Бизнес-правило выглядит следующим образом:
- Сегменты, полученные с альтернативными переводами и качеством соответствия ниже порогового, остаются нетронутыми или пустыми. Это сигнализирует Amazon Translate, что их необходимо перевести.
- Сегменты, полученные с альтернативными переводами с качеством соответствия выше порогового, предварительно заполняются предлагаемым целевым текстом. Amazon Translate пропускает эти сегменты.
Предположим, что порог соответствия качества, настроенный для этого задания, составляет 80%. Первый сегмент с качеством соответствия 99 % не переводится автоматически, в то время как второй сегмент переводится, потому что его качество соответствия ниже заданного порога. В этой конфигурации Amazon Translate выдает следующий результат:
Во втором сегменте Amazon Translate перезаписывает изначально предложенный целевой текст (Selección
) с более качественным переводом: Visita de selección
.
Одним из возможных расширений этого варианта использования может быть повторное использование переведенного вывода и создание собственной памяти переводов. Amazon Translate поддерживает настройку машинного перевода с использованием памяти переводов благодаря параллельные данные характерная черта. Текстовые сегменты, ранее переведенные машинным способом из-за их первоначальной оценки низкого качества, затем можно было повторно использовать в новых проектах перевода.
В следующих разделах мы познакомим вас с процессом развертывания и тестирования этого решения. Ты используешь AWS CloudFormation сценарии и образцы данных для запуска задания асинхронного перевода, персонализированного с настраиваемым порогом соответствия качества.
Предпосылки
Для этого пошагового руководства у вас должен быть Аккаунт AWS. Если у вас еще нет учетной записи, вы можете создать и активировать один.
Запуск стека AWS CloudFormation
- Выберите Стек запуска:
- Что касается Название стекавведите имя.
- Что касается ConfigBucketName, войдите в корзину S3, содержащую файлы конфигурации порогов.
- Что касается Параметрсторерут, введите корневой путь к параметрам, созданным функцией Lambda, обрабатывающей параметры.
- Что касается имя очереди, войдите в очередь SQS, которую вы создаете для публикации уведомлений о новых файлах из исходной корзины в функцию Lambda инициализации задания. Это функция, которая читает файл конфигурации.
- Что касается SourceBucketName, введите корзину S3, содержащую файлы XLIFF для перевода. Если вы предпочитаете использовать уже существующую корзину, вам нужно изменить значение параметра CreateSourceBucket на Нет.
- Что касается имя рабочего ведра, введите корзину S3, которую Amazon Translate использует для ввода и вывода данных.
- Выберите Следующая.
- Опционально на Стек Опции на странице добавьте имена ключей и значения для тегов, которые вы, возможно, захотите присвоить ресурсам, которые должны быть созданы.
- Выберите Следующая.
- На Обзор страницы, выберите Я признаю, что этот шаблон может привести к тому, что AWS CloudFormation создаст ресурсы IAM..
- Просмотрите другие настройки, затем выберите Создать стек.
AWS CloudFormation требуется несколько минут, чтобы создать ресурсы от вашего имени. Вы можете следить за прогрессом на Мероприятия вкладку на консоли AWS CloudFormation. Когда стек создан, вы можете увидеть CREATE_COMPLETE
сообщение в Статус: колонка на Обзор меню.
Проверить решение
Давайте рассмотрим простой пример.
- Загрузите следующие образец данных.
- Разархивируйте содержимое.
Должно быть два файла: файл .xlf в формате XLIFF и файл конфигурации порога с расширением .cfg. Ниже приведен фрагмент файла XLIFF.
- В консоли Amazon S3 загрузите файл конфигурации порога качества в корзину конфигурации, указанную ранее.
Значение, установленное для test_En_to_Fr
составляет 75%. Вы должны увидеть параметры на консоли диспетчера систем в разделе Хранилище параметров.
- Находясь в консоли Amazon S3, загрузите файл .xlf в корзину S3, настроенную в качестве источника. Убедитесь, что файл находится в папке с именем
translate
(например,<my_bucket>/translate/test_En_to_Fr.xlf
).
Это запускает поток перевода.
- Откройте консоль Amazon Translate.
Должно появиться новое задание со статусом In Progress.
- После завершения задания щелкните ссылку задания и просмотрите результат. Все сегменты должны быть переведены.
Все сегменты должны быть переведены. В переведенном файле XLIFF найдите сегменты с дополнительными атрибутами с именем lscustom:match-quality
, как показано на следующем снимке экрана. Эти настраиваемые атрибуты определяют сегменты, в которых предложенный перевод был сохранен на основе оценки.
Они были получены из памяти переводов в соответствии с порогом качества. Все остальные сегменты были переведены машинным способом.
Вы развернули и протестировали автоматизированный помощник по асинхронному переводу, который применяет настраиваемые пороговые значения соответствия памяти переводов. Отличная работа!
уборка
Если вы развернули решение в своей учетной записи, не забудьте удалить стек CloudFormation, чтобы избежать непредвиденных расходов. Вам необходимо заранее очистить корзины S3 вручную.
Заключение
В этом посте вы узнали, как настраивать задания на перевод Amazon Translate на основе стандартных показателей качества нечеткого сопоставления XLIFF. С помощью этого решения вы можете значительно сократить объем ручного труда, связанного с просмотром машинно переведенного текста, а также оптимизировать использование Amazon Translate. Вы также можете расширить решение за счет автоматизации приема данных и возможностей оркестровки рабочих процессов, как описано в разделе Ускорьте работу по переводу с помощью полностью автоматизированной системы перевода.
Об авторах
Нарцисс Зекпа является архитектором решений из Бостона. Он помогает клиентам на северо-востоке США ускорить внедрение облака AWS, предоставляя рекомендации по архитектуре, разрабатывая инновационные и масштабируемые решения. Когда Нарсисс не занимается строительством, он любит проводить время со своей семьей, путешествовать, готовить и играть в баскетбол.
Дмитрий Рестейно является архитектором решений в AWS, базирующейся в Бруклине, Нью-Йорк. В основном он работает с компаниями здравоохранения и финансовых услуг на Северо-Востоке, помогая разрабатывать инновационные и креативные решения для наилучшего обслуживания своих клиентов. Имея опыт разработки программного обеспечения, он воодушевлен новыми возможностями, которые бессерверные технологии могут открыть миру. Вне работы он любит ходить в походы и исследовать гастрономическую сцену Нью-Йорка.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- О нас
- ускорять
- По
- Учетная запись
- точный
- Достигать
- дополнительный
- Принятие
- Все
- альтернатива
- Несмотря на то, что
- Amazon
- Применение
- архитектурный
- архитектура
- помощник
- Атрибуты
- Автоматизированный
- автоматизация
- доступен
- AWS
- фон
- Баскетбол
- не являетесь
- ниже
- ЛУЧШЕЕ
- Beyond
- граница
- Бостон
- Строительство
- бизнес
- возможности
- Вызывать
- определенный
- изменение
- заряд
- Выберите
- облако
- код
- Column
- приход
- Компании
- Конфигурация
- согласие
- Консоли
- содержит
- содержание
- может
- Создайте
- создали
- создает
- творческий
- критической
- изготовленный на заказ
- Клиенты
- данным
- База данных
- поставляется
- развернуть
- развертывание
- описано
- Проект
- Развитие
- различный
- усмотрение
- не
- вниз
- управлять
- затрат
- Английский
- Enter
- пример
- обмена
- возбужденный
- ожидать
- Больше
- выраженный
- продлить
- семья
- Особенность
- фигура
- финансовый
- финансовые услуги
- Фирма
- Во-первых,
- поток
- после
- следующим образом
- питание
- формат
- найденный
- Французский
- функция
- Функции
- будущее
- большой
- значительно
- группы
- методические рекомендации
- здравоохранение
- помощь
- помогает
- высший
- очень
- Как
- How To
- HTTPS
- идея
- определения
- идентифицирующий
- важную
- включают
- информация
- инновационный
- вход
- вовлеченный
- IT
- работа
- Джобс
- Основные
- известный
- труд
- язык
- запуск
- УЧИТЬСЯ
- узнали
- рычаги
- линия
- LINK
- Включенный в список
- машина
- управление
- менеджер
- руководство
- вручную
- Совпадение
- согласование
- Память
- Метрика
- может быть
- БОЛЕЕ
- имена
- New York
- север
- Нью-Йорк
- оптимизирующий
- Опция
- оркестровка
- Другое
- собственный
- часть
- процент
- выполнения
- Олицетворять
- игры
- возможности,
- возможное
- потенциал
- предыдущий
- первичный
- процесс
- Процессы
- обработка
- Произведенный
- профессиональный
- проектов
- обеспечение
- получила
- уменьшить
- представленный
- представляет
- Запросы
- Требования
- Полезные ресурсы
- Итоги
- обзоре
- условиями,
- масштабируемые
- сцена
- Поиск
- сегмент
- сегментами
- Serverless
- Услуги
- набор
- показанный
- просто
- Software
- разработка программного обеспечения
- твердый
- Решение
- Решения
- спецификации
- Расходы
- стек
- стандарт
- начинается
- Статус:
- диск
- магазин
- магазины
- Поддержка
- система
- системы
- цель
- Технологии
- Тестирование
- Источник
- мир
- порог
- Через
- время
- Переводы
- Путешествие
- нам
- созданного
- использование
- ценностное
- Смотреть
- Что
- Что такое
- будь то
- в то время как
- КТО
- в
- Работа
- работает
- Мир
- XML