Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

Создайте многоязычный рабочий процесс перевода документов с настройкой для конкретного домена и языка.

В цифровом мире предоставление информации на местном языке не является чем-то новым, но это может быть утомительной и дорогостоящей задачей. Достижения в области машинного обучения (ML) и обработки естественного языка (NLP) сделали эту задачу намного проще и дешевле.

Мы наблюдаем более широкое внедрение машинного обучения для многоязычных рабочих нагрузок по обработке данных и документов. Корпоративные и государственные заказчики переносят свои рабочие нагрузки ручного перевода, чтобы воспользоваться преимуществами автоматизированных услуг перевода ML. Amazon Translate — это нейронный машинный перевод сервис, обеспечивающий быстрый, качественный и недорогой языковой перевод между несколькими тысячами языковых пар, который можно использовать для задач синхронного (в реальном времени) или асинхронного перевода. Полный список доступных пар перевода см. Поддерживаемые языки и языковые коды.

Клиенты, переносящие и модернизирующие свои переводческие рабочие нагрузки, нуждаются в возможности настраивать переводы для своего бизнеса. Для рабочей нагрузки по переводу также может потребоваться способность адаптироваться к региональным языковым диалектам или использованию. Например, испанский перевод слова «пожилой» — anciano(a), но в Пуэрто-Рико предпочтение отдается слову envejeciente.

В этом посте мы покажем, как включить функцию активного пользовательского перевода (ACT) Amazon Translate. Мы предлагаем решение для создания многоязычного рабочего процесса перевода документов с настройками для конкретных доменов и языков, которые вы можете просматривать и дополнять по мере необходимости, чтобы постоянно улучшать результаты и радовать конечных пользователей.

Обзор решения

ACT производит вывод с пользовательским переводом без необходимости создавать и поддерживать пользовательскую модель перевода. Используя ACT, Amazon Translate будет использовать предпочитаемые вами примеры перевода в качестве параллельных данных для настройки результата перевода, устраняя время и затраты, необходимые для создания и обучения новой модели машинного обучения.

Решение, описанное в этом посте, объясняет, как создать рабочий процесс с участием человека, используя Amazon увеличил AI (Amazon A2I), чтобы постоянно улучшать индивидуальный перевод. Amazon A2I предоставляет простой способ интегрировать человеческое наблюдение в ваши рабочие процессы машинного обучения, не требуя опыта машинного обучения. Amazon A2I упрощает интеграцию человеческого суждения и искусственного интеллекта в любое приложение машинного обучения, независимо от того, работает ли оно на AWS или на другой платформе.

Для получения дополнительной информации см. Проектирование рабочих процессов рецензирования с помощью Amazon Translate и Amazon Augmented AI после.

На следующей диаграмме показан поток команд и поток данных решения. Поток команд показывает логическую последовательность событий в рабочем процессе. Поток данных показывает, как данные создаются или используются различными компонентами решения.

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

На следующей диаграмме последовательности показаны два отдельных процесса в решении: рабочий процесс перевода (A) и процесс обновления параллельных данных (B).

Рабочий процесс перевода инициируется Amazon CloudWatch запланированное событие, запускающее инициатор задания перевода AWS Lambda функция. Эта функция создает задание асинхронного перевода в Amazon Translate, передавая документ для перевода и расположение параллельных данных для настройки перевода. Задание преобразования считывает параллельные данные, выполняет преобразование и записывает переведенный результат обратно в Amazon S3 ведро. На момент написания этой статьи только асинхронные задания перевода могут использовать параллельные данные.

Когда задание на перевод завершено, генерируется событие, которое запускает лямбда-функцию обработчика завершения задания на перевод. Эта функция создает цикл рабочего процесса, выполняемого человеком, — основной компонент части рабочего процесса Amazon A2I.

Рецензенты оценивают перевод и принимают или изменяют перевод. Любые исправления используются для обновления переведенного документа, а также добавляются в словарь настройки. Когда проверка завершена, генерируется другое событие, запускающее функцию обработчика завершения рабочего процесса. Эта функция записывает последний переведенный документ обратно в Amazon S3. Данные настройки используются для обновления Amazon DynamoDB таблица с парами исходного и переведенного текста.

Чтобы закрыть цикл, мы должны включить эти данные настройки, хранящиеся в DynamoDB, обратно в параллельные данные, хранящиеся в Amazon S3. Для этого мы используем запланированное событие CloudWatch для запуска функции обновления параллельных данных, которая считывает данные из таблицы DynamoDB, переформатирует их как параллельные данные и обновляет корзину S3, сохраняя параллельные данные.

Разверните решение с помощью AWS CloudFormation

Запустите предоставленный AWS CloudFormation шаблон для развертывания решения в вашей учетной записи. Этот стек работает только в регионе us-east-1. Если вы хотите развернуть это решение в других регионах, см. Репо GitHub.

  1. Выберите Стек запуска:
    Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.
  2. Следуйте инструкциям, чтобы заполнить необходимые параметры. Если вы запускаете этот стек в первый раз, Электронная почта социальной сети является единственным обязательным параметром.
  3. На Обзор страница, в Возможности раздел, установите флажок и выберите Создать стек.

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

Стек создает следующие ключевые компоненты:

  • Данные настройки – Таблица DynamoDB (translate_parallel_data) для сохранения данных настройки. Вы переносите существующие данные настройки в эту таблицу. Эта таблица используется для постоянного добавления и обновления настроек.
  • Параллельное обновление данных – Функция Lambda для преобразования данных настройки из таблицы DynamoDB в параллельный формат данных — CSV, TSV или TMX — и их сохранения в Amazon S3. Он создает и обновляет параллельные данные с помощью нового файла параллельных данных в Amazon S3.
  • Инициатор задания перевода – Функция Lambda для запуска пакетного задания Amazon Translate с параллельными данными.
  • Обработчик завершения задания перевода – Эта функция Lambda запускается после завершения пакетного задания Amazon Translate. Функция создает один человеческий цикл для каждого документа (мы уточним это в будущем, чтобы создавать человеческий цикл только для определенного процента обработанных документов). Он использует оригинальные и переведенные документы для создания человеческого цикла.
  • Индивидуальный шаблон Amazon A2I – Этот шаблон используется для рендеринга пары перевода для просмотра человеком. В шаблоне есть Добавить вариант для каждого сегмента перевода. Пользователи могут выбрать этот параметр, чтобы внести исправления в данные настройки. Новые данные настройки используются в следующем задании пакетного перевода.
  • Обработчик завершения рабочего процесса – Эта лямбда-функция запускается, когда человеческий рабочий процесс завершен. Функция обновляет переведенный документ исправлениями и проверяет наличие параллельных обновлений данных. Новые параллельные данные добавляются в таблицу DynamoDB.
  • Частная команда Amazon A2I – Частная команда Amazon A2I создается с работником-человеком с использованием предоставленной электронной почты. Первоначальные учетные данные отправляются по электронной почте после успешного создания закрытой группы. Вы используете этот адрес электронной почты и учетные данные для входа на рабочий портал Amazon A2I.

Проверить решение

Ассоциация sample_text.txt файл был бы создан под входным префиксом корзины S3, созданной стеком. Мы используем этот файл для нашего тестирования. Он содержит следующее содержание:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

Чтобы протестировать решение, выполните следующие действия:

  1. Вызовите функцию запуска задания перевода вручную или подождите, пока CloudWatch активирует ее в соответствии с указанным вами расписанием cron.
    Эта функция запускает пакетное задание Amazon Translate. Вы можете наблюдать за ходом выполнения задания в консоли Amazon Translate.
    Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.Выполнение этого пакетного задания занимает около 30 минут. Когда он будет завершен, TextTranslationJob событие изменения состояния запускает функцию обработчика завершения задания перевода. Эта функция создает один человеческий цикл для каждого переведенного документа.
  2. Перейдите в Персонал Amazon A2I стр.
  3. Выберите Частный меню.
    Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.
  4. Войдите на рабочий портал Amazon A2I, выбрав ссылку для Пометка URL-адреса входа на портал.
  5. Выберите задачу Human review task в списке вакансий.
  6. Выберите Начать работать.
    Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.
    Вы можете увидеть следующую страницу.
    Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.
  7. Следуйте инструкциям, чтобы внести исправления для домена и языка.
    На предыдущем снимке экрана фраза «Использование состояния здоровья в любом групповом полисе медицинского страхования запрещено законом» была переведена как «La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo». Хотя перевод точен, фразы переставлены.
  8. Давайте изменим это на «El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley», чтобы сделать это более прямым переводом, отражающим исходную фразеологию.
  9. Выберите Добавить чтобы добавить это в словарь.
  10. Когда закончите, выберите Отправить.
    Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

Это активирует функцию обработчика завершения рабочего процесса, и данные настройки обновляются в таблице DynamoDB. Функция также сохраняет исправленный перевод с префиксом post-edits.

Вы можете наблюдать, как настройки добавляются в translate_parallel_data таблицу в консоли DynamoDB.

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

Поток команд

Функция Parallel Data Refresher запускается каждый час запланированным событием CloudWatch. Эта функция проверяет наличие новых обновлений в translate_parallel_data таблица, создает новый TMX-файл параллельных данных в Amazon S3 под parallel_data префикс и обновляет компонент параллельных данных Amazon Translate. Вы можете активировать эту функцию вручную, если не хотите ждать запуска запланированного события.

Вы можете наблюдать за параллельным обновлением данных в консоли Amazon Translate.

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

По завершении статус задания должен быть Активные и значение для Обновленные записи должно отражать количество добавленных вами настроек (в данном случае 1).

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

Теперь мы можем снова запустить задание перевода с обновленными данными. Снова запустите функцию вызова задания перевода, чтобы увидеть, как кастомизация добавляется к переводу во второй итерации. Amazon Translate теперь использует предоставленные параллельные данные для настройки перевода.

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

Вы можете наблюдать за изменением вывода перевода на портале маркировки. Вместо перевода по умолчанию мы видим, что применяется индивидуальный перевод.

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.

Этот рабочий процесс помогает создать эффективный цикл для постоянного улучшения результатов перевода с помощью функций настройки Amazon A2I и Amazon Translate.

Цена

С Amazon Translate и Amazon A2I вы платите по мере использования в зависимости от количества текстовых символов, которые вы обработали, и за каждый объект, проверенный человеком. В этом примере мы используем режим DynamoDB по требованию. DynamoDB взимает плату за операции чтения и записи, выполненные в ваших таблицах. Обратитесь к страницам с ценами для Amazon Translate, Амазон А2Икачества Amazon DynamoDB для фактических затрат.

Убирать

Когда вы закончите экспериментировать с этим решением, очистите свои ресурсы с помощью консоли AWS CloudFormation, чтобы удалить все ресурсы, развернутые в этом примере. Это поможет вам избежать постоянных расходов в вашем аккаунте.

Заключение

Вы можете использовать решение, представленное в этом посте, для создания многоязычного рабочего процесса перевода, который постепенно использует и дополняет специфичные для предметной области настройки для постоянного улучшения результатов перевода. Мы предоставили простой механизм для интеграции ваших существующих ресурсов настройки с управляемыми сервисами искусственного интеллекта, такими как Amazon Translate и Amazon A2I, для создания надежного сервиса перевода для вашего приложения. Amazon Translate может помочь вам масштабировать это решение для поддержки более 5,550 пар перевода. Amazon A2I может помочь вам легко интегрироваться со штатным лингвистическим экспертом или воспользоваться услугами внешних сотрудников для масштабирования решения.

Для получения дополнительной информации об Amazon Translate посетите веб-сайт Ресурсы Amazon Translate найти видеоресурсы и сообщения в блогах, а также обратиться к Часто задаваемые вопросы об AWS Translate. Пожалуйста, поделитесь с нами своими мыслями в разделе комментариев или в разделе вопросов проекта. Репозиторий Github.


Об авторах

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.Сатья Балакришнан является старшим архитектором по работе с клиентами в группе профессиональных услуг в AWS, специализирующейся на решениях для данных/машинного обучения. Он работает с федеральными финансовыми клиентами США. Он увлечен созданием прагматичных решений для решения бизнес-проблем клиентов. В свободное время он любит смотреть фильмы и ходить в походы со своей семьей.

Создайте многоязычный рабочий процесс перевода документов с настройкой PlatoBlockchain Data Intelligence для конкретной предметной области и языка. Вертикальный поиск. Ай.Пол В. Джуарман является старшим архитектором по работе с клиентами в сфере профессиональных услуг в AWS, специализирующейся на миграции приложений и работающей с федеральными финансовыми клиентами США. Полу нравится создавать технологические решения, путешествовать с семьей и ходить в походы по национальному парку Шенандоа, если поход заканчивается на местной крафтовой пивоварне.

Отметка времени:

Больше от Машинное обучение AWS