Погрузитесь в глубокое обучение (D2L.ai) — это учебник с открытым исходным кодом, который делает глубокое обучение доступным для всех. В нем представлены интерактивные блокноты Jupyter с автономным кодом в PyTorch, JAX, TensorFlow и MXNet, а также примеры из реальной жизни, экспозиционные рисунки и математические расчеты. На сегодняшний день D2L принят более чем в 400 университетах по всему миру, таких как Кембриджский университет, Стэнфордский университет, Массачусетский технологический институт, Университет Карнеги-Меллона и Университет Цинхуа. Эта работа также доступна на китайском, японском, корейском, португальском, турецком и вьетнамском языках, а также планируется выпуск на испанском и других языках.
Создать онлайн-книгу, которая постоянно обновляется, написана несколькими авторами и доступна на нескольких языках, — непростая задача. В этом посте мы представляем решение, которое D2L.ai использовал для решения этой проблемы с помощью Функция активного пользовательского перевода (ACT) of Amazon Translate и создание многоязычного конвейера автоматического перевода.
Мы демонстрируем, как использовать Консоль управления AWS и Общедоступный API Amazon Translate для автоматического машинного пакетного перевода и анализа переводов между двумя языковыми парами: английским и китайским, а также английским и испанским. Мы также рекомендуем передовые методы использования Amazon Translate в этом конвейере автоматического перевода, чтобы обеспечить качество и эффективность перевода.
Обзор решения
Мы создали конвейеры автоматического перевода для нескольких языков, используя функцию ACT в Amazon Translate. ACT позволяет настраивать вывод перевода «на лету», предоставляя адаптированные примеры перевода в виде параллельные данные. Параллельные данные состоят из набора текстовых примеров на исходном языке и желаемых переводов на один или несколько целевых языков. Во время перевода ACT автоматически выбирает наиболее релевантные сегменты из параллельных данных и на лету обновляет модель перевода на основе этих пар сегментов. В результате переводы лучше соответствуют стилю и содержанию параллельных данных.
Архитектура содержит несколько подконвейеров; каждый подконвейер обрабатывает перевод на один язык, например, с английского на китайский, с английского на испанский и т. д. Несколько подконвейеров перевода могут обрабатываться параллельно. В каждом подконвейере мы сначала строим параллельные данные в Amazon Translate, используя высококачественный набор данных хвостатых примеров перевода из книг D2L, переведенных человеком. Затем мы генерируем настраиваемый машинный перевод «на лету» во время выполнения, что обеспечивает лучшее качество и точность.
В следующих разделах мы покажем, как создать каждый конвейер перевода с помощью Amazon Translate с ACT, а также Создатель мудреца Амазонки и Простой сервис хранения Amazon (Amazon S3).
Во-первых, мы помещаем исходные документы, справочные документы и обучающий набор параллельных данных в корзину S3. Затем мы создаем блокноты Jupyter в SageMaker для запуска процесса перевода с использованием общедоступных API Amazon Translate.
Предпосылки
Чтобы выполнить шаги, описанные в этом посте, убедитесь, что у вас есть учетная запись AWS со следующим:
- Доступ к Управление идентификацией и доступом AWS (IAM) для конфигурации ролей и политик
- Доступ к Amazon Translate, SageMaker и Amazon S3
- Сегмент S3 для хранения исходных документов, справочных документов, параллельных наборов данных и выходных данных перевода.
Создайте роль и политики IAM для Amazon Translate с помощью ACT
Наша роль IAM должна содержать настраиваемую политику доверия для Amazon Translate:
Эта роль также должна иметь политику разрешений, которая предоставляет Amazon Translate доступ для чтения к входной папке и подпапкам в Amazon S3, которые содержат исходные документы, а также доступ для чтения и записи к выходной корзине S3 и папке, содержащей переведенные документы:
Чтобы запускать блокноты Jupyter в SageMaker для заданий перевода, нам необходимо предоставить встроенную политику разрешений для роли выполнения SageMaker. Эта роль передает SageMaker роль службы Amazon Translate, которая позволяет блокнотам SageMaker получать доступ к исходным и переведенным документам в назначенных корзинах S3:
Подготовьте обучающие образцы параллельных данных
Параллельные данные в ACT необходимо обучать с помощью входного файла, состоящего из списка пар текстовых примеров, например, пары исходного языка (английский) и целевого языка (китайский). Входной файл может быть в формате TMX, CSV или TSV. На следующем снимке экрана показан пример входного файла CSV. Первый столбец — это данные исходного языка (на английском языке), а второй столбец — данные целевого языка (на китайском языке). Следующий пример взят из книги D2L-en и книги D2L-zh.
Выполните индивидуальное обучение параллельным данным в Amazon Translate
Сначала мы настраиваем корзину и папки S3, как показано на следующем снимке экрана. source_data
папка содержит исходные документы до перевода; сгенерированные документы после пакетного перевода помещаются в выходную папку. ParallelData
Папка содержит файл ввода параллельных данных, подготовленный на предыдущем шаге.
После загрузки входных файлов в source_data
папку, мы можем использовать API CreateParallelData чтобы запустить параллельное задание по созданию данных в Amazon Translate:
Чтобы обновить существующие параллельные данные новыми обучающими наборами данных, мы можем использовать API обновлений параллельных данных:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Мы можем проверить ход обучения на консоли Amazon Translate. Когда задание завершено, статус параллельных данных отображается как Активные и готов к использованию.
Запуск асинхронного пакетного перевода с использованием параллельных данных
Пакетный перевод может выполняться в процессе, при котором несколько исходных документов автоматически переводятся в документы на целевых языках. Процесс включает в себя загрузку исходных документов во входную папку корзины S3, а затем применение API StartTextTranslationJob Amazon Translate, чтобы инициировать задание асинхронного перевода:
Мы выбрали пять исходных документов на английском языке из книги D2L (D2L-en) для массового перевода. В консоли Amazon Translate мы можем отслеживать ход выполнения задания на перевод. Когда статус задания меняется на Заполненная, мы можем найти переведенные документы на китайском языке (D2L-zh) в выходной папке корзины S3.
Оцените качество перевода
Чтобы продемонстрировать эффективность функции ACT в Amazon Translate, мы также применили традиционный метод перевода Amazon Translate в режиме реального времени без параллельных данных для обработки тех же документов и сравнили результат с пакетным переводом, полученным с помощью ACT. Мы использовали оценку BLEU (BiLingual Evaluation Understudy) для сравнения качества перевода между двумя методами. Единственный способ точно измерить качество машинного перевода — получить экспертную оценку и оценить качество. Однако BLEU обеспечивает оценку относительного улучшения качества между двумя выходными данными. Оценка BLEU обычно представляет собой число от 0 до 1; он вычисляет сходство машинного перевода с эталонным человеческим переводом. Более высокий балл представляет лучшее качество понимания естественного языка (NLU).
Мы протестировали набор документов в четырех конвейерах: с английского на китайский (с en на zh), с китайского на английский (с zh на en), с английского на испанский (с en на es) и с испанского на английский (с es на en). На следующем рисунке показано, что перевод с помощью ACT дал более высокий средний балл BLEU во всех конвейерах перевода.
Мы также заметили, что чем более детализированы пары параллельных данных, тем выше производительность преобразования. Например, мы используем следующий параллельный файл ввода данных с парами абзацев, который содержит 10 записей.
Для того же контента мы используем следующий параллельный файл ввода данных с парами предложений и 16 записями.
Мы использовали оба параллельных файла ввода данных для создания двух параллельных объектов данных в Amazon Translate, а затем создали два задания пакетного перевода с одним и тем же исходным документом. На следующем рисунке сравниваются выходные переводы. Он показывает, что выходные данные с использованием параллельных данных с парами предложений превзошли результат с использованием параллельных данных с парами абзацев как для перевода с английского на китайский, так и для перевода с китайского на английский.
Если вам интересно узнать больше об этих сравнительных анализах, см. Автоматический машинный перевод и синхронизация для «Погружения в глубокое обучение».
Убирать
Чтобы избежать повторяющихся расходов в будущем, мы рекомендуем очистить созданные вами ресурсы:
- В консоли Amazon Translate выберите созданные вами параллельные данные и выберите Удалить. В качестве альтернативы вы можете использовать API удаления параллельных данных или Интерфейс командной строки AWS (интерфейс командной строки АМС) удалить-параллельные-данные команда для удаления параллельных данных.
- Удалить корзину S3 используется для размещения исходных и справочных документов, переведенных документов и файлов ввода параллельных данных.
- Удалите роль и политику IAM. Инструкции см. Удаление ролей или профилей экземпляров и Удаление политик IAM.
Заключение
С помощью этого решения мы стремимся снизить рабочую нагрузку переводчиков на 80 %, сохраняя при этом качество перевода и поддерживая несколько языков. Вы можете использовать это решение для повышения качества и эффективности перевода. Мы работаем над дальнейшим улучшением архитектуры решения и качества перевода на другие языки.
Ваши отзывы всегда приветствуются; пожалуйста, оставьте свои мысли и вопросы в разделе комментариев.
Об авторах
Юнфэй Бай является старшим архитектором решений в AWS. Имея опыт работы в области искусственного интеллекта и машинного обучения, обработки данных и аналитики, Юнфэй помогает клиентам внедрять сервисы AWS для достижения бизнес-результатов. Он разрабатывает решения для искусственного интеллекта, машинного обучения и анализа данных, которые решают сложные технические задачи и достигают стратегических целей. Юнфэй имеет докторскую степень в области электроники и электротехники. Вне работы Юнфэй любит читать и слушать музыку.
Рэйчел Ху — ученый-прикладник в Университете машинного обучения AWS (MLU). Она руководила разработкой нескольких курсов, в том числе ML Operations (MLOPs) и Accelerator Computer Vision. Рэйчел является старшим спикером AWS и выступала на ведущих конференциях, включая AWS re:Invent, NVIDIA GTC, KDD и MLOps Summit. До прихода в AWS Рэйчел работала инженером по машинному обучению, создавая модели обработки естественного языка. Вне работы она увлекается йогой, фрисби, чтением и путешествиями.
Уотсон Шриватсан является главным менеджером по продуктам Amazon Translate, службы обработки естественного языка AWS. По выходным вы найдете его исследующим природу на северо-западе Тихого океана.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- ЭВМ Финанс. Единый интерфейс для децентрализованных финансов. Доступ здесь.
- Квантум Медиа Групп. ИК/PR усиление. Доступ здесь.
- ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :имеет
- :является
- :куда
- $UP
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- О нас
- ускоритель
- доступ
- доступной
- Учетная запись
- точность
- точно
- Достигает
- Действие (Act):
- Действие
- активный
- адрес
- принять
- принял
- После
- AI
- AI / ML
- цель
- Все
- позволять
- позволяет
- вдоль
- причислены
- всегда
- Amazon
- Amazon Translate
- Amazon Web Services
- an
- Анализ
- аналитика
- анализировать
- и
- API
- прикладной
- Применение
- архитектура
- МЫ
- около
- AS
- At
- Авторы
- автоматический
- Автоматический
- автоматически
- доступен
- в среднем
- избежать
- AWS
- Машинное обучение AWS
- AWS Re: Invent
- фон
- основанный
- BE
- было
- до
- эталонный тест
- ЛУЧШЕЕ
- лучшие практики
- Лучшая
- между
- книга
- Книги
- изоферменты печени
- строить
- Строительство
- построенный
- бизнес
- by
- исчисляет
- Кембридж
- CAN
- Карнеги Меллон
- вызов
- проблемы
- сложные
- изменения
- проверка
- китайский
- Выберите
- код
- лыжных шлемов
- Column
- COM
- Комментарии
- сравненный
- полный
- комплекс
- компьютер
- Компьютерное зрение
- проводятся
- конференции
- Состоящий из
- состоит
- Консоли
- строить
- содержать
- содержит
- содержание
- непрерывно
- Расходы
- "Курс"
- создали
- создание
- изготовленный на заказ
- Клиенты
- настроить
- подгонянный
- данным
- Анализ данных
- наука о данных
- Наборы данных
- Время
- глубоко
- глубокое обучение
- определенный
- доставить
- демонстрировать
- описание
- назначенный
- конструкций
- желанный
- документ
- Документация
- управлять
- в течение
- каждый
- эффект
- эффективность
- затрат
- Электронный
- прилагать усилия
- инженер
- Проект и
- Английский
- обеспечивать
- лиц
- оценка
- оценка
- все члены
- пример
- Примеры
- выполнение
- существующий
- эксперту
- Исследование
- далеко
- Особенность
- Особенности
- Обратная связь
- несколько
- фигура
- цифры
- Файл
- Файлы
- Найдите
- Во-первых,
- следовать
- после
- Что касается
- форма
- формат
- 4
- от
- далее
- будущее
- порождать
- генерируется
- класс
- предоставлять
- гранты
- Ручки
- Есть
- he
- помогает
- высококачественный
- высший
- его
- имеет
- кашель
- Как
- How To
- Однако
- HTML
- HTTP
- HTTPS
- человек
- Личность
- улучшать
- улучшение
- улучшение
- in
- В том числе
- инициировать
- вход
- пример
- Институт
- инструкции
- интерактивный
- заинтересованный
- в
- IT
- Японский
- работа
- Джобс
- присоединение
- JPG
- хранится
- Корейский
- язык
- Языки
- запуск
- ведущий
- изучение
- Оставлять
- линия
- Список
- машина
- обучение с помощью машины
- сделанный
- Сохранение
- сделать
- ДЕЛАЕТ
- управление
- менеджер
- Массачусетс
- Массачусетский Технологический Институт
- Совпадение
- математике
- проводить измерение
- Mellon
- метод
- методы
- ML
- млн операций в секунду
- модель
- Модели
- монитор
- БОЛЕЕ
- самых
- с разными
- Музыка
- должен
- имя
- натуральный
- Обработка естественного языка
- Необходимость
- потребности
- Новые
- номер
- Nvidia
- целей
- of
- on
- ONE
- онлайн
- только
- с открытым исходным кодом
- Операционный отдел
- or
- Другое
- на открытом воздухе
- выходной
- внешнюю
- Преодолеть
- Тихий океан
- пара
- пар
- Параллельные
- проходит
- производительность
- разрешение
- Разрешения
- трубопровод
- Планы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- пожалуйста
- сборах
- политика
- Португальский
- После
- практиками
- подготовленный
- представить
- предыдущий
- Основной
- процесс
- Обработанный
- обработка
- Произведенный
- Продукт
- Менеджер по продукции
- Прогресс
- приводит
- обеспечение
- что такое варган?
- положил
- pytorch
- Вопросы
- RE
- Читать
- Reading
- готовый
- реальный мир
- реального времени
- рекомендовать
- повторяющихся
- уменьшить
- относительный
- соответствующие
- представляет
- ресурс
- Полезные ресурсы
- ответ
- Итоги
- обзоре
- Роли
- роли
- Run
- sagemaker
- то же
- Наука
- Ученый
- Гол
- Во-вторых
- Раздел
- разделах
- сегмент
- сегментами
- выбранный
- старший
- обслуживание
- Услуги
- набор
- она
- показанный
- Шоу
- просто
- So
- уже
- Решение
- Решения
- Источник
- Испанский
- Динамик
- говорят
- Стэнфорд
- Стэнфордский университет
- заявление
- Статус:
- Шаг
- Шаги
- диск
- магазин
- Стратегический
- стиль
- такие
- Саммит
- поддержки
- синхронизация
- с учетом
- цель
- Технический
- Технологии
- tensorflow
- проверенный
- учебник
- чем
- который
- Ассоциация
- Будущее
- Источник
- мир
- тогда
- Эти
- этой
- те
- время
- в
- топ
- традиционный
- специалистов
- Обучение
- переведите
- Переводы
- Путешествие
- Доверие
- Цинхуа
- Турецкий
- два
- типично
- окончательный
- понимание
- Университеты
- Университет
- университет Кембриджа
- Обновление ПО
- обновление
- Updates
- Загрузка
- использование
- используемый
- через
- версия
- вьетнамский
- видение
- Уотсон
- Путь..
- we
- Web
- веб-сервисы
- добро пожаловать
- ЧТО Ж
- когда
- который
- в то время как
- будете
- без
- Работа
- работавший
- работает
- Мир
- письменный
- Йога
- Ты
- ВАШЕ
- зефирнет