Створіть конвеєр багатомовного автоматичного перекладу за допомогою Amazon Translate Active Custom Translation

Перевидано Платоном

читають: 0

Пориньте в глибоке навчання (D2L.ai) — це підручник із відкритим кодом, який робить глибоке навчання доступним для кожного. Він містить інтерактивні блокноти Jupyter із самодостатнім кодом у PyTorch, JAX, TensorFlow і MXNet, а також реальні приклади, експозиційні фігури та математику. Наразі D2L прийняли понад 400 університетів у всьому світі, таких як Кембриджський університет, Стенфордський університет, Массачусетський технологічний інститут, Університет Карнегі-Меллона та Університет Цінхуа. Ця робота також доступна китайською, японською, корейською, португальською, турецькою та в’єтнамською мовами, планується запуск іспанською та іншими мовами.

Мати онлайн-книгу, яка постійно оновлюється, написана кількома авторами та доступна багатьма мовами, — це складна спроба. У цій публікації ми представляємо рішення, яке використовував D2L.ai для вирішення цієї проблеми за допомогою Функція активного індивідуального перекладу (ACT). of Amazon Translate і створення багатомовного автоматичного конвеєра перекладу.

Ми демонструємо, як використовувати Консоль управління AWS та Загальнодоступний API Amazon Translate для автоматичного пакетного машинного перекладу та аналізу перекладів між двома мовними парами: англійською та китайською, а також англійською та іспанською. Ми також рекомендуємо найкращі методи використання Amazon Translate у цьому автоматичному конвеєрі перекладу, щоб забезпечити якість і ефективність перекладу.

Огляд рішення

Ми створили автоматичні конвеєри перекладу для кількох мов за допомогою функції ACT в Amazon Translate. ACT дозволяє налаштовувати виведення перекладу на льоту, надаючи індивідуальні приклади перекладу у формі паралельні дані. Паралельні дані складаються з набору текстових прикладів мовою оригіналу та бажаних перекладів однією чи кількома цільовими мовами. Під час перекладу ACT автоматично вибирає найбільш відповідні сегменти з паралельних даних і оновлює модель перекладу на льоту на основі цих пар сегментів. Це призводить до перекладів, які краще відповідають стилю та вмісту паралельних даних.

Архітектура містить кілька підконвеєрів; кожен підконвеєр обробляє одну мову перекладу, наприклад з англійської на китайську, з англійської на іспанську тощо. Кілька підконвеєрів перекладу можуть оброблятися паралельно. У кожному підконвеєрі ми спочатку створюємо паралельні дані в Amazon Translate, використовуючи високоякісний набір даних прикладів детального перекладу з перекладених людиною книг D2L. Потім ми генеруємо налаштований вихід машинного перекладу на льоту під час виконання, що забезпечує кращу якість і точність.

архітектура рішення

У наступних розділах ми демонструємо, як створити кожен конвеєр перекладу за допомогою Amazon Translate з ACT разом із Amazon SageMaker та Служба простого зберігання Amazon (Amazon S3).

Спочатку ми поміщаємо вихідні документи, довідкові документи та навчальний набір паралельних даних у відро S3. Потім ми створюємо блокноти Jupyter у SageMaker для запуску процесу перекладу за допомогою публічних API Amazon Translate.

Передумови

Щоб виконати дії, наведені в цій публікації, переконайтеся, що у вас є обліковий запис AWS із такими параметрами:

Доступ до Управління ідентифікацією та доступом AWS (IAM) для налаштування ролі та політики
Доступ до Amazon Translate, SageMaker і Amazon S3
Відро S3 для зберігання вихідних документів, довідкових документів, паралельного набору даних і результатів перекладу

Створіть роль і політики IAM для Amazon Translate за допомогою ACT

Наша роль IAM повинна містити спеціальну політику довіри для Amazon Translate:

{ "Version": "2012-10-17", "Statement": [{ "Sid": "Statement1", "Effect": "Allow", "Principal": { "Service": "translate.amazonaws.com" }, "Action": "sts:AssumeRole" }]
}

Ця роль також повинна мати політику дозволів, яка надає Amazon Translate доступ для читання до вхідної папки та вкладених папок в Amazon S3, які містять вихідні документи, і доступ для читання/запису до вихідного сегмента S3 і папки, яка містить перекладені документи:

{ "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetObject", "s3:PutObject", “s3:DeleteObject” ] "Resource": [ "arn:aws:s3:::YOUR-S3_BUCKET-NAME" ] }]
}

Щоб запустити блокноти Jupyter у SageMaker для завдань перекладу, нам потрібно надати вбудовану політику дозволів для ролі виконання SageMaker. Ця роль передає SageMaker роль служби Amazon Translate, яка дозволяє блокнотам SageMaker мати доступ до вихідних і перекладених документів у призначених сегментах S3:

{ "Version": "2012-10-17", "Statement": [{ "Action": ["iam:PassRole"], "Effect": "Allow", "Resource": [ "arn:aws:iam::YOUR-AWS-ACCOUNT-ID:role/batch-translate-api-role" ] }]
}

Підготуйте паралельні навчальні зразки даних

Паралельні дані в ACT потрібно навчити за допомогою вхідного файлу, що складається зі списку пар текстових прикладів, наприклад, пари вихідної мови (англійська) та цільової мови (китайська). Вхідний файл може бути у форматі TMX, CSV або TSV. На наступному знімку екрана показано приклад вхідного файлу CSV. Перший стовпець – це дані вихідної мови (англійською), а другий стовпець – дані цільової мови (китайською). Наступний приклад взято з книги D2L-en та книги D2L-zh.

скріншот-1

Виконуйте спеціальне навчання паралельних даних у Amazon Translate

Спочатку ми налаштували відро S3 і папки, як показано на наступному знімку екрана. The source_data папка містить вихідні документи до перекладу; згенеровані документи після пакетного перекладу поміщаються в вихідну папку. The ParallelData папка містить файл паралельних вхідних даних, підготовлений на попередньому кроці.

скріншот-2

Після завантаження вхідних файлів у source_data папку, ми можемо використовувати папку CreateParalleData API щоб запустити завдання створення паралельних даних у Amazon Translate:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.create_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " created.")

Щоб оновити існуючі паралельні дані новими навчальними наборами даних, ми можемо використовувати UpdateParalleData API:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn,	# S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")

Ми можемо перевірити хід навчання на консолі Amazon Translate. Після завершення завдання статус паралельних даних відображається як Active і готовий до використання.

скріншот-3

Запустіть асинхронний пакетний переклад з використанням паралельних даних

Пакетний переклад можна здійснити в процесі, коли кілька вихідних документів автоматично перекладаються на документи цільовими мовами. Процес передбачає завантаження вихідних документів у вхідну папку сегмента S3, а потім застосування API StartTextTranslationJob Amazon Translate, щоб розпочати асинхронне завдання перекладу:

S3_BUCKET = “YOUR-S3_BUCKET-NAME”
ROLE_ARN = “THE_ROLE_DEFINED_IN_STEP_1”
src_fdr = “source_data”
output_fdr = “output”
src_lang = “en”
tgt_lang = “zh”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
response = translate_client.start_text_translation_job ( JobName='D2L_job', InputDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/'+src_fdr+'/', # S3_BUCKET is the S3 bucket name defined in the previous step # src_fdr is the folder in S3 bucket containing the source files 'ContentType': 'text/html' }, OutputDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/’+output_fdr+’/', # S3_BUCKET is the S3 bucket name defined in the previous step # output_fdr is the folder in S3 bucket containing the translated files }, DataAccessRoleArn=ROLE_ARN, # ROLE_ARN is the role defined in the previous step SourceLanguageCode=src_lang, # src_lang is the source language, such as ‘en’ TargetLanguageCodes=[tgt_lang,], # tgt_lang is the source language, such as ‘zh’ ParallelDataNames=pd_name # pd_name is the parallel data name defined in the previous step )

Ми вибрали п’ять вихідних документів англійською мовою з книги D2L (D2L-en) для масового перекладу. На консолі Amazon Translate ми можемо відстежувати хід перекладу. Коли статус роботи змінюється на Зроблено, ми можемо знайти перекладені документи китайською мовою (D2L-zh) у вихідній папці сегмента S3.

скріншот-4

Оцініть якість перекладу

Щоб продемонструвати ефективність функції ACT в Amazon Translate, ми також застосували традиційний метод перекладу в режимі реального часу Amazon Translate без паралельних даних для обробки тих самих документів і порівняли результат із результатом пакетного перекладу за допомогою ACT. Ми використали оцінку BLEU (BiLingual Evaluation Understudy), щоб порівняти якість перекладу між двома методами. Єдиний спосіб точно виміряти якість результатів машинного перекладу — отримати експертний огляд і оцінити якість. Проте BLEU надає оцінку відносного покращення якості між двома результатами. Оцінка BLEU зазвичай є числом від 0 до 1; він обчислює подібність машинного перекладу до еталонного людського перекладу. Вищий бал означає кращу якість розуміння природної мови (NLU).

Ми протестували набір документів у чотирьох конвеєрах: з англійської на китайську (en на zh), з китайської на англійську (zh на en), з англійської на іспанську (en на es) і з іспанської на англійську (es на en). На наступному малюнку показано, що переклад за допомогою ACT дав вищий середній бал BLEU у всіх конвеєрах перекладу.

діаграма-1

Ми також помітили, що чим більш детальними є пари паралельних даних, тим краща продуктивність перекладу. Наприклад, ми використовуємо наступний паралельний файл введення даних з парами абзаців, який містить 10 записів.

скріншот-5

Для того самого вмісту ми використовуємо наступний паралельний файл введення даних із парами речень і 16 записами.

скріншот-6

Ми використали обидва файли паралельних вхідних даних для створення двох паралельних об’єктів даних у Amazon Translate, а потім створили два завдання пакетного перекладу з тим самим вихідним документом. На наступному малюнку порівнюються вихідні переклади. Це показує, що вихід із використанням паралельних даних із парами речень перевершує вихід із використанням паралельних даних із парами абзаців як для перекладу з англійської на китайську, так і для перекладу з китайської на англійську.

діаграма-2

Якщо вам цікаво дізнатися більше про ці порівняльні аналізи, зверніться до Автоматичний машинний переклад і синхронізація для «Занурення в глибоке навчання».

Прибирати

Щоб уникнути повторних витрат у майбутньому, рекомендуємо очистити створені ресурси:

На консолі Amazon Translate виберіть створені вами паралельні дані та виберіть видаляти. Крім того, ви можете використовувати DeleteParalleData API або Інтерфейс командного рядка AWS (AWS CLI) delete-parallel-data команда для видалення паралельних даних.
Видаліть сегмент S3 використовується для розміщення вихідних і довідкових документів, перекладених документів і паралельних вхідних файлів даних.
Видаліть роль і політику IAM. Інструкції див Видалення ролей або профілів екземплярів та Видалення політик IAM.

Висновок

За допомогою цього рішення ми прагнемо зменшити навантаження на перекладачів на 80%, зберігаючи при цьому якість перекладу та підтримку кількох мов. Ви можете використовувати це рішення для покращення якості та ефективності перекладу. Ми працюємо над подальшим покращенням архітектури рішення та якості перекладу для інших мов.

Ваш відгук завжди вітається; будь ласка, залишайте свої думки та запитання в розділі коментарів.

Про авторів

Юньфей Бай є старшим архітектором рішень в AWS. Маючи досвід роботи зі штучним інтелектом/ML, наукою про дані та аналітикою, Yunfei допомагає клієнтам використовувати послуги AWS для досягнення бізнес-результатів. Він розробляє рішення для штучного інтелекту/ML і аналізу даних, які долають складні технічні проблеми та досягають стратегічних цілей. Юньфей має ступінь доктора філософії в галузі електроніки та електротехніки. Крім роботи, Юньфей захоплюється читанням і музикою.

Рейчел Ху є прикладним науковцем в Університеті машинного навчання AWS (MLU). Вона керувала розробкою кількох курсів, зокрема операцій машинного навчання (MLOps) і прискорювача комп’ютерного зору. Рейчел є старшим спікером AWS і виступала на провідних конференціях, включаючи AWS re:Invent, NVIDIA GTC, KDD і MLOps Summit. До того як приєднатися до AWS, Рейчел працювала інженером з машинного навчання, створюючи моделі обробки природної мови. Поза роботою вона захоплюється йогою, алтимат-фрісбі, читанням і подорожами.

Ватсон Шріватсан є головним менеджером із продуктів Amazon Translate, служби обробки природної мови AWS. У вихідні дні ви знайдете його, досліджуючи природу на північному заході Тихого океану.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
EVM Фінанси. Уніфікований інтерфейс для децентралізованих фінансів. Доступ тут.
Quantum Media Group. ІЧ/ПР посилений. Доступ тут.
PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/

Часова мітка: 15 Червня, 2023.

Часова мітка: Серпень 2, 2023

Перевидано Платоном

Покращуйте можливості редагування вмісту за допомогою Contentful і Amazon Bedrock | Веб-сервіси Amazon

Автоматизуйте класифікацію запитів на ІТ-послуги за допомогою спеціального класифікатора Amazon Comprehend

Виведіть свій інтелектуальний пошук на новий рівень за допомогою ієрархічних аспектів Amazon Kendra

Проектування стійких міст в Arup за допомогою геопросторових можливостей Amazon SageMaker | Веб-сервіси Amazon

Виявлення шахрайства в режимі реального часу за допомогою безсерверних служб AWS і сервісів машинного навчання

Легко налаштовуйте свої сповіщення, використовуючи Amazon Lookout for Metrics

Автоматизуйте виявлення шахрайства з іпотечними документами за допомогою моделі ML і бізнес-правил за допомогою Amazon Fraud Detector: Частина 3 | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки