Пориньте в глибоке навчання (D2L.ai) — це підручник із відкритим кодом, який робить глибоке навчання доступним для кожного. Він містить інтерактивні блокноти Jupyter із самодостатнім кодом у PyTorch, JAX, TensorFlow і MXNet, а також реальні приклади, експозиційні фігури та математику. Наразі D2L прийняли понад 400 університетів у всьому світі, таких як Кембриджський університет, Стенфордський університет, Массачусетський технологічний інститут, Університет Карнегі-Меллона та Університет Цінхуа. Ця робота також доступна китайською, японською, корейською, португальською, турецькою та в’єтнамською мовами, планується запуск іспанською та іншими мовами.
Мати онлайн-книгу, яка постійно оновлюється, написана кількома авторами та доступна багатьма мовами, — це складна спроба. У цій публікації ми представляємо рішення, яке використовував D2L.ai для вирішення цієї проблеми за допомогою Функція активного індивідуального перекладу (ACT). of Amazon Translate і створення багатомовного автоматичного конвеєра перекладу.
Ми демонструємо, як використовувати Консоль управління AWS та Загальнодоступний API Amazon Translate для автоматичного пакетного машинного перекладу та аналізу перекладів між двома мовними парами: англійською та китайською, а також англійською та іспанською. Ми також рекомендуємо найкращі методи використання Amazon Translate у цьому автоматичному конвеєрі перекладу, щоб забезпечити якість і ефективність перекладу.
Огляд рішення
Ми створили автоматичні конвеєри перекладу для кількох мов за допомогою функції ACT в Amazon Translate. ACT дозволяє налаштовувати виведення перекладу на льоту, надаючи індивідуальні приклади перекладу у формі паралельні дані. Паралельні дані складаються з набору текстових прикладів мовою оригіналу та бажаних перекладів однією чи кількома цільовими мовами. Під час перекладу ACT автоматично вибирає найбільш відповідні сегменти з паралельних даних і оновлює модель перекладу на льоту на основі цих пар сегментів. Це призводить до перекладів, які краще відповідають стилю та вмісту паралельних даних.
Архітектура містить кілька підконвеєрів; кожен підконвеєр обробляє одну мову перекладу, наприклад з англійської на китайську, з англійської на іспанську тощо. Кілька підконвеєрів перекладу можуть оброблятися паралельно. У кожному підконвеєрі ми спочатку створюємо паралельні дані в Amazon Translate, використовуючи високоякісний набір даних прикладів детального перекладу з перекладених людиною книг D2L. Потім ми генеруємо налаштований вихід машинного перекладу на льоту під час виконання, що забезпечує кращу якість і точність.
У наступних розділах ми демонструємо, як створити кожен конвеєр перекладу за допомогою Amazon Translate з ACT разом із Amazon SageMaker та Служба простого зберігання Amazon (Amazon S3).
Спочатку ми поміщаємо вихідні документи, довідкові документи та навчальний набір паралельних даних у відро S3. Потім ми створюємо блокноти Jupyter у SageMaker для запуску процесу перекладу за допомогою публічних API Amazon Translate.
Передумови
Щоб виконати дії, наведені в цій публікації, переконайтеся, що у вас є обліковий запис AWS із такими параметрами:
- Доступ до Управління ідентифікацією та доступом AWS (IAM) для налаштування ролі та політики
- Доступ до Amazon Translate, SageMaker і Amazon S3
- Відро S3 для зберігання вихідних документів, довідкових документів, паралельного набору даних і результатів перекладу
Створіть роль і політики IAM для Amazon Translate за допомогою ACT
Наша роль IAM повинна містити спеціальну політику довіри для Amazon Translate:
Ця роль також повинна мати політику дозволів, яка надає Amazon Translate доступ для читання до вхідної папки та вкладених папок в Amazon S3, які містять вихідні документи, і доступ для читання/запису до вихідного сегмента S3 і папки, яка містить перекладені документи:
Щоб запустити блокноти Jupyter у SageMaker для завдань перекладу, нам потрібно надати вбудовану політику дозволів для ролі виконання SageMaker. Ця роль передає SageMaker роль служби Amazon Translate, яка дозволяє блокнотам SageMaker мати доступ до вихідних і перекладених документів у призначених сегментах S3:
Підготуйте паралельні навчальні зразки даних
Паралельні дані в ACT потрібно навчити за допомогою вхідного файлу, що складається зі списку пар текстових прикладів, наприклад, пари вихідної мови (англійська) та цільової мови (китайська). Вхідний файл може бути у форматі TMX, CSV або TSV. На наступному знімку екрана показано приклад вхідного файлу CSV. Перший стовпець – це дані вихідної мови (англійською), а другий стовпець – дані цільової мови (китайською). Наступний приклад взято з книги D2L-en та книги D2L-zh.
Виконуйте спеціальне навчання паралельних даних у Amazon Translate
Спочатку ми налаштували відро S3 і папки, як показано на наступному знімку екрана. The source_data
папка містить вихідні документи до перекладу; згенеровані документи після пакетного перекладу поміщаються в вихідну папку. The ParallelData
папка містить файл паралельних вхідних даних, підготовлений на попередньому кроці.
Після завантаження вхідних файлів у source_data
папку, ми можемо використовувати папку CreateParalleData API щоб запустити завдання створення паралельних даних у Amazon Translate:
Щоб оновити існуючі паралельні дані новими навчальними наборами даних, ми можемо використовувати UpdateParalleData API:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Ми можемо перевірити хід навчання на консолі Amazon Translate. Після завершення завдання статус паралельних даних відображається як Active і готовий до використання.
Запустіть асинхронний пакетний переклад з використанням паралельних даних
Пакетний переклад можна здійснити в процесі, коли кілька вихідних документів автоматично перекладаються на документи цільовими мовами. Процес передбачає завантаження вихідних документів у вхідну папку сегмента S3, а потім застосування API StartTextTranslationJob Amazon Translate, щоб розпочати асинхронне завдання перекладу:
Ми вибрали п’ять вихідних документів англійською мовою з книги D2L (D2L-en) для масового перекладу. На консолі Amazon Translate ми можемо відстежувати хід перекладу. Коли статус роботи змінюється на Зроблено, ми можемо знайти перекладені документи китайською мовою (D2L-zh) у вихідній папці сегмента S3.
Оцініть якість перекладу
Щоб продемонструвати ефективність функції ACT в Amazon Translate, ми також застосували традиційний метод перекладу в режимі реального часу Amazon Translate без паралельних даних для обробки тих самих документів і порівняли результат із результатом пакетного перекладу за допомогою ACT. Ми використали оцінку BLEU (BiLingual Evaluation Understudy), щоб порівняти якість перекладу між двома методами. Єдиний спосіб точно виміряти якість результатів машинного перекладу — отримати експертний огляд і оцінити якість. Проте BLEU надає оцінку відносного покращення якості між двома результатами. Оцінка BLEU зазвичай є числом від 0 до 1; він обчислює подібність машинного перекладу до еталонного людського перекладу. Вищий бал означає кращу якість розуміння природної мови (NLU).
Ми протестували набір документів у чотирьох конвеєрах: з англійської на китайську (en на zh), з китайської на англійську (zh на en), з англійської на іспанську (en на es) і з іспанської на англійську (es на en). На наступному малюнку показано, що переклад за допомогою ACT дав вищий середній бал BLEU у всіх конвеєрах перекладу.
Ми також помітили, що чим більш детальними є пари паралельних даних, тим краща продуктивність перекладу. Наприклад, ми використовуємо наступний паралельний файл введення даних з парами абзаців, який містить 10 записів.
Для того самого вмісту ми використовуємо наступний паралельний файл введення даних із парами речень і 16 записами.
Ми використали обидва файли паралельних вхідних даних для створення двох паралельних об’єктів даних у Amazon Translate, а потім створили два завдання пакетного перекладу з тим самим вихідним документом. На наступному малюнку порівнюються вихідні переклади. Це показує, що вихід із використанням паралельних даних із парами речень перевершує вихід із використанням паралельних даних із парами абзаців як для перекладу з англійської на китайську, так і для перекладу з китайської на англійську.
Якщо вам цікаво дізнатися більше про ці порівняльні аналізи, зверніться до Автоматичний машинний переклад і синхронізація для «Занурення в глибоке навчання».
Прибирати
Щоб уникнути повторних витрат у майбутньому, рекомендуємо очистити створені ресурси:
- На консолі Amazon Translate виберіть створені вами паралельні дані та виберіть видаляти. Крім того, ви можете використовувати DeleteParalleData API або Інтерфейс командного рядка AWS (AWS CLI) delete-parallel-data команда для видалення паралельних даних.
- Видаліть сегмент S3 використовується для розміщення вихідних і довідкових документів, перекладених документів і паралельних вхідних файлів даних.
- Видаліть роль і політику IAM. Інструкції див Видалення ролей або профілів екземплярів та Видалення політик IAM.
Висновок
За допомогою цього рішення ми прагнемо зменшити навантаження на перекладачів на 80%, зберігаючи при цьому якість перекладу та підтримку кількох мов. Ви можете використовувати це рішення для покращення якості та ефективності перекладу. Ми працюємо над подальшим покращенням архітектури рішення та якості перекладу для інших мов.
Ваш відгук завжди вітається; будь ласка, залишайте свої думки та запитання в розділі коментарів.
Про авторів
Юньфей Бай є старшим архітектором рішень в AWS. Маючи досвід роботи зі штучним інтелектом/ML, наукою про дані та аналітикою, Yunfei допомагає клієнтам використовувати послуги AWS для досягнення бізнес-результатів. Він розробляє рішення для штучного інтелекту/ML і аналізу даних, які долають складні технічні проблеми та досягають стратегічних цілей. Юньфей має ступінь доктора філософії в галузі електроніки та електротехніки. Крім роботи, Юньфей захоплюється читанням і музикою.
Рейчел Ху є прикладним науковцем в Університеті машинного навчання AWS (MLU). Вона керувала розробкою кількох курсів, зокрема операцій машинного навчання (MLOps) і прискорювача комп’ютерного зору. Рейчел є старшим спікером AWS і виступала на провідних конференціях, включаючи AWS re:Invent, NVIDIA GTC, KDD і MLOps Summit. До того як приєднатися до AWS, Рейчел працювала інженером з машинного навчання, створюючи моделі обробки природної мови. Поза роботою вона захоплюється йогою, алтимат-фрісбі, читанням і подорожами.
Ватсон Шріватсан є головним менеджером із продуктів Amazon Translate, служби обробки природної мови AWS. У вихідні дні ви знайдете його, досліджуючи природу на північному заході Тихого океану.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- EVM Фінанси. Уніфікований інтерфейс для децентралізованих фінансів. Доступ тут.
- Quantum Media Group. ІЧ/ПР посилений. Доступ тут.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- : має
- :є
- :де
- $UP
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- МЕНЮ
- прискорювач
- доступ
- доступною
- рахунки
- точність
- точно
- Досягає
- Діяти
- дію
- активний
- адреса
- прийняти
- прийнята
- після
- AI
- AI / ML
- мета
- ВСІ
- дозволяти
- дозволяє
- по
- Також
- завжди
- Amazon
- Amazon Translate
- Amazon Web Services
- an
- Аналіз
- аналітика
- аналізувати
- та
- Інтерфейси
- прикладної
- Застосування
- архітектура
- ЕСТЬ
- навколо
- AS
- At
- authors
- автоматичний
- автоматичний
- автоматично
- доступний
- середній
- уникнути
- AWS
- AWS Машинне навчання
- AWS re:Invent
- фон
- заснований
- BE
- було
- перед тим
- еталонний тест
- КРАЩЕ
- передового досвіду
- Краще
- між
- книга
- книги
- обидва
- будувати
- Створюємо
- побудований
- бізнес
- by
- обчислює
- Кембридж
- CAN
- Карнегі Меллон
- виклик
- проблеми
- складні
- Зміни
- перевірка
- китайський
- Вибирати
- код
- збір
- Колонка
- COM
- коментарі
- порівняний
- повний
- комплекс
- комп'ютер
- Комп'ютерне бачення
- проводиться
- конференції
- Складається
- складається
- Консоль
- будувати
- містити
- містить
- зміст
- постійно
- витрати
- Курс
- створений
- створення
- виготовлений на замовлення
- Клієнти
- налаштувати
- налаштувати
- дані
- Analytics даних
- наука про дані
- набори даних
- Дата
- глибокий
- глибоке навчання
- певний
- доставляти
- демонструвати
- description
- призначені
- конструкцій
- бажаний
- документ
- документація
- управляти
- під час
- кожен
- ефект
- ефективність
- ефективність
- Electronic
- endeavor
- інженер
- Машинобудування
- англійська
- забезпечувати
- юридичні особи
- оцінити
- оцінка
- все
- приклад
- Приклади
- виконання
- існуючий
- експерт
- Дослідження
- далеко
- особливість
- риси
- зворотний зв'язок
- кілька
- Рисунок
- цифри
- філе
- Файли
- знайти
- Перший
- стежити
- після
- для
- форма
- формат
- чотири
- від
- далі
- майбутнє
- породжувати
- генерується
- клас
- надавати
- гранти
- Ручки
- Мати
- he
- допомагає
- високоякісний
- вище
- його
- тримає
- господар
- Як
- How To
- Однак
- HTML
- HTTP
- HTTPS
- людина
- Особистість
- удосконалювати
- поліпшення
- поліпшення
- in
- У тому числі
- ініціювати
- вхід
- екземпляр
- Інститут
- інструкції
- інтерактивний
- зацікавлений
- в
- IT
- японський
- робота
- Джобс
- приєднання
- JPG
- збережений
- корейський
- мова
- мови
- запуск
- провідний
- вивчення
- Залишати
- Лінія
- список
- машина
- навчання за допомогою машини
- made
- Підтримка
- зробити
- РОБОТИ
- управління
- менеджер
- Массачусетс
- Массачусетський технологічний інститут
- матч
- математики
- вимір
- Mellon
- метод
- методика
- ML
- MLOps
- модель
- Моделі
- монітор
- більше
- найбільш
- множинний
- музика
- повинен
- ім'я
- Природний
- Обробка природних мов
- Необхідність
- потреби
- Нові
- номер
- Nvidia
- цілей
- of
- on
- ONE
- онлайн
- тільки
- з відкритим вихідним кодом
- операції
- or
- Інше
- на відкритому повітрі
- вихід
- поза
- Подолати
- Тихий океан
- пара
- пар
- Паралельні
- проходить
- продуктивність
- дозвіл
- Дозволи
- трубопровід
- плани
- plato
- Інформація про дані Платона
- PlatoData
- будь ласка
- Політика
- політика
- португальська
- пошта
- практики
- підготовлений
- представити
- попередній
- Головний
- процес
- Оброблено
- обробка
- Вироблений
- Product
- менеджер по продукції
- прогрес
- забезпечує
- забезпечення
- громадськість
- put
- піторх
- якість
- питань
- RE
- Читати
- читання
- готовий
- Реальний світ
- реального часу
- рекомендувати
- повторювані
- зменшити
- відносний
- доречний
- представляє
- ресурс
- ресурси
- відповідь
- результати
- огляд
- Роль
- ролі
- прогін
- мудрець
- то ж
- наука
- вчений
- рахунок
- другий
- розділ
- розділам
- сегмент
- сегменти
- обраний
- старший
- обслуговування
- Послуги
- комплект
- вона
- показаний
- Шоу
- простий
- So
- так далеко
- рішення
- Рішення
- Source
- іспанська
- Гучномовець
- говорять
- Станфорд
- Стенфордський університет
- Заява
- Статус
- Крок
- заходи
- зберігання
- зберігати
- Стратегічний
- стиль
- такі
- Саміт
- Підтримуючий
- синхронізація
- з урахуванням
- Мета
- технічний
- Технологія
- тензорний потік
- перевірений
- підручник
- ніж
- Що
- Команда
- Майбутнє
- Джерело
- світ
- потім
- Ці
- це
- ті
- час
- до
- топ
- традиційний
- навчений
- Навчання
- переводити
- Переклад
- Подорож
- Довіряйте
- Цінхуа
- турецька
- два
- типово
- кінцевий
- розуміння
- університети
- університет
- Кембриджський університет
- Оновити
- оновлений
- Updates
- Завантаження
- використання
- використовуваний
- використання
- версія
- в'єтнамці
- бачення
- Уотсон
- шлях..
- we
- Web
- веб-сервіси
- ласкаво просимо
- ДОБРЕ
- коли
- який
- в той час як
- волі
- з
- без
- Work
- працював
- робочий
- світ
- письмовий
- йога
- Ти
- вашу
- зефірнет