Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Створіть багатомовний робочий процес перекладу документів із налаштуваннями для окремих доменів і мов

У цифровому світі надання інформації місцевою мовою не є чимось новим, але це може бути виснажливим і дорогим завданням. Удосконалення машинного навчання (ML) і обробки природної мови (NLP) зробили це завдання набагато простішим і дешевшим.

Ми спостерігаємо збільшення впровадження ML для багатомовних даних і обробки документів. Корпоративні та державні клієнти переносять свої робочі навантаження з ручного перекладу, щоб скористатися перевагами автоматизованих послуг перекладу ML. Amazon Translate — це a нейронний машинний переклад послуга, яка забезпечує швидкий, високоякісний і доступний мовний переклад між кількома тисячами мовних пар, які можна використовувати для завдань синхронного (у реальному часі) або асинхронного перекладу. Щоб отримати повний список доступних пар перекладу, див Підтримувані мови та коди мов.

Клієнтам, які переносять і модернізують свої робочі навантаження з перекладу, потрібна можливість налаштувати переклади для сфери їхнього бізнесу. Робоче навантаження з перекладу також може потребувати здатності адаптуватися до регіональних мовних діалектів або використання. Наприклад, іспанський переклад «люди похилого віку» є anciano(a), але в Пуерто-Ріко перевага віддається слову envejeciente.

У цій публікації ми демонструємо, як включити функцію Active Custom Translation (ACT) Amazon Translate. Ми пропонуємо рішення для створення багатомовного робочого процесу перекладу документів із налаштуваннями для домену та мови, які ви можете переглядати та доповнювати за потреби, щоб постійно покращувати результати та радувати кінцевих користувачів.

Огляд рішення

ACT створює вихідні дані, перекладені на замовлення, без необхідності створювати та підтримувати власну модель перекладу. Використовуючи ACT, Amazon Translate використовуватиме ваші бажані приклади перекладу як паралельні дані для налаштування результату перекладу, усуваючи час і кошти, необхідні для створення та навчання нової моделі машинного навчання.

Рішення, яке розглядається в цій публікації, пояснює, як створити робочий процес із керуванням людиною в циклі за допомогою Розширений ШІ в Амазонці (Amazon A2I), щоб постійно вдосконалювати персоналізований переклад. Amazon A2I надає простий спосіб інтегрувати людський нагляд у ваші робочі процеси ML, не потребуючи досвіду ML. Amazon A2I дозволяє легко інтегрувати людське судження та штучний інтелект у будь-яку програму ML, незалежно від того, працює вона на AWS чи на іншій платформі.

Для отримання додаткової інформації див Створення робочих процесів перегляду людьми за допомогою Amazon Translate та Amazon Augmented AI пост

На наступній діаграмі показано потік команд і потік даних рішення. Потік команд показує логічну послідовність подій у робочому процесі. Потік даних вказує на те, як дані створюються або використовуються різними компонентами рішення.

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

На наступній діаграмі послідовності показано два окремі процеси в рішенні: робочий процес перекладу (A) і процес оновлення паралельних даних (B).

Робочий процес перекладу ініціюється an Amazon CloudWatch запланована подія, яка запускає Translation Job Invoker AWS Lambda функція. Ця функція створює завдання асинхронного перекладу в Amazon Translate, передаючи документ для перекладу та розташування паралельних даних для налаштування перекладу. Завдання перекладу зчитує паралельні дані, виконує переклад і записує перекладений результат назад до Amazon S3 відро. На момент написання цієї статті тільки асинхронні завдання перекладу можуть використовувати паралельні дані.

Після завершення завдання перекладу генерується подія, яка запускає лямбда-функцію обробки завершення завдання перекладу. Ця функція створює людський цикл робочого процесу — головний компонент частини робочого процесу Amazon A2I.

Рецензенти оцінюють переклад і приймають або змінюють переклад. Будь-які виправлення використовуються для оновлення перекладеного документа, а також додаються до словника налаштування. Після завершення перегляду генерується інша подія, яка запускає функцію обробки завершення робочого процесу. Ця функція записує останній перекладений документ назад до Amazon S3. Дані налаштування використовуються для оновлення Amazon DynamoDB таблиця з парами вихідного та перекладеного тексту.

Щоб замкнути цикл, ми повинні включити ці дані налаштування, що зберігаються в DynamoDB, назад у паралельні дані, що зберігаються в Amazon S3. Щоб досягти цього, ми використовуємо заплановану подію CloudWatch для запуску функції Parallel Data Refresher, яка зчитує дані з таблиці DynamoDB, переформатує їх як паралельні дані та оновлює сегмент S3, зберігаючи паралельні дані.

Розгорніть рішення за допомогою AWS CloudFormation

Запустіть наданий AWS CloudFormation шаблон для розгортання рішення у вашому обліковому записі. Цей стек працює лише в регіоні us-east-1. Якщо ви хочете розгорнути це рішення в інших регіонах, зверніться до наступного GitHub репо.

  1. Вибирати Запустити стек:
    Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.
  2. Дотримуйтесь інструкцій, щоб заповнити необхідні параметри. Якщо ви запускаєте цей стек вперше, Електронна пошта SNS є єдиним обов'язковим параметром.
  3. на Розгляд сторінка, в Можливості розділі, установіть прапорець і виберіть Створити стек.

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Стек створює такі ключові компоненти:

  • Дані налаштування – Таблиця DynamoDB (translate_parallel_data), щоб зберегти дані налаштування. Ви переміщуєте наявні дані налаштування до цієї таблиці. Ця таблиця використовується для постійного додавання та оновлення налаштувань.
  • Паралельне відновлення даних – Функція Lambda для перетворення даних налаштування в таблиці DynamoDB у паралельний формат даних — CSV, TSV або TMX — і збереження їх в Amazon S3. Він створює та оновлює паралельні дані за допомогою нового файлу паралельних даних в Amazon S3.
  • Invoker завдань перекладу – Функція Lambda для запуску пакетного завдання Amazon Translate із паралельними даними.
  • Обробник завершення завдання перекладу – Ця функція Lambda запускається, коли пакетне завдання Amazon Translate завершено. Ця функція створює один людський цикл для кожного документа (ми вдосконалимо це в майбутньому, щоб створити людський цикл лише для вибраного відсотка оброблених документів). Він використовує оригінальні та перекладені документи для створення людського циклу.
  • Спеціальний шаблон Amazon A2I – Цей шаблон використовується для відтворення пари перекладу для перевірки людиною. Шаблон має додавати варіант для кожного сегмента перекладу. Користувачі можуть вибрати цей параметр, щоб додати виправлення до даних налаштування. Нові дані налаштування використовуються в наступному пакетному перекладі.
  • Обробник завершення робочого процесу – Ця лямбда-функція запускається, коли робочий процес людини завершено. Функція оновлює перекладений документ виправленнями та перевіряє наявність паралельних оновлень даних. Нові паралельні дані додаються до таблиці DynamoDB.
  • Приватна команда Amazon A2I – Створюється приватна команда Amazon A2I із працівником, який використовує надану електронну адресу. Початкові облікові дані надсилаються електронною поштою після успішного створення приватної групи. Ви використовуєте цю електронну адресу та облікові дані для входу на робочий портал Amazon A2I.

Перевірте розчин

Команда sample_text.txt файл був би створений під префіксом введення сегмента S3, створеного стеком. Ми використовуємо цей файл для нашого тестування. Він містить наступний вміст:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

Щоб перевірити рішення, виконайте такі дії:

  1. Викличте функцію Translation Job Invoker вручну або зачекайте, поки її запустить CloudWatch на основі вказаного вами розкладу cron.
    Ця функція запускає пакетне завдання Amazon Translate. Ви можете спостерігати за ходом роботи на консолі Amazon Translate.
    Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.Для виконання цього пакетного завдання потрібно приблизно 30 хвилин. Коли це буде завершено, TextTranslationJob подія зміни стану запускає функцію обробки завершення завдання перекладу. Ця функція створює один людський цикл для кожного перекладеного документа.
  2. перейдіть до Робоча сила Amazon A2I стр.
  3. Виберіть приватний Вкладка.
    Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.
  4. Увійдіть на робочий портал Amazon A2I, вибравши посилання для Позначення URL-адреси входу на портал.
  5. Виберіть завдання Human review task у списку вакансій.
  6. Вибирати Початок роботи.
    Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.
    Ви можете побачити наступну сторінку.
    Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.
  7. Дотримуйтеся вказівок, щоб внести виправлення, пов’язані з доменом і мовою.
    На попередньому знімку екрана фразу «Використання інформації про стан здоров’я в будь-якому груповому полісі медичного страхування заборонено законом» було перекладено на «La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo». Хоча переклад точний, фрази були змінені.
  8. Давайте змінимо це на «El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley», щоб зробити це більш прямим перекладом, що відображає оригінальну фразеологію.
  9. Select додавати щоб додати це до словника.
  10. Коли закінчите, вибирайте Надіслати.
    Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Це запускає функцію обробки завершення робочого процесу, і дані налаштування оновлюються в таблиці DynamoDB. Функція також зберігає виправлений переклад під префіксом після редагування.

Ви можете спостерігати, як додаються налаштування translate_parallel_data таблицю на консолі DynamoDB.

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Потік команд

Функція Parallel Data Refresher запускається щогодини запланованою подією CloudWatch. Ця функція перевіряє наявність нових оновлень у translate_parallel_data створює новий файл паралельних даних TMX в Amazon S3 під parallel_data префікс і оновлює компонент паралельних даних Amazon Translate. Ви можете запустити цю функцію вручну, якщо не хочете чекати запуску запланованої події.

Ви можете спостерігати за оновленням паралельних даних на консолі Amazon Translate.

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Після завершення має бути статус завдання Active і значення для Оновлені записи має відображати кількість доданих налаштувань (у цьому випадку 1).

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Тепер ми можемо знову запустити завдання перекладу з оновленими даними. Знову запустіть функцію Translation Job Invoker, щоб спостерігати, як налаштування додаються до перекладу під час другої ітерації. Amazon Translate тепер використовує надані паралельні дані для налаштування перекладу.

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Ви можете спостерігати за зміною результату перекладу на порталі маркування. Замість перекладу за замовчуванням ми бачимо застосування індивідуального перекладу.

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.

Цей робочий процес допомагає створити дієвий цикл для постійного покращення результатів перекладу за допомогою функцій налаштування Amazon A2I та Amazon Translate.

Коштувати

З Amazon Translate і Amazon A2I ви платите по ходу роботи залежно від кількості оброблених вами текстових символів і за кожен об’єкт, перевірений людьми. Для цього прикладу ми використовуємо режим DynamoDB на вимогу. DynamoDB стягує з вас плату за читання та запис у ваших таблицях. Зверніться до сторінок із цінами Amazon Translate, Amazon A2I та Amazon DynamoDB на фактичні витрати.

Прибирати

Коли ви закінчите експериментувати з цим рішенням, очистіть свої ресурси за допомогою консолі AWS CloudFormation, щоб видалити всі ресурси, розгорнуті в цьому прикладі. Це допоможе уникнути постійних витрат у вашому обліковому записі.

Висновок

Ви можете використовувати рішення, представлене в цій публікації, щоб побудувати багатомовний робочий процес перекладу, який використовує та розширює доменні налаштування поступово, щоб постійно покращувати результати перекладу. Ми запропонували простий механізм для інтеграції ваших наявних ресурсів налаштування з керованими службами штучного інтелекту, такими як Amazon Translate і Amazon A2I, щоб створити надійну службу перекладу для вашої програми. Amazon Translate може допомогти вам масштабувати це рішення для підтримки понад 5,550 пар перекладів із коробки. Amazon A2I може допомогти вам легко інтегруватися з вашим внутрішнім лінгвістичним експертом або скористатися перевагами зовнішньої робочої сили для масштабування рішення.

Для отримання додаткової інформації про Amazon Translate відвідайте веб-сайт Ресурси Amazon Translate щоб знайти відеоресурси та публікації в блогах, а також посилатися на них Поширені запитання щодо AWS Translate. Будь ласка, поділіться своїми думками з нами в розділі коментарів або в розділі проблем проекту Сховище Github.


Про авторів

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.Сатья Балакрішнан є старшим архітектором доставки клієнтам у групі професійних послуг AWS, яка спеціалізується на рішеннях Data/ML. Він працює з федеральними фінансовими клієнтами США. Він захоплений прагматичними рішеннями для вирішення бізнес-проблем клієнтів. У вільний час любить дивитися фільми та гуляти з родиною.

Створіть багатомовний робочий процес перекладу документів за допомогою налаштування PlatoBlockchain Data Intelligence для окремих доменів і мов. Вертикальний пошук. Ai.Пол У. Джойрман є старшим архітектором обслуговування клієнтів у відділі професійних послуг в AWS, спеціалізується на міграції програм і працює з федеральними фінансовими клієнтами США. Пол любить створювати технологічні рішення, подорожувати з родиною та гуляти в національний парк Шенандоа, якщо похід закінчується біля місцевої крафтової пивоварні.

Часова мітка:

Більше від AWS Машинне навчання