Персоналізуйте результати машинного перекладу за допомогою нечіткого зіставлення з Amazon Translate

Перевидано Платоном

читають: 0

Народна мова людини є частиною характеристик, які роблять її унікальною. Часто існує незліченна кількість різних способів висловити одну конкретну ідею. Коли фірма спілкується зі своїми клієнтами, дуже важливо, щоб повідомлення було доставлено у спосіб, який найкраще представляє інформацію, яку вони намагаються передати. Це стає ще важливішим, коли йдеться про професійний мовний переклад. Клієнти перекладацьких систем і послуг очікують точних і високонадійних результатів. Щоб досягти цього, вони часто повторно використовують попередні результати перекладу, які називаються пам’яттю перекладів (TM) — і порівнюють їх з новим введеним текстом. У комп’ютерному перекладі ця методика відома як нечітка відповідність. Основною функцією нечіткої відповідності є допомога перекладачеві, прискорюючи процес перекладу. Коли в базі даних ТМ неможливо знайти точну відповідність для тексту, що перекладається, системи керування перекладами (TMS) часто мають можливість шукати збіг, який є менш точним. Потенційні відповідності надаються перекладачеві як додаткова інформація для остаточного перекладу. Перекладачі, які покращують свій робочий процес за допомогою можливостей машинного перекладу, таких як Amazon Translate часто очікують, що дані нечіткої відповідності будуть використані як частина рішення для автоматизованого перекладу.

У цій публікації ви дізнаєтеся, як налаштувати вихід із Amazon Translate відповідно до показників якості нечіткої відповідності пам’яті перекладів.

Відповідність якості перекладу

Формат обміну файлами локалізації XML (XLIFF) стандарт часто використовується як формат обміну даними між TMS та Amazon Translate. Файли XLIFF, створені TMS, містять вихідні та цільові текстові дані, а також показники якості відповідності на основі доступної TM. Ці бали — зазвичай виражаються у відсотках — вказують, наскільки близька пам’ять перекладів до тексту, що перекладається.

Деякі клієнти з дуже жорсткими вимогами хочуть, щоб машинний переклад використовувався лише тоді, коли показники якості відповідності нижчі за певний поріг. За цим порогом вони очікують, що їхня власна пам'ять перекладів матиме пріоритет. Перекладачам часто доводиться застосовувати ці параметри вручну або в TMS, або змінюючи текстові дані. Цей потік проілюстрований на наступній схемі. Система машинного перекладу обробляє дані перекладу — текст і оцінки нечіткої відповідності — які потім переглядаються та вручну редагуються перекладачами на основі бажаних порогових значень якості. Застосування порогових значень як частини етапу машинного перекладу дозволяє видалити ці кроки вручну, що підвищує ефективність та оптимізує витрати.

Малюнок 1: Потік огляду машинного перекладу

Рішення, представлене в цій публікації, дозволяє вам застосовувати правила на основі порогових значень якості відповідності, щоб визначити, чи слід введений текст автоматично перекладати Amazon Translate чи ні. Якщо текст не перекладено машинним способом, то отриманий текст залишається на розсуд перекладачів, які переглядають кінцевий результат.

Архітектура рішення

Архітектура рішення, показана на малюнку 2, використовує такі служби:

Служба простого зберігання Amazon – Відра Amazon S3 містять такий вміст:
- Файли конфігурації порогу нечіткої відповідності
- Вихідний текст для перекладу
- Розташування вхідних і вихідних даних Amazon Translate
Менеджер систем AWS - Ми використовуємо Зберігання параметрів параметри для зберігання значень конфігурації порогових значень якості відповідності
AWS Lambda – Ми використовуємо дві лямбда-функції:
- Одна функція попередньо обробляє файли конфігурації порогових значень відповідності якості та зберігає дані в сховищі параметрів
- Одна функція автоматично створює завдання асинхронного перекладу
Служба простої черги Amazon – Черга Amazon SQS запускає потік перекладу в результаті надходження нових файлів у вихідний сегмент

Малюнок 2: Архітектура рішення

Спочатку ви встановлюєте пороги якості для ваших завдань перекладу, редагуючи файл конфігурації та завантажуючи його в сегмент конфігурації порогових значень нечіткої відповідності S3. Нижче наведено зразок конфігурації у форматі CSV. Ми вибрали CSV для простоти, хоча ви можете використовувати будь-який формат. Кожен рядок представляє поріг, який слід застосувати до певного завдання перекладу або як значення за замовчуванням до будь-якого завдання.

default, 75
SourceMT-Test, 80

Специфікації файлу конфігурації такі:

Стовпець 1 має бути заповнений іменем файлу XLIFF (без розширення), наданого завданням Amazon Translate як вхідні дані.
Стовпець 2 має бути заповнений порогом відсотка відповідності якості. Для будь-якої оцінки нижче цього значення використовується машинний переклад.
Для всіх файлів XLIFF, чия назва не відповідає жодному імені, зазначеному у файлі конфігурації, використовується порогове значення за замовчуванням — рядок із ключовим словом default вказано в колонці 1.

Автоматично згенерований параметр у сховищі параметрів диспетчера систем

Малюнок 3: Автоматично згенерований параметр у сховищі параметрів Systems Manager

Коли завантажується новий файл, Amazon S3 запускає функцію Лямбда, яка відповідає за обробку параметрів. Ця функція зчитує та зберігає порогові параметри в Parameter Store для подальшого використання. Використання Parameter Store дозволяє уникнути виконання зайвих запитів Amazon S3 GET щоразу, коли ініціюється нове завдання перекладу. Зразок файлу конфігурації створює теги параметрів, показані на наступному знімку екрана.

Лямбда-функція ініціалізації завдання використовує ці параметри для попередньої обробки даних перед викликом Amazon Translate. Ми використовуємо вхідний файл XLIFF для перекладу з англійської на іспанську, як показано в наступному коді. Він містить початковий текст для перекладу, розбитий на те, що називається сегменти, представлений у вихідних тегах.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Вихідний текст попередньо узгоджено з пам’яттю перекладів. Дані містять потенційні альтернативи перекладу, представлені як <alt-trans> теги — поряд з атрибутом якості відповідності, вираженим у відсотках. Правило бізнесу таке:

Сегменти, отримані з альтернативними перекладами та якістю відповідності нижче порогового значення, не зачіпаються або порожні. Це сигналізує Amazon Translate, що їх потрібно перекласти.
Сегменти, отримані з альтернативними перекладами з якістю відповідності вище порогового значення, попередньо заповнюються запропонованим цільовим текстом. Amazon Translate пропускає ці сегменти.

Припустимо, що поріг відповідності якості, налаштований для цього завдання, становить 80%. Перший сегмент із якістю відповідності 99% не перекладається машинним способом, тоді як другий сегмент є, оскільки його якість відповідності нижча за визначений поріг. У цій конфігурації Amazon Translate видає такий результат:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

У другому сегменті Amazon Translate замінює початково запропонований цільовий текст (Selección) з більш якісним перекладом: Visita de selección.

Одним можливим розширенням цього варіанту використання може бути повторне використання перекладеного результату та створення нашої власної пам'яті перекладів. Amazon Translate підтримує налаштування машинного перекладу за допомогою пам’яті перекладів завдяки паралельні дані особливість. Текстові сегменти, які раніше були машинно перекладені через їх початкову низьку оцінку якості, потім можна було б повторно використовувати в нових перекладацьких проектах.

У наступних розділах ми проведемо вас через процес розгортання та тестування цього рішення. Ти використовуєш AWS CloudFormation сценарії та зразки даних для запуску завдання асинхронного перекладу, персоналізованого з настроюваним порогом відповідності якості.

Передумови

Для цього покрокового керівництва у вас повинен бути файл Обліковий запис AWS. Якщо у вас ще немає облікового запису, ви можете створити та активувати його.

Запустіть стек AWS CloudFormation

Вибирати Запустити стек:
для Назва стека, введіть ім'я.
для ConfigBucketName, введіть сегмент S3, що містить файли конфігурації порогових значень.
для ParameterStoreRoot, введіть кореневий шлях параметрів, створених лямбда-функцією, що обробляє параметри.
для QueueName, увійдіть до черги SQS, яку ви створюєте, щоб опублікувати сповіщення про нові файли з вихідного сегмента в лямбда-функцію ініціалізації завдання. Це функція, яка зчитує файл конфігурації.
для SourceBucketName, введіть сегмент S3, що містить файли XLIFF, які потрібно перекласти. Якщо ви віддаєте перевагу використовувати вже існуючий сегмент, вам потрібно змінити значення параметра CreateSourceBucket на No.
для WorkingBucketName, введіть сегмент S3, який Amazon Translate використовує для введення та виведення даних.
Вибирати МАЙБУТНІ.

Малюнок 4: Деталі стека CloudFormation
За бажанням на Стек Опції Додайте назви ключів і значення для тегів, які ви можете призначити ресурсам, які будуть створені.
Вибирати МАЙБУТНІ.
на Розгляд сторінка, виберіть Я визнаю, що цей шаблон може змусити AWS CloudFormation створювати ресурси IAM.
Перегляньте інші налаштування, а потім виберіть Створити стек.

AWS CloudFormation займає кілька хвилин, щоб створити ресурси від вашого імені. За прогресом можна спостерігати на Події вкладку на консолі AWS CloudFormation. Коли стек буде створено, ви можете побачити a CREATE_COMPLETE повідомлення в Статус колонка на огляд Вкладка.

Перевірте розчин

Давайте розглянемо простий приклад.

Завантажте наступне зразкові дані.
Розпакуйте вміст.

Має бути два файли: файл .xlf у форматі XLIFF і файл конфігурації порогового значення з розширенням .cfg. Нижче наведено уривок файлу XLIFF.

Малюнок 5: зразок витягу файлу з англійської на французьку

На консолі Amazon S3 завантажте файл конфігурації порогового значення якості в сегмент конфігурації, який ви вказали раніше.

Значення, встановлене для test_En_to_Fr становить 75%. Ви повинні мати можливість побачити параметри на консолі Systems Manager у розділі Parameter Store.

Все ще на консолі Amazon S3 завантажте файл .xlf у сегмент S3, який ви налаштували як джерело. Переконайтеся, що файл знаходиться в папці з іменем translate (наприклад, <my_bucket>/translate/test_En_to_Fr.xlf).

Це розпочинає процес перекладу.

Відкрийте консоль Amazon Translate.

Нове завдання має з’явитися зі статусом «Виконується».

Малюнок 6: Виконуються завдання на переклад на консолі Amazon Translate

Після завершення роботи клацніть посилання на завдання та ознайомтеся з результатом. Усі сегменти мали бути перекладені.

Усі сегменти мали бути перекладені. У перекладеному файлі XLIFF знайдіть сегменти з додатковими названими атрибутами lscustom:match-quality, як показано на наступному знімку екрана. Ці користувацькі атрибути визначають сегменти, де збережено запропонований переклад на основі оцінки.

Малюнок 7: Спеціальні атрибути, що визначають сегменти, де збережено запропонований переклад на основі оцінки

Вони були отримані з пам’яті перекладів відповідно до порога якості. Усі інші сегменти були машинним перекладом.

Тепер ви розгорнули та випробували автоматизований помічник завдання асинхронного перекладу, який забезпечує відповідність настроюваної пам’яті перекладів порогових значень якості. Чудова робота!

Прибирати

Якщо ви розгорнули рішення у своєму обліковому записі, не забудьте видалити стек CloudFormation, щоб уникнути будь-яких несподіваних витрат. Вам потрібно попередньо спорожнити відра S3 вручну.

Висновок

У цій публікації ви дізналися, як налаштувати свої завдання перекладу Amazon Translate на основі стандартних показників якості нечіткої відповідності XLIFF. За допомогою цього рішення ви можете значно зменшити ручну працю, пов’язану з переглядом машинно перекладеного тексту, а також оптимізувати використання Amazon Translate. Ви також можете розширити рішення за допомогою автоматизації прийому даних та можливостей оркестрування робочого процесу, як описано в Прискорте роботу перекладачів за допомогою повністю автоматизованої системи перекладу помічника.

Про авторів

Нарцисс Зекпа є архітектором рішень із Бостона. Він допомагає клієнтам на північному сході США прискорити впровадження хмари AWS, надаючи архітектурні рекомендації, інноваційні та масштабовані рішення. Коли Нарцисс не будує, він любить проводити час із сім’єю, подорожувати, готувати та грати в баскетбол.

Дмитро Рестайно є архітектором рішень у AWS, який базується в Брукліні, Нью-Йорк. Він працює в основному з компаніями охорони здоров’я та фінансових послуг на північному сході, допомагаючи розробляти інноваційні та креативні рішення для найкращого обслуговування своїх клієнтів. Маючи досвід розробки програмного забезпечення, він схвильований новими можливостями, які безсерверна технологія може принести світу. Поза роботою він любить ходити в похід і досліджувати кулінарну сцену Нью-Йорка.

Часова мітка: Травень 16, 2022

Часова мітка: Травень 2, 2022

Перевидано Платоном

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань

Запускайте блокноти як пакетні завдання в Amazon SageMaker Studio Lab

Amazon SageMaker із TensorBoard: огляд розміщеного досвіду TensorBoard

Шаблони розміщення моделей у SageMaker: найкращі методи тестування та оновлення моделей у SageMaker

Як Patsnap використовував висновок GPT-2 на Amazon SageMaker із низькою затримкою та вартістю | Веб-сервіси Amazon

Як InpharmD використовує Amazon Kendra та Amazon Lex для забезпечення догляду за пацієнтами на основі фактів

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки