Народна мова людини є частиною характеристик, які роблять її унікальною. Часто існує незліченна кількість різних способів висловити одну конкретну ідею. Коли фірма спілкується зі своїми клієнтами, дуже важливо, щоб повідомлення було доставлено у спосіб, який найкраще представляє інформацію, яку вони намагаються передати. Це стає ще важливішим, коли йдеться про професійний мовний переклад. Клієнти перекладацьких систем і послуг очікують точних і високонадійних результатів. Щоб досягти цього, вони часто повторно використовують попередні результати перекладу, які називаються пам’яттю перекладів (TM) — і порівнюють їх з новим введеним текстом. У комп’ютерному перекладі ця методика відома як нечітка відповідність. Основною функцією нечіткої відповідності є допомога перекладачеві, прискорюючи процес перекладу. Коли в базі даних ТМ неможливо знайти точну відповідність для тексту, що перекладається, системи керування перекладами (TMS) часто мають можливість шукати збіг, який є менш точним. Потенційні відповідності надаються перекладачеві як додаткова інформація для остаточного перекладу. Перекладачі, які покращують свій робочий процес за допомогою можливостей машинного перекладу, таких як Amazon Translate часто очікують, що дані нечіткої відповідності будуть використані як частина рішення для автоматизованого перекладу.
У цій публікації ви дізнаєтеся, як налаштувати вихід із Amazon Translate відповідно до показників якості нечіткої відповідності пам’яті перекладів.
Відповідність якості перекладу
Формат обміну файлами локалізації XML (XLIFF) стандарт часто використовується як формат обміну даними між TMS та Amazon Translate. Файли XLIFF, створені TMS, містять вихідні та цільові текстові дані, а також показники якості відповідності на основі доступної TM. Ці бали — зазвичай виражаються у відсотках — вказують, наскільки близька пам’ять перекладів до тексту, що перекладається.
Деякі клієнти з дуже жорсткими вимогами хочуть, щоб машинний переклад використовувався лише тоді, коли показники якості відповідності нижчі за певний поріг. За цим порогом вони очікують, що їхня власна пам'ять перекладів матиме пріоритет. Перекладачам часто доводиться застосовувати ці параметри вручну або в TMS, або змінюючи текстові дані. Цей потік проілюстрований на наступній схемі. Система машинного перекладу обробляє дані перекладу — текст і оцінки нечіткої відповідності — які потім переглядаються та вручну редагуються перекладачами на основі бажаних порогових значень якості. Застосування порогових значень як частини етапу машинного перекладу дозволяє видалити ці кроки вручну, що підвищує ефективність та оптимізує витрати.
Рішення, представлене в цій публікації, дозволяє вам застосовувати правила на основі порогових значень якості відповідності, щоб визначити, чи слід введений текст автоматично перекладати Amazon Translate чи ні. Якщо текст не перекладено машинним способом, то отриманий текст залишається на розсуд перекладачів, які переглядають кінцевий результат.
Архітектура рішення
Архітектура рішення, показана на малюнку 2, використовує такі служби:
- Служба простого зберігання Amazon – Відра Amazon S3 містять такий вміст:
- Файли конфігурації порогу нечіткої відповідності
- Вихідний текст для перекладу
- Розташування вхідних і вихідних даних Amazon Translate
- Менеджер систем AWS - Ми використовуємо Зберігання параметрів параметри для зберігання значень конфігурації порогових значень якості відповідності
- AWS Lambda – Ми використовуємо дві лямбда-функції:
- Одна функція попередньо обробляє файли конфігурації порогових значень відповідності якості та зберігає дані в сховищі параметрів
- Одна функція автоматично створює завдання асинхронного перекладу
- Служба простої черги Amazon – Черга Amazon SQS запускає потік перекладу в результаті надходження нових файлів у вихідний сегмент
Спочатку ви встановлюєте пороги якості для ваших завдань перекладу, редагуючи файл конфігурації та завантажуючи його в сегмент конфігурації порогових значень нечіткої відповідності S3. Нижче наведено зразок конфігурації у форматі CSV. Ми вибрали CSV для простоти, хоча ви можете використовувати будь-який формат. Кожен рядок представляє поріг, який слід застосувати до певного завдання перекладу або як значення за замовчуванням до будь-якого завдання.
Специфікації файлу конфігурації такі:
- Стовпець 1 має бути заповнений іменем файлу XLIFF (без розширення), наданого завданням Amazon Translate як вхідні дані.
- Стовпець 2 має бути заповнений порогом відсотка відповідності якості. Для будь-якої оцінки нижче цього значення використовується машинний переклад.
- Для всіх файлів XLIFF, чия назва не відповідає жодному імені, зазначеному у файлі конфігурації, використовується порогове значення за замовчуванням — рядок із ключовим словом
default
вказано в колонці 1.
Коли завантажується новий файл, Amazon S3 запускає функцію Лямбда, яка відповідає за обробку параметрів. Ця функція зчитує та зберігає порогові параметри в Parameter Store для подальшого використання. Використання Parameter Store дозволяє уникнути виконання зайвих запитів Amazon S3 GET щоразу, коли ініціюється нове завдання перекладу. Зразок файлу конфігурації створює теги параметрів, показані на наступному знімку екрана.
Лямбда-функція ініціалізації завдання використовує ці параметри для попередньої обробки даних перед викликом Amazon Translate. Ми використовуємо вхідний файл XLIFF для перекладу з англійської на іспанську, як показано в наступному коді. Він містить початковий текст для перекладу, розбитий на те, що називається сегменти, представлений у вихідних тегах.
Вихідний текст попередньо узгоджено з пам’яттю перекладів. Дані містять потенційні альтернативи перекладу, представлені як <alt-trans>
теги — поряд з атрибутом якості відповідності, вираженим у відсотках. Правило бізнесу таке:
- Сегменти, отримані з альтернативними перекладами та якістю відповідності нижче порогового значення, не зачіпаються або порожні. Це сигналізує Amazon Translate, що їх потрібно перекласти.
- Сегменти, отримані з альтернативними перекладами з якістю відповідності вище порогового значення, попередньо заповнюються запропонованим цільовим текстом. Amazon Translate пропускає ці сегменти.
Припустимо, що поріг відповідності якості, налаштований для цього завдання, становить 80%. Перший сегмент із якістю відповідності 99% не перекладається машинним способом, тоді як другий сегмент є, оскільки його якість відповідності нижча за визначений поріг. У цій конфігурації Amazon Translate видає такий результат:
У другому сегменті Amazon Translate замінює початково запропонований цільовий текст (Selección
) з більш якісним перекладом: Visita de selección
.
Одним можливим розширенням цього варіанту використання може бути повторне використання перекладеного результату та створення нашої власної пам'яті перекладів. Amazon Translate підтримує налаштування машинного перекладу за допомогою пам’яті перекладів завдяки паралельні дані особливість. Текстові сегменти, які раніше були машинно перекладені через їх початкову низьку оцінку якості, потім можна було б повторно використовувати в нових перекладацьких проектах.
У наступних розділах ми проведемо вас через процес розгортання та тестування цього рішення. Ти використовуєш AWS CloudFormation сценарії та зразки даних для запуску завдання асинхронного перекладу, персоналізованого з настроюваним порогом відповідності якості.
Передумови
Для цього покрокового керівництва у вас повинен бути файл Обліковий запис AWS. Якщо у вас ще немає облікового запису, ви можете створити та активувати його.
Запустіть стек AWS CloudFormation
- Вибирати Запустити стек:
- для Назва стека, введіть ім'я.
- для ConfigBucketName, введіть сегмент S3, що містить файли конфігурації порогових значень.
- для ParameterStoreRoot, введіть кореневий шлях параметрів, створених лямбда-функцією, що обробляє параметри.
- для QueueName, увійдіть до черги SQS, яку ви створюєте, щоб опублікувати сповіщення про нові файли з вихідного сегмента в лямбда-функцію ініціалізації завдання. Це функція, яка зчитує файл конфігурації.
- для SourceBucketName, введіть сегмент S3, що містить файли XLIFF, які потрібно перекласти. Якщо ви віддаєте перевагу використовувати вже існуючий сегмент, вам потрібно змінити значення параметра CreateSourceBucket на No.
- для WorkingBucketName, введіть сегмент S3, який Amazon Translate використовує для введення та виведення даних.
- Вибирати МАЙБУТНІ.
- За бажанням на Стек Опції Додайте назви ключів і значення для тегів, які ви можете призначити ресурсам, які будуть створені.
- Вибирати МАЙБУТНІ.
- на Розгляд сторінка, виберіть Я визнаю, що цей шаблон може змусити AWS CloudFormation створювати ресурси IAM.
- Перегляньте інші налаштування, а потім виберіть Створити стек.
AWS CloudFormation займає кілька хвилин, щоб створити ресурси від вашого імені. За прогресом можна спостерігати на Події вкладку на консолі AWS CloudFormation. Коли стек буде створено, ви можете побачити a CREATE_COMPLETE
повідомлення в Статус колонка на огляд Вкладка.
Перевірте розчин
Давайте розглянемо простий приклад.
- Завантажте наступне зразкові дані.
- Розпакуйте вміст.
Має бути два файли: файл .xlf у форматі XLIFF і файл конфігурації порогового значення з розширенням .cfg. Нижче наведено уривок файлу XLIFF.
- На консолі Amazon S3 завантажте файл конфігурації порогового значення якості в сегмент конфігурації, який ви вказали раніше.
Значення, встановлене для test_En_to_Fr
становить 75%. Ви повинні мати можливість побачити параметри на консолі Systems Manager у розділі Parameter Store.
- Все ще на консолі Amazon S3 завантажте файл .xlf у сегмент S3, який ви налаштували як джерело. Переконайтеся, що файл знаходиться в папці з іменем
translate
(наприклад,<my_bucket>/translate/test_En_to_Fr.xlf
).
Це розпочинає процес перекладу.
- Відкрийте консоль Amazon Translate.
Нове завдання має з’явитися зі статусом «Виконується».
- Після завершення роботи клацніть посилання на завдання та ознайомтеся з результатом. Усі сегменти мали бути перекладені.
Усі сегменти мали бути перекладені. У перекладеному файлі XLIFF знайдіть сегменти з додатковими названими атрибутами lscustom:match-quality
, як показано на наступному знімку екрана. Ці користувацькі атрибути визначають сегменти, де збережено запропонований переклад на основі оцінки.
Вони були отримані з пам’яті перекладів відповідно до порога якості. Усі інші сегменти були машинним перекладом.
Тепер ви розгорнули та випробували автоматизований помічник завдання асинхронного перекладу, який забезпечує відповідність настроюваної пам’яті перекладів порогових значень якості. Чудова робота!
Прибирати
Якщо ви розгорнули рішення у своєму обліковому записі, не забудьте видалити стек CloudFormation, щоб уникнути будь-яких несподіваних витрат. Вам потрібно попередньо спорожнити відра S3 вручну.
Висновок
У цій публікації ви дізналися, як налаштувати свої завдання перекладу Amazon Translate на основі стандартних показників якості нечіткої відповідності XLIFF. За допомогою цього рішення ви можете значно зменшити ручну працю, пов’язану з переглядом машинно перекладеного тексту, а також оптимізувати використання Amazon Translate. Ви також можете розширити рішення за допомогою автоматизації прийому даних та можливостей оркестрування робочого процесу, як описано в Прискорте роботу перекладачів за допомогою повністю автоматизованої системи перекладу помічника.
Про авторів
Нарцисс Зекпа є архітектором рішень із Бостона. Він допомагає клієнтам на північному сході США прискорити впровадження хмари AWS, надаючи архітектурні рекомендації, інноваційні та масштабовані рішення. Коли Нарцисс не будує, він любить проводити час із сім’єю, подорожувати, готувати та грати в баскетбол.
Дмитро Рестайно є архітектором рішень у AWS, який базується в Брукліні, Нью-Йорк. Він працює в основному з компаніями охорони здоров’я та фінансових послуг на північному сході, допомагаючи розробляти інноваційні та креативні рішення для найкращого обслуговування своїх клієнтів. Маючи досвід розробки програмного забезпечення, він схвильований новими можливостями, які безсерверна технологія може принести світу. Поза роботою він любить ходити в похід і досліджувати кулінарну сцену Нью-Йорка.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- МЕНЮ
- прискорювати
- За
- рахунки
- точний
- Achieve
- Додатковий
- Прийняття
- ВСІ
- альтернатива
- хоча
- Amazon
- Застосування
- архітектурний
- архітектура
- Помічник
- Атрибути
- Автоматизований
- Автоматизація
- доступний
- AWS
- фон
- баскетбол
- буття
- нижче
- КРАЩЕ
- За
- border
- Бостон
- Створюємо
- бізнес
- можливості
- Викликати
- певний
- зміна
- заряд
- Вибирати
- хмара
- код
- Колонка
- майбутній
- Компанії
- конфігурація
- згода
- Консоль
- містить
- зміст
- може
- створювати
- створений
- створює
- Креатив
- критичний
- виготовлений на замовлення
- Клієнти
- дані
- Database
- поставляється
- розгорнути
- розгортання
- описаний
- дизайн
- розробка
- різний
- розсуд
- Ні
- вниз
- управляти
- ефективність
- англійська
- Що натомість? Створіть віртуальну версію себе у
- приклад
- обмін
- збуджений
- очікувати
- дослідити
- виражений
- продовжити
- сім'я
- особливість
- Рисунок
- фінансовий
- фінансові послуги
- Фірма
- Перший
- потік
- після
- слідує
- харчування
- формат
- знайдений
- французька
- функція
- Функції
- майбутнє
- великий
- значно
- Group
- керівні вказівки
- охорона здоров'я
- допомогу
- допомагає
- вище
- дуже
- Як
- How To
- HTTPS
- ідея
- ідентифікувати
- ідентифікує
- важливо
- включати
- інформація
- інноваційний
- вхід
- залучений
- IT
- робота
- Джобс
- ключ
- відомий
- праця
- мова
- запуск
- УЧИТЬСЯ
- вчений
- важелі
- Лінія
- LINK
- Перераховані
- машина
- управління
- менеджер
- керівництво
- вручну
- матч
- узгодження
- пам'ять
- Метрика
- може бути
- більше
- Імена
- Нью-Йорк
- На північ
- Нью-Йорк
- оптимізуючий
- варіант
- оркестровка
- Інше
- власний
- частина
- відсоток
- виконанні
- Уособлювати
- ігри
- можливостей
- це можливо
- потенціал
- попередній
- первинний
- процес
- процеси
- обробка
- Вироблений
- професійний
- проектів
- забезпечення
- якість
- отримано
- зменшити
- представлений
- представляє
- запитів
- Вимога
- ресурси
- результати
- огляд
- Правила
- масштабовані
- сцена
- Пошук
- сегмент
- сегменти
- Без сервера
- Послуги
- комплект
- показаний
- простий
- Софтвер
- розробка програмного забезпечення
- solid
- рішення
- Рішення
- специфікації
- Витрати
- стек
- standard
- починається
- Статус
- зберігання
- зберігати
- магазинів
- Опори
- система
- Systems
- Мета
- Технологія
- Тестування
- Джерело
- світ
- поріг
- через
- час
- Переклад
- Подорож
- нас
- створеного
- використання
- значення
- годинник
- Що
- Що таке
- Чи
- в той час як
- ВООЗ
- в
- Work
- працює
- світ
- XML