Компанії різних галузей створюють, сканують і зберігають великі обсяги PDF-документів. У багатьох випадках вміст багатотекстовий і часто написаний іншою мовою та потребує перекладу. Щоб вирішити цю проблему, вам потрібне автоматизоване рішення для видобування вмісту цих PDF-файлів і швидкого та економічного перекладу.
Багато компаній мають різноманітних користувачів у всьому світі, і їм потрібно перекладати текст, щоб забезпечити міжмовне спілкування між ними. Це ручна, повільна та дорога людська робота. Необхідно знайти масштабоване, надійне та економічно ефективне рішення для перекладу документів із збереженням вихідного форматування документа.
Для таких галузей, як охорона здоров’я, через нормативні вимоги для перекладених документів потрібна додаткова людина в циклі для перевірки дійсності машинно-перекладеного документа.
Якщо перекладений документ не зберігає оригінальне форматування та структуру, він втрачає свій контекст. Це може ускладнити рецензенту перевірку та внесення виправлень.
У цій публікації ми демонструємо, як створити новий перекладений PDF-файл із відсканованого PDF-файлу, зберігаючи оригінальну структуру та форматування документа за допомогою підходу на основі геометрії з Текст Amazon, Amazon Translate та Apache PDF Box.
Огляд рішення
Рішення, представлене в цій публікації, використовує такі компоненти:
- Текст Amazon – Повністю керована служба машинного навчання (ML), яка автоматично витягує друкований текст, рукописний текст та інші дані зі сканованих документів, що виходить за рамки простого оптичного розпізнавання символів (OCR), щоб ідентифікувати, розуміти та витягувати дані з форм і таблиць. Amazon Texttract може виявляти текст у різноманітних документах, включаючи фінансові звіти, медичні записи та податкові форми.
- Amazon Translate – Служба нейронного машинного перекладу, яка забезпечує швидкий, високоякісний і доступний мовний переклад. Amazon Translate забезпечує високоякісні можливості перекладу за запитом і пакетного перекладу понад 2,970 мовними парами, зменшуючи витрати на переклад.
- Переклад PDF – Бібліотека з відкритим кодом, написана на Java та опублікована на ній Зразки AWS у GitHub. Ця бібліотека містить логіку для створення перекладених PDF-документів потрібною мовою за допомогою Amazon Texttract і Amazon Translate. Він також використовує бібліотеку Java з відкритим кодом Apache PDFBox для створення документів PDF. Подібні бібліотеки обробки PDF доступні, наприклад, іншими мовами програмування Вузол PDFBox.
Під час виконання машинного перекладу у вас можуть виникнути ситуації, коли ви бажаєте зберегти певні частини тексту від перекладу, наприклад імена чи унікальні ідентифікатори. Amazon Translate дозволяє змінювати теги, що дозволяє вказати, який текст не слід перекладати. Amazon Translate також підтримує налаштування формальності, що дає вам змогу налаштувати рівень формальності у вихідних результатах перекладу.
Докладніше про обмеження Amazon Texttract див Квоти в Amazon Texttract.
Рішення обмежено мовами, які можна роздобути за допомогою Amazon Texttract, який наразі підтримує англійську, іспанську, італійську, португальську, французьку та німецьку мови. Ці мови також підтримуються Amazon Translate. Повний список мов, які підтримує Amazon Translate, див Підтримувані мови та коди мов.
Ми використовуємо наступний PDF-файл, щоб продемонструвати переклад тексту з англійської на іспанську. Рішення також підтримує створення перекладеного документа без будь-якого форматування. Положення тексту перекладу зберігається. Вихідні та перекладені PDF-документи також можна знайти в AWS Зразки репо GitHub.
У наступних розділах ми продемонструємо, як запустити код перекладу на локальній машині, і розглянемо код перекладу більш детально.
Передумови
Перш ніж почати, налаштуйте обліковий запис AWS і Інтерфейс командного рядка AWS (AWS CLI). Для доступу до будь-яких служб AWS, таких як Texttract і Translate, потрібні відповідні дозволи IAM. Ми рекомендуємо використовувати дозволи з найменшими привілеями. Щоб дізнатися більше про дозволи IAM, див Політики та дозволи в IAM а також Як Amazon Texttract працює з IAM та Як Amazon Translate працює з IAM.
Запустіть код перекладу на локальній машині
Це рішення зосереджено на автономному коді Java для вилучення та перекладу документа PDF. Це для полегшення тестування та налаштування, щоб отримати найкраще відтворений перекладений PDF-документ. Потім код можна інтегрувати в автоматизоване рішення для розгортання та запуску в AWS. Побачити Переклад документів PDF за допомогою Amazon Translate та Amazon Textract для прикладу архітектури, яка використовує Служба простого зберігання Amazon (Amazon S3) для зберігання документів і AWS Lambda для запуску коду.
Щоб запустити код на локальній машині, виконайте наступні кроки. Приклади коду доступні на Репо GitHub.
- Клонуйте репо GitHub:
- Запустіть таку команду:
- Виконайте таку команду, щоб перекласти з англійської на іспанську:
Два перекладені PDF-документи створюються в папці документів із вихідним форматуванням і без нього (SampleOutput-es.pdf
та SampleOutput-min-es.pdf
).
Код для створення перекладеного PDF-файлу
У наведених нижче фрагментах коду показано, як отримати PDF-документ і створити відповідний перекладений PDF-документ. Він витягує текст за допомогою Amazon Texttract і створює перекладений PDF, додаючи перекладений текст як шар до зображення. Він базується на рішенні, показаному в дописі Автоматичне створення PDF-файлів із можливістю пошуку зі сканованих документів за допомогою Amazon Texttract.
Код спочатку отримує кожен рядок тексту за допомогою Amazon Texttract. Amazon Translate використовується для отримання перекладеного тексту та збереження геометрії перекладеного тексту.
Розмір шрифту розраховується наступним чином і може бути легко налаштований:
Перекладений PDF створюється зі збереженої геометрії та перекладеного тексту. Зміни кольору перекладеного тексту можна легко налаштувати.
На наступному зображенні показано документ, перекладений іспанською мовою з оригінальним форматуванням (SampleOutput-es.pdf
).
На наступному зображенні показано переклад PDF-файлу іспанською мовою без будь-якого форматування (SampleOutput-min-es.pdf
).
Час обробки
PDF-файл заявки на роботу зайняв близько 10 секунд, щоб видобути, обробити та відобразити перекладений PDF-файл. Час обробки важкого текстового документа, наприклад Декларація незалежності PDF займає менше хвилини.
Коштувати
З Amazon Texttract ви платите по ходу роботи залежно від кількості оброблених сторінок і зображень. З Amazon Translate ви платите по ходу роботи залежно від кількості оброблених текстових символів. Відноситься до Ціни Amazon Textract та Ціни Amazon Translate на фактичні витрати.
Висновок
У цьому дописі показано, як використовувати Amazon Texttract і Amazon Translate для створення перекладених PDF-документів, зберігаючи оригінальну структуру документа. Ви можете додатково обробити результати Amazon Texttract для покращення якості перекладу, наприклад, витягнуті слова можна пропустити через перевірку орфографії на основі ML, як-от SymSpell для перевірки даних або алгоритми кластеризації можуть бути використані для збереження порядку читання. Ви також можете використовувати Розширений ШІ в Амазонці (Amazon A2I) для створення робочих процесів перевірки людьми, де ви можете використовувати власну приватну робочу силу для перегляду оригінальних і перекладених документів PDF для забезпечення більшої точності та контексту. Побачити Створення робочих процесів перегляду людьми за допомогою Amazon Translate та Amazon Augmented AI та Створення багатомовного робочого циклу перекладу документів із налаштуваннями для окремих доменів і мов щоб розпочати роботу.
Про авторів
Анубха Сінгхал є старшим хмарним архітектором Amazon Web Services в організації AWS Professional Services.
Шон Лоуренс раніше був інженером переднього плану в AWS. Він спеціалізувався на розробці інтерфейсу в організації AWS Professional Services і команді Amazon Privacy.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :є
- : ні
- :де
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- МЕНЮ
- доступ
- рахунки
- точність
- через
- фактичний
- додати
- Додатковий
- адреса
- доступний
- алгоритми
- дозволяє
- Також
- Amazon
- Текст Amazon
- Amazon Translate
- Amazon Web Services
- an
- та
- будь-який
- Apache
- додаток
- підхід
- відповідний
- архітектура
- ЕСТЬ
- AS
- At
- збільшено
- Автоматизований
- автоматично
- доступний
- AWS
- Професійні послуги AWS
- заснований
- BE
- буття
- між
- За
- Black
- Блокувати
- блоки
- Box
- будувати
- Будує
- підприємства
- by
- розрахований
- CAN
- можливості
- випадків
- Зміни
- характер
- розпізнавання символів
- символи
- хмара
- Кластеризація
- код
- color
- Комунікація
- повний
- налаштувати
- містить
- зміст
- зміст
- контекст
- Виправлення
- Відповідний
- рентабельним
- витрати
- створювати
- створений
- створює
- В даний час
- настройка
- налаштувати
- дані
- постачає
- демонструвати
- розгортання
- бажаний
- деталь
- деталі
- розробка
- різний
- важкий
- Різне
- документ
- документація
- Ні
- два
- кожен
- легше
- легко
- зусилля
- ще
- зайнятість
- включіть
- кінець
- інженер
- англійська
- приклад
- Приклади
- дорогий
- витяг
- Виписки
- false
- ШВИДКО
- заповнювати
- фінансовий
- знайти
- Перший
- Поплавок
- фокусується
- після
- слідує
- для
- раніше
- форми
- знайдений
- французька
- від
- перед
- передня частина
- Розробка фронтенду
- Повний
- повністю
- породжувати
- породжує
- німецька
- отримати
- GitHub
- Глобальний
- Go
- йде
- Мати
- he
- охорона здоров'я
- важкий
- висота
- тут
- високоякісний
- будинок
- Як
- How To
- HTML
- HTTP
- HTTPS
- людина
- ідентифікатори
- ідентифікувати
- if
- зображення
- зображень
- удосконалювати
- in
- В інших
- включати
- У тому числі
- промисловості
- вхід
- інтегрований
- в
- IT
- ЙОГО
- Java
- мова
- мови
- великий
- шар
- УЧИТЬСЯ
- вивчення
- найменш
- залишити
- менше
- рівень
- libraries
- бібліотека
- рамки
- Лінія
- ліній
- список
- місцевий
- логіка
- подивитися
- Втрачає
- машина
- навчання за допомогою машини
- зробити
- вдалося
- керівництво
- багато
- Може..
- медичний
- хвилин
- ML
- Поправки
- більше
- Імена
- Необхідність
- необхідний
- Нові
- номер
- об'єкт
- OCR
- of
- часто
- on
- On-Demand
- з відкритим вихідним кодом
- операція
- оптичне розпізнавання символів
- or
- порядок
- організація
- оригінал
- Інше
- вихід
- власний
- сторінка
- сторінок
- пар
- Пройшов
- Платити
- виконанні
- Дозволи
- plato
- Інформація про дані Платона
- PlatoData
- португальська
- положення
- пошта
- представлений
- недоторканність приватного життя
- приватний
- привілей
- процес
- Оброблено
- обробка
- професійний
- Програмування
- мови програмування
- забезпечувати
- забезпечує
- опублікований
- якість
- швидко
- читання
- визнання
- рекомендувати
- облік
- регіон
- регуляторні
- надійний
- Звіти
- вимагати
- Вимога
- Вимагається
- обмежений
- результати
- зберігати
- утримує
- повертати
- огляд
- прогін
- зберегти
- масштабовані
- сканування
- seconds
- розділам
- побачити
- старший
- обслуговування
- Послуги
- комплект
- Повинен
- Показувати
- показав
- показаний
- Шоу
- аналогічний
- простий
- ситуацій
- Розмір
- сповільнювати
- рішення
- Source
- іспанська
- спеціалізований
- конкретний
- автономні
- почалася
- заходи
- зберігання
- зберігати
- рядок
- структура
- такі
- Підтриманий
- Опори
- TAG
- Приймати
- податок
- команда
- Тестування
- ніж
- Що
- Команда
- Джерело
- Їх
- потім
- Там.
- Ці
- це
- через
- час
- до
- прийняли
- топ
- переводити
- Переклад
- розуміти
- створеного
- використання
- використовуваний
- користувачі
- використовує
- використання
- використовує
- ПЕРЕВІР
- перевірка достовірності
- різноманітність
- різний
- перевірити
- вертикалі
- вид
- Обсяги
- було
- we
- Web
- веб-сервіси
- ДОБРЕ
- Що
- який
- в той час як
- білий
- ширина
- з
- в
- без
- слова
- робочий
- Робочі процеси
- Трудові ресурси
- працює
- письмовий
- Ти
- вашу
- зефірнет