Створіть спеціальний засіб розпізнавання сутностей для PDF-документів за допомогою Amazon Comprehend

Перевидано Платоном

читають: 0

У багатьох галузях надзвичайно важливо вчасно витягувати користувацькі сутності з документів. Це може бути складним завданням. Страхові претензії, наприклад, часто містять десятки важливих атрибутів (таких як дати, імена, місцезнаходження та звіти), розкиданих по довгих і щільних документах. Ручне сканування та вилучення такої інформації може бути схильним до помилок і займати багато часу. Програмне забезпечення на основі правил може допомогти, але, зрештою, воно надто жорстке, щоб адаптуватися до багатьох різноманітних типів документів і макетів.

Щоб допомогти автоматизувати та прискорити цей процес, ви можете використовувати «Амазонка» для швидкого й точного виявлення спеціальних об’єктів за допомогою машинного навчання (ML). Цей підхід є гнучким і точним, оскільки система може адаптуватися до нових документів, використовуючи те, що вона навчилася в минулому. Однак донедавна цю можливість можна було застосувати лише до документів із звичайним текстом, що означало, що позиційна інформація втрачалася під час перетворення документів із їх рідного формату. Щоб вирішити це питання, це було недавно оголосила про що Amazon Comprehend може витягувати користувацькі сутності у PDF-файли, зображення та формати файлів Word.

У цій публікації ми розглянемо конкретний приклад зі страхової галузі того, як ви можете створити спеціальний розпізнавач, використовуючи PDF-анотації.

Огляд рішення

Ми проведемо вас через такі кроки високого рівня:

Створення анотацій PDF.
Використовуйте PDF-анотації для навчання власної моделі за допомогою Python API.
Отримайте показники оцінки від навченої моделі.
Зробіть висновок на небаченому документі.

Наприкінці цієї публікації ми хочемо мати можливість надіслати необроблений PDF-документ нашій навченій моделі, щоб вона вивела структурований файл з інформацією про цікаві для нас етикетки. Зокрема, ми навчаємо нашу модель виявляти наступні п’ять об’єктів, які ми обрали через їх відповідність страховим вимогам: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss та InsuredMailingAddress. Після прочитання структурованого виводу ми можемо візуалізувати інформацію мітки безпосередньо в документі PDF, як на зображенні нижче.

Ця публікація супроводжується блокнотом Jupyter, який містить ті самі кроки. Не соромтеся слідувати, виконуючи кроки в цьому ноутбук. Зауважте, що вам потрібно налаштувати Amazon SageMaker середовища, з якого Amazon Comprehend може читати Служба простого зберігання Amazon (Amazon S3), як описано у верхній частині блокнота.

Створення анотацій PDF

Для створення анотацій до PDF-документів можна використовувати Основна правда Amazon SageMaker, повністю керована служба маркування даних, яка дозволяє легко створювати високоточні навчальні набори даних для ML.

Для цього підручника ми вже анотували PDF-файли в їхній рідній формі (без перетворення на звичайний текст) за допомогою Ground Truth. Завдання Ground Truth генерує три шляхи, необхідні для навчання нашої спеціальної моделі Amazon Comprehend:

Джерела – Шлях до вхідних PDF-файлів.
Анотації – Шлях до файлів JSON анотації, що містять інформацію про сутність із мітками.
Маніфест – Файл, який вказує на розташування анотацій і вихідних PDF-файлів. Цей файл використовується для створення спеціального навчального завдання Amazon Comprehend із розпізнавання об’єктів і навчання спеціальної моделі.

На наступному знімку екрана показано зразок анотації.

Спеціальне завдання Ground Truth генерує PDF-анотацію, яка фіксує інформацію на рівні блоку про сутність. Така інформація на рівні блоку надає точні позиційні координати сутності (з дочірніми блоками, що представляють кожне слово в блоці сутності). Це відрізняється від стандартної роботи Ground Truth, у якій дані в PDF зводяться до текстового формату, а під час анотації фіксується лише інформація про зсув, але не інформація про точні координати. Багата інформація про позицію, яку ми отримуємо за допомогою цієї спеціальної парадигми анотацій, дозволяє нам навчити більш точну модель.

Маніфест, створений із цього типу завдання, називається доповненим маніфестом, на відміну від CSV, який використовується для стандартних анотацій. Для отримання додаткової інформації див Анотації.

Використовуйте PDF-анотації для навчання власної моделі за допомогою Python API

Доповнений файл маніфесту має бути відформатований у форматі рядків JSON. У форматі рядків JSON кожен рядок у файлі є повним об’єктом JSON, за яким стоїть роздільник нового рядка.

Наступний код є записом у цьому доповненому файлі маніфесту.

Кілька речей, які слід зазначити:

З цією роботою пов’язано п’ять типів маркування: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss та InsuredMailingAddress.
Файл маніфесту посилається як на розташування вихідного PDF-файлу, так і на розташування анотації.
Зберігаються метадані про завдання анотації (наприклад, дата створення).
Use-textract-only встановлений в False, тобто інструмент анотації вирішує, чи використовувати PDFPlumber (для оригінального PDF-файлу) або Текст Amazon (для відсканованого PDF). Якщо встановлено true, Amazon Texttract використовується в обох випадках (це дорожче, але потенційно точніше).

Тепер ми можемо навчити розпізнавач, як показано в наступному прикладі коду.

Ми створюємо засіб розпізнавання для розпізнавання всіх п’яти типів об’єктів. Ми могли б використати підмножину цих сутностей, якби хотіли. Ви можете використовувати до 25 об’єктів.

Докладніше про кожен параметр див create_entity_recognizer.

Залежно від розміру тренувального набору час тренування може змінюватися. Для цього набору даних навчання займає приблизно 1 годину. Щоб відстежувати стан навчального завдання, ви можете використовувати describe_entity_recognizer API.

Отримайте показники оцінки від навченої моделі

Amazon Comprehend надає показники продуктивності моделі для навченої моделі, яка вказує, наскільки добре навчена модель, як очікується, робитиме прогнози, використовуючи подібні вхідні дані. Ми можемо отримати як глобальні показники точності та запам’ятовування, так і показники для кожного об’єкта. Точна модель має високу точність і високу запам'ятовуваність. Висока точність означає, що модель зазвичай правильна, коли вона вказує на певну позначку; високий рівень запам'ятовування означає, що модель знайшла більшість міток. F1 є складеним показником (гармонійним середнім) цих показників, тому він є високим, коли обидва компоненти високі. Детальний опис метрик див Індивідуальні показники засобу розпізнавання сутностей.

Коли ви надаєте документи для навчального завдання, Amazon Comprehend автоматично розділяє їх на навчальний і тестовий набір. Коли модель досягла TRAINED статус, ви можете використовувати describe_entity_recognizer API знову, щоб отримати метрики оцінки для тестового набору.

Нижче наведено приклад глобальної метрики.

Нижче наведено приклад показників для кожного об’єкта.

Високі бали вказують на те, що модель добре навчилася виявляти ці сутності.

Зробіть висновок на небаченому документі

Давайте виконаємо висновки з нашою навченою моделлю на документі, який не був частиною процедури навчання. Ми можемо використовувати цей асинхронний API для стандартного або спеціального NER. Якщо використовувати його для спеціального NER (як у цій публікації), ми повинні передати ARN навченої моделі.

Ми можемо переглянути подану роботу, роздрукувавши відповідь.

Ми можемо відформатувати результат завдання виявлення за допомогою Pandas у таблицю. The Score значення вказує на рівень достовірності моделі щодо сутності.

Нарешті, ми можемо накласти прогнози на невидимі документи, що дає результат, як показано у верхній частині цієї публікації.

Висновок

У цій публікації ви побачили, як видобувати користувальницькі об’єкти в рідному форматі PDF за допомогою Amazon Comprehend. У якості наступних кроків розгляньте глибше занурення:

Навчіть свій власний розпізнавач за допомогою блокнота, що додається тут. Не забудьте видалити всі ресурси, коли закінчите, щоб уникнути майбутніх витрат.
Налаштуйте власне спеціальне завдання анотацій, щоб збирати анотації PDF для об’єктів, які вас цікавлять. Для отримання додаткової інформації див Спеціальна анотація документа для вилучення іменованих об’єктів у документах за допомогою Amazon Comprehend.
Навчіть спеціальну модель NER на консолі Amazon Comprehend. Для отримання додаткової інформації див Витягуйте користувацькі сутності з документів у рідному форматі за допомогою Amazon Comprehend.

Про авторів

Джошуа Леві є старшим науковим співробітником лабораторії Amazon Machine Learning Solutions, де він допомагає клієнтам розробляти та створювати рішення AI/ML для вирішення ключових проблем бізнесу.

Ендрю Анг є інженером з машинного навчання в Amazon Machine Learning Solutions Lab, де він допомагає клієнтам із різноманітних галузей визначити та створити рішення ШІ/ML для вирішення їхніх найнагальніших бізнес-проблем. Поза роботою він любить переглядати відеоблоги про подорожі та їжу.

Алекс Чіраят є інженером-програмістом у Amazon Machine Learning Solutions Lab, який зосереджується на розробці рішень на основі сценаріїв використання, які показують клієнтам, як розблокувати потужність служб AWS AI/ML для вирішення реальних бізнес-завдань.

Дженніфер Чжу є прикладним науковцем з Amazon AI Machine Learning Solutions Lab. Вона працює з клієнтами AWS, створюючи рішення AI/ML для їхніх пріоритетних бізнес-потреб.

Ніхаріка Джаянті є інженером переднього плану в Amazon Machine Learning Solutions Lab – команда Human in the Loop. Вона допомагає створювати рішення для користувачів Amazon SageMaker Ground Truth.

Борис Арончик є менеджером Amazon AI Machine Learning Solutions Lab, де він очолює команду науковців та інженерів ML, щоб допомогти клієнтам AWS реалізувати бізнес-цілі, використовуючи рішення AI/ML.

Часова мітка: Квітень 8, 2022

Часова мітка: Березень 29, 2022

Створіть спеціальний засіб розпізнавання об’єктів для документів PDF за допомогою Amazon Comprehend

Перевидано Платоном

Огляд рішення

Створення анотацій PDF

Використовуйте PDF-анотації для навчання власної моделі за допомогою Python API

Отримайте показники оцінки від навченої моделі

Зробіть висновок на небаченому документі

Висновок

Про авторів

Більше від AWS Машинне навчання

Економічний висновок машинного навчання за допомогою мультифреймворкових моделей на Amazon SageMaker

Amazon Rekognition представляє потокове відео подій, щоб надавати сповіщення в режимі реального часу під час прямих відеопотоків

Зменште енергоспоживання робочих навантажень машинного навчання до 90% за допомогою спеціально розроблених прискорювачів AWS | Веб-сервіси Amazon

Chronomics виявляє результати тестів на COVID-19 за допомогою спеціальних міток Amazon Rekognition

T-Mobile US, Inc. використовує штучний інтелект через Amazon Transcribe і Amazon Translate, щоб доставляти голосову пошту мовою за вибором своїх клієнтів | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки