У багатьох галузях надзвичайно важливо вчасно витягувати користувацькі сутності з документів. Це може бути складним завданням. Страхові претензії, наприклад, часто містять десятки важливих атрибутів (таких як дати, імена, місцезнаходження та звіти), розкиданих по довгих і щільних документах. Ручне сканування та вилучення такої інформації може бути схильним до помилок і займати багато часу. Програмне забезпечення на основі правил може допомогти, але, зрештою, воно надто жорстке, щоб адаптуватися до багатьох різноманітних типів документів і макетів.
Щоб допомогти автоматизувати та прискорити цей процес, ви можете використовувати «Амазонка» для швидкого й точного виявлення спеціальних об’єктів за допомогою машинного навчання (ML). Цей підхід є гнучким і точним, оскільки система може адаптуватися до нових документів, використовуючи те, що вона навчилася в минулому. Однак донедавна цю можливість можна було застосувати лише до документів із звичайним текстом, що означало, що позиційна інформація втрачалася під час перетворення документів із їх рідного формату. Щоб вирішити це питання, це було недавно оголосила про що Amazon Comprehend може витягувати користувацькі сутності у PDF-файли, зображення та формати файлів Word.
У цій публікації ми розглянемо конкретний приклад зі страхової галузі того, як ви можете створити спеціальний розпізнавач, використовуючи PDF-анотації.
Огляд рішення
Ми проведемо вас через такі кроки високого рівня:
- Створення анотацій PDF.
- Використовуйте PDF-анотації для навчання власної моделі за допомогою Python API.
- Отримайте показники оцінки від навченої моделі.
- Зробіть висновок на небаченому документі.
Наприкінці цієї публікації ми хочемо мати можливість надіслати необроблений PDF-документ нашій навченій моделі, щоб вона вивела структурований файл з інформацією про цікаві для нас етикетки. Зокрема, ми навчаємо нашу модель виявляти наступні п’ять об’єктів, які ми обрали через їх відповідність страховим вимогам: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
та InsuredMailingAddress
. Після прочитання структурованого виводу ми можемо візуалізувати інформацію мітки безпосередньо в документі PDF, як на зображенні нижче.
Ця публікація супроводжується блокнотом Jupyter, який містить ті самі кроки. Не соромтеся слідувати, виконуючи кроки в цьому ноутбук. Зауважте, що вам потрібно налаштувати Amazon SageMaker середовища, з якого Amazon Comprehend може читати Служба простого зберігання Amazon (Amazon S3), як описано у верхній частині блокнота.
Створення анотацій PDF
Для створення анотацій до PDF-документів можна використовувати Основна правда Amazon SageMaker, повністю керована служба маркування даних, яка дозволяє легко створювати високоточні навчальні набори даних для ML.
Для цього підручника ми вже анотували PDF-файли в їхній рідній формі (без перетворення на звичайний текст) за допомогою Ground Truth. Завдання Ground Truth генерує три шляхи, необхідні для навчання нашої спеціальної моделі Amazon Comprehend:
- Джерела – Шлях до вхідних PDF-файлів.
- Анотації – Шлях до файлів JSON анотації, що містять інформацію про сутність із мітками.
- Маніфест – Файл, який вказує на розташування анотацій і вихідних PDF-файлів. Цей файл використовується для створення спеціального навчального завдання Amazon Comprehend із розпізнавання об’єктів і навчання спеціальної моделі.
На наступному знімку екрана показано зразок анотації.
Спеціальне завдання Ground Truth генерує PDF-анотацію, яка фіксує інформацію на рівні блоку про сутність. Така інформація на рівні блоку надає точні позиційні координати сутності (з дочірніми блоками, що представляють кожне слово в блоці сутності). Це відрізняється від стандартної роботи Ground Truth, у якій дані в PDF зводяться до текстового формату, а під час анотації фіксується лише інформація про зсув, але не інформація про точні координати. Багата інформація про позицію, яку ми отримуємо за допомогою цієї спеціальної парадигми анотацій, дозволяє нам навчити більш точну модель.
Маніфест, створений із цього типу завдання, називається доповненим маніфестом, на відміну від CSV, який використовується для стандартних анотацій. Для отримання додаткової інформації див Анотації.
Використовуйте PDF-анотації для навчання власної моделі за допомогою Python API
Доповнений файл маніфесту має бути відформатований у форматі рядків JSON. У форматі рядків JSON кожен рядок у файлі є повним об’єктом JSON, за яким стоїть роздільник нового рядка.
Наступний код є записом у цьому доповненому файлі маніфесту.
Кілька речей, які слід зазначити:
- З цією роботою пов’язано п’ять типів маркування:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
таInsuredMailingAddress
. - Файл маніфесту посилається як на розташування вихідного PDF-файлу, так і на розташування анотації.
- Зберігаються метадані про завдання анотації (наприклад, дата створення).
Use-textract-only
встановлений вFalse
, тобто інструмент анотації вирішує, чи використовувати PDFPlumber (для оригінального PDF-файлу) або Текст Amazon (для відсканованого PDF). Якщо встановленоtrue
, Amazon Texttract використовується в обох випадках (це дорожче, але потенційно точніше).
Тепер ми можемо навчити розпізнавач, як показано в наступному прикладі коду.
Ми створюємо засіб розпізнавання для розпізнавання всіх п’яти типів об’єктів. Ми могли б використати підмножину цих сутностей, якби хотіли. Ви можете використовувати до 25 об’єктів.
Докладніше про кожен параметр див create_entity_recognizer.
Залежно від розміру тренувального набору час тренування може змінюватися. Для цього набору даних навчання займає приблизно 1 годину. Щоб відстежувати стан навчального завдання, ви можете використовувати describe_entity_recognizer
API.
Отримайте показники оцінки від навченої моделі
Amazon Comprehend надає показники продуктивності моделі для навченої моделі, яка вказує, наскільки добре навчена модель, як очікується, робитиме прогнози, використовуючи подібні вхідні дані. Ми можемо отримати як глобальні показники точності та запам’ятовування, так і показники для кожного об’єкта. Точна модель має високу точність і високу запам'ятовуваність. Висока точність означає, що модель зазвичай правильна, коли вона вказує на певну позначку; високий рівень запам'ятовування означає, що модель знайшла більшість міток. F1 є складеним показником (гармонійним середнім) цих показників, тому він є високим, коли обидва компоненти високі. Детальний опис метрик див Індивідуальні показники засобу розпізнавання сутностей.
Коли ви надаєте документи для навчального завдання, Amazon Comprehend автоматично розділяє їх на навчальний і тестовий набір. Коли модель досягла TRAINED
статус, ви можете використовувати describe_entity_recognizer
API знову, щоб отримати метрики оцінки для тестового набору.
Нижче наведено приклад глобальної метрики.
Нижче наведено приклад показників для кожного об’єкта.
Високі бали вказують на те, що модель добре навчилася виявляти ці сутності.
Зробіть висновок на небаченому документі
Давайте виконаємо висновки з нашою навченою моделлю на документі, який не був частиною процедури навчання. Ми можемо використовувати цей асинхронний API для стандартного або спеціального NER. Якщо використовувати його для спеціального NER (як у цій публікації), ми повинні передати ARN навченої моделі.
Ми можемо переглянути подану роботу, роздрукувавши відповідь.
Ми можемо відформатувати результат завдання виявлення за допомогою Pandas у таблицю. The Score
значення вказує на рівень достовірності моделі щодо сутності.
Нарешті, ми можемо накласти прогнози на невидимі документи, що дає результат, як показано у верхній частині цієї публікації.
Висновок
У цій публікації ви побачили, як видобувати користувальницькі об’єкти в рідному форматі PDF за допомогою Amazon Comprehend. У якості наступних кроків розгляньте глибше занурення:
- Навчіть свій власний розпізнавач за допомогою блокнота, що додається тут. Не забудьте видалити всі ресурси, коли закінчите, щоб уникнути майбутніх витрат.
- Налаштуйте власне спеціальне завдання анотацій, щоб збирати анотації PDF для об’єктів, які вас цікавлять. Для отримання додаткової інформації див Спеціальна анотація документа для вилучення іменованих об’єктів у документах за допомогою Amazon Comprehend.
- Навчіть спеціальну модель NER на консолі Amazon Comprehend. Для отримання додаткової інформації див Витягуйте користувацькі сутності з документів у рідному форматі за допомогою Amazon Comprehend.
Про авторів
Джошуа Леві є старшим науковим співробітником лабораторії Amazon Machine Learning Solutions, де він допомагає клієнтам розробляти та створювати рішення AI/ML для вирішення ключових проблем бізнесу.
Ендрю Анг є інженером з машинного навчання в Amazon Machine Learning Solutions Lab, де він допомагає клієнтам із різноманітних галузей визначити та створити рішення ШІ/ML для вирішення їхніх найнагальніших бізнес-проблем. Поза роботою він любить переглядати відеоблоги про подорожі та їжу.
Алекс Чіраят є інженером-програмістом у Amazon Machine Learning Solutions Lab, який зосереджується на розробці рішень на основі сценаріїв використання, які показують клієнтам, як розблокувати потужність служб AWS AI/ML для вирішення реальних бізнес-завдань.
Дженніфер Чжу є прикладним науковцем з Amazon AI Machine Learning Solutions Lab. Вона працює з клієнтами AWS, створюючи рішення AI/ML для їхніх пріоритетних бізнес-потреб.
Ніхаріка Джаянті є інженером переднього плану в Amazon Machine Learning Solutions Lab – команда Human in the Loop. Вона допомагає створювати рішення для користувачів Amazon SageMaker Ground Truth.
Борис Арончик є менеджером Amazon AI Machine Learning Solutions Lab, де він очолює команду науковців та інженерів ML, щоб допомогти клієнтам AWS реалізувати бізнес-цілі, використовуючи рішення AI/ML.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- МЕНЮ
- точний
- через
- адреса
- AI
- ВСІ
- вже
- Amazon
- API
- підхід
- приблизно
- Атрибути
- збільшено
- автоматизувати
- AWS
- Блокувати
- будувати
- Створюємо
- бізнес
- складні
- вантажі
- дитина
- претензій
- код
- збирати
- довіра
- Консоль
- містить
- координувати
- може
- створення
- критичний
- виготовлений на замовлення
- Клієнти
- дані
- Дати
- глибше
- дизайн
- Виявлення
- безпосередньо
- документація
- інженер
- Інженери
- юридичні особи
- Навколишнє середовище
- приклад
- очікуваний
- досвід
- гнучкий
- стежити
- після
- харчування
- форма
- формат
- знайдений
- Безкоштовна
- майбутнє
- Глобальний
- Цілі
- допомога
- допомагає
- Високий
- дуже
- Як
- How To
- HTTPS
- людина
- ідентифікувати
- зображення
- важливо
- промисловості
- промисловість
- інформація
- вхід
- страхування
- інтерес
- IT
- робота
- ключ
- lab
- маркування
- етикетки
- Веде за собою
- вчений
- вивчення
- рівень
- використання
- Лінія
- розташування
- місць
- машина
- навчання за допомогою машини
- РОБОТИ
- вдалося
- менеджер
- манера
- вручну
- сенс
- Метрика
- ML
- модель
- монітор
- більше
- найбільш
- Імена
- ноутбук
- зсув
- власний
- парадигма
- продуктивність
- влада
- Прогнози
- проблеми
- процес
- забезпечувати
- забезпечує
- швидко
- Сировина
- читання
- Реальний світ
- реалізувати
- визнавати
- Звіти
- ресурси
- відповідь
- огляд
- прогін
- біг
- сканування
- вчений
- Вчені
- обслуговування
- Послуги
- комплект
- аналогічний
- простий
- Розмір
- Софтвер
- Інженер-програміст
- Рішення
- ВИРІШИТИ
- швидкість
- standard
- Статус
- зберігання
- структурований
- представлений
- система
- команда
- тест
- Джерело
- через
- час
- трудомісткий
- інструмент
- топ
- Навчання
- подорожувати
- відімкнути
- us
- використання
- зазвичай
- значення
- Що
- Чи
- в той час як
- в
- без
- Work
- працює
- світ