Amazon Comprehend — это служба обработки естественного языка (NLP), которая предоставляет предварительно обученные и настраиваемые API для получения информации из текстовых данных. Клиенты Amazon Comprehend могут обучать собственные модели распознавания именованных объектов (NER) для извлечения интересующих объектов, таких как местоположение, имя человека и дата, которые являются уникальными для их бизнеса.
Чтобы обучить пользовательскую модель, вы сначала подготавливаете обучающие данные, вручную аннотируя объекты в документах. Это можно сделать с помощью Инструмент для аннотирования полуструктурированных документов, который создает Amazon SageMaker - основа правды задание с пользовательским шаблоном, позволяющим аннотаторам рисовать ограничивающие рамки вокруг объектов непосредственно в PDF-документах. Однако для компаний с существующими табличными данными в ERP-системах, таких как SAP, ручное аннотирование может быть повторяющимся и отнимать много времени.
Чтобы упростить подготовку обучающих данных, мы создали инструмент предварительной маркировки, используя Шаговые функции AWS который автоматически предварительно аннотирует документы, используя существующие данные табличных объектов. Это значительно сокращает объем ручной работы, необходимой для обучения точных моделей распознавания пользовательских объектов в Amazon Comprehend.
В этом посте мы покажем вам этапы настройки инструмента предварительной маркировки и покажем примеры того, как он автоматически аннотирует документы из общедоступных источников. Набор данных образцы банковских выписок в формате PDF. Полный код доступен на сайте Репо GitHub.
Обзор решения
В этом разделе мы обсуждаем входные и выходные данные инструмента предварительной маркировки и даем обзор архитектуры решения.
Входы и выходы
В качестве входных данных инструмент предварительной маркировки принимает PDF-документы, содержащие текст для аннотирования. Для демонстрации мы используем смоделированные банковские выписки, как показано в следующем примере.
Инструмент также принимает файл манифеста, который сопоставляет PDF-документы с объектами, которые мы хотим извлечь из этих документов. Сущности состоят из двух вещей: expected_text
извлечь из документа (например, AnyCompany Bank
) и соответствующие entity_type
(например, bank_name
). Позже в этом посте мы покажем, как создать этот файл манифеста из документа CSV, как показано в следующем примере.
Инструмент предварительной маркировки использует файл манифеста для автоматического аннотирования документов соответствующими объектами. Затем мы можем использовать эти аннотации непосредственно для обучения модели Amazon Comprehend.
Альтернативно вы можете создать задание по маркировке SageMaker Ground Truth для проверки и редактирования человеком, как показано на следующем снимке экрана.
После завершения проверки вы можете использовать аннотированные данные для обучения модели пользовательского распознавания объектов Amazon Comprehend.
Архитектура
Инструмент предварительной маркировки состоит из нескольких AWS Lambda функции, управляемые конечным автоматом Step Functions. Он имеет две версии, в которых используются разные методы создания предварительных аннотаций.
Первая техника – это нечеткое соответствие. Для этого требуется файл предварительного манифеста с ожидаемыми объектами. Инструмент использует алгоритм нечеткого сопоставления для создания предварительных аннотаций путем сравнения сходства текста.
Нечеткое сопоставление ищет в документе строки, которые похожи (но не обязательно идентичны) ожидаемым объектам, перечисленным в файле предварительного манифеста. Сначала он вычисляет показатели сходства текста между ожидаемым текстом и словами в документе, а затем сопоставляет все пары, превышающие пороговое значение. Таким образом, даже если точных совпадений нет, нечеткое сопоставление позволяет найти такие варианты, как сокращения и орфографические ошибки. Это позволяет инструменту предварительно маркировать документы, не требуя, чтобы объекты отображались дословно. Например, если 'AnyCompany Bank'
указан как ожидаемый объект, нечеткое сопоставление будет комментировать вхождения 'Any Companys Bank'
. Это обеспечивает большую гибкость, чем строгое сопоставление строк, и позволяет инструменту предварительной маркировки автоматически маркировать больше объектов.
Следующая диаграмма иллюстрирует архитектуру этого конечного автомата Step Functions.
Вторая технология требует предварительно обученная модель распознавания объектов Amazon Comprehend. Инструмент генерирует предварительные аннотации с использованием модели Amazon Comprehend, следуя рабочему процессу, показанному на следующей диаграмме.
Следующая диаграмма иллюстрирует полную архитектуру.
В следующих разделах мы рассмотрим шаги по реализации решения.
Развертывание инструмента предварительной маркировки
Клонируйте репозиторий на свой локальный компьютер:
Этот репозиторий создан на основе инструмента аннотаций полуструктурированных документов Comprehend и расширяет его функциональные возможности, позволяя вам запустить задание по маркировке SageMaker Ground Truth с предварительными аннотациями, уже отображенными в пользовательском интерфейсе SageMaker Ground Truth.
Инструмент предварительной маркировки включает в себя как ресурсы средства аннотирования полуструктурированных документов Comprehend, так и некоторые ресурсы, специфичные для инструмента предварительной маркировки. Вы можете развернуть решение с помощью Модель безсерверного приложения AWS (AWS SAM), инфраструктура с открытым исходным кодом, которую можно использовать для определения кода инфраструктуры бессерверных приложений.
Если вы ранее использовали инструмент аннотирования полуструктурированных документов Comprehend, обратитесь к разделу часто задаваемых вопросов в Pre_labeling_tool/README.md
инструкции о том, как развернуть только те ресурсы, которые относятся к инструменту предварительной маркировки.
Если вы еще не развернули этот инструмент и начинаете заново, выполните следующие действия, чтобы развернуть все решение.
Измените текущий каталог на папку с инструментом аннотаций:
Создайте и разверните решение:
Создайте файл предварительного манифеста
Прежде чем вы сможете использовать инструмент предварительной маркировки, вам необходимо подготовить данные. Основными входными данными являются PDF-документы и файл предварительного манифеста. Файл предварительного манифеста содержит расположение каждого PDF-документа в разделе 'pdf'
и расположение файла JSON с ожидаемыми объектами, которые нужно пометить под 'expected_entities'
.
Записная книжка генерировать_premanifest_file.ipynb показывает, как создать этот файл. В демо файл предварительного манифеста показывает следующий код:
Каждый файл JSON, указанный в файле предварительного манифеста (в разделе expected_entities
) содержит список словарей, по одному для каждого ожидаемого объекта. Словари имеют следующие ключи:
- 'ожидаемые_тексты' – Список возможных текстовых строк, соответствующих объекту.
- 'тип объекта' – Соответствующий тип объекта.
- «игнорировать_список» (необязательно) – Список слов, которые следует игнорировать в совпадении. Эти параметры следует использовать, чтобы предотвратить нечеткое сопоставление с определенными комбинациями слов, которые, как вы заведомо, неверны. Это может быть полезно, если вы хотите игнорировать некоторые номера или адреса электронной почты при просмотре имен.
Так, например, expected_entities
PDF-файл, показанный ранее, выглядит следующим образом:
Запустите инструмент предварительной маркировки
Используя файл предварительного манифеста, который вы создали на предыдущем шаге, запустите инструмент предварительной маркировки. Подробности смотрите в блокноте start_step_functions.ipynb.
Чтобы запустить инструмент предварительной маркировки, укажите event
со следующими ключами:
- Преманифест – Сопоставляет каждый PDF-документ с его
expected_entities
файл. Это должно содержать Простой сервис хранения Amazon (Amazon S3) ведро (подbucket
) и ключ (подkey
) файла. - Префикс – Используется для создания
execution_id
, который называет папку S3 для хранения выходных данных и имя задания маркировки SageMaker Ground Truth. - типы_сущностей – Отображается в пользовательском интерфейсе для комментаторов, которые могут пометить. Они должны включать все типы объектов в ожидаемых файлах объектов.
- имя_рабочей_команды (необязательно) – Используется для создания задания по маркировке SageMaker Ground Truth. Это соответствует использованию частной рабочей силы. Если он не указан, вместо задания маркировки SageMaker Ground Truth будет создан только файл манифеста. Вы можете использовать файл манифеста для создания задания по маркировке SageMaker Ground Truth позже. Обратите внимание, что на момент написания этой статьи вы не могли предоставить внешнюю рабочую силу при создании задания по маркировке из записной книжки. Однако вы можете клонировать созданное задание и назначить его внешнему сотруднику на консоли SageMaker Ground Truth.
- comprehend_parameters (необязательно) – Параметры для непосредственного обучения модели пользовательского распознавания объектов Amazon Comprehend. Если этот параметр опущен, этот шаг будет пропущен.
Чтобы запустить конечный автомат, запустите следующий код Python:
Это запустит запуск конечного автомата. Вы можете отслеживать ход работы конечного автомата на консоли Step Functions. На следующей диаграмме показан рабочий процесс конечного автомата.
Когда конечный автомат завершен, выполните следующие действия:
- Проверьте следующие выходные данные, сохраненные в
prelabeling/
папкаcomprehend-semi-structured-docs
Ведро S3:- Отдельные файлы аннотаций для каждой страницы документов (по одному на страницу каждого документа) в
temp_individual_manifests/
- Манифест задания по маркировке SageMaker Ground Truth в
consolidated_manifest/consolidated_manifest.manifest
- Манифест, который можно использовать для обучения пользовательской модели Amazon Comprehend в
consolidated_manifest/consolidated_manifest_comprehend.manifest
- Отдельные файлы аннотаций для каждой страницы документов (по одному на страницу каждого документа) в
- На консоли SageMaker откройте задание по маркировке SageMaker Ground Truth, созданное для просмотра аннотаций.
- Проверьте и протестируйте обученную пользовательскую модель Amazon Comprehend.
Как упоминалось ранее, инструмент может создавать задания по маркировке SageMaker Ground Truth только для частных сотрудников. Чтобы передать работу по маркировке людей на аутсорсинг, вы можете клонировать задание по маркировке на консоли SageMaker Ground Truth и подключить к новому заданию любую рабочую силу.
Убирать
Чтобы избежать дополнительных расходов, удалите созданные вами ресурсы и удалите стек, который вы развернули, с помощью следующей команды:
Заключение
Инструмент предварительной маркировки предоставляет компаниям мощный способ использовать существующие табличные данные для ускорения процесса обучения пользовательских моделей распознавания объектов в Amazon Comprehend. Автоматическое предварительное аннотирование PDF-документов значительно сокращает количество ручных усилий, необходимых в процессе маркировки.
У инструмента есть две версии: нечеткое сопоставление и версия на базе Amazon Comprehend, обеспечивающая гибкость при создании исходных аннотаций. После того как документы предварительно помечены, вы можете быстро просмотреть их с помощью задания по маркировке SageMaker Ground Truth или даже пропустить проверку и напрямую обучить пользовательскую модель Amazon Comprehend.
Инструмент предварительной маркировки позволяет вам быстро раскрыть ценность исторических данных объекта и использовать их при создании пользовательских моделей, адаптированных к вашему конкретному домену. Ускоряя, как правило, самую трудоемкую часть процесса, распознавание пользовательских объектов с помощью Amazon Comprehend становится более доступным, чем когда-либо.
Дополнительную информацию о том, как маркировать PDF-документы с помощью задания маркировки SageMaker Ground Truth, см. Настраиваемая аннотация документа для извлечения именованных сущностей в документах с помощью Amazon Comprehend и Используйте Amazon SageMaker Ground Truth для маркировки данных.
Об авторах
Оскар Шнаак — прикладной учёный в Инновационном центре генеративного искусственного интеллекта. Он с энтузиазмом погружается в науку, лежащую в основе машинного обучения, чтобы сделать ее доступной для клиентов. Вне работы Оскар любит кататься на велосипеде и следить за тенденциями в теории информации.
Ромен Бесомб — архитектор глубокого обучения в Инновационном центре генеративного искусственного интеллекта. Он увлечен созданием инновационных архитектур для решения бизнес-задач клиентов с помощью машинного обучения.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/automate-pdf-pre-labeling-for-amazon-comprehend/
- :имеет
- :является
- :нет
- $UP
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- О нас
- выше
- ускорять
- доступной
- точный
- дополнительный
- адрес
- адреса
- После
- AI
- алгоритм
- Все
- Позволяющий
- позволяет
- уже
- причислены
- Amazon
- Amazon Comprehend
- Создатель мудреца Амазонки
- Amazon SageMaker - основа правды
- Amazon Web Services
- an
- и
- любой
- API
- появиться
- Применение
- прикладной
- архитектура
- МЫ
- около
- AS
- At
- прикреплять
- автоматизировать
- автоматически
- доступен
- избежать
- AWS
- Банка
- BE
- было
- до
- за
- между
- изоферменты печени
- коробки
- Строительство
- построенный
- бизнес
- но
- by
- исчисляет
- CAN
- Центр
- расходы
- код
- COM
- комбинации
- Компании
- сравнив
- полный
- постигать
- состоит
- Консоли
- строить
- содержать
- содержит
- соответствующий
- соответствует
- Создайте
- создали
- создает
- Создающий
- Текущий
- изготовленный на заказ
- Клиенты
- данным
- Время
- уменьшается
- глубоко
- глубокое обучение
- определять
- демонстрация
- развертывание
- развернуть
- выводить
- подробнее
- различный
- непосредственно
- обсуждать
- отображается
- дайвинг
- do
- документ
- Документация
- лань
- домен
- сделанный
- рисовать
- каждый
- усилие
- позволяет
- позволяет
- лиц
- организация
- ERP
- Даже
- НИКОГДА
- пример
- Примеры
- существующий
- ожидаемый
- продолжается
- и, что лучший способ
- извлечение
- FAQ
- Файл
- Файлы
- Найдите
- Во-первых,
- Трансформируемость
- после
- Что касается
- формат
- Рамки
- свежий
- от
- полный
- функциональные возможности
- Функции
- порождать
- генерирует
- генеративный
- Генеративный ИИ
- Отдаете
- земля
- Есть
- he
- исторический
- Как
- How To
- Однако
- HTML
- HTTP
- HTTPS
- человек
- идентичный
- if
- игнорировать
- иллюстрирует
- осуществлять
- in
- включают
- включает в себя
- информация
- Инфраструктура
- начальный
- Инновации
- инновационный
- вход
- затраты
- размышления
- вместо
- инструкции
- интерес
- в
- IT
- ЕГО
- Джейн
- работа
- Джобс
- JPG
- JSON
- хранение
- Основные
- ключи
- Знать
- этикетка
- маркировка
- новее
- изучение
- такое как
- Список
- Включенный в список
- локальным
- расположение
- искать
- ВЗГЛЯДЫ
- машина
- обучение с помощью машины
- Главная
- сделать
- ДЕЛАЕТ
- руководство
- ручная работа
- вручную
- Карты
- Совпадение
- спички
- согласование
- упомянутый
- модель
- Модели
- монитор
- БОЛЕЕ
- самых
- с разными
- имя
- Названный
- имена
- обязательно
- Необходимость
- необходимый
- Новые
- НЛП
- нет
- в своих размышлениях
- ноутбук
- номера
- of
- on
- ONE
- только
- открытый
- с открытым исходным кодом
- or
- организовал
- выходной
- выходы
- внешнюю
- аутсорсинг
- обзор
- страница
- пар
- параметры
- часть
- страстный
- для
- человек
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- возможное
- После
- мощный
- Подготовить
- подготовка
- предотвращать
- предыдущий
- предварительно
- частная
- проблемам
- процесс
- обработка
- Прогресс
- обеспечивать
- при условии
- приводит
- что такое варган?
- Питон
- быстро
- признание
- уменьшить
- снижает
- относиться
- повторяющийся
- хранилище
- обязательный
- требуется
- Полезные ресурсы
- обзоре
- Run
- Бег
- sagemaker
- Сэм
- живица
- сохраняются
- Наука
- Ученый
- Во-вторых
- Раздел
- разделах
- посмотреть
- Serverless
- обслуживание
- Услуги
- установка
- должен
- показывать
- показанный
- Шоу
- существенно
- аналогичный
- просто
- Решение
- некоторые
- Источник
- конкретный
- стек
- Начало
- Начало
- Область
- отчетность
- Шаг
- Шаги
- диск
- Строгий
- строка
- такие
- системы
- с учетом
- принимает
- техника
- снижения вреда
- шаблон
- тестXNUMX
- текст
- текстовый
- чем
- который
- Ассоциация
- Государство
- их
- Их
- тогда
- теория
- Там.
- следовательно
- Эти
- вещи
- этой
- порог
- Через
- кропотливый
- в
- инструментом
- топ
- Train
- Обучение
- Тенденции
- Правда
- два
- напишите
- Типы
- типично
- ui
- под
- созданного
- отпереть
- использование
- используемый
- использования
- через
- ценностное
- версии
- от
- хотеть
- законопроект
- Путь..
- we
- Web
- веб-сервисы
- ЧТО Ж
- Что
- Что такое
- когда
- , которые
- все
- Википедия.
- будете
- без
- слова
- Работа
- рабочий
- Трудовые ресурсы
- письмо
- Неправильно
- Ты
- ВАШЕ
- зефирнет
- ZIP