Создайте отслеживаемый, индивидуальный, многоформатный конвейер анализа документов с помощью Amazon Textract

Переиздано Платоном

Читают: 0

Организационные формы служат основным бизнес-инструментом в различных отраслях — от финансовых услуг до здравоохранения и т. д. Возьмем, к примеру, налоговые формы в сфере управления налогами, где каждый год появляются новые формы, содержащие в основном одну и ту же информацию. Клиентам AWS из разных секторов необходимо обрабатывать и хранить информацию в формах в рамках своей повседневной деловой практики. Эти формы часто служат основным средством для поступления информации в организацию, где технологические средства сбора данных нецелесообразны.

Помимо использования форм для сбора информации, за годы работы Амазонка Текст, мы заметили, что клиенты AWS часто изменяют версии своих организационных форм на основе внесенных структурных изменений, добавленных или измененных полей или других соображений, таких как изменение года или версии формы.

Когда структура или содержание формы изменяется, часто это может вызвать проблемы для традиционных систем OCR или повлиять на последующие инструменты, используемые для сбора информации, даже если вам нужно собирать одну и ту же информацию из года в год и агрегировать данные для использования независимо от формата. документа.

Чтобы решить эту проблему, в этом посте мы покажем, как с помощью Amazon Textract можно создать и развернуть управляемый событиями бессерверный многоформатный конвейер синтаксического анализа документов.

Обзор решения

На следующей диаграмме показана архитектура нашего решения:

Во-первых, решение предлагает загрузку конвейера с использованием Простой сервис хранения Amazon (Amazon S3), уведомления о событиях Amazon S3 и Простой сервис очередей Amazon (Amazon SQS), чтобы обработка начиналась, когда форма попадает в целевой раздел Amazon S3. Событие на Amazon EventBridge создается и отправляется в AWS Lambda цель, запускающая задание Amazon Texttract.

Вы можете использовать бессерверные сервисы AWS, такие как Lambda и Шаговые функции AWS для создания асинхронной интеграции сервисов AWS AI и сервисов AWS Analytics и баз данных для хранения данных, аналитики, а также AI и машинного обучения (ML). В этом посте мы покажем, как использовать пошаговые функции для асинхронного управления и поддержания состояния запросов к асинхронным API Amazon Textract. Это достигается за счет использования конечного автомата для управления вызовами и ответами. Мы используем Lambda внутри конечного автомата для объединения данных ответа API с разбивкой на страницы из Amazon Textract в один объект JSON, содержащий частично структурированные текстовые данные, извлеченные с помощью OCR.

Затем мы фильтруем по разным формам, используя стандартизированный подход, чтобы агрегировать эти данные OCR в общий структурированный формат, используя Амазонка Афина и SQL Amazon Textract JSON Серде.

Вы можете отслеживать шаги, выполняемые в этом конвейере, с помощью бессерверных пошаговых функций, чтобы отслеживать состояние обработки и сохранять выходные данные каждого состояния. Это то, что клиенты в некоторых отраслях предпочитают делать при работе с данными, когда вы должны сохранять результаты всех прогнозов из таких сервисов, как Amazon Textract, чтобы обеспечить объяснимость результатов вашего пайплайна в долгосрочной перспективе.

Наконец, вы можете запросить извлеченные данные в таблицах Athena.

В следующих разделах мы проведем вас через настройку конвейера с помощью AWS CloudFormation, тестирование конвейера и добавление новых версий форм. Этот конвейер предоставляет удобное в сопровождении решение, поскольку каждый компонент (загрузка, извлечение текста, обработка текста) является независимым и изолированным.

Определить входные параметры по умолчанию для стеков CloudFormation

Чтобы определить входные параметры для стеков CloudFormation, откройте default.properties под params папку и введите следующий код:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Разверните решение

Чтобы развернуть конвейер, выполните следующие действия:

Выберите Стек запуска:
Выберите Следующая.
Укажите детали стека, как показано на следующем снимке экрана, и выберите Следующая.
В Настроить параметры стека раздел, добавьте необязательные теги, разрешения и другие дополнительные настройки.
Выберите Следующая.
Просмотрите сведения о стеке и выберите Я признаю, что AWS CloudFormation может создавать ресурсы IAM с пользовательскими именами.
Выберите Создать стек.

Это инициирует развертывание стека в вашей учетной записи AWS.

После успешного развертывания стека вы можете начать тестирование конвейера, как описано в следующем разделе.

Протестируйте конвейер

После успешного развертывания выполните следующие шаги, чтобы протестировать конвейер:

Скачать образцы файлов на ваш компьютер.
Создать /uploads папка (раздел) во вновь созданном входном сегменте S3.
Создайте отдельные папки (разделы), например jobapplications под /uploads.
Загрузите первую версию заявления о приеме на работу из папки с образцами документов в /uploads/jobapplications раздел.

Когда конвейер будет завершен, вы можете найти извлеченную пару "ключ-значение" для этой версии документа в /OuputS3/03-textract-parsed-output/jobapplications на консоли Amazon S3.

Вы также можете найти его в таблице Athena (applications_data_table) на База данных меню (jobapplicationsdatabase).

Загрузите вторую версию заявления о приеме на работу из папки с образцами документов в /uploads/jobapplications раздел.

Когда конвейер будет завершен, вы можете найти извлеченную пару "ключ-значение" для этой версии в /OuputS3/03-textract-parsed-output/jobapplications на консоли Amazon S3.

Вы также можете найти его в таблице Athena (applications_data_table) на База данных меню (jobapplicationsdatabase).

Готово! Вы успешно развернули конвейер.

Добавить новые версии формы

Обновить решение для новой версии формы очень просто — каждую версию формы нужно обновить только путем тестирования запросов в стеке обработки.

После внесения обновлений вы можете повторно развернуть обновленный конвейер с помощью API-интерфейсов AWS CloudFormation и обрабатывать новые документы, получая те же стандартные точки данных для вашей схемы с минимальными перерывами и усилиями по разработке, необходимыми для внесения изменений в ваш конвейер. Эта гибкость, достигаемая за счет разделения поведения синтаксического анализа и извлечения и использования функций JSON SerDe в Athena, делает этот конвейер удобным решением для любого количества версий форм, которые вашей организации необходимо обработать для сбора информации.

Когда вы запускаете решение для загрузки, данные из входящих форм автоматически заполняются в Athena информацией о файлах и связанных с ними входных данных. Когда данные в ваших формах перемещаются из неструктурированных в структурированные данные, они готовы к использованию для последующих приложений, таких как аналитика, моделирование машинного обучения и т. д.

Убирать

Чтобы избежать текущих расходов, удалите ресурсы, которые вы создали как часть этого решения, когда закончите.

На консоли Amazon S3 вручную удалите корзины, созданные вами как часть стека CloudFormation.
В консоли AWS CloudFormation выберите Стеки в навигационной панели.
Выберите основной стек и выберите Удалить.

Это автоматически удаляет вложенные стеки.

Заключение

В этом посте мы продемонстрировали, как клиенты, желающие отслеживать и настраивать обработку документов, могут создать и развернуть управляемый событиями бессерверный многоформатный конвейер синтаксического анализа документов с помощью Amazon Textract. Этот конвейер обеспечивает удобное в обслуживании решение, поскольку каждый компонент (загрузка, извлечение текста, обработка текста) является независимым и изолированным, что позволяет организациям эксплуатировать свои решения для удовлетворения различных потребностей в обработке.

Попробуйте решение сегодня и оставьте свой отзыв в разделе комментариев.

Об авторах

Эмили Совард является специалистом по данным в AWS Professional Services. Она имеет степень магистра наук с отличием в области искусственного интеллекта Эдинбургского университета в Шотландии, Великобритания, с упором на обработку естественного языка (NLP). Эмили работала на прикладных научных и инженерных должностях, занимаясь исследованиями и разработками продуктов с поддержкой ИИ, операционным совершенством и управлением рабочими нагрузками ИИ, выполняемыми в организациях государственного и частного секторов. Она участвует в консультировании клиентов в качестве старшего спикера AWS, а недавно — в качестве автора книги AWS Well-Architected in the Machine Learning Lens.

Сандип Сингх является специалистом по данным в AWS Professional Services. Он имеет степень магистра наук в области информационных систем со специализацией в области искусственного интеллекта и науки о данных Университета штата Сан-Диего (SDSU), Калифорния. Он специалист по обработке и анализу данных с большим опытом работы в области компьютерных наук и доверенный консультант со специализацией в области систем искусственного интеллекта и проектирования систем управления. Он увлечен тем, что помогает клиентам направлять их высокоэффективные проекты в правильном направлении, консультирует и направляет их на пути к облачным технологиям, а также создает современные решения с поддержкой искусственного интеллекта и машинного обучения.

Отметка времени: 17 марта 2022

Отметка времени: Июль 18, 2023

Создайте отслеживаемый, настраиваемый, многоформатный конвейер анализа документов с помощью Amazon Textract.

Переиздано Платоном

Обзор решения

Определить входные параметры по умолчанию для стеков CloudFormation

Разверните решение

Протестируйте конвейер

Добавить новые версии формы

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Базы знаний для Amazon Bedrock теперь поддерживают фильтрацию метаданных для повышения точности поиска | Веб-сервисы Amazon

Настройте проект суммирования текста с помощью Hugging Face Transformers: Часть 1

Создание детектора спама в электронной почте с помощью Amazon SageMaker | Веб-сервисы Амазонки

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись