Организационные формы служат основным бизнес-инструментом в различных отраслях — от финансовых услуг до здравоохранения и т. д. Возьмем, к примеру, налоговые формы в сфере управления налогами, где каждый год появляются новые формы, содержащие в основном одну и ту же информацию. Клиентам AWS из разных секторов необходимо обрабатывать и хранить информацию в формах в рамках своей повседневной деловой практики. Эти формы часто служат основным средством для поступления информации в организацию, где технологические средства сбора данных нецелесообразны.
Помимо использования форм для сбора информации, за годы работы Амазонка Текст, мы заметили, что клиенты AWS часто изменяют версии своих организационных форм на основе внесенных структурных изменений, добавленных или измененных полей или других соображений, таких как изменение года или версии формы.
Когда структура или содержание формы изменяется, часто это может вызвать проблемы для традиционных систем OCR или повлиять на последующие инструменты, используемые для сбора информации, даже если вам нужно собирать одну и ту же информацию из года в год и агрегировать данные для использования независимо от формата. документа.
Чтобы решить эту проблему, в этом посте мы покажем, как с помощью Amazon Textract можно создать и развернуть управляемый событиями бессерверный многоформатный конвейер синтаксического анализа документов.
Обзор решения
На следующей диаграмме показана архитектура нашего решения:
Во-первых, решение предлагает загрузку конвейера с использованием Простой сервис хранения Amazon (Amazon S3), уведомления о событиях Amazon S3 и Простой сервис очередей Amazon (Amazon SQS), чтобы обработка начиналась, когда форма попадает в целевой раздел Amazon S3. Событие на Amazon EventBridge создается и отправляется в AWS Lambda цель, запускающая задание Amazon Texttract.
Вы можете использовать бессерверные сервисы AWS, такие как Lambda и Шаговые функции AWS для создания асинхронной интеграции сервисов AWS AI и сервисов AWS Analytics и баз данных для хранения данных, аналитики, а также AI и машинного обучения (ML). В этом посте мы покажем, как использовать пошаговые функции для асинхронного управления и поддержания состояния запросов к асинхронным API Amazon Textract. Это достигается за счет использования конечного автомата для управления вызовами и ответами. Мы используем Lambda внутри конечного автомата для объединения данных ответа API с разбивкой на страницы из Amazon Textract в один объект JSON, содержащий частично структурированные текстовые данные, извлеченные с помощью OCR.
Затем мы фильтруем по разным формам, используя стандартизированный подход, чтобы агрегировать эти данные OCR в общий структурированный формат, используя Амазонка Афина и SQL Amazon Textract JSON Серде.
Вы можете отслеживать шаги, выполняемые в этом конвейере, с помощью бессерверных пошаговых функций, чтобы отслеживать состояние обработки и сохранять выходные данные каждого состояния. Это то, что клиенты в некоторых отраслях предпочитают делать при работе с данными, когда вы должны сохранять результаты всех прогнозов из таких сервисов, как Amazon Textract, чтобы обеспечить объяснимость результатов вашего пайплайна в долгосрочной перспективе.
Наконец, вы можете запросить извлеченные данные в таблицах Athena.
В следующих разделах мы проведем вас через настройку конвейера с помощью AWS CloudFormation, тестирование конвейера и добавление новых версий форм. Этот конвейер предоставляет удобное в сопровождении решение, поскольку каждый компонент (загрузка, извлечение текста, обработка текста) является независимым и изолированным.
Определить входные параметры по умолчанию для стеков CloudFormation
Чтобы определить входные параметры для стеков CloudFormation, откройте default.properties
под params
папку и введите следующий код:
Разверните решение
Чтобы развернуть конвейер, выполните следующие действия:
- Выберите Стек запуска:
- Выберите Следующая.
- Укажите детали стека, как показано на следующем снимке экрана, и выберите Следующая.
- В Настроить параметры стека раздел, добавьте необязательные теги, разрешения и другие дополнительные настройки.
- Выберите Следующая.
- Просмотрите сведения о стеке и выберите Я признаю, что AWS CloudFormation может создавать ресурсы IAM с пользовательскими именами.
- Выберите Создать стек.
Это инициирует развертывание стека в вашей учетной записи AWS.
После успешного развертывания стека вы можете начать тестирование конвейера, как описано в следующем разделе.
Протестируйте конвейер
После успешного развертывания выполните следующие шаги, чтобы протестировать конвейер:
- Скачать образцы файлов на ваш компьютер.
- Создать
/uploads
папка (раздел) во вновь созданном входном сегменте S3.
- Создайте отдельные папки (разделы), например
jobapplications
под/uploads
.
- Загрузите первую версию заявления о приеме на работу из папки с образцами документов в
/uploads/jobapplications
раздел.
Когда конвейер будет завершен, вы можете найти извлеченную пару "ключ-значение" для этой версии документа в /OuputS3/03-textract-parsed-output/jobapplications
на консоли Amazon S3.
Вы также можете найти его в таблице Athena (applications_data_table
) на База данных меню (jobapplicationsdatabase
).
- Загрузите вторую версию заявления о приеме на работу из папки с образцами документов в
/uploads/jobapplications
раздел.
Когда конвейер будет завершен, вы можете найти извлеченную пару "ключ-значение" для этой версии в /OuputS3/03-textract-parsed-output/jobapplications
на консоли Amazon S3.
Вы также можете найти его в таблице Athena (applications_data_table
) на База данных меню (jobapplicationsdatabase
).
Готово! Вы успешно развернули конвейер.
Добавить новые версии формы
Обновить решение для новой версии формы очень просто — каждую версию формы нужно обновить только путем тестирования запросов в стеке обработки.
После внесения обновлений вы можете повторно развернуть обновленный конвейер с помощью API-интерфейсов AWS CloudFormation и обрабатывать новые документы, получая те же стандартные точки данных для вашей схемы с минимальными перерывами и усилиями по разработке, необходимыми для внесения изменений в ваш конвейер. Эта гибкость, достигаемая за счет разделения поведения синтаксического анализа и извлечения и использования функций JSON SerDe в Athena, делает этот конвейер удобным решением для любого количества версий форм, которые вашей организации необходимо обработать для сбора информации.
Когда вы запускаете решение для загрузки, данные из входящих форм автоматически заполняются в Athena информацией о файлах и связанных с ними входных данных. Когда данные в ваших формах перемещаются из неструктурированных в структурированные данные, они готовы к использованию для последующих приложений, таких как аналитика, моделирование машинного обучения и т. д.
Убирать
Чтобы избежать текущих расходов, удалите ресурсы, которые вы создали как часть этого решения, когда закончите.
- На консоли Amazon S3 вручную удалите корзины, созданные вами как часть стека CloudFormation.
- В консоли AWS CloudFormation выберите Стеки в навигационной панели.
- Выберите основной стек и выберите Удалить.
Это автоматически удаляет вложенные стеки.
Заключение
В этом посте мы продемонстрировали, как клиенты, желающие отслеживать и настраивать обработку документов, могут создать и развернуть управляемый событиями бессерверный многоформатный конвейер синтаксического анализа документов с помощью Amazon Textract. Этот конвейер обеспечивает удобное в обслуживании решение, поскольку каждый компонент (загрузка, извлечение текста, обработка текста) является независимым и изолированным, что позволяет организациям эксплуатировать свои решения для удовлетворения различных потребностей в обработке.
Попробуйте решение сегодня и оставьте свой отзыв в разделе комментариев.
Об авторах
Эмили Совард является специалистом по данным в AWS Professional Services. Она имеет степень магистра наук с отличием в области искусственного интеллекта Эдинбургского университета в Шотландии, Великобритания, с упором на обработку естественного языка (NLP). Эмили работала на прикладных научных и инженерных должностях, занимаясь исследованиями и разработками продуктов с поддержкой ИИ, операционным совершенством и управлением рабочими нагрузками ИИ, выполняемыми в организациях государственного и частного секторов. Она участвует в консультировании клиентов в качестве старшего спикера AWS, а недавно — в качестве автора книги AWS Well-Architected in the Machine Learning Lens.
Сандип Сингх является специалистом по данным в AWS Professional Services. Он имеет степень магистра наук в области информационных систем со специализацией в области искусственного интеллекта и науки о данных Университета штата Сан-Диего (SDSU), Калифорния. Он специалист по обработке и анализу данных с большим опытом работы в области компьютерных наук и доверенный консультант со специализацией в области систем искусственного интеллекта и проектирования систем управления. Он увлечен тем, что помогает клиентам направлять их высокоэффективные проекты в правильном направлении, консультирует и направляет их на пути к облачным технологиям, а также создает современные решения с поддержкой искусственного интеллекта и машинного обучения.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-texttract/
- "
- 100
- О нас
- Учетная запись
- достигнутый
- через
- адрес
- продвинутый
- AI
- Услуги искусственного интеллекта
- Все
- Позволяющий
- Amazon
- аналитика
- API
- API
- Применение
- Приложения
- подхода
- архитектура
- искусственный
- искусственный интеллект
- AWS
- фон
- граница
- строить
- Строительство
- бизнес
- Калифорния
- Вызывать
- проблемы
- изменение
- расходы
- облако
- код
- Комментарии
- Общий
- компонент
- Информатика
- концентрации
- Консоли
- содержание
- контроль
- Клиенты
- данным
- наука о данных
- ученый данных
- База данных
- убивают
- развертывание
- развертывание
- Проект
- Развитие
- различный
- Нарушение
- Документация
- Проект и
- События
- пример
- Обратная связь
- Поля
- финансовый
- финансовые услуги
- First
- Трансформируемость
- поток
- внимание
- после
- форма
- формат
- формы
- полный
- функциональность
- управление
- здравоохранение
- High
- имеет
- Как
- How To
- HTTPS
- Влияние
- промышленности
- промышленность
- информация
- интеграций
- Интеллекта
- IT
- работа
- Королевство
- язык
- изучение
- Оставлять
- Длинное
- машина
- обучение с помощью машины
- поддерживать
- управление
- управления
- вручную
- ML
- натуральный
- Навигация
- номер
- предлагающий
- Предложения
- открытый
- организация
- организационной
- организации
- Другие контрактные услуги
- практика
- Predictions
- первичный
- частная
- Проблема
- процесс
- Продукт
- профессиональный
- проектов
- приводит
- что такое варган?
- исследованиям
- исследование и разработка
- Полезные ресурсы
- ответ
- Итоги
- Run
- Бег
- Сан -
- Наука
- Ученый
- сектор
- Сектора юридического права
- поиск
- Serverless
- обслуживание
- Услуги
- набор
- установка
- просто
- So
- Решение
- Решения
- РЕШАТЬ
- удалось
- Динамик
- стек
- Начало
- Область
- современное состояние
- диск
- магазин
- сильный
- успешный
- Успешно
- системы
- цель
- налог
- тестXNUMX
- Тестирование
- Через
- сегодня
- инструментом
- инструменты
- трек
- традиционный
- Объединенный
- Великобритания
- Университет
- Updates
- использование
- ценностное
- в
- работает
- год
- лет