Модерация, классификация и обработка документов с помощью Amazon Rekognition и Amazon Textract

Переиздано Платоном

Читают: 0

Многие компании перегружены огромным объемом документов, которые им приходится обрабатывать, систематизировать и классифицировать, чтобы лучше обслуживать своих клиентов. Примерами таких могут быть заявки на получение кредита, подача налоговых деклараций и выставление счетов. Такие документы чаще всего принимаются в графических форматах, в основном многостраничные и в низкокачественном формате. Чтобы быть более конкурентоспособными и экономически эффективными, а также оставаться безопасными и соответствовать требованиям, эти компании должны развивать свои возможности обработки документов, чтобы сократить время обработки и повысить точность классификации автоматизированным и масштабируемым способом. Эти компании сталкиваются со следующими проблемами при оформлении документов:

Выполнение модерации документов для выявления неуместного, нежелательного или оскорбительного содержания.
Ручная классификация документов, принятая небольшими компаниями, требует много времени, подвержена ошибкам и является дорогостоящей.
Методы OCR с системами, основанными на правилах, недостаточно интеллектуальны и не могут адаптироваться к изменениям в формате документа.
Компании, применяющие подходы машинного обучения (ML), часто не имеют ресурсов для масштабирования своей модели, чтобы справляться с резкими скачками объема входящих документов.

Этот пост решает эти проблемы и предоставляет архитектуру, которая эффективно решает эти проблемы. Мы покажем, как вы можете использовать Апостол и Амазонка Текст оптимизировать и сократить человеческие усилия при обработке документов. Amazon Rekognition идентифицирует метки модерации в вашем документе и классифицирует их с помощью Пользовательские ярлыки Amazon Rekognition. Amazon Textract извлекает текст из ваших документов.

В этом посте мы расскажем о создании двух конвейеров машинного обучения (обучения и логического вывода) для обработки документов без необходимости каких-либо ручных усилий или пользовательского кода. Шаги высокого уровня в конвейере логического вывода включают:

Выполняйте модерацию загруженных документов с помощью Amazon Rekognition.
Классифицируйте документы по различным категориям, таким как W-2, счета-фактуры, банковские выписки и платежные квитанции, с помощью пользовательских меток Rekognition.
Извлекайте текст из документов, например печатный текст, рукописный текст, формы и таблицы, с помощью Amazon Textract.

Обзор решения

В этом решении используются следующие службы AI, бессерверные технологии и управляемые службы для реализации масштабируемой и экономически эффективной архитектуры:

Amazon DynamoDB - База данных "ключ-значение" и документов, обеспечивающая производительность в миллисекундах, измеряемую одним числом, в любом масштабе.
Amazon EventBridge – Бессерверная шина событий для создания управляемых событиями приложений в масштабе с использованием событий, генерируемых вашими приложениями, интегрированными приложениями «программное обеспечение как услуга» (SaaS) и сервисами AWS.
AWS Lambda – Служба бессерверных вычислений, позволяющая запускать код в ответ на такие триггеры, как изменения данных, изменения в состоянии системы или действия пользователя.
Апостол – Использует машинное обучение для идентификации объектов, людей, текста, сцен и действий на изображениях и видео, а также для обнаружения любого неприемлемого контента.
Пользовательские ярлыки Amazon Rekognition – Использует AutoML для компьютерного зрения и трансферного обучения, чтобы помочь вам обучать пользовательские модели идентифицировать объекты и сцены на изображениях, которые соответствуют потребностям вашего бизнеса.
Сервис Amazon Simple Storage (Amazon S3) – Служит хранилищем объектов для ваших документов и обеспечивает централизованное управление с точно настроенным контролем доступа.
Amazon Шаг Функции – Бессерверный оркестратор функций, упрощающий включение функций Lambda и нескольких сервисов в критически важные бизнес-приложения.
Амазонка Текст - Использует ML для извлечения текста и данных из отсканированных документов в форматах PDF, JPEG или PNG.

Следующая диаграмма иллюстрирует архитектуру конвейера логического вывода.

Наш рабочий процесс включает следующие этапы:

Пользователь загружает документы во входную корзину S3.
Загрузка вызывает Уведомление о событии Amazon S3 для доставки событий в реальном времени непосредственно в EventBridge. События Amazon S3, соответствующие «object created” фильтр, определенный для Правило EventBridge запускает рабочий процесс Step Functions.
Рабочий процесс Step Functions запускает ряд функций Lambda, которые выполняют следующие задачи:
1. Первая функция выполняет задачи предварительной обработки и делает вызовы API к Amazon Rekognition:
  - Если входящие документы представлены в формате изображения (например, JPG или PNG), функция вызывает API Amazon Rekognition и предоставляет документы в виде объектов S3. Однако если документ имеет формат PDF, функция передает байты изображения в потоковом режиме при вызове API Amazon Rekognition.
  - Если документ содержит несколько страниц, функция разбивает документ на отдельные страницы и сохраняет их в промежуточной папке в выходной корзине S3, прежде чем обрабатывать их по отдельности.
  - Когда задачи предварительной обработки завершены, функция выполняет вызов API к Amazon Rekognition для обнаружения неприемлемого, нежелательного или оскорбительного контента и выполняет еще один вызов API к обученной модели пользовательских меток Rekognition для классификации документов.
2. Вторая функция выполняет вызов API к Amazon Textract, чтобы инициировать задание по извлечению текста из входного документа и сохранению его в выходной корзине S3.
3. Третья функция сохраняет метаданные документа, такие как метка модерации, классификация документа, достоверность классификации, идентификатор задания Amazon Textract и путь к файлу, в таблицу DynamoDB.

Вы можете настроить рабочий процесс в соответствии с вашими требованиями, например, вы можете добавить в этот рабочий процесс возможность обработки естественного языка (NLP), используя Amazon Comprehend получить представление о извлеченном тексте.

Учебный конвейер

Перед развертыванием этой архитектуры мы обучаем пользовательскую модель классифицировать документы по различным категориям с помощью пользовательских меток Rekognition. В обучающем конвейере мы помечаем документы, используя Amazon SageMaker - основа правды. Затем мы используем размеченные документы для обучения модели с помощью пользовательских меток Rekognition. В этом примере мы используем Создатель мудреца Амазонки Notebook для выполнения этих действий, но вы также можете аннотировать изображения с помощью консоли Rekognition Custom Labels. Инструкции см. Маркировка изображений.

Архитектура конвейера обучения

Dataset

Для обучения модели мы используем следующие общедоступные наборы данных, содержащие W2 и счета:

Вы можете использовать другой набор данных, соответствующий вашей отрасли.

В следующей таблице представлены данные о разделении набора данных между обучением и тестированием.

Класс	Обучающий набор	Набор для испытаний
Счета	352	75
W-2	86	16
Всего	438	91

Разверните конвейер обучения с помощью AWS CloudFormation

Вы развертываете AWS CloudFormation шаблон для предоставления необходимых Управление идентификацией и доступом AWS (IAM) роли и компоненты конвейера обучения, включая экземпляр записной книжки SageMaker.

Запустите следующий шаблон CloudFormation в регионе Восток США (Северная Вирджиния):
Что касается Название стекавведите имя, например document-processing-training-pipeline.
Выберите Следующая.
В Возможности и преобразования раздел, установите флажок, чтобы подтвердить, что AWS CloudFormation может создавать Ресурсы IAM.
Выберите Создать стек.

Страница сведений о стеке должна отображать состояние стека как CREATE_IN_PROGRESS, Изменение статуса до 5 минут CREATE_COMPLETE. Когда он будет завершен, вы можете просмотреть результаты на Выходы меню.

После успешного запуска стека откройте консоль SageMaker и выберите Экземпляры ноутбуков в названии навигации.
Найдите экземпляр с DocProcessingNotebookInstance- префикс и подождите, пока его статус не станет InService.
Под Действия, выберите Открытый Юпитер.

Запустите пример блокнота

Чтобы запустить ноутбук, выполните следующие действия:

Выберите Rekognition_Custom_Labels пример блокнота.
Выберите Run для запуска ячеек в примере записной книжки по порядку.

Блокнот демонстрирует весь жизненный цикл подготовки обучающих и тестовых изображений, их маркировки, создания файлов манифеста, обучения модели и запуска обученной модели с помощью пользовательских меток Rekognition. Кроме того, вы можете обучить и запустить модель с помощью консоли Rekognition Custom Labels. Инструкции см. Обучение модели (Консоль).

Блокнот говорит сам за себя; вы можете выполнить шаги, чтобы завершить обучение модели.

Запишите ProjectVersionArn чтобы обеспечить конвейер вывода на более позднем этапе.

Для экземпляров ноутбука SageMaker взимается плата за выбранный тип экземпляра в зависимости от продолжительности использования. Если вы закончили обучение модели, вы можете остановить экземпляр записной книжки, чтобы избежать затрат на простаивающие ресурсы.

Разверните конвейер логического вывода с помощью AWS CloudFormation

Чтобы развернуть конвейер вывода, выполните следующие шаги:

Запустите следующий шаблон CloudFormation в регионе Восток США (Северная Вирджиния):
Что касается Название стекавведите имя, например document-processing-inference-pipeline.
Что касается DynamoDBTableName, введите уникальное имя таблицы DynamoDB; Например, document-processing-table.
Что касается Инпутбакетнаме, введите уникальное имя корзины S3, которую создает стек; Например, document-processing-input-bucket.

Входные документы загружаются в этот сегмент до их обработки. Используйте только символы нижнего регистра и без пробелов при создании имени входного сегмента. Кроме того, эта операция создает новую корзину S3, поэтому не используйте имя существующей корзины. Для получения дополнительной информации см. Правила присвоения имен Bucket.

Что касается имявыходного ведра, введите уникальное имя для выходного сегмента; например, дocument-processing-output-bucket.

В этом сегменте хранятся выходные документы после их обработки. Он также хранит страницы многостраничных входных документов PDF после их разделения функцией Lambda. Следуйте тем же правилам именования, что и для входного сегмента.

Что касается RekognitionCustomLabelModelARN, введите ProjectVersionArn значение, которое вы отметили в блокноте Jupyter.
Выберите Следующая.
На Настроить параметры стека page, установите любые дополнительные параметры для стека, включая теги.
Выберите Следующая.
В Возможности и преобразования установите флажок, чтобы подтвердить, что AWS CloudFormation может создавать ресурсы IAM.
Выберите Создать стек.

Обработка документа через конвейер

Мы развернули конвейеры обучения и логического вывода и теперь готовы использовать решение и обрабатывать документ.

На консоли Amazon S3 откройте корзину ввода.
Загрузите образец документа в папку S3.

Это запускает рабочий процесс. Этот процесс заполняет таблицу DynamoDB классификацией документов и метками модерации. Выходные данные Amazon Textract доставляются в выходную корзину S3 в TextractOutput папку.

Мы отправили несколько различных образцов документов в рабочий процесс и получили следующую информацию, заполненную в таблице DynamoDB.

Хранение метаданных в DynamoDB

Если вы не видите элементы в таблице DynamoDB или документы, загруженные в выходную корзину S3, проверьте Журналы Amazon CloudWatch для соответствующей лямбда-функции и найдите потенциальные ошибки, которые вызвали сбой.

Убирать

Выполните следующие действия, чтобы очистить ресурсы, развернутые для этого решения:

В консоли CloudFormation выберите Стеки.
Выберите стеки, развернутые для этого решения.
Выберите Удалить.

Эти шаги не удаляют корзины S3, таблицу DynamoDB и обученную модель пользовательских меток Rekognition. С вас по-прежнему будет взиматься плата за хранение, если они не будут удалены. Вам следует удалить эти ресурсы напрямую через соответствующие сервисные консоли, если они вам больше не нужны.

Заключение

В этом посте мы представили масштабируемый, безопасный и автоматизированный подход к модерации, классификации и обработке документов. Компании из разных отраслей могут использовать это решение для улучшения своего бизнеса и лучшего обслуживания клиентов. Это позволяет ускорить обработку документов и повысить точность, а также упрощает извлечение данных. Это также обеспечивает лучшую безопасность и соблюдение законодательства о персональных данных за счет сокращения рабочей силы, задействованной в обработке входящих документов.

Для получения дополнительной информации см. Руководство по пользовательским меткам Amazon Rekognition, Руководство разработчика Amazon Rekognition и Руководство разработчика по Amazon Text. Если вы новичок в использовании пользовательских меток Amazon Rekognition, попробуйте его на нашем уровне бесплатного пользования, который длится 3 месяца и включает 10 бесплатных часов обучения в месяц и 4 бесплатных часа получения логических выводов в месяц. Уровень бесплатного пользования Amazon Rekognition включает обработку 5,000 изображений в месяц в течение 12 месяцев. Уровень бесплатного пользования Amazon Textract также длится три месяца и включает 1,000 страниц в месяц для API Detect Document Text.

Об авторах

Джей Рао является главным архитектором решений в AWS. Ему нравится предоставлять технические и стратегические рекомендации клиентам и помогать им разрабатывать и внедрять решения на AWS.

Ученна Эгбе является младшим архитектором решений в AWS. Он проводит свое свободное время, изучая травы, чаи, суперпродукты и то, как он может включить их в свой ежедневный рацион.

Отметка времени: 12 мая 2022

Отметка времени: 28 ноября, 2022

Модерация, классификация и обработка документов с помощью Amazon Rekognition и Amazon Textract

Переиздано Платоном

Обзор решения

Учебный конвейер

Dataset

Разверните конвейер обучения с помощью AWS CloudFormation

Запустите пример блокнота

Разверните конвейер логического вывода с помощью AWS CloudFormation

Обработка документа через конвейер

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Добейтесь максимальной производительности Stable Diffusion и снизьте затраты на логические выводы с помощью AWS Inferentia2 | Веб-сервисы Амазонки

Создайте пользовательский набор данных вопросов и ответов с помощью Amazon SageMaker Ground Truth для обучения модели NLU вопросов и ответов Hugging Face.

Как Patsnap использовал вывод GPT-2 в Amazon SageMaker с низкой задержкой и затратами | Веб-сервисы Амазонки

Обеспечьте мониторинг корпоративного уровня для своих моделей Amazon SageMaker с помощью Fiddler.

Используйте предварительно подписанный URL-адрес, чтобы предоставить своим бизнес-аналитикам безопасный доступ к Amazon SageMaker Canvas.

Представляем табличный поиск Amazon Kendra для HTML-документов

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись