Многие компании перегружены огромным объемом документов, которые им приходится обрабатывать, систематизировать и классифицировать, чтобы лучше обслуживать своих клиентов. Примерами таких могут быть заявки на получение кредита, подача налоговых деклараций и выставление счетов. Такие документы чаще всего принимаются в графических форматах, в основном многостраничные и в низкокачественном формате. Чтобы быть более конкурентоспособными и экономически эффективными, а также оставаться безопасными и соответствовать требованиям, эти компании должны развивать свои возможности обработки документов, чтобы сократить время обработки и повысить точность классификации автоматизированным и масштабируемым способом. Эти компании сталкиваются со следующими проблемами при оформлении документов:
- Выполнение модерации документов для выявления неуместного, нежелательного или оскорбительного содержания.
- Ручная классификация документов, принятая небольшими компаниями, требует много времени, подвержена ошибкам и является дорогостоящей.
- Методы OCR с системами, основанными на правилах, недостаточно интеллектуальны и не могут адаптироваться к изменениям в формате документа.
- Компании, применяющие подходы машинного обучения (ML), часто не имеют ресурсов для масштабирования своей модели, чтобы справляться с резкими скачками объема входящих документов.
Этот пост решает эти проблемы и предоставляет архитектуру, которая эффективно решает эти проблемы. Мы покажем, как вы можете использовать Апостол и Амазонка Текст оптимизировать и сократить человеческие усилия при обработке документов. Amazon Rekognition идентифицирует метки модерации в вашем документе и классифицирует их с помощью Пользовательские ярлыки Amazon Rekognition. Amazon Textract извлекает текст из ваших документов.
В этом посте мы расскажем о создании двух конвейеров машинного обучения (обучения и логического вывода) для обработки документов без необходимости каких-либо ручных усилий или пользовательского кода. Шаги высокого уровня в конвейере логического вывода включают:
- Выполняйте модерацию загруженных документов с помощью Amazon Rekognition.
- Классифицируйте документы по различным категориям, таким как W-2, счета-фактуры, банковские выписки и платежные квитанции, с помощью пользовательских меток Rekognition.
- Извлекайте текст из документов, например печатный текст, рукописный текст, формы и таблицы, с помощью Amazon Textract.
Обзор решения
В этом решении используются следующие службы AI, бессерверные технологии и управляемые службы для реализации масштабируемой и экономически эффективной архитектуры:
- Amazon DynamoDB - База данных "ключ-значение" и документов, обеспечивающая производительность в миллисекундах, измеряемую одним числом, в любом масштабе.
- Amazon EventBridge – Бессерверная шина событий для создания управляемых событиями приложений в масштабе с использованием событий, генерируемых вашими приложениями, интегрированными приложениями «программное обеспечение как услуга» (SaaS) и сервисами AWS.
- AWS Lambda – Служба бессерверных вычислений, позволяющая запускать код в ответ на такие триггеры, как изменения данных, изменения в состоянии системы или действия пользователя.
- Апостол – Использует машинное обучение для идентификации объектов, людей, текста, сцен и действий на изображениях и видео, а также для обнаружения любого неприемлемого контента.
- Пользовательские ярлыки Amazon Rekognition – Использует AutoML для компьютерного зрения и трансферного обучения, чтобы помочь вам обучать пользовательские модели идентифицировать объекты и сцены на изображениях, которые соответствуют потребностям вашего бизнеса.
- Сервис Amazon Simple Storage (Amazon S3) – Служит хранилищем объектов для ваших документов и обеспечивает централизованное управление с точно настроенным контролем доступа.
- Amazon Шаг Функции – Бессерверный оркестратор функций, упрощающий включение функций Lambda и нескольких сервисов в критически важные бизнес-приложения.
- Амазонка Текст - Использует ML для извлечения текста и данных из отсканированных документов в форматах PDF, JPEG или PNG.
Следующая диаграмма иллюстрирует архитектуру конвейера логического вывода.
Наш рабочий процесс включает следующие этапы:
- Пользователь загружает документы во входную корзину S3.
- Загрузка вызывает Уведомление о событии Amazon S3 для доставки событий в реальном времени непосредственно в EventBridge. События Amazon S3, соответствующие «
object created
” фильтр, определенный для Правило EventBridge запускает рабочий процесс Step Functions. - Рабочий процесс Step Functions запускает ряд функций Lambda, которые выполняют следующие задачи:
- Первая функция выполняет задачи предварительной обработки и делает вызовы API к Amazon Rekognition:
- Если входящие документы представлены в формате изображения (например, JPG или PNG), функция вызывает API Amazon Rekognition и предоставляет документы в виде объектов S3. Однако если документ имеет формат PDF, функция передает байты изображения в потоковом режиме при вызове API Amazon Rekognition.
- Если документ содержит несколько страниц, функция разбивает документ на отдельные страницы и сохраняет их в промежуточной папке в выходной корзине S3, прежде чем обрабатывать их по отдельности.
- Когда задачи предварительной обработки завершены, функция выполняет вызов API к Amazon Rekognition для обнаружения неприемлемого, нежелательного или оскорбительного контента и выполняет еще один вызов API к обученной модели пользовательских меток Rekognition для классификации документов.
- Вторая функция выполняет вызов API к Amazon Textract, чтобы инициировать задание по извлечению текста из входного документа и сохранению его в выходной корзине S3.
- Третья функция сохраняет метаданные документа, такие как метка модерации, классификация документа, достоверность классификации, идентификатор задания Amazon Textract и путь к файлу, в таблицу DynamoDB.
- Первая функция выполняет задачи предварительной обработки и делает вызовы API к Amazon Rekognition:
Вы можете настроить рабочий процесс в соответствии с вашими требованиями, например, вы можете добавить в этот рабочий процесс возможность обработки естественного языка (NLP), используя Amazon Comprehend получить представление о извлеченном тексте.
Учебный конвейер
Перед развертыванием этой архитектуры мы обучаем пользовательскую модель классифицировать документы по различным категориям с помощью пользовательских меток Rekognition. В обучающем конвейере мы помечаем документы, используя Amazon SageMaker - основа правды. Затем мы используем размеченные документы для обучения модели с помощью пользовательских меток Rekognition. В этом примере мы используем Создатель мудреца Амазонки Notebook для выполнения этих действий, но вы также можете аннотировать изображения с помощью консоли Rekognition Custom Labels. Инструкции см. Маркировка изображений.
Dataset
Для обучения модели мы используем следующие общедоступные наборы данных, содержащие W2 и счета:
Вы можете использовать другой набор данных, соответствующий вашей отрасли.
В следующей таблице представлены данные о разделении набора данных между обучением и тестированием.
Класс | Обучающий набор | Набор для испытаний |
Счета | 352 | 75 |
W-2 | 86 | 16 |
Всего | 438 | 91 |
Разверните конвейер обучения с помощью AWS CloudFormation
Вы развертываете AWS CloudFormation шаблон для предоставления необходимых Управление идентификацией и доступом AWS (IAM) роли и компоненты конвейера обучения, включая экземпляр записной книжки SageMaker.
- Запустите следующий шаблон CloudFormation в регионе Восток США (Северная Вирджиния):
- Что касается Название стекавведите имя, например
document-processing-training-pipeline
. - Выберите Следующая.
- В Возможности и преобразования раздел, установите флажок, чтобы подтвердить, что AWS CloudFormation может создавать Ресурсы IAM.
- Выберите Создать стек.
Страница сведений о стеке должна отображать состояние стека как CREATE_IN_PROGRESS
, Изменение статуса до 5 минут CREATE_COMPLETE
. Когда он будет завершен, вы можете просмотреть результаты на Выходы меню.
- После успешного запуска стека откройте консоль SageMaker и выберите Экземпляры ноутбуков в названии навигации.
- Найдите экземпляр с
DocProcessingNotebookInstance-
префикс и подождите, пока его статус не станет InService. - Под Действия, выберите Открытый Юпитер.
Запустите пример блокнота
Чтобы запустить ноутбук, выполните следующие действия:
- Выберите
Rekognition_Custom_Labels
пример блокнота.
- Выберите Run для запуска ячеек в примере записной книжки по порядку.
Блокнот демонстрирует весь жизненный цикл подготовки обучающих и тестовых изображений, их маркировки, создания файлов манифеста, обучения модели и запуска обученной модели с помощью пользовательских меток Rekognition. Кроме того, вы можете обучить и запустить модель с помощью консоли Rekognition Custom Labels. Инструкции см. Обучение модели (Консоль).
Блокнот говорит сам за себя; вы можете выполнить шаги, чтобы завершить обучение модели.
- Запишите
ProjectVersionArn
чтобы обеспечить конвейер вывода на более позднем этапе.
Для экземпляров ноутбука SageMaker взимается плата за выбранный тип экземпляра в зависимости от продолжительности использования. Если вы закончили обучение модели, вы можете остановить экземпляр записной книжки, чтобы избежать затрат на простаивающие ресурсы.
Разверните конвейер логического вывода с помощью AWS CloudFormation
Чтобы развернуть конвейер вывода, выполните следующие шаги:
- Запустите следующий шаблон CloudFormation в регионе Восток США (Северная Вирджиния):
- Что касается Название стекавведите имя, например
document-processing-inference-pipeline
. - Что касается DynamoDBTableName, введите уникальное имя таблицы DynamoDB; Например,
document-processing-table
. - Что касается Инпутбакетнаме, введите уникальное имя корзины S3, которую создает стек; Например,
document-processing-input-bucket
.
Входные документы загружаются в этот сегмент до их обработки. Используйте только символы нижнего регистра и без пробелов при создании имени входного сегмента. Кроме того, эта операция создает новую корзину S3, поэтому не используйте имя существующей корзины. Для получения дополнительной информации см. Правила присвоения имен Bucket.
- Что касается имявыходного ведра, введите уникальное имя для выходного сегмента; например, д
ocument-processing-output-bucket
.
В этом сегменте хранятся выходные документы после их обработки. Он также хранит страницы многостраничных входных документов PDF после их разделения функцией Lambda. Следуйте тем же правилам именования, что и для входного сегмента.
- Что касается RekognitionCustomLabelModelARN, введите
ProjectVersionArn
значение, которое вы отметили в блокноте Jupyter. - Выберите Следующая.
- На Настроить параметры стека page, установите любые дополнительные параметры для стека, включая теги.
- Выберите Следующая.
- В Возможности и преобразования установите флажок, чтобы подтвердить, что AWS CloudFormation может создавать ресурсы IAM.
- Выберите Создать стек.
Страница сведений о стеке должна отображать состояние стека как CREATE_IN_PROGRESS
, Изменение статуса до 5 минут CREATE_COMPLETE
. Когда он будет завершен, вы можете просмотреть результаты на Выходы меню.
Обработка документа через конвейер
Мы развернули конвейеры обучения и логического вывода и теперь готовы использовать решение и обрабатывать документ.
- На консоли Amazon S3 откройте корзину ввода.
- Загрузите образец документа в папку S3.
Это запускает рабочий процесс. Этот процесс заполняет таблицу DynamoDB классификацией документов и метками модерации. Выходные данные Amazon Textract доставляются в выходную корзину S3 в TextractOutput
папку.
Мы отправили несколько различных образцов документов в рабочий процесс и получили следующую информацию, заполненную в таблице DynamoDB.
Если вы не видите элементы в таблице DynamoDB или документы, загруженные в выходную корзину S3, проверьте Журналы Amazon CloudWatch для соответствующей лямбда-функции и найдите потенциальные ошибки, которые вызвали сбой.
Убирать
Выполните следующие действия, чтобы очистить ресурсы, развернутые для этого решения:
- В консоли CloudFormation выберите Стеки.
- Выберите стеки, развернутые для этого решения.
- Выберите Удалить.
Эти шаги не удаляют корзины S3, таблицу DynamoDB и обученную модель пользовательских меток Rekognition. С вас по-прежнему будет взиматься плата за хранение, если они не будут удалены. Вам следует удалить эти ресурсы напрямую через соответствующие сервисные консоли, если они вам больше не нужны.
Заключение
В этом посте мы представили масштабируемый, безопасный и автоматизированный подход к модерации, классификации и обработке документов. Компании из разных отраслей могут использовать это решение для улучшения своего бизнеса и лучшего обслуживания клиентов. Это позволяет ускорить обработку документов и повысить точность, а также упрощает извлечение данных. Это также обеспечивает лучшую безопасность и соблюдение законодательства о персональных данных за счет сокращения рабочей силы, задействованной в обработке входящих документов.
Для получения дополнительной информации см. Руководство по пользовательским меткам Amazon Rekognition, Руководство разработчика Amazon Rekognition и Руководство разработчика по Amazon Text. Если вы новичок в использовании пользовательских меток Amazon Rekognition, попробуйте его на нашем уровне бесплатного пользования, который длится 3 месяца и включает 10 бесплатных часов обучения в месяц и 4 бесплатных часа получения логических выводов в месяц. Уровень бесплатного пользования Amazon Rekognition включает обработку 5,000 изображений в месяц в течение 12 месяцев. Уровень бесплатного пользования Amazon Textract также длится три месяца и включает 1,000 страниц в месяц для API Detect Document Text.
Об авторах
Джей Рао является главным архитектором решений в AWS. Ему нравится предоставлять технические и стратегические рекомендации клиентам и помогать им разрабатывать и внедрять решения на AWS.
Ученна Эгбе является младшим архитектором решений в AWS. Он проводит свое свободное время, изучая травы, чаи, суперпродукты и то, как он может включить их в свой ежедневный рацион.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/moderate-classify-and-process-documents-using-amazon-rekognition-and-amazon-texttract/
- "
- 000
- 10
- 100
- 116
- 12 месяцев
- О нас
- доступ
- через
- действия
- активно
- дополнительный
- AI
- Услуги искусственного интеллекта
- Amazon
- Другой
- API
- Приложения
- подхода
- архитектура
- Юрист
- Автоматизированный
- AWS
- Банка
- до
- биллинг
- граница
- Коробка
- строить
- Строительство
- автобус
- бизнес
- призывают
- возможности
- вызванный
- центральный
- проблемы
- изменение
- заряженный
- расходы
- Выберите
- классификация
- код
- Компании
- конкурентоспособный
- Соответствие закону
- уступчивый
- Вычисление
- компьютер
- доверие
- Консоли
- содержит
- содержание
- продолжать
- соответствующий
- рентабельным
- чехол для варгана
- Создайте
- создает
- Создающий
- изготовленный на заказ
- Клиенты
- данным
- База данных
- поставляется
- обеспечивает
- развертывание
- развернуть
- Проект
- подробнее
- Застройщик
- Диета
- различный
- непосредственно
- Документация
- эффективно
- усилие
- усилия
- Enter
- События
- События
- развивается
- пример
- Примеры
- существующий
- Экстракты
- Face
- Ошибка
- быстрее
- Во-первых,
- следовать
- после
- форма
- формат
- формы
- Бесплатно
- функция
- Функции
- Более того
- обрабатывать
- помощь
- помощь
- высший
- Как
- Однако
- HTTPS
- человек
- определения
- Личность
- изображение
- осуществлять
- улучшать
- включают
- включает в себя
- В том числе
- individual
- промышленности
- промышленность
- информация
- вход
- размышления
- интегрированный
- Умный
- вовлеченный
- IT
- работа
- маркировка
- Этикетки
- язык
- запустили
- изучение
- Законодательство
- машина
- обучение с помощью машины
- ДЕЛАЕТ
- управляемого
- управление
- руководство
- Совпадение
- может быть
- ML
- модель
- Модели
- Месяц
- месяцев
- БОЛЕЕ
- с разными
- натуральный
- Навигация
- необходимо
- потребности
- ноутбук
- открытый
- операция
- Оптимизировать
- заказ
- ОПЛАТИТЬ
- Люди
- производительность
- личного
- личные данные
- потенциал
- Основной
- проблемам
- процесс
- обработка
- обеспечивать
- приводит
- обеспечение
- что такое варган?
- реального времени
- получила
- уменьшить
- снижение
- соответствующие
- Полезные ресурсы
- ответ
- условиями,
- Run
- Бег
- масштабируемые
- Шкала
- Сцены
- безопасный
- безопасность
- Серии
- Serverless
- обслуживание
- Услуги
- набор
- просто
- So
- Software
- программное обеспечение как услуга
- твердый
- Решение
- Решения
- Решает
- пространства
- раскол
- расколы
- стек
- начинается
- Область
- отчетность
- Статус:
- оставаться
- диск
- магазин
- магазины
- Стратегический
- представленный
- Успешно
- система
- системы
- задачи
- налог
- Технический
- снижения вреда
- технологии
- тестXNUMX
- Тестирование
- Через
- время
- кропотливый
- раз
- Обучение
- перевод
- созданного
- us
- использование
- ценностное
- проверка
- Видео
- Вид
- Виргиния
- видение
- объем
- ждать
- без
- Трудовые ресурсы