Представляем одноэтапную классификацию и распознавание объектов с помощью Amazon Comprehend для интеллектуальной обработки документов

Переиздано Платоном

Читают: 0

«Решения для интеллектуальной обработки документов (IDP) извлекают данные для поддержки автоматизации больших объемов повторяющихся задач обработки документов, а также для анализа и анализа. IDP использует технологии естественного языка и компьютерное зрение для извлечения данных из структурированного и неструктурированного контента, особенно из документов, для поддержки автоматизации и дополнений». – Гартнер

Целью интеллектуальной обработки документов (IDP) Amazon является автоматизация обработки больших объемов документов с помощью машинного обучения (ML) для повышения производительности, снижения затрат, связанных с человеческим трудом, и обеспечения беспрепятственного взаимодействия с пользователем. Клиенты тратят значительное количество времени и усилий на идентификацию документов и извлечение из них важной информации для различных вариантов использования. Сегодня, Amazon Comprehend поддерживает классификацию простых текстовых документов, для чего требуется предварительная обработка документов в полуструктурированных форматах (отсканированные, цифровые PDF или изображения, такие как PNG, JPG, TIFF), а затем использование вывода простого текста для выполнения логических выводов с вашим пользовательская классификация модель. Точно так же для пользовательское распознавание объектов в режиме реального времени предварительная обработка для извлечения текста требуется для полуструктурированных документов, таких как PDF-файлы и файлы изображений. Этот двухэтапный процесс усложняет рабочие процессы обработки документов.

В прошлом году мы объявлена поддержка нативных форматов документов с распознаванием пользовательских именованных объектов (NER) асинхронные задания. Сегодня мы рады объявить об одноэтапной классификации документов и анализе в реальном времени для NER полуструктурированных документов в исходных форматах (PDF, TIFF, JPG, PNG) с использованием Amazon Comprehend. В частности, мы объявляем о следующих возможностях:

Поддержка документов в собственных форматах для пользовательского анализа классификации в реальном времени и асинхронных заданий.
Поддержка документов в собственных форматах для пользовательского анализа распознавания сущностей в реальном времени.

В этом новом выпуске настраиваемая классификация и распознавание сущностей (NER) Amazon Comprehend напрямую поддерживает документы в таких форматах, как PDF, TIFF, PNG и JPEG, без необходимости извлекать из них обычный текст в кодировке UTF8. На следующем рисунке сравнивается предыдущий процесс с новой процедурой и поддержкой.

Эта функция упрощает рабочие процессы обработки документов, исключая любые этапы предварительной обработки, необходимые для извлечения простого текста из документов, и сокращает общее время, необходимое для их обработки.

В этом посте мы обсудим высокоуровневую структуру решения для рабочих процессов IDP, несколько отраслевых вариантов использования, новые функции Amazon Comprehend и способы их использования.

Обзор решения

Давайте начнем с изучения распространенного варианта использования в страховой отрасли. Типичный процесс страхового возмещения включает в себя пакет требований, который может содержать несколько документов. Когда страховая претензия подается, она включает в себя такие документы, как форма страховой претензии, отчеты об инцидентах, документы, удостоверяющие личность, и документы претензий третьих лиц. Объем документов для обработки и рассмотрения страхового случая может достигать сотен и даже тысяч страниц в зависимости от типа требования и используемых бизнес-процессов. Представители и судьи по страховым претензиям обычно тратят сотни часов на ручное просеивание, сортировку и извлечение информации из сотен или даже тысяч заявок.

Подобно случаю использования в страховой отрасли, платежная индустрия также обрабатывает большие объемы полуструктурированных документов для соглашений о трансграничных платежах, счетов-фактур и валютных выписок. Бизнес-пользователи тратят большую часть своего времени на ручные действия, такие как идентификация, систематизация, проверка, извлечение и передача необходимой информации нижестоящим приложениям. Этот ручной процесс является утомительным, повторяющимся, подверженным ошибкам, дорогим и трудно масштабируемым. Другие отрасли, которые сталкиваются с аналогичными проблемами, включают ипотеку и кредитование, здравоохранение и науки о жизни, юриспруденцию, бухгалтерский учет и налоговое управление. Для предприятий чрезвычайно важно своевременно обрабатывать такие большие объемы документов с высоким уровнем точности и минимальными ручными усилиями.

Amazon Comprehend предоставляет ключевые возможности для автоматизации классификации документов и извлечения информации из большого объема документов с высокой точностью, масштабируемым и экономичным способом. На следующей диаграмме показан логический рабочий процесс IDP с Amazon Comprehend. В основе рабочего процесса лежит классификация документов и извлечение информации с использованием NER с пользовательскими моделями Amazon Comprehend. На диаграмме также показано, как можно постоянно улучшать пользовательские модели для обеспечения более высокой точности по мере развития документов и бизнес-процессов.

Пользовательская классификация документов

С помощью пользовательской классификации Amazon Comprehend вы можете упорядочивать документы по предопределенным категориям (классам). На высоком уровне ниже приведены шаги для настройки пользовательского классификатора документов и выполнения классификации документов:

Подготовьте обучающие данные для обучения пользовательского классификатора документов.
Обучите классификатор документов клиента с помощью обучающих данных.
После обучения модели можно дополнительно развернуть конечную точку в реальном времени.
Выполняйте классификацию документов либо с помощью асинхронного задания, либо в режиме реального времени с помощью конечной точки.

Шаги 1 и 2 обычно выполняются в начале проекта IDP после определения классов документов, относящихся к бизнес-процессу. Затем пользовательскую модель классификатора можно периодически переобучать для повышения точности и введения новых классов документов. Вы можете обучить пользовательскую модель классификации либо в мультиклассовый режим or многометочный режим. Обучение можно проводить для каждого одним из двух способов: с помощью CSV-файла или с помощью расширенного файла манифеста. Ссылаться на Подготовка обучающих данных для получения более подробной информации об обучении пользовательской модели классификации. После обучения пользовательской модели классификатора документ можно классифицировать либо с помощью анализ в реальном времени или асинхронная работа. Для анализа в реальном времени требуется конечная точка для развертывания с обученной моделью и лучше всего подходит для небольших документов в зависимости от варианта использования. Для большого количества документов лучше всего подходит задание асинхронной классификации.

Обучение пользовательской модели классификации документов

Чтобы продемонстрировать новую функцию, мы обучили пользовательскую модель классификации в режиме с несколькими метками, которая может классифицировать страховые документы по одному из семи различных классов. Классы INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYи CMS1500. Мы хотим классифицировать образцы документов в собственном формате PDF, PNG и JPEG, хранящиеся в Простой сервис хранения Amazon (Amazon S3) с использованием модели классификации. Чтобы запустить задание асинхронной классификации, выполните следующие шаги:

На консоли Amazon Comprehend выберите Работа по анализу в навигационной панели.
Выберите Создать работу.
Что касается Имя, введите имя для вашего задания классификации.
Что касается Тип анализавыберите Пользовательская классификация.
Что касается Модель классификатора, выберите соответствующую обученную модель классификации.
Что касается Версия, выберите соответствующую версию модели.

В Входные данные мы указываем место, где хранятся наши документы.

Что касается Формат ввода, выберите Один документ в файле.
Что касается Режим чтения документавыберите Принудительное чтение документа.
Что касается Действие чтения документа, выберите Текстовое обнаружение текста документа.

Это позволяет Amazon Comprehend использовать Амазонка Текст ДетектДокументТекст API для чтения документов перед запуском классификации. DetectDocumentText API помогает извлекать строки и слова текста из документов. Вы также можете выбрать Текстовый анализ документа для Действие чтения документа, и в этом случае Amazon Comprehend использует Amazon Textract АнализДокумент API для чтения документов. С AnalyzeDocument API, вы можете выбрать для извлечения таблицы, Формы, или оба. В Режим чтения документа Параметр позволяет Amazon Comprehend извлекать текст из документов в фоновом режиме, что помогает сократить количество дополнительных шагов по извлечению текста из документа, которые требуются в нашем рабочем процессе обработки документов.

Пользовательский классификатор Amazon Comprehend также может обрабатывать необработанные ответы JSON, сгенерированные DetectDocumentText и AnalyzeDocument API без какой-либо модификации или предварительной обработки. Это полезно для существующих рабочих процессов, в которых Amazon Textract уже участвует в извлечении текста из документов. В этом случае выходные данные в формате JSON из Amazon Textract могут быть переданы непосредственно в API классификации документов Amazon Comprehend.

В Выходные данные раздел, для S3 местоположение, укажите расположение Amazon S3, куда вы хотите, чтобы асинхронное задание записывало результаты логического вывода.
Остальные параметры оставьте по умолчанию.
Выберите Создать работу чтобы начать работу.

Статус работы можно посмотреть на Работа по анализу стр.

Когда задание завершено, мы можем просмотреть выходные данные задания анализа, которые хранятся в расположении Amazon S3, указанном во время настройки задания. Результат классификации для нашего одностраничного образца PDF-документа CMS1500 выглядит следующим образом. Результатом является файл в формате строк JSON, который был отформатирован для повышения удобочитаемости.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Предыдущий образец представляет собой одностраничный PDF-документ; однако пользовательская классификация также может обрабатывать многостраничные документы PDF. В случае многостраничных документов выходные данные содержат несколько строк JSON, где каждая строка является результатом классификации каждой из страниц в документе. Ниже приведен пример вывода многостраничной классификации:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Распознавание пользовательских объектов

С помощью специального распознавателя объектов Amazon Comprehend вы можете анализировать документы и извлекать объекты, такие как коды продуктов или бизнес-объекты, которые соответствуют вашим конкретным потребностям. На высоком уровне ниже приведены шаги по настройке пользовательского распознавателя сущностей и обнаружению сущностей.

Подготовьте обучающие данные для обучения пользовательского распознавателя сущностей.
Обучите пользовательский распознаватель сущностей с данными обучения.
После обучения модели можно дополнительно развернуть конечную точку в реальном времени.
Выполните обнаружение объектов либо с помощью асинхронного задания, либо в режиме реального времени с помощью конечной точки.

Пользовательскую модель распознавателя сущностей можно периодически переобучать для повышения точности и добавления новых типов сущностей. Вы можете обучить пользовательскую модель распознавателя сущностей с помощью списки объектов or аннотации. В обоих случаях Amazon Comprehend узнает о типах документов и контексте, в котором встречаются объекты, для построения модели распознавания объектов, которая может обобщаться для обнаружения новых объектов. Ссылаться на Подготовка обучающих данных чтобы узнать больше о подготовке обучающих данных для пользовательского распознавателя сущностей.

После обучения пользовательской модели распознавания сущностей обнаружение сущностей можно выполнить либо с помощью анализ в реальном времени или асинхронная работа. Для анализа в реальном времени требуется конечная точка для развертывания с обученной моделью и лучше всего подходит для небольших документов в зависимости от варианта использования. Для большого количества документов лучше всего подходит задание асинхронной классификации.

Обучение пользовательской модели распознавания сущностей

Чтобы продемонстрировать обнаружение сущностей в режиме реального времени, мы обучили пользовательскую модель распознавания сущностей со страховыми документами и расширенными файлами манифеста с помощью пользовательских аннотаций и развернули конечную точку с помощью обученной модели. Типы сущностей Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionи Sender. Мы хотим обнаруживать объекты из образцов документов в собственном формате PDF, PNG и JPEG, хранящихся в корзине S3, с использованием модели распознавателя.

Обратите внимание, что вы можете использовать пользовательскую модель распознавания сущностей, обученную на документах PDF, для извлечения настраиваемых сущностей из документов PDF, TIFF, изображений, Word и обычных текстовых документов. Если ваша модель обучается с использованием текстовых документов и списка сущностей, вы можете использовать только текстовые документы для извлечения сущностей.

Нам нужно обнаружить объекты из образца документа в любом родном формате PDF, PNG и JPEG, используя модель распознавателя. Чтобы запустить задание обнаружения синхронных объектов, выполните следующие действия:

На консоли Amazon Comprehend выберите Анализ в реальном времени в навигационной панели.
Под Тип анализа, наведите на На заказ.
Что касается Распознавание пользовательских объектов, выберите пользовательский тип модели.
Что касается Конечная точка, выберите конечную точку реального времени, которую вы создали для своей модели распознавателя сущностей.
Выберите Загрузить файл , а затем выбрать Выберите Файл чтобы загрузить PDF-файл или файл изображения для вывода.
Развернуть Расширенный ввод документов раздел и для Режим чтения документа, выберите Сервис по умолчанию.
Что касается Действие чтения документа, выберите Текстовое обнаружение текста документа.
Выберите Анализировать анализировать документ в режиме реального времени.

Признанные организации перечислены в Инсайты раздел. Каждая сущность содержит значение сущности (текст), тип сущности, определенный вами в процессе обучения, и соответствующий показатель достоверности.

Дополнительные сведения и полное пошаговое руководство по обучению пользовательской модели распознавателя сущностей и использованию ее для выполнения асинхронного вывода с использованием заданий асинхронного анализа см. Извлечение пользовательских объектов из документов в их исходном формате с помощью Amazon Comprehend.

Заключение

В этом посте показано, как с помощью Amazon Comprehend можно классифицировать и категоризировать полуструктурированные документы в их исходном формате, а также обнаруживать в них объекты, характерные для бизнеса. Вы можете использовать API-интерфейсы реального времени для случаев использования с малой задержкой или использовать задания асинхронного анализа для массовой обработки документов.

В качестве следующего шага мы рекомендуем вам посетить Amazon Comprehend. Репозиторий GitHub для полных примеров кода, чтобы опробовать эти новые функции. Вы также можете посетить Руководство для разработчиков по Amazon Comprehend и Ресурсы для разработчиков Amazon Comprehend для видео, учебных пособий, блогов и многого другого.

Об авторах

Врик Талукдар является старшим архитектором в команде Amazon Comprehend Service. Он работает с клиентами AWS, помогая им широко внедрять машинное обучение. Вне работы любит читать и фотографировать.

Анжан Бисвас является старшим архитектором решений AI Services, специализирующимся на AI/ML и аналитике данных. Анджан является частью всемирной группы по обслуживанию ИИ и работает с клиентами, помогая им понять и разработать решения бизнес-проблем с помощью ИИ и машинного обучения. Анджан имеет более чем 14-летний опыт работы с глобальными цепочками поставок, производственными и розничными организациями и активно помогает клиентам начать работу с сервисами AWS AI и масштабировать их.

Годвин Сахаярадж Vincent — архитектор корпоративных решений в AWS, увлеченный машинным обучением и предоставляющий клиентам рекомендации по проектированию, развертыванию и управлению рабочими нагрузками и архитектурами AWS. В свободное время он любит играть в крикет со своими друзьями и в теннис со своими тремя детьми.

Отметка времени: 2 декабря 20222 декабря 2022

Больше от Машинное обучение AWS

Amazon SageMaker Feature Store теперь поддерживает совместное использование, обнаружение и доступ между учетными записями | Веб-сервисы Amazon

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1947390

Отметка времени: 13 февраля, 2024

AWS выполняет точную настройку модели большого языка (LLM) для классификации токсичной речи для крупной игровой компании | Веб-сервисы Амазонки

Машинное обучение AWS

Исходный узел: 1822975

Отметка времени: 7 Апрель, 2023

Представляем одношаговую классификацию и распознавание сущностей с помощью Amazon Comprehend для интеллектуальной обработки документов.

Переиздано Платоном

Обзор решения

Пользовательская классификация документов

Обучение пользовательской модели классификации документов

Распознавание пользовательских объектов

Обучение пользовательской модели распознавания сущностей

Заключение

Об авторах

Больше от Машинное обучение AWS

Стартапы AWS Accelerators используют ИИ и машинное обучение для решения критически важных задач клиентов.

Используйте компьютерное зрение для измерения урожайности в сельском хозяйстве с помощью пользовательских меток Amazon Rekognition

Простое и точное прогнозирование с AutoGluon-TimeSeries

Создание детектора спама в электронной почте с помощью Amazon SageMaker | Веб-сервисы Амазонки

Обнаружение и высокочастотный мониторинг точечных источников выбросов метана с использованием геопространственных возможностей Amazon SageMaker | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись