«Решения для интеллектуальной обработки документов (IDP) извлекают данные для поддержки автоматизации больших объемов повторяющихся задач обработки документов, а также для анализа и анализа. IDP использует технологии естественного языка и компьютерное зрение для извлечения данных из структурированного и неструктурированного контента, особенно из документов, для поддержки автоматизации и дополнений». – Гартнер
Целью интеллектуальной обработки документов (IDP) Amazon является автоматизация обработки больших объемов документов с помощью машинного обучения (ML) для повышения производительности, снижения затрат, связанных с человеческим трудом, и обеспечения беспрепятственного взаимодействия с пользователем. Клиенты тратят значительное количество времени и усилий на идентификацию документов и извлечение из них важной информации для различных вариантов использования. Сегодня, Amazon Comprehend поддерживает классификацию простых текстовых документов, для чего требуется предварительная обработка документов в полуструктурированных форматах (отсканированные, цифровые PDF или изображения, такие как PNG, JPG, TIFF), а затем использование вывода простого текста для выполнения логических выводов с вашим пользовательская классификация модель. Точно так же для пользовательское распознавание объектов в режиме реального времени предварительная обработка для извлечения текста требуется для полуструктурированных документов, таких как PDF-файлы и файлы изображений. Этот двухэтапный процесс усложняет рабочие процессы обработки документов.
В прошлом году мы объявлена поддержка нативных форматов документов с распознаванием пользовательских именованных объектов (NER) асинхронные задания. Сегодня мы рады объявить об одноэтапной классификации документов и анализе в реальном времени для NER полуструктурированных документов в исходных форматах (PDF, TIFF, JPG, PNG) с использованием Amazon Comprehend. В частности, мы объявляем о следующих возможностях:
- Поддержка документов в собственных форматах для пользовательского анализа классификации в реальном времени и асинхронных заданий.
- Поддержка документов в собственных форматах для пользовательского анализа распознавания сущностей в реальном времени.
В этом новом выпуске настраиваемая классификация и распознавание сущностей (NER) Amazon Comprehend напрямую поддерживает документы в таких форматах, как PDF, TIFF, PNG и JPEG, без необходимости извлекать из них обычный текст в кодировке UTF8. На следующем рисунке сравнивается предыдущий процесс с новой процедурой и поддержкой.
Эта функция упрощает рабочие процессы обработки документов, исключая любые этапы предварительной обработки, необходимые для извлечения простого текста из документов, и сокращает общее время, необходимое для их обработки.
В этом посте мы обсудим высокоуровневую структуру решения для рабочих процессов IDP, несколько отраслевых вариантов использования, новые функции Amazon Comprehend и способы их использования.
Обзор решения
Давайте начнем с изучения распространенного варианта использования в страховой отрасли. Типичный процесс страхового возмещения включает в себя пакет требований, который может содержать несколько документов. Когда страховая претензия подается, она включает в себя такие документы, как форма страховой претензии, отчеты об инцидентах, документы, удостоверяющие личность, и документы претензий третьих лиц. Объем документов для обработки и рассмотрения страхового случая может достигать сотен и даже тысяч страниц в зависимости от типа требования и используемых бизнес-процессов. Представители и судьи по страховым претензиям обычно тратят сотни часов на ручное просеивание, сортировку и извлечение информации из сотен или даже тысяч заявок.
Подобно случаю использования в страховой отрасли, платежная индустрия также обрабатывает большие объемы полуструктурированных документов для соглашений о трансграничных платежах, счетов-фактур и валютных выписок. Бизнес-пользователи тратят большую часть своего времени на ручные действия, такие как идентификация, систематизация, проверка, извлечение и передача необходимой информации нижестоящим приложениям. Этот ручной процесс является утомительным, повторяющимся, подверженным ошибкам, дорогим и трудно масштабируемым. Другие отрасли, которые сталкиваются с аналогичными проблемами, включают ипотеку и кредитование, здравоохранение и науки о жизни, юриспруденцию, бухгалтерский учет и налоговое управление. Для предприятий чрезвычайно важно своевременно обрабатывать такие большие объемы документов с высоким уровнем точности и минимальными ручными усилиями.
Amazon Comprehend предоставляет ключевые возможности для автоматизации классификации документов и извлечения информации из большого объема документов с высокой точностью, масштабируемым и экономичным способом. На следующей диаграмме показан логический рабочий процесс IDP с Amazon Comprehend. В основе рабочего процесса лежит классификация документов и извлечение информации с использованием NER с пользовательскими моделями Amazon Comprehend. На диаграмме также показано, как можно постоянно улучшать пользовательские модели для обеспечения более высокой точности по мере развития документов и бизнес-процессов.
Пользовательская классификация документов
С помощью пользовательской классификации Amazon Comprehend вы можете упорядочивать документы по предопределенным категориям (классам). На высоком уровне ниже приведены шаги для настройки пользовательского классификатора документов и выполнения классификации документов:
- Подготовьте обучающие данные для обучения пользовательского классификатора документов.
- Обучите классификатор документов клиента с помощью обучающих данных.
- После обучения модели можно дополнительно развернуть конечную точку в реальном времени.
- Выполняйте классификацию документов либо с помощью асинхронного задания, либо в режиме реального времени с помощью конечной точки.
Шаги 1 и 2 обычно выполняются в начале проекта IDP после определения классов документов, относящихся к бизнес-процессу. Затем пользовательскую модель классификатора можно периодически переобучать для повышения точности и введения новых классов документов. Вы можете обучить пользовательскую модель классификации либо в мультиклассовый режим or многометочный режим. Обучение можно проводить для каждого одним из двух способов: с помощью CSV-файла или с помощью расширенного файла манифеста. Ссылаться на Подготовка обучающих данных для получения более подробной информации об обучении пользовательской модели классификации. После обучения пользовательской модели классификатора документ можно классифицировать либо с помощью анализ в реальном времени или асинхронная работа. Для анализа в реальном времени требуется конечная точка для развертывания с обученной моделью и лучше всего подходит для небольших документов в зависимости от варианта использования. Для большого количества документов лучше всего подходит задание асинхронной классификации.
Обучение пользовательской модели классификации документов
Чтобы продемонстрировать новую функцию, мы обучили пользовательскую модель классификации в режиме с несколькими метками, которая может классифицировать страховые документы по одному из семи различных классов. Классы INSURANCE_ID
, PASSPORT
, LICENSE
, INVOICE_RECEIPT
, MEDICAL_TRANSCRIPTION
, DISCHARGE_SUMMARY
и CMS1500
. Мы хотим классифицировать образцы документов в собственном формате PDF, PNG и JPEG, хранящиеся в Простой сервис хранения Amazon (Amazon S3) с использованием модели классификации. Чтобы запустить задание асинхронной классификации, выполните следующие шаги:
- На консоли Amazon Comprehend выберите Работа по анализу в навигационной панели.
- Выберите Создать работу.
- Что касается Имя, введите имя для вашего задания классификации.
- Что касается Тип анализавыберите Пользовательская классификация.
- Что касается Модель классификатора, выберите соответствующую обученную модель классификации.
- Что касается Версия, выберите соответствующую версию модели.
В Входные данные мы указываем место, где хранятся наши документы.
- Что касается Формат ввода, выберите Один документ в файле.
- Что касается Режим чтения документавыберите Принудительное чтение документа.
- Что касается Действие чтения документа, выберите Текстовое обнаружение текста документа.
Это позволяет Amazon Comprehend использовать Амазонка Текст ДетектДокументТекст API для чтения документов перед запуском классификации. DetectDocumentText
API помогает извлекать строки и слова текста из документов. Вы также можете выбрать Текстовый анализ документа для Действие чтения документа, и в этом случае Amazon Comprehend использует Amazon Textract АнализДокумент API для чтения документов. С AnalyzeDocument
API, вы можете выбрать для извлечения таблицы, Формы, или оба. В Режим чтения документа Параметр позволяет Amazon Comprehend извлекать текст из документов в фоновом режиме, что помогает сократить количество дополнительных шагов по извлечению текста из документа, которые требуются в нашем рабочем процессе обработки документов.
Пользовательский классификатор Amazon Comprehend также может обрабатывать необработанные ответы JSON, сгенерированные DetectDocumentText
и AnalyzeDocument
API без какой-либо модификации или предварительной обработки. Это полезно для существующих рабочих процессов, в которых Amazon Textract уже участвует в извлечении текста из документов. В этом случае выходные данные в формате JSON из Amazon Textract могут быть переданы непосредственно в API классификации документов Amazon Comprehend.
- В Выходные данные раздел, для S3 местоположение, укажите расположение Amazon S3, куда вы хотите, чтобы асинхронное задание записывало результаты логического вывода.
- Остальные параметры оставьте по умолчанию.
- Выберите Создать работу чтобы начать работу.
Статус работы можно посмотреть на Работа по анализу стр.
Когда задание завершено, мы можем просмотреть выходные данные задания анализа, которые хранятся в расположении Amazon S3, указанном во время настройки задания. Результат классификации для нашего одностраничного образца PDF-документа CMS1500 выглядит следующим образом. Результатом является файл в формате строк JSON, который был отформатирован для повышения удобочитаемости.
Предыдущий образец представляет собой одностраничный PDF-документ; однако пользовательская классификация также может обрабатывать многостраничные документы PDF. В случае многостраничных документов выходные данные содержат несколько строк JSON, где каждая строка является результатом классификации каждой из страниц в документе. Ниже приведен пример вывода многостраничной классификации:
Распознавание пользовательских объектов
С помощью специального распознавателя объектов Amazon Comprehend вы можете анализировать документы и извлекать объекты, такие как коды продуктов или бизнес-объекты, которые соответствуют вашим конкретным потребностям. На высоком уровне ниже приведены шаги по настройке пользовательского распознавателя сущностей и обнаружению сущностей.
- Подготовьте обучающие данные для обучения пользовательского распознавателя сущностей.
- Обучите пользовательский распознаватель сущностей с данными обучения.
- После обучения модели можно дополнительно развернуть конечную точку в реальном времени.
- Выполните обнаружение объектов либо с помощью асинхронного задания, либо в режиме реального времени с помощью конечной точки.
Пользовательскую модель распознавателя сущностей можно периодически переобучать для повышения точности и добавления новых типов сущностей. Вы можете обучить пользовательскую модель распознавателя сущностей с помощью списки объектов or аннотации. В обоих случаях Amazon Comprehend узнает о типах документов и контексте, в котором встречаются объекты, для построения модели распознавания объектов, которая может обобщаться для обнаружения новых объектов. Ссылаться на Подготовка обучающих данных чтобы узнать больше о подготовке обучающих данных для пользовательского распознавателя сущностей.
После обучения пользовательской модели распознавания сущностей обнаружение сущностей можно выполнить либо с помощью анализ в реальном времени или асинхронная работа. Для анализа в реальном времени требуется конечная точка для развертывания с обученной моделью и лучше всего подходит для небольших документов в зависимости от варианта использования. Для большого количества документов лучше всего подходит задание асинхронной классификации.
Обучение пользовательской модели распознавания сущностей
Чтобы продемонстрировать обнаружение сущностей в режиме реального времени, мы обучили пользовательскую модель распознавания сущностей со страховыми документами и расширенными файлами манифеста с помощью пользовательских аннотаций и развернули конечную точку с помощью обученной модели. Типы сущностей Law Firm
, Law Office Address
, Insurance Company
, Insurance Company Address
, Policy Holder Name
, Beneficiary Name
, Policy Number
, Payout
, Required Action
и Sender
. Мы хотим обнаруживать объекты из образцов документов в собственном формате PDF, PNG и JPEG, хранящихся в корзине S3, с использованием модели распознавателя.
Обратите внимание, что вы можете использовать пользовательскую модель распознавания сущностей, обученную на документах PDF, для извлечения настраиваемых сущностей из документов PDF, TIFF, изображений, Word и обычных текстовых документов. Если ваша модель обучается с использованием текстовых документов и списка сущностей, вы можете использовать только текстовые документы для извлечения сущностей.
Нам нужно обнаружить объекты из образца документа в любом родном формате PDF, PNG и JPEG, используя модель распознавателя. Чтобы запустить задание обнаружения синхронных объектов, выполните следующие действия:
- На консоли Amazon Comprehend выберите Анализ в реальном времени в навигационной панели.
- Под Тип анализа, наведите на На заказ.
- Что касается Распознавание пользовательских объектов, выберите пользовательский тип модели.
- Что касается Конечная точка, выберите конечную точку реального времени, которую вы создали для своей модели распознавателя сущностей.
- Выберите Загрузить файл , а затем выбрать Выберите Файл чтобы загрузить PDF-файл или файл изображения для вывода.
- Развернуть Расширенный ввод документов раздел и для Режим чтения документа, выберите Сервис по умолчанию.
- Что касается Действие чтения документа, выберите Текстовое обнаружение текста документа.
- Выберите Анализировать анализировать документ в режиме реального времени.
Признанные организации перечислены в Инсайты раздел. Каждая сущность содержит значение сущности (текст), тип сущности, определенный вами в процессе обучения, и соответствующий показатель достоверности.
Дополнительные сведения и полное пошаговое руководство по обучению пользовательской модели распознавателя сущностей и использованию ее для выполнения асинхронного вывода с использованием заданий асинхронного анализа см. Извлечение пользовательских объектов из документов в их исходном формате с помощью Amazon Comprehend.
Заключение
В этом посте показано, как с помощью Amazon Comprehend можно классифицировать и категоризировать полуструктурированные документы в их исходном формате, а также обнаруживать в них объекты, характерные для бизнеса. Вы можете использовать API-интерфейсы реального времени для случаев использования с малой задержкой или использовать задания асинхронного анализа для массовой обработки документов.
В качестве следующего шага мы рекомендуем вам посетить Amazon Comprehend. Репозиторий GitHub для полных примеров кода, чтобы опробовать эти новые функции. Вы также можете посетить Руководство для разработчиков по Amazon Comprehend и Ресурсы для разработчиков Amazon Comprehend для видео, учебных пособий, блогов и многого другого.
Об авторах
Врик Талукдар является старшим архитектором в команде Amazon Comprehend Service. Он работает с клиентами AWS, помогая им широко внедрять машинное обучение. Вне работы любит читать и фотографировать.
Анжан Бисвас является старшим архитектором решений AI Services, специализирующимся на AI/ML и аналитике данных. Анджан является частью всемирной группы по обслуживанию ИИ и работает с клиентами, помогая им понять и разработать решения бизнес-проблем с помощью ИИ и машинного обучения. Анджан имеет более чем 14-летний опыт работы с глобальными цепочками поставок, производственными и розничными организациями и активно помогает клиентам начать работу с сервисами AWS AI и масштабировать их.
Годвин Сахаярадж Vincent — архитектор корпоративных решений в AWS, увлеченный машинным обучением и предоставляющий клиентам рекомендации по проектированию, развертыванию и управлению рабочими нагрузками и архитектурами AWS. В свободное время он любит играть в крикет со своими друзьями и в теннис со своими тремя детьми.
- Продвинутый (300)
- AI
- ай искусство
- генератор искусств ай
- искусственный интеллект
- Amazon Comprehend
- искусственный интеллект
- сертификация искусственного интеллекта
- искусственный интеллект в банковском деле
- робот с искусственным интеллектом
- роботы с искусственным интеллектом
- программное обеспечение искусственного интеллекта
- Машинное обучение AWS
- блокчейн
- конференция по блокчейну
- Coingenius
- разговорный искусственный интеллект
- криптоконференция ИИ
- дал-и
- глубокое обучение
- google ai
- обучение с помощью машины
- Платон
- Платон Ай
- Платон Интеллектуальные данные
- Платон игра
- ПлатонДанные
- платогейминг
- масштаб ай
- синтаксис
- зефирнет