Модеруйте, класифікуйте та обробляйте документи за допомогою Amazon Rekognition і Amazon Texttract

Перевидано Платоном

читають: 0

Багато компаній перевантажені великою кількістю документів, які їм доводиться обробляти, систематизувати та класифікувати, щоб краще обслуговувати своїх клієнтів. Прикладами таких можуть бути заявки на позику, податкові декларації та виставлення рахунків. Такі документи частіше отримують у форматах зображень, вони здебільшого багатосторінкові та у форматі низької якості. Щоб бути більш конкурентоспроможними та економічно ефективними, а також залишатися безпечними та сумісними в той же час, ці компанії повинні розвинути свої можливості обробки документів, щоб скоротити час обробки та підвищити точність класифікації в автоматизований та масштабований спосіб. Ці компанії стикаються з такими проблемами при оформленні документів:

Виконання модерації документів для виявлення невідповідного, небажаного чи образливого вмісту
Класифікація документів вручну, яка використовується невеликими компаніями, займає багато часу, викликає помилки та є дорогою
Методи OCR із системами на основі правил недостатньо розумні та не можуть адаптуватися до змін у форматі документа
Компанії, які використовують підходи машинного навчання (ML), часто не мають ресурсів для масштабування своєї моделі, щоб впоратися зі різкими різкими збільшеннями обсягу вхідних документів

Ця публікація вирішує ці проблеми та пропонує архітектуру, яка ефективно вирішує ці проблеми. Ми показуємо, як можна використовувати Amazon Rekognition та Текст Amazon оптимізувати та зменшити людські зусилля при обробці документів. Amazon Rekognition визначає мітки модерації у вашому документі та класифікує їх за допомогою Спеціальні етикетки Amazon Rekogmination. Amazon Texttract витягує текст із ваших документів.

У цій публікації ми розповідаємо про створення двох конвеєрів ML (навчання та висновки) для обробки документів без будь-яких ручних зусиль або спеціального коду. Етапи високого рівня в конвеєрі висновків включають:

Виконуйте модерацію завантажених документів за допомогою Amazon Rekognition.
Класифікуйте документи за різними категоріями, як-от W-2, рахунки-фактури, банківські виписки та квитанції про оплату за допомогою спеціальних міток Rekognition.
Витягуйте текст із документів, наприклад друкований текст, рукописний текст, форми та таблиці, за допомогою Amazon Texttract.

Огляд рішення

У цьому рішенні використовуються такі сервіси штучного інтелекту, технології без сервера та керовані служби для впровадження масштабованої та економічно ефективної архітектури:

Amazon DynamoDB - База даних ключ-значення та документи, що забезпечує одноцифрову продуктивність мілісекунд у будь-якому масштабі.
Amazon EventBridge – Безсерверна шина подій для створення масштабних додатків, керованих подіями, використовуючи події, згенеровані вашими додатками, інтегрованим програмним забезпеченням як послугою (SaaS) і службами AWS.
AWS Lambda – Безсерверна обчислювальна служба, яка дозволяє запускати код у відповідь на такі тригери, як зміни в даних, зміни в стані системи або дії користувача.
Amazon Rekognition – Використовує ML для ідентифікації об’єктів, людей, тексту, сцен і дій на зображеннях і відео, а також виявлення будь-якого неприйнятного вмісту.
Спеціальні етикетки Amazon Rekogmination – Використовує AutoML для комп’ютерного зору та передає навчання, щоб допомогти вам навчити користувальницькі моделі ідентифікувати об’єкти та сцени на зображеннях, які відповідають потребам вашого бізнесу.
Служба простого зберігання Amazon (Amazon S3) – Служить сховищем об’єктів для ваших документів і дозволяє централізовано керувати за допомогою точно налаштованих засобів контролю доступу.
Функції Amazon Step – Безсерверний оркестровник функцій, який дозволяє легко послідовність функцій Lambda та кількох служб у критично важливих бізнес-додатках.
Текст Amazon – Використовує ML для вилучення тексту та даних із відсканованих документів у форматах PDF, JPEG або PNG.

Наступна діаграма ілюструє архітектуру конвеєра виведення.

Наш робочий процес включає наступні кроки:

Користувач завантажує документи у вхідне відро S3.
Завантаження запускає an Сповіщення про подію Amazon S3 щоб передавати події в реальному часі безпосередньо на EventBridge. Події Amazon S3, які відповідають «object created” фільтр, визначений для Правило EventBridge запускає робочий процес крокових функцій.
Робочий процес Step Functions запускає низку лямбда-функцій, які виконують такі завдання:
1. Перша функція виконує завдання попередньої обробки та здійснює виклики API до Amazon Rekognition:
  - Якщо вхідні документи мають формат зображення (наприклад, JPG або PNG), функція викликає Amazon Rekognition API і надає документи як об’єкти S3. Однак, якщо документ у форматі PDF, функція передає байти зображення під час виклику Amazon Rekognition API.
  - Якщо документ містить кілька сторінок, функція розбиває документ на окремі сторінки та зберігає їх у проміжній папці у вихідному відрі S3 перед обробкою окремо.
  - Після завершення завдань попередньої обробки функція здійснює виклик API до Amazon Rekognition, щоб виявити невідповідний, небажаний або образливий вміст, і робить ще один виклик API до навченої моделі користувацьких міток Rekognition для класифікації документів.
2. Друга функція здійснює виклик API до Amazon Texttract, щоб ініціювати завдання вилучення тексту з вхідного документа та збереження його у вихідному сегменті S3.
3. Третя функція зберігає метадані документа, такі як мітка модерації, класифікація документів, надійність класифікації, ідентифікатор завдання Amazon Texttract і шлях до файлу в таблиці DynamoDB.

Ви можете налаштувати робочий процес відповідно до ваших вимог, наприклад, ви можете додати можливість обробки природної мови (NLP) у цей робочий процес за допомогою «Амазонка» щоб отримати уявлення про витягнутий текст.

Навчальний конвеєр

Перш ніж розгортати цю архітектуру, ми навчаємо спеціальну модель класифікувати документи за різними категоріями за допомогою спеціальних міток Rekognition. У конвеєрі навчання ми позначаємо документи за допомогою Основна правда Amazon SageMaker. Потім ми використовуємо документи з мітками для навчання моделі за допомогою спеціальних міток Rekognition. У цьому прикладі ми використовуємо Amazon SageMaker блокнот для виконання цих кроків, але ви також можете коментувати зображення за допомогою консолі користувацьких міток Rekognition. Інструкції див Маркування зображень.

Навчальна архітектура конвеєра

Набір даних

Для навчання моделі ми використовуємо такі загальнодоступні набори даних, що містять W2 та рахунки-фактури:

Ви можете використовувати інший набір даних, відповідний для вашої галузі.

У наведеній нижче таблиці підсумовано розподіл набору даних між навчанням і тестуванням.

Клас	Тренувальний набір	Тестовий набір
Рахунки	352	75
W-2s	86	16
Усього:	438	91

Розгорніть навчальний конвеєр за допомогою AWS CloudFormation

Ви розгортаєте AWS CloudFormation шаблон для надання необхідних Управління ідентифікацією та доступом AWS (IAM) ролі та компоненти конвеєра навчання, включаючи екземпляр блокнота SageMaker.

Запустіть такий шаблон CloudFormation у Східному регіоні США (Північна Вірджинія):
для Назва стека, введіть назву, наприклад document-processing-training-pipeline.
Вибирати МАЙБУТНІ.
У Можливості та перетворення встановіть прапорець, щоб підтвердити, що AWS CloudFormation може створити Ресурси IAM.
Вибирати Створити стек.

Сторінка інформації про стек має показувати статус стека як CREATE_IN_PROGRESS. Для зміни статусу може знадобитися до 5 хвилин CREATE_COMPLETE. Коли це буде завершено, ви зможете переглянути результати на Виходи Вкладка.

Після успішного запуску стека відкрийте консоль SageMaker і виберіть Екземпляри ноутбуків в назві навігації.
Шукайте екземпляр з DocProcessingNotebookInstance- префікс і зачекайте, поки його стан стане InService.
під Діївиберіть Відкрийте Юпітер.

Запустіть приклад зошита

Щоб запустити ноутбук, виконайте такі дії:

Виберіть Rekognition_Custom_Labels зразок зошита.
Вибирати прогін щоб виконати клітинки у прикладі зошита по порядку.

Блокнот демонструє весь життєвий цикл підготовки навчальних і тестових зображень, їх маркування, створення файлів маніфесту, навчання моделі та виконання навченої моделі з користувацькими мітками Rekognition. Крім того, ви можете навчити та запустити модель за допомогою консолі Rekognition Custom Labels. Інструкції див Навчання моделі (Консоль).

Зошит пояснюється сам собою; ви можете виконати кроки, щоб завершити навчання моделі.

Запишіть ProjectVersionArn щоб забезпечити конвеєр висновку на наступному кроці.

За екземпляри блокнота SageMaker ви сплачуєте за тип екземпляра, який ви виберете, залежно від тривалості використання. Якщо ви завершили навчання моделі, ви можете зупинити екземпляр блокнота, щоб уникнути витрат на неактивні ресурси.

Розгорніть конвеєр висновку за допомогою AWS CloudFormation

Щоб розгорнути конвеєр виведення, виконайте такі дії:

Запустіть такий шаблон CloudFormation у Східному регіоні США (Північна Вірджинія):
для Назва стека, введіть назву, наприклад document-processing-inference-pipeline.
для DynamoDBTableName, введіть унікальне ім’я таблиці DynamoDB; наприклад, document-processing-table.
для InputBucketName, введіть унікальну назву для сегмента S3, який створює стек; наприклад, document-processing-input-bucket.

Вхідні документи завантажуються в це відро перед їх обробкою. Використовуйте лише малі символи без пробілів під час створення назви сегмента введення. Крім того, ця операція створює нове відро S3, тому не використовуйте назву існуючого відра. Для отримання додаткової інформації див Правила іменування сегментів.

для OutputBucketName, введіть унікальну назву для вашого вихідного відра; наприклад, document-processing-output-bucket.

У цьому сегменті зберігаються вихідні документи після їх обробки. Він також зберігає сторінки багатосторінкових вхідних PDF-документів після того, як їх розділено функцією Lambda. Дотримуйтесь тих самих правил іменування, що й для вхідного сегмента.

для RekognitionCustomLabelModelARN, введіть ProjectVersionArn значення, яке ви записали в блокноті Юпітера.
Вибирати МАЙБУТНІ.
на Налаштувати параметри стека на сторінці, встановіть будь-які додаткові параметри для стека, включаючи теги.
Вибирати МАЙБУТНІ.
У Можливості та перетворення поставте прапорець, щоб підтвердити, що AWS CloudFormation може створювати ресурси IAM.
Вибирати Створити стек.

Обробити документ через конвеєр

Ми розгорнули конвеєри навчання та висновків і тепер готові використовувати рішення та опрацьовувати документ.

На консолі Amazon S3 відкрийте вікно введення.
Завантажте зразок документа в папку S3.

Це запускає робочий процес. Процес заповнює таблицю DynamoDB мітками класифікації та модерації документів. Вихідні дані з Amazon Texttract доставляються до вихідного відра S3 у TextractOutput папку.

Ми надіслали кілька різних зразків документів у робочий процес і отримали таку інформацію, заповнену в таблиці DynamoDB.

Зберігання метаданих у DynamoDB

Якщо ви не бачите елементів у таблиці DynamoDB або документів, завантажених у вихідне відро S3, перевірте Журнали Amazon CloudWatch для відповідної лямбда-функції та знайдіть потенційні помилки, які спричинили збій.

Прибирати

Виконайте такі кроки, щоб очистити ресурси, розгорнуті для цього рішення:

На консолі CloudFormation виберіть Стеки.
Виберіть стеки, розгорнуті для цього рішення.
Вибирати видаляти.

Ці кроки не видаляють сегменти S3, таблицю DynamoDB і навчену модель спеціальних міток Rekognition. Ви й надалі стягуватимете плату за зберігання, якщо їх не буде видалено. Вам слід видалити ці ресурси безпосередньо через відповідні сервісні консолі, якщо вони вам більше не потрібні.

Висновок

У цій публікації ми представили масштабований, безпечний і автоматизований підхід до модерування, класифікації та обробки документів. Компанії в різних галузях можуть використовувати це рішення для покращення свого бізнесу та кращого обслуговування клієнтів. Це забезпечує швидшу обробку документів і більшу точність, а також зменшує складність вилучення даних. Це також забезпечує кращу безпеку та дотримання законодавства про персональні дані за рахунок зменшення кількості людей, залучених до обробки вхідних документів.

Для отримання додаткової інформації див Посібник Amazon Rekognition Custom Labels, Посібник розробника Amazon Rekognition та Посібник розробника Amazon Texttract. Якщо ви вперше користуєтеся користувацькими мітками Amazon Rekognition, спробуйте скористатися нашим безкоштовним рівнем, який триває 3 місяці та включає 10 безкоштовних навчальних годин на місяць і 4 безкоштовні години висновків на місяць. Безкоштовний рівень Amazon Rekognition включає обробку 5,000 зображень на місяць протягом 12 місяців. Безкоштовний рівень Amazon Texttract також триває три місяці та включає 1,000 сторінок на місяць для Detect Document Text API.

Про авторів

Джей Рао є головним архітектором рішень у AWS. Йому подобається надавати клієнтам технічні та стратегічні рекомендації, а також допомагати їм розробляти та впроваджувати рішення на AWS.

Ученна Егбе є асоційованим архітектором рішень в AWS. Він проводить свій вільний час, досліджуючи трави, чаї, суперпродукти та те, як він може включити їх у свій щоденний раціон.

Часова мітка: Травень 12, 2022

Часова мітка: Листопад 28, 2022

Модеруйте, класифікуйте та обробляйте документи за допомогою Amazon Rekognition і Amazon Textract

Перевидано Платоном

Огляд рішення

Навчальний конвеєр

Набір даних

Розгорніть навчальний конвеєр за допомогою AWS CloudFormation

Запустіть приклад зошита

Розгорніть конвеєр висновку за допомогою AWS CloudFormation

Обробити документ через конвеєр

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

Збільште продуктивність Stable Diffusion і зменште витрати на логічні висновки за допомогою AWS Inferentia2 | Веб-сервіси Amazon

Створіть власний набір даних запитань і відповідей за допомогою Amazon SageMaker Ground Truth для навчання моделі запитань і відповідей Hugging Face NLU

Як Patsnap використовував висновок GPT-2 на Amazon SageMaker із низькою затримкою та вартістю | Веб-сервіси Amazon

Досягніть корпоративного рівня моніторингу своїх моделей Amazon SageMaker за допомогою Fiddler

Використовуйте попередньо підписану URL-адресу, щоб надати вашим бізнес-аналітикам безпечний доступ до Amazon SageMaker Canvas

Представляємо табличний пошук Amazon Kendra для документів HTML

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки