Amazon Comprehend Document Classifier додає підтримку макета для більшої точності

Перевидано Платоном

читають: 0

Здатність ефективно обробляти величезні обсяги документів стала важливою для підприємств у сучасному світі. Через постійний приплив інформації, з якою мають справу всі підприємства, ручна класифікація документів більше не є життєздатним варіантом. Моделі класифікації документів можуть автоматизувати процедуру та допомогти організаціям заощадити час і ресурси. Традиційні методи категоризації, такі як ручна обробка та пошук за ключовими словами, стають менш ефективними та займають більше часу зі збільшенням обсягу документів. Ця неефективність призводить до зниження продуктивності та вищих операційних витрат. Крім того, це може перешкоджати доступу до важливої інформації, коли це необхідно, що може призвести до поганої взаємодії з клієнтами та вплинути на прийняття рішень. На AWS re:Invent 2022, «Амазонка», служба обробки природної мови (NLP), яка використовує машинне навчання (ML), щоб знаходити інформацію з тексту, запущений підтримка власних типів документів. Ця нова функція дала вам можливість класифікувати документи у рідних форматах (PDF, TIFF, JPG, PNG, DOCX) за допомогою Amazon Comprehend.

Сьогодні ми раді повідомити, що Amazon Comprehend тепер підтримує навчання моделі спеціальної класифікації з такими документами, як PDF, Word і формати зображень. Тепер ви можете тренувати індивідуальні моделі класифікації документів на рідних документах, які підтримують макет на додаток до тексту, підвищуючи точність результатів.

У цій публікації ми пропонуємо огляд того, як ви можете розпочати навчання користувацькій моделі класифікації документів Amazon Comprehend.

огляд

Здатність розуміти відносне розміщення об’єктів у визначеному просторі називається обізнаність про макет. У цьому випадку це допомагає моделі зрозуміти, як заголовки, підзаголовки, таблиці та графіка пов’язані між собою всередині документа. Модель може більш ефективно класифікувати документ на основі його вмісту, коли вона знає про структуру та макет тексту.

Amazon Comprehend document classifier adds layout support for higher accuracy PlatoBlockchain Data Intelligence. Vertical Search. Ai.

У цій публікації ми ознайомимося з етапами підготовки даних, продемонструємо процес навчання моделі та обговоримо переваги використання нової спеціальної моделі класифікації документів в Amazon Comprehend. Перш ніж розпочати навчання користувацькій моделі класифікації документів, радимо розглянути наступні моменти.

Оцініть свої потреби в класифікації документів

Визначте різні типи документів, які вам можуть знадобитися для класифікації, а також різні класи або категорії для підтримки вашого випадку використання. Визначте відповідну структуру класифікації або таксономію після оцінки кількості та типів документів, які потрібно класифікувати. Типи документів можуть відрізнятися від PDF, Word, зображень тощо. Переконайтеся, що ви маєте авторизований доступ до різноманітного набору документів із мітками через систему керування документами чи інші механізми зберігання.

Підготуйте свої дані

Переконайтеся, що файли документів, які ви збираєтеся використовувати для навчання моделі, не зашифровані чи заблоковані, наприклад, переконайтеся, що ваші PDF-файли не зашифровані та заблоковані паролем. Ви повинні розшифрувати такі файли, перш ніж використовувати їх у навчальних цілях. Позначте зразки своїх документів відповідними категоріями або мітками (класів). Визначте, чи класифікація з однією маркою (багатокласний режим) Або класифікація з кількома мітками підходить для вашого випадку використання. Багатокласовий режим пов’язує з кожним документом лише один клас, тоді як режим кількох міток пов’язує з документом один або більше класів.

Розгляньте оцінку моделі

Використовуйте позначений набір даних для навчання моделі, щоб вона могла навчитися точно класифікувати нові документи та оцінити, як працює нова навчена версія моделі, розуміючи показники моделі. Щоб зрозуміти показники, які надає навчання Amazon Comprehend після моделювання, див Індивідуальні показники класифікатора. Після завершення процесу навчання ви можете почати класифікувати документи асинхронно або в режимі реального часу. У наступних розділах ми пояснимо, як навчити спеціальну модель класифікації.

Підготуйте дані для навчання

Перш ніж навчати нашу спеціальну модель класифікації, нам потрібно підготувати навчальні дані. Навчальні дані складаються з набору документів з мітками, які можуть бути попередньо визначеними документами зі сховища документів, до якого ви вже маєте доступ. Для нашого прикладу ми навчили спеціальну модель класифікації з декількома різними типами документів, які зазвичай зустрічаються в процесі розгляду заяв про медичне страхування: резюме пацієнта, рахунки-фактури, квитанції тощо. Нам також потрібно підготувати файл анотацій у форматі CSV. Нижче наведено приклад даних CSV файлу анотацій, необхідних для навчання:

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

CSV-файл анотацій має містити три стовпці. Перший стовпець містить потрібний клас (мітку) для документа, другий стовпець — ім’я документа (ім’я файлу), а останній стовпець — номер сторінки документа, який ви хочете включити до навчального набору даних. Оскільки процес навчання підтримує власні багатосторінкові файли PDF і DOCX, ви повинні вказати номер сторінки, якщо документ є багатосторінковим. Якщо ви хочете включити всі сторінки багатосторінкового документа до навчального набору даних, ви повинні вказати кожну сторінку як окремий рядок у файлі анотацій CSV. Наприклад, у попередньому файлі анотацій invoice-1.pdf це двосторінковий документ, і ми хочемо включити обидві сторінки в набір даних класифікації. Оскільки такі файли, як PDF, PNG і TIFF, є форматами зображень, значення номера сторінки (третій стовпець) завжди має дорівнювати 1. Якщо ваш набір даних містить багатокадрові (багатосторінкові) файли TIF, ви повинні розділити їх на окремі файли TIF у для того, щоб використовувати їх у навчальному процесі.

Ми підготували файл анотацій під назвою test.csv з відповідними даними для навчання спеціальної моделі класифікації. Для кожного зразка документа файл CSV містить клас, до якого належить цей документ, і розташування документа Служба простого зберігання Amazon (Amazon S3), наприклад path/to/prefix/document.pdfі номер сторінки (якщо є). Оскільки більшість наших документів є односторінковими файлами DOCX, PDF або файлами TIF, JPG або PNG, призначається номер сторінки 1. Оскільки всі наші анотації CSV і зразки документів мають однаковий префікс Amazon S3, ми не t потрібно явно вказати префікс у другому стовпці. Ми також готуємо принаймні 10 або більше зразків документів для кожного класу, і ми використовували суміш файлів JPG, PNG, DOCX, PDF і TIF для навчання моделі. Зауважте, що для навчання моделі зазвичай рекомендується мати різноманітний набір зразків документів, щоб уникнути переобладнання моделі, що впливає на її здатність розпізнавати нові документи. Також рекомендується, щоб кількість зразків на клас була збалансованою, хоча не обов’язково мати однакову кількість зразків на клас. Далі ми завантажуємо test.csv файл анотацій і всі документи в Amazon S3. На наступному зображенні показано частину нашого CSV-файлу анотацій.

Amazon Comprehend document classifier adds layout support for higher accuracy PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Навчання спеціальної моделі класифікації

Тепер, коли у нас є готовий файл анотацій і всі зразки документів, ми налаштовуємо спеціальну модель класифікації та навчаємо її. Перш ніж почати налаштовувати навчальну модель спеціальної класифікації, переконайтеся, що анотації CSV і зразки документів існують у розташуванні Amazon S3.

На консолі Amazon Comprehend виберіть Спеціальна класифікація у навігаційній панелі.
Вибирати Створити нову модель.
для назва моделі, введіть унікальне ім’я.
для Назва версії, введіть унікальну назву версії.
для Тип тренувальної моделівиберіть Рідні документи.

Це повідомляє Amazon Comprehend, що ви маєте намір використовувати рідні типи документів для навчання моделі замість серіалізованого тексту.

для Режим класифікаторавиберіть Використання режиму однієї мітки.

Цей режим повідомляє класифікатору, що ми маємо намір класифікувати документи в один клас. Якщо вам потрібно навчити модель із режимом кількох міток, тобто документ може належати до одного чи кількох класів, ви повинні належним чином налаштувати файл анотацій, вказавши класи документа, розділені спеціальним символом у CSV анотацій. файл. У такому випадку ви б вибрали Використання режиму кількох міток варіант.

для Розташування анотації на S3, введіть шлях до CSV-файлу анотацій.
для Розташування даних навчання на S3, введіть розташування Amazon S3, де зберігаються ваші документи.
Залиште всі інші параметри за замовчуванням у цьому розділі.
У Вихідні дані розділі, вкажіть місце розташування Amazon S3 для виведення.

Це необов’язково, але рекомендовано вказувати місце виведення, оскільки Amazon Comprehend генеруватиме метрики оцінювання навчання після моделі в цьому місці. Ці дані корисні для оцінки продуктивності моделі, її повторення та підвищення точності.

У Роль IAM розділ, виберіть відповідний Управління ідентифікацією та доступом AWS (IAM), яка дозволяє Amazon Comprehend отримувати доступ до розташування Amazon S3 і записувати та читати з нього.
Вибирати Створювати розпочати модельне навчання.

Навчання моделі може зайняти кілька хвилин, залежно від кількості класів і розміру набору даних. Ви можете переглянути статус навчання на Спеціальна класифікація сторінки. Навчальний процес буде відображати a Представлений статус відразу після початку процесу навчання і зміниться на Навчання стан, коли починається процес навчання. Після навчання вашої моделі, Статус версії зміниться на Навчений. Якщо Amazon Comprehend виявить невідповідності у даних про навчання, відобразиться статус Помилка разом із попередженням, яке показує відповідне повідомлення про помилку, щоб ви могли вжити виправних заходів і перезапустити процес навчання з виправленими даними.

Amazon Comprehend document classifier adds layout support for higher accuracy PlatoBlockchain Data Intelligence. Vertical Search. Ai.

У цій публікації ми продемонстрували кроки для навчання спеціальної моделі класифікатора за допомогою консолі Amazon Comprehend. Ви також можете використовувати AWS SDK будь-якою мовою (наприклад, Boto3 для Python) або Інтерфейс командного рядка AWS (AWS CLI), щоб розпочати навчання спеціальної моделі класифікації. Ви можете використовувати SDK або AWS CLI CreateDocumentClassifier API для ініціювання навчання моделі та подальшого використання DescribeDocumentClassifier API для перевірки статусу моделі.

Після того, як модель навчена, ви можете виконати будь-яке з них аналіз в режимі реального часу or завдання асинхронного (пакетного) аналізу на нові документи. Щоб виконувати класифікацію документів у режимі реального часу, необхідно розгорнути кінцеву точку Amazon Comprehend у режимі реального часу з навченою користувацькою моделлю класифікації. Кінцеві точки в режимі реального часу найкраще підходять для випадків використання, які вимагають результатів висновку в реальному часі з низькою затримкою, тоді як для класифікації великого набору документів більш доречним є завдання асинхронного аналізу. Щоб дізнатися, як можна виконувати асинхронний висновок щодо нових документів за допомогою навченої моделі класифікації, див Представляємо одноетапну класифікацію та розпізнавання об’єктів за допомогою Amazon Comprehend для інтелектуальної обробки документів.

Переваги користувацької моделі класифікації з урахуванням макета

Нова модель класифікатора пропонує низку вдосконалень. Це не тільки легше навчити нову модель, але ви також можете навчити нову модель лише за кількома зразками для кожного класу. Крім того, вам більше не потрібно витягувати серіалізований звичайний текст із відсканованих або цифрових документів, таких як зображення чи PDF-файли, щоб підготувати навчальний набір даних. Нижче наведено деякі додаткові варті уваги вдосконалення, які ви можете очікувати від нової моделі класифікації:

Покращена точність – Модель тепер враховує макет і структуру документів, що дає змогу краще зрозуміти структуру та зміст документів. Це допомагає розрізняти документи зі схожим текстом, але різними макетами чи структурами, що підвищує точність класифікації.
Надійність – Модель тепер обробляє варіації структури та форматування документа. Завдяки цьому він краще підходить для класифікації документів із різних джерел із різними макетами чи стилями форматування, що є типовою проблемою для завдань класифікації документів у реальному світі. Він сумісний з декількома типами документів, що робить його універсальним і застосовним для різних галузей і випадків використання.
Зменшене ручне втручання – Вища точність призводить до меншого ручного втручання в процес класифікації. Це може заощадити час і ресурси, а також підвищити ефективність робочого навантаження з обробки документів.

Висновок

Нова модель класифікації документів Amazon Comprehend, яка включає в себе інформацію про макет, кардинально змінює правила гри для компаній, які мають справу з великими обсягами документів. Завдяки розумінню структури та компонування документів ця модель пропонує покращену точність і ефективність класифікації. Впровадження надійного та точного рішення для класифікації документів за допомогою моделі з урахуванням макета може допомогти вашому бізнесу заощадити час, скоротити операційні витрати та покращити процеси прийняття рішень.

Наступним кроком ми радимо вам спробувати нову користувацьку модель класифікації Amazon Comprehend за допомогою Консоль Amazon Comprehend. Ми також рекомендуємо переглянути наші оголошення про вдосконалення моделі спеціальної класифікації від в минулому році і відвідати GitHub сховище для зразків коду.

Про авторів

Анжан Бісвас є старшим архітектором рішень AI Services, який спеціалізується на AI/ML та аналізі даних. Анджан є частиною всесвітньої команди надання послуг штучного інтелекту та працює з клієнтами, щоб допомогти їм зрозуміти та розробити рішення бізнес-проблем за допомогою штучного інтелекту та машинного навчання. Анджан має понад 14 років досвіду роботи з глобальними ланцюжками постачання, виробництвом і роздрібними організаціями, і активно допомагає клієнтам почати роботу та масштабувати послуги AWS AI.

Годвін Сахаярадж Вінсент є архітектором корпоративних рішень в AWS, який захоплений машинним навчанням і надає клієнтам рекомендації щодо проектування, розгортання та керування робочими навантаженнями та архітектурами AWS. У вільний час він любить грати в крикет з друзями і теніс зі своїми трьома дітьми.

Вік Талукдар є старшим архітектором команди Amazon Comprehend Service. Він працює з клієнтами AWS, щоб допомогти їм запровадити машинне навчання у великих масштабах. Поза роботою він захоплюється читанням і фотографією.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
Карбування майбутнього з Адріенн Ешлі. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/amazon-comprehend-document-classifier-adds-layout-support-for-higher-accuracy/

Часова мітка: Квітень 19, 2023

Часова мітка: Листопад 13, 2023

Перевидано Платоном

Створіть багатомовний робочий процес перекладу документів із налаштуваннями для окремих доменів і мов

Запобігайте захопленню облікового запису під час входу за допомогою нової моделі Account Takeover Insights у Amazon Fraud Detector

AWS і Mistral AI беруть на себе зобов’язання демократизувати генеративний ШІ за допомогою посиленої співпраці | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки