Текст Amazon – це служба машинного навчання (ML), яка автоматично витягує текст, рукописний текст і дані зі сканованих документів. Запити — це функція, яка дозволяє витягувати певні частини інформації з різноманітних складних документів за допомогою природної мови. Користувацькі запити надає можливість самостійно налаштувати функцію запитів для нестандартних документів, пов’язаних із бізнесом, таких як договори кредитування авто, чеки та виписки про оплату. Налаштувавши цю функцію для розпізнавання унікальних термінів, структур і ключової інформації, характерної для цих типів документів, ви зможете задовольнити потреби подальшої обробки з більшою точністю та мінімальним людським втручанням. Користувацькі запити легко інтегрувати у ваш існуючий конвеєр Texttract, і ви продовжуєте користуватися перевагами повністю керованих інтелектуальних функцій обробки документів Amazon Texttract без необхідності інвестувати в досвід ML або управління інфраструктурою.
У цій публікації ми показуємо, як користувацькі запити можуть точно отримувати дані з чеків, які є складними, нестандартними документами. Крім того, ми обговорюємо переваги користувацьких запитів і ділимося передовими методами ефективного використання цієї функції.
Огляд рішення
Починаючи з нового сценарію використання, ви можете оцінити, як текстові запити працюють із вашими документами, перейшовши до Текстова консоль і за допомогою демо-версії Analyze Document або Bulk Document Uploader. Відноситься до Найкращі методи для запитів створювати запити, застосовні до вашого випадку використання. Якщо ви виявите помилки у відповідях на запити через характер ваших ділових документів, ви можете скористатися спеціальними запитами для підвищення точності. Протягом кількох годин ви можете анотувати свої зразки документів за допомогою Консоль управління AWS і тренувати адаптер. Адаптери – це компоненти, які підключаються до попередньо навченої моделі глибокого навчання Amazon Texttract, налаштовуючи її вихід на основі ваших анотованих документів. Ви можете використовувати адаптер для висновку, передавши ідентифікатор адаптера як додатковий параметр до Аналізуйте запити документів API запит.
Давайте перевіримо, як Користувацькі запити може підвищити точність вилучення в складних сценаріях реального світу, наприклад вилучення даних із чеків. Основна проблема під час обробки чеків виникає через їхню велику варіативність залежно від типу (наприклад, особисті або касові чеки), фінансової установи та країни (наприклад, формат лінії MICR). . Ці варіанти можуть включати розміщення імені одержувача, суму цифрами та словами, дату та підпис. Розпізнавання та адаптація до цих варіацій може бути складним завданням під час вилучення даних. Щоб покращити вилучення даних, організації часто використовують процеси перевірки та підтвердження вручну, що збільшує вартість і час процесу вилучення.
Спеціальні запити вирішують ці проблеми, дозволяючи вам налаштовувати попередньо навчені функції запитів для різних варіантів перевірок. Налаштування попередньо навченої функції допоможе вам досягти високої точності вилучення даних для конкретного різновиду макетів, які ви обробляєте.
У нашому прикладі використання фінансова установа хоче отримати з чека такі поля: ім’я одержувача, ім’я платника, номер рахунку, номер маршруту, суму платежу (цифрами), суму платежу (прописом), номер чека, дату та записка.
Давайте розглянемо процес генерації адаптера (компонента, який налаштовує вивід) для обробки чеків. Адаптери можна створювати через консоль або програмно через API. У цьому дописі детально описано роботу консолі; однак, якщо ви хочете програмно створити адаптер, зверніться до прикладів коду в custom-queries-checks-blog.ipynb Зошит Юпітер (Варіант 2).
Процес створення адаптера включає п’ять етапів високого рівня: створення адаптера, завантаження зразків документів, анотування документів, навчання адаптера та оцінка показників продуктивності.
Створіть адаптер
На консолі Amazon Texttract створіть новий адаптер, вказавши назву, опис і додаткові теги, які допоможуть вам ідентифікувати адаптер. У вас є можливість увімкнути автоматичні оновлення, що дозволяє Amazon Texttract оновлювати ваш адаптер, коли основна функція запитів оновлюється новими можливостями.
Після створення адаптера ви побачите сторінку деталей адаптера зі списком кроків у Як це працює? розділ. У цьому розділі активуються ваші наступні кроки, які ви виконуєте послідовно.
Завантажте зразки документів
Початковий етап створення адаптера передбачає ретельний вибір відповідного набору зразків документів для анотації, навчання та тестування. У нас є можливість автоматично розділити документи на тестові та навчальні набори даних; однак для цього процесу ми вручну розділяємо набір даних.
Важливо зауважити, що ви можете створити адаптер лише з п’ятьма тестовими та п’ятьма навчальними зразками, але важливо переконатися, що цей набір зразків є різноманітним і репрезентативним для робочого навантаження, яке виникає у виробничому середовищі.
Для цього підручника ми зібрали зразки наборів даних перевірки, які ви можете скачати. Наш набір даних включає такі варіації, як особисті чеки, касові чеки, стимулюючі чеки та чеки, вбудовані в платіжні чеки. Ми також включили рукописні та друковані чеки; разом із варіаціями в таких полях, як рядок пам’ятки.
Анотуйте зразки документів
На наступному кроці ви додаєте зразки документів, пов’язуючи запити з відповідними відповідями через консоль. Ви можете ініціювати анотацію за допомогою автоматичного або ручного маркування. Автоматичне маркування використовує текстові запити Amazon для попереднього маркування набору даних. Ми рекомендуємо використовувати автоматичне маркування, щоб пришвидшити процес анотації.
Для цього випадку обробки перевірок ми використовуємо такі запити. Якщо ваш варіант використання включає інші типи документів, див Найкращі методи для запитів створювати запити, застосовні до вашого випадку використання.
- Хто є одержувачем?
- Що таке чек №?
- Яка адреса одержувача?
- Яке число?
- Що таке номер облікового запису?
- Яка сума чека прописом?
- Яке ім’я рахунку/платника/платника?
- Яка сума в доларах?
- Яка назва банку/ім'я трасата?
- Який номер банку?
- Що таке лінія MICR?
- Що таке пам'ятка?
Коли процес автоматичного маркування буде завершено, ви зможете переглянути та відредагувати відповіді, надані для кожного документа. Виберіть Почніть огляд щоб переглянути анотації до кожного зображення.
Якщо відповідь на запит відсутня або неправильна, ви можете додати або відредагувати відповідь, намалювавши обмежувальну рамку або ввівши відповідь вручну.
Щоб пришвидшити ваше проходження, ми попередньо анотували зразки чеків, які ви можете скопіювати у свій обліковий запис AWS. Запустіть custom-queries-checks-blog.ipynb Юпітер блокнот в межах Зразки коду Amazon Texttract бібліотеку для автоматичного оновлення ваших анотацій.
Навчіть адаптер
Переглянувши всі зразки документів, щоб переконатися в точності анотацій, можна почати процес навчання адаптера. Під час цього кроку вам потрібно вказати місце зберігання, де потрібно зберегти адаптер. Тривалість процесу навчання змінюватиметься залежно від розміру набору даних, який використовується для навчання. Навчальний API також можна викликати програмним шляхом, якщо ви вирішите використовувати інструмент анотації на власний вибір і передаєте відповідні вхідні файли в API. Відноситься до Користувацькі запити для більш докладної інформації.
Оцініть показники ефективності
Після завершення навчання адаптера ви можете оцінити його продуктивність, вивчивши показники оцінки, такі як F1 бал, точність і відкликання. Ви можете аналізувати ці показники разом або окремо для кожного документа. Використовуючи наш вибірковий набір даних перевірки, ви побачите, що показник точності (оцінка F1) покращився з 68% до 92% за допомогою навченого адаптера.
Крім того, ви можете перевірити вихід адаптера на нових документах, вибравши Спробуйте адаптер.
Після оцінки ви можете підвищити продуктивність адаптера, додавши додаткові зразки документів до навчального набору даних або повторно анотувавши документи з балами, нижчими за порогове значення. Щоб повторно анотувати документи, виберіть Перевірте документи на сторінці деталей адаптера виберіть документ і виберіть Перегляньте анотації.
Програмно протестуйте адаптер
Після успішного завершення навчання ви можете використовувати адаптер у своєму Аналіз документа Виклики API. Запит API схожий на запит API текстових запитів Amazon із додаванням AdaptersConfig
об'єкт
Ви можете запустити наведений нижче приклад коду або запустити його безпосередньо в custom-queries-checks-blog.ipynb Зошит Юпітер. Зразок блокнота також надає код для порівняння результатів запитів Amazon Texttract і спеціальних запитів Amazon Texttract.
створити AdaptersConfig об’єкт з ідентифікатором адаптера та версією адаптера, а також додатково включити сторінки, до яких ви хочете застосувати адаптер:
Створити QueriesConfig
об’єкт із запитами, яким ви навчили адаптер, і викличте API Amazon Texttract. Зауважте, що ви також можете включити додаткові запити, для яких адаптер не був навчений. Amazon Texttract автоматично використовуватиме функцію запитів для цих запитань, а не користувацькі запити, таким чином забезпечуючи вам гнучкість використання користувацьких запитів лише за потреби.
Нарешті, ми зводимо наші результати в таблицю для кращої читабельності:
Прибирати
Щоб очистити ресурси, виконайте такі дії:
- На консолі Amazon Texttract виберіть Користувацькі запити у навігаційній панелі.
- Виберіть адаптер, який потрібно видалити.
- Вибирати видаляти.
Управління адаптером
Ви можете регулярно вдосконалювати свої адаптери, створюючи нові версії попередньо згенерованого адаптера. Щоб створити нову версію адаптера, ви додаєте нові зразки документів до існуючого адаптера, позначаєте документи та виконуєте навчання. Ви можете одночасно підтримувати кілька версій адаптера для використання в конвеєрах розробки. Щоб безперешкодно оновлювати адаптери, не змінюйте та не видаляйте свої Служба простого зберігання Amazon (Amazon S3), де зберігаються файли, необхідні для створення адаптера.
Кращі практики
У разі використання користувацьких запитів у документах див Найкращі практики для спеціальних запитів Amazon Texttract для додаткових міркувань і найкращих практик.
Переваги спеціальних запитів
Спеціальні запити пропонують такі переваги:
- Покращене розуміння документів – Завдяки своїй здатності отримувати та нормалізувати дані з високою точністю, спеціальні запити зменшують залежність від переглядів і аудитів вручну, а також дозволяють створювати більш надійну автоматизацію для інтелектуальних робочих процесів обробки документів.
- Швидший час оцінки – Коли ви стикаєтеся з новими типами документів, де вам потрібна більша точність, ви можете використовувати спеціальні запити, щоб створити адаптер у спосіб самообслуговування протягом кількох годин. Вам не потрібно чекати попереднього оновлення моделі, коли ви стикаєтеся з новими типами документів або варіаціями існуючих у своєму робочому процесі. Ви маєте повний контроль над своїм конвеєром і вам не потрібно покладатися на Amazon Texttract для підтримки нових типів документів.
- Конфіденційність даних – Спеціальні запити не зберігають і не використовують дані, які використовуються для створення адаптерів для вдосконалення наших загальних попередньо навчених моделей, доступних для всіх клієнтів. Адаптер обмежено обліковим записом клієнта або іншими обліковими записами, явно визначеними клієнтом, гарантуючи, що лише такі облікові записи можуть отримати доступ до вдосконалень, зроблених з використанням даних клієнта.
- Зручність – Власні запити забезпечують повністю керований досвід висновків, подібний до запитів. Навчання адаптера безкоштовне, і ви платите лише за висновок. Користувацькі запити заощаджують накладні витрати та витрати на навчання та експлуатацію спеціальних моделей.
Висновок
У цій публікації ми обговорили переваги користувацьких запитів, показали, як користувацькі запити можуть точно отримувати дані з перевірок, і поділилися передовими методами ефективного використання цієї функції. Лише за кілька годин ви можете створити адаптер за допомогою консолі та використовувати його в API AnalyzeDocument для ваших потреб вилучення даних. Для отримання додаткової інформації див Користувацькі запити.
Про авторів
Шибін Майклрадж є старшим менеджером із продуктів у команді Amazon Texttract. Він зосереджений на створенні продуктів на основі AI/ML для клієнтів AWS. Він із захватом допомагає клієнтам вирішувати складні бізнес-завдання, використовуючи технології AI та ML. У вільний час він любить бігати, переглядати подкасти та вдосконалювати свої навички аматорського тенісу.
Кіт Маскареньяс є старшим архітектором рішень у команді служби Amazon Texttract. Він захоплений розв’язанням бізнес-проблем у великих масштабах за допомогою машинного навчання, і наразі допомагає нашим клієнтам у всьому світі автоматизувати обробку документів, щоб швидше вивести на ринок із скороченням операційних витрат.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 10
- 100
- 17
- 36
- 7
- a
- здатність
- МЕНЮ
- прискорювати
- доступ
- рахунки
- Рахунки
- точність
- точно
- Achieve
- пристосування
- додавати
- доповнення
- Додатковий
- адреса
- адреси
- проти
- AI
- ВСІ
- дозволяє
- по
- Також
- аматорський
- Amazon
- Текст Amazon
- Amazon Web Services
- кількість
- an
- аналізувати
- та
- Відповіді
- API
- застосовно
- прикладної
- відповідний
- ЕСТЬ
- AS
- оцінити
- At
- аудит
- автоматичний
- автоматизувати
- автоматичний
- автоматично
- Автоматизація
- доступний
- AWS
- Банк
- заснований
- основа
- BE
- було
- починати
- користь
- Переваги
- КРАЩЕ
- передового досвіду
- Краще
- між
- Box
- будувати
- Створюємо
- бізнес
- але
- by
- call
- Виклики
- CAN
- можливості
- обережний
- випадок
- виклик
- проблеми
- складні
- Зміни
- перевірка
- Перевірки
- вибір
- Вибирати
- Вибираючи
- очистити
- код
- колективно
- порівняти
- повний
- Зроблено
- комплекс
- компонент
- Компоненти
- міркування
- Консоль
- будувати
- продовжувати
- контрактів
- контроль
- Відповідний
- Коштувати
- витрати
- країна
- створювати
- створений
- створення
- Куратор
- В даний час
- виготовлений на замовлення
- клієнт
- Клієнти
- настройка
- налаштувати
- дані
- набори даних
- Дата
- глибокий
- глибоке навчання
- Ступінь
- демонстрація
- Залежно
- description
- призначені
- деталі
- розробка
- різний
- безпосередньо
- обговорювати
- обговорювалися
- Різне
- do
- документ
- документація
- робить
- Долар
- Не знаю
- проект
- малювання
- два
- тривалість
- під час
- e
- кожен
- легко
- фактично
- або
- вбудований
- працевлаштований
- включіть
- дозволяє
- дозволяє
- підвищувати
- забезпечувати
- забезпечення
- вхід
- Навколишнє середовище
- помилки
- істотний
- оцінювати
- оцінка
- досліджувати
- Вивчення
- збуджений
- існуючий
- витрати
- досвід
- експертиза
- явно
- дослідити
- витяг
- видобуток
- Виписки
- f1
- швидше
- особливість
- риси
- кілька
- Поля
- Файли
- фінансовий
- фінансова установа
- п'ять
- Гнучкість
- увагу
- після
- для
- формат
- Безкоштовна
- від
- повністю
- Загальне
- породжувати
- генерується
- породжує
- покоління
- GitHub
- великий
- Мати
- має
- he
- допомога
- допомогу
- допомагає
- Високий
- на вищому рівні
- вище
- його
- ГОДИННИК
- Як
- Однак
- HTML
- HTTP
- HTTPS
- людина
- ID
- ідентифікатор
- ідентифікувати
- if
- зображення
- імпорт
- важливо
- удосконалювати
- поліпшення
- in
- включати
- включені
- includes
- включення
- Збільшує
- інформація
- Інфраструктура
- початковий
- ініціювати
- вхід
- встановлювати
- Установа
- інтегрувати
- Розумний
- Інтелектуальна обробка документів
- втручання
- в
- Invest
- викликали
- IT
- ЙОГО
- JPG
- просто
- ключ
- етикетка
- маркування
- мова
- вивчення
- кредитування
- використання
- бібліотека
- як
- обмеженою
- Лінія
- список
- розташування
- знизити
- машина
- навчання за допомогою машини
- made
- підтримувати
- зробити
- вдалося
- управління
- менеджер
- манера
- керівництво
- вручну
- ринок
- Зустрічатися
- Меморандум
- метрика
- Метрика
- мінімальний
- відсутній
- ML
- модель
- Моделі
- більше
- множинний
- ім'я
- Природний
- природа
- навігація
- навігація
- Необхідність
- необхідний
- потреби
- Нові
- наступний
- ноутбук
- зараз
- номер
- номера
- об'єкт
- of
- Пропозиції
- часто
- on
- ті,
- тільки
- операційний
- оперативний
- варіант
- or
- організації
- Інше
- наші
- вихід
- над
- власний
- сторінка
- сторінок
- pane
- параметр
- проходити
- Проходження
- пристрасний
- Платити
- оплата
- Виконувати
- продуктивність
- виступає
- персонал
- фаза
- частин
- трубопровід
- розміщення
- plato
- Інформація про дані Платона
- PlatoData
- штекер
- подкасти
- пошта
- практики
- Точність
- раніше
- первинний
- проблеми
- процес
- процеси
- обробка
- Product
- менеджер по продукції
- Production
- Продукти
- за умови
- забезпечує
- забезпечення
- запити
- питань
- Реальний світ
- визнавати
- визнаючи
- рекомендувати
- Знижений
- знижує
- послатися
- рафінування
- регулярно
- доречний
- надійний
- опора
- представник
- запросити
- ресурси
- відповідь
- відповіді
- результати
- зберігати
- огляд
- відгуки
- Відгуки
- Маршрутизація
- прогін
- біг
- зберігаються
- шкала
- сценарій
- рахунок
- плавно
- розділ
- побачити
- вибір
- Самообслуговування
- обслуговування
- Послуги
- комплект
- Поділитись
- загальні
- Повинен
- Показувати
- показав
- підпис
- аналогічний
- простий
- одночасно
- Розмір
- навички
- Рішення
- ВИРІШИТИ
- Розв’язування
- конкретний
- розкол
- Починаючи
- заяви
- Крок
- заходи
- стимул
- стимульні перевірки
- зберігання
- структур
- Успішно
- такі
- підтримка
- Завдання
- команда
- Технології
- terms
- тест
- Тестування
- текст
- ніж
- Що
- Команда
- їх
- Їх
- тим самим
- Ці
- це
- поріг
- через
- час
- до
- інструмент
- поїзд
- навчений
- Навчання
- ТРП
- настройка
- підручник
- тип
- Типи
- що лежить в основі
- створеного
- Оновити
- оновлений
- Updates
- використання
- використання випадку
- використовує
- використання
- використовувати
- використовує
- перевірка достовірності
- різноманітність
- різний
- перевірка
- версія
- версії
- через
- чекати
- покрокове керівництво
- хотіти
- хоче
- шлях..
- we
- Web
- веб-сервіси
- Що
- Що таке
- коли
- який
- ВООЗ
- Вікіпедія
- волі
- з
- в
- без
- слова
- робочий
- Робочі процеси
- світовий
- Неправильно
- Ти
- вашу
- зефірнет
- Zip