2022H2 Резюме запуску Amazon Texttract

Документи є основним інструментом для ведення записів, спілкування, співпраці та транзакцій у багатьох галузях, включаючи фінансову, медичну, юридичну та нерухомість. Мільйони іпотечних заявок і сотні мільйонів податкових форм W2, які обробляються щороку, є лише кількома прикладами таких документів.

Критичні бізнес-дані залишаються розблокованими в неструктурованих документах, таких як відскановані зображення та PDF-файли, і намагаються змусити людей прочитати ці дані чи навіть застарілі OCR нудний, дорогий і схильний до помилок.

Ось чому ми запустили Текст Amazon у 2019 році, щоб допомогти вам автоматизувати ваші стомлюючі робочі процеси обробки документів за допомогою ШІ. Amazon Texttract автоматично витягує друкований текст, рукописний текст і дані з будь-якого документа.

Amazon Texttract постійно вдосконалює сервіс на основі ваших відгуків.

У цій публікації ми ділимося функціями та вдосконаленнями служби Amazon Texttract, які випускаються щокварталу.

2022 – 4 квартал

Проаналізуйте кредитування, щоб прискорити обробку кредитних документів

Функція Analyze Lending в Amazon Texttract — це керований API, який допомагає вам автоматизувати обробку іпотечних документів для підвищення ефективності бізнесу, зниження витрат і швидкого масштабування. Analyze Lending повністю автоматизує класифікацію та вилучення інформації з кредитних пакетів. Ви просто завантажуєте свої документи про іпотечну позику в Analyze Lending API, і її попередньо навчені моделі машинного навчання автоматично класифікують і розділять за типом документів, а також витягають важливі поля інформації з пакета іпотечної позики. Дізнайтеся більше про цю функцію в публікації Класифікація та отримання даних про іпотечну позику за допомогою Amazon Texttract.

Можливість виявлення підписів на будь-якому документі

За допомогою цієї функції Amazon Texttract надає можливість виявляти рукописні підписи, електронні підписи та ініціали на таких документах, як форми заявки на кредит, чеки, форми претензій тощо. Функція підписів доступна як частина AnalyzeDocument API. Це зменшує потребу в рецензентах і допомагає зменшити витрати, заощадити час і створювати масштабовані рішення для обробки документів. AnalyzeDocument Сигнатури надають місцезнаходження та оцінки достовірності виявлених сигнатур. Цю функцію можна використовувати окремо або в поєднанні з іншими функціями AnalyzeDocument. Підписи попередньо навчені на різноманітних фінансових, страхових і податкових документах. Дізнайтеся більше про те, як використовувати цю функцію, у нашому документація для AnalyzeDocument API.

Удосконалення форм AnalyzeDocument для коробкових форм і шрифту E13B

Amazon Texttract покращив якість функцій вилучення тексту та форм, доступних як частина AnalyzeDocument API.

Ці оновлення підвищують загальну точність вилучення пари ключ-значення та, зокрема, покращують вилучення даних, зібраних у односимвольних формах, які зазвичай зустрічаються в податкових, імміграційних та інших формах. Amazon Texttract тепер може використовувати свої знання про ці односимвольні рамкові форми для забезпечення вищої точності вилучення пар ключ-значення.

Крім того, ми раді повідомити про підтримку шрифтів E13B, які зазвичай зустрічаються в депозитних чеках, покращення точності виявлення міжнародних номерів банківських рахунків (IBAN), знайдених у банківських документах, і довгих слів (таких як адреси електронної пошти) через AnalyzeDocument API. Підприємства в таких галузях, як страхування, охорона здоров’я та банківська справа, використовують ці документи у своїх бізнес-процесах і автоматично побачать переваги цього оновлення під час використання AnalyzeDocument API.

AnalyzeExpense API додає нові поля та вихід OCR

Оновлення до AnalyzeExpense API збільшує кількість нормалізованих полів до понад 40. Нещодавно підтримувані нормалізовані поля включають підсумкові поля, такі як адреса постачальника, і поля позицій, як-от код продукту. Завдяки цій новій можливості ви можете безпосередньо отримувати потрібну інформацію та економити час на написання та підтримку складного коду постобробки. Окрім підтримки нових полів, ми покращили точність таких полів, як назва постачальника та загальна сума, які вже підтримувалися в попередній версії.

Разом із нормалізованими парами ключ-значення та звичайними парами ключ-значення, AnalyzeExpense тепер надає повний вихід OCR у відповідь API. Ви можете отримати як пари ключ-значення, так і необроблений витяг OCR за допомогою одного запиту API. Дізнайтеся більше про AnalyzeExpense API в Аналіз рахунків-фактур і квитанцій.

Проаналізуйте підтримку машинозчитуваного коду зони ідентифікатора та вихід OCR

Analyze ID додає підтримку для отримання коду машинозчитуваної зони (MRZ) у паспортах США. Це на додаток до інших полів, які можна витягти в паспорті США, наприклад номер документа, дата народження та дата видачі, загалом 10 полів. Ви можете продовжувати отримувати 19 полів із водійських прав США, включно з такими полями, як ім’я, прізвище та адреса. Окрім підтримки нового поля коду MRZ, ми покращили точність таких полів, як дата закінчення терміну дії та місце народження, які вже підтримувалися в попередній версії.

Разом із нормалізованими парами ключ-значення Analyze ID надає повний вихід OCR у відповідь API з цим випуском. Ви можете отримати як пари ключ-значення, так і необроблений витяг OCR за допомогою одного запиту API. Дізнайтеся більше про наш Analyze ID API у Аналіз документів, що посвідчують особу.

2022 – 3 квартал

Підвищення точності вилучення тексту (OCR).

Найновіші моделі вилучення тексту (OCR) доступні через DetectDocumentText API покращує точність виділення слів і рядків. Amazon Texttract також додав підтримку вилучення шрифту E13B, який зазвичай зустрічається в чеках, номери IBAN у банківських документах, а також покращив точність довгих слів, таких як адреси електронної пошти. Щоб дізнатися більше про запуск, див Amazon Texttract оголошує про оновлення функції вилучення тексту.

Підвищення точності вилучення форм

Тепер Amazon Texttract забезпечує підвищену точність виділення пари ключ-значення для стандартизованих документів із узгодженими макетами, як-от вибрані форми CMS (Center for Medicare and Medicaid) для охорони здоров’я, податкової служби податкової служби та страхування ACORD. З цих документів традиційно було складно отримати інформацію через їхню щільність і складність компонування. Amazon Texttract тепер може використовувати свої знання про ці стандартизовані форми для забезпечення вищої точності вилучення пар ключ-значення. Підприємства в таких галузях, як страхування, охорона здоров’я та банківська справа, автоматично побачать переваги цього оновлення, коли вони скористаються функцією вилучення форм. Для отримання додаткової інформації див Amazon Texttract оголошує про якісне оновлення функції вилучення форм.

Інтеграція з AWS Service Quotas

Тепер ви можете проактивно керувати всіма своїми квотами служби Amazon Texttract за допомогою Квоти обслуговування AWS консоль. Завдяки квотам обслуговування ваші запити на збільшення квоти тепер можуть оброблятися автоматично, що в більшості випадків прискорює час затвердження. Окрім перегляду значень квот за замовчуванням, тепер ви можете переглядати застосовані значення квот для ваших облікових записів у певному регіоні, історичні показники використання квоти та налаштовувати сигнали сповіщення, коли використання певної квоти перевищує встановлений поріг.

Крім того, тепер ви можете використовувати Калькулятор квоти Amazon Texttract щоб легко оцінити вимоги до квоти для вашого робочого навантаження перед тим, як надсилати запит на збільшення квоти безпосередньо з консолі AWS Service Quotas. Для отримання додаткової інформації див Представляємо керування квотами самообслуговування та вищі квоти обслуговування за умовчанням для Amazon Texttract.

Збільшено стандартні квоти служби для Amazon Texttract

Amazon Texttract тепер має вищі квоти послуг за умовчанням для кількох асинхронних і синхронних операцій API у кількох основних регіонах AWS. Зокрема, тепер доступні вищі квоти послуг за умовчанням AnalyzeDocument та DetectDocumentText Асинхронні та синхронні операції API у регіонах Схід США (Огайо), Схід США (Північна Вірджинія), Захід США (Орегон), Азіатсько-Тихоокеанський регіон (Мумбаї) та Європа (Ірландія). Для отримання додаткової інформації див Представляємо керування квотами самообслуговування та вищі квоти обслуговування за умовчанням для Amazon Texttract.

Скорочення часу обробки завдань на асинхронних API Amazon Texttract

Amazon Texttract пропонує синхронний доступ Інтерфейси як DetectDocumentText, Аналіз документа, Аналіз витрат та AnalyzeID, які повертають фактичну відповідь документа, і асинхронні Інтерфейси як StartDocumentTextDetection, Запустіть аналіз документів та Запустіть аналіз витрат, які дозволяють подавати багатосторінкові документи та отримувати сповіщення про завершення обробки завдання.

У минулому клієнти розповідали нам, що вони часто спостерігали велику варіативність часу обробки асинхронних завдань залежно від їхнього варіанту використання. На основі ваших відгуків ми покращили роботу таким чином, що ви можете очікувати більш жорстких обмежень часу обробки асинхронних завдань із меншою варіативністю.

Підсумки

Amazon Texttract постійно вдосконалюється на основі відгуків клієнтів і часто випускає нові функції та вдосконалення служби.

Нові функції доступні в усіх регіонах, якщо для функції не вказано конкретні регіони.

Дослідіть Amazon Texttract для себе сьогодні на Консоль Amazon Textract або за допомогою Інтерфейс командного рядка AWS (AWS CLI) або Інструменти розробника AWS!


Про автора

2022H2 Підсумок запуску Amazon Texttract PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Мартін Шаде є Senior ML Product SA в команді Amazon Texttract. Він має понад 20 років досвіду роботи з Інтернет-технологіями, інженерними та архітектурними рішеннями. Він приєднався до AWS у 2014 році, спочатку керуючи деякими з найбільших клієнтів AWS щодо найбільш ефективного та масштабованого використання послуг AWS, а потім зосередився на ШІ/ML ​​з фокусом з комп’ютерним зором і зараз одержимий вилученням інформації з документів.

Часова мітка:

Більше від AWS Машинне навчання