Текст Amazon – це служба машинного навчання (ML), яка автоматично витягує текст, рукописний текст і дані з будь-якого документа чи зображення. У Amazon Texttract є функція таблиць Аналіз документа API, який надає можливість автоматично витягувати табличні структури з будь-якого документа. У цій публікації ми обговорюємо вдосконалення, зроблені в таблиці і як це полегшує отримання інформації в табличних структурах із різноманітних документів.
Табличні структури в таких документах, як фінансові звіти, платіжні квитанції та файли сертифікатів аналізу, часто відформатовані таким чином, щоб полегшити інтерпретацію інформації. Вони також часто включають таку інформацію, як заголовок таблиці, нижній колонтитул таблиці, заголовок розділу та підсумкові рядки в структурі таблиці для кращої читабельності та організації. Для подібного документа до цього вдосконалення функція Таблиці всередині AnalyzeDocument
ідентифікував би ці елементи як комірки, і він не вилучав заголовки та нижні колонтитули, які присутні за межами таблиці. У таких випадках необхідна спеціальна логіка постобробки, щоб ідентифікувати таку інформацію або витягнути її окремо з вихідних даних JSON API. Завдяки цьому оголошенню про вдосконалення функції таблиці вилучення різних аспектів табличних даних стає набагато простішим.
У квітні 2023 року Amazon Texttract представив можливість автоматичного визначення заголовків, нижніх колонтитулів, заголовків розділів і підсумкових рядків у документах за допомогою функції «Таблиці». У цій публікації ми обговорюємо ці вдосконалення та наводимо приклади, які допоможуть вам зрозуміти та використовувати їх у робочих процесах обробки документів. Ми пояснюємо, як використовувати ці вдосконалення за допомогою прикладів коду для використання API та обробки відповіді за допомогою Бібліотека Amazon Texttract Textractor.
Огляд рішення
На зображенні нижче показано, що оновлена модель визначає не лише таблицю в документі, але й усі відповідні колонтитули таблиці. Цей зразок документа фінансового звіту містить заголовок таблиці, нижній колонтитул, заголовок розділу та підсумкові рядки.
Удосконалення функції «Таблиці» додає підтримку чотирьох нових елементів у відповідь API, що дозволяє легко видобувати кожен із цих елементів таблиці та додає можливість розрізняти тип таблиці.
Елементи таблиці
Amazon Texttract може ідентифікувати кілька компонентів таблиці, наприклад клітинки таблиці та об’єднані клітинки. Ці компоненти, відомі як Block
об’єкти, інкапсулюють деталі, пов’язані з компонентом, такі як обмежувальна геометрія, зв’язки та оцінка достовірності. А Block
представляє елементи, які розпізнаються в документі в межах групи пікселів, близьких один до одного. Нижче наведено нові Табличні блоки представлені в цьому вдосконаленні:
- Назва таблиці – Новий
Block
тип називаєтьсяTABLE_TITLE
що дозволяє визначити заголовок даної таблиці. Заголовки можуть бути одним або декількома рядками, які зазвичай розташовані над таблицею або вбудовані як комірки в таблицю. - Колонтитули таблиці – Новий
Block
тип називаєтьсяTABLE_FOOTER
який дає змогу ідентифікувати нижні колонтитули, пов’язані з заданою таблицею. Нижні колонтитули можуть бути одним або декількома рядками, які зазвичай розташовані під таблицею або вбудовані як комірки всередині таблиці. - Заголовок розділу – Новий
Block
тип називаєтьсяTABLE_SECTION_TITLE
який дає змогу визначити, чи виявлена клітинка є заголовком розділу. - Підсумкові комірки – Новий
Block
тип називаєтьсяTABLE_SUMMARY
що дає змогу визначити, чи є ця комірка сумарною коміркою, як-от комірка для підсумків у платіжній картці.
Види столів
Коли Amazon Texttract визначає таблицю в документі, він витягує всі деталі таблиці в таблицю верхнього рівня. Block
тип TABLE
. Столи можуть бути різних форм і розмірів. Наприклад, документи часто містять таблиці, які можуть мати або не мати помітного заголовка таблиці. Щоб розрізняти ці типи таблиць, ми додали два нових типи сутностей для a TABLE Block
: SEMI_STRUCTURED_TABLE
та STRUCTURED_TABLE
. Ці типи сутностей допомагають відрізнити структуровану таблицю від напівструктурованої.
Структуровані таблиці – це таблиці, які мають чітко визначені заголовки стовпців. Але з напівструктурованими таблицями дані можуть не дотримуватися суворої структури. Наприклад, дані можуть відображатися в табличній структурі, яка не є таблицею з визначеними заголовками. Нові типи сутностей пропонують гнучкість вибору таблиць для збереження або видалення під час постобробки. На наступному зображенні показано приклад STRUCTURED_TABLE
та SEMI_STRUCTURED_TABLE
.
Аналіз виходу API
У цьому розділі ми досліджуємо, як ви можете використовувати Бібліотека Amazon Texttract Textractor для постобробки вихідних даних API AnalyzeDocument
з удосконаленнями функції таблиць. Це дозволяє отримувати відповідну інформацію з таблиць.
Textractor — це бібліотека, створена для бездоганної роботи з API та утилітами Amazon Texttract для подальшого перетворення відповідей JSON, які повертаються API, у програмовані об’єкти. Ви також можете використовувати його для візуалізації сутностей у документі та експорту даних у такі формати, як файли зі значеннями, розділеними комами (CSV). Він призначений для допомоги клієнтам Amazon Texttract у налаштуванні конвеєрів постобробки.
У наших прикладах ми використовуємо наведену нижче зразкову сторінку з документу 10-K SEC.
Наступний код можна знайти в нашому GitHub сховище. Щоб обробити цей документ, ми використовуємо бібліотеку Textractor та імпортуємо її для постобробки вихідних даних API та візуалізації даних:
Першим кроком є виклик Amazon Texttract AnalyzeDocument
з функціями Таблиці, позначеними features=[TextractFeatures.TABLES]
параметр для отримання інформації з таблиці. Зверніть увагу, що цей метод викликає режим реального часу (або синхронний) Аналіз документа API, який підтримує односторінкові документи. Однак ви можете використовувати асинхронний StartDocumentAnalysis
API для обробки багатосторінкових документів (до 3,000 сторінок).
Команда document
Об'єкт містить метадані про документ, який можна переглянути. Зверніть увагу, що він розпізнає одну таблицю в документі разом з іншими об’єктами в документі:
Тепер, коли у нас є вихід API, що містить інформацію про таблицю, ми візуалізуємо різні елементи таблиці, використовуючи структуру відповіді, розглянуту раніше:
Бібліотека Textractor виділяє різні сутності в межах виявленої таблиці за допомогою коду різного кольору для кожного елемента таблиці. Давайте глибше розглянемо, як ми можемо витягти кожен елемент. Наступний фрагмент коду демонструє вилучення заголовка таблиці:
Подібним чином ми можемо використовувати наступний код, щоб витягнути нижні колонтитули таблиці. Зверніть увагу, що table_footers — це список, що означає, що з таблицею може бути один або кілька нижніх колонтитулів. Ми можемо переглянути цей список, щоб побачити всі наявні нижні колонтитули, і, як показано в наступному фрагменті коду, результат відображає три нижні колонтитули:
Створення даних для подальшого прийому
Бібліотека Textractor також допомагає вам спростити прийом табличних даних у наступні системи або інші робочі процеси. Наприклад, ви можете експортувати витягнуті дані таблиці у файл Microsoft Excel, який читає людина. На момент написання цієї статті це єдиний формат, який підтримує об’єднані таблиці.
Ми також можемо перетворити його на a Pandas DataFrame. DataFrame є популярним вибором для обробки даних, аналізу та візуалізації в мовах програмування, таких як Python і R.
У Python DataFrame є основною структурою даних у бібліотеці Pandas. Він гнучкий і потужний, і часто є першим вибором для професіоналів з аналізу даних для різноманітних завдань аналізу даних і машинного навчання. У наведеному нижче фрагменті коду показано, як перетворити витягнуту інформацію таблиці в DataFrame за допомогою одного рядка коду:
Нарешті, ми можемо конвертувати дані таблиці у файл CSV. Файли CSV часто використовуються для введення даних у реляційні бази даних або сховища даних. Перегляньте наступний код:
Висновок
Введення цих нових типів блоків і сутностей (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
та TABLE_SUMMARY
) знаменує значний прогрес у вилученні табличних структур із документів за допомогою Amazon Texttract.
Ці інструменти забезпечують більш нюансований і гнучкий підхід, обслуговуючи як структуровані, так і напівструктуровані таблиці та гарантуючи, що жодні важливі дані не будуть пропущені, незалежно від їх розташування в документі.
Це означає, що тепер ми можемо працювати з різними типами даних і структурами таблиць з підвищеною ефективністю та точністю. Оскільки ми продовжуємо використовувати потужність автоматизації робочих процесів обробки документів, ці вдосконалення, безсумнівно, прокладуть шлях до більш раціоналізованих робочих процесів, вищої продуктивності та більш глибокого аналізу даних. Для отримання додаткової інформації про AnalyzeDocument
і функцію «Таблиці», див Аналіз документа.
Про авторів
Радж Патхак є старшим архітектором рішень і технологом, який спеціалізується на фінансових послугах (страхування, банківська справа, ринки капіталу) і машинному навчанні. Він спеціалізується на обробці природної мови (NLP), моделях великих мов (LLM) і проектах інфраструктури й операцій машинного навчання (MLOps).
Анжан Бісвас є старшим архітектором рішень AI Services, який спеціалізується на AI/ML та аналізі даних. Анджан є частиною всесвітньої команди надання послуг штучного інтелекту та працює з клієнтами, щоб допомогти їм зрозуміти та розробити рішення бізнес-проблем за допомогою штучного інтелекту та машинного навчання. Анджан має понад 14 років досвіду роботи з глобальними ланцюжками постачання, виробництвом і роздрібними організаціями та активно допомагає клієнтам почати роботу та масштабувати послуги AWS AI.
Лаліта Редді є старшим менеджером із технічних продуктів у команді Amazon Texttract. Вона зосереджена на створенні сервісів на основі машинного навчання для клієнтів AWS. У вільний час Лаліта любить грати в настільні ігри та ходити в походи.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- EVM Фінанси. Уніфікований інтерфейс для децентралізованих фінансів. Доступ тут.
- Quantum Media Group. ІЧ/ПР посилений. Доступ тут.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- : має
- :є
- : ні
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- здатність
- МЕНЮ
- вище
- Рахунки
- точність
- активно
- доданий
- Додає
- просування
- агентство
- AI
- Послуги ШІ
- AI / ML
- Aid
- ВСІ
- дозволяє
- по
- Також
- Amazon
- Текст Amazon
- Amazon Web Services
- суми
- an
- аналіз
- аналітика
- та
- Оголошення
- Оголошуючи
- будь-який
- API
- Інтерфейси
- з'являтися
- підхід
- приблизно
- квітня
- ЕСТЬ
- AS
- аспекти
- Активи
- асоційований
- At
- автоматично
- Автоматизація
- AWS
- Balance
- балансові листи
- Banking
- основа
- BE
- стає
- нижче
- Краще
- між
- Мільярд
- Блокувати
- рада
- Настільні ігри
- обидва
- Створюємо
- бізнес
- але
- by
- call
- званий
- CAN
- капітал
- Ринки капіталу
- випадків
- готівкові гроші
- Клітини
- певний
- сертифікат
- ланцюг
- вибір
- Вибирати
- Класифікувати
- очевидно
- клієнт
- близько
- код
- Заставу
- color
- Колонка
- Приходити
- зобов'язань
- компонент
- Компоненти
- довіра
- містити
- містить
- продовжувати
- конвертувати
- Корпоративний
- Відповідний
- Коштувати
- створений
- кредит
- виготовлений на замовлення
- Клієнти
- дані
- аналіз даних
- Analytics даних
- Структура даних
- базами даних
- Борг
- Грудень
- глибше
- певний
- демонструє
- деталі
- виявлено
- розвивати
- різний
- напрям
- Знижка
- обговорювати
- обговорювалися
- дисплеїв
- розрізняти
- Різне
- документ
- документація
- сумніваюся
- два
- під час
- кожен
- простота
- легше
- легко
- ефективність
- елемент
- елементи
- вбудований
- обійняти
- дозволяє
- підвищена
- Удосконалення
- юридичні особи
- суб'єкта
- капітал
- еквіваленти
- майно
- оцінка
- приклад
- Приклади
- перевершувати
- досвід
- дослідити
- експорт
- витяг
- Виписки
- ярмарок
- особливість
- філе
- Файли
- Подача
- фінансовий
- фінансовий звіт
- фінансові послуги
- Перший
- фіксованою
- фіксований прибуток
- Гнучкість
- гнучкий
- Сфокусувати
- увагу
- стежити
- після
- для
- іноземні
- формат
- знайдений
- чотири
- від
- засоби
- Отримувати
- прибуток
- Games
- отримати
- GitHub
- Давати
- даний
- Глобальний
- Go
- Уряд
- валовий
- Group
- було
- обробляти
- Мати
- he
- Заголовки
- допомога
- допомогу
- допомагає
- її
- ієрархія
- вище
- Виділено
- основний момент
- Походи
- тримає
- Як
- How To
- Однак
- HTML
- HTTPS
- людина
- ідентифікований
- ідентифікує
- ідентифікувати
- Особистість
- if
- зображення
- імпорт
- важливо
- поліпшення
- in
- включати
- Дохід
- інформація
- Інфраструктура
- встановлювати
- страхування
- призначених
- інтерпретація
- в
- введені
- Вступ
- інвестиції
- викликає
- IT
- пунктів
- ЙОГО
- JPG
- json
- юрисдикції
- тримати
- відомий
- відсутність
- мова
- мови
- великий
- вивчення
- менше
- рівень
- бібліотека
- Сподобалося
- Лінія
- ліній
- список
- LLM
- вантажі
- розташування
- логіка
- довше
- від
- втрати
- машина
- навчання за допомогою машини
- made
- основний
- зробити
- РОБОТИ
- Робить
- менеджер
- Маніпуляція
- виробництво
- ринок
- ринки
- Може..
- засоби
- метадані
- метод
- Microsoft
- може бути
- мільйона
- мільйони
- ML
- MLOps
- модель
- Моделі
- змінювати
- гроші
- грошовий ринок
- місяців
- більше
- багато
- Природний
- Обробка природних мов
- необхідно
- мережу
- Нові
- nlp
- немає
- Зверніть увагу..
- зараз
- об'єкт
- об'єкти
- of
- пропонувати
- Пропозиції
- часто
- on
- ONE
- тільки
- операції
- or
- організація
- організації
- Інше
- інакше
- наші
- вихід
- поза
- над
- сторінка
- панди
- параметр
- частина
- прокладати
- plato
- Інформація про дані Платона
- PlatoData
- Play
- популярний
- частина
- пошта
- влада
- потужний
- представити
- раніше
- в першу чергу
- первинний
- друк
- попередній
- проблеми
- процес
- обробка
- Product
- менеджер по продукції
- продуктивність
- професіонали
- Програмування
- мови програмування
- проектів
- забезпечувати
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- запити
- реальний
- нерухомість
- реального часу
- визнаний
- визнає
- записаний
- повторювані
- Незалежно
- регіон
- регуляторні
- пов'язаний
- Відносини
- доречний
- видаляти
- звітом
- Звіти
- представляє
- вимагається
- відповідно
- відповідь
- відповіді
- обмежити
- обмежений
- Обмеження
- в результаті
- роздрібна торгівля
- відгуки
- s
- продажів
- шкала
- рахунок
- плавно
- SEC
- Подача SEC
- розділ
- Securities
- безпеку
- побачити
- Продавці
- старший
- Вересень
- обслуговування
- Послуги
- установка
- кілька
- форми
- вона
- показаний
- Шоу
- Signatures
- значний
- аналогічний
- спростити
- один
- розміри
- Рішення
- спеціалізується
- спеціалізується
- почалася
- Крок
- обтічний
- Strict
- структура
- структурований
- тема
- Згодом
- такі
- РЕЗЮМЕ
- поставка
- ланцюжка поставок
- підтримка
- Опори
- Systems
- таблиця
- завдання
- команда
- технічний
- технолог
- ніж
- Що
- Команда
- їх
- Їх
- Там.
- Ці
- вони
- третя сторона
- це
- ті
- три
- через
- час
- назва
- назви
- до
- інструменти
- верхній рівень
- Усього:
- торгувати
- два
- тип
- Типи
- типово
- нас
- Уряд США
- розуміти
- нереалізовані збитки
- оновлений
- us
- використання
- використовуваний
- використання
- комунальні послуги
- значення
- Цінності
- різноманітність
- різний
- Проти
- через
- візуалізації
- було
- шлях..
- we
- Web
- веб-сервіси
- який
- широкий
- волі
- з
- в
- слова
- Work
- Робочі процеси
- робочий
- працює
- б
- лист
- років
- Ти
- вашу
- зефірнет