Амазонка Текст — это служба машинного обучения (ML), которая автоматически извлекает текст, рукописный текст и данные из любого документа или изображения. В Amazon Textract есть функция Таблицы в АнализДокумент API, который предлагает возможность автоматического извлечения табличных структур из любого документа. В этом посте мы обсудим улучшения, внесенные в таблицы функцию и как она упрощает извлечение информации в табличных структурах из самых разных документов.
Табличные структуры в таких документах, как финансовые отчеты, платежные квитанции и файлы сертификатов анализа, часто форматируются таким образом, чтобы облегчить интерпретацию информации. Они часто также включают такую информацию, как заголовок таблицы, нижний колонтитул таблицы, заголовок раздела и сводные строки в табличной структуре для лучшей удобочитаемости и организации. Для аналогичного документа, предшествующего этому усовершенствованию, функция «Таблицы» в AnalyzeDocument
идентифицировал бы эти элементы как ячейки и не извлекал бы заголовки и нижние колонтитулы, находящиеся за пределами таблицы. В таких случаях была необходима настраиваемая логика постобработки для идентификации такой информации или извлечения ее отдельно из выходных данных JSON API. С этим объявлением об улучшениях функции «Таблица» извлечение различных аспектов табличных данных становится намного проще.
В апреле 2023 года Amazon Textract представила возможность автоматически определять заголовки, нижние колонтитулы, заголовки разделов и сводные строки, присутствующие в документах, с помощью функции «Таблицы». В этом посте мы обсудим эти улучшения и приведем примеры, которые помогут вам понять и использовать их в рабочих процессах обработки документов. Мы рассмотрим, как использовать эти улучшения с помощью примеров кода, чтобы использовать API и обрабатывать ответ с помощью Библиотека Amazon Textractor Textractor.
Обзор решения
На следующем изображении показано, что обновленная модель определяет не только таблицу в документе, но и все соответствующие верхние и нижние колонтитулы таблицы. Этот образец документа финансового отчета содержит заголовок таблицы, нижний колонтитул, заголовок раздела и итоговые строки.
Улучшение функции «Таблицы» добавляет поддержку четырех новых элементов в ответе API, что позволяет с легкостью извлекать каждый из этих элементов таблицы, а также добавляет возможность различать тип таблицы.
Элементы таблицы
Amazon Textract может идентифицировать несколько компонентов таблицы, например ячейки таблицы и объединенные ячейки. Эти компоненты, известные как Block
объекты, инкапсулируют детали, связанные с компонентом, такие как ограничивающая геометрия, взаимосвязи и оценка достоверности. А Block
представляет элементы, которые распознаются в документе в пределах группы пикселей, близких друг к другу. Ниже приведены новые Табличные блоки представлено в этом расширении:
- Название таблицы - новый
Block
тип называетсяTABLE_TITLE
который позволяет вам идентифицировать заголовок данной таблицы. Заголовки могут состоять из одной или нескольких строк, которые обычно располагаются над таблицей или встроены в ячейку таблицы. - Нижние колонтитулы таблиц - новый
Block
тип называетсяTABLE_FOOTER
который позволяет вам идентифицировать нижние колонтитулы, связанные с данной таблицей. Нижние колонтитулы могут состоять из одной или нескольких строк, которые обычно находятся под таблицей или встроены в ячейку таблицы. - Название раздела - новый
Block
тип называетсяTABLE_SECTION_TITLE
это позволяет определить, является ли обнаруженная ячейка заголовком раздела. - Сводные ячейки - новый
Block
тип называетсяTABLE_SUMMARY
это позволяет вам определить, является ли ячейка сводной ячейкой, например ячейкой для итогов в платежной квитанции.
Типы столов
Когда Amazon Textract идентифицирует таблицу в документе, он извлекает все сведения о таблице в файл верхнего уровня. Block
тип TABLE
. Столы могут быть разных форм и размеров. Например, документы часто содержат таблицы, которые могут иметь или не иметь различимый заголовок таблицы. Чтобы различать эти типы таблиц, мы добавили два новых типа сущностей для TABLE Block
: SEMI_STRUCTURED_TABLE
и STRUCTURED_TABLE
. Эти типы сущностей помогают отличить структурированную таблицу от полуструктурированной.
Структурированные таблицы — это таблицы с четко определенными заголовками столбцов. Но в полуструктурированных таблицах данные могут не соответствовать строгой структуре. Например, данные могут отображаться в табличной структуре, которая не является таблицей с определенными заголовками. Новые типы сущностей позволяют гибко выбирать, какие таблицы оставить или удалить во время постобработки. На следующем изображении показан пример STRUCTURED_TABLE
и SEMI_STRUCTURED_TABLE
.
Анализ вывода API
В этом разделе мы рассмотрим, как вы можете использовать Библиотека Amazon Textractor Textractor для постобработки вывода API AnalyzeDocument
с улучшениями функции Таблицы. Это позволяет извлекать необходимую информацию из таблиц.
Textractor — это библиотека, созданная для бесперебойной работы с API и утилитами Amazon Textract для последующего преобразования ответов JSON, возвращаемых API, в программируемые объекты. Вы также можете использовать его для визуализации объектов в документе и экспорта данных в такие форматы, как файлы с разделителями-запятыми (CSV). Он предназначен для помощи клиентам Amazon Textract в настройке конвейеров постобработки.
В наших примерах мы используем следующий пример страницы из документа 10-K SEC.
Следующий код можно найти в нашем Репозиторий GitHub. Для обработки этого документа мы используем библиотеку Textractor и импортируем ее для постобработки выходных данных API и визуализации данных:
Первый шаг — вызвать Amazon Textract AnalyzeDocument
с функцией Таблицы, обозначенной значком features=[TextractFeatures.TABLES]
параметр для извлечения информации из таблицы. Обратите внимание, что этот метод вызывает режим реального времени (или синхронный). АнализДокумент API, который поддерживает одностраничные документы. Тем не менее, вы можете использовать асинхронный StartDocumentAnalysis
API для обработки многостраничных документов (до 3,000 страниц).
Ассоциация document
Объект содержит метаданные о документе, который можно просмотреть. Обратите внимание, что он распознает одну таблицу в документе вместе с другими объектами в документе:
Теперь, когда у нас есть выходные данные API, содержащие информацию о таблице, мы визуализируем различные элементы таблицы, используя структуру ответа, обсуждавшуюся ранее:
Библиотека Textractor выделяет различные объекты в обнаруженной таблице своим цветовым кодом для каждого элемента таблицы. Давайте углубимся в то, как мы можем извлечь каждый элемент. Следующий фрагмент кода демонстрирует извлечение заголовка таблицы:
Точно так же мы можем использовать следующий код для извлечения нижних колонтитулов таблицы. Обратите внимание, что table_footers — это список, что означает, что с таблицей может быть связан один или несколько нижних колонтитулов. Мы можем перебрать этот список, чтобы увидеть все присутствующие нижние колонтитулы, и, как показано в следующем фрагменте кода, на выходе отображаются три нижних колонтитула:
Генерация данных для последующего приема
Библиотека Textractor также помогает упростить прием табличных данных в последующие системы или другие рабочие процессы. Например, вы можете экспортировать извлеченные данные таблицы в удобочитаемый файл Microsoft Excel. На момент написания этой статьи это единственный формат, поддерживающий объединенные таблицы.
Мы также можем преобразовать его в Панды DataFrame. DataFrame — популярный выбор для обработки данных, анализа и визуализации на таких языках программирования, как Python и R.
В Python DataFrame является основной структурой данных в библиотеке Pandas. Это гибкое и мощное решение часто является лучшим выбором для специалистов по анализу данных для различных задач анализа данных и машинного обучения. В следующем фрагменте кода показано, как преобразовать извлеченную информацию таблицы в DataFrame с помощью одной строки кода:
Наконец, мы можем преобразовать данные таблицы в файл CSV. Файлы CSV часто используются для загрузки данных в реляционные базы данных или хранилища данных. См. следующий код:
Заключение
Введение этих новых типов блоков и объектов (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
и TABLE_SUMMARY
) знаменует собой значительный прогресс в извлечении табличных структур из документов с помощью Amazon Textract.
Эти инструменты обеспечивают более тонкий и гибкий подход, обслуживая как структурированные, так и полуструктурированные таблицы и гарантируя, что никакие важные данные не будут упущены из виду, независимо от их местоположения в документе.
Это означает, что теперь мы можем обрабатывать различные типы данных и структуры таблиц с повышенной эффективностью и точностью. Поскольку мы продолжаем использовать возможности автоматизации рабочих процессов обработки документов, эти усовершенствования, несомненно, проложат путь к более упорядоченным рабочим процессам, повышению производительности и более глубокому анализу данных. Для получения дополнительной информации о AnalyzeDocument
и функцию «Таблицы» см. АнализДокумент.
Об авторах
Радж Патхак является старшим архитектором решений и технологом, специализирующимся на финансовых услугах (страхование, банковское дело, рынки капитала) и машинном обучении. Он специализируется на обработке естественного языка (NLP), больших языковых моделях (LLM) и проектах инфраструктуры и операций машинного обучения (MLOPs).
Анжан Бисвас является старшим архитектором решений AI Services, специализирующимся на AI/ML и аналитике данных. Анджан является частью всемирной группы по обслуживанию ИИ и работает с клиентами, помогая им понять и разработать решения бизнес-проблем с помощью ИИ и машинного обучения. Анджан имеет более чем 14-летний опыт работы с глобальными цепочками поставок, производственными и розничными организациями и активно помогает клиентам начать работу и масштабировать сервисы AWS AI.
Лалита Редди является старшим менеджером по техническим продуктам в команде Amazon Textract. Она занимается созданием сервисов на основе машинного обучения для клиентов AWS. В свободное время Лалита любит играть в настольные игры и ходить в походы.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- ЭВМ Финанс. Единый интерфейс для децентрализованных финансов. Доступ здесь.
- Квантум Медиа Групп. ИК/PR усиление. Доступ здесь.
- ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :имеет
- :является
- :нет
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- способность
- О нас
- выше
- Учетные записи
- точность
- активно
- добавленный
- Добавляет
- продвижение
- агентство
- AI
- Услуги искусственного интеллекта
- AI / ML
- помощь
- Все
- позволяет
- вдоль
- причислены
- Amazon
- Амазонка Текст
- Amazon Web Services
- суммы
- an
- анализ
- аналитика
- и
- Объявление
- объявляющий
- любой
- API
- API
- появиться
- подхода
- примерно
- апрель
- МЫ
- AS
- аспекты
- Активы
- связанный
- At
- автоматически
- автоматизация
- AWS
- Баланс
- баланс листов
- Банковское дело
- основа
- BE
- становится
- ниже
- Лучшая
- между
- миллиард
- Заблокировать
- доска
- Настольные игры
- изоферменты печени
- Строительство
- бизнес
- но
- by
- призывают
- под названием
- CAN
- столица
- Рынки капитала
- случаев
- Наличный расчёт
- Клетки
- определенный
- сертификат
- цепь
- выбор
- Выберите
- классифицировать
- явно
- клиент
- Закрыть
- код
- Залог
- цвет
- Column
- как
- обязательств
- компонент
- компоненты
- доверие
- содержать
- содержит
- продолжать
- конвертировать
- Корпоративное
- соответствующий
- Цена
- создали
- кредит
- изготовленный на заказ
- Клиенты
- данным
- анализ данных
- Анализ данных
- Структура данных
- базы данных
- Долг
- Декабрь
- более глубокий
- определенный
- демонстрирует
- подробнее
- обнаруженный
- развивать
- различный
- направление
- скидка
- обсуждать
- обсуждается
- дисплеев
- выделить
- Разное
- документ
- Документация
- сомневаюсь
- два
- в течение
- каждый
- простота
- легче
- легко
- затрат
- элемент
- элементы
- встроенный
- обниматься
- позволяет
- расширение
- улучшения
- лиц
- организация
- собственный капитал
- эквиваленты
- имущество
- к XNUMX году
- пример
- Примеры
- Excel
- опыт
- Больше
- экспорт
- извлечение
- Экстракты
- ярмарка
- Особенность
- Файл
- Файлы
- Подача
- финансовый
- финансовый отчет
- финансовые услуги
- Во-первых,
- фиксированной
- фиксированный доход
- Трансформируемость
- гибкого
- Фокус
- внимание
- следовать
- после
- Что касается
- иностранный
- формат
- найденный
- 4
- от
- средства
- Gain
- Доходы
- Игры
- получить
- GitHub
- Дайте
- данный
- Глобальный
- Go
- Правительство
- валовой
- группы
- было
- обрабатывать
- Есть
- he
- Заголовки
- помощь
- помощь
- помогает
- ее
- иерархия
- высший
- Выделенные
- основной момент
- Hikes
- имеет
- Как
- How To
- Однако
- HTML
- HTTPS
- человек
- идентифицированный
- идентифицирует
- определения
- Личность
- if
- изображение
- Импортировать
- важную
- улучшение
- in
- включают
- доход
- информация
- Инфраструктура
- устанавливать
- страхование
- предназначенных
- интерпретация
- в
- выпустили
- Введение
- инвестиций
- Запускает
- IT
- пункты
- ЕГО
- JPG
- JSON
- юрисдикции
- Сохранить
- известный
- Отсутствие
- язык
- Языки
- большой
- изучение
- Меньше
- уровень
- Библиотека
- нравится
- линия
- линий
- Список
- LLM
- грузы
- расположение
- логика
- дольше
- от
- потери
- машина
- обучение с помощью машины
- сделанный
- основной
- сделать
- ДЕЛАЕТ
- Создание
- менеджер
- Манипуляция
- производство
- рынок
- Области применения:
- Май..
- означает
- Метаданные
- метод
- Microsoft
- может быть
- миллиона
- миллионы
- ML
- млн операций в секунду
- модель
- Модели
- изменять
- деньги
- денежный рынок
- месяцев
- БОЛЕЕ
- много
- натуральный
- Обработка естественного языка
- необходимо
- сеть
- Новые
- НЛП
- нет
- Уведомление..
- сейчас
- объект
- объекты
- of
- предлагают
- Предложения
- .
- on
- ONE
- только
- Операционный отдел
- or
- организация
- организации
- Другое
- в противном случае
- наши
- выходной
- внешнюю
- за
- страница
- панд
- параметр
- часть
- вымостить
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- Популярное
- часть
- После
- мощностью
- мощный
- представить
- предварительно
- в первую очередь
- первичный
- Печать / PDF
- Предварительный
- проблемам
- процесс
- обработка
- Продукт
- Менеджер по продукции
- производительность
- профессионалы
- Программирование
- языки программирования
- проектов
- обеспечивать
- Питон
- Q1
- Q3
- Q3 2021
- q3 2022
- Запросы
- реальные
- недвижимость
- реального времени
- признанный
- признает
- записанный
- повторяющихся
- Несмотря на
- область
- регуляторы
- Связанный
- Отношения
- соответствующие
- удаление
- отчету
- Отчеты
- представляет
- обязательный
- соответственно
- ответ
- ответы
- ограничивать
- ограниченный
- Ограничения
- в результате
- розничный
- отзывы
- s
- главная
- Шкала
- Гол
- легко
- SEC / КОМИССИЯ ПО ЦЕННЫМ БУМАГАМ И БИРЖАМ
- Регистрация SEC
- Раздел
- Ценные бумаги
- безопасность
- посмотреть
- Продавцы
- старший
- сентябрь
- обслуживание
- Услуги
- установка
- несколько
- формы
- она
- показанный
- Шоу
- Подписи
- значительный
- аналогичный
- упростить
- одинарной
- Размеры
- Решения
- специализируется
- специализация
- и политические лидеры
- Шаг
- обтекаемый
- Строгий
- Структура
- структурированный
- предмет
- впоследствии
- такие
- РЕЗЮМЕ
- поставка
- цепочками поставок
- поддержка
- Поддержка
- системы
- ТАБЛИЦЫ
- задачи
- команда
- Технический
- технолог
- чем
- который
- Ассоциация
- их
- Их
- Там.
- Эти
- они
- сторонние
- этой
- те
- три
- Через
- время
- Название
- позиций
- в
- инструменты
- верхний уровень
- Всего
- торговать
- два
- напишите
- Типы
- типично
- нам
- Правительство США
- понимать
- нереализованные убытки
- обновление
- us
- использование
- используемый
- через
- коммунальные услуги
- ценностное
- Наши ценности
- разнообразие
- различный
- Против
- с помощью
- визуализация
- законопроект
- Путь..
- we
- Web
- веб-сервисы
- который
- широкий
- будете
- в
- слова
- Работа
- Рабочие процессы
- работает
- работает
- бы
- письмо
- лет
- Ты
- ВАШЕ
- зефирнет