亚马逊Textract 是一种机器学习 (ML) 服务,可自动从任何文档或图像中提取文本、手写内容和数据。 Amazon Textract 在 分析文件 提供从任何文档中自动提取表格结构的能力的 API。 在这篇文章中,我们讨论了对 表 功能以及它如何使从各种文档中以表格结构提取信息变得更加容易。
财务报告、工资单和分析证书文件等文档中的表格结构通常采用易于理解信息的方式进行格式化。 它们通常还包括表标题、表脚、节标题和表格结构中的摘要行等信息,以提高可读性和组织性。 对于此增强功能之前的类似文档,其中的表格功能 AnalyzeDocument
会将这些元素识别为单元格,并且不会提取出现在表格边界之外的标题和页脚。 在这种情况下,需要自定义后处理逻辑来识别此类信息或将其与 API 的 JSON 输出分开提取。 随着表功能的增强,表格数据的各个方面的提取变得更加简单。
2023 年 XNUMX 月,Amazon Textract 引入了通过表格功能自动检测文档中存在的标题、页脚、章节标题和摘要行的功能。 在本文中,我们将讨论这些增强功能并提供示例,以帮助您在文档处理工作流程中理解和使用它们。 我们将通过代码示例介绍如何使用这些改进来使用 API 并使用 Amazon Textract Textractor 库.
解决方案概述
下图显示更新后的模型不仅可以识别文档中的表格,还可以识别所有相应的表格页眉和页脚。 此示例财务报告文档包含表标题、页脚、节标题和摘要行。
表格功能增强在 API 响应中增加了对四个新元素的支持,使您可以轻松提取这些表格元素中的每一个,并增加了区分表格类型的能力。
表格元素
Amazon Textract 可以识别表格的多个组件,例如表格单元格和合并单元格。 这些组件,称为 Block
对象,封装与组件相关的细节,例如边界几何、关系和置信度分数。 A Block
表示文档中彼此靠近的一组像素中可识别的项目。 以下是新的 表块 在此增强中引入:
- 表格标题 –新
Block
类型调用TABLE_TITLE
使您能够识别给定表格的标题。 标题可以是一行或多行,通常位于表格上方或作为表格中的单元格嵌入。 - 表脚 –新
Block
类型调用TABLE_FOOTER
使您能够识别与给定表格关联的页脚。 页脚可以是一行或多行,通常位于表格下方或作为表格中的一个单元格嵌入。 - 章节标题 –新
Block
类型调用TABLE_SECTION_TITLE
这使您能够识别检测到的单元格是否是节标题。 - 摘要单元格 –新
Block
类型调用TABLE_SUMMARY
这使您能够识别该单元格是否是汇总单元格,例如工资单上的总计单元格。
表格类型
当 Amazon Textract 识别文档中的表格时,它会将表格的所有详细信息提取到顶级 Block
类型 TABLE
. 桌子可以有各种形状和大小。 例如,文档通常包含可能有也可能没有可辨别的表格标题的表格。 为了帮助区分这些类型的表,我们添加了两个新的实体类型 TABLE Block
: SEMI_STRUCTURED_TABLE
和 STRUCTURED_TABLE
. 这些实体类型可帮助您区分结构化表和半结构化表。
结构化表格是具有明确定义的列标题的表格。 但是对于半结构化表,数据可能不遵循严格的结构。 例如,数据可能出现在表格结构中,而不是具有已定义标题的表格。 新的实体类型提供了灵活性,可以选择在后处理过程中保留或删除哪些表。 下图显示了一个示例 STRUCTURED_TABLE
和 SEMI_STRUCTURED_TABLE
.
分析 API 输出
在本节中,我们将探讨如何使用 Amazon Textract Textractor 库 对 API 输出进行后处理 AnalyzeDocument
具有表格功能增强功能。 这允许您从表中提取相关信息。
Textractor 是一个库,旨在与 Amazon Textract API 和实用程序无缝协作,随后将 API 返回的 JSON 响应转换为可编程对象。 您还可以使用它来可视化文档中的实体并以逗号分隔值 (CSV) 文件等格式导出数据。 它旨在帮助 Amazon Textract 客户设置他们的后处理管道。
在我们的示例中,我们使用 10-K SEC 备案文件中的以下示例页面。
以下代码可以在我们的 GitHub存储库. 为了处理此文档,我们使用 Textractor 库并将其导入,以便我们对 API 输出进行后处理并可视化数据:
第一步是调用 Amazon Textract AnalyzeDocument
具有表格功能,由 features=[TextractFeatures.TABLES]
提取表信息的参数。 请注意,此方法调用实时(或同步) 分析文件 API,支持单页文档。 但是,您可以使用 异步 StartDocumentAnalysis
用于处理多页文档(最多 3,000 页)的 API。
document
对象包含有关可以查看的文档的元数据。 请注意,它识别文档中的一个表格以及文档中的其他实体:
现在我们有了包含表信息的 API 输出,我们使用前面讨论的响应结构可视化表的不同元素:
Textractor 库突出显示检测到的表格中的各种实体,每个表格元素使用不同的颜色代码。 让我们更深入地研究如何提取每个元素。 以下代码片段演示了如何提取表格的标题:
同样,我们可以使用下面的代码来提取表格的页脚。 请注意 table_footers 是一个列表,这意味着可以有一个或多个与表格关联的页脚。 我们可以遍历此列表以查看所有存在的页脚,如以下代码片段所示,输出显示三个页脚:
为下游摄取生成数据
Textractor 库还可以帮助您简化将表格数据引入下游系统或其他工作流程的过程。 例如,您可以将提取的表数据导出到人类可读的 Microsoft Excel 文件中。 在撰写本文时,这是唯一支持合并表的格式。
我们也可以将其转换为 熊猫数据框. DataFrame 是使用 Python 和 R 等编程语言进行数据操作、分析和可视化的流行选择。
在 Python 中,DataFrame 是 Pandas 库中的主要数据结构。 它灵活而强大,经常是数据分析专业人员进行各种数据分析和 ML 任务的首选。 下面的代码片段展示了如何用一行代码将提取的表格信息转换成DataFrame:
最后,我们可以将表格数据转换为 CSV 文件。 CSV 文件通常用于将数据提取到关系数据库或数据仓库中。 请参见以下代码:
结论
这些新的块和实体类型的引入(TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
及 TABLE_SUMMARY
) 标志着使用 Amazon Textract 从文档中提取表格结构的重大进步。
这些工具提供了一种更加细致和灵活的方法,同时适用于结构化和半结构化表格,并确保不会遗漏任何重要数据,无论其在文档中的位置如何。
这意味着我们现在可以更高效、更准确地处理各种数据类型和表结构。 随着我们继续在文档处理工作流程中接受自动化的力量,这些增强功能无疑将为更精简的工作流程、更高的生产力和更有洞察力的数据分析铺平道路。 有关更多信息 AnalyzeDocument
和表格功能,请参阅 分析文件.
关于作者
拉吉帕塔克 是一名高级解决方案架构师和技术专家,专门从事金融服务(保险、银行、资本市场)和机器学习。 他专注于自然语言处理 (NLP)、大型语言模型 (LLM) 和机器学习基础设施和运营项目 (MLOps)。
安扬·比斯瓦斯 是一名高级 AI 服务解决方案架构师,专注于 AI/ML 和数据分析。 Anjan 是全球 AI 服务团队的一员,与客户合作,帮助他们了解 AI 和 ML 的业务问题并开发解决方案。 Anjan 拥有超过 14 年与全球供应链、制造和零售组织合作的经验,并积极帮助客户开始使用 AWS AI 服务并进行扩展。
拉丽塔雷迪 是 Amazon Textract 团队的高级技术产品经理。 她专注于为 AWS 客户构建基于机器学习的服务。 在业余时间,Lalita 喜欢玩棋盘游戏和远足。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- EVM财务。 去中心化金融的统一接口。 访问这里。
- 量子传媒集团。 IR/PR 放大。 访问这里。
- 柏拉图爱流。 Web3 数据智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :具有
- :是
- :不是
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- 对,能力--
- 关于
- 以上
- 账户
- 积极地
- 添加
- 添加
- 进步
- 机构
- AI
- 人工智能服务
- AI / ML
- 援助
- 所有类型
- 允许
- 沿
- 还
- Amazon
- 亚马逊Textract
- 亚马逊网络服务
- 量
- an
- 分析
- 分析
- 和
- 公告
- 宣布
- 任何
- API
- APIs
- 出现
- 的途径
- 约
- 四月
- 保健
- AS
- 方面
- 办公室文员:
- 相关
- At
- 自动
- 自动化和干细胞工程
- AWS
- 当前余额
- 资产负债表
- 银行业
- 基础
- BE
- 成为
- 如下。
- 更好
- 之间
- 亿
- 阻止
- 板
- 棋盘游戏
- 都
- 建筑物
- 商业
- 但是
- by
- 呼叫
- 被称为
- CAN
- 资本
- 资本市场
- 例
- 现金
- 细胞
- 一定
- 证书
- 链
- 选择
- 分类
- 明确地
- 客户
- 关闭
- 码
- 抵押品
- 颜色
- 柱
- 如何
- 承诺
- 元件
- 组件
- 信心
- 包含
- 包含
- 继续
- 兑换
- 公司
- 相应
- 价格
- 创建
- 信用
- 习俗
- 合作伙伴
- data
- 数据分析
- 数据分析
- 资料结构
- 数据库
- 债务
- 十二月
- 更深
- 定义
- 演示
- 详情
- 检测
- 开发
- 不同
- 方向
- 已优惠
- 讨论
- 讨论
- 显示器
- 区分
- 不同
- 文件
- 文件
- 怀疑
- 两
- ,我们将参加
- 每
- 缓解
- 更容易
- 易
- 效率
- element
- 分子
- 嵌入式
- 拥抱
- 使
- 增强
- 增强
- 实体
- 实体
- 公平
- 当量
- 房地产
- 估计
- 例子
- 例子
- Excel
- 体验
- 探索
- 出口
- 提取
- 提取物
- 公平
- 专栏
- 文件
- 档
- 备案
- 金融
- 财务报告
- 金融服务
- (名字)
- 固定
- 固定收入
- 高度灵活
- 柔软
- 专注焦点
- 重点
- 遵循
- 以下
- 针对
- 国外
- 格式
- 发现
- 四
- 止
- 资金
- Gain增益
- 收益
- Games
- 得到
- GitHub上
- 给
- 特定
- 全球
- Go
- 政府
- 毛
- 团队
- 民政事务总署
- 处理
- 有
- he
- 头
- 帮助
- 帮助
- 帮助
- 这里
- 等级制度
- 更高
- 突出
- 亮点
- 远足
- 持有
- 创新中心
- How To
- 但是
- HTML
- HTTPS
- 人
- 确定
- 识别
- 鉴定
- 身分
- if
- 图片
- 进口
- 重要
- 改善
- in
- 包括
- 收入
- 信息
- 基础设施
- 安装
- 保险
- 拟
- 解释
- 成
- 介绍
- 介绍
- 投资
- 所调用
- IT
- 项目
- 它的
- JPG
- JSON
- 司法管辖区
- 保持
- 已知
- 缺乏
- 语言
- 语言
- 大
- 学习
- 减
- Level
- 自学资料库
- 喜欢
- Line
- 线
- 清单
- LLM
- 负载
- 圖書分館的位置
- 逻辑
- 不再
- 离
- 损失
- 机
- 机器学习
- 制成
- 主要
- 使
- 制作
- 制作
- 经理
- 操作
- 制造业
- 市场
- 市场
- 可能..
- 手段
- 元数据
- 方法
- 微软
- 可能
- 百万
- 百万
- ML
- 多播
- 模型
- 模型
- 修改
- 钱
- 货币市场
- 个月
- 更多
- 许多
- 自然
- 自然语言处理
- 必要
- 净
- 全新
- NLP
- 没有
- 注意..
- 现在
- 对象
- 对象
- of
- 提供
- 优惠精选
- 经常
- on
- 一
- 仅由
- 运营
- or
- 组织
- 组织
- 其他名称
- 除此以外
- 我们的
- 产量
- 学校以外
- 超过
- 页
- 大熊猫
- 参数
- 部分
- 铺
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 热门
- 一部分
- 帖子
- 功率
- 强大
- 当下
- 先前
- 主要
- 小学
- 打印
- 先
- 问题
- 过程
- 处理
- 产品
- 产品经理
- 生产率
- 专业人士
- 代码编程
- 编程语言
- 项目
- 提供
- 蟒蛇
- Q1
- Q3
- 第3季度 2021 年
- q3 2022
- 查询
- 真实
- 房地产
- 实时的
- 确认
- 认识
- 记录
- 经常性
- 而不管
- 地区
- 监管
- 有关
- 关系
- 相应
- 去掉
- 报告
- 业务报告
- 代表
- 必须
- 分别
- 响应
- 回复
- 限制
- 受限
- 限制
- 导致
- 零售
- 审查
- s
- 销售
- 鳞片
- 得分了
- 无缝
- 证券交易委员会
- SEC备案
- 部分
- 证券
- 保安
- 看到
- 卖家
- 前辈
- 九月
- 服务
- 特色服务
- 设置
- 几个
- 形状
- 她
- 如图
- 作品
- 签名
- 显著
- 类似
- 简化
- 单
- 尺寸
- 解决方案
- 专业
- 专业
- 开始
- 步
- 精简
- 监督
- 结构体
- 结构化
- 主题
- 后来
- 这样
- 概要
- 供应
- 供应链
- SUPPORT
- 支持
- 产品
- 表
- 任务
- 团队
- 文案
- 技术专家
- 比
- 这
- 其
- 他们
- 那里。
- 博曼
- 他们
- 第三方
- Free Introduction
- 那些
- 三
- 通过
- 次
- 标题
- 标题
- 至
- 工具
- 顶级
- 合计
- 贸易
- 二
- 类型
- 类型
- 一般
- 我们
- 美国政府
- 理解
- 未实现的损失
- 更新
- us
- 使用
- 用过的
- 运用
- 公用事业
- 折扣值
- 价值观
- 各种
- 各个
- 与
- 通过
- 可视化
- 是
- 方法..
- we
- 卷筒纸
- Web服务
- 这
- 宽
- 将
- 中
- 话
- 工作
- 工作流程
- 加工
- 合作
- 将
- 写作
- 年
- 完全
- 您一站式解决方案
- 和风网