亚马逊Textract 是一项机器学习 (ML) 服务,可自动从扫描文档中提取文本、手写内容和数据。 查询 是一项功能,使您能够使用自然语言从不同的复杂文档中提取特定的信息。 自定义查询 为您提供了一种以自助服务的方式为您的业务特定的非标准文档(例如汽车贷款合同、支票和付款单)自定义查询功能的方法。 通过自定义功能来识别特定于这些文档类型的独特术语、结构和关键信息,您可以以更高的精度和最少的人工干预来满足下游处理需求。 自定义查询可以轻松集成到您现有的 Textract 管道中,并且您可以继续受益于 Amazon Textract 完全托管的智能文档处理功能,而无需投资 ML 专业知识或基础设施管理。
在这篇文章中,我们将展示自定义查询如何从复杂的非标准文档支票中准确提取数据。 此外,我们还讨论了自定义查询的好处,并分享了有效使用此功能的最佳实践。
解决方案概述
当开始新的用例时,您可以通过导航到 Textract 查询来评估 Textract 查询在文档上的执行情况 文本控制台 并使用分析文档演示或批量文档上传器。 参考 查询的最佳实践 起草适用于您的用例的查询。 如果您发现由于业务文档的性质而导致查询响应出现错误,您可以使用自定义查询来提高准确性。 几小时内,您就可以使用以下命令对示例文档进行注释 AWS管理控制台 并训练一个 适配器。 适配器是插入 Amazon Textract 预训练深度学习模型的组件,可根据带注释的文档自定义其输出。 您可以通过将适配器标识符作为附加参数传递给 分析文档查询 API 请求。
我们来看看如何 自定义查询 可以提高具有挑战性的现实场景中的提取准确性,例如从支票中提取数据。 处理支票时的主要挑战来自于其高度变化,具体取决于类型(例如个人或银行本票)、金融机构和国家/地区(例如 MICR 行格式)。 。 这些变化可以包括收款人姓名的位置、数字和文字金额、日期和签名。 在数据提取过程中,识别并适应这些变化可能是一项复杂的任务。 为了改进数据提取,组织通常采用手动验证和确认过程,这增加了提取过程的成本和时间。
自定义查询使您能够针对不同的检查变体自定义预先训练的查询功能,从而解决了这些挑战。 预训练功能的定制可帮助您在处理的特定各种布局上实现较高的数据提取准确性。
在我们的用例中,金融机构希望从支票中提取以下字段:收款人姓名、付款人姓名、帐号、路由号码、付款金额(以数字表示)、付款金额(以文字表示)、支票号码、日期和备忘录。
让我们探讨一下生成用于检查处理的适配器(自定义输出的组件)的过程。 适配器可以通过控制台创建,也可以通过 API 以编程方式创建。 这篇文章详细介绍了控制台体验; 但是,如果您想以编程方式创建适配器,请参阅 自定义查询检查博客.ipynb Jupyter 笔记本(选项 2)。
适配器生成过程涉及五个高级步骤:创建适配器、上传示例文档、注释文档、训练适配器和评估性能指标。
创建适配器
在 Amazon Textract 控制台上,通过提供名称、描述和可帮助您识别适配器的可选标签来创建新适配器。 您可以选择启用自动更新,这样当底层查询功能更新为新功能时,Amazon Textract 就可以更新您的适配器。
创建适配器后,您将看到一个适配器详细信息页面,其中包含步骤列表 产品思路 部分。 当您按顺序完成后续步骤时,本部分将激活您的后续步骤。
上传样本文件
适配器生成的初始阶段涉及仔细选择一组适当的示例文档以进行注释、训练和测试。 我们可以选择自动将文档拆分为测试数据集和训练数据集; 然而,对于这个过程,我们手动分割数据集。
需要注意的是,您可以构建一个仅包含五个测试样本和五个训练样本的适配器,但必须确保该样本集具有多样性并能够代表生产环境中遇到的工作负载。
对于本教程,我们整理了示例检查数据集,您可以 下载。 我们的数据集包括个人支票、银行本票、刺激支票和工资单中嵌入的支票等变体。 我们还包括手写和打印的支票; 以及备注行等字段的变化。
注释示例文档
下一步,您可以通过控制台将查询与相应的答案关联起来,对示例文档进行注释。 您可以通过自动标记或手动标记来启动注释。 自动标记使用 Amazon Textract 查询来预先标记数据集。 我们建议使用自动标记来快速跟踪注释过程。
对于此检查处理用例,我们使用以下查询。 如果您的用例涉及其他文档类型,请参阅 查询的最佳实践 起草适用于您的用例的查询。
- 收款人是谁?
- 支票#是什么?
- 收款人地址是什么?
- 今天几号?
- 帐号是什么#?
- 支票金额是多少?
- 账户名称/付款人/出票人名称是什么?
- 美元金额是多少?
- 银行名称/付款人名称是什么?
- 银行路由号码是多少?
- 什么是 MICR 线?
- 备忘录是什么?
自动标记过程完成后,您可以选择查看并编辑为每个文档提供的答案。 选择 开始审查 查看每个图像的注释。
如果对查询的响应丢失或错误,您可以通过绘制边界框或手动输入响应来添加或编辑响应。
为了加快您的演练速度,我们预先注释了支票示例,供您复制到您的 AWS 账户。 跑过 自定义查询检查博客.ipynb Jupyter 笔记本内 Amazon Textract 代码示例 库自动更新您的注释。
训练适配器
检查完所有示例文档以确保注释的准确性后,您可以开始适配器培训过程。 在此步骤中,您需要指定保存适配器的存储位置。 训练过程的持续时间将根据用于训练的数据集的大小而变化。 如果您选择使用自己选择的注释工具并将相关输入文件传递给 API,也可以通过编程方式调用训练 API。 参考 自定义查询 以获得更多细节。
评估绩效指标
适配器完成训练后,您可以通过检查评估指标来评估其性能,例如 F1分数, 准确率和召回率。 您可以集体分析这些指标,也可以按文档分析这些指标。 使用我们的示例检查数据集,您将看到经过训练的适配器的准确性指标(F1 分数)从 68% 提高到 92%。
此外,您可以通过选择来测试适配器在新文档上的输出 尝试适配器.
评估之后,您可以选择通过将其他示例文档合并到训练数据集中或通过重新注释分数低于阈值的文档来增强适配器的性能。 要重新注释文档,请选择 验证文件 在适配器详细信息页面上,选择文档,然后选择 查看注释.
以编程方式测试适配器
培训成功完成后,您现在可以在您的计算机中使用该适配器 分析文件 API 调用。 该 API 请求与 Amazon Textract Queries API 请求类似,但添加了 AdaptersConfig
目的。
您可以运行以下示例代码或直接在 自定义查询检查博客.ipynb Jupyter 笔记本。 示例笔记本还提供了用于比较 Amazon Textract 查询和 Amazon Textract 自定义查询之间结果的代码。
创建 适配器配置 包含适配器 ID 和适配器版本的对象,并且可以选择包含您希望应用适配器的页面:
创建一个 QueriesConfig
对象包含您训练适配器所用的查询并调用 Amazon Textract API。 请注意,您还可以包含适配器尚未接受过培训的其他查询。 Amazon Textract 将自动使用查询功能来解决这些问题,而不是自定义查询,从而为您提供仅在需要时使用自定义查询的灵活性。
最后,我们将结果制成表格以提高可读性:
清理
要清理您的资源,请完成以下步骤:
- 在 Amazon Textract 控制台上,选择 自定义查询 在导航窗格中。
- 选择您要删除的适配器。
- 删除.
适配器管理
您可以通过创建先前生成的适配器的新版本来定期改进您的适配器。 要创建新版本的适配器,您可以将新的示例文档添加到现有适配器、标记文档并执行培训。 您可以同时维护适配器的多个版本以在开发管道中使用。 要无缝更新您的适配器,请勿更改或删除您的适配器 亚马逊简单存储服务 (Amazon S3) 存储桶,用于保存适配器生成所需的文件。
最佳实践
对文档使用自定义查询时,请参阅 Amazon Textract 自定义查询的最佳实践 了解更多注意事项和最佳实践。
自定义查询的好处
自定义查询具有以下优点:
- 增强文档理解 – 通过高精度提取和标准化数据的能力,自定义查询减少了对手动审查和审计的依赖,并使您能够为智能文档处理工作流程构建更可靠的自动化。
- 更快实现价值 – 当您遇到需要更高准确度的新文档类型时,您可以使用自定义查询在几个小时内以自助方式生成适配器。 当您在工作流程中遇到新文档类型或现有文档类型的变体时,您不必等待预先训练的模型更新。 您可以完全控制您的管道,无需依赖 Amazon Textract 来支持您的新文档类型。
- 数据隐私 – 自定义查询不会保留或使用生成适配器时使用的数据来增强我们可供所有客户使用的通用预训练模型。 该适配器仅限于客户的帐户或客户明确指定的其他帐户,确保只有此类帐户才能访问使用客户数据所做的改进。
- 方便 – 自定义查询提供与查询类似的完全托管的推理体验。 适配器培训是免费的,您只需为推理付费。 自定义查询可以为您节省培训和操作自定义模型的开销和费用。
结论
在这篇文章中,我们讨论了自定义查询的好处,展示了自定义查询如何准确地从检查中提取数据,并分享了有效利用此功能的最佳实践。 只需几个小时,您就可以使用控制台创建一个适配器,并在AnalyzeDocument API 中使用它来满足您的数据提取需求。 欲了解更多信息,请参阅 自定义查询.
关于作者
史宾迈克尔拉吉 是 Amazon Textract 团队的高级产品经理。 他专注于为 AWS 客户构建基于 AI/ML 的产品。 他很高兴利用人工智能和机器学习技术帮助客户解决复杂的业务挑战。 在业余时间,他喜欢跑步、收听播客以及提高业余网球技巧。
基思·马斯卡雷尼亚斯 是 Amazon Textract 服务团队的高级解决方案架构师。 他热衷于使用机器学习大规模解决业务问题,目前帮助我们的全球客户实现文档处理自动化,以缩短上市时间并降低运营成本。
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 10
- 100
- 17
- 36
- 7
- a
- 对,能力--
- 关于
- 加快
- ACCESS
- 账号管理
- 账户
- 准确
- 调整
- 加
- 增加
- 额外
- 地址
- 地址
- 驳
- AI
- 所有类型
- 允许
- 沿
- 还
- 业余
- Amazon
- 亚马逊Textract
- 亚马逊网络服务
- 量
- an
- 分析
- 和
- 答案
- API
- 相应
- 应用的
- 适当
- 保健
- AS
- 评估
- At
- 审计
- 汽车
- 自动化
- 自动表
- 自动
- 自动化和干细胞工程
- 可使用
- AWS
- 银行
- 基于
- 基础
- BE
- 很
- 开始
- 得益
- 好处
- 最佳
- 最佳实践
- 更好
- 之间
- 盒子
- 建立
- 建筑物
- 商业
- 但是
- by
- 呼叫
- 呼叫
- CAN
- 能力
- 小心
- 案件
- 挑战
- 挑战
- 挑战
- 更改
- 查
- 支票
- 选择
- 选择
- 清洁
- 码
- 统
- 比较
- 完成
- 完成
- 复杂
- 元件
- 组件
- 注意事项
- 安慰
- 建设
- 继续
- 合同的
- 控制
- 相应
- 价格
- 成本
- 国家
- 创建信息图
- 创建
- 创造
- 策划
- 目前
- 习俗
- 顾客
- 合作伙伴
- 定制
- 定制
- data
- 数据集
- 日期
- 深
- 深入学习
- 学位
- 演示
- 根据
- 描述
- 指定
- 详情
- 研发支持
- 不同
- 直接
- 讨论
- 讨论
- 不同
- do
- 文件
- 文件
- 不
- 美元
- 别
- 草案
- 画
- 两
- 为期
- ,我们将参加
- e
- 每
- 易
- 只
- 或
- 嵌入式
- 就业
- enable
- 使
- 使
- 提高
- 确保
- 保证
- 进入
- 环境
- 故障
- 必要
- 评估
- 评估
- 检查
- 检查
- 兴奋
- 现有
- 开支
- 体验
- 专门知识
- 明确地
- 探索
- 提取
- 萃取
- 提取物
- f1
- 快
- 专栏
- 特征
- 少数
- 字段
- 档
- 金融
- 金融机构
- 五
- 高度灵活
- 重点
- 以下
- 针对
- 格式
- 自由的
- 止
- 充分
- 其他咨询
- 生成
- 产生
- 发电
- 代
- GitHub上
- 更大的
- 有
- 有
- he
- 帮助
- 帮助
- 帮助
- 高
- 高水平
- 更高
- 他的
- HOURS
- 创新中心
- 但是
- HTML
- HTTP
- HTTPS
- 人
- ID
- 识别码
- 鉴定
- if
- 图片
- 进口
- 重要
- 改善
- 改善
- in
- 包括
- 包括
- 包括
- 结合
- 增加
- 信息
- 基础设施
- 初始
- 开始
- 输入
- 安装
- 机构
- 整合
- 智能化
- 智能文档处理
- 介入
- 成
- 投资
- 调用
- IT
- 它的
- JPG
- 只是
- 键
- 标签
- 标签
- 语言
- 学习
- 贷款
- 借力
- 自学资料库
- 喜欢
- 有限
- Line
- 清单
- 圖書分館的位置
- 降低
- 机
- 机器学习
- 制成
- 保持
- 使
- 管理
- 颠覆性技术
- 经理
- 方式
- 手册
- 手动
- 市场
- 满足
- 备忘录
- 公
- 指标
- 最小
- 失踪
- ML
- 模型
- 模型
- 更多
- 多
- 姓名
- 自然
- 自然
- 导航
- 旅游导航
- 需求
- 打印车票
- 需要
- 全新
- 下页
- 笔记本
- 现在
- 数
- 数字
- 对象
- of
- 优惠精选
- 经常
- on
- 那些
- 仅由
- 操作
- 操作
- 附加选项
- or
- 组织
- 其他名称
- 我们的
- 产量
- 超过
- 己
- 页
- 网页
- 面包
- 参数
- 通过
- 通过
- 多情
- 付款
- 演出
- 性能
- 施行
- 个人
- 相
- 件
- 管道
- 放置
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 插头
- 播客
- 帖子
- 做法
- 平台精度
- 先前
- 小学
- 问题
- 过程
- 过程
- 处理
- 产品
- 产品经理
- 生产
- 核心产品
- 提供
- 提供
- 优
- 查询
- 有疑问吗?
- 真实的世界
- 承认
- 认识
- 建议
- 减少
- 减少
- 参考
- 精制
- 经常
- 相应
- 可靠
- 信赖
- 代表
- 请求
- 资源
- 响应
- 回复
- 成果
- 保留
- 检讨
- 审查
- 评论
- 路由
- 运行
- 运行
- 保存
- 鳞片
- 脚本
- 得分了
- 无缝
- 部分
- 看到
- 选择
- 自助服务
- 服务
- 特色服务
- 集
- Share
- 共用的,
- 应该
- 显示
- 显示
- 签名
- 类似
- 简易
- 同时
- 尺寸
- 技能
- 解决方案
- 解决
- 解决
- 具体的
- 分裂
- 开始
- 声明
- 步
- 步骤
- 刺激物
- 刺激检查
- 存储
- 结构
- 顺利
- 这样
- SUPPORT
- 任务
- 团队
- 技术
- 条款
- test
- 测试
- 文本
- 比
- 这
- 其
- 他们
- 从而
- 博曼
- Free Introduction
- 门槛
- 通过
- 次
- 至
- 工具
- 培训
- 熟练
- 产品培训
- TRP
- 调音
- 教程
- 类型
- 类型
- 相关
- 独特
- 更新
- 更新
- 最新动态
- 使用
- 用例
- 使用
- 运用
- 利用
- 利用
- 验证
- 各种
- 变化
- 企业验证
- 版本
- 版本
- 通过
- 等待
- 演练
- 想
- 希望
- 方法..
- we
- 卷筒纸
- Web服务
- 什么是
- 什么是
- ,尤其是
- 这
- WHO
- 维基百科上的数据
- 将
- 中
- 也完全不需要
- 话
- 工作流程
- 工作流程
- 全世界
- 错误
- 完全
- 您一站式解决方案
- 和风网
- 压缩