亚马逊领悟 是一种自然语言处理 (NLP) 服务,提供预训练和自定义 API 以从文本数据中获取见解。 Amazon Comprehend 客户可以训练自定义命名实体识别 (NER) 模型来提取其业务特有的感兴趣实体,例如位置、人名和日期。
要训练自定义模型,您首先需要通过手动注释文档中的实体来准备训练数据。这可以通过 Comprehend 半结构化文档注释工具,这创建了一个 亚马逊SageMaker地面真相 使用自定义模板进行作业,允许注释者直接在 PDF 文档上围绕实体绘制边界框。然而,对于 SAP 等 ERP 系统中现有表格实体数据的公司来说,手动注释可能是重复且耗时的。
为了减少准备训练数据的工作量,我们使用以下方法构建了预标记工具 AWS步骤功能 使用现有的表格实体数据自动对文档进行预注释。这显着减少了在 Amazon Comprehend 中训练准确的自定义实体识别模型所需的手动工作。
在这篇文章中,我们将引导您完成设置预标记工具的步骤,并展示它如何自动注释公共文档的示例 数据集 PDF 格式的银行对账单样本。完整的代码可以在 GitHub回购.
解决方案概述
在本节中,我们讨论预标记工具的输入和输出,并概述解决方案架构。
输入和输出
预标记工具将包含待注释文本的 PDF 文档作为输入。对于演示,我们使用模拟银行对账单,如下例所示。
该工具还采用一个清单文件,将 PDF 文档与我们要从这些文档中提取的实体进行映射。实体由两部分组成: expected_text
从文档中提取(例如, AnyCompany Bank
)和相应的 entity_type
(例如, bank_name
)。在本文后面,我们将展示如何从 CSV 文档构建此清单文件,如下例所示。
预标记工具使用清单文件自动注释文档及其相应的实体。然后,我们可以直接使用这些注释来训练 Amazon Comprehend 模型。
或者,您可以创建 SageMaker Ground Truth 标记作业以供人工审核和编辑,如以下屏幕截图所示。
审核完成后,您可以使用带注释的数据来训练 Amazon Comprehend 自定义实体识别器模型。
建筑
预标记工具由多个组成 AWS Lambda 由 Step Functions 状态机编排的函数。它有两个版本,使用不同的技术来生成预注释。
第一种技术是 模糊匹配。这需要一个包含预期实体的预清单文件。该工具使用模糊匹配算法通过比较文本相似度来生成预注释。
模糊匹配在文档中查找与预清单文件中列出的预期实体相似(但不一定相同)的字符串。它首先计算文档中预期文本和单词之间的文本相似度分数,然后匹配高于阈值的所有对。因此,即使没有精确匹配,模糊匹配也可以找到缩写和拼写错误等变体。这允许该工具预先标记文档,而不需要实体逐字显示。例如,如果 'AnyCompany Bank'
被列为预期实体,模糊匹配将注释出现的情况 'Any Companys Bank'
。这比严格的字符串匹配提供了更大的灵活性,并使预标记工具能够自动标记更多实体。
下图说明了此 Step Functions 状态机的架构。
第二种技术需要 预训练的 Amazon Comprehend 实体识别器模型。该工具使用 Amazon Comprehend 模型生成预注释,遵循下图所示的工作流程。
下图展示了完整的架构。
在以下部分中,我们将逐步介绍实施该解决方案的步骤。
部署预标记工具
将存储库克隆到本地计算机:
该存储库构建在 Comprehend 半结构化文档注释工具之上,并通过使您能够使用已显示在 SageMaker Ground Truth UI 上的预注释来启动 SageMaker Ground Truth 标记作业来扩展其功能。
预标记工具包括 Comprehend 半结构化文档注释工具资源以及一些特定于预标记工具的资源。您可以使用以下方式部署该解决方案 AWS无服务器应用程序模型 (AWS SAM),一个开源框架,可用于定义无服务器应用程序基础设施代码。
如果您之前部署过 Comprehend 半结构化文档注释工具,请参阅常见问题解答部分 Pre_labeling_tool/README.md
有关如何仅部署特定于预标记工具的资源的说明。
如果您之前没有部署过该工具并且是全新开始,请执行以下操作来部署整个解决方案。
将当前目录更改为注释工具文件夹:
构建并部署解决方案:
创建预清单文件
在使用预标记工具之前,您需要准备数据。主要输入是 PDF 文档和预清单文件。预清单文件包含以下每个 PDF 文档的位置 'pdf'
以及 JSON 文件的位置,其中包含要标记的预期实体 'expected_entities'
.
笔记本 生成预清单文件.ipynb 显示如何创建此文件。在演示中,预清单文件显示以下代码:
预清单文件中列出的每个 JSON 文件(在 expected_entities
) 包含一个字典列表,每个字典对应一个预期实体。字典有以下键:
- '预期文本' – 与实体匹配的可能文本字符串的列表。
- '实体类型' – 相应的实体类型。
- 'ignore_list'(可选) – 匹配中应忽略的单词列表。这些参数应用于防止模糊匹配匹配您知道错误的特定单词组合。如果您想在查看姓名时忽略某些数字或电子邮件地址,这会很有用。
例如 expected_entities
之前显示的 PDF 如下所示:
运行预标记工具
使用您在上一步中创建的预清单文件,开始运行预标记工具。更多详细信息,请参阅笔记本 start_step_functions.ipynb.
要启动预标记工具,请提供 event
使用以下键:
- 预清单 – 将每个 PDF 文档映射到其
expected_entities
文件。这应该包含 亚马逊简单存储服务 (Amazon S3) 存储桶(下bucket
)和密钥(在key
)的文件。 - 字首 – 用于创建
execution_id
,它命名用于输出存储的 S3 文件夹和 SageMaker Ground Truth 标记作业名称。 - 实体类型 – 显示在 UI 中供注释者进行标记。这些应包括预期实体文件中的所有实体类型。
- 工作团队名称(可选) – 用于创建 SageMaker Ground Truth 标记作业。它对应于私人劳动力的使用。如果未提供,则仅创建清单文件,而不是 SageMaker Ground Truth 标记作业。您稍后可以使用清单文件创建 SageMaker Ground Truth 标记作业。请注意,截至撰写本文时,您在从笔记本创建标签作业时无法提供外部人员。但是,您可以克隆创建的作业并将其分配给 SageMaker Ground Truth 控制台上的外部员工。
- comprehend_parameters(可选) – 用于直接训练 Amazon Comprehend 自定义实体识别器模型的参数。如果省略,将跳过此步骤。
要启动状态机,请运行以下 Python 代码:
这将启动状态机的运行。您可以在 Step Functions 控制台上监控状态机的进度。下图说明了状态机工作流程。
状态机完成后,执行以下操作:
- 检查保存在以下文件中的输出
prelabeling/
的文件夹comprehend-semi-structured-docs
S3桶:- 文档每一页的单独注释文件(每个文档每页一个)
temp_individual_manifests/
- SageMaker Ground Truth 标记作业的清单
consolidated_manifest/consolidated_manifest.manifest
- 可用于训练自定义 Amazon Comprehend 模型的清单
consolidated_manifest/consolidated_manifest_comprehend.manifest
- 文档每一页的单独注释文件(每个文档每页一个)
- 在 SageMaker 控制台上,打开创建的 SageMaker Ground Truth 标记作业以查看注释
- 检查并测试经过训练的自定义 Amazon Comprehend 模型
如前所述,该工具只能为私人劳动力创建 SageMaker Ground Truth 标签作业。要外包人工标记工作,您可以在 SageMaker Ground Truth 控制台上克隆标记作业,并将任何劳动力附加到新作业。
清理
为避免产生额外费用,请使用以下命令删除您创建的资源并删除您部署的堆栈:
结论
预标记工具为公司提供了一种强大的方法,可以使用现有的表格数据来加速在 Amazon Comprehend 中训练自定义实体识别模型的过程。通过自动对 PDF 文档进行预注释,可以显着减少标记过程中所需的手动工作量。
该工具有两个版本:模糊匹配和基于 Amazon Comprehend,为如何生成初始注释提供了灵活性。文档预标记后,您可以在 SageMaker Ground Truth 标记作业中快速查看它们,甚至跳过审核并直接训练 Amazon Comprehend 自定义模型。
预标记工具使您能够快速释放历史实体数据的价值,并将其用于创建适合您的特定领域的自定义模型。通过加快流程中通常最劳动密集的部分,它使 Amazon Comprehend 的自定义实体识别比以往任何时候都更容易实现。
有关如何使用 SageMaker Ground Truth 标记作业标记 PDF 文档的更多信息,请参阅 自定义文档注释,用于使用 Amazon Comprehend 提取文档中的命名实体 和 使用 Amazon SageMaker Ground Truth 标记数据.
关于作者
奥斯卡·施纳克 是生成人工智能创新中心的应用科学家。他热衷于深入研究机器学习背后的科学,以使客户能够使用它。工作之余,奥斯卡喜欢骑自行车和跟上信息论的趋势。
罗曼·贝松布 是生成式人工智能创新中心的深度学习架构师。他热衷于构建创新架构,通过机器学习解决客户的业务问题。
- :具有
- :是
- :不是
- $UP
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- 关于
- 以上
- 加快
- 无障碍
- 精准的
- 额外
- 地址
- 地址
- 后
- AI
- 算法
- 所有类型
- 允许
- 允许
- 已经
- 还
- Amazon
- 亚马逊领悟
- 亚马逊SageMaker
- 亚马逊SageMaker地面真相
- 亚马逊网络服务
- an
- 和
- 任何
- APIs
- 出现
- 应用领域
- 应用的
- 架构
- 保健
- 围绕
- AS
- At
- 连接
- 自动化
- 自动
- 可使用
- 避免
- AWS
- 银行
- BE
- 很
- before
- 背后
- 之间
- 都
- 箱
- 建筑物
- 建
- 商业
- 但是
- by
- 计算
- CAN
- Center
- 收费
- 码
- COM的
- 组合
- 公司
- 比较
- 完成
- 理解
- 由
- 安慰
- 建设
- 包含
- 包含
- 相应
- 对应
- 创建信息图
- 创建
- 创建
- 创造
- 电流
- 习俗
- 合作伙伴
- data
- 日期
- 减少
- 深
- 深入学习
- 定义
- 演示
- 部署
- 部署
- 漂移
- 详情
- 不同
- 直接
- 讨论
- 显示
- 跳水
- do
- 文件
- 文件
- 母鹿
- 域
- 完成
- 画
- 每
- 努力
- 邮箱地址
- 使
- 使
- 实体
- 实体
- ERP
- 甚至
- EVER
- 例子
- 例子
- 现有
- 预期
- 扩展
- 外部
- 提取
- 常见问题
- 文件
- 档
- 找到最适合您的地方
- (名字)
- 高度灵活
- 以下
- 针对
- 格式
- 骨架
- 新鲜
- 止
- ,
- 功能
- 功能
- 生成
- 产生
- 生成的
- 生成式人工智能
- 给予
- 陆运
- 有
- he
- 历史的
- 创新中心
- How To
- 但是
- HTML
- HTTP
- HTTPS
- 人
- 相同
- if
- 忽略
- 说明
- 实施
- in
- 包括
- 包括
- 信息
- 基础设施
- 初始
- 創新
- 创新
- 输入
- 输入
- 可行的洞见
- 代替
- 说明
- 兴趣
- 成
- IT
- 它的
- 简
- 工作
- 工作机会
- JPG
- JSON
- 保持
- 键
- 键
- 知道
- 标签
- 标签
- 后来
- 学习
- 喜欢
- 清单
- 已发布
- 本地
- 圖書分館的位置
- 寻找
- LOOKS
- 机
- 机器学习
- 主要
- 使
- 制作
- 手册
- 体力劳动
- 手动
- 地图
- 匹配
- 火柴
- 匹配
- 提到
- 模型
- 模型
- 显示器
- 更多
- 最先进的
- 多
- 姓名
- 命名
- 名称
- 一定
- 需求
- 打印车票
- 全新
- NLP
- 没有
- 注意
- 笔记本
- 数字
- of
- on
- 一
- 仅由
- 打开
- 开放源码
- or
- 精心策划
- 产量
- 输出
- 学校以外
- 外包
- 简介
- 页
- 对
- 参数
- 部分
- 多情
- 为
- 人
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 可能
- 帖子
- 强大
- Prepare
- 准备
- 防止
- 以前
- 先前
- 私立
- 问题
- 过程
- 处理
- 进展
- 提供
- 提供
- 提供
- 国家
- 蟒蛇
- 很快
- 承认
- 减少
- 减少
- 参考
- 重复的
- 知识库
- 必须
- 需要
- 资源
- 检讨
- 运行
- 运行
- sagemaker
- Sam
- 树液
- 保存
- 科学
- 科学家
- 其次
- 部分
- 部分
- 看到
- 无服务器
- 服务
- 特色服务
- 设置
- 应该
- 显示
- 如图
- 作品
- 显著
- 类似
- 简易
- 方案,
- 一些
- 来源
- 具体的
- 堆
- 开始
- 开始
- 州/领地
- 声明
- 步
- 步骤
- 存储
- 监督
- 串
- 这样
- 产品
- 量身定制
- 需要
- 技术
- 技术
- 模板
- test
- 文本
- 文字的
- 比
- 这
- 国家
- 其
- 他们
- 然后
- 理论
- 那里。
- 因此
- 博曼
- 事
- Free Introduction
- 门槛
- 通过
- 耗时的
- 至
- 工具
- 最佳
- 培训
- 产品培训
- 趋势
- 真相
- 二
- 类型
- 类型
- 一般
- ui
- 下
- 独特
- 开锁
- 使用
- 用过的
- 使用
- 运用
- 折扣值
- 版本
- 走
- 想
- 是
- 方法..
- we
- 卷筒纸
- Web服务
- 井
- 什么是
- 什么是
- ,尤其是
- 这
- 全
- 维基百科上的数据
- 将
- 也完全不需要
- 话
- 工作
- 工作流程
- 劳动力
- 写作
- 错误
- 完全
- 您一站式解决方案
- 和风网
- 压缩