使用 Amazon Comprehend 为 PDF 文档构建自定义实体识别器

由柏拉图重新发布

关注： 0

在许多行业中，及时从文档中提取自定义实体至关重要。这可能具有挑战性。例如，保险索赔通常包含数十个重要属性（例如日期、姓名、地点和报告），散布在冗长而密集的文档中。手动扫描和提取此类信息可能容易出错且耗时。基于规则的软件可以提供帮助，但最终过于僵化，无法适应许多不同的文档类型和布局。

为了帮助自动化和加速这个过程，您可以使用亚马逊领悟使用机器学习 (ML) 快速准确地检测自定义实体。这种方法既灵活又准确，因为系统可以利用过去学到的知识来适应新的文档。然而，直到最近，此功能只能应用于纯文本文档，这意味着在将文档从其原始格式转换时会丢失位置信息。为了解决这个问题，它是最近公布的 Amazon Comprehend 可以提取 PDF、图像和 Word 文件格式的自定义实体。

在这篇文章中，我们将通过一个来自保险行业的具体示例介绍如何使用 PDF 注释构建自定义识别器。

解决方案概述

我们将引导您完成以下高级步骤：

创建 PDF 注释。
使用 PDF 注释通过 Python API 训练自定义模型。
从训练好的模型中获取评估指标。
对看不见的文档进行推理。

在这篇文章的最后，我们希望能够将原始 PDF 文档发送到我们训练好的模型，并让它输出一个包含我们感兴趣的标签信息的结构化文件。特别是，我们训练我们的模型来检测我们选择的以下五个实体，因为它们与保险索赔相关： DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss及 InsuredMailingAddress. 读取结构化输出后，我们可以直接在 PDF 文档上可视化标签信息，如下图所示。

这篇文章附有一个包含相同步骤的 Jupyter 笔记本。在运行其中的步骤时，请随意跟随笔记本. 请注意，您需要设置亚马逊SageMaker 允许 Amazon Comprehend 读取的环境亚马逊简单存储服务 (Amazon S3)，如笔记本顶部所述。

创建 PDF 注释

要为 PDF 文档创建注释，您可以使用亚马逊SageMaker地面真相，一种完全托管的数据标记服务，可轻松为 ML 构建高度准确的训练数据集。

在本教程中，我们已经使用 Ground Truth 以原始形式（未转换为纯文本）对 PDF 进行了注释。 Ground Truth 作业生成我们训练自定义 Amazon Comprehend 模型所需的三个路径：

来源 – 输入 PDF 的路径。
注释 – 包含标记实体信息的注释 JSON 文件的路径。
舱单 – 指向注释和源 PDF 位置的文件。此文件用于创建 Amazon Comprehend 自定义实体识别训练作业并训练自定义模型。

以下屏幕截图显示了一个示例注释。

自定义 Ground Truth 作业会生成一个 PDF 注释，用于捕获有关实体的块级信息。这种块级信息提供了实体的精确位置坐标（子块代表实体块内的每个单词）。这与标准 Ground Truth 作业不同，在该作业中，PDF 中的数据被展平为文本格式，并且在注释期间仅捕获偏移信息，而不是精确的坐标信息。我们通过这种自定义注释范式获得的丰富位置信息使我们能够训练更准确的模型。

从此类作业生成的清单称为增强清单，而不是用于标准注释的 CSV。有关详细信息，请参阅注释.

使用 PDF 注释通过 Python API 训练自定义模型

增强的清单文件必须采用 JSON Lines 格式。在 JSON Lines 格式中，文件中的每一行都是一个完整的 JSON 对象，后跟一个换行符分隔符。

以下代码是此增强清单文件中的一个条目。

注意事项：

五种标签类型与此作业相关联： DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss及 InsuredMailingAddress.
清单文件引用源 PDF 位置和注释位置。
捕获有关注释作业的元数据（例如创建日期）。
Use-textract-only 被设置为 False，这意味着注释工具决定是使用 PDFPlumber（对于原生 PDF）还是亚马逊Textract （对于扫描的 PDF）。如果设置为 true, 在这两种情况下都使用 Amazon Textract（成本更高但可能更准确）。

现在我们可以训练识别器，如以下示例代码所示。

我们创建了一个识别器来识别所有五种类型的实体。如果我们愿意，我们可以使用这些实体的一个子集。您最多可以使用 25 个实体。

有关各参数的详细信息，请参阅创建实体识别器.

根据训练集的大小，训练时间可能会有所不同。对于此数据集，训练大约需要 1 小时。要监控训练作业的状态，您可以使用 describe_entity_recognizer API。

从训练好的模型中获取评估指标

Amazon Comprehend 为经过训练的模型提供模型性能指标，这表明经过训练的模型使用相似输入进行预测的预期效果如何。我们可以获得全局精度和召回指标以及每个实体的指标。准确的模型具有高精度和高召回率。高精度意味着模型在指示特定标签时通常是正确的；高召回率意味着模型找到了大部分标签。 F1 是这些度量的复合度量（调和平均值），因此当两个分量都很高时，它就很高。有关指标的详细说明，请参阅自定义实体识别器指标.

当您将文档提供给训练作业时，Amazon Comprehend 会自动将它们分成训练集和测试集。当模型达到 TRAINED 状态，您可以使用 describe_entity_recognizer API 再次获取测试集上的评估指标。

以下是全局指标的示例。

以下是每个实体指标的示例。

高分表明该模型已经很好地学会了如何检测这些实体。

对看不见的文档进行推理

让我们用我们训练过的模型对不属于训练过程的文档进行推理。我们可以将此异步 API 用于标准或自定义 NER。如果将其用于自定义 NER（如本文所述），我们必须通过训练模型的 ARN。

我们可以通过打印响应来查看提交的作业。

我们可以使用 Pandas 将检测作业的输出格式化为表格。这 Score value 表示模型对实体的置信度。

最后，我们可以将预测覆盖在看不见的文档上，结果如本文顶部所示。

结论

在这篇文章中，您了解了如何使用 Amazon Comprehend 以原生 PDF 格式提取自定义实体。作为下一步，考虑深入研究：

使用随附的笔记本训练您自己的识别器点击此处. 请记住在完成后删除所有资源以避免将来产生费用。
设置您自己的自定义注释作业，为您感兴趣的实体收集 PDF 注释。有关详细信息，请参阅自定义文档注释，用于使用 Amazon Comprehend 提取文档中的命名实体.
在 Amazon Comprehend 控制台上训练自定义 NER 模型。有关详细信息，请参阅使用 Amazon Comprehend 从原始格式的文档中提取自定义实体.

作者简介

约书亚·利维 是亚马逊机器学习解决方案实验室的高级应用科学家，他帮助客户设计和构建 AI/ML 解决方案以解决关键业务问题。

安德鲁·昂 是亚马逊机器学习解决方案实验室的一名机器学习工程师，他帮助来自不同行业的客户识别和构建 AI/ML 解决方案，以解决他们最紧迫的业务问题。工作之余，他喜欢看旅游和美食视频博客。

亚历克斯·奇拉亚特（Alex Chirayath） 是亚马逊机器学习解决方案实验室的一名软件工程师，专注于构建基于用例的解决方案，向客户展示如何释放 AWS AI/ML 服务的力量来解决现实世界的业务问题。

朱珍妮 是来自亚马逊人工智能机器学习解决方案实验室的应用科学家。她与 AWS 的客户合作，为他们的高优先级业务需求构建 AI/ML 解决方案。

尼哈里卡·贾扬蒂 是 Amazon 机器学习解决方案实验室 - Human in the Loop 团队的前端工程师。她帮助为 Amazon SageMaker Ground Truth 客户创建用户体验解决方案。

鲍里斯·阿龙奇克 是 Amazon AI 机器学习解决方案实验室的经理，他领导着一个由 ML 科学家和工程师组成的团队，帮助 AWS 客户利用 AI/ML 解决方案实现业务目标。

时间戳记： 2022 年 4 月 8 日

时间戳记： 2022 年 3 月 29 日

使用 Amazon Comprehend 为 PDF 文档构建自定义实体识别器

由柏拉图重新发布

解决方案概述

创建 PDF 注释

使用 PDF 注释通过 Python API 训练自定义模型

从训练好的模型中获取评估指标

对看不见的文档进行推理

结论

作者简介

更多来自 AWS机器学习

在 Amazon SageMaker 上使用多框架模型进行经济高效的 ML 推理

Amazon Rekognition 引入了流式视频事件以提供实时视频流的实时警报

使用 AWS 专用加速器将机器学习工作负载的能耗降低高达 90% | 亚马逊网络服务

Chronomics 使用 Amazon Rekognition 自定义标签检测 COVID-19 测试结果

T-Mobile US, Inc. 通过 Amazon Transcribe 和 Amazon Translate 使用人工智能以客户选择的语言发送语音邮件 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理