Amazon Comprehend 文档分类器添加了布局支持以提高准确性

由柏拉图重新发布

关注： 0

有效处理和处理大量文档的能力对于现代世界的企业来说已经变得至关重要。由于所有企业都处理不断涌入的信息，手动分类文档不再是一个可行的选择。文档分类模型可以使过程自动化并帮助组织节省时间和资源。随着文档量的增加，传统的分类技术（例如手动处理和基于关键字的搜索）变得效率更低且更耗时。这种低效率导致生产率降低和运营费用增加。此外，它可以防止在需要时访问关键信息，这可能会导致糟糕的客户体验并影响决策制定。在 AWS re:Invent 2022 上，亚马逊领悟，一种使用机器学习 (ML) 从文本中发现见解的自然语言处理 (NLP) 服务，推出支持本地文档类型。这项新功能使您能够使用 Amazon Comprehend 对原生格式（PDF、TIFF、JPG、PNG、DOCX）的文档进行分类。

今天，我们很高兴地宣布，Amazon Comprehend 现在支持使用 PDF、Word 和图像格式等文档进行自定义分类模型训练。您现在可以在支持布局和文本的原生文档上训练定制文档分类模型，从而提高结果的准确性。

在本文中，我们概述了如何开始训练 Amazon Comprehend 自定义文档分类模型。

概述

理解对象在定义空间内的相对位置的能力称为 布局意识. 在这种情况下，它有助于模型理解标题、副标题、表格和图形在文档中如何相互关联。当模型知道文本的结构和布局时，它可以根据文档的内容更有效地对文档进行分类。

Amazon Comprehend 文档分类器添加了布局支持，以实现更高精度的 PlatoBlockchain 数据智能。垂直搜索。人工智能。

在本文中，我们将介绍所涉及的数据准备步骤，演示模型训练过程，并讨论在 Amazon Comprehend 中使用新的自定义文档分类模型的好处。作为最佳实践，您应该在开始训练自定义文档分类模型之前考虑以下几点。

评估您的文档分类需求

确定您可能需要分类的各种文档类型，以及支持您的用例的不同类或类别。在评估需要分类的文档的数量和类型后，确定合适的分类结构或分类法。文档类型可能因 PDF、Word、图像等而异。确保您有权通过文档管理系统或其他存储机制访问各种带标签的文档。

准备数据

确保您打算用于模型训练的文档文件未加密或锁定——例如，确保您的 PDF 文件未加密并使用密码锁定。您必须先解密此类文件，然后才能将它们用于培训目的。使用适当的类别或标签（类). 判断是否单标签分类（多级模式），或多标签分类适合您的用例。多类模式仅将一个类与每个文档相关联，而多标签模式将一个或多个类与文档相关联。

考虑模型评估

使用带标签的数据集来训练模型，以便它可以学习准确地对新文档进行分类，并通过了解模型指标来评估新训练的模型版本的性能。要了解 Amazon Comprehend 模型后训练提供的指标，请参阅自定义分类器指标. 训练过程完成后，您可以开始异步或实时对文档进行分类。我们将在以下部分介绍如何训练自定义分类模型。

准备训练数据

在我们训练自定义分类模型之前，我们需要准备训练数据。训练数据由一组带标签的文档组成，这些文档可以是来自您已经有权访问的文档存储库的预先识别的文档。对于我们的示例，我们训练了一个自定义分类模型，其中包含几种不同的文档类型，这些文档类型通常出现在健康保险索赔裁决流程中：患者出院摘要、发票、收据等。我们还需要准备一个 CSV 格式的注释文件。以下是训练所需的注释文件 CSV 数据的示例：

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

注释 CSV 文件必须包含三列。第一列包含文档所需的类别（标签），第二列是文档名称（文件名），最后一列是要包含在训练数据集中的文档的页码。由于训练过程支持原生多页 PDF 和 DOCX 文件，因此如果文档是多页文档，则必须指定页码。如果要在训练数据集中包含多页文档的所有页面，则必须在 CSV 注释文件中将每一页指定为单独的一行。例如，在前面的注释文件中， invoice-1.pdf 是一个双页文档，我们希望将两个页面都包含在分类数据集中。由于 PDF、PNG 和 TIFF 等文件是图像格式，因此页码（第三列）值必须始终为 1。如果您的数据集包含多帧（多页）TIF 文件，则必须将它们拆分为单独的 TIF 文件为了在训练过程中使用它们。

我们准备了一个名为 test.csv 使用适当的数据来训练自定义分类模型。对于每个示例文档，CSV 文件包含文档所属的类、文档在亚马逊简单存储服务（亚马逊 S3），例如 path/to/prefix/document.pdf和页码（如果适用）。因为我们的大部分文档要么是单页 DOCX、PDF 文件，要么是 TIF、JPG 或 PNG 文件，分配的页码是 1。因为我们的注释 CSV 和示例文档都在相同的 Amazon S3 前缀下，所以我们不不需要在第二列中明确指定前缀。我们还为每个班级准备了至少 10 个或更多的文档样本，我们混合使用了 JPG、PNG、DOCX、PDF 和 TIF 文件来训练模型。请注意，通常建议使用一组不同的样本文档来进行模型训练，以避免模型过度拟合，从而影响其识别新文档的能力。还建议每个类的样本数是平衡的，尽管不要求每个类的样本数完全相同。接下来，我们上传 test.csv annotations 文件和所有文档导入 Amazon S3。下图显示了我们注释 CSV 文件的一部分。

Amazon Comprehend 文档分类器添加了布局支持，以实现更高精度的 PlatoBlockchain 数据智能。垂直搜索。人工智能。

训练自定义分类模型

现在我们已经准备好注释文件和所有示例文档，我们可以设置自定义分类模型并对其进行训练。在开始设置自定义分类模型训练之前，请确保注释 CSV 和示例文档存在于 Amazon S3 位置。

在Amazon Comprehend控制台上，选择 自定义分类 在导航窗格中。
创建新模型.
针对 型号名称, 输入唯一名称。
针对 版本名称, 输入一个唯一的版本名称。
针对 训练模型类型，选择 本机文档.

这告诉 Amazon Comprehend 您打算使用本机文档类型来训练模型而不是序列化文本。

针对 分类器模式，选择 使用单标签模式.

这种模式告诉分类器我们打算将文档分类为一个类。如果您需要使用多标签模式训练模型，这意味着文档可能属于一个或多个类别，则必须通过在注释 CSV 中指定由特殊字符分隔的文档类别来适当地设置注释文件文件。在这种情况下，您会选择 使用多标签模式 选项。

针对 S3 上的注释位置, 输入注释 CSV 文件的路径。
针对 S3 上的训练数据位置，输入您的文档所在的 Amazon S3 位置。
在本节中将所有其他选项保留为默认值。
在 输出数据 部分，为您的输出指定一个 Amazon S3 位置。

这是可选的，但最好提供一个输出位置，因为 Amazon Comprehend 将在该位置生成模型后训练评估指标。此数据可用于评估模型性能、迭代和提高模型的准确性。

在 IAM角色 节，选择合适的 AWS身份和访问管理 (IAM) 角色，允许 Amazon Comprehend 访问 Amazon S3 位置并从中写入和读取。
创建启动模型训练。

模型可能需要几分钟的时间来训练，具体取决于类的数量和数据集的大小。您可以在 自定义分类 页。训练过程会显示一个提交培训过程开始后的状态将变为 产品培训 训练过程开始时的状态。在您的模型训练完成后， 版本状态 将更改为熟练. 如果 Amazon Comprehend 在您的训练数据中发现不一致，状态将显示错误以及显示相应错误消息的警报，以便您可以采取纠正措施并使用更正后的数据重新启动训练过程。

Amazon Comprehend 文档分类器添加了布局支持，以实现更高精度的 PlatoBlockchain 数据智能。垂直搜索。人工智能。

在本文中，我们演示了使用 Amazon Comprehend 控制台训练自定义分类器模型的步骤。您还可以使用 AWS开发工具包用任何语言（例如，用于 Python 的 Boto3）或者 AWS命令行界面 (AWS CLI) 启动自定义分类模型训练。通过开发工具包或 AWS CLI，您可以使用创建文档分类器用于启动模型训练的 API，随后使用描述文档分类器用于检查模型状态的 API。

训练模型后，您可以执行实时分析 or 异步（批处理）分析作业在新文件上。要对文档执行实时分类，您必须使用经过训练的自定义分类模型部署 Amazon Comprehend 实时终端节点。实时端点最适合需要低延迟、实时推理结果的用例，而对于对大量文档进行分类，异步分析作业更合适。要了解如何使用经过训练的分类模型对新文档执行异步推理，请参阅使用 Amazon Comprehend 引入一步分类和实体识别以进行智能文档处理.

布局感知自定义分类模型的优势

新的分类器模型提供了许多改进。不仅训练新模型更容易，而且您还可以训练一个新模型，每个类只需几个样本。此外，您不再需要从图像或 PDF 等扫描或数字文档中提取序列化纯文本来准备训练数据集。以下是您可以从新分类模型中获得的一些其他值得注意的改进：

提高准确性 – 该模型现在考虑了文档的布局和结构，从而可以更好地理解文档的结构和内容。这有助于区分文本相似但布局或结构不同的文档，从而提高分类准确性。
鲁棒性 – 该模型现在可以处理文档结构和格式的变化。这使其更适合对具有不同布局或格式样式的不同来源的文档进行分类，这是现实世界文档分类任务中的常见挑战。它本身兼容多种文档类型，使其用途广泛，适用于不同的行业和用例。
减少人工干预 – 更高的准确性导致分类过程中的人工干预更少。这可以节省时间和资源，并提高文档处理工作量的运营效率。

结论

新的 Amazon Comprehend 文档分类模型结合了布局意识，对于处理大量文档的企业来说是一个游戏规则改变者。通过了解文档的结构和布局，该模型提高了分类准确性和效率。使用布局感知模型实施强大而准确的文档分类解决方案可以帮助您的企业节省时间、降低运营成本并增强决策制定过程。

作为下一步，我们鼓励您通过以下方式尝试新的 Amazon Comprehend 自定义分类模型 Amazon Comprehend控制台. 我们还建议重新访问我们的自定义分类模型改进公告去年并参观 GitHub存储库对于代码示例。

关于作者

安扬·比斯瓦斯 是一名高级 AI 服务解决方案架构师，专注于 AI/ML 和数据分析。 Anjan 是全球 AI 服务团队的一员，与客户合作，帮助他们理解和开发 AI 和 ML 业务问题的解决方案。 Anjan 拥有超过 14 年的与全球供应链、制造和零售组织合作的经验，并积极帮助客户开始使用 AWS AI 服务并进行扩展。