使用 Amazon Comprehend 提高自定义分类模型的预测质量

由柏拉图重新发布

关注： 0

人工智能 (AI) 和机器学习 (ML) 已在企业和政府组织中得到广泛采用。随着自然语言处理 (NLP) 和用户友好的 AI/ML 服务（例如亚马逊Textract, 亚马逊转录及亚马逊领悟。组织已开始使用 Amazon Comprehend 等 AI/ML 服务，利用非结构化数据构建分类模型，以获得前所未有的深入见解。尽管您可以轻松地使用预先训练的模型，但如果没有适当的数据管理和模型调整，您将无法实现 AI/ML 模型的全部优势。

在这篇文章中，我们将介绍如何使用 Amazon Comprehend 构建和优化自定义分类模型。我们使用 Amazon Comprehend 自定义分类来构建多标签自定义分类模型来演示这一点，并提供有关如何准备训练数据集和调整模型以满足准确性、精确度、召回率和 F1 分数等性能指标的指南。我们使用 Amazon Comprehend 模型训练输出工件（例如混淆矩阵）来调整模型性能并指导您改进训练数据。

解决方案概述

该解决方案提供了一种使用 Amazon Comprehend 构建优化的自定义分类模型的方法。我们经历了几个步骤，包括数据准备、模型创建、模型性能指标分析以及基于分析的优化推理。我们使用一个亚马逊SageMaker 笔记本和 AWS管理控制台完成其中一些步骤。

我们还在数据准备、模型构建和模型调整过程中介绍最佳实践和优化技术。

先决条件

如果您没有 SageMaker 笔记本实例，您可以创建一个。有关说明，请参阅创建一个Amazon SageMaker Notebook实例.

准备数据

对于此分析，我们使用来自的有毒评论分类数据集 Kaggle。该数据集包含 6 个标签和 158,571 个数据点。然而，每个标签只有不到总数据的 10% 作为正例，其中两个标签的正例还不到 1%。

我们将现有的 Kaggle 数据集转换为 Amazon Comprehend 两列 CSV 格式使用竖线 (|) 分隔符分割标签。 Amazon Comprehend 期望每个数据点至少有一个标签。在此数据集中，我们遇到了几个不属于任何提供的标签的数据点。我们创建一个名为“干净”的新标签，并将任何无毒的数据点分配给该标签。最后，我们使用每个标签 80/20 的比例分割将整理的数据集分为训练和测试数据集。

我们将使用数据准备笔记本。以下步骤使用 Kaggle 数据集并为我们的模型准备数据。

在SageMaker控制台上，选择 笔记本实例 在导航窗格中。
选择您已配置的笔记本实例并选择 打开Jupyter.
点击全新菜单中选择终端.

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

在终端中运行以下命令来下载本文所需的工件：

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

关闭终端窗口。

您应该看到三个笔记本并且 火车.csv 文件。

选择笔记本 数据准备.ipynb.
运行笔记本中的所有步骤。

这些步骤准备原始 Kaggle 数据集作为精选的训练和测试数据集。整理的数据集将存储在笔记本中亚马逊简单存储服务（亚马逊S3）。

处理大规模多标签数据集时，请考虑以下数据准备指南：

数据集每个标签必须至少有 10 个样本。
Amazon Comprehend 最多接受 100 个标签。这是一个可以增加的软限制。
确保数据集文件是格式正确使用正确的分隔符。不正确的分隔符可能会引入空白标签。
所有数据点都必须有标签。
训练和测试数据集的每个标签的数据分布应该是平衡的。不要使用随机分布，因为它可能会在训练和测试数据集中引入偏差。

构建自定义分类模型

我们使用在数据准备步骤中创建的精选训练和测试数据集来构建模型。以下步骤创建 Amazon Comprehend 多标签自定义分类模型：

在Amazon Comprehend控制台上，选择 自定义分类 在导航窗格中。
创建新模型.
针对 型号名称，进入毒性分类模型。
针对 版本名称，输入 1。
针对 注释和数据格式，选择 使用多标签模式.
针对 训练数据集，输入 Amazon S3 上精选训练数据集的位置。
客户提供的测试数据集 并输入 Amazon S3 上精选测试数据的位置。
针对 输出数据，输入Amazon S3位置。
针对 IAM角色，选择 创建 IAM 角色， 将名称后缀指定为“comprehend-blog”。
创建开始自定义分类模型训练和模型创建。

以下屏幕截图显示了 Amazon Comprehend 控制台上的自定义分类模型详细信息。

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

调整模型性能

以下屏幕截图显示了模型性能指标。它包括精确度、召回率、F1 分数、准确性等关键指标。

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

训练和创建模型后，它将生成 output.tar.gz 文件，其中包含数据集中的标签以及每个标签的混淆矩阵。为了进一步调整模型的预测性能，您必须了解模型的每个类别的预测概率。为此，您需要创建一个分析作业来识别 Amazon Comprehend 分配给每个数据点的分数。

完成以下步骤来创建分析作业：

在Amazon Comprehend控制台上，选择 分析职位 在导航窗格中。
建立工作.
针对姓名，输入 toxic_train_data_analysis_job.
针对 分析类型，选择 自定义分类.
针对 分类模型和飞轮，请指定 toxic-classification-model.
针对版本，指定 1。
针对 输入数据S3位置，输入整理的训练数据文件的位置。
针对 输入格式，选择 每行一个文档.
针对 输出数据S3的位置，输入位置。
针对 访问权限，选择 使用现有 IAM 角色 并选择之前创建的角色。
建立工作 开始分析工作。
点击 分析职位 查看作业详细信息。请记下“职位详细信息”下的职位 ID。我们将在下一步中使用作业 ID。

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

对策划的测试数据重复启动分析作业的步骤。我们使用分析作业的预测输出来了解模型的预测概率。请记下训练和测试分析作业的作业 ID。

我们使用 模型阈值分析.ipynb 笔记本测试所有可能阈值的输出，并使用 scikit-learn 基于预测概率对输出进行评分 precision_recall_curve 功能。此外，我们可以计算每个阈值的 F1 分数。

我们需要 Amazon Comprehend 分析作业 ID 作为输入 模型阈值分析 笔记本。您可以从 Amazon Comprehend 控制台获取作业 ID。执行中的所有步骤 模型阈值分析 笔记本观察所有类别的阈值。

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

请注意，随着阈值的增加，精确度也随之提高，而召回率则相反。为了找到两者之间的平衡，我们使用 F1 分数，它的曲线中有可见的峰值。 F1 分数中的峰值对应于可以提高模型性能的特定阈值。请注意，大多数标签的阈值都落在 0.5 左右，但威胁标签除外，其阈值约为 0.04。

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

然后，我们可以将此阈值用于仅使用默认 0.5 阈值表现不佳的特定标签。通过使用优化的阈值，模型在测试数据上的结果将标签威胁从 0.00 提高到 0.24。我们使用阈值处的最大 F1 分数作为基准来确定该标签的阳性与阴性，而不是所有标签的通用基准（标准值，如 > 0.7）。

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

处理代表性不足的阶层

对于不平衡数据集有效的另一种方法是 过采样。通过对代表性不足的类别进行过采样，模型可以更频繁地看到代表性不足的类别，并强调这些样本的重要性。我们使用 过采样-代表性不足.ipynb 笔记本来优化数据集。

对于此数据集，我们测试了随着我们提供更多样本，模型在评估数据集上的性能如何变化。我们使用过采样技术来增加代表性不足的类别的出现，以提高性能。

使用 Amazon Comprehend 提高自定义分类模型的预测质量 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

在这个特殊案例中，我们测试了 10、25、50、100、200 和 500 个正例。请注意，虽然我们重复数据点，但我们本质上是通过强调代表性不足的类别的重要性来提高模型的性能。

价格

使用 Amazon Comprehend，您可以根据处理的文本字符数按需付费。参考亚马逊全面定价实际费用。

清理

当您完成此解决方案的试验后，请清理资源以删除本示例中部署的所有资源。这可以帮助您避免帐户中的持续费用。

结论

在这篇文章中，我们提供了有关数据准备、使用预测概率进行模型调整以及处理代表性不足的数据类的技术的最佳实践和指导。您可以使用这些最佳实践和技术来提高 Amazon Comprehend 自定义分类模型的性能指标。

有关 Amazon Comprehend 的更多信息，请访问 Amazon Comprehend 开发人员资源查找视频资源和博客文章，并参考 AWS Comprehend 常见问题解答.

作者简介

沙迪亚巴拉克里希南 是 AWS 专业服务团队的高级客户交付架构师，专门研究数据和 ML 解决方案。他与美国联邦金融客户合作。他热衷于构建实用的解决方案来解决客户的业务问题。业余时间，他喜欢和家人一起看电影和徒步旅行。

马拉里王子 是 AWS 专业服务团队的一名 NLP 数据科学家，专门研究面向公共部门客户的 NLP 应用程序。他热衷于将 ML 作为一种工具来帮助客户提高工作效率。在业余时间，他喜欢玩电子游戏并与朋友一起开发电子游戏。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

时间戳记： 2023 年 10 月 5 日

时间戳记： 2023 年 11 月 26 日

使用 Amazon Comprehend 提高自定义分类模型的预测质量 | 亚马逊网络服务

由柏拉图重新发布

解决方案概述

先决条件

准备数据

构建自定义分类模型

调整模型性能

处理代表性不足的阶层

价格

清理

结论

作者简介

更多来自 AWS机器学习

使用 AWS CDK 设置 Amazon SageMaker Studio 和 Jupyter Lab 3

在 Amazon SageMaker Studio 中使用具有默认生命周期配置的 Amazon SageMaker Data Wrangler

使用 Amazon SageMaker Data Wrangler 检测多重共线性、目标泄漏和特征相关性

使用 Amazon SageMaker 地理空间功能分析啮齿动物侵扰 | 亚马逊网络服务

利用 Amazon Lex 中新的生成式 AI 功能提升您的自助服务助理 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理