人工智能 (AI) 和机器学习 (ML) 已在企业和政府组织中得到广泛采用。 随着自然语言处理 (NLP) 和用户友好的 AI/ML 服务(例如 亚马逊Textract, 亚马逊转录及 亚马逊领悟。 组织已开始使用 Amazon Comprehend 等 AI/ML 服务,利用非结构化数据构建分类模型,以获得前所未有的深入见解。 尽管您可以轻松地使用预先训练的模型,但如果没有适当的数据管理和模型调整,您将无法实现 AI/ML 模型的全部优势。
在这篇文章中,我们将介绍如何使用 Amazon Comprehend 构建和优化自定义分类模型。 我们使用 Amazon Comprehend 自定义分类来构建多标签自定义分类模型来演示这一点,并提供有关如何准备训练数据集和调整模型以满足准确性、精确度、召回率和 F1 分数等性能指标的指南。 我们使用 Amazon Comprehend 模型训练输出工件(例如混淆矩阵)来调整模型性能并指导您改进训练数据。
解决方案概述
该解决方案提供了一种使用 Amazon Comprehend 构建优化的自定义分类模型的方法。 我们经历了几个步骤,包括数据准备、模型创建、模型性能指标分析以及基于分析的优化推理。 我们使用一个 亚马逊SageMaker 笔记本 和 AWS管理控制台 完成其中一些步骤。
我们还在数据准备、模型构建和模型调整过程中介绍最佳实践和优化技术。
先决条件
如果您没有 SageMaker 笔记本实例,您可以创建一个。 有关说明,请参阅 创建一个Amazon SageMaker Notebook实例.
准备数据
对于此分析,我们使用来自的有毒评论分类数据集 Kaggle。 该数据集包含 6 个标签和 158,571 个数据点。 然而,每个标签只有不到总数据的 10% 作为正例,其中两个标签的正例还不到 1%。
我们将现有的 Kaggle 数据集转换为 Amazon Comprehend 两列 CSV 格式 使用竖线 (|) 分隔符分割标签。 Amazon Comprehend 期望每个数据点至少有一个标签。 在此数据集中,我们遇到了几个不属于任何提供的标签的数据点。 我们创建一个名为“干净”的新标签,并将任何无毒的数据点分配给该标签。 最后,我们使用每个标签 80/20 的比例分割将整理的数据集分为训练和测试数据集。
我们将使用数据准备笔记本。 以下步骤使用 Kaggle 数据集并为我们的模型准备数据。
- 在SageMaker控制台上,选择 笔记本实例 在导航窗格中。
- 选择您已配置的笔记本实例并选择 打开Jupyter.
- 点击 全新 菜单中选择 终端.
- 在终端中运行以下命令来下载本文所需的工件:
- 关闭终端窗口。
您应该看到三个笔记本并且 火车.csv 文件。
- 选择笔记本 数据准备.ipynb.
- 运行笔记本中的所有步骤。
这些步骤准备原始 Kaggle 数据集作为精选的训练和测试数据集。 整理的数据集将存储在笔记本中 亚马逊简单存储服务 (亚马逊S3)。
处理大规模多标签数据集时,请考虑以下数据准备指南:
- 数据集每个标签必须至少有 10 个样本。
- Amazon Comprehend 最多接受 100 个标签。 这是一个可以增加的软限制。
- 确保数据集文件是 格式正确 使用正确的分隔符。 不正确的分隔符可能会引入空白标签。
- 所有数据点都必须有标签。
- 训练和测试数据集的每个标签的数据分布应该是平衡的。 不要使用随机分布,因为它可能会在训练和测试数据集中引入偏差。
构建自定义分类模型
我们使用在数据准备步骤中创建的精选训练和测试数据集来构建模型。 以下步骤创建 Amazon Comprehend 多标签自定义分类模型:
- 在Amazon Comprehend控制台上,选择 自定义分类 在导航窗格中。
- 创建新模型.
- 针对 型号名称,进入毒性分类模型。
- 针对 版本名称,输入 1。
- 针对 注释和数据格式,选择 使用多标签模式.
- 针对 训练数据集,输入 Amazon S3 上精选训练数据集的位置。
- 客户提供的测试数据集 并输入 Amazon S3 上精选测试数据的位置。
- 针对 输出数据,输入Amazon S3位置。
- 针对 IAM角色, 选择 创建 IAM 角色, 将名称后缀指定为“comprehend-blog”。
- 创建 开始自定义分类模型训练和模型创建。
以下屏幕截图显示了 Amazon Comprehend 控制台上的自定义分类模型详细信息。
调整模型性能
以下屏幕截图显示了模型性能指标。 它包括精确度、召回率、F1 分数、准确性等关键指标。
训练和创建模型后,它将生成 output.tar.gz 文件,其中包含数据集中的标签以及每个标签的混淆矩阵。 为了进一步调整模型的预测性能,您必须了解模型的每个类别的预测概率。 为此,您需要创建一个分析作业来识别 Amazon Comprehend 分配给每个数据点的分数。
完成以下步骤来创建分析作业:
- 在Amazon Comprehend控制台上,选择 分析职位 在导航窗格中。
- 建立工作.
- 针对 姓名,输入
toxic_train_data_analysis_job
. - 针对 分析类型,选择 自定义分类.
- 针对 分类模型和飞轮,请指定
toxic-classification-model
. - 针对 版本,指定 1。
- 针对 输入数据S3位置,输入整理的训练数据文件的位置。
- 针对 输入格式,选择 每行一个文档.
- 针对 输出数据S3的位置,输入位置。
- 针对 访问权限, 选择 使用现有 IAM 角色 并选择之前创建的角色。
- 建立工作 开始分析工作。
- 点击 分析职位 查看作业详细信息。 请记下“职位详细信息”下的职位 ID。 我们将在下一步中使用作业 ID。
对策划的测试数据重复启动分析作业的步骤。 我们使用分析作业的预测输出来了解模型的预测概率。 请记下训练和测试分析作业的作业 ID。
我们使用 模型阈值分析.ipynb 笔记本测试所有可能阈值的输出,并使用 scikit-learn 基于预测概率对输出进行评分 precision_recall_curve
功能。 此外,我们可以计算每个阈值的 F1 分数。
我们需要 Amazon Comprehend 分析作业 ID 作为输入 模型阈值分析 笔记本。 您可以从 Amazon Comprehend 控制台获取作业 ID。 执行中的所有步骤 模型阈值分析 笔记本观察所有类别的阈值。
请注意,随着阈值的增加,精确度也随之提高,而召回率则相反。 为了找到两者之间的平衡,我们使用 F1 分数,它的曲线中有可见的峰值。 F1 分数中的峰值对应于可以提高模型性能的特定阈值。 请注意,大多数标签的阈值都落在 0.5 左右,但威胁标签除外,其阈值约为 0.04。
然后,我们可以将此阈值用于仅使用默认 0.5 阈值表现不佳的特定标签。 通过使用优化的阈值,模型在测试数据上的结果将标签威胁从 0.00 提高到 0.24。 我们使用阈值处的最大 F1 分数作为基准来确定该标签的阳性与阴性,而不是所有标签的通用基准(标准值,如 > 0.7)。
处理代表性不足的阶层
对于不平衡数据集有效的另一种方法是 过采样。 通过对代表性不足的类别进行过采样,模型可以更频繁地看到代表性不足的类别,并强调这些样本的重要性。 我们使用 过采样-代表性不足.ipynb 笔记本来优化数据集。
对于此数据集,我们测试了随着我们提供更多样本,模型在评估数据集上的性能如何变化。 我们使用过采样技术来增加代表性不足的类别的出现,以提高性能。
在这个特殊案例中,我们测试了 10、25、50、100、200 和 500 个正例。 请注意,虽然我们重复数据点,但我们本质上是通过强调代表性不足的类别的重要性来提高模型的性能。
价格
使用 Amazon Comprehend,您可以根据处理的文本字符数按需付费。 参考 亚马逊全面定价 实际费用。
清理
当您完成此解决方案的试验后,请清理资源以删除本示例中部署的所有资源。 这可以帮助您避免帐户中的持续费用。
结论
在这篇文章中,我们提供了有关数据准备、使用预测概率进行模型调整以及处理代表性不足的数据类的技术的最佳实践和指导。 您可以使用这些最佳实践和技术来提高 Amazon Comprehend 自定义分类模型的性能指标。
有关 Amazon Comprehend 的更多信息,请访问 Amazon Comprehend 开发人员资源 查找视频资源和博客文章,并参考 AWS Comprehend 常见问题解答.
作者简介
沙迪亚巴拉克里希南 是 AWS 专业服务团队的高级客户交付架构师,专门研究数据和 ML 解决方案。 他与美国联邦金融客户合作。 他热衷于构建实用的解决方案来解决客户的业务问题。 业余时间,他喜欢和家人一起看电影和徒步旅行。
马拉里王子 是 AWS 专业服务团队的一名 NLP 数据科学家,专门研究面向公共部门客户的 NLP 应用程序。 他热衷于将 ML 作为一种工具来帮助客户提高工作效率。 在业余时间,他喜欢玩电子游戏并与朋友一起开发电子游戏。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- :具有
- :是
- :在哪里
- $UP
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- 关于
- 接受
- 账号管理
- 横过
- 实际
- 另外
- 采用
- 进步
- AI
- AI / ML
- 所有类型
- 让
- 还
- 尽管
- Amazon
- 亚马逊领悟
- 亚马逊SageMaker
- 亚马逊网络服务
- an
- 分析
- 和
- 任何
- 应用领域
- NLP 的应用
- 的途径
- 保健
- 围绕
- AS
- 办公室文员:
- 分配
- At
- 避免
- AWS
- 当前余额
- 基于
- BE
- 因为
- 成为
- before
- 基准
- 好处
- 最佳
- 最佳实践
- 之间
- 偏见
- 博客
- 博客文章
- 建立
- 建筑物
- 商业
- by
- 被称为
- CAN
- 可以得到
- 案件
- 更改
- 字符
- 程
- 类
- 分类
- 客户
- 评论
- 相当常见
- 完成
- 理解
- 计算
- 配置
- 混乱
- 安慰
- 包含
- 继续
- 兑换
- 成本
- 创建信息图
- 创建
- 创建
- 策划
- 策展
- 曲线
- 习俗
- 顾客
- 合作伙伴
- data
- 数据点
- 资料准备
- 数据科学家
- 数据集
- 处理
- 深
- 默认
- 交货
- 演示
- 部署
- 详情
- 确定
- 开发商
- 发展
- 分配
- do
- 文件
- 别
- 下载
- ,我们将参加
- 每
- 更容易
- 有效
- 努力
- 强调
- 强调
- 输入
- 企业
- 评估
- 例子
- 例子
- 除
- 执行
- 现有
- 预计
- 说明
- f1
- 秋季
- 家庭
- 联邦
- 文件
- 档
- 终于
- 金融
- 找到最适合您的地方
- 以下
- 针对
- 朋友
- 止
- ,
- 功能
- 进一步
- Games
- 生成
- 得到
- Go
- GOES
- 政府
- 指导
- 指南
- 方针
- 处理
- 有
- 有
- he
- 帮助
- 他的
- 创新中心
- How To
- 但是
- HTML
- HTTP
- HTTPS
- ID
- 鉴定
- IDS
- 重要性
- 改善
- 改善
- in
- 包括
- 包含
- 增加
- 增加
- 信息
- 本质
- 输入
- 可行的洞见
- 例
- 代替
- 说明
- 房源搜索
- 成
- 介绍
- IT
- 工作
- 工作机会
- 只是
- 键
- 标签
- 标签
- 语言
- 大规模
- 学习用品
- 学习
- 最少
- 减
- 喜欢
- 极限
- 圖書分館的位置
- 机
- 机器学习
- 使
- 颠覆性技术
- 标记
- 矩阵
- 最大
- 最多
- 满足
- 菜单
- 公
- 指标
- 可能
- 最小
- 最低限度
- ML
- 模型
- 模型
- 更多
- 最先进的
- 电影
- 必须
- 姓名
- 自然
- 自然语言处理
- 旅游导航
- 需求
- 负
- 全新
- 下页
- NLP
- 笔记本
- 注意..
- 数
- 观察
- 发生
- of
- 经常
- on
- 一
- 仅由
- 优化
- 优化
- 优化
- 追求项目的积极优化
- 组织
- 我们的
- 产量
- 面包
- 特别
- 多情
- 为
- 性能
- 挑
- 管
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 请
- 点
- 点
- 积极
- 可能
- 帖子
- 帖子
- 做法
- 务实
- 平台精度
- 预测
- 准备
- Prepare
- 礼物
- 先前
- 问题
- 处理
- 处理
- 生产力
- 所以专业
- 正确
- 提供
- 提供
- 国家
- 质量
- 随机
- 比
- 原
- 实现
- 参考
- 必须
- 资源
- 成果
- 角色
- sagemaker
- 科学家
- 得分了
- 扇形
- 看到
- 看到
- 看到
- 服务
- 特色服务
- 几个
- 应该
- 作品
- 简易
- 软
- 方案,
- 解决方案
- 解决
- 一些
- 专业
- 具体的
- 分裂
- 标准
- 开始
- 开始
- 步
- 步骤
- 存储
- 存储
- 这样
- 采取
- 团队
- 技术
- 技术
- 终端
- test
- 测试
- 文本
- 比
- 这
- 其
- 然后
- 博曼
- 他们
- Free Introduction
- 那些
- 威胁
- 三
- 门槛
- 通过
- 次
- 至
- 工具
- 合计
- 熟练
- 产品培训
- 二
- 下
- 代表性不足
- 理解
- us
- 美国联邦
- 使用
- 用户友好
- 运用
- 折扣值
- 视频
- 视频游戏
- 查看
- 可见
- 参观
- vs
- 观看
- we
- 卷筒纸
- Web服务
- 井
- ,尤其是
- 这
- 而
- 广泛
- 将
- 窗口
- 也完全不需要
- 合作
- 完全
- 您一站式解决方案
- 和风网
- 压缩