“对于知道如何使用这些数据的公司来说,锁定在文本、音频、社交媒体和其他非结构化来源中的数据可以成为竞争优势”
只有 18% 的组织 德勤2019年调查 据报道能够利用非结构化数据。 大多数数据(80% 到 90%)是非结构化数据。 这是一个巨大的未开发资源,如果企业能够找到如何使用它,就有可能为企业带来竞争优势。 从这些数据中找到见解可能很困难,特别是在需要对其进行分类、标记或标记的情况下。 亚马逊领悟 自定义分类在这种情况下很有用。 亚马逊领悟 是一项自然语言处理 (NLP) 服务,它使用机器学习来发现文本中有价值的见解和联系。
文档分类或分级在整个业务领域具有显着的好处 –
- 改进的搜索和检索 – 通过将文档分类为相关主题或类别,用户可以更轻松地搜索和检索所需的文档。 他们可以在特定类别内搜索以缩小结果范围。
- 知识管理 – 以系统的方式对文档进行分类有助于组织组织的知识库。 它可以更轻松地查找相关信息并查看相关内容之间的联系。
- 简化的工作流程 – 自动文档排序可以帮助简化许多业务流程,例如处理发票、客户支持或法规遵从性。 文档可以自动发送给正确的人员或工作流程。
- 节省成本和时间 – 手动文档分类繁琐、耗时且昂贵。 人工智能技术可以接管这项平凡的任务,并在短时间内以低得多的成本对数千份文档进行分类。
- 洞察力一代 – 分析文档类别的趋势可以提供有用的业务见解。 例如,某个产品类别中客户投诉的增加可能表明存在一些需要解决的问题。
- 治理和政策执行 – 设置文档分类规则有助于确保根据组织的策略和治理标准对文档进行正确分类。 这可以更好地进行监控和审计。
- 个性化的体验 – 在网站内容等上下文中,文档分类允许根据用户的浏览行为确定的兴趣和偏好向用户显示定制内容。 这可以提高用户参与度。
开发定制分类机器学习模型的复杂性取决于数据质量、算法、可扩展性和领域知识等多个方面。 必须从清晰的问题定义、干净且相关的数据开始,然后逐步完成模型开发的不同阶段。 不过,企业可以使用 Amazon Comprehend 自定义分类创建自己独特的机器学习模型,自动将文本文档分类为类别或标签,以满足业务特定要求并映射到业务技术和文档类别。 由于不再需要人工标记或分类,这可以为企业节省大量时间、金钱和劳动力。 我们通过自动化整个训练流程使这个过程变得简单。
在这篇多系列博客文章的第一部分中,您将学习如何创建可扩展的训练管道并为 Comprehend 自定义分类模型准备训练数据。 我们将引入一个自定义分类器训练管道,只需单击几下即可将其部署在您的 AWS 账户中。 我们正在使用 BBC 新闻数据集,并将训练一个分类器来识别文档所属的类别(例如政治、体育)。 该管道将使您的组织能够快速响应变化并训练新模型,而不必每次都从头开始。 您可以根据您的需求轻松扩展和训练多个模型。
先决条件
- 活跃的 AWS 账户(单击 相关信息 创建一个新的 AWS 账户)
- 访问 Amazon Comprehend、Amazon S3、Amazon Lambda、Amazon Step Function、Amazon SNS 和 Amazon CloudFormation
- 下一节准备的训练数据(半结构或文本)
- 有关 Python 和机器学习的一般基础知识
准备训练数据
该解决方案可以将输入作为 文本格式 (例如 CSV)或 半结构化格式 (例如 PDF)。
文字输入
亚马逊领悟 自定义分类支持多类和多标签两种模式。
在多类模式下,每个文档只能分配一个类。 训练数据应准备为两列 CSV 文件,文件的每一行包含一个类和演示该类的文档文本。
例子 BBC 新闻数据集:
在多标签模式下,每个文档至少分配有一个类,但可以有更多类。 训练数据应为两列 CSV 文件,文件的每一行包含一个或多个类以及训练文档的文本。 应通过在每个类之间使用分隔符来指示多个类。
对于任何一种训练模式,CSV 文件中均不应包含任何标头。
半结构化输入
从2023开始, 亚马逊领悟 现在支持使用半结构化文档的训练模型。 半结构输入的训练数据由一组标记文档组成,这些文档可以是您已有权访问的文档存储库中预先识别的文档。 以下是训练所需的注释文件 CSV 数据的示例(样本数据):
注释 CSV 文件包含三列:第一列包含文档的标签,第二列是文档名称(即文件名),最后一列是要包含在文档中的页码。训练数据集。 在大多数情况下,如果注释 CSV 文件与所有其他文档位于同一文件夹中,则您只需在第二列中指定文档名称。 但是,如果 CSV 文件位于不同位置,则您需要在第二列中指定位置路径,例如 path/to/prefix/document1.pdf
.
详细如何准备训练数据,请参阅 相关信息.
解决方案概述
- 亚马逊领悟 当训练数据(用于文本输入的 .csv 文件和用于半结构输入的注释 .csv 文件)上传到专用的 Amazon Simple Storage Service (Amazon S3) 桶。
- An AWS Lambda 函数被调用 Amazon S3 每次将对象上传到指定的位置时触发 Amazon S3 位置,AWS Lambda 函数检索源存储桶名称和上传对象的键名称并将其传递给训练 阶跃函数 工作流程。
- 在训练步骤函数中,接收训练数据存储桶名称和对象键名称作为输入参数后,自定义模型训练工作流程将作为一系列 lambda 函数启动,如下所述:
StartComprehendTraining
:此 AWS Lambda 函数定义了一个ComprehendClassifier
对象取决于输入文件的类型(即文本或半结构化),然后启动 亚马逊领悟 通过调用自定义分类训练任务 创建文档分类器 应用程序编程接口 (API),返回训练作业 Amazon 资源名称 (ARN) 。 随后,该函数通过调用来检查训练作业的状态 描述文档分类器 API。 最后,它返回训练作业 ARN 和作业状态,作为训练工作流程下一阶段的输出。GetTrainingJobStatus
:此 AWS Lambda 每 15 分钟检查一次训练作业的作业状态,方法是调用 描述文档分类器 API,直到训练作业状态更改为“完成”或“失败”。GenerateMultiClass
orGenerateMultiLabel
: 如果你选择 含 对于启动堆栈时的性能报告,这两个 AWS Lambda 之一将根据您的 Amazon Comprehend 模型输出运行分析,生成每个类的性能分析并将其保存到 Amazon S3.GenerateMultiClass
:如果您的输入是,则将调用此 AWS Lambda 多类 然后你选择 含 用于绩效报告。GenerateMultiLabel
:如果您的输入是,则将调用此 AWS Lambda 多标签 然后你选择 含 用于绩效报告。
- 训练成功完成后,解决方案会生成以下输出:
演练
启动解决方案
要部署管道,请完成以下步骤:
- 启动堆栈 按钮:
- 选择下一步
- 使用适合您的用例的选项指定管道详细信息:
每个堆栈详细信息的信息:
- 堆栈名称(必填) – 您为此指定的名称 AWS CloudFormation 堆。 该名称在您创建它的区域中必须是唯一的。
- Q01ClassifierInputBucketName(必填) – 用于存储输入数据的 Amazon S3 存储桶名称。 它应该是全局唯一的名称,AWS CloudFormation 堆栈可帮助您在启动存储桶时创建存储桶。
- Q02ClassifierOutputBucketName(必填) – 用于存储 Amazon Comprehend 和管道输出的 Amazon S3 存储桶名称。 它也应该是一个全球唯一的名称。
- Q03输入格式 – 下拉选择,您可以选择 文本 (如果您的训练数据是 csv 文件)或 半结构 (如果您的训练数据是半结构的[例如PDF文件])基于您的数据输入格式。
- Q04语言 – 下拉选项,从支持的列表中选择文档的语言。 请注意,如果您的输入格式是半结构化的,目前仅支持英语。
- Q05多类别 – 下拉选择,选择 含 如果您的输入是 MultiClass 模式。 否则,选择 没有.
- Q06标签分隔符 – 仅当您的 Q05MultiClass 答案是时才需要 没有。 该分隔符在训练数据中用于分隔每个类别。
- Q07验证数据集 – 下拉选择,将答案更改为 含 如果您想用自己的测试数据测试经过训练的分类器的性能。
- Q08S3验证路径 – 仅当您的 Q07ValidationDataset 答案是时才需要 含.
- Q09业绩报告 – 下拉选择,选择 含 如果您想在模型训练后生成班级级别的表现报告。 该报告将保存在您在 Q02ClassifierOutputBucketName 中指定的输出存储桶中。
- Q10邮件通知 – 下拉选择。 选择 含 如果您想在模型训练后收到通知。
- Q11邮箱ID – 输入用于接收绩效报告通知的有效电子邮件地址。 请注意,启动 AWS CloudFormation 堆栈后,您必须通过电子邮件确认订阅,然后才能在培训完成时收到通知。
- 在 Amazon 配置堆栈选项部分中,添加可选标签、权限和其他高级设置。
- 下一页
- 查看堆栈详细信息并选择我承认 AWS CloudFormation 可能会创建AWS IAM 资源。
- 提交。 这将在您的 AWS 账户中启动管道部署。
- 堆栈部署成功后,就可以开始使用管道了。 创建一个
/training-data
您指定的 Amazon S3 位置下的文件夹用于输入。 笔记: Amazon S3 除非您指定不同的加密选项,否则会自动为每个新对象应用服务器端加密 (SSE-S3)。 请参考 Amazon S3 中的数据保护 有关数据保护和加密的更多详细信息,请参阅 Amazon S3.
- 将您的训练数据上传到该文件夹。 (如果训练数据是半结构化数据,则先上传所有PDF文件,然后再上传.csv格式标签信息)。
你完成了! 您已成功部署管道,您可以在已部署的步骤函数中检查管道状态。 (您的 Amazon Comprehend 自定义分类面板中将有一个经过训练的模型)。
如果你选择里面的型号和版本 亚马逊领悟 控制台,然后您现在可以看到有关刚刚训练的模型的更多详细信息。 它包括您选择的模式(对应于选项 Q05MultiClass)、标签数量以及训练数据中训练和测试文档的数量。 您还可以检查下面的整体表现; 但是,如果您想检查每个类的详细性能,请参阅已部署管道生成的性能报告。
服务配额
您的 AWS 账户的默认配额为 亚马逊领悟 和 亚马逊文本,如果输入是半结构格式。 查看服务配额,请参阅 相关信息 亚马逊领悟 和 相关信息 亚马逊文本.
清理
为避免产生持续费用,请在完成后删除您在此解决方案中创建的资源。
- 点击 Amazon S3 控制台,手动删除您为输入和输出数据创建的存储桶内的内容。
- 点击 AWS CloudFormation 控制台,选择 堆栈 在导航窗格中。
- 选择主堆栈并选择 删除.
这会自动删除已部署的堆栈。
结论
在这篇文章中,我们向您展示了可扩展培训管道的概念 亚马逊领悟 自定义分类模型并提供自动化解决方案来有效训练新模型。 这 AWS CloudFormation 提供的模板使您可以轻松创建自己的文本分类模型,以满足需求规模。 该解决方案采用最近宣布的 Euclid 功能,并接受文本或半结构化格式的输入。
现在,我们鼓励您,我们的读者,测试这些工具。 您可以找到有关的更多详细信息 训练数据准备 并了解 自定义分类器指标。 尝试一下,亲眼看看它如何简化模型训练过程并提高效率。 请与我们分享您的反馈!
作者简介
桑迪普辛格 是 AWS 专业服务的高级数据科学家。 他热衷于通过开发最先进的人工智能/机器学习驱动的解决方案来帮助客户创新并实现其业务目标。 他目前专注于生成式人工智能、法学硕士、即时工程以及跨企业扩展机器学习。 他带来了最新的人工智能进步,为客户创造价值。
张艳艳 是 AWS 专业服务能源交付团队的高级数据科学家。 她热衷于利用人工智能/机器学习知识帮助客户解决实际问题。 最近,她的重点是探索生成式人工智能和法学硕士的潜力。 工作之余,她喜欢旅行、锻炼和探索新事物。
瑞克·塔鲁克达尔 是 Amazon Comprehend Service 团队的高级架构师。 他与 AWS 客户合作,帮助他们大规模采用机器学习。 工作之余,他喜欢阅读和摄影。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 汽车/电动汽车, 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- 图表Prime。 使用 ChartPrime 提升您的交易游戏。 访问这里。
- 块偏移量。 现代化环境抵消所有权。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/build-a-classification-pipeline-with-amazon-comprehend-custom-classification-part-i/
- :具有
- :是
- $UP
- 1
- 100
- 11
- 15%
- 2023
- 24
- 26%
- 7
- 9
- a
- Able
- 关于
- 接受
- ACCESS
- 根据
- 账号管理
- 承认
- 横过
- 要积极。
- 加
- 地址
- 解决
- 采用
- 高级
- 进步
- 优点
- 后
- AI
- AI / ML
- 算法
- 所有类型
- 允许
- 已经
- 还
- Amazon
- 亚马逊领悟
- 亚马逊网络服务
- an
- 分析
- 分析
- 和
- 公布
- 回答
- 再
- API
- 应用领域
- 适用
- 保健
- AS
- 方面
- 分配
- At
- 音频
- 审计
- 自动化
- 自动表
- 自动
- 自动化
- 可使用
- 避免
- 远离
- AWS
- AWS CloudFormation
- AWS Lambda
- AWS专业服务
- 基地
- 基于
- 英国广播公司
- BE
- 很
- before
- 行为
- 作为
- 属于
- 如下。
- 好处
- 不啻
- 更好
- 之间
- 大
- 博客
- 带来
- 浏览
- 建立
- 商业
- 企业
- 但是
- 按键
- by
- 被称为
- 调用
- CAN
- 案件
- 例
- 类别
- 分类
- 产品类别
- 更改
- 更改
- 收费
- 查
- 支票
- 选择
- 程
- 类
- 分类
- 机密
- 分类
- 清除
- 点击
- 收集
- 柱
- 列
- 竞争的
- 投诉
- 完成
- 完成
- 复杂
- 符合
- 理解
- 包含
- 概念
- 确认
- 混乱
- 连接
- 安慰
- 包含
- 内容
- Contents
- 上下文
- 对应
- 价格
- 可以
- 创建信息图
- 创造价值
- 创建
- 创造
- 目前
- 习俗
- 顾客
- 客户支持
- 合作伙伴
- data
- 数据保护
- 数据科学家
- 专用
- 默认
- 定义
- 定义
- 定义
- 交货
- 德勤会计师事务所
- 需求
- 演示
- 根据
- 部署
- 部署
- 部署
- 描述
- 细节
- 详细
- 详情
- 决心
- 发展
- 研发支持
- 不同
- 难
- 文件
- 文件
- 美元
- 域
- 域名
- 完成
- 别
- 向下
- e
- 每
- 更容易
- 容易
- 边缘
- 效率
- 有效
- 费力
- 工作的影响。
- 或
- 邮箱地址
- enable
- 鼓励
- 加密
- 能源
- 订婚
- 工程师
- 英语
- 提高
- 确保
- 输入
- 企业
- 必要
- 欧洲
- 所有的
- 例子
- 昂贵
- 探索
- 失败
- 专栏
- 反馈
- 少数
- 数字
- 文件
- 档
- 终于
- 找到最适合您的地方
- 企业
- (名字)
- 配件
- 专注焦点
- 重点
- 以下
- 针对
- 格式
- 止
- 功能
- 功能
- 未来
- 生成
- 产生
- 产生
- 生成的
- 生成式人工智能
- 给
- 在全球范围内
- 治理
- 渐渐
- 有
- 有
- he
- 帮助
- 帮助
- 帮助
- 这里
- 创新中心
- How To
- 但是
- HTML
- HTTPS
- 人
- i
- 鉴定
- if
- in
- 包括
- 包括
- 包括
- 增加
- 表示
- 信息
- 初始
- 同修
- 创新
- 输入
- 输入
- 内
- 可行的洞见
- 利益
- 成
- 介绍
- 调用
- 问题
- IT
- 它的
- 工作
- JPG
- JSON
- 只是
- 键
- 知识
- 标签
- 标签
- 劳工
- 语言
- 大
- (姓氏)
- 推出
- 发射
- 学习用品
- 学习
- 最少
- 喜欢
- Line
- 清单
- LLM
- 位于
- 圖書分館的位置
- 锁定
- 不再
- 占地
- 爱
- 降低
- 机
- 机器学习
- 制成
- 主要
- 多数
- 制作
- 手册
- 手动
- 许多
- 地图
- 矩阵
- 可能..
- 媒体
- 满足
- 可能
- 分钟
- 时尚
- 模型
- 模型
- 模式
- 钱
- 监控
- 更多
- 最先进的
- 山
- 许多
- 多
- 必须
- 姓名
- 名称
- 狭窄
- 旅游导航
- 必要
- 需求
- 打印车票
- 全新
- 消息
- 下页
- NLP
- 没有
- 通知
- 现在
- 数
- 对象
- 目标
- of
- on
- 一
- 正在进行
- 仅由
- 附加选项
- 附加选项
- or
- 组织
- 组织
- 其他名称
- 除此以外
- 我们的
- 输出
- 产量
- 学校以外
- 超过
- 最划算
- 己
- 页
- 面包
- 面板
- 参数
- 部分
- 尤其
- 通过
- 多情
- 径
- 员工
- 为
- 性能
- 权限
- 摄影
- 管道
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 请
- 政策
- 政策
- 政治
- 可能
- 帖子
- 潜力
- 供电
- 喜好
- Prepare
- 准备
- 市场问题
- 问题
- 过程
- 过程
- 处理
- 产品
- 所以专业
- 代码编程
- 保护
- 提供
- 提供
- 优
- 蟒蛇
- 质量
- 急速
- 读者
- 阅读
- 真实
- 接收
- 接收
- 最近
- 最近
- 参考
- 地区
- 监管
- 法规符合
- 有关
- 相应
- 留
- 报告
- 报道
- 知识库
- 必须
- 岗位要求
- 资源
- 资源
- 回应
- 成果
- 回报
- 右
- 定位、竞价/采购和分析/优化数字媒体采购,但算法只不过是解决问题的操作和规则。
- 运行
- 同
- 保存
- 保存
- 可扩展性
- 可扩展性
- 鳞片
- 秤
- 缩放
- 科学家
- 划伤
- 搜索
- 其次
- 部分
- 看到
- 选择
- 前辈
- 发送
- 分开
- 系列
- 服务
- 特色服务
- 集
- 设置
- 设置
- Share
- 她
- 短
- 应该
- 显示
- 如图
- 显著
- 表示
- 简易
- 单
- 情况
- 社会
- 社会化媒体
- 方案,
- 解决方案
- 解决
- 一些
- 来源
- 来源
- 具体的
- 指定
- 运动
- 堆
- 阶段
- 实习
- 标准
- 开始
- 启动
- 国家的最先进的
- Status
- 步
- 步骤
- 存储
- 商店
- 精简
- 用户
- 订阅
- 后来
- 顺利
- 这样
- SUPPORT
- 支持
- 支持
- 调查
- 行李牌
- 量身定制
- 采取
- 任务
- 团队
- 科技
- 技术
- 专业技术
- 模板
- test
- 文本
- 文字分类
- 比
- 这
- 其
- 他们
- 然后
- 博曼
- 他们
- 事
- Free Introduction
- 数千
- 三
- 通过
- 次
- 耗时的
- 至
- 工具
- Topics
- 培训
- 熟练
- 产品培训
- 旅游
- 趋势
- 触发
- 尝试
- 二
- 类型
- 揭露
- 下
- 理解
- 独特
- 未开发
- 直到
- 上传
- 上传
- us
- 使用
- 用例
- 用过的
- 用户
- 用户
- 使用
- 运用
- 有价值
- 折扣值
- 各种
- 版本
- 查看
- 想
- 方法..
- we
- 卷筒纸
- Web服务
- 您的网站
- ,尤其是
- 这
- 而
- 全
- 将
- 中
- 也完全不需要
- 工作
- 工作流程
- 工作流程
- 加工
- 锻炼
- 合作
- 完全
- 您一站式解决方案
- 和风网
- 压缩