在过去十年左右的时间里,数字媒体的技术趋势和进步导致了基于文本的数据的激增。 挖掘本文以获取战术和战略见解的潜在好处是巨大的。 这称为自然语言处理 (NLP)。 例如,您可以使用 NLP 来分析您的产品评论以了解客户情绪,训练自定义实体识别器模型以根据客户评论识别感兴趣的产品类型,或训练自定义文本分类模型以确定最受欢迎的产品类别。
亚马逊领悟 是一种 NLP 服务,具有现成的智能,可以提取有关文档内容的见解。 它通过识别文档中的实体、关键短语、语言、情感和其他常见元素来开发洞察力。 Amazon Comprehend Custom 使用自动机器学习 (Auto ML) 使用您自己的数据代表您构建 NLP 模型。 这使您能够检测企业特有的实体,或根据您的要求对文本或文档进行分类。 此外,您可以使用易于使用的 API 自动化整个 NLP 工作流程。
今天我们很高兴地宣布推出 Amazon Comprehend 自定义模型复制功能,该功能允许您自动将您的 Amazon Comprehend 自定义模型从源账户复制到同一区域中的指定目标账户,而无需访问模型的数据集接受了培训和评估。 从今天开始,您可以使用 AWS管理控制台, AWS命令行界面 (AWS CLI),或 boto3 API (适用于 AWS 的 Python 开发工具包)将经过训练的自定义模型从源账户复制到指定的目标账户。 此新功能适用于 Amazon Comprehend 自定义分类和自定义实体识别模型。
模型复制功能的好处
此新功能具有以下优点:
- 多账户 MLOps 策略 – 一次性训练模型并确保在不同账户的多个环境中进行可预测的部署。
- 更快的部署 – 您可以在帐户之间快速复制经过训练的模型,避免在每个帐户中重新训练所花费的时间。
- 保护敏感数据集 – 现在您不再需要在不同帐户或用户之间共享数据集。 训练数据只需要在完成训练的帐户上可用。 这对于金融服务等某些行业非常重要,在这些行业中,数据隔离和沙盒对于满足监管要求至关重要。
- 轻松协作 – 合作伙伴或供应商现在可以轻松地在 Amazon Comprehend Custom 中进行培训并与他们的客户共享模型。
模型副本的工作原理
借助新的模型复制功能,您可以在两个阶段的过程中在同一区域的 AWS 账户之间复制自定义模型。 首先,一个 AWS 账户(账户 A)中的用户共享其账户中的自定义模型。 然后,另一个 AWS 账户(账户 B)中的用户将模型导入到他们的账户中。
共享模型
要在账户 A 中共享自定义模型,用户需要附加一个 AWS身份和访问管理 (IAM) 基于资源的策略到模型版本。 此策略授权账户 B 中的实体(例如 IAM 用户或角色)将模型版本导入其 AWS 账户中的 Amazon Comprehend。 您可以通过控制台或使用 Amazon Comprehend 自定义配置基于资源的策略 PutResourcePolicy
API。
导入模型
要将模型导入账户 B,该账户的用户需要向 Amazon Comprehend 提供必要的详细信息,例如模型的 Amazon 资源名称 (ARN)。 当他们导入模型时,此用户会在其 AWS 账户中创建一个新的自定义模型,以复制他们导入的模型。 该模型经过全面训练,可用于推理工作,例如文档分类或命名实体识别。 如果模型使用加密 AWS密钥管理服务 (AWS KMS) 密钥,然后在导入模型时指定的服务角色需要有权访问 KMS 密钥才能在导入期间解密模型。 目标账户还可以指定 KMS 密钥在导入过程中对模型进行加密。 共享模型的导入也可以在控制台上和作为 API 使用。
解决方案概述
为了演示模型复制功能的功能,我们将向您展示如何使用 Amazon Comprehend 控制台和 AWS CLI 训练、共享和导入 Amazon Comprehend 自定义实体识别模型。 对于此演示,我们使用两个不同的帐户。 这些步骤也适用于 Amazon Comprehend 自定义分类。 所需步骤如下:
- 在源账户中训练 Amazon Comprehend 自定义实体识别模型。
- 为经过训练的模型定义 IAM 资源策略以允许跨账户访问。
- 将训练好的模型从源账户复制到目标账户。
- 通过批处理作业测试复制的模型。
在源账户中训练 Amazon Comprehend 自定义实体识别模型
第一步是在源账户中训练 Amazon Comprehend 自定义实体识别模型。 作为训练的输入数据集,我们使用 CSV 实体清单 和 培训文件 用于识别给定文档中的 AWS 服务产品。 确保实体列表和培训文档位于 亚马逊简单存储服务 (Amazon S3) 源账户中的存储桶。 有关说明,请参阅 将文档添加到 Amazon S3.
创建一个IAM角色 用于 Amazon Comprehend 并提供对带有训练数据的 S3 存储桶的所需访问权限。 请注意要在后续步骤中使用的角色 ARN 和 S3 存储桶路径。
使用 AWS CLI 训练模型
使用以下 AWS CLI 命令创建实体识别器。 将您的参数替换为 S3 路径、IAM 角色和区域。 响应返回 EntityRecognizerArn
.
可以通过调用 describe-entity-recognizer 并检查响应中的状态来监控训练作业的状态。
通过控制台训练模型
要通过控制台训练模型,请完成以下步骤:
- 在Amazon Comprehend控制台上, 定制,创建一个新的自定义实体识别器模型。
- 提供型号名称和版本。
- 针对 语言,选择 英语.
- 针对 自定义实体类型,添加
AWS_OFFERING
.
要训练自定义实体识别模型,您可以选择以下两种方式之一向 Amazon Comprehend 提供数据: 注释 or 实体清单. 为简单起见,使用实体列表方法。
- 针对 资料格式, 选择 CSV文件.
- 针对 训练类型, 选择 使用实体列表和培训文档.
- 为实体列表 CSV 和训练数据提供 S3 位置路径。
- 要授予 Amazon Comprehend 访问您的 S3 存储桶的权限,请创建一个 IAM 服务相关角色。
在 基于资源的策略 部分,您可以授权访问模型版本。 您授予访问权限的账户可以将此模型导入他们的账户。 我们暂时跳过这一步,在模型训练好并且对模型性能感到满意后添加策略。
- 创建.
这将提交您的自定义实体识别器,该识别器会通过多个模型、调整您的超参数并检查交叉验证以确保您的模型是健壮的。 这些都是数据科学家执行的相同活动。
为经过训练的模型定义 IAM 资源策略以允许跨账户访问
当我们对训练性能感到满意时,我们可以继续通过添加资源策略来共享特定的模型版本。
从 AWS CLI 添加基于资源的策略
通过在模型上添加资源策略来授权从目标账户导入模型,如下代码所示。 该策略可以严格限制于特定模型版本和目标主体。 替换您经过训练的实体识别器 ARN 和目标帐户以提供访问权限。
通过控制台添加基于资源的策略
训练完成后,生成自定义实体识别模型版本。 我们可以选择训练好的模型和版本来查看训练细节,包括训练好的模型的性能。
要更新策略,请完成以下步骤:
- 点击 标签、VPC 和政策 选项卡,编辑基于资源的策略。
- 提供策略名称、Amazon Comprehend 服务委托人 (
comprehend.amazonaws.com
)、目标账户 ID 以及目标账户中授权导入模型版本的 IAM 用户。
我们指定 root
作为 IAM 实体授权目标账户中的所有用户。
将训练好的模型从源账户复制到目标账户
现在模型已从源帐户进行训练和共享。 授权的目标账户用户可以导入模型并在自己的账户中创建模型的副本。
要导入模型,您需要为 Amazon Comprehend 指定源模型 ARN 和服务角色,以便对您的账户执行复制操作。 您可以指定可选的 AWS KMS ID 来加密目标账户中的模型。
通过 AWS CLI 导入模型
要使用 AWS CLI 导入您的模型,请输入以下代码:
通过控制台导入模型
要通过控制台导入模型,请完成以下步骤:
- 在Amazon Comprehend控制台上, 自定义实体识别,选择 导入版本.
- 针对 型号版本 ARN,输入在源账户中训练的模型的 ARN。
- 输入目标的型号名称和版本。
- 提供服务帐户角色并选择 确认 开始模型导入过程。
模型状态更改为 Imported
,我们可以查看模型细节,包括训练好的模型的性能细节。
通过批处理作业测试复制的模型
我们通过使用批处理作业检测自定义实体来测试目标帐户中的复制模型。 要测试模型,请下载 测试文件 并将其放在目标账户的 S3 存储桶中。 创建一个IAM角色 为 Amazon Comprehend 提供对带有测试数据的 S3 存储桶的所需访问权限。 您使用之前记下的角色 ARN 和 S3 存储桶路径。
作业完成后,您可以验证指定输出 S3 存储桶中的推理数据。
使用 AWS CLI 测试模型
要使用 AWS CLI 测试模型,请输入以下代码:
通过控制台测试模型
要通过控制台测试模型,请完成以下步骤:
- 在Amazon Comprehend控制台上,选择 分析职位 并选择 建立工作.
- 针对 名字, 输入作业的名称。
- 针对 分析类型¸选择 自定义实体识别.
- 选择导入模型的模型名称和版本。
- 为作业的测试文件提供 S3 路径以及 Amazon Comprehend 存储结果的输出位置。
- 选择或创建有权访问 S3 存储桶的 IAM 角色。
- 建立工作.
分析作业完成后,您的输出 S3 存储桶路径中有 JSON 文件,您可以下载这些文件以验证导入模型的实体识别结果。
结论
在这篇文章中,我们演示了 Amazon Comprehend 自定义实体模型复制功能。 此功能使您能够在一个账户中训练 Amazon Comprehend 自定义实体识别或分类模型,然后与同一区域中的另一个账户共享该模型。 这简化了多账户策略,其中模型可以训练一次并在同一区域内的账户之间共享,而无需重新训练或共享训练数据集。 作为 MLOps 工作流程的一部分,这允许在每个帐户中进行可预测的部署。 有关更多信息,请参阅我们的文档 了解自定义副本,或者通过控制台或使用带有 AWS CLI 的云 shell 来尝试这篇文章中的演练。
在撰写本文时,Amazon Comprehend 中的模型复制功能在以下区域可用:
- 美国东部(俄亥俄州)
- 美国东部(弗吉尼亚北部)
- 美国西部(俄勒冈州)
- 亚太地区(孟买)
- 亚太地区(首尔)
- 亚太地区(新加坡)
- 亚太地区(悉尼)
- 亚太地区(东京)
- 欧盟(法兰克福)
- 欧盟(爱尔兰)
- 欧盟(伦敦)
- AWS GovCloud(美国西部)
试一试该功能,请通过以下方式向我们发送反馈 AWS论坛 适用于Amazon Comprehend或通过您通常的AWS支持联系方式。
作者简介
普雷姆库马尔·兰加拉扬 是 Amazon Web Services 的一名 AI/ML 专家解决方案架构师,之前曾撰写过《Natural Language Processing with AWS AI services》一书。 他在 IT 行业拥有 26 年的经验,担任过各种职务,包括交付主管、集成专家和企业架构师。 他帮助各种规模的企业采用 AI 和 ML 来解决他们的现实挑战。
切坦克里希纳 是印度的高级合作伙伴解决方案架构师。 他与战略性 AWS 合作伙伴合作,建立强大的云能力,采用 AWS 最佳实践并解决客户挑战。 他是一名建设者,喜欢尝试 AI/ML、物联网和分析。
Sriharsha MS 是Amazon Web Services战略专家团队的AI / ML专家解决方案架构师。 他与利用AI / ML解决复杂业务问题的战略性AWS客户合作。 他提供技术指导和设计建议,以大规模实施AI / ML应用程序。 他的专长涵盖应用程序架构,大数据,分析和机器学习。
- "
- &
- 100
- 9
- 关于
- ACCESS
- 账号管理
- 操作
- 活动
- 进步
- 优点
- 忠告
- AI
- 人工智能服务
- 所有类型
- Amazon
- 亚马逊网络服务
- 分析
- 分析
- 宣布
- 宣布
- 另一个
- API
- APIs
- 相应
- 应用领域
- 应用领域
- 架构
- 汽车
- 可使用
- AWS
- 好处
- 最佳
- 最佳实践
- 边界
- 建立
- 建设者
- 商业
- 挑战
- 检查
- 支票
- 分类
- 云端技术
- 码
- 注释
- 相当常见
- 复杂
- 安慰
- 内容
- 合作伙伴
- data
- 十
- 交货
- 部署
- 设计
- 不同
- 数字
- 文件
- 容易
- 效果
- 巨大
- 企业
- 必要
- 例子
- 体验
- 专门知识
- 专栏
- 反馈
- 金融
- 金融服务
- 姓氏:
- 以下
- 功能
- 快乐
- 有
- 帮助
- 创新中心
- How To
- HTTPS
- 鉴定
- 身分
- 实施
- 重要
- 输入
- 包含
- 印度
- 行业
- 行业中的应用:
- 信息
- 可行的洞见
- 积分
- 房源搜索
- 兴趣
- 物联网
- 爱尔兰
- 隔离
- IT
- 工作
- 工作机会
- 键
- 语言
- 发射
- 铅
- 学习
- Line
- 清单
- 圖書分館的位置
- 伦敦
- 机
- 机器学习
- 颠覆性技术
- 媒体
- 采矿
- ML
- 模型
- 模型
- 最先进的
- 最受欢迎的产品
- 孟买
- 自然
- 供品
- 俄亥俄州
- 秩序
- 俄勒冈
- 其他名称
- 太平洋
- 合伙人
- 伙伴
- 性能
- 短语
- 政策
- 热门
- 校长
- 问题
- 过程
- 产品
- 提供
- 提供
- 很快
- 监管
- 必须
- 岗位要求
- 资源
- 响应
- 成果
- 回报
- 评论
- 鳞片
- 科学家
- SDK
- 首尔
- 服务
- 特色服务
- Share
- 共用的,
- 分享
- 壳
- 简易
- 新加坡
- So
- 解决方案
- 解决
- 开始
- 个人陈述
- Status
- 存储
- 商店
- 善用
- 策略
- SUPPORT
- 悉尼
- 目标
- 团队
- 文案
- test
- 通过
- 次
- 今晚
- 东京
- 产品培训
- 趋势
- 独特
- 更新
- us
- 使用
- 用户
- 厂商
- 查看
- 弗吉尼亚州
- 卷筒纸
- Web服务
- 西部
- WHO
- 中
- 也完全不需要
- 合作
- 写作
- 年