Amazon SageMaker JumpStart 现在提供 Amazon Comprehend 笔记本,用于自定义分类和自定义实体检测 PlatoBlockchain 数据智能。 垂直搜索。 人工智能。

Amazon SageMaker JumpStart 现在提供用于自定义分类和自定义实体检测的 Amazon Comprehend 笔记本

亚马逊领悟 是一种自然语言处理 (NLP) 服务,它使用机器学习 (ML) 从文本中发现见解。 Amazon Comprehend 提供定制功能, 自定义实体识别, 自定义分类预训练的 API 例如关键短语提取、情感分析、实体识别等,因此您可以轻松地将 NLP 集成到您的应用程序中。

我们最近在中添加了与 Amazon Comprehend 相关的笔记本 亚马逊SageMaker JumpStart 可以帮助您快速开始使用 Amazon Comprehend 自定义分类器和自定义实体识别器的笔记本。 您可以使用自定义分类将文档组织到您定义的类别(类别)中。 自定义实体识别扩展了 Amazon Comprehend 预训练实体检测 API 的功能,可帮助您识别您的域或业务所独有的实体类型,这些实体类型不在预设通用中 实体类型.

在本文中,我们将向您展示如何使用 JumpStart 构建 Amazon Comprehend 自定义分类和自定义实体检测模型,作为企业 NLP 需求的一部分。

SageMaker 快速启动

亚马逊SageMaker Studio 着陆页提供了使用 JumpStart 的选项。 JumpStart 通过为各种问题类型提供预先训练的模型,提供了一种快速入门的方法。 您可以训练和调整这些模型。 JumpStart 还提供笔记本、博客和视频等其他资源。

JumpStart 笔记本本质上是示例代码,您可以将其用作快速入门的起点。 目前,我们为您提供了 40 多种笔记本,您可以按原样使用或根据需要自定义。 您可以使用搜索或选项卡式视图面板找到您的笔记本。 找到要使用的笔记本后,您可以导入笔记本,根据您的要求对其进行自定义,然后选择运行笔记本的基础设施和环境。

JumpStart 笔记本入门

要开始使用 JumpStart,请转到 亚马逊SageMaker 控制台并打开 Studio。 参考 开始使用 SageMaker Studio 有关如何开始使用 Studio 的说明。 然后完成以下步骤:

  1. 在 Studio 中,转到 JumpStart 的启动页面并选择 转到 SageMaker JumpStart.

您可以通过多种方式进行搜索。 您可以使用顶部的选项卡找到您想要的内容,也可以使用搜索框,如下面的屏幕截图所示。

  1. 要找到笔记本,我们去 笔记本电脑 标签。

转到笔记本选项卡

在撰写本文时,JumpStart 提供 47 款笔记本。 您可以使用过滤器来查找与 Amazon Comprehend 相关的笔记本。

  1. 点击 内容类型 下拉菜单,选择 笔记本.

正如您在以下屏幕截图中所见,我们目前有两个 Amazon Comprehend 笔记本。

查找 Comprehend 笔记本

在以下部分中,我们将探讨这两个笔记本。

Amazon Comprehend 自定义分类器

在本笔记本中,我们演示了如何使用 自定义分类器 API 创建文档分类模型。

自定义分类器是一项完全托管的 Amazon Comprehend 功能,即使您很少或没有 ML 专业知识,也可以让您构建您的业务独有的自定义文本分类模型。 自定义分类器建立在 Amazon Comprehend 的现有功能之上,这些功能已经在数千万文档上进行了训练。 它抽象了构建 NLP 分类模型所需的大部分复杂性。 自定义分类器自动加载和检查训练数据、选择正确的 ML 算法、训练您的模型、找到最佳超参数、测试模型并提供模型性能指标。 Amazon Comprehend 自定义分类器还为整个 ML 工作流程提供了一个易于使用的控制台,包括使用标签文本 亚马逊SageMaker地面真相、训练和部署模型,以及可视化测试结果。 使用 Amazon Comprehend 自定义分类器,您可以构建以下模型:

  • 多类分类模型 – 在多类分类中,每个文档只能分配一个类。 各个类别是相互排斥的。 例如,一部电影可以归类为纪录片或科幻小说,但不能同时归类。
  • 多标签分类模型 – 在多标签分类中,各个类别代表不同的类别,但这些类别在某种程度上是相关的而不是相互排斥的。 因此,每个文档都至少分配了一个类,但可以有更多。 例如,一部电影可以只是动作片,也可以同时是动作片、科幻片和喜剧片。

此笔记本不需要 ML 专业知识即可使用示例数据集或您自己的业务特定数据集训练模型。 您可以在自己的应用程序中使用本笔记本中讨论的 API 操作。

亚马逊自定义实体识别器

在本笔记本中,我们演示了如何使用 自定义实体识别 API 创建实体识别模型。

自定义实体识别通过帮助您识别不在预设通用实体类型中的特定实体类型来扩展 Amazon Comprehend 的功能。 这意味着您可以分析文档并提取符合您特定需求的实体,例如产品代码或特定于业务的实体。

自行构建准确的自定义实体识别器可能是一个复杂的过程,需要准备大量手动注释的训练文档并为模型训练选择正确的算法和参数。 Amazon Comprehend 通过提供自动注释和模型开发来创建自定义实体识别模型,从而帮助降低复杂性。

示例笔记本采用 CSV 格式的训练数据集,并对文本输入运行推理。 Amazon Comprehend 还支持一个高级用例,该用例采用 Ground Truth 注释数据进行训练,并允许您直接对 PDF 和 Word 文档进行推理。 有关详细信息,请参阅 使用 Amazon Comprehend 为 PDF 文档构建自定义实体识别器.

Amazon Comprehend 降低了注释限制并允许您获得更稳定的结果,尤其是对于少样本子样本。 有关此改进的更多信息,请参阅 Amazon Comprehend 宣布降低自定义实体识别的注释限制.

此笔记本不需要 ML 专业知识即可使用示例数据集或您自己的业务特定数据集训练模型。 您可以在自己的应用程序中使用本笔记本中讨论的 API 操作。

使用、自定义和部署 Amazon Comprehend JumpStart 笔记本

选择要使用的 Amazon Comprehend 笔记本后,选择 导入笔记本. 当您这样做时,您可以看到笔记本内核正在启动。

导入笔记本

导入笔记本会触发选择用于运行笔记本的笔记本实例、内核和映像。 配置默认基础架构后,您可以根据您的要求更改选择。

SageMaker Studio 中的笔记本

现在,回顾笔记本的大纲并仔细阅读先决条件设置、数据设置、训练模型、运行推理和停止模型的部分。 随意根据您的需要自定义生成的代码。

根据您的要求,您可能希望自定义以下部分:

  • 权限 – 对于生产应用程序,我们建议将访问策略限制为仅运行应用程序所需的访问策略。 可以根据用例(例如训练或推理)和特定资源名称(例如完整的资源名称)来限制权限 亚马逊简单存储服务 (Amazon S3) 存储桶名称或 S3 存储桶名称模式。 您还应该将对自定义分类器或 SageMaker 操作的访问权限限制为您的应用程序需要的访问权限。
  • 数据和位置 – 示例笔记本为您提供示例数据和 S3 位置。 根据您的要求,您可以使用自己的数据进行训练、验证和测试,并根据需要使用不同的 S3 位置。 同样,在创建模型时,您可以选择将模型保留在不同的位置。 只需确保您提供了访问 S3 存储桶的正确权限。
  • 预处理步骤 – 如果您使用不同的数据进行训练和测试,您可能需要根据您的要求调整预处理步骤。
  • 测试数据 – 您可以自带推理数据进行测试。
  • 清理 – 删除笔记本启动的资源,避免重复收费。

结论

在本文中,我们向您展示了如何使用 JumpStart 来学习和快速跟踪使用 Amazon Comprehend API,方法是方便地从 Studio 中查找和运行 Amazon Comprehend 相关笔记本,同时可以选择根据需要修改代码。 这些笔记本使用带有 AWS 产品公告和示例新闻文章的示例数据集。 您可以使用此笔记本学习如何在 Python 笔记本中使用 Amazon Comprehend API,或者您可以将其用作起点并进一步扩展代码以满足您的独特要求和生产部署。

您可以开始使用 JumpStart,并在提供 Studio 的所有区域免费使用 40 多个不同主题的笔记本。


作者简介

作者 - 拉娜张张拉娜 是 AWS WWSO AI 服务团队的高级解决方案架构师,在用于内容审核和 Rekognition 的 AI 和 ML 方面拥有专业知识。 她热衷于推广 AWS AI 服务并帮助客户转变他们的业务解决方案。

作者 - Meenakshisundaram ThandavarayanMeenakshisundaram 坦达瓦拉扬 是 AWS 的高级 AI/ML 专家。 他在 AI 和 ML 之旅中帮助高科技战略客户。 他非常热衷于数据驱动的人工智能

作者 - Rachna Chadha拉奇纳查达 是 AWS 战略客户的首席解决方案架构师 AI/ML。 Rachna 是一个乐观主义者,他相信以合乎道德和负责任的方式使用 AI 可以改善未来的社会并带来经济和社会繁荣。 在业余时间,Rachna 喜欢与家人共度时光、远足和听音乐。

时间戳记:

更多来自 AWS机器学习