使用 Amazon SageMaker JumpStart 进行零样本文本分类

由柏拉图重新发布

关注： 0

自然语言处理 (NLP) 是机器学习 (ML) 领域，致力于让计算机能够像人类一样理解文本和口语单词。最近，最先进的架构如变压器架构用于在文本摘要、文本分类、实体识别等 NLP 下游任务上实现接近人类的性能。

大型语言模型 (LLM) 是基于 Transformer 的模型，在数亿的大量未标记文本上进行训练（BERT) 到超过一万亿个参数 (麦克风），其大小使得单 GPU 训练不切实际。由于其固有的复杂性，从头开始培训法学硕士是一项非常具有挑战性的任务，很少有组织能够承担得起。 NLP 下游任务的常见做法是采用预先训练的 LLM 并对其进行微调。有关微调的更多信息，请参阅 Amazon SageMaker JumpStart 中金融数据基础模型的域适应微调和在 Amazon SageMaker 上使用 Hugging Face 微调转换器语言模型以实现语言多样性.

NLP 中的零样本学习允许预训练法学硕士生成对尚未明确训练的任务的响应（即使没有微调）。具体来说，文本分类， 零样本文本分类 是自然语言处理中的一项任务，其中 NLP 模型用于对未见过的类别中的文本进行分类，这与 监督分类，其中 NLP 模型只能对属于训练数据中的类的文本进行分类。

我们最近推出了零样本分类模型支持亚马逊SageMaker JumpStart。 SageMaker JumpStart 是 ML 中心亚马逊SageMaker 它提供对预先训练的基础模型 (FM)、LLM、内置算法和解决方案模板的访问，以帮助您快速开始使用 ML。在这篇文章中，我们将展示如何使用 SageMaker Jumpstart 中的预训练模型执行零样本分类。您将学习如何使用 SageMaker Jumpstart UI 和 SageMaker Python SDK 部署解决方案并使用可用模型运行推理。

零镜头学习

零样本分类是一种范例，其中模型可以对新的、未见过的示例进行分类，这些示例属于训练数据中不存在的类。例如，经过训练可以理解人类语言的语言模型可用于对多个类别的新年决心推文进行分类，例如 career, health及 finance，而语言模型没有经过文本分类任务的显式训练。这与微调模型相反，因为后者意味着重新训练模型（通过迁移学习），而零样本学习不需要额外的训练。

下图说明了迁移学习（左）与零样本学习（右）之间的差异。

尹等人。提出了一个使用自然语言推理（NLI）创建零样本分类器的框架。该框架的工作原理是将要分类的序列作为 NLI 前提，并根据每个候选标签构建假设。例如，如果我们想评估一个序列是否属于该类 politics，我们可以构建一个假设“这篇文章是关于政治的”。然后将蕴涵和矛盾的概率转换为标签概率。作为快速回顾，NLI 考虑两个句子：前提和假设。任务是在给定前提下确定假设是正确的（蕴含）还是错误的（矛盾）。下表提供了一些示例。

前提	标签	假说
在某个东亚国家，一名男子正在检查人物的制服。	矛盾	男人正在睡觉。
一个年长的和一个年轻的男人微笑着。	一般	两个男人微笑着看着地板上玩耍的猫。
多人参与的足球比赛。	蕴涵	有些男人正在参加一项运动。

解决方案概述

在这篇文章中，我们讨论以下内容：

如何使用 SageMaker JumpStart UI 部署预训练的零样本文本分类模型，并使用短文本数据对部署的模型运行推理
如何使用 SageMaker Python SDK 访问 SageMaker JumpStart 中预先训练的零样本文本分类模型，并使用推理脚本将模型部署到 SageMaker 端点以实现实时文本分类用例
如何使用 SageMaker Python SDK 访问预训练的零样本文本分类模型，并将 SageMaker 批量转换用于批量文本分类用例

SageMaker JumpStart 为跨流行 ML 任务的各种预训练模型提供一键式微调和部署，以及解决常见业务问题的一系列端到端解决方案。这些功能消除了 ML 流程每个步骤的繁重工作，简化了高质量模型的开发并缩短了部署时间。这 JumpStart API 允许您以编程方式在您自己的数据集上部署和微调大量预训练模型。

JumpStart 模型中心提供对大量 NLP 模型的访问，这些模型支持对自定义数据集进行迁移学习和微调。截至撰写本文时，JumpStart 模型中心包含各种流行模型的 300 多个文本模型，例如 Stable Diffusion、Flan T5、Alexa TM、Bloom 等。

请注意，按照本部分中的步骤操作，您将基础设施部署到您的 AWS 账户，这可能会产生费用。

部署独立的零样本文本分类模型

在本部分中，我们将演示如何使用 SageMaker JumpStart 部署零样本分类模型。您可以通过 JumpStart 登录页面访问预先训练的模型亚马逊SageMaker Studio. 完成以下步骤：

在 SageMaker Studio 中，打开 JumpStart 登录页面。
请参阅打开并使用 JumpStart 了解有关如何导航到 SageMaker JumpStart 的更多详细信息。
在 文字模型 轮播中，找到“零样本文本分类”模型卡。
查看模型 访问 facebook-bart-large-mnli 模型。
或者，您可以在搜索栏中搜索零样本分类模型，然后在 SageMaker JumpStart 中找到该模型。
指定部署配置、SageMaker 托管实例类型、端点名称、亚马逊简单存储服务 (Amazon S3) 存储桶名称和其他必需参数。
或者，您可以指定安全配置，例如 AWS身份和访问管理 (IAM) 角色、VPC 设置以及 AWS密钥管理服务 (AWS KMS) 加密密钥。
部署创建 SageMaker 端点。

此步骤需要几分钟才能完成。完成后，您可以针对托管零样本分类模型的 SageMaker 终端节点运行推理。

在下面的视频中，我们将演示本节中的步骤。

通过 SageMaker SDK 以编程方式使用 JumpStart

在 SageMaker Studio 的 SageMaker JumpStart 部分中，在 快速启动解决方案，你可以找到解决方案模板。 SageMaker JumpStart 解决方案模板是适用于许多常见 ML 使用案例的一键式端到端解决方案。截至撰写本文时，已有 20 多种解决方案可用于多种用例，例如需求预测、欺诈检测和个性化推荐等。

“拥抱面部的零样本文本分类”解决方案提供了一种无需针对特定标签训练模型即可对文本进行分类的方法（零样本分类）通过使用预先训练的文本分类器。该解决方案的默认零样本分类模型是 facebook-bart-large-mnli （BART）模型。对于这个解决方案，我们使用 2015 年新年决心数据集对决议进行分类。原始数据集的子集，仅包含 Resolution_Category （地面实况标签）和 text 列包含在解决方案的资产中。

输入数据包括文本字符串、所需分类类别的列表，以及分类是否是多标签以进行同步（实时）推理。对于异步（批量）推理，我们在 JSON 行格式的文本文件中提供文本字符串列表、每个字符串的类别列表以及分类是否为多标签。

推理的结果是一个 JSON 对象，类似于以下屏幕截图。

我们有原文 sequence 字段，用于文本分类的标签 labels 字段，以及分配给该字段中每个标签（按出现顺序相同）的概率 scores.

要部署带有拥抱面部解决方案的零样本文本分类，请完成以下步骤：

在 SageMaker JumpStart 登录页面上，选择 模型、笔记本、解决方案 在导航窗格中。
在 解决方案 部分中，选择 探索所有解决方案.
点击 解决方案 页面上，选择带有拥抱脸部的零镜头文本分类模型卡。
查看部署详细信息，如果您同意，请选择实行.

该部署将提供一个用于实时推理的 SageMaker 实时端点和一个用于存储批量转换结果的 S3 存储桶。

下图说明了此方法的体系结构。

使用零样本分类模型执行实时推理

在本部分中，我们将回顾如何使用 Python SDK 使用 SageMaker 端点实时运行零样本文本分类（使用任何可用模型）。

首先，我们配置对模型的推理负载请求。这取决于模型，但对于 BART 模型，输入是具有以下结构的 JSON 对象：

{
“inputs”: # The text to be classified
“parameters”: {
“candidate_labels”: # A list of the labels we want to use for the text classification
“multi_label”: True | False
}
}

请注意，BART 模型并未明确训练 candidate_labels。我们将使用零样本分类技术将文本序列分类为未见过的类别。以下代码是使用新年决心数据集中的文本和定义的类的示例：

classification_categories = ['Health', 'Humor', 'Personal Growth', 'Philanthropy', 'Leisure', 'Career', 'Finance', 'Education', 'Time Management']
data_zero_shot = { "inputs": "#newyearsresolution :: read more books, no scrolling fb/checking email b4 breakfast, stay dedicated to pt/yoga to squash my achin' back!", "parameters": { "candidate_labels": classification_categories, "multi_label": False
}
}

接下来，您可以使用零样本负载调用 SageMaker 端点。 SageMaker 端点作为 SageMaker JumpStart 解决方案的一部分进行部署。

response = runtime.invoke_endpoint(EndpointName=sagemaker_endpoint_name,
ContentType='application/json',
Body=json.dumps(payload)) parsed_response = json.loads(response['Body'].read())

推理响应对象包含原始序列、按分数从最大到最小排序的标签以及每个标签的分数：

{'sequence': "#newyearsresolution :: read more books, no scrolling fb/checking email b4 breakfast, stay dedicated to pt/yoga to squash my achin' back!", 'labels': ['Personal Growth', 'Health', 'Time Management', 'Leisure', 'Education', 'Humor', 'Career', 'Philanthropy', 'Finance'], 'scores': [0.4198768436908722,
0.2169460505247116,
0.16591140627861023,
0.09742163866758347,
0.031757451593875885,
0.027988269925117493,
0.015974704176187515,
0.015464971773326397,
0.008658630773425102]}

使用 Python SDK 运行 SageMaker 批量转换作业

本节介绍如何使用零样本分类运行批量变换推理 facebook-bart-large-mnli 使用的模型 SageMaker Python 开发工具包. 完成以下步骤：

将输入数据格式化为 JSON 行格式并将文件上传到 Amazon S3。
SageMaker 批量转换将对 S3 文件中上传的数据点执行推理。

使用以下参数设置模型部署工件：

型号标识 - 使用 huggingface-zstc-facebook-bart-large-mnli.
部署镜像 uri - 使用 image_uris Python SDK 函数，用于获取预构建的 SageMaker Docker 映像 model_id。该函数返回 Amazon Elastic Container注册（亚马逊 ECR）URI。
部署源_uri – 使用 script_uris 用于检索 S3 URI 的实用程序 API，其中包含运行预训练模型推理的脚本。我们指定 script_scope as inference.

模型_uri - 使用 model_uri 从 Amazon S3 获取指定的模型工件 model_id.

#imports
from sagemaker import image_uris, model_uris, script_uris, hyperparameters #set model id and version
model_id, model_version, = ( "huggingface-zstc-facebook-bart-large-mnli", "*",
) # Retrieve the inference Docker container URI. This is the base Hugging Face container image for the default model above.
deploy_image_uri = image_uris.retrieve(
region=None,
framework=None, # Automatically inferred from model_id
image_scope="inference",
model_id=model_id,
model_version=model_version,
instance_type="ml.g4dn.xlarge",
) # Retrieve the inference script URI. This includes all dependencies and scripts for model loading, inference handling, and more.
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") # Retrieve the model URI. This includes the pre-trained model and parameters.
model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

使用 HF_TASK 定义 Hugging Face 转换器管道的任务以及 HF_MODEL_ID 定义用于对文本进行分类的模型：

# Hub model configuration <https://huggingface.co/models>
hub = { 'HF_MODEL_ID':'facebook/bart-large-mnli', # The model_id from the Hugging Face Hub 'HF_TASK':'zero-shot-classification' # The NLP task that you want to use for predictions
}

有关任务的完整列表，请参阅管道在拥抱脸部文档中。

创建要使用 SageMaker 批量转换作业进行部署的 Hugging Face 模型对象：

# Create HuggingFaceModel class
huggingface_model_zero_shot = HuggingFaceModel(
model_data=model_uri, # path to your trained sagemaker model
env=hub, # configuration for loading model from Hub
role=role, # IAM role with permissions to create an endpoint
transformers_version="4.17", # Transformers version used
pytorch_version="1.10", # PyTorch version used
py_version='py38', # Python version used
)

创建一个转换来运行批处理作业：

# Create transformer to run a batch job
batch_job = huggingface_model_zero_shot.transformer(
instance_count=1,
instance_type='ml.m5.xlarge',
strategy='SingleRecord',
assemble_with='Line',
output_path=s3_path_join("s3://",sagemaker_config['S3Bucket'],"zero_shot_text_clf", "results"), # we are using the same s3 path to save the output with the input
)

启动批量转换作业并使用 S3 数据作为输入：

batch_job.transform(
data=data_upload_path,
content_type='application/json',
split_type='Line',
logs=False,
wait=True
)

您可以在 SageMaker 控制台上监控批处理作业（选择 批量转换作业 下推理在导航窗格中）。作业完成后，您可以在指定的 S3 文件中检查模型预测输出 output_path.

有关 SageMaker JumpStart 中所有可用预训练模型的列表，请参阅带有预训练模型表的内置算法。在搜索栏中使用关键字“zstc”（零样本文本分类的缩写）来查找所有能够进行零样本文本分类的模型。

清理

运行完笔记本后，请确保删除在此过程中创建的所有资源，以确保停止本指南中部署的资产所产生的成本。与零样本文本分类解决方案和模型相关的笔记本中提供了用于清理已部署资源的代码。

默认安全配置

SageMaker JumpStart 模型使用以下默认安全配置进行部署：

要了解有关 SageMaker 安全相关主题的更多信息，请查看在 Amazon SageMaker 中配置安全性.

结论

在这篇文章中，我们向您展示了如何使用 SageMaker JumpStart UI 部署零样本分类模型并使用部署的端点执行推理。我们使用 SageMaker JumpStart 新年决心解决方案来展示如何使用 SageMaker Python SDK 构建端到端解决方案并实施零样本分类应用程序。 SageMaker JumpStart 提供对数百个预训练模型和解决方案的访问，用于计算机视觉、自然语言处理、推荐系统等任务。自行尝试该解决方案并让我们知道您的想法。

关于作者

大卫·拉雷多 是拉丁美洲 AWS Envision Engineering 的原型架构师，他帮助开发了多个机器学习原型。此前，他曾担任机器学习工程师，从事机器学习工作超过 5 年。他感兴趣的领域是 NLP、时间序列和端到端机器学习。

维克拉姆·埃兰戈 是位于美国弗吉尼亚州 Amazon Web Services 的 AI/ML 专家解决方案架构师。 Vikram 通过设计和思想领导力帮助金融和保险行业客户大规模构建和部署机器学习应用程序。他目前专注于自然语言处理、负责任的人工智能、推理优化以及在整个企业中扩展机器学习。业余时间，他喜欢与家人一起旅行、徒步旅行、烹饪和露营。

Vivek Madan 博士 是 Amazon SageMaker JumpStart 团队的一名应用科学家。他在伊利诺伊大学厄巴纳-香槟分校获得博士学位，并且是乔治亚理工学院的博士后研究员。他是机器学习和算法设计方面的活跃研究员，并在 EMNLP、ICLR、COLT、FOCS 和 SODA 会议上发表过论文。