使用 QLoRA 微调 Llama 2 并使用 AWS Inferentia2 将其部署在 Amazon SageMaker 上 |亚马逊网络服务

由柏拉图重新发布

关注： 0

在这篇文章中，我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调，并将微调后的模型部署在 AWS Inferentia2。我们使用 AWS 神经元用于访问 AWS Inferentia2 设备并受益于其高性能的软件开发套件 (SDK)。然后我们使用一个大型模型推理容器，由深度Java库（DJLServing）作为我们的模型服务解决方案。

解决方案概述

使用 QLoRa 高效微调 Llama2

Llama 2 系列大型语言模型 (LLM) 是预先训练和微调的生成文本模型的集合，其规模从 7 亿到 70 亿个参数不等。 Llama 2 使用来自公开来源的 2 万亿个代币数据进行了预训练。 AWS 客户有时会选择使用客户自己的数据微调 Llama 2 模型，以实现下游任务的更好性能。然而，由于 Llama 2 模型的参数数量庞大，完全微调可能会非常昂贵且耗时。参数高效微调（PEFT）方法可以通过仅微调少量额外模型参数同时冻结预训练模型的大部分参数来解决这个问题。有关 PEFT 的更多信息，可以阅读此发表。在这篇文章中，我们使用 QLoRa 微调 Llama 2 7B 模型。

使用 Amazon SageMaker 在 Inf2 上部署微调模型

AWS Inferentia2 是专门为推理工作负载而设计的机器学习 (ML) 加速器，与 AWS 上的其他推理优化实例相比，它可为生成式 AI 和 LLM 工作负载提供高性能，且成本降低高达 40%。在本文中，我们使用 Amazon Elastic Compute Cloud (Amazon EC2) Inf2 实例，采用 AWS Inferentia2，第二代 Inferentia2 加速器，每个加速器包含两个 NeuronCores-v2。每个 NeuronCore-v2 都是一个独立的异构计算单元，具有四个主要引擎：张量、矢量、标量和 GPSIMD 引擎。它包括一个片上软件管理的 SRAM 存储器，可最大限度地提高数据局部性。由于Inf2已经发表了几篇博客，读者可以参考一下发表和我们的文件有关 Inf2 的更多信息。

要在 Inf2 上部署模型，我们需要 AWS Neuron SDK 作为在 Inf2 硬件之上运行的软件层。 AWS Neuron 是用于在 AWS Inferentia 和 AWS 上运行深度学习工作负载的软件开发工具包 AWS 培训基于实例。它支持端到端 ML 开发生命周期，以构建新模型、训练和优化这些模型，并将它们部署到生产环境中。 AWS Neuron 包括深度学习编译, 运行及工具与 TensorFlow 和 PyTorch 等流行框架原生集成。在本博客中，我们将使用 transformers-neuronx，它是用于变压器解码器推理工作流程的 AWS Neuron SDK 的一部分。它支持一系列流行型号，包括 Llama 2。

将模型部署到亚马逊SageMaker，我们通常使用一个包含所需库的容器，例如 Neuron SDK 和 transformers-neuronx 以及模型服务组件。 Amazon SageMaker 维护深度学习容器 (DLC) 以及用于托管大型模型的流行开源库。在这篇文章中，我们使用神经元大型模型推理容器。该容器包含在 Inf2 上部署 Llama 2 模型所需的一切。有关在 Amazon SageMaker 上开始使用 LMI 的资源，请参阅我们的许多现有帖子 (博客1的, 博客2的, 博客3的）关于这个话题。简而言之，您无需编写任何额外代码即可运行容器。您可以使用默认处理程序为了获得无缝的用户体验，并传入支持的模型名称之一和任何加载时间可配置参数。这会在 Inf2 实例上编译并提供 LLM。例如，要部署 OpenAssistant/llama2-13b-orca-8k-3319，您可以提供以下配置（如 serving.properties 文件）。在 serving.properties，我们将模型类型指定为 llama2-13b-orca-8k-3319，批量大小为4，张量并行度为2，就是这样。有关可配置参数的完整列表，请参阅所有 DJL 配置选项.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

或者，您可以编写自己的模型处理程序文件，如下所示例子，但这需要实现模型加载和推理方法来充当 DJLServing API 之间的桥梁。

先决条件

以下列表概述了部署本博客文章中描述的模型的先决条件。您可以从 AWS管理控制台或使用最新版本的 AWS命令行界面（AWS CLI）。

演练

在下一节中，我们将分两部分演练代码：

微调 Llama2-7b 模型，并将模型工件上传到指定的 Amazon S3 存储桶位置。
使用 Amazon SageMaker 中托管的 DJL 服务容器将模型部署到 Inferentia2 中。

带有说明的完整代码示例可以在此找到 GitHub上库。

第 1 部分：使用 PEFT 微调 Llama2-7b 模型

我们将使用论文中最近介绍的方法 QLoRA：用于语言生成的量化感知低阶适配器调整作者：蒂姆·德特默斯等人QLoRA 是一种新技术，可在不牺牲性能的情况下减少大型语言模型在微调过程中的内存占用。

请注意： 下图所示的llama2-7b模型的微调是在亚马逊上测试的 SageMaker Studio 笔记本使用 Python 2.0 GPU 优化内核 ml.g5.2xlarge 实例类型。作为最佳实践，我们建议使用亚马逊SageMaker Studio 您自己启动的集成开发环境（IDE）亚马逊虚拟私有云（Amazon VPC）。这使您可以使用标准的AWS网络和安全功能来控制，监视和检查VPC内部和外部的网络流量。有关更多信息，请参见使用私有VPC保护Amazon SageMaker Studio连接的安全.

量化基础模型

我们首先使用 4 位量化加载量化模型抱脸变形金刚库如下：

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

加载训练数据集

接下来，我们加载数据集以提供模型进行微调步骤，如下所示：

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

附加适配器层

这里我们附加一个小的、可训练的适配器层，配置为洛拉配置定义在拥抱面孔中佩夫特图书馆。

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

训练模型

使用上面显示的 LoRA 配置，我们将微调 Llama2 模型以及超参数。训练模型的代码片段如下所示：

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

合并模型权重

上面执行的微调模型创建了一个包含经过训练的 LoRA 适配器权重的新模型。在下面的代码片段中，我们将适配器与基本模型合并，以便我们可以使用微调后的模型进行推理。

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

将模型权重上传到 Amazon S3

在第 1 部分的最后一步中，我们将合并的模型权重保存到指定的 Amazon S3 位置。 Amazon SageMaker 中的模型服务容器将使用模型权重来使用 Inferentia2 实例托管模型。

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

第 2 部分：使用 SageMaker LMI 容器托管 QLoRA 模型以通过 AWS Inf2 进行推理

在本部分中，我们将逐步介绍将 QLoRA 微调模型部署到 Amazon SageMaker 托管环境中的步骤。我们将使用一个 DJL 服务来自 SageMaker 的容器 DLC，它与集成变形金刚-neuronx 托管此模型的库。该设置有助于将模型加载到 AWS Inferentia2 加速器上，跨多个 NeuronCore 并行化模型，并支持通过 HTTP 端点提供服务。

准备模型工件

DJL 支持许多深度学习优化库，包括极速, 更快的变形金刚和更多。对于特定型号的配置，我们提供 serving.properties 具有关键参数，例如 tensor_parallel_degree 和 model_id 定义模型加载选项。这 model_id 可以是 Hugging Face 模型 ID，也可以是存储模型权重的 Amazon S3 路径。在我们的示例中，我们提供了微调模型的 Amazon S3 位置。以下代码片段显示了用于模型服务的属性：

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

请参考这里文件有关可配置选项的更多信息，请通过 serving.properties。请注意，我们使用 option.n_position=512 在本博客中了解更快的 AWS Neuron 编译。如果您想尝试更大的输入令牌长度，那么我们建议读者提前预编译模型（请参阅 EC2 上的 AOT 预编译模型）。否则，如果编译时间太多，您可能会遇到超时错误。

之后 serving.properties 文件定义后，我们将文件打包成 tar.gz 格式，如下：

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

然后，我们将 tar.gz 上传到 Amazon S3 存储桶位置：

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

创建 Amazon SageMaker 模型终端节点

要使用 Inf2 实例进行服务，我们使用 Amazon SageMaker LMI 容器具有 DJL NeuronX 支持。请参考这个发表有关使用 DJL NeuronX 容器进行推理的更多信息。以下代码显示如何使用 Amazon SageMaker Python SDK 部署模型：

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

测试模型端点

模型成功部署后，我们可以通过向预测器发送示例请求来验证端点：

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

示例输出如下所示：

在数据分析的背景下，机器学习 (ML) 是指一种统计技术，能够通过迭代缩小统计范围，从复杂性和准确性不断增加的数据集中提取预测能力。

机器学习不是一种新的统计技术，而是现有技术的组合。此外，它还没有被设计为与特定数据集一起使用或产生特定结果。相反，它的设计足够灵活，可以适应任何数据集并对任何结果进行预测。

清理

如果您决定不再希望保持 SageMaker 端点运行，您可以使用以下命令将其删除适用于 Python 的 AWS 开发工具包 (boto3)、AWS CLI 或 Amazon SageMaker 控制台。此外，您还可以关闭 Amazon SageMaker Studio 资源不再需要的。

结论

在这篇文章中，我们向您展示了如何使用 LoRA 适配器通过单个 GPU 实例进行 2 位量化来微调 Llama7-4b 模型。然后，我们使用 DJL 服务容器将该模型部署到 Amazon SageMaker 中托管的 Inf2 实例。最后，我们使用 SageMaker Python SDK 通过文本生成预测验证了 Amazon SageMaker 模型终端节点。继续尝试吧，我们很乐意听到您的反馈。请继续关注 AWS Inferentia 的更多功能和新创新的更新。

有关 AWS Neuron 的更多示例，请参阅 aws-神经元样本.

作者简介

伟德是 AWS 的高级 AI/ML 专家解决方案架构师。他热衷于帮助客户推进 AWS 之旅，专注于 Amazon 机器学习服务和基于机器学习的解决方案。工作之余，他喜欢与家人一起露营、钓鱼和徒步旅行等户外活动。

使用 QLoRA 微调 Llama 2 并使用 AWS Inferentia2 将其部署在 Amazon SageMaker 上 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。庆威我李是Amazon Web Services的机器学习专家。他获得了博士学位。在他打破了顾问的研究补助金帐户并未能兑现他所承诺的诺贝尔奖之后，他便在运筹学获得博士学位。目前，他帮助金融服务和保险行业的客户在AWS上构建机器学习解决方案。在业余时间，他喜欢阅读和教学。