使用 Llama2 和 Amazon SageMaker 进行 LoRA 微调模型的模型管理

由柏拉图重新发布

关注： 0

在大数据和人工智能时代，企业不断寻求利用这些技术来获得竞争优势的方法。目前人工智能最热门的领域之一是生成式人工智能，这是有充分理由的。生成式人工智能提供了强大的解决方案，突破了创造力和创新的可能界限。这些尖端解决方案的核心是基础模型 (FM)，这是一种基于大量数据进行预训练的高度先进的机器学习模型。其中许多基础模型在理解和生成类人文本方面表现出了卓越的能力，使它们成为从内容创建到客户支持自动化等各种应用程序的宝贵工具。

然而，这些模型并非没有挑战。它们非常大，需要大量数据和计算资源来训练。此外，优化训练过程和校准参数可能是一个复杂且迭代的过程，需要专业知识和仔细的实验。对于许多希望构建自己的基础模型的组织来说，这些可能是障碍。为了克服这一挑战，许多客户正在考虑微调现有的基础模型。这是一种流行的技术，可以针对特定应用调整一小部分模型参数，同时仍然保留模型中已编码的知识。它允许组织利用这些模型的强大功能，同时减少定制特定领域或任务所需的资源。

微调基础模型有两种主要方法：传统微调和参数高效微调。传统的微调涉及更新特定下游任务的预训练模型的所有参数。另一方面，参数高效的微调包括多种技术，允许在不更新所有原始模型参数的情况下定制模型。其中一种技术称为低秩适应 (LoRA)。它涉及向预先训练的模型添加小型的、特定于任务的模块并对其进行训练，同时保持其余参数固定，如下图所示。

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

Sumber: AWS 上的生成式 AI（O'Reilly，2023）

LoRA 最近变得流行有几个原因。它提供更快的训练、减少的内存需求以及为多个下游任务重用预训练模型的能力。更重要的是，基础模型和适配器可以单独存储并随时组合，从而更容易存储、分发和共享微调版本。然而，这带来了一个新的挑战：如何正确管理这些新型的微调模型。您应该将基本模型和适配器结合起来还是将它们分开？在这篇文章中，我们将介绍管理 LoRA 微调模型的最佳实践亚马逊SageMaker 来解决这个新出现的问题。

在 SageMaker 模型注册表上使用 FM

在这篇文章中，我们将介绍一个使用 QLoRA 方法微调 Llama2 大语言模型 (LLM) 的端到端示例。 QLoRA 将参数高效微调的优势与 4 位/8 位量化相结合，进一步减少针对特定任务或用例微调 FM 所需的资源。为此，我们将使用预训练的 7 亿参数 Llama2 模型，并在 databricks-dolly-15k 数据集上对其进行微调。像 Llama2 这样的法学硕士拥有数十亿个参数，并且在海量文本数据集上进行了预训练。微调使用较小的数据集使 LLM 适应下游任务。然而，微调大型模型的计算成本很高。这就是为什么我们将在微调期间使用 QLoRA 方法来量化权重，以减少计算成本。

在我们的示例中，您会发现两个笔记本（llm-finetune-combined-with-registry.ipynb 和 llm-finetune-separate-with-registry.ipynb）。每种方法都通过不同的方式来处理 LoRA 微调模型，如下图所示：

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

首先，我们使用 SageMaker Studio Notebooks 下载具有 2 亿个参数的预训练 Llama7 模型。 Llama2 等法学硕士在针对特定领域的数据进行微调时，在自然语言处理 (NLP) 任务上表现出了最先进的性能。
接下来，我们使用 QLoRA 方法在 databricks-dolly-2k 数据集上微调 Llama15。 QLoRA 通过量化模型权重来降低微调的计算成本。
在微调过程中，我们将 SageMaker Experiments Plus 与 Transformers API 集成，以自动记录梯度、损失等指标。
然后，我们使用两种方法在 SageMaker Model Registry 中对经过微调的 Llama2 模型进行版本控制：
1. 存储完整模型
2. 将适配器和基础型号分开存放。
最后，我们使用 Deep Java Library (DJL) Serving 在 SageMaker Real-time 端点上托管经过微调的 Llama2 模型。

在以下部分中，我们将深入探讨每个步骤，以演示 SageMaker 对于不同 LLM 工作流程的灵活性以及这些功能如何帮助改进模型的操作。

先决条件

完成以下先决条件即可开始试验代码。

创建一个 SageMaker Studio域：Amazon SageMaker Studio，特别是 Studio Notebooks，用于启动 Llama2 微调任务，然后注册并查看其中的模型 SageMaker模型注册表. SageMaker实验还用于查看和比较 Llama2 微调作业日志（训练损失/测试损失/等）。
创建 Amazon Simple Storage Service (S3) 存储桶: 需要访问 S3 存储桶来存储训练工件和模型权重。有关说明，请参阅创建一个桶。本文使用的示例代码将使用 SageMaker 默认 S3 存储桶，但您可以对其进行自定义以使用任何相关的 S3 存储桶。
设置模型集合（IAM 权限）：使用对资源组的权限更新您的 SageMaker 执行角色，如下所示模型注册表集合开发人员指南使用模型集合实现模型注册表分组。
接受 Llama2 的条款和条件：您需要接受最终用户许可协议和可接受的使用政策才能使用 Llama2 基础模型。

这些示例可在 GitHub存储库. 笔记本文件使用在 PyTorch 2.0.0 Python 3.10 GPU 优化内核和 ml.g4dn.xlarge 实例类型上运行的 Studio 笔记本进行测试。

实验加回调集成

Amazon SageMaker实验让您可以使用 SageMaker Python SDK 或 boto3 组织、跟踪、比较和评估来自任何集成开发环境 (IDE)（包括本地 Jupyter Notebook）的机器学习 (ML) 实验和模型版本。它可以灵活地记录模型指标、参数、文件、工件、根据不同指标绘制图表、捕获各种元数据、搜索它们并支持模型的可重复性。数据科学家可以通过可视化图表和表格快速比较模型评估的性能和超参数。他们还可以使用 SageMaker Experiments 下载创建的图表并与利益相关者共享模型评估。

培训法学硕士可能是一个缓慢、昂贵且反复的过程。对于用户来说，大规模跟踪 LLM 实验以防止不一致的模型调整体验非常重要。 HuggingFace 转换器 API 允许用户在训练任务期间跟踪指标回呼。回调是“只读”代码片段，可以自定义 PyTorch Trainer 中训练循环的行为，可以检查训练循环状态以获取进度报告，通过自定义逻辑（包含在 TensorBoard 或 SageMaker Experiments Plus 中）登录 TensorBoard 或 SageMaker Experiments Plus该代码库）。

您可以导入本文代码存储库中包含的 SageMaker Experiments 回调代码，如以下代码块所示：

# imports a custom implementation of Experiments Callback
from smexperiments_callback import SageMakerExperimentsCallback
...
...
# Create Trainer instance with SageMaker experiments callback
trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=validation_dataset, data_collator=default_data_collator, callbacks=[SageMakerExperimentsCallback] # Add our Experiments Plus Callback function
)

作为训练运行的一部分，此回调将自动将以下信息记录到 SageMaker Experiments 中：

训练参数和超参数
步骤、纪元和最终的模型训练和验证损失
模型输入和输出工件（训练数据集、验证数据集、模型输出位置、训练调试器等）

下图显示了您可以使用该信息显示的图表示例。

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

这使您可以使用 SageMaker Experiments 的分析功能轻松比较多次运行。您可以选择要比较的实验运行，它们将自动填充比较图表。

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

将微调模型注册到模型注册表集合

模型注册表集合是一个特点 SageMaker模型注册表它允许您对彼此相关的已注册模型进行分组，并将它们组织在层次结构中，以大规模提高模型的可发现性。我们将使用模型注册表集合来跟踪基本模型和微调变体。

完整模型复制方法

第一种方法将基础模型和 LoRA 适配器结合起来，并保存完整的微调模型。以下代码说明了模型合并过程并使用保存组合模型 model.save_pretrained().

if args.merge_weights: trainer.model.save_pretrained(temp_dir, safe_serialization=False) # clear memory del model del trainer torch.cuda.empty_cache() from peft import AutoPeftModelForCausalLM # load PEFT model in fp16 model = AutoPeftModelForCausalLM.from_pretrained( temp_dir, low_cpu_mem_usage=True, torch_dtype=torch.float16, ) # Merge LoRA and base model and save model = model.merge_and_unload() model.save_pretrained( args.sm_model_dir, safe_serialization=True, max_shard_size="2GB" )

微调后将 LoRA 适配器和基础模型组合成单个模型工件既有优点也有缺点。组合后的模型是独立的，可以独立管理和部署，不需要原始的基础模型。该模型可以作为其自己的实体进行跟踪，其版本名称反映了基本模型和微调数据。我们可以采用一个命名法，使用 base_model_name + 微调 dataset_name 组织模特小组。可选地，模型集合可以关联原始模型和微调模型，但这可能不是必需的，因为组合模型是独立的。以下代码片段向您展示了如何注册微调模型。

# Model Package Group Vars
ft_package_group_name = f"{model_id.replace('/', '--')}-{dataset_name}"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-{dataset_name}-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)

您可以使用训练估计器将模型注册到模型注册表中。

inference_image_uri = sagemaker.image_uris.retrieve( "djl-deepspeed", region=region, version="0.23.0"
)
print(f"Image going to be used is ---- > {inference_image_uri}") model_package = huggingface_estimator.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ...
...
... ], image_uri = inference_image_uri, customer_metadata_properties = {"training-image-uri": huggingface_estimator.training_image_uri()}, #Store the training image url model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) model_package_arn = model_package.model_package_arn
print("Model Package ARN : ", model_package_arn)

从模型注册表中，您可以检索模型包并直接部署该模型。

endpoint_name = f"{name_from_base(model_group_for_base)}-endpoint" model_package.deploy( initial_instance_count=1, instance_type="ml.g5.12xlarge", endpoint_name=endpoint_name
)

然而，这种方法也有缺点。组合模型会导致存储效率低下和冗余，因为基本模型在每个微调版本中都会重复。随着模型大小和微调模型数量的增加，存储需求呈指数级增长。以 llama2 7b 模型为例，基础模型约为 13 GB，微调模型为 13.6 GB。每次微调后，96% 的模型都需要复制。此外，分发和共享非常大的模型文件也变得更加困难，并带来了操作挑战，因为文件传输和管理成本随着模型大小和微调作业的增加而增加。

单独的适配器和基本方法

第二种方法侧重于分离基本权重和适配器权重，将它们保存为单独的模型组件并在运行时按顺序加载它们。

 .. .. .. else: # save finetuned LoRA model and then the tokenizer for inference trainer.model.save_pretrained( args.sm_model_dir, safe_serialization=True ) tokenizer.save_pretrained( args.sm_model_dir )

与完整模型复制方法类似，节省基础和适配器权重有优点也有缺点。优点之一是可以节省存储空间。基本权重是微调模型的最大组成部分，仅保存一次，并且可以与针对不同任务调整的其他适配器权重一起重复使用。例如，Llama2-7B 的基本权重约为 13 GB，但每个微调任务只需要存储约 0.6 GB 的适配器权重，节省了 95% 的空间。另一个优点是可以使用仅基本权重模型注册表将基本权重与适配器权重分开管理。这对于在仅 VPC 模式下运行且没有互联网网关的 SageMaker 域非常有用，因为无需通过互联网即可访问基本权重。

为基本权重创建模型包组

### Create Model Package Group
base_package_group_name = model_id.replace('/', '--')
base_package_group_desc = "Source: https://huggingface.co/Mikael110/llama-2-7b-guanaco-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : base_package_group_name, "ModelPackageGroupDescription" : base_package_group_desc, "Tags": base_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
) >>>
Created ModelPackageGroup Arn : arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16
...
...
... ### Register Base Model Weights
from sagemaker.huggingface import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data=model_data_uri, # this is an S3 path to your base weights as *.tar.gz role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=base_model_pkg_group_name, approval_status="Approved" )

为 QLoRA 权重创建模型包组

以下代码演示了如何使用数据集/任务类型标记 QLoRA 权重，并将微调的增量权重注册到单独的模型注册表中，并单独跟踪增量权重。

### Create Model Package Group for delta weights
ft_package_group_name = f"{model_id.replace('/', '--')}-finetuned-sql"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-guanaco-fp16"
ft_tags = [ { "Key": "modelType", "Value": "QLoRAModel" }, { "Key": "fineTuned", "Value": "True" }, { "Key": "sourceDataset", "Value": f"{dataset_name}" }
]
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)
print(f'Created ModelPackageGroup Arn : {create_model_pacakge_group_response["ModelPackageGroupArn"]}')
ft_model_pkg_group_name = create_model_pacakge_group_response["ModelPackageGroupArn"] >>> Created ModelPackageGroup Arn : arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql ...
...
... ### Register Delta Weights QLoRA Model Weights
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data="s3://sagemaker-us-east-1-811828458885/huggingface-qlora-2308180454/output/model.tar.gz", OR #huggingface_estimator.model_data role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

以下代码片段显示了模型注册表中的视图，其中模型分为基本权重和微调权重。

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

管理超个性化法学硕士的模型、数据集和任务很快就会变得不堪重负。 SageMaker 模型注册表集合可以帮助您将相关模型分组在一起并按层次结构组织它们，以提高模型的可发现性。这使得跟踪基本权重、适配器权重和微调任务数据集之间的关系变得更加容易。您还可以在模型之间创建复杂的关系和链接。

创建一个新集合并将您的基本模型权重添加到该集合中

# create model collection
base_collection = model_collector.create( collection_name=model_group_for_base # ex: "Website_Customer_QnA_Bot_Model"
) # Add the base weights at first level of model collections as all future models # are going to be tuned from the base weights
_response = model_collector.add_model_groups( collection_name=base_collection["Arn"], model_groups=[base_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16'], 'failure': []}

按任务和/或数据集将所有微调 LoRA 适配器增量权重链接到此集合

# create model collection for finetuned and link it back to the base
finetuned_collection = model_collector.create( collection_name=model_group_for_finetune, parent_collection_name=model_group_for_base
) # add finetuned model package group to the new finetuned collection
_response = model_collector.add_model_groups( collection_name=model_group_for_finetune, model_groups=[ft_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

这将产生一个集合层次结构，该集合层次结构通过模型/任务类型和用于微调基本模型的数据集链接。

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

这种分离基础模型和适配器模型的方法有一些缺点。一个缺点是部署模型的复杂性。由于有两个单独的模型工件，因此您需要额外的步骤来重新打包模型，而不是直接从模型注册表进行部署。在下面的代码示例中，首先下载并重新打包最新版本的基础模型。

!aws s3 cp {base_model_package.model_data} . !tar -xvf {model_tar_filename} -C ./deepspeed/ !mv ./deepspeed/{model_id} ./deepspeed/base !rm -rf ./deepspeed/{model_id}

然后下载并重新打包最新的微调 LoRA 适配器权重。

!aws s3 cp {LoRA_package.model_data} . !mkdir -p ./deepspeed/lora/ !tar -xzf model.tar.gz -C ./deepspeed/lora/

由于您将使用 DJL 服务和 deepspeed 来托管模型，因此您的推理目录应如下所示。

deepspeed |-serving.properties |-requirements.txt |-model.py |-base/ |-... |-lora/ |-...

最后，将自定义推理代码、基础模型和 LoRA 适配器打包到单个 .tar.gz 文件中进行部署。

!rm -f model.tar.gz
!tar czvf model.tar.gz -C deepspeed .
s3_code_artifact_deepspeed = sagemaker_session.upload_data("model.tar.gz", default_bucket, f"{s3_key_prefix}/inference")
print(f"S3 Code or Model tar for deepspeed uploaded to --- > {s3_code_artifact_deepspeed}")

清理

按照笔记本清理部分中的说明清理资源。参考 Amazon SageMaker定价有关推理实例成本的详细信息。

结论

本文向您介绍了在 Amazon SageMaker 上管理 LoRA 微调模型的最佳实践。我们介绍了两种主要方法：将底座和适配器重量组合成一个独立的模型，以及将底座和适配器重量分开。两种方法都有权衡，但分离权重有助于优化存储并支持 SageMaker 模型注册表集合等高级模型管理技术。这允许您在模型之间构建层次结构和关系，以改进组织和可发现性。我们鼓励您尝试示例代码 GitHub存储库亲自尝试这些方法。随着生成式人工智能的快速发展，遵循模型管理最佳实践将帮助您跟踪实验，找到适合您任务的模型，并大规模有效地管理专业法学硕士。

参考资料

关于作者

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。 詹姆斯吴 是 AWS 的高级 AI/ML 专家解决方案架构师。帮助客户设计和构建 AI/ML 解决方案。 James 的工作涵盖了广泛的 ML 用例，主要兴趣在于计算机视觉、深度学习和在整个企业中扩展 ML。在加入 AWS 之前，James 担任了 10 多年的架构师、开发人员和技术领导者，其中包括 6 年的工程经验和 4 年的营销和广告行业经验。

普拉纳夫·穆尔蒂 是 AWS 的 AI/ML 专家解决方案架构师。他专注于帮助客户构建、训练、部署机器学习 (ML) 工作负载并将其迁移到 SageMaker。他此前曾在半导体行业工作，开发大型计算机视觉 (CV) 和自然语言处理 (NLP) 模型以改进半导体工艺。空闲时间，他喜欢下棋和旅行。

使用 Llama2 和 Amazon SageMaker 对 LoRA 微调模型进行模型管理 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。 梅西特冈戈尔 是 AWS 的 AI/ML 专家解决方案架构师，帮助客户大规模设计和构建 AI/ML 解决方案。他涵盖了广泛的电信客户 AI/ML 用例，目前专注于生成 AI、LLM 以及训练和推理优化。经常可以看到他在荒野徒步旅行或在空闲时间与朋友一起玩棋盘游戏。

谢尔比本征桥 是 Amazon Web Services (AWS) 的首席 AI 和机器学习专家解决方案架构师。她从事技术工作 24 年，涉及多个行业、技术和角色。她目前专注于将她的 DevOps 和 ML 背景结合到 MLOps 领域，以帮助客户大规模交付和管理 ML 工作负载。她在各个技术领域拥有超过 35 项专利，对持续创新和使用数据推动业务成果充满热情。 Shelbee 是 Coursera 实用数据科学专业的共同创建者和讲师。她还是丹佛分会女性大数据 (WiBD) 的联合主任。在业余时间，她喜欢与家人、朋友和过度活跃的狗共度时光。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/model-management-for-lora-fine-tuned-models-using-llama2-and-amazon-sagemaker/

时间戳记： 2023 年 11 月 14 日

时间戳记： 2024 年 3 月 1 日

由柏拉图重新发布

使用 AWS Media Intelligence 和 Hugging Face BERT 构建基于分类的上下文定位

Sportradar 如何使用 Deep Java 库构建生产规模的 ML 平台以提高性能和效率

ByteDance 使用 AWS Inferentia 节省了高达 60% 的推理成本，同时减少了延迟并提高了吞吐量

Amazon Comprehend 自动化 PDF 预标记 | 亚马逊网络服务

通过人工审核和 BI 可视化自定义智能文档处理的业务规则

使用 Hugging Face 和 Amazon SageMaker 异步推理终端节点改进高价值研究

使用基于 C6i Intel 的 Amazon EC2 实例加速 Amazon SageMaker 推理

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

在 SageMaker 模型注册表上使用 FM

先决条件

实验加回调集成

将微调模型注册到模型注册表集合

完整模型复制方法

单独的适配器和基本方法

为基本权重创建模型包组

为 QLoRA 权重创建模型包组

创建一个新集合并将您的基本模型权重添加到该集合中

按任务和/或数据集将所有微调 LoRA 适配器增量权重链接到此集合

清理

结论

参考资料

关于作者

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理