Games24x7 如何利用 Amazon SageMaker 转变其再训练 MLOps 管道

由柏拉图重新发布

关注： 0

这是一篇与 Games24x7 的 Hussain Jagirdar 共同撰写的客座博文。

游戏24x7 是印度最有价值的多游戏平台之一，通过各种技能游戏为超过 100 亿游戏玩家提供娱乐。他们以“游戏科学”为核心理念，通过整合游戏人工智能、游戏数据科学和游戏用户研究的正交研究方向，实现了围绕游戏动态、游戏平台和玩家的端到端信息学愿景。 AI 和数据科学团队深入研究大量多维数据，并在 AWS 上运行各种用例，例如玩家旅程优化、游戏动作检测、超个性化、客户 360 度等。

Games24x7 采用自动化、数据驱动、人工智能驱动的框架，通过平台上的交互来评估每个玩家的行为，并标记有异常行为的用户。他们建立了一个深度学习模型 ScarceGAN，该模型专注于从带有小标签和弱标签的多维纵向遥测数据中识别极其稀有或稀缺的样本。该作品发表于 CIKM'21 提供美容纤体，开放源码用于任何纵向遥测数据的稀有类识别。生产和采用该模型的需求对于在其平台上创建负责任的游戏背后的支柱至关重要，在该平台上，标记的用户可以通过不同的节制和控制之旅。

在这篇文章中，我们分享了 Games24x7 如何使用改进其负责任的游戏平台的培训管道亚马逊SageMaker.

客户挑战

Games24x7 的 DS/AI 团队使用了 AWS 提供的多种服务，包括 SageMaker 笔记本、 AWS步骤功能, AWS Lambda及亚马逊电子病历，用于为各种用例构建管道。为了处理数据分布的漂移，并因此重新训练他们的 ScarceGAN 模型，他们发现现有系统需要更好的 MLOps 解决方案。

在之前通过 Step Functions 的管道中，单个单体代码库运行数据预处理、再训练和评估。这成为故障排除、添加或删除步骤，甚至是对整体基础架构进行一些小改动的瓶颈。这个 step-function 实例化了一个实例集群，以从 S3 中提取和处理数据，而预处理、训练和评估的进一步步骤将在单个大型 EC2 实例上运行。在管道任何一步失败的情况下，整个工作流都需要从头开始重新启动，这会导致重复运行并增加成本。所有训练和评估指标都是从 Amazon Simple Storage Service (Amazon S3) 手动检查的。没有机制来传递和存储在模型上完成的多个实验的元数据。由于分散的模型监控，彻底调查和挑选最佳模型需要数据科学团队花费数小时。所有这些努力的累积导致了团队生产力的降低和管理费用的增加。此外，对于一个快速成长的团队，在整个团队中分享这些知识非常具有挑战性。

由于 MLOps 概念非常广泛，实施所有步骤需要时间，因此我们决定在第一阶段解决以下核心问题：

一个安全、受控和模板化的环境，用于使用行业最佳实践重新训练我们的内部深度学习模型
一个参数化的训练环境，用于为每个再训练作业发送一组不同的参数并审核最后一次运行
能够直观地跟踪训练指标和评估指标，并具有元数据来跟踪和比较实验
能够单独扩展每个步骤并在步骤失败的情况下重用之前的步骤
用于注册模型、存储功能和调用推理管道的单一专用环境
一个现代工具集，可以通过结合针对不同步骤使用不同实例的灵活性，最大限度地减少计算要求、降低成本并推动可持续的 ML 开发和操作
创建可用于各种数据科学团队的最先进 MLOps 管道基准模板

Games24x7 开始评估其他解决方案，包括 Amazon SageMaker Studio 管道. 通过 Step Functions 的现有解决方案存在局限性。 Studio 管道可以灵活地在任何时间点添加或删除步骤。此外，可以通过 DAG 可视化整体架构及其每个步骤之间的数据依赖关系。在我们采用不同的 Amazon SageMaker 功能（例如 Amazon SageMaker Studio、Pipelines、Processing、Training、模型注册以及实验和试验）之后，重新训练步骤的评估和微调变得非常有效。 AWS 解决方案架构团队展示了深入的研究，并在该解决方案的设计和实施中发挥了重要作用。

解决方案概述

下图说明了解决方案体系结构。

该解决方案使用 SageMaker 工作室运行再训练实验的环境。 Studio 笔记本中提供了调用管道脚本的代码，我们可以在调用管道时更改超参数和输入/输出。这与我们之前的方法截然不同，在之前的方法中，我们将所有参数硬编码在脚本中，并且所有过程都密不可分。这需要将整体代码模块化为不同的步骤。

下图说明了我们最初的整体流程。

遗留方法

模块化

为了单独扩展、跟踪和运行每个步骤，需要对单体代码进行模块化。删除了每个步骤之间的参数、数据和代码依赖性，并为跨步骤的共享组件创建了共享模块。模块化的图示如下所示：-

单模块贤者

对于每个模块，测试都是使用 SageMaker SDK 在本地完成的脚本模式用于培训、处理和评估需要微小的改变在与 SageMaker 一起运行的代码中。这本地模式测试用于深度学习的脚本可以在 SageMaker 笔记本上完成（如果已经使用）或使用使用 SageMaker 管道的本地模式如果直接从 Pipelines 开始。这有助于验证我们的自定义脚本是否会在 SageMaker 实例上运行。

然后使用 SageMaker 训练/处理 SDK 对每个模块进行隔离测试脚本模式并针对每个步骤使用 SageMaker 实例手动按顺序运行它们，如下面的训练步骤：

estimator = TensorFlow( entry_point="inference.py", source_dir="scripts_train/training/", instance_type="ml.c5.2xlarge", # Running on SageMaker ML instances instance_count=1, hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), # Passes to the container the AWS role that you are using on this notebook framework_version="2.11", py_version="py39",
) estimator.fit(inputs)
2022-09-28 11:10:34 Starting - Starting the training job...

Amazon S3 用于获取要处理的源数据，然后将中间数据、数据帧和 NumPy 结果存储回 Amazon S3 以供下一步使用。在预处理、训练、评估等各个模块之间的集成测试完成后， SageMaker 管道 SDK 它与我们已经在上述步骤中使用的 SageMaker Python SDK 集成，允许我们通过将每个步骤的输入参数、数据、元数据和输出作为输入传递到后续步骤，以编程方式链接所有这些模块。

我们可以重新使用以前的 Sagemaker Python SDK 代码将模块单独运行到基于 Sagemaker Pipeline SDK 的运行中。流水线的各个步骤之间的关系由步骤之间的数据依赖关系决定。

流水线的最终步骤如下：

数据预处理
再培训
评价
模型注册

dag-管道

在以下部分中，我们将更详细地讨论使用 SageMaker Pipeline SDK 运行时的每个步骤。

数据预处理

此步骤转换原始输入数据并预处理和拆分为训练集、验证集和测试集。对于此处理步骤，我们实例化了一个 SageMaker 处理作业 TensorFlow 框架处理器，它获取我们的脚本，从 Amazon S3 复制数据，然后拉取由 SageMaker 提供和维护的 Docker 映像。这个 Docker 容器允许我们在 requirements.txt 文件中传递我们的库依赖项，同时包含所有 TensorFlow 库，并传递脚本的 source_dir 路径。训练和验证数据进入训练步骤，测试数据被转发到评估步骤。使用此容器的最佳部分是它允许我们将各种输入和输出作为不同的 S3 位置传递，然后可以将其作为步骤依赖项传递到 SageMaker 管道中的后续步骤。

#Initialize the TensorFlowProcessor
tp = TensorFlowProcessor( framework_version='2.11', role=get_execution_role(), instance_type='ml.m5.xlarge', instance_count=1, base_job_name='frameworkprocessor-TF', py_version='py39', sagemaker_session=pipeline_session, )
from sagemaker.processing import ProcessingInput, ProcessingOutput
from sagemaker.workflow.steps import ProcessingStep
processor_args = tp.run( code='new_data_collection_kfold.py', source_dir='scripts_processing', inputs=[ ProcessingInput(input_name='data_unlabeled',source=data_unlabeled, destination="/opt/ml/processing/data_unlabeled"), ProcessingInput(input_name='data_risky',source=data_risky, destination= "/opt/ml/processing/data_risky"), ProcessingInput(input_name='data_dormant',source=data_dormant, destination= "/opt/ml/processing/data_dormant"), ProcessingInput(input_name='data_normal',source=data_normal, destination= "/opt/ml/processing/data_normal"), ProcessingInput(input_name='data_heavy',source=data_heavy, destination= "/opt/ml/processing/data_heavy") ], outputs=[ ProcessingOutput(output_name="train_output_data", source="/opt/ml/processing/train/data", destination=f's3://{BUCKET}/{op_train_path}/data'), ProcessingOutput(output_name="train_output_label", source="/opt/ml/processing/train/label", destination=f's3://{BUCKET}/{op_train_path}/label'), ProcessingOutput(output_name="train_kfold_output_data", source="/opt/ml/processing/train/kfold/data", destination=f's3://{BUCKET}/{op_train_path}/kfold/data'), ProcessingOutput(output_name="train_kfold_output_label", source="/opt/ml/processing/train/kfold/label", destination=f's3://{BUCKET}/{op_train_path}/kfold/label'), ProcessingOutput(output_name="val_output_data", source="/opt/ml/processing/val/data", destination=f's3://{BUCKET}/{op_val_path}/data'), ProcessingOutput(output_name="val_output_label", source="/opt/ml/processing/val/label", destination=f's3://{BUCKET}/{op_val_path}/label'), ProcessingOutput(output_name="val_output_kfold_data", source="/opt/ml/processing/val/kfold/data", destination=f's3://{BUCKET}/{op_val_path}/kfold/data'), ProcessingOutput(output_name="val_output_kfold_label", source="/opt/ml/processing/val/kfold/label", destination=f's3://{BUCKET}/{op_val_path}/kfold/label'), ProcessingOutput(output_name="train_unlabeled_kfold_data", source="/opt/ml/processing/train/unlabeled/kfold/", destination=f's3://{BUCKET}/{op_train_path}/unlabeled/kfold/'), ProcessingOutput(output_name="test_output", source="/opt/ml/processing/test", destination=f's3://{BUCKET}/{op_test_path}') ], arguments=["--scaler_path", op_scaler_path, "--bucket", BUCKET],
)

再培训

我们通过 SageMaker管道 TrainingStep API 并通过 TensorFlow Framework 估计器（也称为脚本模式）使用已经可用的深度学习容器图像 SageMaker 培训. 脚本模式允许我们对训练代码进行最少的更改，SageMaker 预构建的 Docker 容器处理 Python、框架版本等。处理输出来自 Data_Preprocessing 步骤被转发为该步骤的TrainingInput。

from sagemaker.inputs import TrainingInput inputs={ "train_output_data": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_data"].S3Output.S3Uri, content_type="text/csv", ), "train_output_label": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_label"].S3Output.S3Uri, content_type="text/csv", )

所有超参数都通过 JSON 文件传递给估算器。对于我们训练中的每个时期，我们已经通过脚本中的 stdOut 发送了我们的训练指标。因为我们想跟踪正在进行的训练作业的指标并将它们与之前的训练作业进行比较，所以我们只需要通过正则表达式定义指标定义来解析这个 StdOut，以从每个时期的 StdOut 中获取指标。

tensorflow_version = "2.11"
training_py_version = "py39"
training_instance_count = 1
training_instance_type = "ml.c5.2xlarge"
tf2_estimator = TensorFlow(
source_dir='scripts_train/training/',
entry_point='train.py',
instance_type=training_instance_type,
instance_count=training_instance_count,
framework_version=tensorflow_version,
hyperparameters=hyperparameters,
image_uri = "763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-training:2.11.0-cpu-py39-ubuntu20.04-sagemaker",
role=role,
base_job_name="Training-Marco-model",
py_version=training_py_version,
metric_definitions=[ {'Name': 'iteration', 'Regex': 'Iteration=(.*?);'},
{'Name': 'Discriminator_Supervised_Loss=', 'Regex': 'Discriminator_Supervised_Loss=(.*?);'},
{'Name': 'Discriminator_UnSupervised_Loss', 'Regex': 'Discriminator_UnSupervised_Loss=(.*?);'},
{'Name': 'Generator_Loss', 'Regex': 'Generator_Loss=(.*?);'},
{'Name': 'Accuracy_Supervised', 'Regex': 'Accuracy_Supervised=(.*?);'} ]
)

了解 SageMaker Pipelines 自动与 SageMaker Experiments API 集成，它默认为每次运行创建一个实验、试验和试验组件。这使我们能够比较多次运行中的准确度和精确度等训练指标，如下所示。

实验-api-显示

对于每个训练作业运行，我们根据自定义业务定义为 Amazon S3 生成四种不同的模型。

评价

此步骤从 Amazon S3 加载经过训练的模型并根据我们的自定义指标进行评估。此 ProcessingStep 将模型和测试数据作为其输入，并将模型性能报告转储到 Amazon S3 上。

我们正在使用自定义指标，因此为了将这些自定义指标注册到模型注册表中，我们需要将存储在 Amazon S3 中的评估指标的模式转换为 CSV 格式 SageMaker 模型质量 JSON 输出。然后我们可以将此评估 JSON 指标的位置注册到模型注册表。

以下屏幕截图显示了我们如何将 CSV 转换为 Sagemaker 模型质量 JSON 格式的示例。

csv-指标

评估指标模式

模型注册

如前所述，我们在单个训练步骤中创建多个模型，因此我们必须使用 SageMaker Pipelines Lambda 集成将所有四个模型注册到模型注册表中。对于单个模型注册，我们可以使用模型步骤用于在注册表中创建 SageMaker 模型的 API。对于每个模型，Lambda 函数从 Amazon S3 检索模型工件和评估指标，并为特定 ARN 创建模型包，以便所有四个模型都可以注册到一个模型注册表中。 SageMaker Python API 还允许我们发送我们想要传递的自定义元数据以选择最佳模型。这被证明是生产力的一个重要里程碑，因为现在可以从一个窗口比较和审核所有模型。我们提供了元数据来唯一区分模型。这也有助于在基于模型指标的同行评审和管理评审的帮助下批准单一模型。

def register_model_version(model_url, model_package_group_name, model_metrics_path, key, run_id): modelpackage_inference_specification = { "InferenceSpecification": { "Containers": [ { "Image": '763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-inference:2.11.0-cpu-py39-ubuntu20.04-sagemaker', "ModelDataUrl": model_url } ], "SupportedContentTypes": [ "text/csv" ], "SupportedResponseMIMETypes": [ "text/csv" ], } } ModelMetrics={ 'ModelQuality': { 'Statistics': { 'ContentType': 'application/json', 'S3Uri': model_metrics_path }, } } create_model_package_input_dict = { "ModelPackageGroupName" : model_package_group_name, "ModelPackageDescription" : key+" run_id:"+run_id, # additional metadata example "ModelApprovalStatus" : "PendingManualApproval", "ModelMetrics" : ModelMetrics } create_model_package_input_dict.update(modelpackage_inference_specification) create_model_package_response = sm_client.create_model_package(**create_model_package_input_dict) model_package_arn = create_model_package_response["ModelPackageArn"] return model_package_arn

上面的代码块显示了我们如何通过模型包输入将元数据与模型指标一起添加到模型注册表中的示例。

下面的屏幕截图显示了我们可以轻松地比较注册后不同模型版本的指标。

模型注册比较

管道调用

管道可以通过调用事件桥、Sagemaker Studio 或软件开发套件（SDK）本身。调用根据步骤之间的数据依赖关系运行作业。

from sagemaker.workflow.pipeline import Pipeline pipeline = Pipeline( name=pipeline_name, steps=[Preprocess-Kfold,Training-Marco,Evaluate-Marco,ScarceGAN-Model-register]
) definition = json.loads(pipeline.definition())
pipeline.upsert(role_arn=role)
execution = pipeline.start()
execution.wait()

结论

在本文中，我们展示了 Games24x7 如何通过 SageMaker 管道转换他们的 MLOps 资产。通过参数化环境直观地跟踪训练指标和评估指标，使用正确的处理平台和中央模型注册表单独扩展步骤的能力被证明是标准化和推进到可审计、可重用、高效和可解释的工作流程的一个重要里程碑. 该项目是跨不同数据科学团队的蓝图，通过允许成员使用最佳实践进行操作、管理和协作，提高了整体生产力。

如果您有类似的用例并想开始，那么我们建议您使用 SageMaker 脚本模式和 SageMaker 端到端示例使用 Sagemaker Studio。这些示例包含本博客中介绍的技术细节。

现代数据策略为您提供管理、访问、分析和处理数据的综合计划。 AWS 为所有工作负载、所有类型的数据和所有期望的业务成果的整个端到端数据旅程提供最完整的服务集。反过来，这使 AWS 成为从您的数据中释放价值并将其转化为洞察力的最佳场所。

作者简介

侯赛因贾吉尔达 是 Games24x7 的应用研究高级科学家。他目前参与可解释人工智能和深度学习领域的研究工作。他最近的工作涉及深度生成建模、时间序列建模以及机器学习和人工智能的相关子领域。他还对 MLOps 和标准化项目充满热情，这些项目需要可扩展性、可靠性和敏感性等约束。

苏米尔·库马尔 是 AWS 的解决方案架构师，在技术行业拥有超过 13 年的经验。在 AWS，他与 AWS 的主要客户密切合作，设计和实施基于云的解决方案来解决复杂的业务问题。他对数据分析和机器学习充满热情，并且在帮助组织使用 AWS 云释放其数据的全部潜力方面拥有良好的记录。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
与 Adryenn Ashley 一起铸造未来。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/how-games24x7-transformed-their-retraining-mlops-pipelines-with-amazon-sagemaker/

时间戳记： 2023 年 4 月 12 日

时间戳记： 2023 年 2 月 14 日

由柏拉图重新发布

Amazon SageMaker 内置 LightGBM 现在使用 Dask 提供分布式训练

将 ServiceNow 与 Amazon Lex 聊天机器人集成以进行工单处理

新技术深度学习课程：AWS 上的生成式 AI 基础 | 亚马逊网络服务

使用 Fiddler 为您的 Amazon SageMaker 模型实现企业级监控

通过 AWS 机器学习工程师奖学金，利用 ML 技能加速您的职业生涯

衡量 Amazon Personalize 推荐的业务影响

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理