Games24x7 が Amazon SageMaker を使用して再トレーニング MLOps パイプラインをどのように変革したか

プラトン再発行

フォロワー： 0

これは、Games24x7 の Hussain Jagirdar と共同執筆したゲストブログ投稿です。

ゲーム24x7 は、インドで最も価値のあるマルチゲームプラットフォームの 100 つであり、さまざまなスキルゲームで 360 億人を超えるゲーマーを楽しませています。「ゲームの科学」をコア哲学として、ゲーム AI、ゲームデータサイエンス、およびゲームユーザー研究の直交する研究方向を統合することにより、ゲームダイナミクス、ゲームプラットフォーム、およびプレーヤーに関するエンドツーエンドのインフォマティクスのビジョンを可能にしました。 AI とデータサイエンスのチームは、大量の多次元データを掘り下げ、AWS でプレイヤージャーニーの最適化、ゲームアクションの検出、ハイパーパーソナライゼーション、カスタマー XNUMX などのさまざまなユースケースを実行しています。

Games24x7 は、自動化されたデータ駆動型の AI を活用したフレームワークを採用して、プラットフォームでのやり取りを通じて各プレイヤーの行動を評価し、異常な行動をしているユーザーにフラグを立てます。彼らは深層学習モデルScarceGANを構築しました。これは、小さくて弱いラベルを持つ多次元縦断テレメトリーデータからの非常にまれなまたは希少なサンプルの識別に焦点を当てています. この作品は、 CIKM'21 とです。オープンソース任意の縦方向のテレメトリデータのまれなクラスの識別。モデルの製品化と採用の必要性は、プラットフォームで責任あるゲームプレイを可能にするためのバックボーンを作成するために最も重要でした。フラグが立てられたユーザーは、モデレーションとコントロールの別の旅に連れて行くことができます。

この投稿では、Games24x7 が責任あるゲームプラットフォームのトレーニングパイプラインをどのように改善したかを紹介します。アマゾンセージメーカー.

お客様の課題

Games24x7 の DS/AI チームは、SageMaker ノートブック、 AWSステップ関数, AWSラムダ, アマゾンEMR、さまざまなユースケースのパイプラインを構築するため。データ分布のドリフトを処理し、ScarceGAN モデルを再トレーニングするために、既存のシステムにはより優れた MLOps ソリューションが必要であることを発見しました。

Step Functions を介した前のパイプラインでは、単一のモノリスコードベースがデータの前処理、再トレーニング、および評価を実行しました。これは、トラブルシューティング、手順の追加または削除、さらにはインフラストラクチャ全体に小さな変更を加える際のボトルネックになりました。このステップ関数は、S3 からデータを抽出して処理するためにインスタンスのクラスターをインスタンス化し、前処理、トレーニング、評価のさらなるステップは、単一の大きな EC2 インスタンスで実行されます。パイプラインがいずれかのステップで失敗したシナリオでは、ワークフロー全体を最初からやり直す必要があり、その結果、実行が繰り返され、コストが増加しました。すべてのトレーニングおよび評価メトリクスは、Amazon Simple Storage Service (Amazon S3) から手動で検査されました。モデルで行われた複数の実験のメタデータを渡して保存するメカニズムはありませんでした。分散型のモデルモニタリング、徹底的な調査、最適なモデルの厳選には、データサイエンスチームの時間が必要でした。これらの努力が積み重なった結果、チームの生産性が低下し、オーバーヘッドが増加しました。さらに、急速に成長しているチームでは、この知識をチーム全体で共有することは非常に困難でした。

MLOps の概念は非常に広範であり、すべてのステップを実装するには時間がかかるため、最初の段階で次の主要な問題に対処することにしました。

業界のベストプラクティスを使用して社内のディープラーニングモデルを再トレーニングするための、安全で管理されたテンプレート化された環境
再トレーニングジョブごとに異なるパラメーターセットを送信し、最後の実行を監査するパラメーター化されたトレーニング環境
トレーニング指標と評価指標を視覚的に追跡し、実験を追跡および比較するためのメタデータを持つ機能
各ステップを個別にスケーリングし、ステップが失敗した場合に前のステップを再利用する機能
モデルを登録し、機能を保存し、推論パイプラインを呼び出すための単一の専用環境
さまざまなステップにさまざまなインスタンスを使用する柔軟性を組み込むことで、コンピューティング要件を最小限に抑え、コストを削減し、持続可能な ML の開発と運用を推進できる最新のツールセット
さまざまなデータサイエンスチームで使用できる最先端の MLOps パイプラインのベンチマークテンプレートを作成する

Games24x7 は、以下を含む他のソリューションの評価を開始しました。 Amazon SageMaker スタジオパイプライン. Step Functions による既存のソリューションには制限がありました。 Studio パイプラインには、いつでもステップを追加または削除できる柔軟性がありました。また、全体的なアーキテクチャと各ステップ間のデータの依存関係は、DAG を使用して視覚化できます。 Amazon SageMaker Studio、パイプライン、処理、トレーニング、モデルレジストリ、実験とトライアルなどのさまざまな Amazon SageMaker 機能を採用した後、再トレーニングステップの評価と微調整が非常に効率的になりました。 AWS ソリューションアーキテクチャチームは非常に深く掘り下げ、このソリューションの設計と実装に非常に役立ちました。

ソリューションの概要

次の図は、ソリューションのアーキテクチャを示しています。

このソリューションでは、 SageMaker スタジオ再トレーニング実験を実行する環境。パイプラインスクリプトを呼び出すコードは Studio ノートブックで利用でき、パイプラインを呼び出すときにハイパーパラメーターと入力/出力を変更できます。これは、すべてのパラメーターをスクリプト内にハードコーディングし、すべてのプロセスを密接にリンクしていた以前の方法とはまったく異なります。これには、モノリシックコードをさまざまなステップにモジュール化する必要がありました。

次の図は、元のモノリシックプロセスを示しています。

レガシー方式

モジュール化

各ステップを個別にスケーリング、追跡、および実行するには、モノリシックコードをモジュール化する必要がありました。各ステップ間のパラメーター、データ、およびコードの依存関係が削除され、ステップ間で共有されるコンポーネントの共有モジュールが作成されました。モジュール化の図を以下に示します。

モノモジュラーセージメーカー

すべての単一モジュールについて、SageMaker SDK を使用してローカルでテストが行われましたスクリプトモードトレーニング、処理、および評価のためマイナーチェンジが必要 SageMaker で実行するコードで。のローカルモードのテスト深層学習用スクリプトは、すでに使用されている場合は SageMaker ノートブックで、または使用して実行できます SageMaker Pipelines を使用したローカルモードパイプラインで直接開始する場合。これは、カスタムスクリプトが SageMaker インスタンスで実行されるかどうかを検証するのに役立ちます。

次に、SageMaker トレーニング/処理 SDK を使用して、各モジュールを個別にテストしました。スクリプトモード以下のトレーニングステップのように、各ステップで SageMaker インスタンスを手動で使用して、それらを順番に実行しました。

estimator = TensorFlow( entry_point="inference.py", source_dir="scripts_train/training/", instance_type="ml.c5.2xlarge", # Running on SageMaker ML instances instance_count=1, hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), # Passes to the container the AWS role that you are using on this notebook framework_version="2.11", py_version="py39",
) estimator.fit(inputs)
2022-09-28 11:10:34 Starting - Starting the training job...

Amazon S3 を使用してソースデータを処理し、次のステップのために中間データ、データフレーム、および NumPy の結果を Amazon S3 に保存しました。前処理、トレーニング、評価のための個々のモジュール間の統合テストが完了した後、 SageMaker Pipeline SDK のこれは、上記のステップで既に使用した SageMaker Python SDK と統合されており、各ステップの入力パラメータ、データ、メタデータ、および出力を次のステップへの入力として渡すことで、これらすべてのモジュールをプログラムで連鎖させることができました。

以前の Sagemaker Python SDK コードを再利用して、モジュールを個別に実行し、Sagemaker Pipeline SDK ベースの実行にすることができました。パイプラインの各ステップ間の関係は、ステップ間のデータの依存関係によって決まります。

パイプラインの最終ステップは次のとおりです。

データ前処理
再訓練
評価
モデル登録

dag-パイプライン

以下のセクションでは、SageMaker Pipeline SDK で実行する場合の各ステップについて詳しく説明します。

データ前処理

このステップでは、生の入力データを変換し、トレーニング、検証、およびテストセットに前処理して分割します。この処理ステップでは、SageMaker 処理ジョブをインスタンス化しました TensorFlow フレームワークプロセッサこのスクリプトは、Amazon S3 からデータをコピーし、SageMaker によって提供および管理されている Docker イメージをプルします。この Docker コンテナにより、すべての TensorFlow ライブラリが既に含まれている状態で、requirements.txt ファイルでライブラリの依存関係を渡すことができ、スクリプトの source_dir のパスを渡すことができました。トレーニングデータと検証データはトレーニングステップに送られ、テストデータは評価ステップに転送されます。このコンテナを使用する最良の部分は、さまざまな入力と出力を異なる S3 ロケーションとして渡すことができることでした。これは、SageMaker パイプラインの次のステップへのステップの依存関係として渡すことができます。

#Initialize the TensorFlowProcessor
tp = TensorFlowProcessor( framework_version='2.11', role=get_execution_role(), instance_type='ml.m5.xlarge', instance_count=1, base_job_name='frameworkprocessor-TF', py_version='py39', sagemaker_session=pipeline_session, )
from sagemaker.processing import ProcessingInput, ProcessingOutput
from sagemaker.workflow.steps import ProcessingStep
processor_args = tp.run( code='new_data_collection_kfold.py', source_dir='scripts_processing', inputs=[ ProcessingInput(input_name='data_unlabeled',source=data_unlabeled, destination="/opt/ml/processing/data_unlabeled"), ProcessingInput(input_name='data_risky',source=data_risky, destination= "/opt/ml/processing/data_risky"), ProcessingInput(input_name='data_dormant',source=data_dormant, destination= "/opt/ml/processing/data_dormant"), ProcessingInput(input_name='data_normal',source=data_normal, destination= "/opt/ml/processing/data_normal"), ProcessingInput(input_name='data_heavy',source=data_heavy, destination= "/opt/ml/processing/data_heavy") ], outputs=[ ProcessingOutput(output_name="train_output_data", source="/opt/ml/processing/train/data", destination=f's3://{BUCKET}/{op_train_path}/data'), ProcessingOutput(output_name="train_output_label", source="/opt/ml/processing/train/label", destination=f's3://{BUCKET}/{op_train_path}/label'), ProcessingOutput(output_name="train_kfold_output_data", source="/opt/ml/processing/train/kfold/data", destination=f's3://{BUCKET}/{op_train_path}/kfold/data'), ProcessingOutput(output_name="train_kfold_output_label", source="/opt/ml/processing/train/kfold/label", destination=f's3://{BUCKET}/{op_train_path}/kfold/label'), ProcessingOutput(output_name="val_output_data", source="/opt/ml/processing/val/data", destination=f's3://{BUCKET}/{op_val_path}/data'), ProcessingOutput(output_name="val_output_label", source="/opt/ml/processing/val/label", destination=f's3://{BUCKET}/{op_val_path}/label'), ProcessingOutput(output_name="val_output_kfold_data", source="/opt/ml/processing/val/kfold/data", destination=f's3://{BUCKET}/{op_val_path}/kfold/data'), ProcessingOutput(output_name="val_output_kfold_label", source="/opt/ml/processing/val/kfold/label", destination=f's3://{BUCKET}/{op_val_path}/kfold/label'), ProcessingOutput(output_name="train_unlabeled_kfold_data", source="/opt/ml/processing/train/unlabeled/kfold/", destination=f's3://{BUCKET}/{op_train_path}/unlabeled/kfold/'), ProcessingOutput(output_name="test_output", source="/opt/ml/processing/test", destination=f's3://{BUCKET}/{op_test_path}') ], arguments=["--scaler_path", op_scaler_path, "--bucket", BUCKET],
)

再訓練

トレーニングモジュールを SageMakerパイプライン TrainingStep API と、TensorFlow Framework エスティメーター (スクリプトモードとも呼ばれます) を介して、既に利用可能なディープラーニングコンテナーイメージを使用して、 SageMakerトレーニング. スクリプトモードでは、トレーニングコードに最小限の変更を加えることができ、SageMaker のビルド済み Docker コンテナは Python やフレームワークのバージョンなどを処理します。からの ProcessingOutputs Data_Preprocessing ステップは、このステップの TrainingInput として転送されます。

from sagemaker.inputs import TrainingInput inputs={ "train_output_data": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_data"].S3Output.S3Uri, content_type="text/csv", ), "train_output_label": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_label"].S3Output.S3Uri, content_type="text/csv", )

すべてのハイパーパラメーターは、JSON ファイルを介してエスティメーターに渡されました。トレーニングのすべてのエポックで、スクリプトの stdOut を介して既にトレーニングメトリックを送信していました。進行中のトレーニングジョブのメトリックを追跡し、以前のトレーニングジョブと比較したかったため、すべてのエポックの StdOut からメトリックを取得するために、正規表現を使用してメトリック定義を定義することにより、この StdOut を解析する必要がありました。

tensorflow_version = "2.11"
training_py_version = "py39"
training_instance_count = 1
training_instance_type = "ml.c5.2xlarge"
tf2_estimator = TensorFlow(
source_dir='scripts_train/training/',
entry_point='train.py',
instance_type=training_instance_type,
instance_count=training_instance_count,
framework_version=tensorflow_version,
hyperparameters=hyperparameters,
image_uri = "763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-training:2.11.0-cpu-py39-ubuntu20.04-sagemaker",
role=role,
base_job_name="Training-Marco-model",
py_version=training_py_version,
metric_definitions=[ {'Name': 'iteration', 'Regex': 'Iteration=(.*?);'},
{'Name': 'Discriminator_Supervised_Loss=', 'Regex': 'Discriminator_Supervised_Loss=(.*?);'},
{'Name': 'Discriminator_UnSupervised_Loss', 'Regex': 'Discriminator_UnSupervised_Loss=(.*?);'},
{'Name': 'Generator_Loss', 'Regex': 'Generator_Loss=(.*?);'},
{'Name': 'Accuracy_Supervised', 'Regex': 'Accuracy_Supervised=(.*?);'} ]
)

SageMaker Pipelines が自動的に SageMaker Experiments API と統合デフォルトでは、実行ごとに実験、トライアル、およびトライアルコンポーネントが作成されます。これにより、以下に示すように、精度や精度などのトレーニングメトリックを複数の実行で比較できます。

実験 API 表示

トレーニングジョブを実行するたびに、カスタムビジネス定義に基づいて、Amazon S3 に対して XNUMX つの異なるモデルを生成します。

評価

このステップでは、トレーニング済みのモデルを Amazon S3 からロードし、カスタムメトリクスで評価します。この ProcessingStep は、モデルとテストデータを入力として受け取り、Amazon S3 でのモデルパフォーマンスのレポートをダンプします。

カスタムメトリクスを使用しているため、これらのカスタムメトリクスをモデルレジストリに登録するには、Amazon S3 に CSV として保存されている評価メトリクスのスキーマを SageMaker モデルの品質 JSON 出力。次に、この評価 JSON メトリックの場所をモデルレジストリに登録できます。

次のスクリーンショットは、CSV を Sagemaker Model 品質の JSON 形式に変換する方法の例を示しています。

csv-メトリクス

評価指標スキーマ

モデル登録

前述のように、XNUMX つのトレーニングステップで複数のモデルを作成していたため、SageMaker Pipelines Lambda 統合を使用して XNUMX つのモデルすべてをモデルレジストリに登録する必要がありました。単一のモデル登録には、モデルステップレジストリに SageMaker モデルを作成するための API。モデルごとに、Lambda 関数はモデルアーティファクトと評価メトリクスを Amazon S3 から取得し、特定の ARN へのモデルパッケージを作成して、XNUMX つのモデルすべてを単一のモデルレジストリに登録できるようにします。 SageMaker Python API また、最適なモデルを選択するために渡したいカスタムメタデータを送信することもできました。これは、単一のウィンドウからすべてのモデルを比較および監査できるようになったため、生産性の主要なマイルストーンであることが証明されました。モデルを互いに一意に区別するためのメタデータを提供しました。これは、ピアレビューとモデルメトリクスに基づく管理レビューの助けを借りて、単一のモデルを承認するのにも役立ちました。

def register_model_version(model_url, model_package_group_name, model_metrics_path, key, run_id): modelpackage_inference_specification = { "InferenceSpecification": { "Containers": [ { "Image": '763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-inference:2.11.0-cpu-py39-ubuntu20.04-sagemaker', "ModelDataUrl": model_url } ], "SupportedContentTypes": [ "text/csv" ], "SupportedResponseMIMETypes": [ "text/csv" ], } } ModelMetrics={ 'ModelQuality': { 'Statistics': { 'ContentType': 'application/json', 'S3Uri': model_metrics_path }, } } create_model_package_input_dict = { "ModelPackageGroupName" : model_package_group_name, "ModelPackageDescription" : key+" run_id:"+run_id, # additional metadata example "ModelApprovalStatus" : "PendingManualApproval", "ModelMetrics" : ModelMetrics } create_model_package_input_dict.update(modelpackage_inference_specification) create_model_package_response = sm_client.create_model_package(**create_model_package_input_dict) model_package_arn = create_model_package_response["ModelPackageArn"] return model_package_arn

上記のコードブロックは、モデルパッケージの入力を通じて、モデルメトリックと共にモデルレジストリにメタデータを追加する方法の例を示しています。

以下のスクリーンショットは、異なるモデルバージョンが登録されると、それらのメトリックを簡単に比較できることを示しています。

モデル登録比較

パイプライン呼び出し

パイプラインは次の方法で呼び出すことができますイベントブリッジ、Sagemaker Studio、または SDK 自体。呼び出しは、ステップ間のデータ依存関係に基づいてジョブを実行します。

from sagemaker.workflow.pipeline import Pipeline pipeline = Pipeline( name=pipeline_name, steps=[Preprocess-Kfold,Training-Marco,Evaluate-Marco,ScarceGAN-Model-register]
) definition = json.loads(pipeline.definition())
pipeline.upsert(role_arn=role)
execution = pipeline.start()
execution.wait()

まとめ

この投稿では、Games24x7 が SageMaker パイプラインを介して MLOps アセットをどのように変換したかを示しました。パラメータ化された環境を使用してトレーニング指標と評価指標を視覚的に追跡し、適切な処理プラットフォームと中央モデルレジストリを使用してステップを個別にスケーリングする機能は、監査可能、再利用可能、効率的、説明可能なワークフローを標準化し、前進させる上での主要なマイルストーンであることが証明されました。 . このプロジェクトは、さまざまなデータサイエンスチームの青写真であり、メンバーが運用、管理、およびベストプラクティスとのコラボレーションを可能にすることで、全体的な生産性を向上させました。

同様のユースケースがあり、開始したい場合は、SageMaker を使用することをお勧めしますスクリプトモードと SageMaker エンドツーエンドの例 Sagemaker Studio を使用します。これらの例には、このブログで取り上げた技術的な詳細が含まれています。

最新のデータ戦略は、データの管理、アクセス、分析、および行動のための包括的な計画を提供します。 AWS は、すべてのワークロード、すべてのタイプのデータ、およびすべての望ましいビジネス成果について、エンドツーエンドのデータジャーニー全体に対して最も完全なサービスセットを提供します。これにより、AWS はデータから価値を引き出して洞察に変えるのに最適な場所になります。

著者について

フセイン・ジャギルダー Games24x7 の上級科学者 – 応用研究。彼は現在、説明可能な AI とディープラーニングの分野の研究に取り組んでいます。彼の最近の仕事には、深い生成モデリング、時系列モデリング、および関連する機械学習と AI のサブエリアが含まれています。また、スケーラビリティ、信頼性、感度などの制約を必要とする MLOps と標準化プロジェクトにも情熱を注いでいます。

スミル・クマール AWS のソリューションアーキテクトであり、テクノロジー業界で 13 年以上の経験があります。 AWS では、AWS の主要な顧客と緊密に連携して、複雑なビジネス上の問題を解決するクラウドベースのソリューションを設計および実装しています。彼はデータ分析と機械学習に非常に情熱を傾けており、AWS クラウドを使用して組織がデータの可能性を最大限に引き出すのを支援してきた実績があります。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/how-games24x7-transformed-their-retraining-mlops-pipelines-with-amazon-sagemaker/

タイムスタンプ： 2023 年 4 月 12 日

タイムスタンプ： 2022 年 3 月 1 日

プラトン再発行

Amazon Titan テキスト埋め込みの開始 |アマゾンウェブサービス

バーコードレジストリがオブジェクト検出とAmazonSageMakerを使用して偽造品を検出する方法

Amazon Forecast と Amazon SageMaker カスタムモデルを使用した Bosch の大規模な収益予測

AWS Low Code-No Code サービスで投資プロセスを加速

AWS で MosaicML Composer を使用して深層学習トレーニングの時間とコストを削減

Amazon SageMaker を使用して電子メールスパム検出器を構築する | アマゾンウェブサービス

AWS IoT GreengrassV2を使用したAmazonSageMaker EdgeManagerによる異常検出

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー