Amazon SageMaker マルチモデルエンドポイントを使用して、計画外の急増したトラフィックに対して ML 推論を実行する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

アマゾンセージメーカーマルチモデルエンドポイント (MME) これは、SageMaker 推論のフルマネージド機能であり、単一のエンドポイントに数千のモデルをデプロイできるようになります。以前は、MME は、モデルのトラフィック負荷に関係なく、モデルに CPU コンピューティング能力を事前に決定して静的に割り当てていました。マルチモデルサーバー (MMS) そのモデルサーバーとして。この投稿では、MME がモデルのトラフィックパターンに基づいて各モデルに割り当てられた計算能力を動的に調整できるソリューションについて説明します。このソリューションにより、MME の基盤となるコンピューティングをより効率的に使用し、コストを節約できます。

MME は、エンドポイントへの受信トラフィックに基づいてモデルを動的にロードおよびアンロードします。 MMS をモデルサーバーとして利用する場合、MME はモデルごとに固定数のモデルワーカーを割り当てます。詳細については、以下を参照してください。 Amazon SageMaker のモデルホスティングパターン、パート 3: Amazon SageMaker マルチモデルエンドポイントを使用してマルチモデル推論を実行および最適化する.

ただし、トラフィックパターンが変化する場合、これによりいくつかの問題が発生する可能性があります。大量のトラフィックを受信する単一または少数のモデルがあるとします。これらのモデルに多数のワーカーを割り当てるように MMS を構成できますが、これは静的な構成であるため、MME の背後にあるすべてのモデルに割り当てられます。これにより、アイドル状態のモデルも含め、多数のワーカーがハードウェアコンピューティングを使用することになります。ワーカー数に小さい値を設定すると、逆の問題が発生する可能性があります。一般的なモデルには、モデルサーバーレベルでこれらのモデルのエンドポイントの背後に十分なハードウェアを適切に割り当てるのに十分なワーカーがありません。主な問題は、モデルサーバーレベルでワーカーを動的に拡張して必要なコンピューティング量を割り当てることができない場合、トラフィックパターンに依存しない状態を維持するのが難しいことです。

この投稿で説明するソリューションでは、 DJLサービングこれは、説明した問題の一部を軽減し、モデルごとのスケーリングを可能にし、MME がトラフィックパターンに依存しないようにするのに役立ちます。

MME アーキテクチャ

SageMaker MME を使用すると、1 つ以上のインスタンスを含む単一の推論エンドポイントの背後に複数のモデルをデプロイできます。各インスタンスは、メモリと CPU/GPU の容量まで複数のモデルをロードして提供するように設計されています。このアーキテクチャを使用すると、SaaS (Software as a Service) ビジネスは、複数のモデルをホスティングするために直線的に増加するコストを打破し、アプリケーションスタックの他の場所に適用されるマルチテナントモデルと一致するインフラストラクチャの再利用を実現できます。次の図は、このアーキテクチャを示しています。

Amazon SageMaker マルチモデルエンドポイントを使用して、計画外の急増したトラフィックに対して ML 推論を実行する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

SageMaker MME はモデルを動的にロードします。 Amazon シンプルストレージサービス (Amazon S3) エンドポイントが最初に作成されたときにすべてのモデルをダウンロードするのではなく、呼び出されたときに。その結果、モデルへの最初の呼び出しでは、低レイテンシで完了する後続の推論よりも長い推論レイテンシが発生する可能性があります。モデルが呼び出されたときにすでにコンテナーにロードされている場合、ダウンロード手順はスキップされ、モデルは低レイテンシーで推論を返します。たとえば、XNUMX 日に数回しか使用されないモデルがあるとします。オンデマンドで自動的にロードされますが、頻繁にアクセスされるモデルはメモリに保持され、一貫して低い待機時間で呼び出されます。

次の図に示すように、各 MME の背後にはモデルホスティングインスタンスがあります。これらのインスタンスは、モデルへのトラフィックパターンに基づいて、複数のモデルをメモリに読み込み、メモリから削除します。

SageMaker は、キャッシュされたモデルのコピーからリクエストが提供されるように、モデルの推論リクエストをモデルがすでにロードされているインスタンスにルーティングし続けます (次の図を参照してください。最初の予測リクエストとキャッシュされた予測のリクエストパスを示しています)リクエストパス)。ただし、モデルが多くの呼び出しリクエストを受信し、MME に追加のインスタンスがある場合、SageMaker は増加に対応するために一部のリクエストを別のインスタンスにルーティングします。 SageMaker で自動モデルスケーリングを利用するには、次の条件が揃っていることを確認してください。インスタンスの自動スケーリングの設定追加のインスタンス容量をプロビジョニングします。カスタムパラメーターまたはXNUMX分あたりの呼び出し数（推奨）を使用してエンドポイントレベルのスケーリングポリシーを設定し、エンドポイントフリートにインスタンスを追加します。

モデルサーバーの概要

モデルサーバーは、機械学習 (ML) モデルをデプロイおよび提供するためのランタイム環境を提供するソフトウェアコンポーネントです。これは、トレーニングされたモデルと、それらのモデルを使用して予測を行うクライアントアプリケーションの間のインターフェイスとして機能します。

モデルサーバーの主な目的は、ML モデルを実稼働システムに簡単に統合し、効率的にデプロイできるようにすることです。モデルサーバーは、モデルをアプリケーションや特定のフレームワークに直接埋め込むのではなく、複数のモデルを展開、管理、提供できる集中プラットフォームを提供します。

モデルサーバーは通常、次の機能を提供します。

モデルの読み込み – サーバーはトレーニングされた ML モデルをメモリにロードし、予測を提供できるようにします。
推論API – サーバーは、クライアントアプリケーションが入力データを送信し、デプロイされたモデルから予測を受信できるようにする API を公開します。
スケーリング – モデルサーバーは、複数のクライアントからの同時リクエストを処理するように設計されています。これらは、並列処理とリソースの効率的な管理のためのメカニズムを提供し、高スループットと低遅延を確保します。
バックエンドエンジンとの統合 – モデルサーバーは、DeepSpeed や FasterTransformer などのバックエンドフレームワークと統合されており、大規模なモデルを分割し、高度に最適化された推論を実行します。

DJL アーキテクチャ

DJLサービングは、オープンソース、高性能、ユニバーサルモデルのサーバーです。 DJL Serving は、 Djl、Java プログラミング言語で書かれた深層学習ライブラリ。深層学習モデル、複数のモデル、またはワークフローを取得し、HTTP エンドポイントを通じて利用できるようにします。 DJL Serving は、PyTorch、TensorFlow、Apache MXNet、ONNX、TensorRT、Hugging Face Transformers、DeepSpeed、FasterTransformer などの複数のフレームワークからのモデルのデプロイをサポートしています。

DJL Serving は、モデルを高パフォーマンスでデプロイできるようにする多くの機能を提供します。

使いやすさ – DJL Serving は、ほとんどのモデルをそのまま使用できます。モデルアーティファクトを持ち込むだけで、DJL Serving がそれらをホストできます。
複数のデバイスとアクセラレータのサポート – DJL Serving は、CPU、GPU、および AWSインフェレンティア.
性能 – DJL Serving は単一の JVM でマルチスレッド推論を実行し、スループットを向上させます。
動的バッチ処理 – DJL Serving は、スループットを向上させるための動的バッチ処理をサポートしています。
自動スケーリング – DJL Serving は、トラフィック負荷に基づいてワーカーを自動的にスケールアップおよびスケールダウンします。
マルチエンジンのサポート – DJL Serving は、異なるフレームワーク (PyTorch や TensorFlow など) を使用してモデルを同時にホストできます。
アンサンブルとワークフローのモデル – DJL Serving は、複数のモデルで構成される複雑なワークフローの展開をサポートし、ワークフローの一部を CPU で実行し、一部を GPU で実行します。ワークフロー内のモデルはさまざまなフレームワークを使用できます。

特に、DJL Serving の自動スケーリング機能を使用すると、受信トラフィックに合わせてモデルが適切にスケーリングされるようにすることが簡単になります。デフォルトでは、DJL Serving は、使用可能なハードウェア (CPU コア、GPU デバイス) に基づいて、サポートできるモデルのワーカーの最大数を決定します。モデルごとに下限と上限を設定して、常に最小トラフィックレベルが提供され、単一のモデルが利用可能なリソースをすべて消費しないようにすることができます。

DJL サービングでは、ネッティーバックエンドワーカースレッドプールの上にフロントエンドを配置します。フロントエンドは、複数の Netty セットアップを 1 つ使用します。 HttpRequestHandlers。さまざまなリクエストハンドラーがサポートを提供します。推論API, 管理API、またはさまざまなプラグインから利用できるその他の API。

バックエンドは以下をベースにしていますワークロードマネージャー (WLM) モジュール。 WLM は、各モデルの複数のワーカースレッドをバッチ処理およびそれらへのリクエストルーティングとともに処理します。複数のモデルが提供される場合、WLM は最初に各モデルの推論リクエストキューサイズをチェックします。キューサイズがモデルのバッチサイズの 2 倍を超える場合、WLM はそのモデルに割り当てられるワーカーの数をスケールアップします。

ソリューションの概要

MME を使用した DJL の実装は、デフォルトの MMS セットアップとは異なります。 MME を使用した DJL Serving の場合、SageMaker Inference が期待する model.tar.gz 形式で次のファイルを圧縮します。

モデル.ジョブライブラリ – この実装では、モデルのメタデータを tarball に直接プッシュします。この場合、私たちは、 .joblib ファイルがあるため、推論スクリプトが読み取るためにそのファイルを tarball に提供します。アーティファクトが大きすぎる場合は、それを Amazon S3 にプッシュし、DJL 用に定義したサービス設定でそのアーティファクトを指すようにすることもできます。
サービング.プロパティ – ここでは、サーバー関連のモデルを設定できます。環境変数。ここでの DJL の強みは、次のような設定ができることです。 minWorkers および maxWorkers 各モデルのtarball。これにより、各モデルをモデルサーバーレベルでスケールアップおよびスケールダウンできるようになります。たとえば、単一のモデルが MME のトラフィックの大部分を受信している場合、モデルサーバーはワーカーを動的にスケールアップします。この例では、これらの変数を構成せず、トラフィックパターンに応じて必要なワーカーの数を DJL に決定させます。
モデル.py – これは、実装するカスタムの前処理または後処理の推論スクリプトです。 model.py は、デフォルトでロジックがハンドルメソッドにカプセル化されることを期待します。
要件.txt (オプション) – デフォルトでは、DJL は PyTorch とともにインストールされますが、必要な追加の依存関係はここにプッシュできます。

この例では、サンプル SKLearn モデルを使用して、MME を使用した DJL の機能を紹介します。このモデルを使用してトレーニングジョブを実行し、MME をサポートするためにこのモデルアーティファクトのコピーを 1,000 個作成します。次に、MME が受信する可能性のあるあらゆる種類のトラフィックパターンを処理するために DJL がどのように動的に拡張できるかを紹介します。これには、すべてのモデルにわたるトラフィックの均等な分散、またはトラフィックの大部分を受信するいくつかの人気のあるモデルが含まれる場合があります。すべてのコードは次の場所にあります。 GitHubレポ.

前提条件

この例では、conda_python3 カーネルと ml.c5.xlarge インスタンスを持つ SageMaker ノートブックインスタンスを使用します。負荷テストを実行するには、アマゾンエラスティックコンピューティングクラウド (Amazon EC2) インスタンスまたはより大きな SageMaker ノートブックインスタンス。この例では、2 秒あたり 5.18 トランザクション (TPS) を超えるまでスケールするため、より多くのコンピューティングを使用できるように、ml.cXNUMXxlarge などのより重い ECXNUMX インスタンスでテストすることをお勧めします。

モデルアーティファクトを作成する

まず、この例で使用するモデルアーティファクトとデータを作成する必要があります。このケースでは、NumPy で人工データを生成し、次のコードスニペットで SKLearn 線形回帰モデルを使用してトレーニングします。

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import joblib # Generate dummy data
np.random.seed(0)
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Create a Linear Regression model
model = LinearRegression()
# Train the model on the training data
model.fit(X_train, y_train) # Create serialized model artifact
model_filename = "model.joblib"
joblib.dump(model, model_filename)

上記のコードを実行すると、次のようになります。 model.joblib ローカル環境で作成されたファイル。

DJL Docker イメージをプルする

Docker イメージ djl-inference:0.23.0-cpu-full-v1.0 は、この例で使用される DJL サービングコンテナーです。お住まいの地域に応じて、次の URL を調整できます。

inference_image_uri = "474422712127.dkr.ecr.us-east-1.amazonaws.com/djl-serving-cpu:latest"

オプションで、このイメージを基本イメージとして使用し、それを拡張して独自の Docker イメージを構築することもできます。 Amazon エラスティックコンテナレジストリ (Amazon ECR) と必要な他の依存関係を追加します。

モデルファイルを作成する

まず、というファイルを作成します。 serving.properties。これにより、DJLServing に Python エンジンを使用するように指示されます。また、 max_idle_time ワーカーの時間は 600 秒になります。これにより、モデルごとのワーカー数をスケールダウンするのにかかる時間が長くなります。私たちは調整しません minWorkers および maxWorkers これを定義し、各モデルが受信しているトラフィックに応じて必要なワーカーの数を DJL に動的に計算させます。 serving.properties は次のように示されます。構成オプションの完全なリストを確認するには、次を参照してください。エンジン構成.

engine=Python
max_idle_time=600

次に、モデルの読み込みと推論ロジックを定義する model.py ファイルを作成します。 MME の場合、各 model.py ファイルはモデルに固有です。モデルは、モデルストアの下の独自のパスに保存されます (通常は /opt/ml/model/）。モデルをロードするとき、モデルは独自のディレクトリのモデルストアパスの下にロードされます。このデモの完全な model.py サンプルは、次の場所にあります。 GitHubレポ.

作成します model.tar.gz モデルを含むファイル (model.joblib), model.py, serving.properties:

#Build tar file with model data + inference code, replace this cell with your model.joblib
bashCommand = "tar -cvpzf model.tar.gz model.joblib requirements.txt model.py serving.properties"
process = subprocess.Popen(bashCommand.split(), stdout=subprocess.PIPE)
output, error = process.communicate()

デモンストレーションの目的で、同じものを 1,000 部作成します。 model.tar.gz ファイルを使用して、ホストされる多数のモデルを表現します。運用環境では、 model.tar.gz 各モデルのファイルを作成します。

最後に、これらのモデルを Amazon S3 にアップロードします。

SageMaker モデルを作成する

ここで、 SageMakerモデル。前に定義した ECR イメージと前のステップのモデルアーティファクトを使用して、SageMaker モデルを作成します。モデルのセットアップでは、モードを MultiModel として構成します。これにより、MME を作成していることが DJLServing に伝えられます。

mme_model_name = "sklearn-djl-mme" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
print("Model name: " + mme_model_name) create_model_response = sm_client.create_model(
ModelName=mme_model_name,
ExecutionRoleArn=role,
PrimaryContainer={"Image": inference_image_uri, "Mode": "MultiModel", "ModelDataUrl": mme_artifacts},
)

SageMakerエンドポイントを作成する

このデモでは、20 個の ml.c5d.18xlarge インスタンスを使用して、数千の範囲の TPS にスケールします。目標とする TPS を達成するために、必要に応じてインスタンスタイプの制限を引き上げてください。

mme_epc_name = "sklearn-djl-mme-epc" + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
endpoint_config_response = sm_client.create_endpoint_config(
EndpointConfigName=mme_epc_name,
ProductionVariants=[
{ "VariantName": "sklearnvariant", "ModelName": mme_model_name, "InstanceType": "ml.c5d.18xlarge", "InitialInstanceCount": 20
},],)

負荷テスト

執筆時点では、SageMaker 社内負荷テストツール AmazonSageMaker推論レコメンダー MME のテストはネイティブにサポートされていません。したがって、オープンソースのPythonツールを使用しますイナゴ。 Locust はセットアップが簡単で、TPS やエンドツーエンドの遅延などの指標を追跡できます。 SageMaker を使用してセットアップする方法を完全に理解するには、次を参照してください。 Amazon SageMaker リアルタイム推論エンドポイントの負荷テストのベストプラクティス.

この使用例では、MME でシミュレートしたい 3 つの異なるトラフィックパターンがあるため、各パターンに合わせた次の 3 つの Python スクリプトがあります。ここでの目標は、トラフィックパターンに関係なく、同じ目標 TPS を達成し、適切に拡張できることを証明することです。

Locust スクリプトで重みを指定して、モデルのさまざまな部分にトラフィックを割り当てることができます。たとえば、単一のホットモデルでは、次の 2 つのメソッドを実装します。

# popular model
def sendPopular(self): request_meta = { "request_type": "InvokeEndpoint", "name": "SageMaker", "start_time": time.time(), "response_length": 0, "response": None, "context": {}, "exception": None, } start_perf_counter = time.perf_counter() try: response = self.sagemaker_client.invoke_endpoint( EndpointName=self.endpoint_name, Body=self.payload, ContentType=self.content_type, TargetModel = "sklearn-0.tar.gz" ) # rest of model def sendRest(self): request_meta = { "request_type": "InvokeEndpoint", "name": "SageMaker", "start_time": time.time(), "response_length": 0, "response": None, "context": {}, "exception": None, } start_perf_counter = time.perf_counter() try: response = self.sagemaker_client.invoke_endpoint( EndpointName=self.endpoint_name, Body=self.payload, ContentType=self.content_type, TargetModel = f'sklearn-{random.randint(1,989)}.tar.gz' ) response_body = response["Body"].read()

次に、各メソッドに特定の重みを割り当てることができます。これは、特定のメソッドが特定の割合のトラフィックを受信する場合に当てはまります。

# assign weights to models
class MyUser(BotoUser): # 90% of traffic to singular model
@task(9)
def send_request(self):
self.client.sendPopular() @task
def send_request_major(self):
self.client.sendRest()

20 個の ml.c5d.18xlarge インスタンスの場合、アマゾンクラウドウォッチコンソール。これらの値は、3 つのトラフィックパターンすべてにわたってほぼ一貫しています。 SageMaker リアルタイム推論と MME の CloudWatch メトリクスをよりよく理解するには、以下を参照してください。 SageMakerエンドポイント呼び出しメトリクス.

残りの Locust スクリプトは次の場所にあります。 locust-utils ディレクトリ GitHub リポジトリ内。

まとめ

この投稿では、MME がモデルのトラフィックパターンに基づいて各モデルに割り当てられた計算能力を動的に調整する方法について説明しました。この新しく開始された機能は、SageMaker が利用可能なすべての AWS リージョンで利用できます。発表時点では、CPU インスタンスのみがサポートされていることに注意してください。詳細については、を参照してください。サポートされているアルゴリズム、フレームワーク、およびインスタンス.

著者について

ラム・ベギラージュ SageMaker サービスチームの ML アーキテクトです。彼は、お客様が Amazon SageMaker で AI/ML ソリューションを構築および最適化するのを支援することに重点を置いています。余暇には、旅行と執筆が大好きです。

チンウェイ・リー アマゾンウェブサービスの機械学習スペシャリストです。彼は博士号を取得しました。アドバイザーの研究助成金口座を破り、約束したノーベル賞を授与できなかった後、オペレーションズリサーチで。現在、彼は金融サービスおよび保険業界の顧客がAWSで機械学習ソリューションを構築するのを支援しています。暇なときは、読書と教育が好きです。

ジェームズ・ウー AWSのシニアAI/MLスペシャリストソリューションアーキテクトです。お客様がAI/MLソリューションを設計および構築するのを支援します。 Jamesの仕事は、コンピュータビジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 AWSに入社する前、Jamesは、エンジニアリングで10年間、マーケティングおよび広告業界で6年間を含む、4年以上にわたってアーキテクト、開発者、およびテクノロジーのリーダーでした。

サウラブ・トリカンデ Amazon SageMaker Inference のシニアプロダクトマネージャーです。彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープラーニングモデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。余暇には、Saurabh はハイキングを楽しんだり、革新的なテクノロジーについて学んだり、TechCrunch をフォローしたり、家族と過ごしたりしています。

シュー・デン SageMaker チームのソフトウェアエンジニアマネージャーです。彼は、顧客が Amazon SageMaker で AI/ML 推論エクスペリエンスを構築および最適化できるよう支援することに重点を置いています。余暇には、旅行とスノーボードが大好きです。

シッダールス・ベンカテサン は、AWS 深層学習のソフトウェアエンジニアです。彼は現在、大規模なモデルの推論のためのソリューションの構築に注力しています。 AWS に入社する前は、Amazon Grocery 組織で働き、世界中の顧客向けに新しい支払い機能を構築していました。仕事以外では、スキー、アウトドア、スポーツ観戦を楽しんでいます。

ロヒト・ナラマディ AWS のソフトウェア開発エンジニアです。彼は、GPU でのディープラーニングワークロードの最適化、高性能 ML 推論の構築、ソリューションの提供に取り組んでいます。それ以前は、Amazon F3 ビジネス向けの AWS ベースのマイクロサービスの構築に取り組んでいました。仕事以外では、スポーツをしたり観戦したりしています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/run-ml-inference-on-unplanned-and-spiky-traffic-using-amazon-sagemaker-multi-model-endpoints/

タイムスタンプ： 2024 年 2 月 19 日

タイムスタンプ： 2023 年 5 月 31 日

プラトン再発行

パート3：NatWestGroupがAmazonSageMakerを使用して、監査可能、再現可能、説明可能なMLモデルを構築した方法

Amazon SageMaker Canvas UI と AutoML API を使用して時系列予測を最大 50% 高速化 | アマゾンウェブサービス

サービスプロバイダーが自然言語処理を使用して、AmazonComprehendで顧客チケットから洞察を得る方法

AmazonForecastで予測する特定の時系列を選択します

Amazon Neptune で多言語テキストプロパティをエンコードして予測モデルをトレーニングする

Amazon SageMaker JumpStart ソリューションの機械学習を通じて、ビジネス上の問題をエンドツーエンドで解決します

Amazon Kendra での新しい拡張データ形式のサポート

新しい Amazon Kendra Alfresco コネクタを使用して Alfresco コンテンツにインデックスを付けます | アマゾンウェブサービス

Amazon Translate を使用してドキュメントをリアルタイムに翻訳する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー