Amazon SageMaker サーバーレス推論ベンチマークツールキットの紹介

プラトン再発行

フォロワー： 0

AmazonSageMakerサーバーレス推論は、機械学習 (ML) モデルのデプロイとスケーリングを容易にする専用の推論オプションです。これは従量制モデルを提供します。これは、エンドポイントの呼び出しがまれで予測できないサービスに最適です。長時間実行されるインスタンスによってサポートされるリアルタイムホスティングエンドポイントとは異なり、サーバーレスエンドポイントのコンピューティングリソースはオンデマンドでプロビジョニングされるため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がなくなります。

次の高レベルアーキテクチャは、サーバーレスエンドポイントがどのように機能するかを示しています。クライアントは、AWS マネージドインフラストラクチャによってサポートされるエンドポイントを呼び出します。

ただし、サーバーレスエンドポイントは数秒でコールドスタートする傾向があるため、断続的または予測不可能なワークロードに適しています。

コストとパフォーマンスの観点から、サーバーレスエンドポイントが適切な展開オプションであるかどうかを判断するのに役立つように、 SageMaker サーバーレス推論ベンチマークツールキット、さまざまなエンドポイント構成をテストし、最も最適な構成を同等のリアルタイムホスティングインスタンスと比較します。

この投稿では、ツールキットを紹介し、その構成と出力の概要を示します。

ソリューションの概要

ツールキットをダウンロードしてインストールできます。 GitHubレポ. 始めるのは簡単です: ライブラリをインストールし、 SageMakerモデルを入力し、ペイロードの本文やコンテンツタイプなどの呼び出しパラメータのサンプルセットを含む JSON 行形式のファイルとともに、モデルの名前を指定します。サンプル呼び出し引数のリストを、画像、ビデオ、オーディオなどのバイナリペイロードの JSON 行ファイルまたは pickle ファイルに変換する便利な関数が提供されています。

ツールキットをインストールする

最初に、pip を使用してベンチマークライブラリを Python 環境にインストールします。

pip install sm-serverless-benchmarking

から次のコードを実行できます。 Amazon SageMakerスタジオインスタンス、 SageMakerノートブックインスタンス、または任意のインスタンスプログラムによるアクセス AWS および適切な AWS IDおよびアクセス管理 (IAM) アクセス許可。必要な IAM 権限は、 GitHubレポ. IAM の追加のガイダンスとポリシーの例については、次を参照してください。 AmazonSageMakerがIAMとどのように連携するか. このコードは、XNUMX つのサンプルレコードを含む CSV 入力を想定するモデルで、既定のパラメーターセットを使用してベンチマークを実行します。エンドポイントがさまざまな入力ペイロードでどのように機能するかを分析するために、代表的な一連の例を提供することをお勧めします。

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

さらに、ベンチマークを SageMaker 処理ジョブとして実行することもできます。これは、多数の呼び出しを伴う長時間実行されるベンチマークのより信頼性の高いオプションになる可能性があります。次のコードを参照してください。

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

これには、ベンチマークの期間中、ml.m5.large SageMaker Processing インスタンスを実行するための追加コストが発生することに注意してください。

どちらの方法も、ベンチマークするメモリ構成のリストや各構成が呼び出される回数など、構成する多数のパラメーターを受け入れます。ほとんどの場合、最初はデフォルトのオプションで十分ですが、 GitHubレポ各パラメーターの完全なリストと説明については、

ベンチマーク構成

ベンチマークの機能とそれが生成する出力について詳しく説明する前に、サーバーレスエンドポイントの構成に関するいくつかの重要な概念を理解することが重要です。

全 XNUMX つの主要な構成オプション: MemorySizeInMB & MaxConcurrency. MemorySizeInMB インスタンスに割り当てられるメモリの量を構成します。1024 MB、2048 MB、3072 MB、4096 MB、5120 MB、または 6144 MB のいずれかです。 vCPU の数も、割り当てられたメモリの量に比例してスケーリングされます。の MaxConcurrency パラメータは、エンドポイントが処理できる同時要求の数を調整します。とともに MaxConcurrency 1 の場合、サーバーレスエンドポイントは一度に XNUMX つのリクエストしか処理できません。

まとめると、 MemorySizeInMB パラメータは、垂直方向のスケーラビリティのメカニズムを提供し、メモリと計算リソースを調整してより大きなモデルを提供できるようにします。 MaxConcurrency 水平スケーラビリティのメカニズムを提供し、エンドポイントがより多くの同時リクエストを処理できるようにします。

エンドポイントの運用コストは主にメモリサイズによって決まり、最大同時実行数の増加に関連するコストはありません。ただし、すべてのエンドポイントにわたる最大同時実行数には、リージョンごとのアカウント制限があります。参照する SageMaker エンドポイントとクォータ最新の制限について。

ベンチマーク出力

このことから、サーバーレスエンドポイントのベンチマークの目標は、最も費用対効果が高く信頼できるメモリサイズの設定と、予想されるトラフィックパターンを処理できる最小最大同時実行数を決定することです。

デフォルトでは、ツールは XNUMX つのベンチマークを実行します。 XNUMX つ目は安定性ベンチマークで、指定されたメモリ構成ごとにエンドポイントをデプロイし、提供されたサンプルペイロードで各エンドポイントを呼び出します。このベンチマークの目標は、最も効果的で安定した MemorySizeInMB 設定を決定することです。ベンチマークは、呼び出しのレイテンシをキャプチャし、各エンドポイントの呼び出しごとに予想されるコストを計算します。次に、コストを同様のリアルタイムホスティングインスタンスと比較します。

ベンチマークが完了すると、ツールは指定された形式でいくつかの出力を生成します。 result_save_path 次のディレクトリ構造を持つディレクトリ:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

　 benchmarking_report ディレクトリには、この投稿で概説するすべての要約出力を含む統合レポートが含まれています。追加のディレクトリには、追加の分析に使用できる未加工の中間出力が含まれています。を参照してください。 GitHubレポ各出力アーティファクトの詳細な説明については、

コンピュータービジョン MobileNetV2 TensorFlow モデルを提供するエンドポイントの実際のベンチマーク出力をいくつか調べてみましょう。この例を再現したい場合は、ノートブックの例 GitHub リポジトリのディレクトリ。

統合レポート内の最初の出力は、それぞれの最小、平均、中、および最大レイテンシメトリックを提供する要約テーブルです。 MemorySizeInMB メモリサイズの構成に成功しました。次の表に示すように、平均呼び出しレイテンシ (invocation_latency_mean）は、メモリ構成が 3072 MB に増加するにつれて改善を続けましたが、その後改善が止まりました。