アマゾンセージメーカー マルチモデル エンドポイント (MME) は、多数の機械学習 (ML) モデルをデプロイするためのスケーラブルで費用対効果の高い方法を提供します。 これにより、単一のエンドポイントの背後にある単一のサービス コンテナーに複数の ML モデルをデプロイできます。 そこから、SageMaker はモデルのロードとアンロードを管理し、トラフィック パターンに基づいてリソースをスケーリングします。 ホスティング リソースを共有して再利用し、大量のモデルを管理する運用上の負担を軽減するというメリットがあります。
11月2022では、 GPU のサポートを追加した MMEこれにより、単一の GPU デバイスで複数のモデルを実行し、単一のエンドポイントの背後で GPU インスタンスをスケーリングできます。 これにより、GPU による高速化されたコンピューティングの恩恵を受けるディープ ニューラル ネットワーク (DNN) モデルに対する MME の強い需要が満たされます。 これらには、コンピューター ビジョン (CV)、自然言語処理 (NLP)、生成 AI モデルが含まれます。 需要の理由には次のようなものがあります。
- DNN モデルは通常、サイズが大きく複雑であり、急速に成長し続けています。 NLP モデルを例にとると、その多くは数十億のパラメータを超えており、GPU は低レイテンシと高スループットの要件を満たす必要があります。
- これらのモデルをカスタマイズして、個々のユーザーに高度にパーソナライズされたエクスペリエンスを提供する必要性が高まっていることがわかりました。 これらのモデルの数が増えるにつれて、多くのモデルを大規模に展開して運用できる、より簡単なソリューションが必要になります。
- GPU インスタンスは高価であり、GPU の使用率を最大化し、運用コストを削減するために、これらのインスタンスを可能な限り再利用したいと考えています。
これらすべての理由から、DNN モデルの理想的なオプションとして GPU を備えた MME が挙げられますが、負荷テストを実行して、ユース ケースの要件を満たす適切なエンドポイント構成を見つけることをお勧めします。 インスタンス タイプ、インスタンス数、モデル サイズ、モデル アーキテクチャなど、多くの要因が負荷テストの結果に影響を与える可能性があります。 さらに、負荷テストは、試行錯誤を繰り返す方法ではなく、適切な指標を使用して自動スケーリング戦略を導くのに役立ちます。
これらの理由から、GPU を使用して MME で適切な負荷テストを実行し、ML ユースケースに最適な構成を見つけるのに役立つように、この投稿をまとめました。 さまざまなインスタンス タイプで MME を使用してホストされている NLP および CV で最も一般的な DNN モデルの負荷テスト結果を共有します。 テスト結果からの洞察と結論を要約して、独自の展開を構成する際に十分な情報に基づいた決定を下すのに役立ちます。 その過程で、GPU で MME の負荷テストを実行するための推奨アプローチも共有します。 推奨されるツールと手法によって、インスタンス タイプごとにロードできるモデルの最適な数が決まり、最高のコスト パフォーマンスを達成するのに役立ちます。
ソリューションの概要
MME および GPU を搭載した MME の概要については、次を参照してください。 マルチモデル エンドポイントの作成 および Amazon SageMaker マルチモデル エンドポイントを使用して GPU で複数の深層学習モデルを実行する. この投稿の負荷テストのコンテキストについては、サンプル コードを次の URL からダウンロードできます。 GitHubレポ 結果を再現したり、独自のモデルをベンチマークするためのテンプレートとして使用したりできます。 リポジトリには 4 つのノートブックが用意されています。2 つは CV モデルの負荷テスト用、もう 5.2 つは NLP 用です。 さまざまなサイズとアーキテクチャのいくつかのモデルが、さまざまなタイプの GPU インスタンス (ml.g3.2dn.XNUMXxlarge、ml.gXNUMXxlarge、および ml.pXNUMXxlarge) でベンチマークされました。 これにより、インスタンスとモデル タイプごとに、次のメトリック全体でパフォーマンスの合理的なクロス セクションが提供されます。
- GPU メモリにロードできるモデルの最大数
- 推論クエリごとにクライアント側で観察されたエンドツーエンドの応答レイテンシ
- エンドポイントがエラーなしで処理できる XNUMX 秒あたりのクエリの最大スループット
- 失敗したリクエストが観察される前のインスタンスあたりの最大現在のユーザー
次の表に、テストしたモデルを示します。
Use Case | モデル名 | ディスク上のサイズ | パラメータ数 |
CV | resnet50 |
100Mb | 25M |
CV | convnext_base |
352Mb | 88M |
CV | vit_large_patch16_224 |
1.2Gb | 304M |
NLP | bert-base-uncased |
436Mb | 109M |
NLP | roberta-large |
1.3Gb | 335M |
次の表に、テストされた GPU インスタンスを示します。
インスタンスタイプ | GPUタイプ | GPU の数 | GPU メモリ (GiB) |
ml.g4dn.2xlarge | NVIDIA T4 GPU | 1 | 16 |
ml.g5.2xラージ | NVIDIA A10G Tensor コア GPU | 1 | 24 |
ml.p3.2xlarge | NVIDIA® V100 Tensor コア GPU | 1 | 16 |
前に述べたように、 コード例 他のモデルやインスタンスタイプに採用できます。
MME は現在、単一の GPU インスタンスのみをサポートしていることに注意してください。 サポートされているインスタンス タイプのリストについては、を参照してください。 サポートされているアルゴリズム、フレームワーク、およびインスタンス.
ベンチマーク手順は、次の手順で構成されます。
- モデル ハブから事前トレーニング済みのモデルを取得します。
- SageMaker MME で提供するモデルアーティファクトを準備します (参照 Amazon SageMaker マルチモデル エンドポイントを使用して GPU で複数の深層学習モデルを実行する 詳細については)。
- GPU インスタンスに SageMaker MME をデプロイします。
- 指定されたしきい値内で GPU メモリにロードできるモデルの最大数を決定します。
- Locust Load Testing Framework を使用して、インスタンスにロードされたモデルをランダムに呼び出すトラフィックをシミュレートします。
- データを収集し、結果を分析します。
- 必要に応じて、モデルを TensorRT にコンパイルした後、手順 2 ~ 6 を繰り返します。
手順 4 と 5 は、より深く見ていきます。 SageMaker GPU MME 内のモデルは、動的な方法でメモリにロードされます。 したがって、ステップ 4 では、初期モデル アーティファクトを Amazon シンプル ストレージ サービス (Amazon S3) を開き、モデルを呼び出してメモリにロードします。 最初の呼び出しの後、消費された GPU メモリの量を測定し、初期モデルのコピーを作成し、モデルのコピーを呼び出してメモリにロードし、消費された GPU メモリの合計量を再度測定します。 このプロセスは、GPU メモリ使用率の指定された割合のしきい値に達するまで繰り返されます。 ベンチマークでは、しきい値を 90% に設定して、より大きなバッチでの推論のための妥当なメモリ バッファーを提供したり、使用頻度の低い他のモデルをロードするためのスペースを残したりしました。
ユーザー トラフィックをシミュレートする
モデルの数を決定したら、次を使用して負荷テストを実行できます。 Locust 負荷テスト フレームワーク. 負荷テストでは、ランダム モデルに対するユーザー リクエストをシミュレートし、応答の待ち時間やスループットなどのメトリックを自動的に測定します。
Locust は、カスタム トラフィック パターンを定義できるカスタム ロード テスト シェイプをサポートしています。 このベンチマークで使用された形状は、次の図に示されています。 最初の 30 秒間で、エンドポイントは 10 人の同時ユーザーでウォームアップされます。 30 秒後、20 秒あたり 40 人の割合で新しいユーザーが生成され、20 秒の時点で 60 人の同時ユーザーに到達します。 その後、エンドポイントは 40 秒のマークまで 200 人の同時ユーザーで着実にベンチマークされます。200 秒の時点で、Locust は再び XNUMX 秒あたり XNUMX 人のユーザーを増やし始め、XNUMX 人の同時ユーザーまで増加します。 この増加と安定したテストのパターンは、エンドポイントが XNUMX 人の同時ユーザーに増加するまで繰り返されます。 ユース ケースによっては、予想されるトラフィック パターンをより正確に反映するために、locust_benchmark_sm.py のロード テスト シェイプを調整する必要がある場合があります。 たとえば、より大きな言語モデルをホストする場合、XNUMX 人の同時ユーザーによる負荷テストは、XNUMX つのインスタンスでホストされるモデルでは実行できない可能性があるため、ユーザー数を減らすか、インスタンス数を増やすことが必要になる場合があります。 また、負荷テストの期間を延長して、長期間にわたってエンドポイントの安定性をより正確に測定することもできます。
stages = [
{"duration": 30, "users": 10, "spawn_rate": 5},
{"duration": 60, "users": 20, "spawn_rate": 1},
{"duration": 90, "users": 40, "spawn_rate": 2},
…
]
PyTorch または TensorRT のいずれかを使用して、一貫したサービス ベースですべて実行されている同種モデルのエンドポイントのみをベンチマークしたことに注意してください。 これは、MME がメモリ消費や応答時間などの類似した特性を持つ多くのモデルをホストするのに最適であるためです。 で提供されているベンチマーク テンプレート GitHubレポ MME で異種モデルを提供することで、必要なパフォーマンスと安定性が得られるかどうかを判断するために引き続き使用できます。
CV モデルのベンチマーク結果
cv-benchmark.ipynb ノートブックを使用して、コンピューター ビジョン モデルの負荷テストを実行します。 事前トレーニング済みのモデル名とインスタンス タイプのパラメーターを調整して、さまざまなモデルとインスタンス タイプの組み合わせでのパフォーマンス負荷テストを行うことができます。 最小から最大までさまざまなサイズ範囲で XNUMX つの CV モデルを意図的にテストしました。 resnet50
(25万)、 convnext_base
(88M)、および vit_large_patch16_224
(304M)。 このリスト以外のモデルを選択した場合は、コードを調整する必要がある場合があります。 さらに、ノートブックは入力画像の形状をデフォルトで 224x224x3 の画像テンソルに設定します。 異なるサイズの画像を使用するモデルをベンチマークする必要がある場合は、それに応じて入力形状を調整することを忘れないでください。
ノートブック全体を実行すると、いくつかのパフォーマンス分析の視覚化が得られます。 最初の XNUMX つは、同時ユーザーの増加に関するモデルのパフォーマンスを詳述しています。 次の図は、 ResNet50
ml.g4dn.2xlarge で実行されているモデル。PyTorch (左) と TensorRT (右) を比較。 一番上の折れ線グラフは、y 軸にモデルのレイテンシとスループットを示し、x 軸に反映される同時クライアント ワーカー数の増加を示しています。 下の棒グラフには、成功したリクエストと失敗したリクエストの数が表示されます。
テストしたすべてのコンピューター ビジョン モデルを調べたところ、次のことがわかりました。
- モデルが大きいほど、レイテンシー (ミリ秒単位) が高くなり、スループット (XNUMX 秒あたりのリクエスト数) が低くなります (
resnet50 > convnext_base > vit_large_patch16_224
). - レイテンシーの増加は、推論サーバーでより多くのリクエストがキューに入れられるため、ユーザー数に比例します。
- 大規模なモデルはより多くのコンピューティング リソースを消費し、小規模なモデルよりも少数のユーザーで最大スループットの制限に達する可能性があります。 これは、
vit_large_patch16_224
このモデルは、140 人の同時ユーザーで最初の失敗した要求を記録しました。 テストした他の 140 つのモデルよりもかなり大きいため、同時実行性が高くても全体的に失敗したリクエストが最も多くなりました。 これは、XNUMX を超える同時ユーザーをサポートすることが意図されている場合、エンドポイントが XNUMX つのインスタンスを超えて拡張する必要があることを明確に示しています。
ノートブックの実行の最後に、XNUMX つの主要なメトリックのそれぞれについて、PyTorch と TensorRT モデルの比較の概要も得られます。 ベンチマーク テストから、CV モデルはすべて、TensorRT のコンパイル後にモデルのパフォーマンスが向上したことがわかりました。 私たちの ResNet50
再び例としてモデルを使用すると、レイテンシーが 32% 減少し、スループットが 18% 増加しました。 同時ユーザーの最大数は同じままでしたが、 ResNet50
、他の 14 つのモデルでは、サポートできる同時ユーザー数が 50% 向上しました。 ただし、TensorRT のパフォーマンスの向上は、メモリ使用率の増加を犠牲にして行われたため、MME によって読み込まれるモデルが少なくなりました。 畳み込みニューラル ネットワーク (CNN) を使用するモデルでは、影響が大きくなります。 実際、ResNet50 モデルは、PyTorch から TensorRT に移行する際に約 46 倍の GPU メモリを消費し、その結果、ロードされるモデルが 23% 少なくなりました (XNUMX 対 XNUMX)。 この動作については、次のセクションで詳しく診断します。
NLP モデルのベンチマーク結果
NLP モデルの場合、nlp-benchmark.ipynb ノートブックを使用して負荷テストを実行します。 ノートブックのセットアップは非常に似ているはずです。 私たちは、bert-base-uncased (109M) と roberta-large (335M) の 128 つの NLP モデルをテストしました。 事前トレーニング済みのモデルとトークナイザーはどちらも Hugging Face ハブからダウンロードされ、テスト ペイロードはサンプル文字列を使用してトークナイザーから生成されます。 最大シーケンス長はデフォルトで XNUMX です。より長い文字列をテストする必要がある場合は、そのパラメーターを調整することを忘れないでください。 NLP ノートブックを実行すると、同じ可視化セットが生成されます: Pytorch (左) と TensorRT (右)。
これらから、NLP モデルに対する TensorRT のパフォーマンス上の利点がさらに大きくなることがわかりました。 取る roberta-large
たとえば、ml.g4dn.2xlarge インスタンスのモデルでは、推論のレイテンシーが 180 ミリ秒から 56 ミリ秒 (70% の改善) に劇的に減少し、スループットは 406 秒あたり 33 リクエストから 167 に 50% 改善されました。ユーザーは 180% 増加しました。 元の PyTorch モデルの 120 と比較して、XNUMX の同時ユーザーに達するまで失敗したリクエストは観察されませんでした。 メモリ使用率に関しては、TensorRT 用にロードされたモデルが XNUMX つ少なくなりました (XNUMX つのモデルから XNUMX つのモデルへ)。 ただし、マイナスの影響は、CNN ベースのモデルで観察されたものと比較してはるかに小さい.
メモリ使用率の分析
次の表は、PyTorch から TensorRT へのメモリ使用率の影響に関する完全な分析を示しています。 CNN ベースのモデルはより悪影響を受けると前述しました。 の ResNet50
モデルでは、50 つの GPU インスタンス タイプすべてでロードされたモデルの数が XNUMX% 以上減少しました。 Convnext_base
全体で約 70% とさらに大幅に削減されました。 一方、変圧器モデルへの影響は小さいか、混在しています。 vit_large_patch16_224
および roberta-large
平均でそれぞれ約 20% と 3% 削減されましたが、 bert-base-uncased
約 40% の改善が見られました。
レイテンシ、スループット、信頼性における優れたパフォーマンスと、ロードされるモデルの最大数へのわずかな影響に関して、すべてのデータ ポイントを全体として見ると、Transformer ベースのモデル アーキテクチャには TensorRT モデルをお勧めします。 CNN については、パフォーマンス上の利点が追加のホスティング インフラストラクチャのコストを上回ることを確認するために、さらなるコスト パフォーマンス分析が必要であると考えています。
ML ユースケース | アーキテクチャ | モデル名 | インスタンスタイプ | フレームワーク | ロードされた最大モデル | 差分 (%) | 平均差分 (%) |
CV | CNN | Resnet50 |
ml.g4dn.2xlarge | パイトーチ | 46 | -50% | -50% |
TensorRT | 23 | ||||||
ml.g5.2xラージ | パイトーチ | 70 | -51% | ||||
TensorRT | 34 | ||||||
ml.p3.2xlarge | パイトーチ | 49 | -51% | ||||
TensorRT | 24 | ||||||
Convnext_base |
ml.g4dn.2xlarge | パイトーチ | 33 | -50% | -70% | ||
TensorRT | 10 | ||||||
ml.g5.2xラージ | パイトーチ | 50 | -70% | ||||
TensorRT | 16 | ||||||
ml.p3.2xlarge | パイトーチ | 35 | -69% | ||||
TensorRT | 11 | ||||||
トランスフォーマー | vit_large_patch16_224 |
ml.g4dn.2xlarge | パイトーチ | 10 | -30% | -20% | |
TensorRT | 7 | ||||||
ml.g5.2xラージ | パイトーチ | 15 | -13% | ||||
TensorRT | 13 | ||||||
ml.p3.2xlarge | パイトーチ | 11 | -18% | ||||
TensorRT | 9 | ||||||
NLP | Roberta-large |
ml.g4dn.2xlarge | パイトーチ | 9 | -11% | -3% | |
TensorRT | 8 | ||||||
ml.g5.2xラージ | パイトーチ | 13 | 0% | ||||
TensorRT | 13 | ||||||
ml.p3.2xlarge | パイトーチ | 9 | 0% | ||||
TensorRT | 9 | ||||||
Bert-base-uncased |
ml.g4dn.2xlarge | パイトーチ | 26 | 視聴者の38%が | 視聴者の38%が | ||
TensorRT | 42 | ||||||
ml.g5.2xラージ | パイトーチ | 39 | 視聴者の38%が | ||||
TensorRT | 50 | ||||||
ml.p3.2xlarge | パイトーチ | 28 | 視聴者の38%が | ||||
TensorRT | 36 |
次の表は、XNUMX つの GPU インスタンス タイプすべてのすべてのメトリクスに対する完全なベンチマーク結果を示しています。
ml.g4dn.2xlarge |
||||||||||||
Use Case | アーキテクチャ | モデル名 | パラメータ数 | フレームワーク | ロードされた最大モデル | 差分 (%) | 待ち時間(ミリ秒) | 差分 (%) | スループット (qps) | 差分 (%) | 最大同時ユーザー数 | 差分 (%) |
CV | CNN | resnet50 |
25M | パイトーチ | 46 | -50% | 164 | -32% | 120 | 視聴者の38%が | 180 | NA |
TensorRT | 23 | . | 111 | . | 142 | . | 180 | . | ||||
convnext_base |
88M | パイトーチ | 33 | -70% | 154 | -22% | 64 | 視聴者の38%が | 140 | 視聴者の38%が | ||
TensorRT | 10 | . | 120 | . | 129 | . | 160 | . | ||||
トランスフォーマー | vit_large_patch16_224 |
304M | パイトーチ | 10 | -30% | 425 | -69% | 26 | 視聴者の38%が | 140 | 視聴者の38%が | |
TensorRT | 7 | . | 131 | . | 105 | . | 160 | . | ||||
NLP | bert-base-uncased |
109M | パイトーチ | 26 | 視聴者の38%が | 70 | -39% | 105 | 視聴者の38%が | 140 | 視聴者の38%が | |
TensorRT | 42 | . | 43 | . | 254 | . | 180 | . | ||||
roberta-large |
335M | パイトーチ | 9 | -11% | 187 | -70% | 33 | 視聴者の38%が | 120 | 視聴者の38%が | ||
TensorRT | 8 | . | 56 | . | 167 | . | 180 | . |
ml.g5.2xラージ |
||||||||||||
Use Case | アーキテクチャ | モデル名 | パラメータ数 | フレームワーク | ロードされた最大モデル | 差分 (%) | 待ち時間(ミリ秒) | 差分 (%) | スループット (qps) | 差分 (%) | 最大同時ユーザー数 | 差分 (%) |
CV | CNN | resnet50 |
25M | パイトーチ | 70 | -51% | 159 | -31% | 146 | 視聴者の38%が | 180 | 視聴者の38%が |
TensorRT | 34 | . | 110 | . | 166 | . | 200 | . | ||||
convnext_base |
88M | パイトーチ | 50 | -68% | 149 | -23% | 134 | 視聴者の38%が | 180 | 0% | ||
TensorRT | 16 | . | 115 | . | 152 | . | 180 | . | ||||
トランスフォーマー | vit_large_patch16_224 |
304M | パイトーチ | 15 | -13% | 149 | -22% | 105 | 視聴者の38%が | 160 | 視聴者の38%が | |
TensorRT | 13 | . | 116 | . | 142 | . | 200 | . | ||||
NLP | bert-base-uncased |
109M | パイトーチ | 39 | 視聴者の38%が | 65 | -29% | 183 | 視聴者の38%が | 180 | 視聴者の38%が | |
TensorRT | 50 | . | 46 | . | 253 | . | 200 | . | ||||
roberta-large |
335M | パイトーチ | 13 | 0% | 97 | -38% | 121 | 視聴者の38%が | 140 | 視聴者の38%が | ||
TensorRT | 13 | . | 60 | . | 177 | . | 160 | . |
ml.p3.2xlarge |
||||||||||||
Use Case | アーキテクチャ | モデル名 | パラメータ数 | フレームワーク | ロードされた最大モデル | 差分 (%) | 待ち時間(ミリ秒) | 差分 (%) | スループット (qps) | 差分 (%) | 最大同時ユーザー数 | 差分 (%) |
CV | CNN | resnet50 |
25M | パイトーチ | 49 | -51% | 197 | -41% | 94 | 視聴者の38%が | 160 | -12% |
TensorRT | 24 | . | 117 | . | 111 | . | 140 | . | ||||
convnext_base |
88M | パイトーチ | 35 | -69% | 178 | -23% | 89 | 視聴者の38%が | 140 | 視聴者の38%が | ||
TensorRT | 11 | .137 | 137 | . | 99 | . | 160 | . | ||||
トランスフォーマー | vit_large_patch16_224 |
304M | パイトーチ | 11 | -18% | 186 | -28% | 83 | 視聴者の38%が | 140 | 視聴者の38%が | |
TensorRT | 9 | . | 134 | . | 102 | . | 180 | . | ||||
NLP | bert-base-uncased |
109M | パイトーチ | 28 | 視聴者の38%が | 77 | -40% | 133 | 視聴者の38%が | 140 | 視聴者の38%が | |
TensorRT | 36 | . | 46 | . | 212 | . | 200 | . | ||||
roberta-large |
335M | パイトーチ | 9 | 0% | 108 | -44% | 88 | 視聴者の38%が | 160 | 0% | ||
TensorRT | 9 | . | 61 | . | 141 | . | 160 | . |
次の表は、すべてのインスタンス タイプの結果をまとめたものです。 ml.g5.2xlarge インスタンスは最高のパフォーマンスを提供しますが、ml.p3.2xlarge インスタンスは 5 つの中で最も高価であるにもかかわらず、一般的にパフォーマンスが低下します。 g4 および gXNUMXdn インスタンスは、推論ワークロードに最適な価値を示しています。
Use Case | アーキテクチャ | モデル名 | パラメータ数 | フレームワーク | インスタンスタイプ | ロードされた最大モデル | 差分 (%) | 待ち時間(ミリ秒) | 差分 (%) | スループット (qps) | 差分 (%) | 最大同時ユーザー数 |
CV | CNN | resnet50 |
25M | パイトーチ | ml.g5.2xラージ | 70 | . | 159 | . | 146 | . | 180 |
. | . | . | . | . | ml.p3.2xlarge | 49 | . | 197 | . | 94 | . | 160 |
. | . | . | . | . | ml.g4dn.2xlarge | 46 | . | 164 | . | 120 | . | 180 |
CV | CN | resnet50 |
25M | TensorRT | ml.g5.2xラージ | 34 | -51% | 110 | -31% | 166 | 視聴者の38%が | 200 |
. | . | . | . | . | ml.p3.2xlarge | 24 | -51% | 117 | -41% | 111 | 視聴者の38%が | 200 |
. | . | . | . | . | ml.g4dn.2xlarge | 23 | -50% | 111 | -32% | 142 | 視聴者の38%が | 180 |
NLP | トランスフォーマー | bert-base-uncased |
109M | ピトーチ | ml.g5.2xラージ | 39 | . | 65 | . | 183 | . | 180 |
. | . | . | . | . | ml.p3.2xlarge | 28 | . | 77 | . | 133 | . | 140 |
. | . | . | . | . | ml.g4dn.2xlarge | 26 | . | 70 | . | 105 | . | 140 |
NLP | トランスフォーマー | bert-base-uncased |
109M | TensorRT | ml.g5.2xラージ | 50 | 視聴者の38%が | 46 | -29% | 253 | 視聴者の38%が | 200 |
. | . | . | . | . | ml.p3.2xlarge | 36 | 視聴者の38%が | 46 | -40% | 212 | 視聴者の38%が | 200 |
. | . | . | . | . | ml.g4dn.2xlarge | 42 | 視聴者の38%が | 43 | -39% | 254 | 視聴者の38%が | 180 |
クリーンアップ
負荷テストが完了したら、生成されたリソースをクリーンアップして、追加料金が発生しないようにします。 主なリソースは、Amazon S3 の SageMaker エンドポイントとモデル アーティファクト ファイルです。 簡単に削除できるように、ノートブック ファイルには次のクリーンアップ コードが含まれています。
まとめ
この投稿では、GPU を備えた SageMaker マルチモデル エンドポイントで実行されているさまざまなディープ ニューラル ネットワーク モデルのテスト結果と分析を共有しました。 私たちが共有した結果と洞察は、さまざまな指標とインスタンス タイプにわたるパフォーマンスの妥当な断面を提供するはずです。 その過程で、GPU を使用して SageMaker MME のベンチマーク テストを実行するための推奨アプローチも紹介しました。 提供されているツールとサンプル コードは、ベンチマーク テストをすばやく開始し、高速化されたコンピューティング ハードウェアで数百の DNN モデルを費用対効果の高い方法でホストする方法について、より多くの情報に基づいた決定を下すのに役立ちます。 GPU の MME サポートを使用して独自のモデルのベンチマークを開始するには、次を参照してください。 サポートされているアルゴリズム、フレームワーク、およびインスタンス と GitHubレポ 追加の例とドキュメントについては。
著者について
ジェームズ・ウー AWSのシニアAI/MLスペシャリストソリューションアーキテクトです。 お客様がAI/MLソリューションを設計および構築するのを支援します。 Jamesの仕事は、コンピュータビジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 AWSに入社する前、Jamesは、エンジニアリングで10年間、マーケティングおよび広告業界で6年間を含む、4年以上にわたってアーキテクト、開発者、およびテクノロジーのリーダーでした。
ヴィクラムエランゴ は、米国バージニア州に拠点を置くアマゾンウェブサービスのAI/MLスペシャリストソリューションアーキテクトです。 Vikramは、大規模な機械学習アプリケーションを構築および展開するための設計、ソートリーダーシップにより、金融および保険業界の顧客を支援します。 彼は現在、自然言語処理、責任あるAI、推論の最適化、企業全体でのMLのスケーリングに焦点を当てています。 余暇には、家族と一緒に旅行、ハイキング、料理、キャンプを楽しんでいます。
サイモンザマリン はAI / MLソリューションアーキテクトであり、その主な焦点は、顧客がデータ資産から価値を引き出すのを支援することです。 余暇には、家族と過ごしたり、SFを読んだり、さまざまなDIYハウスプロジェクトに取り組んだりしています。
サウラブ・トリカンデ Amazon SageMaker Inference のシニア プロダクト マネージャーです。 彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。 彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープ ラーニング モデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。 余暇には、Saurabh はハイキングを楽しんだり、革新的なテクノロジーについて学んだり、TechCrunch をフォローしたり、家族と過ごしたりしています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/achieve-high-performance-at-scale-for-model-serving-using-amazon-sagemaker-multi-model-endpoints-with-gpu/
- 10
- 100
- 11
- 2022
- 7
- a
- 能力
- 私たちについて
- 加速された
- アクセス可能な
- それに応じて
- 正確にデジタル化
- 達成する
- 越えて
- 追加されました
- 添加
- NEW
- さらに
- 採択
- 広告運用
- 後
- AI
- AI / ML
- アルゴリズム
- すべて
- ことができます
- しかし
- Amazon
- アマゾンセージメーカー
- Amazon Webサービス
- 量
- 分析
- 分析します
- および
- 別の
- アプローチ
- 約
- 建築
- 資産
- オート
- 自動的に
- 平均
- AWS
- バー
- ベース
- なぜなら
- 背後に
- さ
- 信じる
- ベンチマーク
- ベンチマークされた
- ベンチマーク
- 恩恵
- BEST
- 越えて
- より大きい
- 億
- ボード
- ブースト
- ボトム
- バッファ
- ビルド
- 負担
- 場合
- 例
- 課題
- 特性
- 課金
- チャート
- チャート
- クリア
- クライアント
- CNN
- コード
- 組み合わせ
- 比べ
- 比較
- 比較
- コンプリート
- 複雑な
- 複雑さ
- 構成
- 計算
- コンピュータ
- Computer Vision
- 結論
- 同時
- 整合性のある
- 消費する
- 消費
- 消費
- コンテナ
- コンテキスト
- 続ける
- 基本
- 費用
- コスト効率の良い
- カバー
- Cross
- 電流プローブ
- 現在
- カスタム
- Customers
- データ
- データポイント
- 決定
- 深いです
- 深い学習
- より深い
- デフォルト
- 配信する
- 需要
- 民主化
- 実証します
- によっては
- 展開します
- 展開する
- 展開
- 配備
- 設計
- 希望
- にもかかわらず
- 詳細
- 細部
- 決定する
- 決定
- Developer
- デバイス
- 異なります
- Diy
- ドキュメント
- ダウンロード
- 劇的に
- ダイナミック
- 各
- 前
- 容易
- どちら
- エンドポイント
- エンジニアリング
- Enterprise
- 全体
- エラー
- さらに
- 例
- 例
- 超えます
- 予想される
- 高価な
- エクスペリエンス
- 伸ばす
- エキス
- 顔
- 要因
- Failed:
- 家族
- ファッション
- 実行可能な
- フィギュア
- ファイナンシャル
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フォーカス
- 焦点を当て
- 焦点を当てて
- フォロー中
- フレームワーク
- フレームワーク
- から
- フル
- さらに
- 一般に
- 生成された
- 生成
- 生々しい
- 生成AI
- 取得する
- 与える
- 目標
- 行く
- GPU
- GPU
- グラフ
- 成長
- ガイド
- ハンド
- Hardware
- 助けます
- 助け
- ことができます
- ハイ
- より高い
- host
- 主催
- ホスティング
- お家の掃除
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- ハブ
- 何百
- 理想
- 画像
- 影響
- 影響を受けた
- 改善されました
- 改善
- in
- include
- 含めて
- 増える
- 増加した
- 増加
- の増加
- 個人
- 産業
- 産業を変えます
- 影響
- 情報に基づく
- インフラ関連事業
- 初期
- 革新的な
- 革新的な技術
- 洞察
- 保険
- 意図
- 関心
- 導入
- 概要
- 呼び出す
- IT
- 参加
- キー
- 言語
- 大
- より大きい
- 最大の
- レイテンシ
- リーダー
- リーダーシップ
- 学習
- 残す
- 長さ
- 制限
- LINE
- リスト
- リスト
- 負荷
- ローディング
- より長いです
- 見て
- ロー
- 機械
- 機械学習
- メイン
- make
- 作成
- マネージャー
- 管理する
- 管理する
- 多くの
- マーク
- マーケティング
- マーケティングと広告
- マックス
- 最大化します
- だけど
- 措置
- メモリ
- 言及した
- メソッド
- メトリック
- マイナー
- 混合
- ML
- モデル
- 他には?
- 最も
- 一番人気
- やる気
- MS
- の試合に
- 名
- ナチュラル
- 自然言語処理
- 必要
- 負
- マイナスに
- ネットワーク
- ニューラルネットワーク
- 新作
- NLP
- ノート
- 11月
- 数
- 番号
- ONE
- オペレーティング
- オペレーショナル
- 最適化
- 最適な
- オプション
- オリジナル
- その他
- 外側
- 全体
- 自分の
- 平和
- パラメーター
- パラメータ
- 情熱的な
- パターン
- パターン
- パーセント
- 実行する
- パフォーマンス
- 実行
- 期間
- 選ぶ
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- ポイント
- 人気
- 可能
- ポスト
- 前に
- 主要な
- 事前の
- プロセス
- 処理
- プロダクト
- プロダクトマネージャー
- プロジェクト(実績作品)
- 適切な
- 提供します
- 提供
- は、大阪で
- 置きます
- パイトーチ
- 量
- ランプ
- ランピング
- ランダム
- 範囲
- 急速な
- レート
- リーチ
- 達した
- 到達
- リーディング
- 合理的な
- 理由は
- 推奨する
- 推奨される
- 記録された
- 減らします
- 電話代などの費用を削減
- 反映する
- 反映
- よろしく
- 関連する
- 信頼性
- 覚えています
- 繰り返す
- 繰り返される
- 要求
- リクエスト
- 要件
- 必要
- リソース
- 応答
- 責任
- 結果として
- 結果
- ラン
- ランニング
- セージメーカー
- SageMaker の推論
- 同じ
- ド電源のデ
- 規模
- スケーリング
- サイエンスフィクション
- 二番
- 秒
- セクション
- シニア
- シーケンス
- サービス
- サービング
- セッションに
- いくつかの
- 形状
- シェイプ
- シェアする
- shared
- シェアリング
- すべき
- 表示する
- 示す
- 作品
- 側
- シグナル
- 著しく
- 同様の
- サイモン
- 簡単な拡張で
- サイズ
- サイズ
- 小さい
- より小さい
- 溶液
- ソリューション
- 一部
- スペース
- 専門家
- 指定の
- 支出
- 安定性
- 開始
- 滞在した
- 着実
- 手順
- ステップ
- まだ
- ストレージ利用料
- 作戦
- 強い
- 成功した
- そのような
- まとめる
- 概要
- 優れた
- サポート
- サポート
- サポート
- テーブル
- 取る
- 取得
- TechCrunchの
- テクノロジー
- テクノロジー
- template
- テンプレート
- 条件
- test
- テスト
- アプリ環境に合わせて
- したがって、
- 考え
- 思考リーダーシップ
- 三
- しきい値
- 介して
- スループット
- 時間
- 〜へ
- 一緒に
- 豊富なツール群
- top
- トータル
- トラフィック
- 旅行
- トライアル
- Twice
- 一般的に
- USA
- つかいます
- 使用事例
- ユーザー
- users
- 値
- さまざまな
- バージニア州
- ビジョン
- 令状
- ウェブ
- Webサービス
- この試験は
- かどうか
- which
- while
- 全体
- ワイド
- 広い範囲
- 意志
- 以内
- 無し
- 仕事
- 労働者
- ワーキング
- でしょう
- 年
- 産出
- You
- あなたの
- ゼファーネット