GPU を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル サービスの大規模なパフォーマンスを実現する

GPU を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル サービスの大規模なパフォーマンスを実現する

アマゾンセージメーカー マルチモデル エンドポイント (MME) は、多数の機械学習 (ML) モデルをデプロイするためのスケーラブルで費用対効果の高い方法を提供します。 これにより、単一のエンドポイントの背後にある単一のサービス コンテナーに複数の ML モデルをデプロイできます。 そこから、SageMaker はモデルのロードとアンロードを管理し、トラフィック パターンに基づいてリソースをスケーリングします。 ホスティング リソースを共有して再利用し、大量のモデルを管理する運用上の負担を軽減するというメリットがあります。

11月2022では、 GPU のサポートを追加した MMEこれにより、単一の GPU デバイスで複数のモデルを実行し、単一のエンドポイントの背後で GPU インスタンスをスケーリングできます。 これにより、GPU による高速化されたコンピューティングの恩恵を受けるディープ ニューラル ネットワーク (DNN) モデルに対する MME の強い需要が満たされます。 これらには、コンピューター ビジョン (CV)、自然言語処理 (NLP)、生成 AI モデルが含まれます。 需要の理由には次のようなものがあります。

  • DNN モデルは通常、サイズが大きく複雑であり、急速に成長し続けています。 NLP モデルを例にとると、その多くは数十億のパラメータを超えており、GPU は低レイテンシと高スループットの要件を満たす必要があります。
  • これらのモデルをカスタマイズして、個々のユーザーに高度にパーソナライズされたエクスペリエンスを提供する必要性が高まっていることがわかりました。 これらのモデルの数が増えるにつれて、多くのモデルを大規模に展開して運用できる、より簡単なソリューションが必要になります。
  • GPU インスタンスは高価であり、GPU の使用率を最大化し、運用コストを削減するために、これらのインスタンスを可能な限り再利用したいと考えています。

これらすべての理由から、DNN モデルの理想的なオプションとして GPU を備えた MME が挙げられますが、負荷テストを実行して、ユース ケースの要件を満たす適切なエンドポイント構成を見つけることをお勧めします。 インスタンス タイプ、インスタンス数、モデル サイズ、モデル アーキテクチャなど、多くの要因が負荷テストの結果に影響を与える可能性があります。 さらに、負荷テストは、試行錯誤を繰り返す方法ではなく、適切な指標を使用して自動スケーリング戦略を導くのに役立ちます。

これらの理由から、GPU を使用して MME で適切な負荷テストを実行し、ML ユースケースに最適な構成を見つけるのに役立つように、この投稿をまとめました。 さまざまなインスタンス タイプで MME を使用してホストされている NLP および CV で最も一般的な DNN モデルの負荷テスト結果を共有します。 テスト結果からの洞察と結論を要約して、独自の展開を構成する際に十分な情報に基づいた決定を下すのに役立ちます。 その過程で、GPU で MME の負荷テストを実行するための推奨アプローチも共有します。 推奨されるツールと手法によって、インスタンス タイプごとにロードできるモデルの最適な数が決まり、最高のコスト パフォーマンスを達成するのに役立ちます。

ソリューションの概要

MME および GPU を搭載した MME の概要については、次を参照してください。 マルチモデル エンドポイントの作成 および Amazon SageMaker マルチモデル エンドポイントを使用して GPU で複数の深層学習モデルを実行する. この投稿の負荷テストのコンテキストについては、サンプル コードを次の URL からダウンロードできます。 GitHubレポ 結果を再現したり、独自のモデルをベンチマークするためのテンプレートとして使用したりできます。 リポジトリには 4 つのノートブックが用意されています。2 つは CV モデルの負荷テスト用、もう 5.2 つは NLP 用です。 さまざまなサイズとアーキテクチャのいくつかのモデルが、さまざまなタイプの GPU インスタンス (ml.g3.2dn.XNUMXxlarge、ml.gXNUMXxlarge、および ml.pXNUMXxlarge) でベンチマークされました。 これにより、インスタンスとモデル タイプごとに、次のメトリック全体でパフォーマンスの合理的なクロス セクションが提供されます。

  • GPU メモリにロードできるモデルの最大数
  • 推論クエリごとにクライアント側で観察されたエンドツーエンドの応答レイテンシ
  • エンドポイントがエラーなしで処理できる XNUMX 秒あたりのクエリの最大スループット
  • 失敗したリクエストが観察される前のインスタンスあたりの最大現在のユーザー

次の表に、テストしたモデルを示します。

Use Case モデル名 ディスク上のサイズ パラメータ数
CV resnet50 100Mb 25M
CV convnext_base 352Mb 88M
CV vit_large_patch16_224 1.2Gb 304M
NLP bert-base-uncased 436Mb 109M
NLP roberta-large 1.3Gb 335M

次の表に、テストされた GPU インスタンスを示します。

インスタンスタイプ GPUタイプ GPU の数 GPU メモリ (GiB)
ml.g4dn.2xlarge NVIDIA T4 GPU 1 16
ml.g5.2xラージ NVIDIA A10G Tensor コア GPU 1 24
ml.p3.2xlarge NVIDIA® V100 Tensor コア GPU 1 16

前に述べたように、 コード例 他のモデルやインスタンスタイプに採用できます。

MME は現在、単一の GPU インスタンスのみをサポートしていることに注意してください。 サポートされているインスタンス タイプのリストについては、を参照してください。 サポートされているアルゴリズム、フレームワーク、およびインスタンス.

ベンチマーク手順は、次の手順で構成されます。

  1. モデル ハブから事前トレーニング済みのモデルを取得します。
  2. SageMaker MME で提供するモデルアーティファクトを準備します (参照 Amazon SageMaker マルチモデル エンドポイントを使用して GPU で複数の深層学習モデルを実行する 詳細については)。
  3. GPU インスタンスに SageMaker MME をデプロイします。
  4. 指定されたしきい値内で GPU メモリにロードできるモデルの最大数を決定します。
  5. Locust Load Testing Framework を使用して、インスタンスにロードされたモデルをランダムに呼び出すトラフィックをシミュレートします。
  6. データを収集し、結果を分析します。
  7. 必要に応じて、モデルを TensorRT にコンパイルした後、手順 2 ~ 6 を繰り返します。

手順 4 と 5 は、より深く見ていきます。 SageMaker GPU MME 内のモデルは、動的な方法でメモリにロードされます。 したがって、ステップ 4 では、初期モデル アーティファクトを Amazon シンプル ストレージ サービス (Amazon S3) を開き、モデルを呼び出してメモリにロードします。 最初の呼び出しの後、消費された GPU メモリの量を測定し、初期モデルのコピーを作成し、モデルのコピーを呼び出してメモリにロードし、消費された GPU メモリの合計量を再度測定します。 このプロセスは、GPU メモリ使用率の指定された割合のしきい値に達するまで繰り返されます。 ベンチマークでは、しきい値を 90% に設定して、より大きなバッチでの推論のための妥当なメモリ バッファーを提供したり、使用頻度の低い他のモデルをロードするためのスペースを残したりしました。

ユーザー トラフィックをシミュレートする

モデルの数を決定したら、次を使用して負荷テストを実行できます。 Locust 負荷テスト フレームワーク. 負荷テストでは、ランダム モデルに対するユーザー リクエストをシミュレートし、応答の待ち時間やスループットなどのメトリックを自動的に測定します。

Locust は、カスタム トラフィック パターンを定義できるカスタム ロード テスト シェイプをサポートしています。 このベンチマークで使用された形状は、次の図に示されています。 最初の 30 秒間で、エンドポイントは 10 人の同時ユーザーでウォームアップされます。 30 秒後、20 秒あたり 40 人の割合で新しいユーザーが生成され、20 秒の時点で 60 人の同時ユーザーに到達します。 その後、エンドポイントは 40 秒のマークまで 200 人の同時ユーザーで着実にベンチマークされます。200 秒の時点で、Locust は再び XNUMX 秒あたり XNUMX 人のユーザーを増やし始め、XNUMX 人の同時ユーザーまで増加します。 この増加と安定したテストのパターンは、エンドポイントが XNUMX 人の同時ユーザーに増加するまで繰り返されます。 ユース ケースによっては、予想されるトラフィック パターンをより正確に反映するために、locust_benchmark_sm.py のロード テスト シェイプを調整する必要がある場合があります。 たとえば、より大きな言語モデルをホストする場合、XNUMX 人の同時ユーザーによる負荷テストは、XNUMX つのインスタンスでホストされるモデルでは実行できない可能性があるため、ユーザー数を減らすか、インスタンス数を増やすことが必要になる場合があります。 また、負荷テストの期間を延長して、長期間にわたってエンドポイントの安定性をより正確に測定することもできます。

stages = [
{"duration": 30, "users": 10, "spawn_rate": 5},
{"duration": 60, "users": 20, "spawn_rate": 1},
{"duration": 90, "users": 40, "spawn_rate": 2},
…
]

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。

PyTorch または TensorRT のいずれかを使用して、一貫したサービス ベースですべて実行されている同種モデルのエンドポイントのみをベンチマークしたことに注意してください。 これは、MME がメモリ消費や応答時間などの類似した特性を持つ多くのモデルをホストするのに最適であるためです。 で提供されているベンチマーク テンプレート GitHubレポ MME で異種モデルを提供することで、必要なパフォーマンスと安定性が得られるかどうかを判断するために引き続き使用できます。

CV モデルのベンチマーク結果

cv-benchmark.ipynb ノートブックを使用して、コンピューター ビジョン モデルの負荷テストを実行します。 事前トレーニング済みのモデル名とインスタンス タイプのパラメーターを調整して、さまざまなモデルとインスタンス タイプの組み合わせでのパフォーマンス負荷テストを行うことができます。 最小から最大までさまざまなサイズ範囲で XNUMX つの CV モデルを意図的にテストしました。 resnet50 (25万)、 convnext_base (88M)、および vit_large_patch16_224 (304M)。 このリスト以外のモデルを選択した場合は、コードを調整する必要がある場合があります。 さらに、ノートブックは入力画像の形状をデフォルトで 224x224x3 の画像テンソルに設定します。 異なるサイズの画像を使用するモデルをベンチマークする必要がある場合は、それに応じて入力形状を調整することを忘れないでください。

ノートブック全体を実行すると、いくつかのパフォーマンス分析の視覚化が得られます。 最初の XNUMX つは、同時ユーザーの増加に関するモデルのパフォーマンスを詳述しています。 次の図は、 ResNet50 ml.g4dn.2xlarge で実行されているモデル。PyTorch (左) と TensorRT (右) を比較。 一番上の折れ線グラフは、y 軸にモデルのレイテンシとスループットを示し、x 軸に反映される同時クライアント ワーカー数の増加を示しています。 下の棒グラフには、成功したリクエストと失敗したリクエストの数が表示されます。

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。

テストしたすべてのコンピューター ビジョン モデルを調べたところ、次のことがわかりました。

  • モデルが大きいほど、レイテンシー (ミリ秒単位) が高くなり、スループット (XNUMX 秒あたりのリクエスト数) が低くなります (resnet50 > convnext_base > vit_large_patch16_224).
  • レイテンシーの増加は、推論サーバーでより多くのリクエストがキューに入れられるため、ユーザー数に比例します。
  • 大規模なモデルはより多くのコンピューティング リソースを消費し、小規模なモデルよりも少数のユーザーで最大スループットの制限に達する可能性があります。 これは、 vit_large_patch16_224 このモデルは、140 人の同時ユーザーで最初の失敗した要求を記録しました。 テストした他の 140 つのモデルよりもかなり大きいため、同時実行性が高くても全体的に失敗したリクエストが最も多くなりました。 これは、XNUMX を超える同時ユーザーをサポートすることが意図されている場合、エンドポイントが XNUMX つのインスタンスを超えて拡張する必要があることを明確に示しています。

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。

ノートブックの実行の最後に、XNUMX つの主要なメトリックのそれぞれについて、PyTorch と TensorRT モデルの比較の概要も得られます。 ベンチマーク テストから、CV モデルはすべて、TensorRT のコンパイル後にモデルのパフォーマンスが向上したことがわかりました。 私たちの ResNet50 再び例としてモデルを使用すると、レイテンシーが 32% 減少し、スループットが 18% 増加しました。 同時ユーザーの最大数は同じままでしたが、 ResNet50、他の 14 つのモデルでは、サポートできる同時ユーザー数が 50% 向上しました。 ただし、TensorRT のパフォーマンスの向上は、メモリ使用率の増加を犠牲にして行われたため、MME によって読み込まれるモデルが少なくなりました。 畳み込みニューラル ネットワーク (CNN) を使用するモデルでは、影響が大きくなります。 実際、ResNet50 モデルは、PyTorch から TensorRT に移行する際に約 46 倍の GPU メモリを消費し、その結果、ロードされるモデルが 23% 少なくなりました (XNUMX 対 XNUMX)。 この動作については、次のセクションで詳しく診断します。

NLP モデルのベンチマーク結果

NLP モデルの場合、nlp-benchmark.ipynb ノートブックを使用して負荷テストを実行します。 ノートブックのセットアップは非常に似ているはずです。 私たちは、bert-base-uncased (109M) と roberta-large (335M) の 128 つの NLP モデルをテストしました。 事前トレーニング済みのモデルとトークナイザーはどちらも Hugging Face ハブからダウンロードされ、テスト ペイロードはサンプル文字列を使用してトークナイザーから生成されます。 最大シーケンス長はデフォルトで XNUMX です。より長い文字列をテストする必要がある場合は、そのパラメーターを調整することを忘れないでください。 NLP ノートブックを実行すると、同じ可視化セットが生成されます: Pytorch (左) と TensorRT (右)。

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。
GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。

これらから、NLP モデルに対する TensorRT のパフォーマンス上の利点がさらに大きくなることがわかりました。 取る roberta-large たとえば、ml.g4dn.2xlarge インスタンスのモデルでは、推論のレイテンシーが 180 ミリ秒から 56 ミリ秒 (70% の改善) に劇的に減少し、スループットは 406 秒あたり 33 リクエストから 167 に 50% 改善されました。ユーザーは 180% 増加しました。 元の PyTorch モデルの 120 と比較して、XNUMX の同時ユーザーに達するまで失敗したリクエストは観察されませんでした。 メモリ使用率に関しては、TensorRT 用にロードされたモデルが XNUMX つ少なくなりました (XNUMX つのモデルから XNUMX つのモデルへ)。 ただし、マイナスの影響は、CNN ベースのモデルで観察されたものと比較してはるかに小さい.

メモリ使用率の分析

次の表は、PyTorch から TensorRT へのメモリ使用率の影響に関する完全な分析を示しています。 CNN ベースのモデルはより悪影響を受けると前述しました。 の ResNet50 モデルでは、50 つの GPU インスタンス タイプすべてでロードされたモデルの数が XNUMX% 以上減少しました。 Convnext_base 全体で約 70% とさらに大幅に削減されました。 一方、変圧器モデルへの影響は小さいか、混在しています。 vit_large_patch16_224 および roberta-large 平均でそれぞれ約 20% と 3% 削減されましたが、 bert-base-uncased 約 40% の改善が見られました。

レイテンシ、スループット、信頼性における優れたパフォーマンスと、ロードされるモデルの最大数へのわずかな影響に関して、すべてのデータ ポイントを全体として見ると、Transformer ベースのモデル アーキテクチャには TensorRT モデルをお勧めします。 CNN については、パフォーマンス上の利点が追加のホスティング インフラストラクチャのコストを上回ることを確認するために、さらなるコスト パフォーマンス分析が必要であると考えています。

ML ユースケース アーキテクチャ モデル名 インスタンスタイプ フレームワーク ロードされた最大モデル 差分 (%) 平均差分 (%)
CV CNN Resnet50 ml.g4dn.2xlarge パイトーチ 46 -50% -50%
TensorRT 23
ml.g5.2xラージ パイトーチ 70 -51%
TensorRT 34
ml.p3.2xlarge パイトーチ 49 -51%
TensorRT 24
Convnext_base ml.g4dn.2xlarge パイトーチ 33 -50% -70%
TensorRT 10
ml.g5.2xラージ パイトーチ 50 -70%
TensorRT 16
ml.p3.2xlarge パイトーチ 35 -69%
TensorRT 11
トランスフォーマー vit_large_patch16_224 ml.g4dn.2xlarge パイトーチ 10 -30% -20%
TensorRT 7
ml.g5.2xラージ パイトーチ 15 -13%
TensorRT 13
ml.p3.2xlarge パイトーチ 11 -18%
TensorRT 9
NLP Roberta-large ml.g4dn.2xlarge パイトーチ 9 -11% -3%
TensorRT 8
ml.g5.2xラージ パイトーチ 13 0%
TensorRT 13
ml.p3.2xlarge パイトーチ 9 0%
TensorRT 9
Bert-base-uncased ml.g4dn.2xlarge パイトーチ 26 視聴者の38%が 視聴者の38%が
TensorRT 42
ml.g5.2xラージ パイトーチ 39 視聴者の38%が
TensorRT 50
ml.p3.2xlarge パイトーチ 28 視聴者の38%が
TensorRT 36

次の表は、XNUMX つの GPU インスタンス タイプすべてのすべてのメトリクスに対する完全なベンチマーク結果を示しています。

ml.g4dn.2xlarge

Use Case アーキテクチャ モデル名 パラメータ数 フレームワーク ロードされた最大モデル 差分 (%) 待ち時間(ミリ秒) 差分 (%) スループット (qps) 差分 (%) 最大同時ユーザー数 差分 (%)
CV CNN resnet50 25M パイトーチ 46 -50% 164 -32% 120 視聴者の38%が 180 NA
TensorRT 23 . 111 . 142 . 180 .
convnext_base 88M パイトーチ 33 -70% 154 -22% 64 視聴者の38%が 140 視聴者の38%が
TensorRT 10 . 120 . 129 . 160 .
トランスフォーマー vit_large_patch16_224 304M パイトーチ 10 -30% 425 -69% 26 視聴者の38%が 140 視聴者の38%が
TensorRT 7 . 131 . 105 . 160 .
NLP bert-base-uncased 109M パイトーチ 26 視聴者の38%が 70 -39% 105 視聴者の38%が 140 視聴者の38%が
TensorRT 42 . 43 . 254 . 180 .
roberta-large 335M パイトーチ 9 -11% 187 -70% 33 視聴者の38%が 120 視聴者の38%が
TensorRT 8 . 56 . 167 . 180 .

ml.g5.2xラージ

Use Case アーキテクチャ モデル名 パラメータ数 フレームワーク ロードされた最大モデル 差分 (%) 待ち時間(ミリ秒) 差分 (%) スループット (qps) 差分 (%) 最大同時ユーザー数 差分 (%)
CV CNN resnet50 25M パイトーチ 70 -51% 159 -31% 146 視聴者の38%が 180 視聴者の38%が
TensorRT 34 . 110 . 166 . 200 .
convnext_base 88M パイトーチ 50 -68% 149 -23% 134 視聴者の38%が 180 0%
TensorRT 16 . 115 . 152 . 180 .
トランスフォーマー vit_large_patch16_224 304M パイトーチ 15 -13% 149 -22% 105 視聴者の38%が 160 視聴者の38%が
TensorRT 13 . 116 . 142 . 200 .
NLP bert-base-uncased 109M パイトーチ 39 視聴者の38%が 65 -29% 183 視聴者の38%が 180 視聴者の38%が
TensorRT 50 . 46 . 253 . 200 .
roberta-large 335M パイトーチ 13 0% 97 -38% 121 視聴者の38%が 140 視聴者の38%が
TensorRT 13 . 60 . 177 . 160 .

ml.p3.2xlarge

Use Case アーキテクチャ モデル名 パラメータ数 フレームワーク ロードされた最大モデル 差分 (%) 待ち時間(ミリ秒) 差分 (%) スループット (qps) 差分 (%) 最大同時ユーザー数 差分 (%)
CV CNN resnet50 25M パイトーチ 49 -51% 197 -41% 94 視聴者の38%が 160 -12%
TensorRT 24 . 117 . 111 . 140 .
convnext_base 88M パイトーチ 35 -69% 178 -23% 89 視聴者の38%が 140 視聴者の38%が
TensorRT 11 .137 137 . 99 . 160 .
トランスフォーマー vit_large_patch16_224 304M パイトーチ 11 -18% 186 -28% 83 視聴者の38%が 140 視聴者の38%が
TensorRT 9 . 134 . 102 . 180 .
NLP bert-base-uncased 109M パイトーチ 28 視聴者の38%が 77 -40% 133 視聴者の38%が 140 視聴者の38%が
TensorRT 36 . 46 . 212 . 200 .
roberta-large 335M パイトーチ 9 0% 108 -44% 88 視聴者の38%が 160 0%
TensorRT 9 . 61 . 141 . 160 .

次の表は、すべてのインスタンス タイプの結果をまとめたものです。 ml.g5.2xlarge インスタンスは最高のパフォーマンスを提供しますが、ml.p3.2xlarge インスタンスは 5 つの中で最も高価であるにもかかわらず、一般的にパフォーマンスが低下します。 g4 および gXNUMXdn インスタンスは、推論ワークロードに最適な価値を示しています。

Use Case アーキテクチャ モデル名 パラメータ数 フレームワーク インスタンスタイプ ロードされた最大モデル 差分 (%) 待ち時間(ミリ秒) 差分 (%) スループット (qps) 差分 (%) 最大同時ユーザー数
CV CNN resnet50 25M パイトーチ ml.g5.2xラージ 70 . 159 . 146 . 180
. . . . . ml.p3.2xlarge 49 . 197 . 94 . 160
. . . . . ml.g4dn.2xlarge 46 . 164 . 120 . 180
CV CN resnet50 25M TensorRT ml.g5.2xラージ 34 -51% 110 -31% 166 視聴者の38%が 200
. . . . . ml.p3.2xlarge 24 -51% 117 -41% 111 視聴者の38%が 200
. . . . . ml.g4dn.2xlarge 23 -50% 111 -32% 142 視聴者の38%が 180
NLP トランスフォーマー bert-base-uncased 109M ピトーチ ml.g5.2xラージ 39 . 65 . 183 . 180
. . . . . ml.p3.2xlarge 28 . 77 . 133 . 140
. . . . . ml.g4dn.2xlarge 26 . 70 . 105 . 140
NLP トランスフォーマー bert-base-uncased 109M TensorRT ml.g5.2xラージ 50 視聴者の38%が 46 -29% 253 視聴者の38%が 200
. . . . . ml.p3.2xlarge 36 視聴者の38%が 46 -40% 212 視聴者の38%が 200
. . . . . ml.g4dn.2xlarge 42 視聴者の38%が 43 -39% 254 視聴者の38%が 180

クリーンアップ

負荷テストが完了したら、生成されたリソースをクリーンアップして、追加料金が発生しないようにします。 主なリソースは、Amazon S3 の SageMaker エンドポイントとモデル アーティファクト ファイルです。 簡単に削除できるように、ノートブック ファイルには次のクリーンアップ コードが含まれています。

delete_endpoint(sm_client, sm_model_name, endpoint_config_name, endpoint_name) ! aws s3 rm --recursive {trt_mme_path}

まとめ

この投稿では、GPU を備えた SageMaker マルチモデル エンドポイントで実行されているさまざまなディープ ニューラル ネットワーク モデルのテスト結果と分析を共有しました。 私たちが共有した結果と洞察は、さまざまな指標とインスタンス タイプにわたるパフォーマンスの妥当な断面を提供するはずです。 その過程で、GPU を使用して SageMaker MME のベンチマーク テストを実行するための推奨アプローチも紹介しました。 提供されているツールとサンプル コードは、ベンチマーク テストをすばやく開始し、高速化されたコンピューティング ハードウェアで数百の DNN モデルを費用対効果の高い方法でホストする方法について、より多くの情報に基づいた決定を下すのに役立ちます。 GPU の MME サポートを使用して独自のモデルのベンチマークを開始するには、次を参照してください。 サポートされているアルゴリズム、フレームワーク、およびインスタンスGitHubレポ 追加の例とドキュメントについては。


著者について

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。ジェームズ・ウー AWSのシニアAI/MLスペシャリストソリューションアーキテクトです。 お客様がAI/MLソリューションを設計および構築するのを支援します。 Jamesの仕事は、コンピュータビジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 AWSに入社する前、Jamesは、エンジニアリングで10年間、マーケティングおよび広告業界で6年間を含む、4年以上にわたってアーキテクト、開発者、およびテクノロジーのリーダーでした。

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。ヴィクラムエランゴ は、米国バージニア州に拠点を置くアマゾンウェブサービスのAI/MLスペシャリストソリューションアーキテクトです。 Vikramは、大規模な機械学習アプリケーションを構築および展開するための設計、ソートリーダーシップにより、金融および保険業界の顧客を支援します。 彼は現在、自然言語処理、責任あるAI、推論の最適化、企業全体でのMLのスケーリングに焦点を当てています。 余暇には、家族と一緒に旅行、ハイキング、料理、キャンプを楽しんでいます。

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。サイモンザマリン はAI / MLソリューションアーキテクトであり、その主な焦点は、顧客がデータ資産から価値を引き出すのを支援することです。 余暇には、家族と過ごしたり、SFを読んだり、さまざまなDIYハウスプロジェクトに取り組んだりしています。

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデル エンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。 サウラブ・トリカンデ Amazon SageMaker Inference のシニア プロダクト マネージャーです。 彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。 彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープ ラーニング モデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。 余暇には、Saurabh はハイキングを楽しんだり、革新的なテクノロジーについて学んだり、TechCrunch をフォローしたり、家族と過ごしたりしています。

タイムスタンプ:

より多くの AWS機械学習