GPU を備えた Amazon SageMaker マルチモデルエンドポイントを使用して、モデルサービングで大規模なハイパフォーマンスを実現

プラトン再発行

フォロワー： 0

アマゾンセージメーカーマルチモデルエンドポイント (MME) は、多数の機械学習 (ML) モデルをデプロイするためのスケーラブルで費用対効果の高い方法を提供します。これにより、単一のエンドポイントの背後にある単一のサービスコンテナーに複数の ML モデルをデプロイできます。そこから、SageMaker はモデルのロードとアンロードを管理し、トラフィックパターンに基づいてリソースをスケーリングします。ホスティングリソースを共有して再利用し、大量のモデルを管理する運用上の負担を軽減するというメリットがあります。

11月2022では、 GPU のサポートを追加した MMEこれにより、単一の GPU デバイスで複数のモデルを実行し、単一のエンドポイントの背後で GPU インスタンスをスケーリングできます。これにより、GPU による高速化されたコンピューティングの恩恵を受けるディープニューラルネットワーク (DNN) モデルに対する MME の強い需要が満たされます。これらには、コンピュータービジョン (CV)、自然言語処理 (NLP)、生成 AI モデルが含まれます。需要の理由には次のようなものがあります。

DNN モデルは通常、サイズが大きく複雑であり、急速に成長し続けています。 NLP モデルを例にとると、その多くは数十億のパラメータを超えており、GPU は低レイテンシと高スループットの要件を満たす必要があります。
これらのモデルをカスタマイズして、個々のユーザーに高度にパーソナライズされたエクスペリエンスを提供する必要性が高まっていることがわかりました。これらのモデルの数が増えるにつれて、多くのモデルを大規模に展開して運用できる、より簡単なソリューションが必要になります。
GPU インスタンスは高価であり、GPU の使用率を最大化し、運用コストを削減するために、これらのインスタンスを可能な限り再利用したいと考えています。

これらすべての理由から、DNN モデルの理想的なオプションとして GPU を備えた MME が挙げられますが、負荷テストを実行して、ユースケースの要件を満たす適切なエンドポイント構成を見つけることをお勧めします。インスタンスタイプ、インスタンス数、モデルサイズ、モデルアーキテクチャなど、多くの要因が負荷テストの結果に影響を与える可能性があります。さらに、負荷テストは、試行錯誤を繰り返す方法ではなく、適切な指標を使用して自動スケーリング戦略を導くのに役立ちます。

これらの理由から、GPU を使用して MME で適切な負荷テストを実行し、ML ユースケースに最適な構成を見つけるのに役立つように、この投稿をまとめました。さまざまなインスタンスタイプで MME を使用してホストされている NLP および CV で最も一般的な DNN モデルの負荷テスト結果を共有します。テスト結果からの洞察と結論を要約して、独自の展開を構成する際に十分な情報に基づいた決定を下すのに役立ちます。その過程で、GPU で MME の負荷テストを実行するための推奨アプローチも共有します。推奨されるツールと手法によって、インスタンスタイプごとにロードできるモデルの最適な数が決まり、最高のコストパフォーマンスを達成するのに役立ちます。

ソリューションの概要

MME および GPU を搭載した MME の概要については、次を参照してください。マルチモデルエンドポイントの作成および Amazon SageMaker マルチモデルエンドポイントを使用して GPU で複数の深層学習モデルを実行する. この投稿の負荷テストのコンテキストについては、サンプルコードを次の URL からダウンロードできます。 GitHubレポ結果を再現したり、独自のモデルをベンチマークするためのテンプレートとして使用したりできます。リポジトリには 4 つのノートブックが用意されています。2 つは CV モデルの負荷テスト用、もう 5.2 つは NLP 用です。さまざまなサイズとアーキテクチャのいくつかのモデルが、さまざまなタイプの GPU インスタンス (ml.g3.2dn.XNUMXxlarge、ml.gXNUMXxlarge、および ml.pXNUMXxlarge) でベンチマークされました。これにより、インスタンスとモデルタイプごとに、次のメトリック全体でパフォーマンスの合理的なクロスセクションが提供されます。

GPU メモリにロードできるモデルの最大数
推論クエリごとにクライアント側で観察されたエンドツーエンドの応答レイテンシ
エンドポイントがエラーなしで処理できる XNUMX 秒あたりのクエリの最大スループット
失敗したリクエストが観察される前のインスタンスあたりの最大現在のユーザー

次の表に、テストしたモデルを示します。

Use Case	モデル名	ディスク上のサイズ	パラメータ数
CV	`resnet50`	100Mb	25M
CV	`convnext_base`	352Mb	88M
CV	`vit_large_patch16_224`	1.2Gb	304M
NLP	`bert-base-uncased`	436Mb	109M
NLP	`roberta-large`	1.3Gb	335M

次の表に、テストされた GPU インスタンスを示します。

インスタンスタイプ	GPUタイプ	GPU の数	GPU メモリ (GiB)
ml.g4dn.2xlarge	NVIDIA T4 GPU	1	16
ml.g5.2xラージ	NVIDIA A10G Tensor コア GPU	1	24
ml.p3.2xlarge	NVIDIA® V100 Tensor コア GPU	1	16

前に述べたように、コード例他のモデルやインスタンスタイプに採用できます。

MME は現在、単一の GPU インスタンスのみをサポートしていることに注意してください。サポートされているインスタンスタイプのリストについては、を参照してください。サポートされているアルゴリズム、フレームワーク、およびインスタンス.

ベンチマーク手順は、次の手順で構成されます。

モデルハブから事前トレーニング済みのモデルを取得します。
SageMaker MME で提供するモデルアーティファクトを準備します (参照 Amazon SageMaker マルチモデルエンドポイントを使用して GPU で複数の深層学習モデルを実行する詳細については）。
GPU インスタンスに SageMaker MME をデプロイします。
指定されたしきい値内で GPU メモリにロードできるモデルの最大数を決定します。
Locust Load Testing Framework を使用して、インスタンスにロードされたモデルをランダムに呼び出すトラフィックをシミュレートします。
データを収集し、結果を分析します。
必要に応じて、モデルを TensorRT にコンパイルした後、手順 2 ～ 6 を繰り返します。

手順 4 と 5 は、より深く見ていきます。 SageMaker GPU MME 内のモデルは、動的な方法でメモリにロードされます。したがって、ステップ 4 では、初期モデルアーティファクトを Amazon シンプルストレージサービス (Amazon S3) を開き、モデルを呼び出してメモリにロードします。最初の呼び出しの後、消費された GPU メモリの量を測定し、初期モデルのコピーを作成し、モデルのコピーを呼び出してメモリにロードし、消費された GPU メモリの合計量を再度測定します。このプロセスは、GPU メモリ使用率の指定された割合のしきい値に達するまで繰り返されます。ベンチマークでは、しきい値を 90% に設定して、より大きなバッチでの推論のための妥当なメモリバッファーを提供したり、使用頻度の低い他のモデルをロードするためのスペースを残したりしました。

ユーザートラフィックをシミュレートする

モデルの数を決定したら、次を使用して負荷テストを実行できます。 Locust 負荷テストフレームワーク. 負荷テストでは、ランダムモデルに対するユーザーリクエストをシミュレートし、応答の待ち時間やスループットなどのメトリックを自動的に測定します。

Locust は、カスタムトラフィックパターンを定義できるカスタムロードテストシェイプをサポートしています。このベンチマークで使用された形状は、次の図に示されています。最初の 30 秒間で、エンドポイントは 10 人の同時ユーザーでウォームアップされます。 30 秒後、20 秒あたり 40 人の割合で新しいユーザーが生成され、20 秒の時点で 60 人の同時ユーザーに到達します。その後、エンドポイントは 40 秒のマークまで 200 人の同時ユーザーで着実にベンチマークされます。200 秒の時点で、Locust は再び XNUMX 秒あたり XNUMX 人のユーザーを増やし始め、XNUMX 人の同時ユーザーまで増加します。この増加と安定したテストのパターンは、エンドポイントが XNUMX 人の同時ユーザーに増加するまで繰り返されます。ユースケースによっては、予想されるトラフィックパターンをより正確に反映するために、locust_benchmark_sm.py のロードテストシェイプを調整する必要がある場合があります。たとえば、より大きな言語モデルをホストする場合、XNUMX 人の同時ユーザーによる負荷テストは、XNUMX つのインスタンスでホストされるモデルでは実行できない可能性があるため、ユーザー数を減らすか、インスタンス数を増やすことが必要になる場合があります。また、負荷テストの期間を延長して、長期間にわたってエンドポイントの安定性をより正確に測定することもできます。

stages = [
{"duration": 30, "users": 10, "spawn_rate": 5},
{"duration": 60, "users": 20, "spawn_rate": 1},
{"duration": 90, "users": 40, "spawn_rate": 2},
…
]

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデルエンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。

PyTorch または TensorRT のいずれかを使用して、一貫したサービスベースですべて実行されている同種モデルのエンドポイントのみをベンチマークしたことに注意してください。これは、MME がメモリ消費や応答時間などの類似した特性を持つ多くのモデルをホストするのに最適であるためです。で提供されているベンチマークテンプレート GitHubレポ MME で異種モデルを提供することで、必要なパフォーマンスと安定性が得られるかどうかを判断するために引き続き使用できます。

CV モデルのベンチマーク結果

cv-benchmark.ipynb ノートブックを使用して、コンピュータービジョンモデルの負荷テストを実行します。事前トレーニング済みのモデル名とインスタンスタイプのパラメーターを調整して、さまざまなモデルとインスタンスタイプの組み合わせでのパフォーマンス負荷テストを行うことができます。最小から最大までさまざまなサイズ範囲で XNUMX つの CV モデルを意図的にテストしました。 resnet50 （25万）、 convnext_base (88M)、および vit_large_patch16_224 (304M)。このリスト以外のモデルを選択した場合は、コードを調整する必要がある場合があります。さらに、ノートブックは入力画像の形状をデフォルトで 224x224x3 の画像テンソルに設定します。異なるサイズの画像を使用するモデルをベンチマークする必要がある場合は、それに応じて入力形状を調整することを忘れないでください。

ノートブック全体を実行すると、いくつかのパフォーマンス分析の視覚化が得られます。最初の XNUMX つは、同時ユーザーの増加に関するモデルのパフォーマンスを詳述しています。次の図は、 ResNet50 ml.g4dn.2xlarge で実行されているモデル。PyTorch (左) と TensorRT (右) を比較。一番上の折れ線グラフは、y 軸にモデルのレイテンシとスループットを示し、x 軸に反映される同時クライアントワーカー数の増加を示しています。下の棒グラフには、成功したリクエストと失敗したリクエストの数が表示されます。

テストしたすべてのコンピュータービジョンモデルを調べたところ、次のことがわかりました。

モデルが大きいほど、レイテンシー (ミリ秒単位) が高くなり、スループット (XNUMX 秒あたりのリクエスト数) が低くなります (resnet50 > convnext_base > vit_large_patch16_224).
レイテンシーの増加は、推論サーバーでより多くのリクエストがキューに入れられるため、ユーザー数に比例します。
大規模なモデルはより多くのコンピューティングリソースを消費し、小規模なモデルよりも少数のユーザーで最大スループットの制限に達する可能性があります。これは、 vit_large_patch16_224 このモデルは、140 人の同時ユーザーで最初の失敗した要求を記録しました。テストした他の 140 つのモデルよりもかなり大きいため、同時実行性が高くても全体的に失敗したリクエストが最も多くなりました。これは、XNUMX を超える同時ユーザーをサポートすることが意図されている場合、エンドポイントが XNUMX つのインスタンスを超えて拡張する必要があることを明確に示しています。

ノートブックの実行の最後に、XNUMX つの主要なメトリックのそれぞれについて、PyTorch と TensorRT モデルの比較の概要も得られます。ベンチマークテストから、CV モデルはすべて、TensorRT のコンパイル後にモデルのパフォーマンスが向上したことがわかりました。私たちの ResNet50 再び例としてモデルを使用すると、レイテンシーが 32% 減少し、スループットが 18% 増加しました。同時ユーザーの最大数は同じままでしたが、 ResNet50、他の 14 つのモデルでは、サポートできる同時ユーザー数が 50% 向上しました。ただし、TensorRT のパフォーマンスの向上は、メモリ使用率の増加を犠牲にして行われたため、MME によって読み込まれるモデルが少なくなりました。畳み込みニューラルネットワーク (CNN) を使用するモデルでは、影響が大きくなります。実際、ResNet50 モデルは、PyTorch から TensorRT に移行する際に約 46 倍の GPU メモリを消費し、その結果、ロードされるモデルが 23% 少なくなりました (XNUMX 対 XNUMX)。この動作については、次のセクションで詳しく診断します。

NLP モデルのベンチマーク結果

NLP モデルの場合、nlp-benchmark.ipynb ノートブックを使用して負荷テストを実行します。ノートブックのセットアップは非常に似ているはずです。私たちは、bert-base-uncased (109M) と roberta-large (335M) の 128 つの NLP モデルをテストしました。事前トレーニング済みのモデルとトークナイザーはどちらも Hugging Face ハブからダウンロードされ、テストペイロードはサンプル文字列を使用してトークナイザーから生成されます。最大シーケンス長はデフォルトで XNUMX です。より長い文字列をテストする必要がある場合は、そのパラメーターを調整することを忘れないでください。 NLP ノートブックを実行すると、同じ可視化セットが生成されます: Pytorch (左) と TensorRT (右)。

これらから、NLP モデルに対する TensorRT のパフォーマンス上の利点がさらに大きくなることがわかりました。取る roberta-large たとえば、ml.g4dn.2xlarge インスタンスのモデルでは、推論のレイテンシーが 180 ミリ秒から 56 ミリ秒 (70% の改善) に劇的に減少し、スループットは 406 秒あたり 33 リクエストから 167 に 50% 改善されました。ユーザーは 180% 増加しました。元の PyTorch モデルの 120 と比較して、XNUMX の同時ユーザーに達するまで失敗したリクエストは観察されませんでした。メモリ使用率に関しては、TensorRT 用にロードされたモデルが XNUMX つ少なくなりました (XNUMX つのモデルから XNUMX つのモデルへ)。ただし、マイナスの影響は、CNN ベースのモデルで観察されたものと比較してはるかに小さい.

メモリ使用率の分析

次の表は、PyTorch から TensorRT へのメモリ使用率の影響に関する完全な分析を示しています。 CNN ベースのモデルはより悪影響を受けると前述しました。の ResNet50 モデルでは、50 つの GPU インスタンスタイプすべてでロードされたモデルの数が XNUMX% 以上減少しました。 Convnext_base 全体で約 70% とさらに大幅に削減されました。一方、変圧器モデルへの影響は小さいか、混在しています。 vit_large_patch16_224 および roberta-large 平均でそれぞれ約 20% と 3% 削減されましたが、 bert-base-uncased 約 40% の改善が見られました。

レイテンシ、スループット、信頼性における優れたパフォーマンスと、ロードされるモデルの最大数へのわずかな影響に関して、すべてのデータポイントを全体として見ると、Transformer ベースのモデルアーキテクチャには TensorRT モデルをお勧めします。 CNN については、パフォーマンス上の利点が追加のホスティングインフラストラクチャのコストを上回ることを確認するために、さらなるコストパフォーマンス分析が必要であると考えています。

ML ユースケース	アーキテクチャ	モデル名	インスタンスタイプ	フレームワーク	ロードされた最大モデル	差分 (%)	平均差分 (%)
CV	CNN	`Resnet50`	ml.g4dn.2xlarge	パイトーチ	46	-50％	-50％
				TensorRT	23
			ml.g5.2xラージ	パイトーチ	70	-51％
				TensorRT	34
			ml.p3.2xlarge	パイトーチ	49	-51％
				TensorRT	24
		`Convnext_base`	ml.g4dn.2xlarge	パイトーチ	33	-50％	-70％
				TensorRT	10
			ml.g5.2xラージ	パイトーチ	50	-70％
				TensorRT	16
			ml.p3.2xlarge	パイトーチ	35	-69％
				TensorRT	11
	トランスフォーマー	`vit_large_patch16_224`	ml.g4dn.2xlarge	パイトーチ	10	-30％	-20％
				TensorRT	7
			ml.g5.2xラージ	パイトーチ	15	-13％
				TensorRT	13
			ml.p3.2xlarge	パイトーチ	11	-18％
				TensorRT	9
NLP		`Roberta-large`	ml.g4dn.2xlarge	パイトーチ	9	-11％	-3％
				TensorRT	8
			ml.g5.2xラージ	パイトーチ	13	0%
				TensorRT	13
			ml.p3.2xlarge	パイトーチ	9	0%
				TensorRT	9
		`Bert-base-uncased`	ml.g4dn.2xlarge	パイトーチ	26	視聴者の３８%が	視聴者の３８%が
				TensorRT	42
			ml.g5.2xラージ	パイトーチ	39	視聴者の３８%が
				TensorRT	50
			ml.p3.2xlarge	パイトーチ	28	視聴者の３８%が
				TensorRT	36

次の表は、XNUMX つの GPU インスタンスタイプすべてのすべてのメトリクスに対する完全なベンチマーク結果を示しています。

ml.g4dn.2xlarge
Use Case	アーキテクチャ	モデル名	パラメータ数	フレームワーク	ロードされた最大モデル	差分 (%)	待ち時間（ミリ秒）	差分 (%)	スループット (qps)	差分 (%)	最大同時ユーザー数	差分 (%)
CV	CNN	`resnet50`	25M	パイトーチ	46	-50％	164	-32％	120	視聴者の３８%が	180	NA
		`resnet50`	25M	TensorRT	23	.	111	.	142	.	180	.
		`convnext_base`	88M	パイトーチ	33	-70％	154	-22％	64	視聴者の３８%が	140	視聴者の３８%が
		`convnext_base`	88M	TensorRT	10	.	120	.	129	.	160	.
	トランスフォーマー	`vit_large_patch16_224`	304M	パイトーチ	10	-30％	425	-69％	26	視聴者の３８%が	140	視聴者の３８%が
		`vit_large_patch16_224`	304M	TensorRT	7	.	131	.	105	.	160	.
NLP		`bert-base-uncased`	109M	パイトーチ	26	視聴者の３８%が	70	-39％	105	視聴者の３８%が	140	視聴者の３８%が
		`bert-base-uncased`	109M	TensorRT	42	.	43	.	254	.	180	.
		`roberta-large`	335M	パイトーチ	9	-11％	187	-70％	33	視聴者の３８%が	120	視聴者の３８%が
		`roberta-large`	335M	TensorRT	8	.	56	.	167	.	180	.

ml.g5.2xラージ
Use Case	アーキテクチャ	モデル名	パラメータ数	フレームワーク	ロードされた最大モデル	差分 (%)	待ち時間（ミリ秒）	差分 (%)	スループット (qps)	差分 (%)	最大同時ユーザー数	差分 (%)
CV	CNN	`resnet50`	25M	パイトーチ	70	-51％	159	-31％	146	視聴者の３８%が	180	視聴者の３８%が
		`resnet50`	25M	TensorRT	34	.	110	.	166	.	200	.
		`convnext_base`	88M	パイトーチ	50	-68％	149	-23％	134	視聴者の３８%が	180	0%
		`convnext_base`	88M	TensorRT	16	.	115	.	152	.	180	.
	トランスフォーマー	`vit_large_patch16_224`	304M	パイトーチ	15	-13％	149	-22％	105	視聴者の３８%が	160	視聴者の３８%が
		`vit_large_patch16_224`	304M	TensorRT	13	.	116	.	142	.	200	.
NLP		`bert-base-uncased`	109M	パイトーチ	39	視聴者の３８%が	65	-29％	183	視聴者の３８%が	180	視聴者の３８%が
		`bert-base-uncased`	109M	TensorRT	50	.	46	.	253	.	200	.
		`roberta-large`	335M	パイトーチ	13	0%	97	-38％	121	視聴者の３８%が	140	視聴者の３８%が
		`roberta-large`	335M	TensorRT	13	.	60	.	177	.	160	.

ml.p3.2xlarge
Use Case	アーキテクチャ	モデル名	パラメータ数	フレームワーク	ロードされた最大モデル	差分 (%)	待ち時間（ミリ秒）	差分 (%)	スループット (qps)	差分 (%)	最大同時ユーザー数	差分 (%)
CV	CNN	`resnet50`	25M	パイトーチ	49	-51％	197	-41％	94	視聴者の３８%が	160	-12％
		`resnet50`	25M	TensorRT	24	.	117	.	111	.	140	.
		`convnext_base`	88M	パイトーチ	35	-69％	178	-23％	89	視聴者の３８%が	140	視聴者の３８%が
		`convnext_base`	88M	TensorRT	11	.137	137	.	99	.	160	.
	トランスフォーマー	`vit_large_patch16_224`	304M	パイトーチ	11	-18％	186	-28％	83	視聴者の３８%が	140	視聴者の３８%が
		`vit_large_patch16_224`	304M	TensorRT	9	.	134	.	102	.	180	.
NLP		`bert-base-uncased`	109M	パイトーチ	28	視聴者の３８%が	77	-40％	133	視聴者の３８%が	140	視聴者の３８%が
		`bert-base-uncased`	109M	TensorRT	36	.	46	.	212	.	200	.
		`roberta-large`	335M	パイトーチ	9	0%	108	-44％	88	視聴者の３８%が	160	0%
		`roberta-large`	335M	TensorRT	9	.	61	.	141	.	160	.

次の表は、すべてのインスタンスタイプの結果をまとめたものです。 ml.g5.2xlarge インスタンスは最高のパフォーマンスを提供しますが、ml.p3.2xlarge インスタンスは 5 つの中で最も高価であるにもかかわらず、一般的にパフォーマンスが低下します。 g4 および gXNUMXdn インスタンスは、推論ワークロードに最適な価値を示しています。

Use Case	アーキテクチャ	モデル名	パラメータ数	フレームワーク	インスタンスタイプ	ロードされた最大モデル	差分 (%)	待ち時間（ミリ秒）	差分 (%)	スループット (qps)	差分 (%)	最大同時ユーザー数
CV	CNN	`resnet50`	25M	パイトーチ	ml.g5.2xラージ	70	.	159	.	146	.	180
.	.	.	.	.	ml.p3.2xlarge	49	.	197	.	94	.	160
.	.	.	.	.	ml.g4dn.2xlarge	46	.	164	.	120	.	180
CV	CN	`resnet50`	25M	TensorRT	ml.g5.2xラージ	34	-51％	110	-31％	166	視聴者の３８%が	200
.	.	.	.	.	ml.p3.2xlarge	24	-51％	117	-41％	111	視聴者の３８%が	200
.	.	.	.	.	ml.g4dn.2xlarge	23	-50％	111	-32％	142	視聴者の３８%が	180
NLP	トランスフォーマー	`bert-base-uncased`	109M	ピトーチ	ml.g5.2xラージ	39	.	65	.	183	.	180
.	.	.	.	.	ml.p3.2xlarge	28	.	77	.	133	.	140
.	.	.	.	.	ml.g4dn.2xlarge	26	.	70	.	105	.	140
NLP	トランスフォーマー	`bert-base-uncased`	109M	TensorRT	ml.g5.2xラージ	50	視聴者の３８%が	46	-29％	253	視聴者の３８%が	200
.	.	.	.	.	ml.p3.2xlarge	36	視聴者の３８%が	46	-40％	212	視聴者の３８%が	200
.	.	.	.	.	ml.g4dn.2xlarge	42	視聴者の３８%が	43	-39％	254	視聴者の３８%が	180

クリーンアップ

負荷テストが完了したら、生成されたリソースをクリーンアップして、追加料金が発生しないようにします。主なリソースは、Amazon S3 の SageMaker エンドポイントとモデルアーティファクトファイルです。簡単に削除できるように、ノートブックファイルには次のクリーンアップコードが含まれています。

delete_endpoint(sm_client, sm_model_name, endpoint_config_name, endpoint_name) ! aws s3 rm --recursive {trt_mme_path}

まとめ

この投稿では、GPU を備えた SageMaker マルチモデルエンドポイントで実行されているさまざまなディープニューラルネットワークモデルのテスト結果と分析を共有しました。私たちが共有した結果と洞察は、さまざまな指標とインスタンスタイプにわたるパフォーマンスの妥当な断面を提供するはずです。その過程で、GPU を使用して SageMaker MME のベンチマークテストを実行するための推奨アプローチも紹介しました。提供されているツールとサンプルコードは、ベンチマークテストをすばやく開始し、高速化されたコンピューティングハードウェアで数百の DNN モデルを費用対効果の高い方法でホストする方法について、より多くの情報に基づいた決定を下すのに役立ちます。 GPU の MME サポートを使用して独自のモデルのベンチマークを開始するには、次を参照してください。サポートされているアルゴリズム、フレームワーク、およびインスタンスと GitHubレポ追加の例とドキュメントについては。

著者について

ジェームズ・ウー AWSのシニアAI/MLスペシャリストソリューションアーキテクトです。お客様がAI/MLソリューションを設計および構築するのを支援します。 Jamesの仕事は、コンピュータビジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 AWSに入社する前、Jamesは、エンジニアリングで10年間、マーケティングおよび広告業界で6年間を含む、4年以上にわたってアーキテクト、開発者、およびテクノロジーのリーダーでした。

GPU PlatoBlockchain Data Intelligence を備えた Amazon SageMaker マルチモデルエンドポイントを使用して、モデル提供の大規模なパフォーマンスを実現します。垂直検索。あい。 ヴィクラムエランゴ は、米国バージニア州に拠点を置くアマゾンウェブサービスのAI/MLスペシャリストソリューションアーキテクトです。 Vikramは、大規模な機械学習アプリケーションを構築および展開するための設計、ソートリーダーシップにより、金融および保険業界の顧客を支援します。彼は現在、自然言語処理、責任あるAI、推論の最適化、企業全体でのMLのスケーリングに焦点を当てています。余暇には、家族と一緒に旅行、ハイキング、料理、キャンプを楽しんでいます。

サイモンザマリン はAI / MLソリューションアーキテクトであり、その主な焦点は、顧客がデータ資産から価値を引き出すのを支援することです。余暇には、家族と過ごしたり、SFを読んだり、さまざまなDIYハウスプロジェクトに取り組んだりしています。

サウラブ・トリカンデ Amazon SageMaker Inference のシニアプロダクトマネージャーです。彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープラーニングモデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。余暇には、Saurabh はハイキングを楽しんだり、革新的なテクノロジーについて学んだり、TechCrunch をフォローしたり、家族と過ごしたりしています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/achieve-high-performance-at-scale-for-model-serving-using-amazon-sagemaker-multi-model-endpoints-with-gpu/

タイムスタンプ： 2023 年 2 月 24 日

タイムスタンプ： 2023 年 11 月 29 日

Hugging Face Amazon SageMaker コンテナを使用して独自のスクリプトを導入し、サマライザモデルを微調整してデプロイする

ソースクラスター：

AWS機械学習

ソースノード： 1600960

タイムスタンプ： 2022 年 7 月 29 日

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用して、大規模なデータセットでトレーニングされたパラメーターを再調整します。垂直検索。あい。

Amazon SageMaker Data Wrangler を使用して、大規模なデータセットでトレーニング済みパラメータを再調整する

ソースクラスター：

AWS機械学習

ソースノード： 1755503

タイムスタンプ： 2022 年 11 月 14 日

プラトン再発行

Amazon EKS を使用して、PyTorch ベースのタンパク質折りたたみ ML モデルである OpenFold の推論を大規模に実行する

Amazon Fraud Detector の新しい Account Takeover Insights モデルを使用して、ログイン時のアカウントの乗っ取りを防ぎます

バーコードレジストリがオブジェクト検出とAmazonSageMakerを使用して偽造品を検出する方法

インテリジェントなドキュメント処理のための Amazon Comprehend によるワンステップ分類とエンティティ認識の導入

Amazon SageMaker Canvas を使用して ML モデルのトレーニングを高速化することで、短期間で価値を生み出すビジネス成果を達成する

Hugging Face Amazon SageMaker コンテナを使用して独自のスクリプトを導入し、サマライザモデルを微調整してデプロイする

Amazon SageMaker Data Wrangler を使用して、大規模なデータセットでトレーニング済みパラメータを再調整する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー