Amazon SageMaker マルチモデルエンドポイントを使用して GPU で複数の深層学習モデルを実行する

プラトン再発行

フォロワー： 0

業界全体で AI の採用が加速しているため、顧客は、ディープラーニングにおける新しい科学的ブレークスルーを利用する洗練されたモデルを構築しています。これらの次世代モデルにより、自然言語処理 (NLP)、コンピュータービジョン、音声認識、医学研究、サイバーセキュリティ、タンパク質構造予測などの分野で最先端の人間のようなパフォーマンスを実現できます。 . たとえば、GPT-3、OPT、BLOOM などの大規模な言語モデルは、人間のようなニュアンスでテキストを翻訳、要約、および記述することができます。コンピュータービジョンの分野では、DALL-E や Imagen などのテキストから画像への拡散モデルを使用して、自然言語から写真のようにリアルな画像を作成し、周囲の世界からより高いレベルの視覚的および言語的理解を得ることができます。これらのマルチモーダルモデルは、さまざまなダウンストリームタスクに対してより豊富な機能を提供し、特定のドメインに合わせて微調整する機能を提供し、お客様に強力なビジネスチャンスをもたらします。

これらの深層学習モデルは、サイズの点で成長を続けており、通常、画像生成、テキストの要約、言語翻訳など、さまざまなタスクのモデルパフォーマンスをスケーリングするために数十億のモデルパラメーターが含まれています。また、個人に高度にパーソナライズされたエクスペリエンスを提供するために、これらのモデルをカスタマイズする必要もあります。その結果、さまざまなダウンストリームタスク用にこれらのモデルを微調整することによって、より多くのモデルが開発されています。 AI アプリケーションのレイテンシーとスループットの目標を満たすには、GPU インスタンスが CPU インスタンスよりも優先されます (GPU が提供する計算能力を考えると)。ただし、GPU インスタンスは高価であり、10 個を超えるモデルをデプロイする場合、コストが加算される可能性があります。これらのモデルは影響力のある AI アプリケーションをもたらす可能性がありますが、モデルのサイズと数が原因で、これらのディープラーニングモデルを費用対効果の高い方法でスケーリングすることは困難な場合があります。

アマゾンセージメーカーマルチモデルエンドポイント (MME) は、多数の深層学習モデルを展開するためのスケーラブルで費用対効果の高い方法を提供します。 MME は、Zendesk、Veeva、AT&T などの顧客の間で数百の CPU ベースのモデルをホストするための一般的なホスティングの選択肢です。以前は、GPU による高速化されたコンピューティングを必要とする何百ものディープラーニングモデルをデプロイするための選択肢が限られていました。本日、GPU の MME サポートを発表しました。 XNUMX つの SageMaker エンドポイントの背後に何千もの深層学習モデルをデプロイできるようになりました。 MME は、GPU コアで複数のモデルを実行し、複数のモデルにわたってエンドポイントの背後で GPU インスタンスを共有し、着信トラフィックに基づいてモデルを動的にロードおよびアンロードできるようになりました。これにより、コストを大幅に削減し、最高のコストパフォーマンスを実現できます。

この投稿では、SageMaker MME を使用して GPU で複数の深層学習モデルを実行する方法を示します。

SageMaker MME

SageMaker MME を使用すると、XNUMX つ以上のインスタンスを含む可能性がある単一の推論エンドポイントの背後に複数のモデルをデプロイできます。 MME を使用すると、各インスタンスは複数のモデルを読み込んで提供するように管理されます。 MME を使用すると、複数のモデルをホストし、すべてのモデルでインフラストラクチャを再利用するという直線的に増加するコストを解消できます。

次の図は、SageMaker MME のアーキテクチャを示しています。

SageMaker MME は、モデルを動的にダウンロードします。 Amazon シンプルストレージサービスエンドポイントが最初に作成されたときにすべてのモデルをダウンロードするのではなく、呼び出されたときに (Amazon S3)。その結果、モデルへの最初の呼び出しは、低いレイテンシーで完了する後続の推論よりも高い推論レイテンシーが発生する可能性があります。呼び出し時にモデルがコンテナーに既にロードされている場合、ダウンロードとロードのステップはスキップされ、モデルは低レイテンシーで推論を返します。たとえば、XNUMX 日に数回しか使用されないモデルがあるとします。オンデマンドで自動的に読み込まれますが、頻繁にアクセスされるモデルはメモリに保持され、一貫して低レイテンシで呼び出されます。

GPU をサポートする SageMaker MME

GPU を搭載した SageMaker MME は、 NVIDIATriton推論サーバー. NVIDIA Triton Inference Server は、推論処理プロセスを簡素化し、高い推論パフォーマンスを提供するオープンソースの推論処理ソフトウェアです。 Triton は、TensorFlow、NVIDIA® TensorRT™、PyTorch、MXNet、Python、ONNX、XGBoost、Scikit-learn、RandomForest、OpenVINO、カスタム C++ など、すべての主要なトレーニングおよび推論フレームワークをサポートしています。動的なバッチ処理、同時実行、トレーニング後の量子化、および最適なモデル構成を提供して、高性能の推論を実現します。さらに、NVIDIA Triton Inference Server が拡張されて実装されました。 MME API コントラクト、MME と統合します。

次の図は、MME ワークフローを示しています。

ワークフローの手順は次のとおりです。

SageMaker MME は、特定のモデルの HTTP 呼び出しリクエストを受け取ります。 TargetModel ペイロードとともにリクエストに含まれます。
SageMaker は、ターゲットモデルが読み込まれるエンドポイントの背後にある適切なインスタンスにトラフィックをルーティングします。 SageMaker は、MME の背後にあるすべてのモデルのトラフィックパターンを理解し、リクエストをスマートにルーティングします。
SageMaker は、エンドポイントの背後でモデル管理を行い、モデルをコンテナのメモリに動的にロードし、GPU インスタンスの共有フリートに基づいてモデルをアンロードして、最高の価格パフォーマンスを提供します。
SageMaker は、モデルを Amazon S3 からインスタンスのストレージボリュームに動的にダウンロードします。呼び出されたモデルがインスタンスストレージボリュームで利用できない場合、モデルはインスタンスストレージボリュームにダウンロードされます。インスタンスストレージボリュームが容量に達すると、SageMaker は未使用のモデルをストレージボリュームから削除します。
SageMaker はモデルを GPU アクセラレーションインスタンス上の NVIDIA Triton コンテナのメモリにロードし、推論リクエストを処理します。 GPU コアは、インスタンス内のすべてのモデルで共有されます。モデルがコンテナメモリにすでにロードされている場合、SageMaker はモデルを再度ダウンロードしてロードする必要がないため、後続のリクエストはより高速に処理されます。
SageMaker は MME エンドポイントへのトラフィックシェーピングを処理し、GPU インスタンスで最適なモデルコピーを維持して、最高の価格パフォーマンスを実現します。モデルが読み込まれるインスタンスにトラフィックをルーティングし続けます。使用率が高いためにインスタンスリソースが容量に達した場合、SageMaker はコンテナから使用頻度の低いモデルをアンロードして、リソースを解放し、より頻繁に使用されるモデルをロードします。

SageMaker MME は、自動スケーリングポリシーを使用して水平方向にスケーリングし、インスタンスごとの呼び出しや GPU 使用率などのメトリクスに基づいて追加の GPU コンピューティングインスタンスをプロビジョニングし、MME エンドポイントへのトラフィックの急増に対応できます。

ソリューションの概要

この投稿では、SageMaker MME の新機能を GPU でコンピュータービジョンのユースケースで使用する方法を紹介します。デモンストレーションの目的で、画像を 50 のカテゴリに分類できる ResNet-1,000 畳み込みニューラルネットワークの事前トレーニング済みモデルを使用します。次の方法について説明します。

PyTorch や TensorRT などのさまざまな Triton モデルフレームワークバックエンドを使用して、SageMaker MME で NVIDIA Triton 推論コンテナーを使用する
ResNet-50 モデルを最適化された TensorRT エンジン形式に変換し、SageMaker MME でデプロイする
MME の Auto Scaling ポリシーを設定する
を使用して、インスタンスと呼び出しの指標に関する洞察を得るアマゾンクラウドウォッチ

モデルアーティファクトを作成する

このセクションでは、Triton Inference Server モデル構成を使用して、SageMaker MME にデプロイする ResNet-50 事前トレーニング済みモデルを準備する手順について説明します。次のステップバイステップノートブックを使用して、すべての手順を再現できます。 GitHubの.

この記事では、XNUMX つのモデルを使用したデプロイについて説明します。ただし、何百ものモデルを準備して展開できます。モデルは同じフレームワークを共有する場合と共有しない場合があります。

PyTorch モデルを準備する

まず、torchvision models パッケージを使用して事前トレーニング済みの ResNet50 モデルを読み込みます。モデルを model.pt ファイルとして、TorchScript の最適化およびシリアル化された形式で保存します。 TorchScript は、例の入力を使用して ResNet50 モデルのフォワードパスを熱心なモードでコンパイルするため、寸法 224 x 224 の XNUMX つのカラーチャネルを持つ RGB 画像の XNUMX つのインスタンスを渡します。

次に、Triton Inference Server のモデルを準備する必要があります。次のコードは、PyTorch フレームワークバックエンドのモデルリポジトリを示しています。 Triton は、モデルリポジトリに配置された model.pt ファイルを使用して予測を提供します。

resnet
├── 1
│   └── model.pt
└── config.pbtxt

モデル構成ファイル config.pbtxt モデルの名前を指定する必要があります (resnet)、プラットフォームとバックエンドのプロパティ (pytorch_libtorch), max_batch_size (128)、および入力テンソルと出力テンソルとデータ型 (TYPE_FP32）情報。さらに、指定することができます instance_group & dynamic_batching 高性能な推論を実現するためのプロパティ。次のコードを参照してください。

name: "resnet"
platform: "pytorch_libtorch"
max_batch_size: 128
input {
  name: "INPUT__0"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "OUTPUT__0"
  data_type: TYPE_FP32
  dims: 1000
}

TensorRT モデルを準備する

NVIDIA TensorRT は、高性能なディープラーニング推論用の SDK であり、ディープラーニング推論オプティマイザと、推論アプリケーションの低レイテンシと高スループットを実現するランタイムが含まれています。コマンドラインツールを使用します trtexec から TensorRT シリアル化エンジンを生成する ONNX モデル形式。 ResNet-50 事前トレーニング済みモデルを NVIDIA TensorRT に変換するには、次の手順を実行します。

以下を使用して、事前トレーニング済みの ResNet-50 モデルを ONNX 形式にエクスポートします。 torch.onnx.このステップでは、モデルを XNUMX 回実行してサンプル入力でその実行をトレースし、トレースしたモデルを指定されたファイルにエクスポートします。 model.onnx.
trtexec を使用して、TensorRT エンジンプランを model.onnx ファイル。オプションで、単純に 16 ビット浮動小数点で実行するか、8 ビット整数を使用して計算を実行できるように浮動小数点値を量子化することにより、浮動小数点計算の精度を下げることができます。

次のコードは、TensorRT モデルのモデルリポジトリ構造を示しています。

resnet
├── 1
│   └── model.plan
└── config.pbtxt

TensorRT モデルの場合、次を指定します。 tensorrt_plan プラットフォームとして、カラーチャネルを持つサイズ 224 x 224 の画像の Tensor 仕様を入力します。 1,000 次元の出力 Tensor は次のタイプです TYPE_FP32、さまざまなオブジェクトカテゴリに対応します。次のコードを参照してください。

name: "resnet"
platform: "tensorrt_plan"
max_batch_size: 128
input {
  name: "input"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "output"
  data_type: TYPE_FP32
  dims: 1000
}
model_warmup {
    name: "bs128 Warmup"
    batch_size: 128
    inputs: {
        key: "input"
        value: {
            data_type: TYPE_FP32
            dims: 3
            dims: 224
            dims: 224
            zero_data: false
        }
    }
}

モデルアーティファクトを Amazon S3 に保存する

SageMaker は、モデルのアーティファクトが .tar.gz フォーマット。また、モデル名、バージョン、 config.pbtxt ファイルなど。 tar モデルファイルを含むフォルダー .tar.gz Amazon S3 にアップロードします。

!mkdir -p triton-serve-pt/resnet/1/
!mv -f workspace/model.pt triton-serve-pt/resnet/1/
!tar -C triton-serve-pt/ -czf resnet_pt_v0.tar.gz resnet
model_uri_pt = sagemaker_session.upload_data(path="resnet_pt_v0.tar.gz", key_prefix="resnet-mme-gpu")
!mkdir -p triton-serve-trt/resnet/1/
!mv -f workspace/model.plan triton-serve-trt/resnet/1/
!tar -C triton-serve-trt/ -czf resnet_trt_v0.tar.gz resnet
model_uri_trt = sagemaker_session.upload_data(path="resnet_trt_v0.tar.gz", key_prefix="resnet-mme-gpu")

モデルアーティファクトを Amazon S3 にアップロードしたので、SageMaker MME を作成できます。

MME を使用してモデルをデプロイする

現在、50 つの異なるフレームワークバックエンド (PyTorch と TensorRT) を使用して ResNet-XNUMX モデルを SageMaker MME にデプロイしています。

何百ものモデルをデプロイでき、モデルは同じフレームワークを使用できることに注意してください。この投稿に示されているように、さまざまなフレームワークを使用することもできます。

私たちは、使用 AWS SDK for Python（Boto3） API モデルの作成, create_endpoint_config, create_endpoint MMEを作成します。

サービングコンテナを定義する

コンテナ定義で、 model_data_url SageMaker MME が予測の読み込みと提供に使用するすべてのモデルを含む S3 ディレクトリを指定します。設定 Mode 〜へ MultiModel SageMaker が MME コンテナ仕様でエンドポイントを作成することを示します。 GPU を使用した MME のデプロイをサポートするイメージでコンテナーを設定します。次のコードを参照してください。

container = {
"Image": ,
"ModelDataUrl": ,
"Mode": "MultiModel"
}

マルチモデルオブジェクトの作成

SageMaker Boto3 クライアントを使用して、 create_model API。コンテナー定義をモデル作成 API に渡します。 ModelName & ExecutionRoleArn:

create_model_response = sm_client.create_model(
    ModelName=, ExecutionRoleArn=role, PrimaryContainer=container
)

MME 構成を定義する

を使用して MME 設定を作成します。 create_endpoint_config Boto3 API。高速化された GPU コンピューティングインスタンスを指定します InstanceType (g4dn.4xlarge インスタンスタイプを使用します)。少なくとも XNUMX つのインスタンスでエンドポイントを構成することをお勧めします。これにより、SageMaker はモデルの複数のアベイラビリティーゾーンにわたって可用性の高い一連の予測を提供できます。

私たちの調査結果に基づいて、単一の GPU コアを備えた ML 最適化インスタンスでより優れた価格パフォーマンスを得ることができます。したがって、GPU 機能の MME サポートは、シングル GPU コアインスタンスに対してのみ有効になります。サポートされているインスタンスの完全なリストについては、次を参照してください。サポートされている GPU インスタンスタイプ.

create_endpoint_config_response = sm_client.create_endpoint_config(
    EndpointConfigName=,
    ProductionVariants=[
        {
            "InstanceType": "ml.g4dn.4xlarge",
            "InitialVariantWeight": 1,
            "InitialInstanceCount": 2,
            "ModelName": ,
            "VariantName": "AllTraffic",
        }
    ],
)

MME を作成する

上記のエンドポイント設定で、SageMaker MME を作成します。 create_endpoint API。 SageMaker は MME を作成し、ML コンピューティングインスタンス g4dn.4xlarge を起動し、それらに PyTorch および TensorRT ResNet-50 モデルをデプロイします。次のコードを参照してください。

create_endpoint_response = sm_client.create_endpoint(
    EndpointName=, EndpointConfigName=
)

MME でターゲットモデルを呼び出す

エンドポイントを作成したら、次を使用して MME に推論リクエストを送信できます。 invoke_enpoint API。を指定します。 TargetModel 呼び出しで、各モデルタイプのペイロードを渡します。次のコードは、PyTorch モデルと TensorRT モデルのサンプル呼び出しです。

runtime_sm_client.invoke_endpoint(
    EndpointName=,
    ContentType="application/octet-stream",
    Body=json.dumps(pt_payload),
    TargetModel='resnet_pt_v0.tar.gz', #PyTorch Model
)
runtime_sm_client.invoke_endpoint(
    EndpointName=, 
    ContentType="application/octet-stream", 
    Body=json.dumps(trt_payload),
    TargetModel='resnet_trt_v0.tar.gz' #TensorRT Model
)

GPU MME の自動スケーリングポリシーを設定する

SageMaker MME は、ホストされているモデルの自動スケーリングをサポートしています。 Auto Scaling は、ワークロードの変化に応じて、モデルにプロビジョニングされるインスタンスの数を動的に調整します。ワークロードが増加すると、Auto Scaling によってより多くのインスタンスがオンラインになります。ワークロードが減少すると、Auto Scaling によって不要なインスタンスが削除されるため、使用していないプロビジョニングされたインスタンスに対して料金が発生することはありません。

次のスケーリングポリシーでは、カスタムメトリックを使用します。 GPUUtilization セクションに TargetTrackingScalingPolicyConfiguration 構成と設定 TargetValue of 60.0 そのメトリックのターゲット値。この自動スケーリングポリシーは、最大で追加のインスタンスをプロビジョニングします。 MaxCapacity GPU 使用率が 60% を超える場合。

auto_scaling_client = boto3.client('application-autoscaling')

resource_id='endpoint/' +  + '/variant/' + 'AllTraffic' 
response = auto_scaling_client.register_scalable_target(
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    MinCapacity=1,
    MaxCapacity=5
)

response = auto_scaling_client.put_scaling_policy(
    PolicyName='GPUUtil-ScalingPolicy',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 60.0, 
        'CustomizedMetricSpecification':
        {
            'MetricName': 'GPUUtilization',
            'Namespace': '/aws/sagemaker/Endpoints',
            'Dimensions': [
                {'Name': 'EndpointName', 'Value':  },
                {'Name': 'VariantName','Value': 'AllTraffic'}
            ],
            'Statistic': 'Average',
            'Unit': 'Percent'
        },
        'ScaleInCooldown': 600,
        'ScaleOutCooldown': 200 
    }
)

使用することをお勧めします GPUUtilization or InvocationsPerInstance MME の Auto Scaling ポリシーを設定します。詳細については、マルチモデルエンドポイントのデプロイの自動スケーリングポリシーを設定する

GPU MME の CloudWatch メトリクス

SageMaker MME は、監視する次のインスタンスレベルのメトリクスを提供します。

ロード済みモデル数 – コンテナにロードされたモデルの数
GPU使用率 – コンテナーによって使用される GPU ユニットの割合
GPUMメモリ使用率 – コンテナが使用する GPU メモリの割合
ディスク使用率 – コンテナーが使用するディスク容量の割合

これらのメトリクスにより、GPU インスタンスリソースの効果的な利用を計画できます。次のグラフでは、 GPUMemoryUtilization 38.3 個を超える ResNet-16 モデルがコンテナーに読み込まれた場合、50% でした。個々の CPU コアの使用率の合計 (CPUUtilization) は 60.9% で、コンテナーによって使用されるメモリの割合 (MemoryUtilization) は 9.36% でした。

SageMaker MME は、モデル呼び出しレベルの洞察を取得するためのモデル読み込みメトリクスも提供します。

モデル読み込み待機時間 – モデルをダウンロードまたはロードする時間間隔
モデルのアンロード時間 – コンテナからモデルをアンロードする時間間隔
モデルのダウンロード時間 – Amazon S3 からモデルをダウンロードする時間
モデルキャッシュヒット – コンテナーに既にロードされているモデルへの呼び出しの数

次のグラフでは、モデルが推論リクエストに応答するのに 8.22 秒かかったことがわかります (ModelLatency)、SageMaker のオーバーヘッドにより、エンドツーエンドのレイテンシーに 24.1 ミリ秒が追加されました (OverheadLatency）。また、次のようなエンドポイント API 呼び出しを呼び出すための呼び出しからのエラーメトリックも確認できます。 Invocation4XXErrors & Invocation5XXErrors.

MME CloudWatch メトリクスの詳細については、次を参照してください。マルチモデルエンドポイントデプロイの CloudWatch メトリクス.

まとめ

この投稿では、GPU の新しい SageMaker マルチモデルサポートについて学びました。これにより、高速化されたコンピューティングハードウェアで数百の深層学習モデルを費用対効果の高い方法でホストできます。さまざまなフレームワークバックエンドのモデルリポジトリ構成を作成する NVIDIA Triton Inference Server の使用方法と、オートスケーリングを使用して MME をデプロイする方法を学習しました。この機能により、AI アプリケーションでの独自のエンドユーザーエクスペリエンスに対応するように微調整された何百ものハイパーパーソナライズされたモデルをスケーリングできます。また、この機能を活用して、フラクショナル GPU を使用する推論アプリケーションに必要なコストパフォーマンスを達成することもできます。

GPU の MME サポートを開始するには、次を参照してください。 GPU のマルチモデルエンドポイントサポート.

著者について

ダワル・パテル AWS のプリンシパル機械学習アーキテクトです。大企業から中規模の新興企業まで、さまざまな組織と協力して、分散コンピューティングと人工知能に関連する問題に取り組んできました。彼は、NLP やコンピュータービジョンドメインなどのディープラーニングに焦点を当てています。彼は、お客様が Amazon SageMaker で高性能のモデル推論を実現するのを支援しています。

ヴィクラムエランゴ は、米国バージニア州を拠点とするアマゾンウェブサービスのシニア AI/ML スペシャリストソリューションアーキテクトです。 Vikram は、機械学習アプリケーションを大規模に構築および展開するための設計、実装、ソートリーダーシップにより、グローバルな金融および保険業界のお客様を支援します。彼は現在、自然言語処理、責任ある AI、推論の最適化、企業全体での ML のスケーリングに注力しています。余暇には、旅行、ハイキング、料理、家族とのキャンプを楽しんでいます。

サウラブ・トリカンデ Amazon SageMaker Inference のシニアプロダクトマネージャーです。彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープラーニングモデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。余暇には、ハイキング、革新的なテクノロジーの学習、TechCrunch のフォロー、家族との時間を楽しんでいます。

ディープティ・ラガ は、AmazonSageMakerチームのソフトウェア開発エンジニアです。彼女の現在の仕事は、機械学習モデルを効率的にホストする機能の構築に焦点を当てています。余暇には、旅行、ハイキング、植物の栽培を楽しんでいます。

ニキル・クルカルニ AWS Machine Learning のソフトウェア開発者であり、クラウド上で機械学習ワークロードのパフォーマンスを向上させることに重点を置いており、トレーニングと推論のための AWS Deep Learning Containers の共同作成者です。彼は、分散ディープラーニングシステムに情熱を注いでいます。仕事以外では、本を読んだり、ギターをいじったり、ピザを作ったりしています。

ジャホン・リュウ NVIDIAのクラウドサービスプロバイダーチームのソリューションアーキテクトです。彼は、クライアントがNVIDIAアクセラレーションコンピューティングを活用してトレーニングと推論の課題に対処する機械学習とAIソリューションを採用するのを支援しています。余暇には、折り紙、DIYプロジェクト、バスケットボールを楽しんでいます。

エリウス・トリアナ NVIDIA-AWSチームのDeveloperRelationsManagerです。彼は、AmazonとAWSの製品リーダー、開発者、科学者をNVIDIAの技術者と製品リーダーと結び付けて、Amazon ML / DLワークロード、EC2製品、AWSAIサービスを加速させています。さらに、Eliuthは情熱的なマウンテンバイカー、スキーヤー、ポーカープレーヤーです。

マキシミリアーノ・マッカンティ 現在 DynamoDB を使用している AWS のプリンシパルエンジニアです。私は re:Invent 2017 で SageMaker の立ち上げチームに所属し、その後 5 年間、ホスティングプラットフォームであらゆる種類の顧客向け機能を追加しました。余暇には、ヴィンテージのビデオゲームコンソールを収集、修理、およびプレイしています。

タイムスタンプ： 2022 年 10 月 25 日2022 年 10 月 28 日

タイムスタンプ： 2022 年 7 月 14 日

Amazon SageMaker マルチモデルエンドポイントを使用して GPU で複数の深層学習モデルを実行する

プラトン再発行

SageMaker MME

GPU をサポートする SageMaker MME

ソリューションの概要

モデルアーティファクトを作成する

PyTorch モデルを準備する

TensorRT モデルを準備する

モデルアーティファクトを Amazon S3 に保存する

MME を使用してモデルをデプロイする

サービングコンテナを定義する

マルチモデルオブジェクトの作成

MME 構成を定義する

MME を作成する

MME でターゲットモデルを呼び出す

GPU MME の自動スケーリングポリシーを設定する

GPU MME の CloudWatch メトリクス

まとめ

著者について

より多くの AWS機械学習

責任ある AI イノベーションを可能にする新しいツールと機能を発表 | アマゾンウェブサービス

Amazon Comprehend カスタム分類子を使用して IT サービスリクエストの分類を自動化する

C6i Intel ベースの Amazon EC2 インスタンスで Amazon SageMaker の推論を加速する

IMDb ナレッジグラフを使用した電力の推奨事項と検索 – パート 3

PyTorch Model Zoo を使用して Amazon SageMaker モデルを作成する

Amazon Fraud Detector で ML モデルとビジネス定義ルールを使用して住宅ローン文書の不正検出を自動化する: パート 3 |アマゾンウェブサービス

Amazon Textract IDP CDK コンストラクトを使用してエンドツーエンドのドキュメント処理パイプラインを構築する

機械学習を使用して異常を検出し、Amazon Timestream と Amazon Lookout for Equipment でダウンタイムを予測する

Refinitiv Data Library、AWS サービス、および Amazon SageMaker を使用してリアルタイムのニュースストリームを充実させる

ML実験をデータバージョン管理とAmazonSageMaker実験でエンドツーエンドで追跡します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

SageMaker MME

GPU をサポートする SageMaker MME

ソリューションの概要

モデル アーティファクトを作成する

PyTorch モデルを準備する

TensorRT モデルを準備する

モデル アーティファクトを Amazon S3 に保存する

MME を使用してモデルをデプロイする

サービング コンテナを定義する

マルチモデル オブジェクトの作成

MME 構成を定義する

MME を作成する

MME でターゲット モデルを呼び出す

GPU MME の自動スケーリング ポリシーを設定する

GPU MME の CloudWatch メトリクス

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

モデルアーティファクトを作成する

モデルアーティファクトを Amazon S3 に保存する

サービングコンテナを定義する

マルチモデルオブジェクトの作成

MME でターゲットモデルを呼び出す

GPU MME の自動スケーリングポリシーを設定する