Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。

Amazon SageMaker マルチモデル エンドポイントを使用して GPU で複数の深層学習モデルを実行する

業界全体で AI の採用が加速しているため、顧客は、ディープ ラーニングにおける新しい科学的ブレークスルーを利用する洗練されたモデルを構築しています。 これらの次世代モデルにより、自然言語処理 (NLP)、コンピューター ビジョン、音声認識、医学研究、サイバーセキュリティ、タンパク質構造予測などの分野で最先端の人間のようなパフォーマンスを実現できます。 . たとえば、GPT-3、OPT、BLOOM などの大規模な言語モデルは、人間のようなニュアンスでテキストを翻訳、要約、および記述することができます。 コンピューター ビジョンの分野では、DALL-E や Imagen などのテキストから画像への拡散モデルを使用して、自然言語から写真のようにリアルな画像を作成し、周囲の世界からより高いレベルの視覚的および言語的理解を得ることができます。 これらのマルチモーダル モデルは、さまざまなダウンストリーム タスクに対してより豊富な機能を提供し、特定のドメインに合わせて微調整する機能を提供し、お客様に強力なビジネス チャンスをもたらします。

これらの深層学習モデルは、サイズの点で成長を続けており、通常、画像生成、テキストの要約、言語翻訳など、さまざまなタスクのモデル パフォーマンスをスケーリングするために数十億のモデル パラメーターが含まれています。 また、個人に高度にパーソナライズされたエクスペリエンスを提供するために、これらのモデルをカスタマイズする必要もあります。 その結果、さまざまなダウンストリーム タスク用にこれらのモデルを微調整することによって、より多くのモデルが開発されています。 AI アプリケーションのレイテンシーとスループットの目標を満たすには、GPU インスタンスが CPU インスタンスよりも優先されます (GPU が提供する計算能力を考えると)。 ただし、GPU インスタンスは高価であり、10 個を超えるモデルをデプロイする場合、コストが加算される可能性があります。 これらのモデルは影響力のある AI アプリケーションをもたらす可能性がありますが、モデルのサイズと数が原因で、これらのディープ ラーニング モデルを費用対効果の高い方法でスケーリングすることは困難な場合があります。

アマゾンセージメーカー マルチモデル エンドポイント (MME) は、多数の深層学習モデルを展開するためのスケーラブルで費用対効果の高い方法を提供します。 MME は、Zendesk、Veeva、AT&T などの顧客の間で数百の CPU ベースのモデルをホストするための一般的なホスティングの選択肢です。 以前は、GPU による高速化されたコンピューティングを必要とする何百ものディープ ラーニング モデルをデプロイするための選択肢が限られていました。 本日、GPU の MME サポートを発表しました。 XNUMX つの SageMaker エンドポイントの背後に何千もの深層学習モデルをデプロイできるようになりました。 MME は、GPU コアで複数のモデルを実行し、複数のモデルにわたってエンドポイントの背後で GPU インスタンスを共有し、着信トラフィックに基づいてモデルを動的にロードおよびアンロードできるようになりました。 これにより、コストを大幅に削減し、最高のコストパフォーマンスを実現できます。

この投稿では、SageMaker MME を使用して GPU で複数の深層学習モデルを実行する方法を示します。

SageMaker MME

SageMaker MME を使用すると、XNUMX つ以上のインスタンスを含む可能性がある単一の推論エンドポイントの背後に複数のモデルをデプロイできます。 MME を使用すると、各インスタンスは複数のモデルを読み込んで提供するように管理されます。 MME を使用すると、複数のモデルをホストし、すべてのモデルでインフラストラクチャを再利用するという直線的に増加するコストを解消できます。

次の図は、SageMaker MME のアーキテクチャを示しています。

SageMaker MME は、モデルを動的にダウンロードします。 Amazon シンプル ストレージ サービス エンドポイントが最初に作成されたときにすべてのモデルをダウンロードするのではなく、呼び出されたときに (Amazon S3)。 その結果、モデルへの最初の呼び出しは、低いレイテンシーで完了する後続の推論よりも高い推論レイテンシーが発生する可能性があります。 呼び出し時にモデルがコンテナーに既にロードされている場合、ダウンロードとロードのステップはスキップされ、モデルは低レイテンシーで推論を返します。 たとえば、XNUMX 日に数回しか使用されないモデルがあるとします。 オンデマンドで自動的に読み込まれますが、頻繁にアクセスされるモデルはメモリに保持され、一貫して低レイテンシで呼び出されます。

GPU をサポートする SageMaker MME

GPU を搭載した SageMaker MME は、 NVIDIATriton推論サーバー. NVIDIA Triton Inference Server は、推論処理プロセスを簡素化し、高い推論パフォーマンスを提供するオープンソースの推論処理ソフトウェアです。 Triton は、TensorFlow、NVIDIA® TensorRT™、PyTorch、MXNet、Python、ONNX、XGBoost、Scikit-learn、RandomForest、OpenVINO、カスタム C++ など、すべての主要なトレーニングおよび推論フレームワークをサポートしています。 動的なバッチ処理、同時実行、トレーニング後の量子化、および最適なモデル構成を提供して、高性能の推論を実現します。 さらに、NVIDIA Triton Inference Server が拡張されて実装されました。 MME API コントラクト、MME と統合します。

次の図は、MME ワークフローを示しています。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。

ワークフローの手順は次のとおりです。

  1. SageMaker MME は、特定のモデルの HTTP 呼び出しリクエストを受け取ります。 TargetModel ペイロードとともにリクエストに含まれます。
  2. SageMaker は、ターゲット モデルが読み込まれるエンドポイントの背後にある適切なインスタンスにトラフィックをルーティングします。 SageMaker は、MME の背後にあるすべてのモデルのトラフィック パターンを理解し、リクエストをスマートにルーティングします。
  3. SageMaker は、エンドポイントの背後でモデル管理を行い、モデルをコンテナのメモリに動的にロードし、GPU インスタンスの共有フリートに基づいてモデルをアンロードして、最高の価格パフォーマンスを提供します。
  4. SageMaker は、モデルを Amazon S3 からインスタンスのストレージボリュームに動的にダウンロードします。 呼び出されたモデルがインスタンス ストレージ ボリュームで利用できない場合、モデルはインスタンス ストレージ ボリュームにダウンロードされます。 インスタンスストレージボリュームが容量に達すると、SageMaker は未​​使用のモデルをストレージボリュームから削除します。
  5. SageMaker はモデルを GPU アクセラレーション インスタンス上の NVIDIA Triton コンテナのメモリにロードし、推論リクエストを処理します。 GPU コアは、インスタンス内のすべてのモデルで共有されます。 モデルがコンテナメモリにすでにロードされている場合、SageMaker はモデルを再度ダウンロードしてロードする必要がないため、後続のリクエストはより高速に処理されます。
  6. SageMaker は MME エンドポイントへのトラフィック シェーピングを処理し、GPU インスタンスで最適なモデル コピーを維持して、最高の価格パフォーマンスを実現します。 モデルが読み込まれるインスタンスにトラフィックをルーティングし続けます。 使用率が高いためにインスタンス リソースが容量に達した場合、SageMaker はコンテナから使用頻度の低いモデルをアンロードして、リソースを解放し、より頻繁に使用されるモデルをロードします。

SageMaker MME は、自動スケーリング ポリシーを使用して水平方向にスケーリングし、インスタンスごとの呼び出しや GPU 使用率などのメトリクスに基づいて追加の GPU コンピューティング インスタンスをプロビジョニングし、MME エンドポイントへのトラフィックの急増に対応できます。

ソリューションの概要

この投稿では、SageMaker MME の新機能を GPU でコンピュータービジョンのユースケースで使用する方法を紹介します。 デモンストレーションの目的で、画像を 50 のカテゴリに分類できる ResNet-1,000 畳み込みニューラル ネットワークの事前トレーニング済みモデルを使用します。 次の方法について説明します。

  • PyTorch や TensorRT などのさまざまな Triton モデル フレームワーク バックエンドを使用して、SageMaker MME で NVIDIA Triton 推論コンテナーを使用する
  • ResNet-50 モデルを最適化された TensorRT エンジン形式に変換し、SageMaker MME でデプロイする
  • MME の Auto Scaling ポリシーを設定する
  • を使用して、インスタンスと呼び出しの指標に関する洞察を得る アマゾンクラウドウォッチ

モデル アーティファクトを作成する

このセクションでは、Triton Inference Server モデル構成を使用して、SageMaker MME にデプロイする ResNet-50 事前トレーニング済みモデルを準備する手順について説明します。 次のステップバイステップ ノートブックを使用して、すべての手順を再現できます。 GitHubの.

この記事では、XNUMX つのモデルを使用したデプロイについて説明します。 ただし、何百ものモデルを準備して展開できます。 モデルは同じフレームワークを共有する場合と共有しない場合があります。

PyTorch モデルを準備する

まず、torchvision models パッケージを使用して事前トレーニング済みの ResNet50 モデルを読み込みます。 モデルを model.pt ファイルとして、TorchScript の最適化およびシリアル化された形式で保存します。 TorchScript は、例の入力を使用して ResNet50 モデルのフォワード パスを熱心なモードでコンパイルするため、寸法 224 x 224 の XNUMX つのカラー チャネルを持つ RGB 画像の XNUMX つのインスタンスを渡します。

次に、Triton Inference Server のモデルを準備する必要があります。 次のコードは、PyTorch フレームワーク バックエンドのモデル リポジトリを示しています。 Triton は、モデル リポジトリに配置された model.pt ファイルを使用して予測を提供します。

resnet
├── 1
│   └── model.pt
└── config.pbtxt

モデル構成ファイル config.pbtxt モデルの名前を指定する必要があります (resnet)、プラットフォームとバックエンドのプロパティ (pytorch_libtorch), max_batch_size (128)、および入力テンソルと出力テンソルとデータ型 (TYPE_FP32) 情報。 さらに、指定することができます instance_group & dynamic_batching 高性能な推論を実現するためのプロパティ。 次のコードを参照してください。

name: "resnet"
platform: "pytorch_libtorch"
max_batch_size: 128
input {
  name: "INPUT__0"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "OUTPUT__0"
  data_type: TYPE_FP32
  dims: 1000
}

TensorRT モデルを準備する

NVIDIA TensorRT は、高性能なディープ ラーニング推論用の SDK であり、ディープ ラーニング推論オプティマイザと、推論アプリケーションの低レイテンシと高スループットを実現するランタイムが含まれています。 コマンドラインツールを使用します trtexec から TensorRT シリアル化エンジンを生成する ONNX モデル形式。 ResNet-50 事前トレーニング済みモデルを NVIDIA TensorRT に変換するには、次の手順を実行します。

  1. 以下を使用して、事前トレーニング済みの ResNet-50 モデルを ONNX 形式にエクスポートします。 torch.onnx.このステップでは、モデルを XNUMX 回実行してサンプル入力でその実行をトレースし、トレースしたモデルを指定されたファイルにエクスポートします。 model.onnx.
  2. trtexec を使用して、TensorRT エンジン プランを model.onnx ファイル。 オプションで、単純に 16 ビット浮動小数点で実行するか、8 ビット整数を使用して計算を実行できるように浮動小数点値を量子化することにより、浮動小数点計算の精度を下げることができます。

次のコードは、TensorRT モデルのモデル リポジトリ構造を示しています。

resnet
├── 1
│   └── model.plan
└── config.pbtxt

TensorRT モデルの場合、次を指定します。 tensorrt_plan プラットフォームとして、カラー チャネルを持つサイズ 224 x 224 の画像の Tensor 仕様を入力します。 1,000 次元の出力 Tensor は次のタイプです TYPE_FP32、さまざまなオブジェクト カテゴリに対応します。 次のコードを参照してください。

name: "resnet"
platform: "tensorrt_plan"
max_batch_size: 128
input {
  name: "input"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "output"
  data_type: TYPE_FP32
  dims: 1000
}
model_warmup {
    name: "bs128 Warmup"
    batch_size: 128
    inputs: {
        key: "input"
        value: {
            data_type: TYPE_FP32
            dims: 3
            dims: 224
            dims: 224
            zero_data: false
        }
    }
}

モデル アーティファクトを Amazon S3 に保存する

SageMaker は、モデルのアーティファクトが .tar.gz フォーマット。 また、モデル名、バージョン、 config.pbtxt ファイルなど。 tar モデルファイルを含むフォルダー .tar.gz Amazon S3 にアップロードします。

!mkdir -p triton-serve-pt/resnet/1/
!mv -f workspace/model.pt triton-serve-pt/resnet/1/
!tar -C triton-serve-pt/ -czf resnet_pt_v0.tar.gz resnet
model_uri_pt = sagemaker_session.upload_data(path="resnet_pt_v0.tar.gz", key_prefix="resnet-mme-gpu")
!mkdir -p triton-serve-trt/resnet/1/
!mv -f workspace/model.plan triton-serve-trt/resnet/1/
!tar -C triton-serve-trt/ -czf resnet_trt_v0.tar.gz resnet
model_uri_trt = sagemaker_session.upload_data(path="resnet_trt_v0.tar.gz", key_prefix="resnet-mme-gpu")

モデルアーティファクトを Amazon S3 にアップロードしたので、SageMaker MME を作成できます。

MME を使用してモデルをデプロイする

現在、50 つの異なるフレームワーク バックエンド (PyTorch と TensorRT) を使用して ResNet-XNUMX モデルを SageMaker MME にデプロイしています。

何百ものモデルをデプロイでき、モデルは同じフレームワークを使用できることに注意してください。 この投稿に示されているように、さまざまなフレームワークを使用することもできます。

私たちは、使用 AWS SDK for Python(Boto3) API モデルの作成, create_endpoint_config, create_endpoint MMEを作成します。

サービング コンテナを定義する

コンテナ定義で、 model_data_url SageMaker MME が予測の読み込みと提供に使用するすべてのモデルを含む S3 ディレクトリを指定します。 設定 Mode 〜へ MultiModel SageMaker が MME コンテナ仕様でエンドポイントを作成することを示します。 GPU を使用した MME のデプロイをサポートするイメージでコンテナーを設定します。 次のコードを参照してください。

container = {
"Image": ,
"ModelDataUrl": ,
"Mode": "MultiModel"
}

マルチモデル オブジェクトの作成

SageMaker Boto3 クライアントを使用して、 create_model API。 コンテナー定義をモデル作成 API に渡します。 ModelName & ExecutionRoleArn:

create_model_response = sm_client.create_model(
    ModelName=, ExecutionRoleArn=role, PrimaryContainer=container
)

MME 構成を定義する

を使用して MME 設定を作成します。 create_endpoint_config Boto3 API。 高速化された GPU コンピューティング インスタンスを指定します InstanceType (g4dn.4xlarge インスタンス タイプを使用します)。 少なくとも XNUMX つのインスタンスでエンドポイントを構成することをお勧めします。 これにより、SageMaker はモデルの複数のアベイラビリティーゾーンにわたって可用性の高い一連の予測を提供できます。

私たちの調査結果に基づいて、単一の GPU コアを備えた ML 最適化インスタンスでより優れた価格パフォーマンスを得ることができます。 したがって、GPU 機能の MME サポートは、シングル GPU コア インスタンスに対してのみ有効になります。 サポートされているインスタンスの完全なリストについては、次を参照してください。 サポートされている GPU インスタンス タイプ.

create_endpoint_config_response = sm_client.create_endpoint_config(
    EndpointConfigName=,
    ProductionVariants=[
        {
            "InstanceType": "ml.g4dn.4xlarge",
            "InitialVariantWeight": 1,
            "InitialInstanceCount": 2,
            "ModelName": ,
            "VariantName": "AllTraffic",
        }
    ],
)

MME を作成する

上記のエンドポイント設定で、SageMaker MME を作成します。 create_endpoint API。 SageMaker は MME を作成し、ML コンピューティング インスタンス g4dn.4xlarge を起動し、それらに PyTorch および TensorRT ResNet-50 モデルをデプロイします。 次のコードを参照してください。

create_endpoint_response = sm_client.create_endpoint(
    EndpointName=, EndpointConfigName=
)

MME でターゲット モデルを呼び出す

エンドポイントを作成したら、次を使用して MME に推論リクエストを送信できます。 invoke_enpoint API。 を指定します。 TargetModel 呼び出しで、各モデル タイプのペイロードを渡します。 次のコードは、PyTorch モデルと TensorRT モデルのサンプル呼び出しです。

runtime_sm_client.invoke_endpoint(
    EndpointName=,
    ContentType="application/octet-stream",
    Body=json.dumps(pt_payload),
    TargetModel='resnet_pt_v0.tar.gz', #PyTorch Model
)
runtime_sm_client.invoke_endpoint(
    EndpointName=, 
    ContentType="application/octet-stream", 
    Body=json.dumps(trt_payload),
    TargetModel='resnet_trt_v0.tar.gz' #TensorRT Model
)

GPU MME の自動スケーリング ポリシーを設定する

SageMaker MME は、ホストされているモデルの自動スケーリングをサポートしています。 Auto Scaling は、ワークロードの変化に応じて、モデルにプロビジョニングされるインスタンスの数を動的に調整します。 ワークロードが増加すると、Auto Scaling によってより多くのインスタンスがオンラインになります。 ワークロードが減少すると、Auto Scaling によって不要なインスタンスが削除されるため、使用していないプロビジョニングされたインスタンスに対して料金が発生することはありません。

次のスケーリング ポリシーでは、カスタム メトリックを使用します。 GPUUtilization セクションに TargetTrackingScalingPolicyConfiguration 構成と設定 TargetValue of 60.0 そのメトリックのターゲット値。 この自動スケーリング ポリシーは、最大で追加のインスタンスをプロビジョニングします。 MaxCapacity GPU 使用率が 60% を超える場合。

auto_scaling_client = boto3.client('application-autoscaling')

resource_id='endpoint/' +  + '/variant/' + 'AllTraffic' 
response = auto_scaling_client.register_scalable_target(
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    MinCapacity=1,
    MaxCapacity=5
)

response = auto_scaling_client.put_scaling_policy(
    PolicyName='GPUUtil-ScalingPolicy',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 60.0, 
        'CustomizedMetricSpecification':
        {
            'MetricName': 'GPUUtilization',
            'Namespace': '/aws/sagemaker/Endpoints',
            'Dimensions': [
                {'Name': 'EndpointName', 'Value':  },
                {'Name': 'VariantName','Value': 'AllTraffic'}
            ],
            'Statistic': 'Average',
            'Unit': 'Percent'
        },
        'ScaleInCooldown': 600,
        'ScaleOutCooldown': 200 
    }
)

使用することをお勧めします GPUUtilization or InvocationsPerInstance MME の Auto Scaling ポリシーを設定します。 詳細については、 マルチモデル エンドポイントのデプロイの自動スケーリング ポリシーを設定する

GPU MME の CloudWatch メトリクス

SageMaker MME は、監視する次のインスタンスレベルのメトリクスを提供します。

  • ロード済みモデル数 – コンテナにロードされたモデルの数
  • GPU使用率 – コンテナーによって使用される GPU ユニットの割合
  • GPUMメモリ使用率 – コンテナが使用する GPU メモリの割合
  • ディスク使用率 – コンテナーが使用するディスク容量の割合

これらのメトリクスにより、GPU インスタンス リソースの効果的な利用を計画できます。 次のグラフでは、 GPUMemoryUtilization 38.3 個を超える ResNet-16 モデルがコンテナーに読み込まれた場合、50% でした。 個々の CPU コアの使用率の合計 (CPUUtilization) は 60.9% で、コンテナーによって使用されるメモリの割合 (MemoryUtilization) は 9.36% でした。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。

SageMaker MME は、モデル呼び出しレベルの洞察を取得するためのモデル読み込みメトリクスも提供します。

  • モデル読み込み待機時間 – モデルをダウンロードまたはロードする時間間隔
  • モデルのアンロード時間 – コンテナからモデルをアンロードする時間間隔
  • モデルのダウンロード時間 – Amazon S3 からモデルをダウンロードする時間
  • モデルキャッシュヒット – コンテナーに既にロードされているモデルへの呼び出しの数

次のグラフでは、モデルが推論リクエストに応答するのに 8.22 秒かかったことがわかります (ModelLatency)、SageMaker のオーバーヘッドにより、エンドツーエンドのレイテンシーに 24.1 ミリ秒が追加されました (OverheadLatency)。 また、次のようなエンドポイント API 呼び出しを呼び出すための呼び出しからのエラー メトリックも確認できます。 Invocation4XXErrors & Invocation5XXErrors.

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。

MME CloudWatch メトリクスの詳細については、次を参照してください。 マルチモデル エンドポイント デプロイの CloudWatch メトリクス.

まとめ

この投稿では、GPU の新しい SageMaker マルチモデル サポートについて学びました。これにより、高速化されたコンピューティング ハードウェアで数百の深層学習モデルを費用対効果の高い方法でホストできます。 さまざまなフレームワーク バックエンドのモデル リポジトリ構成を作成する NVIDIA Triton Inference Server の使用方法と、オート スケーリングを使用して MME をデプロイする方法を学習しました。 この機能により、AI アプリケーションでの独自のエンドユーザー エクスペリエンスに対応するように微調整された何百ものハイパーパーソナライズされたモデルをスケーリングできます。 また、この機能を活用して、フラクショナル GPU を使用する推論アプリケーションに必要なコスト パフォーマンスを達成することもできます。

GPU の MME サポートを開始するには、次を参照してください。 GPU のマルチモデル エンドポイント サポート.


著者について

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。ダワル・パテル AWS のプリンシパル機械学習アーキテクトです。 大企業から中規模の新興企業まで、さまざまな組織と協力して、分散コンピューティングと人工知能に関連する問題に取り組んできました。 彼は、NLP やコンピューター ビジョン ドメインなどのディープ ラーニングに焦点を当てています。 彼は、お客様が Amazon SageMaker で高性能のモデル推論を実現するのを支援しています。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。ヴィクラムエランゴ は、米国バージニア州を拠点とするアマゾン ウェブ サービスのシニア AI/ML スペシャリスト ソリューション アーキテクトです。 Vikram は、機械学習アプリケーションを大規模に構築および展開するための設計、実装、ソート リーダーシップにより、グローバルな金融および保険業界のお客様を支援します。 彼は現在、自然言語処理、責任ある AI、推論の最適化、企業全体での ML のスケーリングに注力しています。 余暇には、旅行、ハイキング、料理、家族とのキャンプを楽しんでいます。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。サウラブ・トリカンデ Amazon SageMaker Inference のシニア プロダクト マネージャーです。 彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。 彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープ ラーニング モデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。 余暇には、ハイキング、革新的なテクノロジーの学習、TechCrunch のフォロー、家族との時間を楽しんでいます。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。ディープティ・ラガ は、AmazonSageMakerチームのソフトウェア開発エンジニアです。 彼女の現在の仕事は、機械学習モデルを効率的にホストする機能の構築に焦点を当てています。 余暇には、旅行、ハイキング、植物の栽培を楽しんでいます。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。ニキル・クルカルニ AWS Machine Learning のソフトウェア開発者であり、クラウド上で機械学習ワークロードのパフォーマンスを向上させることに重点を置いており、トレーニングと推論のための AWS Deep Learning Containers の共同作成者です。 彼は、分散ディープ ラーニング システムに情熱を注いでいます。 仕事以外では、本を読んだり、ギターをいじったり、ピザを作ったりしています。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。ジャホン・リュウ NVIDIAのクラウドサービスプロバイダーチームのソリューションアーキテクトです。 彼は、クライアントがNVIDIAアクセラレーションコンピューティングを活用してトレーニングと推論の課題に対処する機械学習とAIソリューションを採用するのを支援しています。 余暇には、折り紙、DIYプロジェクト、バスケットボールを楽しんでいます。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。エリウス・トリアナ NVIDIA-AWSチームのDeveloperRelationsManagerです。 彼は、AmazonとAWSの製品リーダー、開発者、科学者をNVIDIAの技術者と製品リーダーと結び付けて、Amazon ML / DLワークロード、EC2製品、AWSAIサービスを加速させています。 さらに、Eliuthは情熱的なマウンテンバイカー、スキーヤー、ポーカープレーヤーです。

Amazon SageMaker マルチモデルエンドポイント PlatoBlockchain Data Intelligence を使用して、GPU で複数の深層学習モデルを実行します。垂直検索。あい。マキシミリアーノ・マッカンティ 現在 DynamoDB を使用している AWS のプリンシパル エンジニアです。私は re:Invent 2017 で SageMaker の立ち上げチームに所属し、その後 5 年間、ホスティング プラットフォームであらゆる種類の顧客向け機能を追加しました。 余暇には、ヴィンテージのビデオゲーム コンソールを収集、修理、およびプレイしています。

タイムスタンプ:

より多くの AWS機械学習