Amazon SageMaker でホスティングパターンをモデル化する、パート 1: Amazon SageMaker で ML アプリケーションを構築するための一般的な設計パターン

プラトン再発行

フォロワー： 0

機械学習 (ML) アプリケーションはデプロイが複雑で、多くの場合、ハイパースケール機能が必要であり、超低レイテンシーの要件と厳しいコスト予算が必要です。不正行為の検出、製品の推奨、トラフィックの予測などのユースケースは、ミリ秒が重要であり、ビジネスの成功にとって重要な例です。厳格なサービスレベルアグリーメント (SLA) を満たす必要があり、通常の要求では、前処理、データ変換、機能エンジニアリング、モデル選択ロジック、モデル集約、後処理などの複数の手順が必要になる場合があります。

最適化されたコストとコンピューティング効率で ML モデルを大規模にデプロイすることは、困難で面倒な作業になる可能性があります。各モデルには、外部データソースや、基盤となるコンピューティングリソースの CPU/GPU パワーなどのランタイム環境に基づいて、独自のメリットと依存関係があります。アプリケーションは、単一の推論リクエストを処理するために複数の ML モデルを必要とする場合があります。特定のシナリオでは、リクエストが複数のモデルにまたがって流れる場合があります。万能のアプローチはありません。ML の実践者は、繰り返される ML ホスティングの課題に対処するための実証済みの方法を探すことが重要です。これにより、ML モデルホスティングの設計パターンが進化しました。

この投稿では、ML アプリケーションを構築するための一般的な設計パターンについて説明します。アマゾンセージメーカー.

ML アプリケーションを構築するための設計パターン

ML アプリケーションのホスティングに使用する次の設計パターンを見てみましょう。

単一モデルベースの ML アプリケーション

これは、ML ユースケースでリクエストを処理するために単一のモデルが必要な場合に最適なオプションです。このモデルは、入力トラフィックに基づいてスケーリングできる専用のコンピューティングインフラストラクチャにデプロイされます。このオプションは、クライアントアプリケーションに低レイテンシ (ミリ秒または秒単位) の推論要件がある場合にも理想的です。

マルチモデルベースの ML アプリケーション

ホスティングの費用対効果を高めるために、この設計パターンを使用すると、同じテナントインフラストラクチャで複数のモデルをホストできます。複数の ML モデルがホストまたはコンテナーのリソースを共有できます。これには、最も使用される ML モデルをメモリにキャッシュすることが含まれ、メモリとコンピューティングリソースの使用率が向上します。デプロイすることを選択したモデルのタイプに応じて、モデルの共同ホスティングでは次の方法を使用できます。

マルチモデルホスティング – このオプションを使用すると、単一のエンドポイントで共有サービスコンテナーを使用して複数のモデルをホストできます。この機能は、共有サービングコンテナーを介して提供できる類似のモデルが多数あり、すべてのモデルに同時にアクセスする必要がない場合に最適です。
マルチコンテナホスティング – このオプションは、複数のモデルが異なるサービススタック上で同様のリソースニーズで実行されている場合、および個々のモデルにエンドポイントインスタンスの全容量を利用するための十分なトラフィックがない場合に最適です。マルチコンテナホスティングを使用すると、異なるモデルまたはフレームワークを使用する複数のコンテナを XNUMX つのエンドポイントにデプロイできます。モデルは、独自の独立したサービングスタックを使用して、完全に異種混合にすることができます。
モデルアンサンブル – 多くの運用ユースケースでは、特定のダウンストリームモデルに入力を供給する多くのアップストリームモデルが存在することがよくあります。ここでアンサンブルが役に立ちます。アンサンブルパターンでは、XNUMX つまたは複数の基本モデルからの出力を混合して、一般化エラー予測の。基本モデルは多様で、さまざまなアルゴリズムでトレーニングできます。アンサンブルアプローチを使用すると、モデルの予測誤差が減少するため、モデルアンサンブルは単一モデルよりも優れたパフォーマンスを発揮できます。

以下は、アンサンブルパターンとそれに対応する設計パターン図の一般的なユースケースです。

スキャターギャザー – スキャッターギャザーパターンでは、推論のリクエストが多数のモデルにルーティングされます。次に、アグリゲーターを使用して応答を収集し、単一の推論応答に抽出します。たとえば、画像分類のユースケースでは、タスクを実行するために XNUMX つの異なるモデルを使用する場合があります。スキャッターギャザーパターンを使用すると、XNUMX つの異なるモデルで実行された推論の結果を組み合わせて、最も可能性の高い分類モデルを選択できます。

Amazon SageMaker のモデルホスティングパターン、パート 1: Amazon SageMaker PlatoBlockchain Data Intelligence で ML アプリケーションを構築するための一般的な設計パターン。垂直検索。あい。

モデル集計 – 集計パターンでは、複数のモデルからの出力が平均化されます。分類モデルの場合、複数のモデルの予測が評価されて、最も多くの票を獲得したクラスが決定され、アンサンブルの最終出力として扱われます。たとえば、一連の果物をオレンジまたはリンゴに分類する XNUMX クラスの分類問題で、XNUMX つのモデルがオレンジに投票し、XNUMX つのモデルがリンゴに投票した場合、集約された出力はオレンジになります。集計は、個々のモデルの不正確さに対処し、出力をより正確にするのに役立ちます。

動的選択 – アンサンブルモデルのもう XNUMX つのパターンは、指定された入力属性に対してモデル選択を動的に実行することです。たとえば、果物の画像の特定の入力で、入力にオレンジが含まれている場合、モデル A はオレンジに特化しているため、使用されます。入力にリンゴが含まれる場合、モデル B はリンゴに特化しているため使用されます。

シリアル推論 ML アプリケーション – 推論パイプラインとも呼ばれるシリアル推論パターンでは、ユースケースには、推論を生成するために事前トレーニング済みの ML モデルを呼び出す前に、受信データを前処理する要件があります。さらに、場合によっては、生成された推論をさらに処理して、下流のアプリケーションで簡単に使用できるようにする必要があります。推論パイプラインを使用すると、モデルのトレーニング中に使用したものと同じ前処理コードを再利用して、予測に使用される推論リクエストデータを処理できます。

ビジネスの論理 – ML の製品化には、常にビジネスロジックが関係します。ビジネスロジックパターンには、ML モデルの推論ではない ML タスクを実行するために必要なすべてが含まれます。これには、モデルのロードが含まれます。 Amazon シンプルストレージサービス (Amazon S3)、たとえば、入力を検証するためのデータベースルックアップ、フィーチャストアから事前に計算されたフィーチャの取得など。これらのビジネスロジックの手順が完了すると、入力が ML モデルに渡されます。

ML 推論オプション

モデルのデプロイでは、ユースケースからさかのぼって作業することが重要です。予測の頻度は？アプリケーションへのライブトラフィックと、クライアントへのリアルタイムの応答を期待していますか? 同じユースケースのデータの異なるサブセット用にトレーニングされた多くのモデルがありますか? 予測トラフィックは変動しますか? 推論のレイテンシーは懸念事項ですか? これらの詳細に基づいて、次の展開オプションを使用して、前述のすべての設計パターンを実装できます。

リアルタイム推論 – リアルタイム推論は、リアルタイム、インタラクティブ、低レイテンシーの要件がある推論ワークロードに最適です。リアルタイム ML 推論ワークロードには、アプリケーションが XNUMX つの要求を処理するために XNUMX つの ML モデルのみを必要とする単一モデルベースの ML アプリケーション、またはアプリケーションが単一の要求を処理するために複数の ML モデルを必要とするマルチモデルベースの ML アプリケーションが含まれる場合があります。リクエスト。
ほぼリアルタイム (非同期) の推論 – ほぼリアルタイムの推論により、着信要求をキューに入れることができます。これは、数百 MB の入力に対して推論を実行するために利用できます。これはほぼリアルタイムで動作し、ユーザーは推論のために入力を使用し、エンドポイントからの出力を S3 バケットから読み取ることができます。 NLP やコンピュータービジョンを使用する場合、前処理に長い時間が必要な大きなペイロードがある場合に特に便利です。
バッチ推論 – バッチ推論は、大規模なデータセットで推論をオフラインで実行するために利用できます。オフラインで実行されるため、バッチ推論は最小のレイテンシーを提供しません。ここで、推論リクエストは、バッチ推論ジョブのスケジュールされたトリガーまたはイベントベースのトリガーで処理されます。
サーバーレス推論 – サーバーレス推論は、トラフィックの急増の間にアイドル期間があり、アイドル期間後の最初の呼び出しで数秒の余分な待ち時間 (コールドスタート) を許容できるワークロードに最適です。たとえば、フォームを処理したり、ドキュメントのデータを分析したりするためのチャットボットサービスまたはアプリケーションです。この場合、推論リクエストの量に基づいて計算能力を自動的にプロビジョニングおよびスケーリングできるオンライン推論オプションが必要になる場合があります。また、アイドル時間中は、計算能力を完全にオフにして、料金が発生しないようにする必要があります. サーバーレス推論は、コンピューティングリソースを自動的に起動し、トラフィックに応じてそれらをスケールインおよびスケールアウトすることにより、サーバーの選択と管理という未分化の重労働を取り除きます。

フィットネス関数を使用して適切な ML 推論オプションを選択する

アプリケーションによってレンダリングされるエンドユーザーに影響を与えるため、適切なホスティングオプションを決定することは重要です。この目的のために、次の概念を借りています。 フィットネス機能、Neal Ford と AWS パートナーの ThoughtWorks の彼の同僚が彼らの仕事で造語したものです。進化的アーキテクチャの構築. フィットネス機能は、顧客の目的に基づいて、さまざまなホスティングオプションの規範的な評価を提供します。フィットネス関数は、アーキテクチャの計画的な進化を可能にするために必要なデータを取得するのに役立ちます。測定可能な値を設定して、設定した目標の達成にソリューションがどれだけ近づいているかを評価します。フィットネス機能は、アーキテクチャが進化して望ましい変更プロセスを導くように適応させることができ、また適応させる必要があります。これにより、チームの自律性を維持しながらチームを導くツールがアーキテクトに提供されます。

ML モデルとアプリケーションをホストするための適切な ML 推論オプションを選択する際に、顧客が気にする主なフィットネス関数は XNUMX つあります。

適応度関数	Description
費用	スケーラブルなフレームワークに ML モデルと ML アプリケーションをデプロイして維持することは重要なビジネスプロセスであり、モデルホスティングインフラストラクチャ、ホスティングオプション、ML フレームワーク、ML モデルの特性、最適化、スケーリングポリシー、もっと。コストを抑えるために、ワークロードはハードウェアインフラストラクチャを最適に利用する必要があります。このフィットネス関数は、全体的な総所有コスト (TCO) の一部であるインフラストラクチャコストを具体的に指します。インフラストラクチャコストは、ストレージ、ネットワーク、およびコンピューティングの合計コストです。運用コスト、セキュリティおよびコンプライアンスコストなど、TCO の他の要素を理解することも重要です。運用コストは、ML インフラストラクチャの運用、監視、および維持の合計コストです。運用コストは、各シナリオに基づいて必要なエンジニアの数とエンジニアの年間給与を特定の期間にわたって集計して計算されます。セルフマネージド ML ソリューションを使用しているお客様アマゾンエラスティックコンピューティングクラウド（Amazon EC2）、 Amazon エラスティックコンテナサービス (Amazon ECS)、および Amazon Elastic Kubernetesサービス (Amazon EKS) は運用ツール自体を構築する必要があります。 SageMaker を使用しているお客様は、TCO を大幅に削減できます。 SageMaker 推論はフルマネージドサービスであり、推論用の ML モデルをデプロイするためのすぐに使用できる機能を提供します。インスタンスのプロビジョニング、インスタンスの正常性の監視、セキュリティ更新やパッチの管理、運用指標の発行、ML 推論ワークロードの監視の構築を行う必要はありません。高可用性と回復力を確保する機能が組み込まれています。 SageMaker は、ルートボリュームの暗号化や Amazon Elastic Blockストア (Amazon EBS) ボリューム、アマゾンバーチャルプライベートクラウド (Amazon VPC) サポート、 AWS プライベートリンク、カスタマーマネージドキー、 AWS IDおよびアクセス管理 (IAM) きめ細かなアクセス制御、 AWS クラウドトレイル監査、トレーニング用のノード間暗号化、タグベースのアクセス制御、ネットワーク分離、インタラクティブアプリケーションプロキシ。これらのセキュリティ機能はすべて、SageMaker ですぐに使用できるため、企業は 3 年間で数十か月の開発作業を節約できます。 SageMaker は HIPAA 対応サービスであり、PCI、SOC、GDPR、および ISO の下で認定されています。 SageMaker は FIPS エンドポイントもサポートしています。 TCO の詳細については、次を参照してください。 Amazon SageMaker の総所有コスト.
推論のレイテンシ	多くの ML モデルとアプリケーションはレイテンシークリティカルであり、推論のレイテンシーはサービスレベル目標によって指定された範囲内に収まる必要があります。推論のレイテンシーは、モデルのサイズと複雑さ、ハードウェアプラットフォーム、ソフトウェア環境、ネットワークアーキテクチャなど、さまざまな要因に依存します。たとえば、大規模で複雑なモデルは、推論の実行に時間がかかる場合があります。
スループット (XNUMX 秒あたりのトランザクション数)	モデルの推論では、ML アプリケーションのパフォーマンスチューニングとビジネス目標の達成のために、スループットを最適化することが重要です。チップ設計における数学演算の低レベルの実装を含む、ML のすべての側面で急速に進歩し続けるにつれて、ハードウェア固有のライブラリはパフォーマンスの最適化においてより大きな役割を果たします。ペイロードサイズ、ネットワークホップ、ホップの性質、モデルグラフ機能、モデル内の演算子、インスタンスをホストするモデルの CPU、GPU、メモリプロファイルなど、さまざまな要因が ML モデルのスループットに影響します。
スケーリング構成の複雑さ	ML モデルまたはアプリケーションが、さまざまなトラフィックの需要を処理できるスケーラブルなフレームワークで実行されることが重要です。また、CPU および GPU リソースを最大限に利用できるようにし、コンピューティングリソースの過剰なプロビジョニングを防ぎます。
予想されるトラフィックパターン	ML モデルまたはアプリケーションには、継続的なリアルタイムのライブトラフィックから、XNUMX 秒あたり数千のリクエストの定期的なピーク、まれな予測不可能なリクエストパターンから大規模なデータセットでのオフラインバッチリクエストまで、さまざまなトラフィックパターンがあります。 ML モデルに適したホスティングオプションを選択するには、予想されるトラフィックパターンから逆算することをお勧めします。

SageMaker を使用したモデルのデプロイ

セージメーカーは、すべての開発者とデータサイエンティストに大規模な ML モデルを迅速に構築、トレーニング、デプロイする機能を提供する、完全マネージド型の AWS サービスです。 SageMaker 推論を使用すると、ML モデルをホストされたエンドポイントにデプロイして、推論結果を取得できます。 SageMaker は、ワークロードの要件を満たす幅広いハードウェアと機能を提供し、ハードウェアアクセラレーションを備えた 70 を超えるインスタンスタイプを選択できます。 SageMaker は、ワークロードに最適なものがわからない場合に備えて、SageMaker Inference Recommender と呼ばれる新機能を使用して、推論インスタンスタイプの推奨を提供することもできます。

リアルタイム推論、非同期、バッチ、さらにはサーバーレスエンドポイントなど、ユースケースに最適なデプロイオプションを選択できます。さらに、SageMaker は、カナリア、青/緑, 影、およびモデル展開の A/B テストに加えて、マルチモデル、マルチコンテナーエンドポイント、およびエラスティックスケーリングを使用した費用対効果の高い展開。 SageMaker 推論を使用すると、エンドポイントのパフォーマンスメトリクスをアマゾンクラウドウォッチ, エンドポイントを自動的にスケーリングするトラフィックに基づいて、可用性を失うことなく本番環境でモデルを更新します。

SageMaker には、モデルをデプロイするための XNUMX つのオプションが用意されているため、予測を開始できます。

リアルタイム推論 – これは、ミリ秒のレイテンシ要件、最大 6 MB のペイロードサイズ、および最大 60 秒の処理時間を持つワークロードに適しています。
バッチ変換 – これは、事前に利用可能な大量のデータバッチに対するオフライン予測に最適です。
非同期推論 – これは、1 秒未満のレイテンシ要件、最大 15 GB のペイロードサイズ、および最大 XNUMX 分の処理時間のないワークロード向けに設計されています。
サーバーレス推論 – サーバーレス推論を使用すると、基盤となるインフラストラクチャを構成または管理する必要なく、推論用の ML モデルをすばやくデプロイできます。さらに、断続的なワークロードに最適な、推論リクエストの処理に使用されるコンピューティング容量に対してのみ料金が発生します。

次の図は、SageMaker ホスティングモデルのデプロイオプションと、関連するフィットネス関数の評価を理解するのに役立ちます。

各展開オプションについて詳しく見ていきましょう。

SageMaker でのリアルタイム推論

SageMaker リアルタイム推論は、トラフィックが持続していて、最大 6 MB のペイロードサイズと最大 60 秒の処理時間で、リクエストに対してより低く一貫したレイテンシーが必要な場合に推奨されます。モデルを SageMaker ホスティングサービスにデプロイし、推論に使用できるエンドポイントを取得します。これらのエンドポイントは完全に管理されており、自動スケーリングをサポートしています。リアルタイム推論は、製品やサービスのパーソナライズされたレコメンデーションやトランザクションの不正検出のユースケースなど、予測可能なトラフィックパターンで低レイテンシの同期応答が期待されるユースケースでよく使用されます。

通常、クライアントアプリケーションはリクエストを SageMaker HTTPS エンドポイントに送信して、デプロイされたモデルから推論を取得します。モデルの複数のバリアントを同じ SageMaker HTTPS エンドポイントにデプロイできます。これは、本番環境でモデルのバリエーションをテストする場合に役立ちます。 Auto Scaling を使用すると、ワークロードの変化に応じて、モデル用にプロビジョニングされたインスタンスの数を動的に調整できます。

次の表は、フィットネス関数に基づいて SageMaker リアルタイム推論を評価するためのガイダンスを提供します。

適応度関数	Description
費用	リアルタイムエンドポイントは、推論リクエストに対する同期応答を提供します。エンドポイントは常に実行されており、リアルタイムの同期推論応答を提供するために利用できるため、インスタンスの使用に対して料金が発生します。複数のエンドポイントを展開すると、特にエンドポイントが基盤となるインスタンスを十分に活用していない場合、コストが急速に増加する可能性があります。モデルに適したインスタンスを選択することで、モデルに最もパフォーマンスの高いインスタンスを最小のコストで確保できます。可能な限り低いコストで安定した予測可能なパフォーマンスを維持するために、トラフィックに応じて容量を動的に調整するには、自動スケーリングをお勧めします。 SageMaker は、Graviton2 および Graviton3 ベースの ML インスタンスファミリーへのアクセスを拡張します。 AWS グラビトンプロセッサは、64 ビットの Arm Neoverse コアを使用してアマゾンウェブサービスによってカスタム構築され、Amazon EC2 で実行されるクラウドワークロードに最高の価格パフォーマンスを提供します。 Graviton ベースのインスタンスを使用すると、ML モデルを SageMaker にデプロイする際のコストとパフォーマンスを最適化するためのオプションが増えます。 SageMaker もサポート Inf1インスタンス、高性能で費用対効果の高い ML 推論を提供します。 1 ～ 16 で AWS Inferentia チップインスタンスごとに、Inf1 インスタンスはパフォーマンスをスケールインし、AWS GPU ベースのインスタンスと比較して、最大 50 倍のスループットと最大 1% 低い推論あたりのコストを実現できます。 SageMaker で InfXNUMX インスタンスを使用するには、以下を使用してトレーニング済みモデルをコンパイルできます。 Amazon SageMaker ネオ Inf1 インスタンスを選択して、コンパイル済みモデルを SageMaker にデプロイします。探索することもできます SageMaker の Savings Plans オンデマンド価格と比較して最大 64% のコスト削減の恩恵を受けることができます。エンドポイントを作成すると、SageMaker はエンドポイントをホストする各 ML コンピューティングインスタンスに EBS ストレージボリュームをアタッチします。ストレージボリュームのサイズは、インスタンスタイプによって異なります。リアルタイムエンドポイントの追加コストには、プロビジョニングされたストレージの月間 GB のコストに加えて、エンドポイントインスタンスで処理される GB データと処理される GB データが含まれます。
推論のレイテンシ	リアルタイムの推論は、ミリ秒のレイテンシ要件を持つ永続的なエンドポイントが必要な場合に最適です。最大 6 MB のペイロードサイズと最大 60 秒の処理時間をサポートします。
スループット	推論スループットの理想値は、モデル、モデルの入力サイズ、バッチサイズ、エンドポイントインスタンスタイプなどの要因に左右されます。ベストプラクティスとして、入力リクエストとリソース使用率の CloudWatch メトリクスを確認し、適切なインスタンスタイプを選択して最適なスループットを実現します。ビジネスアプリケーションは、スループットを最適化するか、レイテンシを最適化することができます。たとえば、動的バッチ処理は、リアルタイムの推論を使用して、レイテンシーの影響を受けやすいアプリのスループットを向上させるのに役立ちます。ただし、バッチサイズには制限があり、それがなければ推論のレイテンシーに影響を与える可能性があります。スループットを向上させるためにバッチサイズを大きくすると、推論のレイテンシが大きくなります。したがって、リアルタイム推論は、レイテンシーの影響を受けやすいアプリケーションにとって理想的なオプションです。 SageMaker は、非同期推論とバッチ変換のオプションを提供します。これらは、ビジネスアプリケーションがわずかに高いレイテンシーを許容できる場合に、リアルタイム推論と比較してスループットが高くなるように最適化されています。
スケーリング構成の複雑さ	SageMaker リアルタイムエンドポイントのサポート自動スケーリング箱から出して。ワークロードが増加すると、Auto Scaling によってより多くのインスタンスがオンラインになります。ワークロードが減少すると、Auto Scaling によって不要なインスタンスが削除されるため、コンピューティングコストの削減に役立ちます。 Auto Scaling を使用しない場合は、ピークトラフィックに備えてプロビジョニングするか、モデルが使用できないリスクを負う必要があります。モデルへのトラフィックが XNUMX 日を通して安定していない限り、余分な未使用の容量が発生します。これにより、使用率が低下し、リソースが浪費されます。 SageMaker を使用すると、予想されるトラフィックパターンに基づいてさまざまなスケーリングオプションを設定できます。特定の CloudWatch メトリクスに基づいてスケーリングする場合は、単純なスケーリングまたはターゲット追跡スケーリングが理想的です。これを行うには、特定のメトリックを選択し、しきい値を設定します。このオプションの推奨指標は平均です `CPUUtilization` or `SageMakerVariantInvocationsPerInstance`. 高度な構成が必要な場合は、ステップスケーリングポリシーを設定して、アラーム違反のサイズに基づいてスケーリングするインスタンスの数を動的に調整できます。これは、需要が特定のレベルに達したときに、より積極的な応答を構成するのに役立ちます。日、週、月、または年の特定のスケジュールに従って需要が発生することがわかっている場合は、スケジュールされたスケーリングオプションを使用できます。これにより、XNUMX 回限りのスケジュール、定期的なスケジュール、または cron 式を、開始時刻と終了時刻とともに指定することができます。これにより、Auto Scaling アクションの開始と停止の境界が形成されます。詳細については、 Amazon SageMaker で自動スケーリング推論エンドポイントを設定するおよび自動スケーリングを使用して負荷テストを行い、Amazon SageMaker エンドポイントを最適化する.
交通パターン	リアルタイムの推論は、継続的または定期的なトラフィックパターンを持つワークロードに最適です。

SageMaker での非同期推論

SageMaker 非同期推論は、着信リクエストをキューに入れ、非同期的に処理する SageMaker の新しい機能です。このオプションは、大きなペイロードサイズ (最大 1 GB)、長い処理時間 (最大 15 分)、およびほぼリアルタイムのレイテンシ要件を持つ要求に最適です。非同期推論のワークロードの例には、異常を検出するために高解像度の生物医学画像や心エコー図などのビデオを処理するヘルスケア企業が含まれます。これらのアプリケーションは、3 日のさまざまな時間に着信トラフィックのバーストを受信し、低コストでほぼリアルタイムの処理を必要とします。これらのリクエストの処理時間は数分程度になる可能性があるため、リアルタイムの推論を実行する必要はありません。代わりに、自動キューイングと事前定義された同時実行しきい値を使用して、Amazon S3 などのオブジェクトストアから入力ペイロードを非同期的に処理できます。処理時に、SageMaker は以前に返された Amazon SXNUMX の場所に推論レスポンスを配置します。必要に応じて、成功またはエラーの通知を受け取るように選択できます。 Amazon シンプル通知サービス（AmazonSNS）。

次の表は、フィットネス関数に基づいて SageMaker 非同期推論を評価するためのガイダンスを提供します。

適応度関数	Description
費用	非同期推論は、大きなペイロードとバーストトラフィックを伴うコスト重視のワークロードに最適です。非同期推論を使用すると、処理するリクエストがないときにインスタンス数をゼロに自動スケーリングすることでコストを節約できるため、エンドポイントがリクエストを処理しているときにのみ料金が発生します。インスタンスがゼロのときに受信したリクエストは、エンドポイントのスケールアップ後に処理のためにキューに入れられます。
推論のレイテンシ	非同期推論は、ほぼリアルタイムのレイテンシ要件に最適です。リクエストはキューに入れられ、コンピューティングが利用可能になるとすぐに処理されます。これにより、通常、数十ミリ秒のレイテンシが発生します。
スループット	非同期推論は、アプリケーションがスループットを犠牲にする必要がないため、レイテンシの影響を受けにくいユースケースに最適です。非同期推論エンドポイントはリクエストをドロップするのではなく、キューに入れるため、トラフィックのスパイク中にリクエストがドロップされることはありません。
スケーリング構成の複雑さ	SageMaker のサポート自動スケーリング非同期エンドポイント用。リアルタイムでホストされるエンドポイントとは異なり、非同期推論エンドポイントは、最小容量をゼロに設定することにより、インスタンスをゼロにスケールダウンすることをサポートします。非同期エンドポイントの場合、SageMaker は、デプロイされたモデル (バリアント) のターゲット追跡スケーリング用のポリシー設定を作成することを強くお勧めします。数分間のコールドスタートペナルティを許容できるユースケースでは、オプションで、未処理のリクエストがないときにエンドポイントインスタンス数をゼロにスケールダウンし、新しいリクエストが到着したときにスケールアップして、エンドポイントはアクティブにリクエストを処理しています。
交通パターン	非同期エンドポイントは、着信要求をキューに入れ、非同期的に処理します。これらは、断続的またはまれなトラフィックパターンに適したオプションです。

SageMaker でのバッチ推論

SageMaker バッチ変換は、事前に利用可能な大量のデータバッチのオフライン予測に最適です。バッチ変換機能は、データを変換して推論を生成するための高性能で高スループットの方法です。これは、大量のデータバッチを処理するシナリオ、XNUMX 秒未満のレイテンシーを必要としないシナリオ、またはトレーニングデータの前処理と変換の両方が必要なシナリオに最適です。広告、マーケティング、ヘルスケアなどの特定のドメインのお客様は、多くの場合、高スループットがユースケースの目的であり、待機時間が問題にならないハイパースケールデータセットでオフライン予測を行う必要があります。

バッチ変換ジョブが開始されると、SageMaker はコンピューティングインスタンスを初期化し、それらの間で推論ワークロードを分散します。ジョブが完了するとリソースが解放されるため、ジョブの実行中に使用された分だけ料金が発生します。ジョブが完了すると、SageMaker は指定した S3 バケットに予測結果を保存します。通常、バッチ推論タスクは、水平方向のスケーリングに適しています。クラスター内の各ワーカーは、他のワーカーと情報を交換する必要なく、データの異なるサブセットを操作できます。 AWS は、水平スケーリングを可能にする複数のストレージおよびコンピューティングオプションを提供します。 SageMaker バッチ変換のワークロードの例には、オフラインジョブを定期的に実行するようにスケジュールできる、顧客離れを予測するためのバンキングアプリケーションなどのオフラインアプリケーションが含まれます。

次の表は、フィットネス関数に基づいて SageMaker バッチ変換を評価するためのガイダンスを提供します。

適応度関数	Description
費用	SageMaker バッチ変換を使用すると、大小のバッチデータセットで予測を実行できます。使用期間に基づいて、選択したインスタンスタイプに対して課金されます。 SageMaker は、ジョブの開始時にリソースのプロビジョニングを管理し、ジョブが完了するとそれらを解放します。追加のデータ処理コストはありません。
推論のレイテンシ	イベントベースまたはスケジュールされた呼び出しを使用できます。レイテンシーは、推論データのサイズ、ジョブの同時実行数、モデルの複雑さ、コンピューティングインスタンスの容量によって異なる場合があります。
スループット	バッチ変換ジョブは、ペタバイトのデータから非常に小さなデータセットまで、さまざまなデータセットに対して実行できます。大きなデータセットを小さなデータのチャンクにサイズ変更する必要はありません。次のようなパラメーターに最適な値を使用することで、バッチ変換ジョブを高速化できます。最大ペイロードMB, MaxConcurrentTransformsまたはバッチ戦略. の理想値 `MaxConcurrentTransforms` バッチ変換ジョブのコンピューティングワーカーの数と同じです。バッチ処理は、待ち時間を犠牲にして一定時間内により多くの推論を完了するのに役立つため、スループットを向上させ、リソースを最適化できます。モデルのデプロイを最適化してスループットを向上させるための一般的なガイドラインは、スループットが低下するまでバッチサイズを大きくすることです。
スケーリング構成の複雑さ	SageMaker バッチ変換は、レイテンシーの影響を受けないオフライン推論に使用されます。
交通パターン	オフライン推論の場合、バッチ変換ジョブは、イベントベースのトリガーを使用してスケジュールまたは開始されます。

SageMaker でのサーバーレス推論

SageMaker サーバーレス推論を使用すると、基盤となるインフラストラクチャを構成または管理することなく、推論用の ML モデルをデプロイできます。モデルが受け取る推論リクエストの量に基づいて、SageMaker サーバーレス推論はコンピューティング能力を自動的にプロビジョニング、スケーリング、オフにします。その結果、アイドル時間ではなく、推論コードを実行するための計算時間と処理されたデータの量に対してのみ料金が発生します。 SageMaker の組み込みアルゴリズムと ML フレームワークを提供するコンテナーを使用して、モデルをサーバーレス推論エンドポイントにデプロイするか、独自のコンテナーを使用することを選択できます。トラフィックが予測可能で安定した場合、コンテナイメージを変更することなく、サーバーレスの推論エンドポイントから SageMaker リアルタイムエンドポイントに簡単に更新できます。サーバーレス推論では、呼び出し回数、障害、レイテンシー、ホストメトリクス、CloudWatch のエラーなどの組み込みメトリクスを含む、他の SageMaker 機能も利用できます。

次の表は、フィットネス関数に基づいて SageMaker サーバーレス推論を評価するためのガイダンスを提供します。

適応度関数	Description
費用	従量制モデルでは、トラフィックパターンがまれまたは断続的である場合、サーバーレス推論は費用対効果の高いオプションです。エンドポイントが要求を処理する期間に対してのみ料金が発生するため、トラフィックパターンが断続的である場合はコストを節約できます。
推論のレイテンシ	サーバーレスエンドポイントは、低い推論レイテンシ (ミリ秒から秒単位) を提供し、使用パターンに基づいて数秒以内に数万から数千の推論を即座にスケーリングできるため、断続的または予測不可能なトラフィックを伴う ML アプリケーションに最適です。サーバーレスエンドポイントはオンデマンドでコンピューティングリソースをプロビジョニングするため、エンドポイントでは、アイドル期間後の最初の呼び出しで数秒の余分な待機時間 (コールドスタート) が発生する場合があります。コールドスタート時間は、モデルのサイズ、モデルのダウンロードにかかる時間、コンテナーの起動時間によって異なります。
スループット	サーバーレスエンドポイントを構成するときに、メモリサイズと同時呼び出しの最大数を指定できます。 SageMaker サーバーレス推論は、選択したメモリに比例してコンピューティングリソースを自動的に割り当てます。より大きなメモリサイズを選択すると、コンテナはより多くの vCPU にアクセスできます。原則として、メモリサイズは少なくともモデルサイズと同じ大きさにする必要があります。選択できるメモリサイズは、1024 MB、2048 MB、3072 MB、4096 MB、5120 MB、および 6144 MB です。選択したメモリサイズに関係なく、サーバーレスエンドポイントでは 5 GB のエフェメラルディスクストレージを利用できます。
スケーリング構成の複雑さ	サーバーレスエンドポイントは、コンピューティングリソースを自動的に起動し、トラフィックに応じてスケールインおよびスケールアウトするため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がなくなります。これにより、サーバーの選択と管理という差別化されていない重労働が取り除かれます。
交通パターン	サーバーレス推論は、トラフィックパターンがまれまたは断続的なワークロードに最適です。

SageMaker でのモデルホスティング設計パターン

SageMaker 推論エンドポイントは、ML モデルをホストするために Docker コンテナを使用します。コンテナーを使用すると、Docker をサポートするすべてのプラットフォームで一貫して実行される標準化されたユニットにソフトウェアをパッケージ化できます。これにより、プラットフォーム間での移植性、不変のインフラストラクチャの展開、および変更管理と CI/CD の実装が容易になります。 SageMaker は、Apache MXNet、TensorFlow、PyTorch、Sklearn、Hugging Face などの一般的なフレームワーク用のビルド済みマネージドコンテナを提供します。利用可能な SageMaker コンテナイメージの完全なリストについては、次を参照してください。利用可能なディープラーニングコンテナの画像. SageMaker にサポートされているコンテナーがない場合は、独自のコンテナー (BYOC) を構築し、独自のカスタムイメージをプッシュして、モデルに必要な依存関係をインストールすることもできます。

モデルを SageMaker にデプロイするには、コンテナー (SageMaker マネージドフレームワークコンテナーまたは BYOC) と、コンテナーをホストするコンピューティングインスタンスが必要です。 SageMaker は、モデルを単一のコンテナでホストしたり、共有コンテナで共同ホストしたりできる一般的な ML モデルホスティングデザインパターンの複数の高度なオプションをサポートしています。

リアルタイム ML アプリケーションでは、単一のモデルまたは複数のモデルを使用して、単一の予測リクエストを処理できます。次の図は、ML アプリケーションのさまざまな推論シナリオを示しています。

前述の各推論シナリオに適した SageMaker ホスティングオプションを調べてみましょう。フィットネス関数を参照して、特定のユースケースに適したオプションであるかどうかを評価できます。

単一モデルベースの ML アプリケーションのホスティング

デプロイシナリオに応じて、SageMaker ホスティングサービスを使用して単一モデルベースの ML アプリケーションをホストするオプションがいくつかあります。

単一モデルのエンドポイント

SageMaker 単一モデルエンドポイントを使用すると、専用インスタンスでホストされているコンテナで XNUMX つのモデルをホストして、低レイテンシーと高スループットを実現できます。これらのエンドポイントは完全に管理されており、自動スケーリングをサポートしています。単一モデルのエンドポイントを、インスタンスのタイプや数などのエンドポイントインフラストラクチャ構成を渡すプロビジョニング済みエンドポイントとして構成するか、SageMaker がコンピューティングリソースを自動的に起動し、トラフィックに応じてスケールインおよびスケールアウトするサーバーレスエンドポイントとして構成することができます。インスタンスタイプを選択するか、スケーリングポリシーを管理します。サーバーレスエンドポイントは、トラフィックが断続的または予測不能なアプリケーション向けです。

次の図は、単一モデルのエンドポイントの推論シナリオを示しています。

次の表は、プロビジョニングされた単一モデルエンドポイントの適合度関数を評価するためのガイダンスを示しています。サーバーレスエンドポイントのフィットネス関数の評価については、この投稿のサーバーレスエンドポイントのセクションを参照してください。

適応度関数	Description
費用	選択したインスタンスタイプの使用に対して課金されます。エンドポイントは常に実行され、利用可能であるため、コストがすぐに加算される可能性があります。モデルに適したインスタンスを選択することで、モデルに最もパフォーマンスの高いインスタンスを最小のコストで確保できます。可能な限り低いコストで安定した予測可能なパフォーマンスを維持するために、トラフィックに応じて容量を動的に調整するには、自動スケーリングをお勧めします。
推論のレイテンシ	単一モデルのエンドポイントは、ミリ秒のレイテンシー要件を備えたリアルタイムのインタラクティブな同期推論を提供します。
スループット	スループットは、モデルの入力サイズ、バッチサイズ、エンドポイントインスタンスタイプなど、さまざまな要因の影響を受ける可能性があります。入力リクエストとリソース使用率について CloudWatch メトリクスを確認し、最適なスループットを達成するために適切なインスタンスタイプを選択することをお勧めします。 SageMaker は、リソースを管理し、ML モデルをデプロイする際の推論パフォーマンスを最適化する機能を提供します。あなたはできる Neo を使用してモデルのパフォーマンスを最適化する、または Inf1 インスタンスを使用して、エンドポイントに GPU インスタンスを使用して SageMaker がホストするモデルのスループットを向上させます。
スケーリング構成の複雑さ	自動スケーリングはすぐにサポートされます。 SageMaker は、適切なスケーリング構成実行することによって負荷テスト.
交通パターン	単一モデルのエンドポイントは、トラフィックパターンが予測可能なワークロードに最適です。

複数のモデルの共同ホスティング

多数のモデルを扱っている場合、専用のコンテナーとインスタンスを使用して個々のエンドポイントに各モデルをデプロイすると、コストが大幅に増加する可能性があります。さらに、特に、すべてのモデルを同時に呼び出す必要はないが、常に使用できるようにする必要がある場合、本番環境で非常に多くのモデルを管理することも困難になります。基盤となる同じコンピューティングリソースで複数のモデルを共同ホストすると、大規模な ML 展開の管理が容易になり、エンドポイントとその基盤となるコンピューティングリソースの使用量が増えるため、ホスティングコストが削減されます。 SageMaker は、同種モデル用のマルチモデルエンドポイント (MME) や異種モデル用のマルチコンテナエンドポイント (MCE) などの高度なモデル共同ホスティングオプションをサポートしています。同種モデルは共有サービスコンテナーで同じ ML フレームワークを使用しますが、異種モデルでは、単一のエンドポイントで異なるモデルまたはフレームワークを使用する複数のサービスコンテナーをデプロイできます。

次の図は、SageMaker を使用したモデルの共同ホスティングオプションを示しています。

SageMakerマルチモデルエンドポイント

セージメーカー MME 単一のエンドポイントで共有サービスコンテナーを使用して複数のモデルをホストできます。これは、同じユースケース、フレームワーク、または推論ロジックに対応する多数のモデルを展開するための、スケーラブルで費用対効果の高いソリューションです。 MME は、呼び出し元によって呼び出されたモデルに基づいて、要求を動的に処理できます。また、SageMaker がメモリへのモデルのロードと、モデルへのトラフィックパターンに基づいたスケーリングを管理するため、デプロイのオーバーヘッドも削減されます。この機能は、共有サービングコンテナーを介して提供できる類似のモデルが多数あり、すべてのモデルに同時にアクセスする必要がない場合に最適です。マルチモデルエンドポイントは、モデル間でのメモリリソースのタイムシェアリングも可能にします。これは、モデルのサイズと呼び出しレイテンシがほぼ同じである場合に最適に機能し、MME がすべてのモデルでインスタンスを効果的に使用できるようにします。 SageMaker MME は、CPU と GPU でバックアップされたモデルの両方のホスティングをサポートしています。 GPU でサポートされたモデルを使用することで、エンドポイントとその基盤となる高速化されたコンピューティングインスタンスの使用を増やすことで、モデルのデプロイコストを削減できます。 MME の実際の使用例については、次を参照してください。マルチテナントSaaSユースケースの機械学習推論をスケーリングする方法.

次の表は、MME の適合度関数の評価に関するガイダンスを提供します。

適応度関数	Description
費用	MME を使用すると、共有サービスコンテナーを使用して、単一のエンドポイントで数千のモデルをホストできます。これにより、単一モデルのエンドポイントを使用する場合と比較してエンドポイントの使用率が向上し、ホスティングコストが大幅に削減されます。たとえば、ml.c10.large インスタンスを使用してデプロイするモデルが 5 個ある場合、 SageMaker の料金、単一モデルの永続エンドポイントを 10 個持つコストは、10 * $0.102 = 1.02 時間あたり $XNUMX です。一方、10 モデルをホストする 10 つの MME を使用すると、1 倍のコスト削減を達成できます: 0.102 * 0.102 ドル = XNUMX 時間あたり XNUMX ドル。
推論のレイテンシ	デフォルトでは、MME は頻繁に使用されるモデルをメモリとディスクにキャッシュして、低レイテンシの推論を提供します。キャッシュされたモデルは、新しく対象となるモデルに対応するためにコンテナーがメモリまたはディスク領域を使い果たした場合にのみ、ディスクからアンロードまたは削除されます。 MME では、モデルの遅延読み込みが可能です。つまり、モデルが初めて呼び出されたときにメモリに読み込まれます。これにより、メモリ使用率が最適化されます。ただし、最初のロードで応答時間のスパイクが発生し、コールドスタートの問題が発生します。したがって、MME は、使用頻度の低いモデルを呼び出すときに発生するコールドスタート関連のレイテンシペナルティを許容できるシナリオにも適しています。 ML アプリケーションのレイテンシとスループットの目標を達成するには、GPU インスタンスが CPU インスタンスよりも優先されます (GPU が提供する計算能力を考えると)。 GPU の MME サポートにより、XNUMX つの SageMaker エンドポイントの背後に何千もの深層学習モデルをデプロイできます。 MME は、GPU コアで複数のモデルを実行し、複数のモデルにわたってエンドポイントの背後で GPU インスタンスを共有し、着信トラフィックに基づいてモデルを動的にロードおよびアンロードできます。これにより、コストを大幅に削減し、最高のコストパフォーマンスを実現できます。ユースケースで XNUMX 秒あたりのトランザクション数 (TPS) またはレイテンシの要件が非常に高くなる場合は、専用のエンドポイントでモデルをホストすることをお勧めします。
スループット	MME 推論スループットの理想値は、モデル、ペイロードサイズ、エンドポイントインスタンスタイプなどの要因によって異なります。インスタンスメモリの量が多いほど、より多くのモデルをロードして、推論リクエストを処理する準備を整えることができます。モデルのロードに時間を費やす必要はありません。 vCPU の量が多いほど、より多くの固有のモデルを同時に呼び出すことができます。 MME は、モデルをインスタンスメモリとの間で動的にロードおよびアンロードします。これは、I/O パフォーマンスに影響を与える可能性があります。 GPU を搭載した SageMaker MME は、 NVIDIATriton推論サーバーは、推論提供プロセスを簡素化し、高い推論パフォーマンスを提供するオープンソースの推論提供ソフトウェアです。 SageMaker は、モデルを GPU アクセラレーションインスタンス上の NVIDIA Triton コンテナのメモリにロードし、推論リクエストを処理します。 GPU コアは、インスタンス内のすべてのモデルで共有されます。モデルがコンテナメモリにすでにロードされている場合、SageMaker はモデルを再度ダウンロードしてロードする必要がないため、後続のリクエストはより高速に処理されます。本番環境への導入を成功させるには、適切なパフォーマンステストと分析を行うことをお勧めします。 SageMaker はマルチモデルエンドポイントの CloudWatch メトリクスを提供するため、エンドポイントの使用状況とキャッシュヒット率を判断して、エンドポイントの最適化に役立てることができます。
スケーリング構成の複雑さ	SageMaker マルチモデルエンドポイントは、自動スケーリングを完全にサポートします。これは、モデルのレプリカを管理して、トラフィックパターンに基づいてモデルが確実にスケーリングされるようにします。ただし、エンドポイントを自動スケーリングするためのインスタンスの最適なサイズを決定するために、適切な負荷テストを行うことをお勧めします。あまりにも多くのモデルがアンロードされないようにするには、MME フリートのサイズを適切に設定することが重要です。いくつかの大きなインスタンスに数百のモデルをロードすると、場合によってはスロットルが発生する可能性があり、より多くの小さなインスタンスを使用することが推奨される場合があります。 SageMaker で自動化されたモデルのスケーリングを利用するには、次のことを確認してください。インスタンスの自動スケーリングの設定追加のインスタンス容量をプロビジョニングします。カスタムパラメーターまたは XNUMX 分あたりの呼び出し (推奨) を使用してエンドポイントレベルのスケーリングポリシーを設定し、エンドポイントフリートにインスタンスを追加します。自動スケールイベントをトリガーするために使用される呼び出し率は、エンドポイントによって提供されるモデルの完全なセットにわたる予測の集計セットに基づいています。
交通パターン	MME は、共有サービングコンテナーを介して提供でき、同時にすべてのモデルにアクセスする必要がない、同じサイズのモデルが多数ある場合に最適です。

SageMaker マルチコンテナエンドポイント

セージメーカー MCE 単一のエンドポイントで異なるモデルまたはフレームワークを使用する最大 15 個のコンテナーのデプロイをサポートし、それらを個別にまたは順番に呼び出して、低レイテンシーの推論とコスト削減を実現します。モデルは、独自の独立したサービングスタックを使用して、完全に異種混合にすることができます。 90 つのインスタンスで異なるフレームワークから複数のモデルを安全にホストすることで、コストを最大 XNUMX% 節約できます。

MCE 呼び出しパターンは次のとおりです。

推論パイプライン – MME 内のコンテナは、線形シーケンスで呼び出すことができます。シリアル推論パイプライン. これらは通常、前処理、モデル推論、および後処理を独立したコンテナーに分離するために使用されます。現在のコンテナからの出力は、次のコンテナへの入力として渡されます。それらは、SageMaker では単一のパイプラインモデルとして表されます。推論パイプラインは MME としてデプロイできます。この場合、パイプライン内のコンテナーの XNUMX つが、呼び出されるモデルに基づいて動的に要求を処理できます。
直接呼び出し –と直接呼び出し、MCE でホストされている特定の推論コンテナーに要求を送信できます。

次の表は、MCE の適合度関数の評価に関するガイダンスを示しています。

適応度関数	Description
費用	MCE を使用すると、15 つのエンドポイントで最大 XNUMX 個の異なる ML コンテナーを実行し、それらを個別に呼び出すことができるため、コストを節約できます。このオプションは、似たようなリソースニーズを持つ異なるサービススタックで複数のモデルを実行している場合、および個々のモデルにエンドポイントインスタンスの全容量を利用するための十分なトラフィックがない場合に最適です。したがって、MCE は単一モデルのエンドポイントよりも費用対効果が高くなります。 MCE は同期推論応答を提供します。つまり、エンドポイントは常に利用可能であり、インスタンスの稼働時間に対して料金が発生します。インスタンスの数とタイプに応じて、コストが加算される場合があります。
推論のレイテンシ	MCE は、アクセス頻度は低いものの、低レイテンシーの推論が必要なモデルごとに異なる ML フレームワークとアルゴリズムを使用して ML アプリを実行する場合に最適です。モデルは常に低レイテンシーの推論に使用でき、コールドスタートの問題はありません。
スループット	MCE はマルチコンテナーエンドポイントで最大 15 個のコンテナーに制限されており、リソースの競合のため GPU 推論はサポートされていません。直接呼び出しモードを使用するマルチコンテナエンドポイントの場合、SageMaker は他の一般的なエンドポイントと同様にインスタンスレベルのメトリクスを提供するだけでなく、コンテナごとのメトリクスもサポートします。ベストプラクティスとして、入力リクエストとリソース使用率の CloudWatch メトリクスを確認し、適切なインスタンスタイプを選択して最適なスループットを実現します。
スケーリング構成の複雑さ	MCE は自動スケーリングをサポートしています。ただし、自動スケーリングを構成するには、各コンテナー内のモデルが各推論要求で同様の CPU 使用率とレイテンシーを示すことをお勧めします。これが推奨されるのは、マルチコンテナーエンドポイントへのトラフィックが CPU 使用率の低いモデルから CPU 使用率の高いモデルに移行しても、全体的な呼び出し量が同じままである場合、エンドポイントはスケールアウトせず、十分なインスタンスが存在しない可能性があるためです。高 CPU 使用率モデルへのすべての要求を処理します。
交通パターン	MCE は、エンドポイントインスタンスの全容量を飽和させるのに十分なトラフィックがない可能性があるさまざまなフレームワーク (TensorFlow、PyTorch、Sklearn など) でモデルをホストするために、継続的または定期的なトラフィックパターンを持つワークロードに最適です。

マルチモデルベースの ML アプリケーションのホスティング

多くのビジネスアプリケーションでは、複数の ML モデルを使用して、XNUMX つの予測リクエストをコンシューマーに提供する必要があります。たとえば、ユーザーにレコメンデーションを提供したい小売会社です。このユースケースの ML アプリケーションでは、さまざまなカテゴリの製品を推奨するために、さまざまなカスタムモデルを使用する必要がある場合があります。企業が個々のユーザー情報を使用してレコメンデーションにパーソナライズを追加したい場合、カスタムモデルの数はさらに増加します。各カスタムモデルを個別のコンピューティングインスタンスでホストすることは、法外なコストがかかるだけでなく、すべてのモデルが頻繁に使用されるわけではない場合、ホスティングリソースが十分に活用されないことにつながります。 SageMaker は、マルチモデルベースの ML アプリケーションに効率的なホスティングオプションを提供します。

次の図は、SageMaker を使用した単一エンドポイントのマルチモデルホスティングオプションを示しています。

シリアル推論パイプライン

推論パイプラインは、データに対する推論のリクエストを処理する 2 ～ 15 個のコンテナの線形シーケンスで構成される SageMaker モデルです。推論パイプラインを使用して、事前トレーニング済みの SageMaker 組み込みアルゴリズムと、Docker コンテナーにパッケージ化された独自のカスタムアルゴリズムの任意の組み合わせを定義してデプロイします。推論パイプラインを使用して、前処理、予測、後処理のデータサイエンスタスクを組み合わせることができます。 XNUMX つのコンテナーからの出力は、次のコンテナーへの入力として渡されます。パイプラインモデルのコンテナーを定義するときは、コンテナーが実行される順序も指定します。それらは、SageMaker では単一のパイプラインモデルとして表されます。推論パイプラインは MME としてデプロイでき、パイプライン内のコンテナーの XNUMX つが、呼び出されるモデルに基づいて動的に要求を処理できます。実行することもできますバッチ変換推論パイプラインを使用するジョブ。推論パイプラインは完全に管理されています。

次の表は、シリアル推論パイプラインを使用して ML モデルホスティングの適合度関数を評価するためのガイダンスを示しています。

適応度関数	Description
費用	シリアル推論パイプラインを使用すると、15 つのエンドポイントで最大 XNUMX 個の異なる ML コンテナーを実行できるため、推論コンテナーをホストする費用対効果が向上します。この機能を使用するための追加費用はありません。エンドポイントで実行されているインスタンスに対してのみ料金が発生します。インスタンスの数とタイプに応じて、コストが加算される場合があります。
推論のレイテンシ	ML アプリケーションが推論パイプラインとしてデプロイされると、異なるモデル間のデータはコンテナースペースを離れません。コンテナが同じ EC2 インスタンスに配置されているため、機能の処理と推論は低レイテンシーで実行されます。
スループット	推論パイプラインモデル内で、SageMaker は呼び出しを一連の HTTP リクエストとして処理します。パイプラインの最初のコンテナが最初のリクエストを処理し、中間レスポンスがリクエストとして XNUMX 番目のコンテナに送信され、パイプラインのコンテナごとに同様の処理が行われます。 SageMaker はクライアントに最終的な応答を返します。スループットは、モデル、モデルの入力サイズ、バッチサイズ、エンドポイントインスタンスタイプなどの要因の影響を受けます。ベストプラクティスとして、入力リクエストとリソース使用率の CloudWatch メトリクスを確認し、適切なインスタンスタイプを選択して最適なスループットを実現します。
スケーリング構成の複雑さ	シリアル推論パイプラインは、自動スケーリングをサポートしています。ただし、自動スケーリングを構成するには、各コンテナー内のモデルが各推論要求で同様の CPU 使用率とレイテンシーを示すことをお勧めします。これが推奨されるのは、マルチコンテナーエンドポイントへのトラフィックが CPU 使用率の低いモデルから CPU 使用率の高いモデルに移行しても、全体的な呼び出し量が同じままである場合、エンドポイントはスケールアウトせず、十分なインスタンスが存在しない可能性があるためです。高 CPU 使用率モデルへのすべての要求を処理します。
交通パターン	シリアル推論パイプラインは、同じエンドポイントで順次実行されるモデルを使用した予測可能なトラフィックパターンに最適です。

モデルアンサンブルのデプロイ (Triton DAG):

SageMaker は、 NVIDIATriton推論サーバー　 Triton 推論サーバーコンテナー. これらのコンテナには、NVIDIA Triton Inference Server、一般的な ML フレームワークのサポート、および SageMaker でのパフォーマンスを最適化できる便利な環境変数が含まれています。 NVIDIA Triton コンテナーイメージを使用すると、ML モデルを簡単に提供し、NVIDIA Triton が提供するパフォーマンスの最適化、動的バッチ処理、およびマルチフレームワークサポートの恩恵を受けることができます。 Triton は、GPU と CPU の使用率を最大化し、推論のコストをさらに削減します。

ML アプリケーションが複数のモデルを使用して予測リクエストを処理するビジネスユースケースでは、各モデルが異なるフレームワークを使用するか、別のインスタンスでホストされている場合、ワークロードとコストの増加、および全体的なレイテンシの増加につながる可能性があります。 SageMaker NVIDIA Triton Inference Server は、TensorFlow GraphDef、TensorFlow SavedModel、ONNX、PyTorch TorchScript、TensorRT、Python/C++ モデル形式など、すべての主要なフレームワークからのモデルのデプロイをサポートしています。 Triton モデルアンサンブルは、XNUMX つ以上のモデルのパイプライン、または前処理ロジックと後処理ロジック、およびそれらの間の入力テンソルと出力テンソルの接続を表します。アンサンブルへの単一の推論リクエストが、パイプライン全体の実行をトリガーします。 Triton には、個々の推論リクエストを組み合わせて推論スループットを向上させる複数の組み込みのスケジューリングおよびバッチ処理アルゴリズムもあります。これらのスケジューリングとバッチ処理の決定は、推論を要求するクライアントに対して透過的です。モデルは CPU または GPU で実行できるため、最大限の柔軟性が得られ、異種コンピューティング要件がサポートされます。

マルチモデルエンドポイントで複数の GPU 対応モデルをホストすることは、 SageMaker Triton 推論サーバー. NVIDIA Triton Inference Server が拡張され、 MME API コントラクト、MME と統合します。さまざまなフレームワークバックエンドのモデルリポジトリ構成を作成する NVIDIA Triton Inference Server を使用して、自動スケーリングで MME をデプロイできます。この機能により、AI アプリケーションでの独自のエンドユーザーエクスペリエンスに対応するように微調整された数百の超パーソナライズされたモデルをスケーリングできます。この機能を使用して、フラクショナル GPU を使用する推論アプリケーションに必要なコストパフォーマンスを達成することもできます。詳細については、次を参照してください。 Amazon SageMaker マルチモデルエンドポイントを使用して GPU で複数の深層学習モデルを実行する.

次の表は、Triton 推論コンテナーで GPU をサポートする MME を使用して、ML モデルホスティングの適合度関数を評価するためのガイダンスを提供します。単一モデルのエンドポイントとサーバーレスエンドポイントのフィットネス関数の評価については、この投稿の前のセクションを参照してください。

適応度関数	Description
費用	Triton Inference Server を使用した GPU サポートを備えた SageMaker MME は、XNUMX つの SageMaker エンドポイントの背後に多数の深層学習モデルをデプロイするためのスケーラブルで費用対効果の高い方法を提供します。 MME を使用すると、複数のモデルがエンドポイントの背後で GPU インスタンスを共有します。これにより、複数のモデルをホストする直線的に増加するコストを解消し、すべてのモデルでインフラストラクチャを再利用できます。インスタンスの稼働時間に対して支払います。
推論のレイテンシ	SageMaker with Triton Inference Server は、超低 (XNUMX 桁ミリ秒) の推論レイテンシーでスループットとハードウェア使用率を最大化するために構築されています。サポートされている幅広い ML フレームワーク (TensorFlow、PyTorch、ONNX、XGBoost、NVIDIA TensorRT など) とインフラストラクチャバックエンド (NVIDIA GPU、CPU、および AWSインフェレンティア. SageMaker Triton Inference Server を使用した GPU の MME サポートにより、XNUMX つの SageMaker エンドポイントの背後に何千もの深層学習モデルをデプロイできます。 SageMaker は、モデルを GPU アクセラレーションインスタンス上の NVIDIA Triton コンテナのメモリにロードし、推論リクエストを処理します。 GPU コアは、インスタンス内のすべてのモデルで共有されます。モデルがコンテナメモリにすでにロードされている場合、SageMaker はモデルを再度ダウンロードしてロードする必要がないため、後続のリクエストはより高速に処理されます。
スループット	MME は、Triton Inference Server を使用して、複数のディープラーニングまたは ML モデルを GPU 上で同時に実行する機能を提供します。これにより、SageMaker のフルマネージドモデルのデプロイで提供される NVIDIA Triton マルチフレームワークの高性能推論を簡単に使用できます。 Triton は、NVIDIA GPU、x86、Arm® CPU、および AWS Inferentia ベースの推論をすべてサポートしています。動的なバッチ処理、同時実行、最適なモデル構成、モデルアンサンブル、ストリーミングオーディオおよびビデオ入力を提供して、スループットと使用率を最大化します。ネットワークやペイロードサイズなどのその他の要因は、推論に関連するオーバーヘッドで最小限の役割を果たす場合があります。
スケーリング構成の複雑さ	MME は、自動スケーリングポリシーを使用して水平方向にスケーリングし、次のような指標に基づいて追加の GPU コンピューティングインスタンスをプロビジョニングできます。 `InvocationsPerInstance` および `GPUUtilization` MME エンドポイントへのトラフィックの急増に対応します。 Triton 推論サーバーを使用すると、Triton を使用してモデルを含むカスタムコンテナを簡単に構築し、SageMaker に取り込むことができます。 SageMaker Inference はリクエストを処理し、使用量の増加に応じてコンテナを自動的にスケーリングし、AWS での Triton を使用したモデルのデプロイを容易にします。
交通パターン	MME は、モデルが同じエンドポイントで DAG として実行される予測可能なトラフィックパターンに最適です。 SageMaker は MME エンドポイントへのトラフィックシェーピングを処理し、GPU インスタンスで最適なモデルコピーを維持して、最高の価格パフォーマンスを実現します。モデルが読み込まれるインスタンスにトラフィックをルーティングし続けます。使用率が高いためにインスタンスリソースが容量に達した場合、SageMaker はコンテナから使用頻度の低いモデルをアンロードして、リソースを解放し、より頻繁に使用されるモデルをロードします。

ベストプラクティス

次のベストプラクティスを検討してください。

モデル間の高い凝集度と低いカップリング – 凝集度の高い (単一ビジネス機能を駆動する) 同じコンテナーでモデルをホストし、それらをカプセル化して、アップグレードと管理を容易にします。同時に、他のモデルに影響を与えることなく XNUMX つのモデルを簡単にアップグレードできるように、これらのモデルを互いに分離 (異なるコンテナーでホスト) します。 XNUMX つのエンドポイントの背後で異なるコンテナーを使用する複数のモデルをホストし、個別に呼び出すか、モデルの前処理ロジックと後処理ロジックをシリアル推論パイプラインとして追加します。
推論のレイテンシ – 単一ビジネス機能駆動型のモデルをグループ化し、それらを XNUMX つのコンテナーでホストして、ホップ数を最小限に抑え、したがって全体的な待ち時間を最小限に抑えます。グループ化されたモデルが複数のフレームワークを使用する場合など、他にも注意事項があります。複数のコンテナーでホストすることを選択することもできますが、同じホストで実行して、待ち時間を短縮し、コストを最小限に抑えることができます。
凝集度の高い ML モデルを論理的にグループ化する – 論理グループは、同種のモデル (すべての XGBoost モデルなど) または異種のモデル (少数の XGBoost と少数の BERT など) で構成される場合があります。複数のビジネス機能で共有されるモデルで構成されている場合もあれば、XNUMX つのビジネス機能のみを満たすことに固有のモデルである場合もあります。
- 共有モデル – 論理グループが共有モデルで構成されている場合、モデルのアップグレードの容易さとレイテンシーは、SageMaker エンドポイントの設計において重要な役割を果たします。たとえば、レイテンシーが優先される場合は、すべてのモデルを単一の SageMaker エンドポイントの背後にある単一のコンテナーに配置して、複数のホップを回避することをお勧めします。欠点は、モデルのいずれかをアップグレードする必要がある場合、このモデルをホストしている関連するすべての SageMaker エンドポイントをアップグレードすることになります。
- 非共有モデル – 論理グループがビジネス機能固有のモデルのみで構成され、他のグループと共有されていない場合、パッケージングの複雑さと待ち時間の次元が達成の鍵となります。これらのモデルは、単一の SageMaker エンドポイントの背後にある単一のコンテナーでホストすることをお勧めします。
ハードウェア (CPU、GPU) の効率的な使用 – CPU を効率的に使用できるように、CPU ベースのモデルをグループ化し、同じホストでホストします。同様に、GPU ベースのモデルをグループ化して、それらを効率的に使用およびスケーリングできるようにします。同じホストで CPU と GPU の両方を必要とするハイブリッドワークロードがあります。 CPU のみのモデルと GPU のみのモデルを同じホストでホストすることは、高い結束力とアプリケーションの待機時間の要件によって推進される必要があります。さらに、コスト、スケーリング能力、および障害発生時の影響範囲が、検討すべき重要な要素です。
フィットネス機能 – ML ホスティングオプションを選択するためのガイドラインとしてフィットネス関数を使用します。

まとめ

ML ホスティングに関しては、万能のアプローチはありません。 ML の実践者は、ML ホスティングの課題に対処するために適切な設計パターンを選択する必要があります。フィットネス関数を評価すると、適切な ML ホスティングオプションを選択するための規範的なガイダンスが得られます。

各ホスティングオプションの詳細については、このシリーズの次の投稿を参照してください。

著者について

ダワル・パテル AWSのプリンシパル機械学習アーキテクトです。彼は、分散コンピューティングや人工知能に関連する問題について、大企業から中規模の新興企業に至るまでの組織と協力してきました。彼は、NLPおよびコンピュータービジョンドメインを含むディープラーニングに焦点を当てています。彼は、顧客がSageMakerで高性能モデルの推論を実現するのを支援します。

ディーパリ・ラジャレ アマゾンウェブサービスの AI/ML スペシャリストテクニカルアカウントマネージャーです。彼女は企業のお客様と協力して、ベストプラクティスを使用した機械学習ソリューションの実装に関する技術的なガイダンスを提供しています。余暇には、ハイキング、映画、家族や友人との付き合いを楽しんでいます。

サウラブ・トリカンデ Amazon SageMaker Inference のシニアプロダクトマネージャーです。彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープラーニングモデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。余暇には、Saurabh はハイキングを楽しんだり、革新的なテクノロジーについて学んだり、TechCrunch をフォローしたり、家族と過ごしたりしています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/model-hosting-patterns-in-amazon-sagemaker-part-1-common-design-patterns-for-building-ml-applications-on-amazon-sagemaker/

タイムスタンプ： 2023 年 1 月 9 日

タイムスタンプ： 2023 年 11 月 22 日

プラトン再発行

交通パターン

AmazonSageMakerとHuggingFaceによるテキストの要約

新機能 – コード不要の生成 AI 機能が Amazon SageMaker Canvas で利用可能になりました | アマゾンウェブサービス

Accenture は、AWS 生成 AI サービスを使用して規制文書オーサリングソリューションを作成 |アマゾンウェブサービス

Amazon SageMaker Data Wrangler でテキストデータのパターンを検出する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー