Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える | アマゾン ウェブ サービス

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える | アマゾン ウェブ サービス

アマゾンセージメーカー リアルタイム推論用の機械学習 (ML) モデルのデプロイが簡単になり、CPU やアクセラレータにまたがる幅広い ML インスタンスの選択肢が提供されます。 AWSインフェレンティア。 フルマネージド サービスとして、モデルのデプロイメントを拡張し、推論コストを最小限に抑え、運用負荷を軽減しながら実稼働環境でモデルをより効果的に管理できます。 SageMaker リアルタイム推論エンドポイントは、HTTPS エンドポイントと、高可用性を実現するために複数のアベイラビリティーゾーンにデプロイされる ML インスタンスで構成されます。 セージメーカー アプリケーションの自動スケーリング ワークロードの変化に応じて、モデルにプロビジョニングされる ML インスタンスの数を動的に調整できます。 エンドポイントは、ラウンドロビン アルゴリズムを使用して、受信リクエストを ML インスタンスに均一に分散します。

インスタンスにデプロイされた ML モデルが多数のクライアントから API 呼び出しを受信する場合、リクエストとレスポンスに大きなばらつきがない場合、リクエストのランダムな分散は非常にうまく機能します。 しかし、生成的な AI ワークロードを備えたシステムでは、リクエストとレスポンスが非常に変化する可能性があります。 このような場合、ランダムな負荷分散ではなく、インスタンスの容量と使用率を考慮して負荷分散することが望ましいことがよくあります。

この投稿では、SageMaker の最小未処理リクエスト (LOR) ルーティング戦略と、ML インスタンスの容量と使用率を考慮して、特定の種類のリアルタイム推論ワークロードのレイテンシを最小限に抑える方法について説明します。 デフォルトのルーティング メカニズムに対する LOR の利点と、モデルのデプロイメントで LOR を有効にする方法について説明します。 最後に、ランダム ルーティングのデフォルト ルーティング戦略と比べて、LOR を使用した場合の遅延改善の比較分析を示します。

SageMaker LOR 戦略

デフォルトでは、SageMaker エンドポイントにはランダムなルーティング戦略があります。 SageMaker は、LOR 戦略をサポートするようになりました。これにより、SageMaker は、リクエストを処理するのに最適なインスタンスにリクエストを最適にルーティングできるようになります。 SageMaker は、エンドポイントの背後にあるインスタンスの負荷と、各インスタンスにデプロイされているモデルまたは推論コンポーネントを監視することでこれを可能にします。

次の対話型の図は、モデルのエンドポイントに届くリクエストがランダムな方法で ML インスタンスに転送されるデフォルトのルーティング ポリシーを示しています。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

次のインタラクティブな図は、SageMaker が未処理のリクエストの数が最も少ないインスタンスにリクエストをルーティングするルーティング戦略を示しています。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

一般に、LOR ルーティングは、モデルが数百ミリ秒から数分で応答する場合、基礎モデルまたは生成 AI モデルに対して適切に機能します。 モデルの応答の遅延が短い場合 (最大数百ミリ秒)、ランダム ルーティングのメリットが大きくなる可能性があります。 いずれにしても、ワークロードに最適なルーティング アルゴリズムをテストして特定することをお勧めします。

SageMaker ルーティング戦略を設定する方法

SageMaker では、 RoutingStrategy 作成時のパラメータ EndpointConfiguration エンドポイント用。 違うのは RoutingStrategy SageMaker でサポートされる値は次のとおりです。

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

以下は、LOR が有効になっている推論エンドポイントでのモデルのデプロイメントの例です。

  1. 設定によりエンドポイント構成を作成します。 RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. エンドポイント構成を使用してエンドポイントを作成します (変更なし)。
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

業績

パフォーマンス ベンチマークを実行して、エンドツーエンドの推論レイテンシーとスループットを測定しました。 コードジェネ2-7B デフォルトのルーティング エンドポイントとスマート ルーティング エンドポイントを備えた ml.g5.24xl インスタンスでホストされるモデル。 CodeGen2 モデルは自己回帰言語モデルのファミリーに属しており、英語のプロンプトが与えられたときに実行可能コードを生成します。

次の表に示すように、分析では、同時ユーザー数の増加に応じて、テスト実行ごとに各エンドポイントの背後にある ml.g5.24xl インスタンスの数を増加しました。

ホイール試乗 同時ユーザー数 インスタンス数
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

両方のエンドポイントのエンドツーエンドの P99 レイテンシを測定したところ、次のグラフに示すように、インスタンスの数が 4 から 33 に増加したときにレイテンシが 5 ~ 20% 向上することが観察されました。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

同様に、インスタンス数を 15 から 16 に増やした場合、インスタンスごとの 5 分あたりのスループットが 20 ~ XNUMX% 向上することが観察されました。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

これは、スマート ルーティングによってエンドポイント間のトラフィック分散が改善され、エンドツーエンドの遅延と全体的なスループットの向上につながることがわかります。

まとめ

この投稿では、SageMaker ルーティング戦略と、LOR ルーティングを有効にする新しいオプションについて説明しました。 LOR を有効にする方法と、LOR がモデルのデプロイメントにどのようなメリットをもたらすかを説明しました。 パフォーマンス テストでは、リアルタイム推論中のレイテンシとスループットの向上が示されました。 SageMaker ルーティング機能の詳細については、以下を参照してください。 ドキュメント。 推論ワークロードを評価し、ルーティング戦略が最適に構成されているかどうかを判断することをお勧めします。


著者について

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ジェームズ・パーク アマゾン ウェブ サービスのソリューション アーキテクトです。 彼は Amazon.com と協力して AWS 上のテクノロジー ソリューションを設計、構築、デプロイしており、特に AI と機械学習に興味を持っています。 余暇には、新しい文化、新しい経験を探し、最新のテクノロジー トレンドを把握することを楽しんでいます。 あなたは彼を見つけることができます LinkedIn.

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ヴェヌゴパル パイ AWS のソリューションアーキテクトです。 彼はインドのベンガルールに住んでおり、デジタルネイティブの顧客が AWS でアプリケーションを拡張および最適化できるよう支援しています。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。デビッド・ニゲンダ は、Amazon SageMaker チームのシニア ソフトウェア開発エンジニアであり、現在、本番環境の機械学習ワークフローの改善と、新しい推論機能の立ち上げに取り組んでいます。 余暇には、彼は子供たちについていくように努めています。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ディープティ・ラガ は、AmazonSageMakerチームのソフトウェア開発エンジニアです。 彼女の現在の仕事は、機械学習モデルを効率的にホストする機能の構築に焦点を当てています。 余暇には、旅行、ハイキング、植物の栽培を楽しんでいます。

アランタンアランタン SageMaker のシニア プロダクト マネージャーであり、大規模なモデルの推論に取り組んでいます。 彼は機械学習を分析の分野に適用することに情熱を注いでいます。 仕事以外では、アウトドアを楽しんでいます。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ダワル・パテル AWSのプリンシパル機械学習アーキテクトです。 彼は、分散コンピューティングや人工知能に関連する問題について、大企業から中規模の新興企業に至るまでの組織と協力してきました。 彼は、NLPおよびコンピュータービジョンドメインを含むディープラーニングに焦点を当てています。 彼は、顧客がSageMakerで高性能モデルの推論を実現するのを支援します。

タイムスタンプ:

より多くの AWS機械学習