Amazon SageMaker ルーティング戦略を使用してリアルタイム推論レイテンシーを最小限に抑える |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

アマゾンセージメーカーリアルタイム推論用の機械学習 (ML) モデルのデプロイが簡単になり、CPU やアクセラレータにまたがる幅広い ML インスタンスの選択肢が提供されます。 AWSインフェレンティア。フルマネージドサービスとして、モデルのデプロイメントを拡張し、推論コストを最小限に抑え、運用負荷を軽減しながら実稼働環境でモデルをより効果的に管理できます。 SageMaker リアルタイム推論エンドポイントは、HTTPS エンドポイントと、高可用性を実現するために複数のアベイラビリティーゾーンにデプロイされる ML インスタンスで構成されます。セージメーカーアプリケーションの自動スケーリングワークロードの変化に応じて、モデルにプロビジョニングされる ML インスタンスの数を動的に調整できます。エンドポイントは、ラウンドロビンアルゴリズムを使用して、受信リクエストを ML インスタンスに均一に分散します。

インスタンスにデプロイされた ML モデルが多数のクライアントから API 呼び出しを受信する場合、リクエストとレスポンスに大きなばらつきがない場合、リクエストのランダムな分散は非常にうまく機能します。しかし、生成的な AI ワークロードを備えたシステムでは、リクエストとレスポンスが非常に変化する可能性があります。このような場合、ランダムな負荷分散ではなく、インスタンスの容量と使用率を考慮して負荷分散することが望ましいことがよくあります。

この投稿では、SageMaker の最小未処理リクエスト (LOR) ルーティング戦略と、ML インスタンスの容量と使用率を考慮して、特定の種類のリアルタイム推論ワークロードのレイテンシを最小限に抑える方法について説明します。デフォルトのルーティングメカニズムに対する LOR の利点と、モデルのデプロイメントで LOR を有効にする方法について説明します。最後に、ランダムルーティングのデフォルトルーティング戦略と比べて、LOR を使用した場合の遅延改善の比較分析を示します。

SageMaker LOR 戦略

デフォルトでは、SageMaker エンドポイントにはランダムなルーティング戦略があります。 SageMaker は、LOR 戦略をサポートするようになりました。これにより、SageMaker は、リクエストを処理するのに最適なインスタンスにリクエストを最適にルーティングできるようになります。 SageMaker は、エンドポイントの背後にあるインスタンスの負荷と、各インスタンスにデプロイされているモデルまたは推論コンポーネントを監視することでこれを可能にします。

次の対話型の図は、モデルのエンドポイントに届くリクエストがランダムな方法で ML インスタンスに転送されるデフォルトのルーティングポリシーを示しています。

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

次のインタラクティブな図は、SageMaker が未処理のリクエストの数が最も少ないインスタンスにリクエストをルーティングするルーティング戦略を示しています。

一般に、LOR ルーティングは、モデルが数百ミリ秒から数分で応答する場合、基礎モデルまたは生成 AI モデルに対して適切に機能します。モデルの応答の遅延が短い場合 (最大数百ミリ秒)、ランダムルーティングのメリットが大きくなる可能性があります。いずれにしても、ワークロードに最適なルーティングアルゴリズムをテストして特定することをお勧めします。

SageMaker ルーティング戦略を設定する方法

SageMaker では、 RoutingStrategy 作成時のパラメータ EndpointConfiguration エンドポイント用。違うのは RoutingStrategy SageMaker でサポートされる値は次のとおりです。

LEAST_OUTSTANDING_REQUESTS
RANDOM

以下は、LOR が有効になっている推論エンドポイントでのモデルのデプロイメントの例です。

設定によりエンドポイント構成を作成します。 RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

エンドポイント構成を使用してエンドポイントを作成します (変更なし)。

create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)

業績

パフォーマンスベンチマークを実行して、エンドツーエンドの推論レイテンシーとスループットを測定しました。コードジェネ2-7B デフォルトのルーティングエンドポイントとスマートルーティングエンドポイントを備えた ml.g5.24xl インスタンスでホストされるモデル。 CodeGen2 モデルは自己回帰言語モデルのファミリーに属しており、英語のプロンプトが与えられたときに実行可能コードを生成します。

次の表に示すように、分析では、同時ユーザー数の増加に応じて、テスト実行ごとに各エンドポイントの背後にある ml.g5.24xl インスタンスの数を増加しました。

ホイール試乗	同時ユーザー数	インスタンス数
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

両方のエンドポイントのエンドツーエンドの P99 レイテンシを測定したところ、次のグラフに示すように、インスタンスの数が 4 から 33 に増加したときにレイテンシが 5 ～ 20% 向上することが観察されました。

同様に、インスタンス数を 15 から 16 に増やした場合、インスタンスごとの 5 分あたりのスループットが 20 ～ XNUMX% 向上することが観察されました。

これは、スマートルーティングによってエンドポイント間のトラフィック分散が改善され、エンドツーエンドの遅延と全体的なスループットの向上につながることがわかります。

まとめ

この投稿では、SageMaker ルーティング戦略と、LOR ルーティングを有効にする新しいオプションについて説明しました。 LOR を有効にする方法と、LOR がモデルのデプロイメントにどのようなメリットをもたらすかを説明しました。パフォーマンステストでは、リアルタイム推論中のレイテンシとスループットの向上が示されました。 SageMaker ルーティング機能の詳細については、以下を参照してください。ドキュメント。推論ワークロードを評価し、ルーティング戦略が最適に構成されているかどうかを判断することをお勧めします。

著者について

Amazon SageMaker ルーティング戦略を使用して、リアルタイム推論のレイテンシーを最小限に抑える |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ジェームズ・パーク アマゾンウェブサービスのソリューションアーキテクトです。彼は Amazon.com と協力して AWS 上のテクノロジーソリューションを設計、構築、デプロイしており、特に AI と機械学習に興味を持っています。余暇には、新しい文化、新しい経験を探し、最新のテクノロジートレンドを把握することを楽しんでいます。あなたは彼を見つけることができます LinkedIn.

ヴェヌゴパルパイ AWS のソリューションアーキテクトです。彼はインドのベンガルールに住んでおり、デジタルネイティブの顧客が AWS でアプリケーションを拡張および最適化できるよう支援しています。

デビッド・ニゲンダ は、Amazon SageMaker チームのシニアソフトウェア開発エンジニアであり、現在、本番環境の機械学習ワークフローの改善と、新しい推論機能の立ち上げに取り組んでいます。余暇には、彼は子供たちについていくように努めています。

ディープティ・ラガ は、AmazonSageMakerチームのソフトウェア開発エンジニアです。彼女の現在の仕事は、機械学習モデルを効率的にホストする機能の構築に焦点を当てています。余暇には、旅行、ハイキング、植物の栽培を楽しんでいます。

アランタン SageMaker のシニアプロダクトマネージャーであり、大規模なモデルの推論に取り組んでいます。彼は機械学習を分析の分野に適用することに情熱を注いでいます。仕事以外では、アウトドアを楽しんでいます。

ダワル・パテル AWSのプリンシパル機械学習アーキテクトです。彼は、分散コンピューティングや人工知能に関連する問題について、大企業から中規模の新興企業に至るまでの組織と協力してきました。彼は、NLPおよびコンピュータービジョンドメインを含むディープラーニングに焦点を当てています。彼は、顧客がSageMakerで高性能モデルの推論を実現するのを支援します。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

タイムスタンプ： 2023 年 11 月 30 日

タイムスタンプ： 2024 年 4 月 19 日

プラトン再発行

Amazon SageMaker Studio の AWS Lake Formation と Amazon EMR を使用して、きめ細かいデータアクセス制御を適用します

Amazon SageMaker JumpStart で画像セグメンテーションを実行する

AWS IoT GreengrassV2を使用したAmazonSageMaker EdgeManagerによる異常検出

Amazon Personalize でのソリューションの自動トレーニングの導入 |アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー