アマゾンセージメーカー リアルタイム推論用の機械学習 (ML) モデルのデプロイが簡単になり、CPU やアクセラレータにまたがる幅広い ML インスタンスの選択肢が提供されます。 AWSインフェレンティア。 フルマネージド サービスとして、モデルのデプロイメントを拡張し、推論コストを最小限に抑え、運用負荷を軽減しながら実稼働環境でモデルをより効果的に管理できます。 SageMaker リアルタイム推論エンドポイントは、HTTPS エンドポイントと、高可用性を実現するために複数のアベイラビリティーゾーンにデプロイされる ML インスタンスで構成されます。 セージメーカー アプリケーションの自動スケーリング ワークロードの変化に応じて、モデルにプロビジョニングされる ML インスタンスの数を動的に調整できます。 エンドポイントは、ラウンドロビン アルゴリズムを使用して、受信リクエストを ML インスタンスに均一に分散します。
インスタンスにデプロイされた ML モデルが多数のクライアントから API 呼び出しを受信する場合、リクエストとレスポンスに大きなばらつきがない場合、リクエストのランダムな分散は非常にうまく機能します。 しかし、生成的な AI ワークロードを備えたシステムでは、リクエストとレスポンスが非常に変化する可能性があります。 このような場合、ランダムな負荷分散ではなく、インスタンスの容量と使用率を考慮して負荷分散することが望ましいことがよくあります。
この投稿では、SageMaker の最小未処理リクエスト (LOR) ルーティング戦略と、ML インスタンスの容量と使用率を考慮して、特定の種類のリアルタイム推論ワークロードのレイテンシを最小限に抑える方法について説明します。 デフォルトのルーティング メカニズムに対する LOR の利点と、モデルのデプロイメントで LOR を有効にする方法について説明します。 最後に、ランダム ルーティングのデフォルト ルーティング戦略と比べて、LOR を使用した場合の遅延改善の比較分析を示します。
SageMaker LOR 戦略
デフォルトでは、SageMaker エンドポイントにはランダムなルーティング戦略があります。 SageMaker は、LOR 戦略をサポートするようになりました。これにより、SageMaker は、リクエストを処理するのに最適なインスタンスにリクエストを最適にルーティングできるようになります。 SageMaker は、エンドポイントの背後にあるインスタンスの負荷と、各インスタンスにデプロイされているモデルまたは推論コンポーネントを監視することでこれを可能にします。
次の対話型の図は、モデルのエンドポイントに届くリクエストがランダムな方法で ML インスタンスに転送されるデフォルトのルーティング ポリシーを示しています。
次のインタラクティブな図は、SageMaker が未処理のリクエストの数が最も少ないインスタンスにリクエストをルーティングするルーティング戦略を示しています。
一般に、LOR ルーティングは、モデルが数百ミリ秒から数分で応答する場合、基礎モデルまたは生成 AI モデルに対して適切に機能します。 モデルの応答の遅延が短い場合 (最大数百ミリ秒)、ランダム ルーティングのメリットが大きくなる可能性があります。 いずれにしても、ワークロードに最適なルーティング アルゴリズムをテストして特定することをお勧めします。
SageMaker ルーティング戦略を設定する方法
SageMaker では、 RoutingStrategy
作成時のパラメータ EndpointConfiguration
エンドポイント用。 違うのは RoutingStrategy
SageMaker でサポートされる値は次のとおりです。
LEAST_OUTSTANDING_REQUESTS
RANDOM
以下は、LOR が有効になっている推論エンドポイントでのモデルのデプロイメントの例です。
- 設定によりエンドポイント構成を作成します。
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - エンドポイント構成を使用してエンドポイントを作成します (変更なし)。
業績
パフォーマンス ベンチマークを実行して、エンドツーエンドの推論レイテンシーとスループットを測定しました。 コードジェネ2-7B デフォルトのルーティング エンドポイントとスマート ルーティング エンドポイントを備えた ml.g5.24xl インスタンスでホストされるモデル。 CodeGen2 モデルは自己回帰言語モデルのファミリーに属しており、英語のプロンプトが与えられたときに実行可能コードを生成します。
次の表に示すように、分析では、同時ユーザー数の増加に応じて、テスト実行ごとに各エンドポイントの背後にある ml.g5.24xl インスタンスの数を増加しました。
ホイール試乗 | 同時ユーザー数 | インスタンス数 |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
両方のエンドポイントのエンドツーエンドの P99 レイテンシを測定したところ、次のグラフに示すように、インスタンスの数が 4 から 33 に増加したときにレイテンシが 5 ~ 20% 向上することが観察されました。
同様に、インスタンス数を 15 から 16 に増やした場合、インスタンスごとの 5 分あたりのスループットが 20 ~ XNUMX% 向上することが観察されました。
これは、スマート ルーティングによってエンドポイント間のトラフィック分散が改善され、エンドツーエンドの遅延と全体的なスループットの向上につながることがわかります。
まとめ
この投稿では、SageMaker ルーティング戦略と、LOR ルーティングを有効にする新しいオプションについて説明しました。 LOR を有効にする方法と、LOR がモデルのデプロイメントにどのようなメリットをもたらすかを説明しました。 パフォーマンス テストでは、リアルタイム推論中のレイテンシとスループットの向上が示されました。 SageMaker ルーティング機能の詳細については、以下を参照してください。 ドキュメント。 推論ワークロードを評価し、ルーティング戦略が最適に構成されているかどうかを判断することをお勧めします。
著者について
ジェームズ・パーク アマゾン ウェブ サービスのソリューション アーキテクトです。 彼は Amazon.com と協力して AWS 上のテクノロジー ソリューションを設計、構築、デプロイしており、特に AI と機械学習に興味を持っています。 余暇には、新しい文化、新しい経験を探し、最新のテクノロジー トレンドを把握することを楽しんでいます。 あなたは彼を見つけることができます LinkedIn.
ヴェヌゴパル パイ AWS のソリューションアーキテクトです。 彼はインドのベンガルールに住んでおり、デジタルネイティブの顧客が AWS でアプリケーションを拡張および最適化できるよう支援しています。
デビッド・ニゲンダ は、Amazon SageMaker チームのシニア ソフトウェア開発エンジニアであり、現在、本番環境の機械学習ワークフローの改善と、新しい推論機能の立ち上げに取り組んでいます。 余暇には、彼は子供たちについていくように努めています。
ディープティ・ラガ は、AmazonSageMakerチームのソフトウェア開発エンジニアです。 彼女の現在の仕事は、機械学習モデルを効率的にホストする機能の構築に焦点を当てています。 余暇には、旅行、ハイキング、植物の栽培を楽しんでいます。
アランタン SageMaker のシニア プロダクト マネージャーであり、大規模なモデルの推論に取り組んでいます。 彼は機械学習を分析の分野に適用することに情熱を注いでいます。 仕事以外では、アウトドアを楽しんでいます。
ダワル・パテル AWSのプリンシパル機械学習アーキテクトです。 彼は、分散コンピューティングや人工知能に関連する問題について、大企業から中規模の新興企業に至るまでの組織と協力してきました。 彼は、NLPおよびコンピュータービジョンドメインを含むディープラーニングに焦点を当てています。 彼は、顧客がSageMakerで高性能モデルの推論を実現するのを支援します。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- できる
- 私たちについて
- 加速器
- 達成する
- 越えて
- AI
- AIモデル
- アラン
- アルゴリズム
- ことができます
- Amazon
- アマゾンセージメーカー
- Amazon Webサービス
- Amazon.com
- 間で
- an
- 分析
- 分析論
- および
- API
- 適用
- です
- AREA
- 人工の
- 人工知能
- AS
- At
- オート
- 賃貸条件の詳細・契約費用のお見積り等について
- AWS
- バランシング
- BE
- 背後に
- 所属
- ベンチマーク
- 恩恵
- 利点
- BEST
- 両言語で
- 広い
- ビルド
- 建物
- 負担
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- 缶
- 容量
- 例
- 一定
- 変化する
- 変更
- クライアント
- コード
- COM
- 到来
- コンポーネント
- コンピュータ
- Computer Vision
- コンピューティング
- 同時
- 設定された
- 考慮
- 考えると
- からなる
- コスト
- 作成
- 電流プローブ
- 現在
- Customers
- 日付
- 深いです
- 深い学習
- デフォルト
- 展開します
- 展開
- 展開
- 配備
- 設計
- 決定する
- 開発
- 異なります
- 話し合います
- 配布
- 分散コンピューティング
- ディストリビューション
- ドメイン
- 間に
- 動的に
- 各
- 効果的に
- 効率良く
- 努力
- enable
- 使用可能
- 奨励する
- 端から端まで
- エンドポイント
- エンジニア
- 英語
- 企業
- 評価する
- 例
- エクスペリエンス
- 説明
- 非常に
- 家族
- 特徴
- 最後に
- もう完成させ、ワークスペースに掲示しましたか?
- 焦点を当てて
- フォロー中
- 基礎的な
- から
- 完全に
- 生成
- 生々しい
- 生成AI
- GIF
- 与えられた
- グラフ
- 成長
- 持ってる
- he
- ことができます
- 彼女の
- ハイ
- 彼に
- 彼の
- host
- 主催
- 認定条件
- How To
- HTML
- HTTPS
- 何百
- 識別する
- if
- 説明する
- 改善します
- 改善
- 改善
- 改善
- in
- 含めて
- 入ってくる
- 増加した
- インド
- インテリジェンス
- 相互作用的
- 関心
- に
- IT
- ITS
- JPG
- キープ
- 子供たち
- 言語
- 大
- 大企業
- レイテンシ
- 最新の
- 発射
- 主要な
- LEARN
- 学習
- 最低
- 命
- 負荷
- たくさん
- 下側
- 機械
- 機械学習
- 作る
- 管理します
- マネージド
- マネージャー
- 方法
- 五月..
- だけど
- メカニズム
- ミリ秒
- 分
- 分
- ML
- モデル
- モニタリング
- 他には?
- の試合に
- 新作
- NLP
- いいえ
- 今
- 数
- of
- オファー
- 頻繁に
- on
- オペレーショナル
- 最適化
- オプション
- or
- 組織
- 私たちの
- でる
- 屋外で
- 外側
- 傑出した
- が
- 全体
- パラメーター
- 特定の
- 情熱的な
- 以下のために
- パフォーマンス
- 植物
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 方針
- 可能
- ポスト
- 現在
- 校長
- 問題
- プロダクト
- プロダクトマネージャー
- 生産
- プロンプト
- ランダム
- 測距
- むしろ
- への
- 受け取ります
- 推奨する
- 電話代などの費用を削減
- 参照する
- 関係なく
- 関連する
- 要求
- リクエスト
- 応答
- 回答
- ルート
- ルーティング
- ラン
- セージメーカー
- 規模
- を求める
- 選択
- シニア
- 役立つ
- サービス
- サービス
- セッションに
- 設定
- 彼女
- 示されました
- 示す
- 作品
- スマート
- ソフトウェア
- ソフトウェア開発
- ソリューション
- 緊張
- スタートアップ
- 滞在
- 簡単な
- 作戦
- 戦略
- そのような
- サポート
- サポート
- システム
- テーブル
- 取得
- Talk
- チーム
- テクノロジー
- test
- テスト
- より
- それ
- エリア
- アプリ環境に合わせて
- そこ。
- ボーマン
- この
- スループット
- 時間
- 〜へ
- トラフィック
- 旅行
- トレンド
- users
- 価値観
- 変数
- 非常に
- ビジョン
- we
- ウェブ
- Webサービス
- WELL
- した
- いつ
- which
- while
- 意志
- 仕事
- 働いていました
- ワークフロー
- ワーキング
- 作品
- You
- あなたの
- ゼファーネット
- ゾーン