AWS Graviton で Amazon SageMaker 推論コストを削減

プラトン再発行

フォロワー： 0

アマゾンセージメーカーは、機械学習 (ML) インフラストラクチャとモデル展開オプションの幅広い選択肢を提供し、ML 推論のニーズを満たすのに役立ちます。これはフルマネージドサービスであり、MLOps ツールと統合されているため、モデルのデプロイメントの拡張、推論コストの削減、本番環境でのモデルのより効果的な管理、運用負担の軽減に取り組むことができます。 SageMaker は複数の機能を提供します推論オプションそのため、ワークロードに最適なオプションを選択できます。

新世代の CPU では、特殊な組み込み命令により、ML 推論のパフォーマンスが大幅に向上しています。この投稿では、 AWS グラビトン 3ベースの Amazon Elastic Compute Cloud (EC2) C7g インスタンス同等の EC50 インスタンスと比較して推論コストを最大 2% 削減できます。リアルタイム推論 Amazon SageMaker で。わずか数ステップで推論パフォーマンスを評価し、ML ワークロードを AWS Graviton インスタンスに切り替える方法を示します。

人気のある幅広い顧客アプリケーションをカバーするために、この投稿では、PyTorch、TensorFlow、XGBoost、および scikit-learn フレームワークの推論パフォーマンスについて説明します。ベンチマーク用のモデルと ml.c6g、ml.c7g、ml.c5、ml.c6i SageMaker インスタンスのコンピュータービジョン (CV)、自然言語処理 (NLP)、分類、およびランク付けのシナリオをカバーします。

ベンチマーク結果

AWS は、Amazon SageMaker 上の同等の EC50 インスタンスと比較して、AWS Graviton3 ベースの EC2 C7g インスタンスを使用した PyTorch、TensorFlow、XGBoost、および scikit-learn モデル推論で最大 2% のコスト削減を測定しました。同時に、推論の待ち時間も短縮されます。

比較のために、XNUMX つの異なるインスタンスタイプを使用しました。

16 つのインスタンスすべてに 32 個の vCPU と XNUMX GiB のメモリが搭載されています。

次のグラフでは、5.4 つのインスタンスタイプの推論 1 万あたりのコストを測定しました。さらに、7 万あたりの推論結果を c4xlarge インスタンスに正規化しました。これは、チャートの Y 軸で 3 として測定されます。 XGBoost モデルの場合、c50g.5.4xlarge (AWS Graviton40) の 6 万あたりのコストは、c4xlarge の約 30%、c50i.5xlarge の 6% であることがわかります。 PyTorch NLP モデルの場合、c4 および c30i.5xlarge インスタンスと比較してコストが約 6 ～ 4% 削減されます。他のモデルとフレームワークでは、cXNUMX および cXNUMXi.XNUMXxlarge インスタンスと比較して少なくとも XNUMX% のコスト削減が測定されました。

AWS Graviton PlatoBlockchain Data Intelligence を使用して、Amazon SageMaker の推論コストを削減します。垂直検索。あい。

前述の推論コストの比較グラフと同様に、次のグラフは同じ 90 つのインスタンスタイプのモデル p5.4 レイテンシを示しています。さらに、レイテンシーの結果を c1xlarge インスタンスに正規化しました。これは、チャートの Y 軸で 7 として測定されます。 c4g.3xlarge (AWS Graviton50) モデルの推論レイテンシーは、c5.4xlarge および c6i.4xlarge で測定されたレイテンシーより最大 XNUMX% 優れています。

AWS Graviton PlatoBlockchain Data Intelligence を使用して、Amazon SageMaker の推論コストを削減します。垂直検索。あい。

AWS Graviton インスタンスへの移行

モデルを AWS Graviton インスタンスにデプロイするには、次のいずれかを使用できます。 AWS深層学習コンテナ (DLC) または自分の容器を持ってくる ARMv8.2 アーキテクチャと互換性があります。

AWS は PyTorch、TensorFlow、scikit-learn、XGBoost を使用してモデルをホストするためのコンテナを提供するだけでなく、モデルがアーキテクチャに依存しないため、AWS Graviton インスタンスへのモデルの移行 (または新規デプロイメント) は簡単です。独自のライブラリを持ち込むこともできますが、コンテナが ARMv8.2 アーキテクチャをサポートする環境で構築されていることを確認してください。詳細については、「」を参照してください。独自のアルゴリズムコンテナの構築.

モデルをデプロイするには、次の XNUMX つの手順を完了する必要があります。

SageMaker モデルを作成します。これには、他のパラメーターの中でも、モデルファイルの場所、デプロイメントに使用されるコンテナー、推論スクリプトの場所に関する情報が含まれます。 (既存のモデルがコンピューティング最適化推論インスタンスに既にデプロイされている場合は、この手順をスキップできます。)
エンドポイント構成を作成します。これには、エンドポイントに必要なインスタンスのタイプ (たとえば、AWS Graviton7 の ml.c3g.xlarge)、前のステップで作成したモデルの名前、およびエンドポイントごとのインスタンスの数に関する情報が含まれます。
前の手順で作成したエンドポイント構成を使用してエンドポイントを起動します。

詳細な手順については、を参照してください。 Amazon SageMaker を使用して AWS Graviton ベースのインスタンスで機械学習推論ワークロードを実行する

ベンチマーク方法論

我々は、使用 AmazonSageMaker推論レコメンダーさまざまなインスタンスにわたるパフォーマンスのベンチマークを自動化します。このサービスは、さまざまなインスタンスのレイテンシとコストの観点から ML モデルのパフォーマンスを比較し、最小のコストで最高のパフォーマンスを提供するインスタンスと構成を推奨します。 Inference Recommender を使用して前述のパフォーマンスデータを収集しました。詳細については、を参照してください。 GitHubレポ.

あなたが使用することができますサンプルノートベンチマークを実行して結果を再現します。ベンチマークには次のモデルを使用しました。

まとめ

AWS は、Amazon SageMaker 上の同等の EC50 インスタンスと比較して、AWS Graviton3 ベースの EC2 C7g インスタンスを使用した PyTorch、TensorFlow、XGBoost、および scikit-learn モデル推論で最大 2% のコスト削減を測定しました。この投稿で説明されている手順に従って、既存の推論ユースケースを移行したり、新しい ML モデルを AWS Graviton にデプロイしたりできます。も参照できます。 AWS Graviton テクニカルガイドには、さまざまなワークロードにわたって AWS Graviton インスタンスを使用してコスト上のメリットを達成するのに役立つ、最適化されたライブラリとベストプラクティスのリストが記載されています。

AWS Graviton で同様のパフォーマンスの向上が観察されないユースケースを見つけた場合は、お問い合わせください。 AWS Graviton を最もコスト効率が高く効率的な ML 推論用の汎用プロセッサにするために、パフォーマンスの改善をさらに追加していきます。

著者について

AWS Graviton PlatoBlockchain Data Intelligence を使用して、Amazon SageMaker の推論コストを削減します。垂直検索。あい。 スニタ・ナダンパリ AWS のソフトウェア開発マネージャーです。彼女は、機械学習、HPC、マルチメディアワークロードの Graviton ソフトウェアパフォーマンスの最適化を主導しています。彼女はオープンソース開発と、Arm SoC を使用したコスト効率の高いソフトウェアソリューションの提供に情熱を注いでいます。

AWS Graviton PlatoBlockchain Data Intelligence を使用して、Amazon SageMaker の推論コストを削減します。垂直検索。あい。 ジェイミン・デサイ は、Amazon SageMaker Inference チームのソフトウェア開発エンジニアです。彼は、AI を大衆に普及させ、最先端の AI 資産を機能やサービスとして製品化することでその使いやすさを向上させることに情熱を注いでいます。自由時間には、音楽の探索や旅行を楽しんでいます。

AWS Graviton PlatoBlockchain Data Intelligence を使用して、Amazon SageMaker の推論コストを削減します。垂直検索。あい。 マイク・シュナイダー アリゾナ州フェニックスに拠点を置くシステム開発者です。彼は Deep Learning コンテナのメンバーであり、Graviton Inference を含むさまざまなフレームワークコンテナイメージをサポートしています。彼はインフラストラクチャの効率と安定性に専念しています。

モハンガンディー AWS のシニアソフトウェアエンジニアです。彼は過去 10 年間 AWS に勤務しており、EMR、EFA、RDS などのさまざまな AWS サービスに取り組んできました。現在、彼は SageMaker Inference Experience の改善に重点を置いています。余暇には、ハイキングやマラソンを楽しんでいます。

AWS Graviton PlatoBlockchain Data Intelligence を使用して、Amazon SageMaker の推論コストを削減します。垂直検索。あい。 チンウェイ・リー アマゾンウェブサービスの機械学習スペシャリストです。彼は彼の博士号を受け取りました。彼は顧問の研究助成金口座を破り、彼が約束したノーベル賞を授与することに失敗した後、オペレーションズリサーチで働いた。現在、彼は金融サービスおよび保険業界のお客様がAWSで機械学習ソリューションを構築するのを支援しています。趣味は読書と教えることです。

ウェイン・トー AWS の Graviton のスペシャリストソリューションアーキテクトです。彼は、顧客が大規模なコンテナワークロードに ARM アーキテクチャを導入できるよう支援することに重点を置いています。 AWS に入社する前は、ウェインは IBM や Red Hat などのいくつかの大手ソフトウェアベンダーで働いていました。

ローレン・マレネックス コロラド州デンバーに拠点を置くソリューションアーキテクトです。顧客と協力して、AWS でのソリューションの構築を支援します。余暇には、ハイキングやハワイ料理の料理を楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/reduce-amazon-sagemaker-inference-cost-with-aws-graviton/

タイムスタンプ： 2023 年 5 月 10 日

タイムスタンプ： 2022 年 11 月 17 日

消費者の保護とイノベーションの促進 – AI 規制と責任ある AI への信頼の構築

ソースクラスター：

AWS機械学習

ソースノード： 1765573

タイムスタンプ： 2022 年 12 月 1 日

重要な新機能により、Amazon Bedrock を使用して生成 AI アプリケーションを構築および拡張することが容易になり、印象的な結果を達成できます。アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1967437

タイムスタンプ： 2024 年 4 月 23 日

AWS Graviton で Amazon SageMaker の推論コストを削減する

プラトン再発行

ベンチマーク結果

AWS Graviton インスタンスへの移行

ベンチマーク方法論

まとめ

著者について

より多くの AWS機械学習

Amazon Kendra 用の更新された Salesforce コネクタ (V2) の発表

Contentful と Amazon Bedrock でコンテンツ編集を強化 |アマゾンウェブサービス

Patsnap が Amazon SageMaker で GPT-2 推論を低レイテンシーと低コストでどのように使用したか | アマゾンウェブサービス

Amazon SageMaker Python SDK を使用して、Amazon SageMaker オフライン機能ストアから機械学習対応のデータセットを構築する | アマゾンウェブサービス

AWS でコンピュータービジョンパイプライン用の合成データを作成する

Amazon SageMaker JumpStart を使用して高性能の画像分類モデルを構築する

消費者の保護とイノベーションの促進 – AI 規制と責任ある AI への信頼の構築

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー