Amazon EC2 Inf1 および Inf2 インスタンスの FastAPI および PyTorch モデルを使用して AWS Inferentia の使用率を最適化する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

深層学習モデルを大規模に展開する場合、基盤となるハードウェアを効果的に利用してパフォーマンスとコストのメリットを最大化することが重要です。高スループットと低遅延を必要とする実稼働ワークロードの場合、アマゾンエラスティックコンピューティングクラウド (EC2) インスタンス、モデルサービングスタック、およびデプロイメントアーキテクチャは非常に重要です。非効率的なアーキテクチャでは、アクセラレータの利用が最適化されず、生産コストが不必要に高くなる可能性があります。

この投稿では、AWS Inferentia デバイス (Amazon EC2 にあります) に FastAPI モデルサーバーをデプロイするプロセスについて説明します。 Inf1 そしてアマゾンEC Inf2 インスタンス）。また、ハードウェア使用率を最大化するために、すべての NeuronCore に並行してデプロイされるサンプルモデルをホストする方法も示します。

ソリューションの概要

FastAPI は、Flask や Django などの従来のフレームワークよりもはるかに高速な、Python アプリケーションを提供するためのオープンソース Web フレームワークです。それは、非同期サーバーゲートウェイインターフェイス広く使用されている (ASGI) の代わりに Webサーバーゲートウェイインターフェース (WSGI)。リクエストを順次処理する WSGI とは対照的に、ASGI は受信リクエストを非同期的に処理します。このため、FastAPI はレイテンシの影響を受けやすいリクエストを処理するための理想的な選択肢となります。 FastAPI を使用して、指定されたポートを介してクライアント要求をリッスンする Inferentia (Inf1/Inf2) インスタンス上のエンドポイントをホストするサーバーをデプロイできます。

私たちの目標は、ハードウェアを最大限に活用することで、最低のコストで最高のパフォーマンスを達成することです。これにより、より少ないアクセラレータでより多くの推論リクエストを処理できるようになります。各 AWS Inferentia1 デバイスには 1 つの NeuronCores-v2 が含まれており、各 AWS Inferentia2 デバイスには XNUMX つの NeuronCores-vXNUMX が含まれています。の AWS ニューロン SDK を使用すると、各 NeuronCore を並行して利用できるため、スループットを犠牲にすることなく、XNUMX つ以上のモデルを並行してロードおよび推論する際の制御を強化できます。

FastAPI を使用すると、Python Web サーバーを選択できます (ユニコーン, ウビコーン, ハイパーコーン, ダフネ）。これらの Web サーバーは、基礎となる機械学習 (ML) モデルの上に抽象化レイヤーを提供します。要求元のクライアントには、ホストされたモデルを意識しないという利点があります。クライアントは、サーバーにデプロイされているモデルの名前やバージョンを知る必要はありません。エンドポイント名は、モデルをロードして実行する関数への単なるプロキシになりました。対照的に、TensorFlow Serving などのフレームワーク固有のサービス提供ツールでは、モデルの名前とバージョンがエンドポイント名の一部になります。サーバー側でモデルが変更された場合、クライアントはそれを認識し、それに応じて新しいエンドポイントへの API 呼び出しを変更する必要があります。したがって、A/B テストの場合など、バージョンモデルを継続的に進化させる場合は、エンドポイント名が静的であるため、FastAPI を備えた汎用 Python Web サーバーを使用することがモデルを提供する便利な方法です。

ASGI サーバーの役割は、クライアントのリクエストをリッスンして推論コードを実行する、指定された数のワーカーを生成することです。サーバーの重要な機能は、要求された数のワーカーが利用可能でアクティブであることを確認することです。ワーカーが強制終了された場合、サーバーは新しいワーカーを起動する必要があります。このコンテキストでは、サーバーとワーカーは Unix プロセス ID (PID) によって識別される場合があります。この投稿では、ハイパーコーンこれは、Python Web サーバーの一般的な選択肢です。

この投稿では、AWS Inferentia NeuronCores 上の FastAPI を使用してディープラーニングモデルをデプロイするためのベストプラクティスを共有します。同時に呼び出すことができる個別の NeuronCore に複数のモデルをデプロイできることを示します。この設定では、複数のモデルを同時に推論でき、NeuronCore の使用率が完全に最適化されるため、スループットが向上します。コードは次の場所にあります。 GitHubレポ。次の図は、EC2 Inf2 インスタンスでソリューションをセットアップする方法のアーキテクチャを示しています。

Amazon EC2 Inf1 および Inf2 インスタンス上の FastAPI および PyTorch モデルを使用して AWS Inferentia の使用率を最適化する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

コアが 2 つあることを除き、同じアーキテクチャが EC1 InfXNUMX インスタンスタイプに適用されます。したがって、アーキテクチャ図が少し変わります。

AWS Inferentia NeuronCore

NeuronCore を利用するために AWS Neuron が提供するツールについてもう少し詳しく見てみましょう。次の表は、Inf1 および Inf2 の各インスタンスタイプの NeuronCore の数を示しています。ホスト vCPU とシステムメモリは、使用可能なすべての NeuronCore 間で共有されます。

インスタンスサイズ	# インフェレンティアアクセラレーター	# NeuronCores-v1	vCPU	メモリ（GiB）
Inf1.xlarge	1	4	4	8
Inf1.2xlarge	1	4	8	16
Inf1.6xlarge	4	16	24	48
Inf1.24xlarge	16	64	96	192

インスタンスサイズ	# インフェレンティアアクセラレーター	# NeuronCores-v2	vCPU	メモリ（GiB）
Inf2.xlarge	1	2	4	32
Inf2.8xlarge	1	2	32	32
Inf2.24xlarge	6	12	96	192
Inf2.48xlarge	12	24	192	384

Inf2 インスタンスの NeuronCore-v2 と比較して、Inf1 インスタンスには新しい NeuronCores-v1 が含まれています。コアの数が少ないにもかかわらず、Inf4 インスタンスと比べて 10 倍高いスループットと 1 倍低いレイテンシを提供できます。 Inf2 インスタンスは、生成 AI、OPT/GPT ファミリの大規模言語モデル (LLM)、安定拡散などのビジョントランスフォーマーなどの深層学習ワークロードに最適です。

Neuron ランタイムは、Neuron デバイス上でモデルを実行する役割を果たします。 Neuron Runtime は、どの NeuronCore がどのモデルを実行するか、およびその実行方法を決定します。 Neuron ランタイムの構成は、以下を使用して制御されます。環境変数プロセスレベルで。デフォルトでは、Neuron フレームワーク拡張機能がユーザーに代わって Neuron ランタイム構成を処理します。ただし、より最適化された動作を実現するために明示的な構成を行うことも可能です。

よく使用される XNUMX つの環境変数は次のとおりです。 NEURON_RT_NUM_CORES および NEURON_RT_VISIBLE_CORES。これらの環境変数を使用すると、Python プロセスを NeuronCore に結び付けることができます。と NEURON_RT_NUM_CORES、指定した数のコアをプロセス用に予約できます。 NEURON_RT_VISIBLE_CORES、一連の NeuronCore を予約できます。例えば、 NEURON_RT_NUM_CORES=2 myapp.py XNUMX つのコアを予約し、 NEURON_RT_VISIBLE_CORES=’0-2’ myapp.py XNUMX、XNUMX、および XNUMX つのコアを予約します myapp.py。デバイス (AWS Inferentia チップ) 間で NeuronCore を予約することもできます。それで、 NEURON_RT_VISIBLE_CORES=’0-5’ myapp.py 最初の XNUMX つのコアを予約します device1 そして XNUMX つのコア device2 Ec2 Inf1 インスタンスタイプ。同様に、EC2 Inf2 インスタンスタイプでは、この構成は全体で XNUMX つのコアを予約します。 device1 および device2 そして XNUMX つのコア device3。次の表は、これらの変数の構成をまとめたものです。

名前	説明	タイプ	期待値	デフォルト値	RTバージョン
`NEURON_RT_VISIBLE_CORES`	プロセスに必要な特定の NeuronCore の範囲	整数の範囲 (1 ～ 3 など)	システム内の 0 から最大 NeuronCore までの任意の値または範囲	なし	2.0+
`NEURON_RT_NUM_CORES`	プロセスに必要な NeuronCore の数	整数	1 からシステム内の最大 NeuronCore までの値	0、「すべて」として解釈されます	2.0+

すべての環境変数のリストについては、を参照してください。 Neuron ランタイム構成.

デフォルトでは、モデルをロードするとき、前述の環境変数で明示的に指定されていない限り、モデルは NeuronCore 0 にロードされ、次に NeuronCore 1 にロードされます。前に指定したように、NeuronCore は利用可能なホスト vCPU とシステムメモリを共有します。したがって、各 NeuronCore にデプロイされたモデルは、利用可能なリソースをめぐって競合します。モデルが NeuronCore を大幅に利用している場合、これは問題になりません。ただし、モデルの一部のみが NeuronCore で実行され、残りはホスト vCPU で実行されている場合は、NeuronCore ごとの CPU 可用性を考慮することが重要になります。これはインスタンスの選択にも影響します。

次の表は、XNUMX つのモデルが各 NeuronCore にデプロイされた場合に、モデルごとに利用可能なホスト vCPU とシステムメモリの数を示しています。アプリケーションの NeuronCore 使用量、vCPU、メモリ使用量に応じて、テストを実行して、アプリケーションにとってどの構成が最もパフォーマンスが高いかを確認することをお勧めします。のニューロントップツールコア使用率、デバイスおよびホストのメモリ使用率を視覚化するのに役立ちます。これらの指標に基づいて、情報に基づいた意思決定を行うことができます。このブログの最後では、Neuron Top の使用方法を示します。

インスタンスサイズ	# インフェレンティアアクセラレーター	# モデル	vCPU/モデル	メモリ/モデル (GiB)
Inf1.xlarge	1	4	1	2
Inf1.2xlarge	1	4	2	4
Inf1.6xlarge	4	16	1.5	3
Inf1.24xlarge	16	64	1.5	3

インスタンスサイズ	# インフェレンティアアクセラレーター	# モデル	vCPU/モデル	メモリ/モデル (GiB)
Inf2.xlarge	1	2	2	8
Inf2.8xlarge	1	2	16	64
Inf2.24xlarge	6	12	8	32
Inf2.48xlarge	12	24	8	32

Neuron SDK の機能を自分でテストするには、最新の SDK をチェックしてください。 PyTorch のニューロン機能.

システムセットアップ

このソリューションに使用されるシステム設定は次のとおりです。

ソリューションをセットアップする

ソリューションをセットアップするには、いくつかのことを行う必要があります。まず、EC2 インスタンスがプッシュおよびプルできるようにする IAM ロールを作成します。 Amazon エラスティックコンテナレジストリ.

ステップ 1: IAM ロールをセットアップする

まず、コンソールにログインし、「IAM」>「ロール」>「ロールの作成」にアクセスします。
信頼できるエンティティタイプを選択します AWS Service
ユースケースでサービスとして EC2 を選択します
クリック Next 利用可能なすべてのポリシーを確認できるようになります
このソリューションの目的のために、EC2 インスタンスに ECR へのフルアクセスを付与します。フィルター AmazonEC2ContainerRegistryFullAccess それを選択します。
次へを押してロールに名前を付けます inf-ecr-access

注: アタッチしたポリシーにより、EC2 インスタンスに Amazon ECR へのフルアクセスが付与されます。以下に従うことを強くお勧めします。最小特権のプリンシパル実稼働ワークロード向け。

ステップ 2: AWS CLI をセットアップする

上記の所定の Deep Learning AMI を使用している場合は、AWS CLI がインストールされています。別の AMI (Amazon Linux 2023、Base Ubuntu など) を使用している場合は、次の手順で CLI ツールをインストールします。このガイド.

CLI ツールをインストールしたら、次のコマンドを使用して CLI を設定します。 aws configure。アクセスキーをお持ちの場合は、ここで追加できますが、AWS サービスと対話するために必ずしもアクセスキーが必要であるわけではありません。これを行うには IAM ロールに依存しています。

Note: デフォルトのプロファイルを作成するには、少なくとも XNUMX つの値 (デフォルトの地域またはデフォルトの形式) を入力する必要があります。この例では、次のようにします us-east-2 地域として、そして json デフォルトの出力として。

Github リポジトリのクローンを作成する

　 GitHubレポは、AWS Inferentia インスタンスの NeuronCore で FastAPI を使用してモデルをデプロイするために必要なすべてのスクリプトを提供します。この例では、Docker コンテナを使用して、再利用可能なソリューションを作成できるようにします。この例には次のものが含まれます config.properties ユーザーが入力を行うためのファイル。

# Docker Image and Container Name
docker_image_name_prefix=<Docker image name>
docker_container_name_prefix=<Docker container name> # Deployment Setup
path_to_traced_models=<Path to traced model>
compiled_model=<Compiled model file name>
num_cores=<Number of NeuronCores to Deploy a Model Server>
num_models_per_server=<Number of Models to Be Loaded Per Server>

構成ファイルには、Docker イメージと Docker コンテナー用のユーザー定義の名前プレフィックスが必要です。の build.sh のスクリプト fastapi および trace-model フォルダーはこれを使用して Docker イメージを作成します。

AWS Inferentia でモデルをコンパイルする

まずモデルをトレースし、PyTorch トーチスクリプト .pt ファイルを作成します。まずはアクセスしてみましょう trace-model ディレクトリを編集し、.env ファイルを変更します。選択したインスタンスのタイプに応じて、 CHIP_TYPE 中で .env ファイル。例として、Inf2 をガイドとして選択します。同じ手順が Inf1 の展開プロセスに適用されます。

次に、同じファイルにデフォルトのリージョンを設定します。このリージョンは ECR リポジトリの作成に使用され、Docker イメージがこのリポジトリにプッシュされます。また、このフォルダーには、トレースに必要なすべてのスクリプトが提供されます。 bert-base-uncased AWS Inferentia のモデル。このスクリプトは、で入手可能なほとんどのモデルに使用できます。ハグ顔を選択します。ドッカーファイル Neuron でモデルを実行するためのすべての依存関係があり、トレースモデル.py コードをエントリポイントとして使用します。

ニューロンコンパイルの説明

Neuron SDK の API は、PyTorch Python API によく似ています。の torch.jit.trace() from PyTorch はモデルとサンプル入力テンソルを引数として受け取ります。サンプル入力がモデルに供給され、その入力がモデルのレイヤーを通過するときに呼び出される操作が次のように記録されます。トーチスクリプト。 PyTorch の JIT トレースの詳細については、次を参照してください。ドキュメント.

と同じように torch.jit.trace()、inf1 インスタンスの次のコードを使用して、モデルが AWS Inferentia でコンパイルできるかどうかを確認できます。

import torch_neuron
model_traced = torch.neuron.trace(model, example_inputs, compiler_args = [‘--fast-math’, ‘fp32-cast-matmul’, ‘--neuron-core-pipeline-cores’,’1’], optimizations=[torch_neuron.Optimization.FLOAT32_TO_FLOAT16])

inf2 の場合、ライブラリは次のように呼ばれます。 torch_neuronx。 inf2 インスタンスに対してモデルのコンパイルをテストする方法は次のとおりです。

import torch
import torch_neuronx
model_traced = torch.neuronx.trace(model, example_inputs, compiler_args = [‘--fast-math’, ‘fp32-cast-matmul’, ‘--neuron-core-pipeline-cores’,’1’], optimizations=[torch_neuronx.Optimization.FLOAT32_TO_FLOAT16])

トレースインスタンスを作成した後、次のようにサンプルテンソル入力を渡すことができます。

answer_logits = model_traced(*example_inputs)

最後に、結果として得られた TorchScript 出力をローカルディスクに保存します。

model_traced.save('./compiled-model-bs-{batch_size}.pt')

前のコードに示すように、次を使用できます。 compiler_args および optimizations 導入を最適化します。の引数の詳細なリストについては、 torch.neuron.trace API、参照 PyTorch-Neuron トレース Python API.

次の重要な点に留意してください。

この記事の執筆時点では、Neuron SDK は動的テンソルシェイプをサポートしていません。したがって、モデルはさまざまな入力形状に対して個別にコンパイルする必要があります。バケットを使用した変数入力形状での推論の実行の詳細については、を参照してください。バケットを使用した変数入力形状に対する推論の実行.
モデルのコンパイル時にメモリ不足の問題が発生した場合は、より多くの vCPU またはメモリを備えた AWS Inferentia インスタンスでモデルをコンパイルしてみてください。コンパイルには CPU のみが使用されるため、大規模な c6i または r6i インスタンスでもコンパイルしてみてください。コンパイルが完了すると、トレースされたモデルはおそらく、より小さい AWS Inferentia インスタンスサイズで実行できるようになります。

ビルド手順の説明

次に、次のコマンドを実行してこのコンテナを構築します。 build.sh。ビルドスクリプトファイルは、ベースのディープラーニングコンテナイメージを取得し、HuggingFace をインストールすることで、Docker イメージを作成するだけです。 transformers パッケージ。に基づく CHIP_TYPE で指定 .env ファイル、 docker.properties ファイルが適切なものを決定します BASE_IMAGE。この BASE_IMAGE AWS が提供する Neuron ランタイムの Deep Learning Container Image を指します。

プライベート ECR リポジトリを通じて利用できます。イメージをプルする前に、ログインして一時的な AWS 認証情報を取得する必要があります。

aws ecr get-login-password --region <region> | docker login --username AWS --password-stdin 763104351884.dkr.ecr.<region>.amazonaws.com

Note: リージョンフラグで指定されたコマンド内およびリポジトリ URI 内にリストされているリージョンを、 .env ファイルにソフトウェアを指定する必要があります。

このプロセスを簡単にするために、 fetch-credentials.sh ファイル。リージョンは .env ファイルから自動的に取得されます。

次に、スクリプトを使用して画像をプッシュします。プッシュ.sh。プッシュスクリプトは、Amazon ECR にリポジトリを作成し、コンテナイメージをプッシュします。

最後に、イメージが構築されてプッシュされたら、次のコマンドを実行してコンテナとして実行できます。 run.sh 実行ログを末尾に記録しますログ.sh。コンパイラログ (次のスクリーンショットを参照) には、Neuron でコンパイルされた算術演算子の割合と、Neuron で正常にコンパイルされたモデルのサブグラフの割合が表示されます。スクリーンショットは、 bert-base-uncased-squad2 モデル。ログには、算術演算子の 95.64% がコンパイルされたことが示されており、Neuron でコンパイルされた演算子とサポートされていない演算子のリストも表示されます。

ここにリストです最新の PyTorch Neuron パッケージでサポートされているすべての演算子のリストです。同様に、ここにリストがあります最新の PyTorch Neuronx パッケージでサポートされているすべての演算子のリスト。

FastAPI を使用してモデルをデプロイする

モデルがコンパイルされると、トレースされたモデルは trace-model フォルダ。この例では、バッチサイズ 1 のトレースされたモデルを配置しました。ここでは、より大きなバッチサイズが実現不可能または必要でないユースケースを考慮して、バッチサイズ 1 を考慮します。より大きなバッチサイズが必要なユースケースでは、 torch.neuron.DataParallel (Inf1 の場合) または torch.neuronx.DataParallel (Inf2 の場合) API も役立つ場合があります。

　高速API フォルダーには、FastAPI を使用してモデルをデプロイするために必要なすべてのスクリプトが含まれています。変更を加えずにモデルをデプロイするには、単に次のコマンドを実行します。デプロイ.sh スクリプトを実行すると、FastAPI コンテナーイメージが構築され、指定された数のコアでコンテナーが実行され、各 FastAPI モデルサーバーにサーバーごとに指定された数のモデルがデプロイされます。このフォルダーには、 .env ファイルを修正して、正しい内容を反映するようにします CHIP_TYPE および AWS_DEFAULT_REGION.

Note: FastAPI スクリプトは、イメージをコンテナとして構築、プッシュ、実行するために使用されるのと同じ環境変数に依存します。 FastAPI デプロイメントスクリプトは、これらの変数の最後の既知の値を使用します。したがって、Inf1 インスタンスタイプのモデルを最後にトレースした場合、そのモデルはこれらのスクリプトを通じてデプロイされます。

　 fastapi-server.py サーバーをホストし、リクエストをモデルに送信する役割を担うファイルは、次のことを行います。

サーバーごとのモデルの数とコンパイルされたモデルの場所をプロパティファイルから読み取ります。
表示されている NeuronCore を環境変数として Docker コンテナに設定し、環境変数を読み取ってどの NeuronCore を使用するかを指定します
の推論 API を提供します。 bert-base-uncased-squad2
jit.load()、構成で指定されているようにサーバーあたりのモデルの数をロードし、モデルと必要なトークナイザーをグローバル辞書に保存します。

このセットアップを使用すると、各 NeuronCore にどのモデルがいくつ保存されているかをリストする API をセットアップするのが比較的簡単になります。同様に、特定の NeuronCore からモデルを削除する API を作成することもできます。

　ドッカーファイル FastAPI コンテナを構築するためのは、モデルをトレースするために構築した Docker イメージに基づいて構築されます。このため、 docker.properties ファイルは、モデルをトレースするための Docker イメージへの ECR パスを指定します。私たちのセットアップでは、すべての NeuronCore の Docker コンテナーは類似しているため、XNUMX つのイメージを構築し、XNUMX つのイメージから複数のコンテナーを実行できます。エントリーポイントのエラーを避けるために、次のように指定します。 ENTRYPOINT ["/usr/bin/env"] を実行する前に Dockerfile 内で startup.sh 次のようなスクリプト hypercorn fastapi-server:app -b 0.0.0.0:8080。この起動スクリプトはすべてのコンテナで同じです。トレースモデルと同じベースイメージを使用している場合は、build.sh スクリプトを実行するだけでこのコンテナを構築できます。の push.sh モデルをトレースする場合のスクリプトは以前と同じままです。変更された Docker イメージとコンテナー名は、 docker.properties ファイルにソフトウェアを指定する必要があります。

　 run.sh file 次のことを行います：

Docker イメージとコンテナー名をプロパティファイルが読み取られます。 config.properties ファイルには、 num_cores ユーザー設定
0からループを開始します num_cores そして各コアについて:
- ポート番号とデバイス番号を設定します
- 設定します NEURON_RT_VISIBLE_CORES 環境変数
- ボリュームマウントを指定します
- Dockerコンテナを実行します

わかりやすくするために、Inf0 の NeuronCore 1 にデプロイするための Docker run コマンドは次のコードのようになります。

docker run -t -d --name $ bert-inf-fastapi-nc-0 --env NEURON_RT_VISIBLE_CORES="0-0" --env CHIP_TYPE="inf1" -p ${port_num}:8080 --device=/dev/neuron0 ${registry}/ bert-inf-fastapi

NeuronCore 5 にデプロイするための実行コマンドは次のコードのようになります。

docker run -t -d --name $ bert-inf-fastapi-nc-5 --env NEURON_RT_VISIBLE_CORES="5-5" --env CHIP_TYPE="inf1" -p ${port_num}:8080 --device=/dev/neuron0 ${registry}/ bert-inf-fastapi

コンテナーがデプロイされた後、 run_apis.py スクリプトは、並列スレッドで API を呼び出します。このコードは、各 NeuronCore に XNUMX つずつ、デプロイされた XNUMX つのモデルを呼び出すように設定されていますが、別の設定に簡単に変更できます。次のようにクライアント側から API を呼び出します。

import requests url_template = http://localhost:%i/predictions_neuron_core_%i/model_%i # NeuronCore 0
response = requests.get(url_template % (8081,0,0)) # NeuronCore 5
response = requests.get(url_template % (8086,5,0))

モニターニューロンコア

モデルサーバーがデプロイされた後、NeuronCore の使用率を監視するために、次のコマンドを使用できます。 neuron-top 各 NeuronCore の使用率をリアルタイムで観察します。ニューロントップ Neuron SDK の CLI ツールで、NeuronCore、vCPU、メモリ使用率などの情報を提供します。別のターミナルで、次のコマンドを入力します。

neuron-top

出力は次の図のようになります。このシナリオでは、Inf2.xlarge インスタンス上のサーバーごとに 287.8 つの NeuronCore と 4 つのモデルを使用するように指定しました。次のスクリーンショットは、それぞれサイズ 1.3MB の XNUMX つのモデルが XNUMX つの NeuronCore にロードされていることを示しています。合計 XNUMX つのモデルがロードされているため、使用されているデバイスメモリが XNUMX GB であることがわかります。矢印キーを使用して、さまざまなデバイス上の NeuronCore 間を移動します。

同様に、Inf1.16xlarge インスタンスタイプでは、合計 12 のモデル (2 コアのコアあたり 6 モデル) がロードされていることがわかります。合計 2.1GB のメモリが消費され、各モデルのサイズは 177.2MB になります。

を実行した後、 run_apis.py スクリプトを実行すると、XNUMX つの各 NeuronCore の使用率を確認できます (次のスクリーンショットを参照)。システム vCPU 使用率とランタイム vCPU 使用率も確認できます。

次のスクリーンショットは、Inf2 インスタンスのコア使用率を示しています。

同様に、このスクリーンショットは、inf1.6xlarge インスタンスタイプでのコア使用率を示しています。

クリーンアップ

作成したすべての Docker コンテナをクリーンアップするために、クリーンアップ.sh 実行中のコンテナと停止したコンテナをすべて削除するスクリプト。このスクリプトはすべてのコンテナを削除するため、一部のコンテナを実行し続けたい場合は使用しないでください。

まとめ

実稼働ワークロードには、多くの場合、高スループット、低遅延、およびコスト要件があります。アクセラレータを最適に利用していない非効率的なアーキテクチャは、不必要に高い生産コストにつながる可能性があります。この投稿では、FastAPI で NeuronCore を最適に利用して、最小のレイテンシーでスループットを最大化する方法を示しました。手順書を公開しました GitHubレポ。このソリューションアーキテクチャを使用すると、パフォーマンスを損なうことなく、各 NeuronCore に複数のモデルをデプロイし、異なる NeuronCore 上で複数のモデルを並行して動作させることができます。次のようなサービスを使用してモデルを大規模にデプロイする方法の詳細については、 Amazon Elastic Kubernetesサービス (Amazon EKS)、を参照してください。 AWS Inferentia を使用して Amazon EKS 上の 3,000 のディープラーニングモデルを 50 時間あたり XNUMX ドル未満で提供します.

著者について

Amazon EC2 Inf1 および Inf2 インスタンス上の FastAPI および PyTorch モデルを使用して AWS Inferentia の使用率を最適化する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 アンクル・スリバスタヴァ ML フレームワークチームのシニアソリューションアーキテクトです。彼は、AWS での大規模な自己管理型の分散トレーニングと推論で顧客を支援することに重点を置いています。彼の経験には、産業用予知保全、デジタルツイン、確率論的設計の最適化が含まれ、ライス大学で機械工学の博士号を取得し、マサチューセッツ工科大学でポスドク研究を完了しています。

KC トゥン AWS Annapurna Labs のシニアソリューションアーキテクトです。彼は、クラウドでの大規模なディープラーニングモデルのトレーニングと展開を専門としています。彼は博士号を持っています。ダラスのテキサス大学サウスウェスタン医療センターで分子生物物理学の博士号を取得しています。彼は AWS Summits と AWS Reinvent で講演しました。現在、彼はお客様が AWS クラウドで大規模な PyTorch および TensorFlow モデルをトレーニングおよびデプロイするのを支援しています。彼は次の XNUMX 冊の本の著者です。 TensorFlow Enterprise を学ぶおよび TensorFlow 2 ポケットリファレンス.

プロノイ・チョプラ AWS の Startups Generative AI チームのシニアソリューションアーキテクトです。彼は IoT および機械学習ソリューションの設計と開発を専門としています。彼は過去に XNUMX つのスタートアップを共同設立しており、IoT、AI/ML、サーバーレスドメインのプロジェクトに実際に取り組むことを楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。自動車/EV、カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
ブロックオフセット。環境オフセット所有権の近代化。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/optimize-aws-inferentia-utilization-with-fastapi-and-pytorch-models-on-amazon-ec2-inf1-inf2-instances/

タイムスタンプ：２０２２年７月１１日

タイムスタンプ： 2023 年 2 月 2 日

プラトン再発行

Amazon Comprehend が、カスタムエンティティ認識のアノテーション制限の引き下げを発表

効率性の解放: Amazon SageMaker パイプラインでの選択的実行の力を利用する | アマゾンウェブサービス

Amazon SageMakerDataWranglerを使用したヘルスケアおよびライフサイエンス向けの大規模な特徴エンジニアリング

TensorBoard を使用した Amazon SageMaker: ホストされた TensorBoard エクスペリエンスの概要

AWS と Amazon SageMaker で Kubeflow を使用して、柔軟でスケーラブルな分散トレーニングアーキテクチャを構築する

新しく改良された Amazon SageMaker Studio を体験してください | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー