AWS Graviton プロセッサによる最適化された PyTorch 2.0 推論

プラトン再発行

フォロワー： 0

新世代の CPU は、特殊な組み込み命令により、機械学習 (ML) 推論のパフォーマンスが大幅に向上します。これらの汎用プロセッサは、柔軟性、高速開発、低運用コストを兼ね備えており、他の既存のハードウェアソリューションの代替手段となります。

AWS、Arm、Meta などは、Arm ベースのプロセッサ向けの PyTorch 2.0 推論のパフォーマンスの最適化に役立ちました。その結果、PyTorch 2.0 の AWS Graviton ベースのインスタンス推論パフォーマンスが、以前の PyTorch リリースと比較して、Resnet3.5 では最大 50 倍の速度になり (次のグラフを参照)、Resnet1.4 では最大 XNUMX 倍の速度になったことを発表できることを嬉しく思います。 BERT により、Graviton ベースのインスタンスが、これらのモデルの AWS 上で最速のコンピューティングに最適化されたインスタンスになります。

AWS Graviton プロセッサ PlatoBlockchain Data Intelligence による最適化された PyTorch 2.0 推論。垂直検索。あい。

AWS は、次の図に示すように、Torch Hub Resnet50 および複数の Hugging Face モデル全体にわたる AWS Graviton3 ベースの Amazon Elastic Cloud Compute C7g インスタンスを使用した PyTorch 推論で最大 50% のコスト削減を測定しました。

AWS Graviton プロセッサ PlatoBlockchain Data Intelligence による最適化された PyTorch 2.0 推論。垂直検索。あい。

さらに、次の図に示すように、推論の待ち時間も短縮されます。

AWS Graviton プロセッサ PlatoBlockchain Data Intelligence による最適化された PyTorch 2.0 推論。垂直検索。あい。

Graviton 上の他のワークロードでも、価格パフォーマンスの利点において同様の傾向が見られました。たとえば、 FFmpegによるビデオエンコード.

最適化の詳細

最適化では、次の XNUMX つの主要な領域に焦点を当てました。

GEMM カーネル – PyTorch は、Arm ベースのプロセッサ用の OneDNN バックエンド (以前は MKL-DNN と呼ばれていました) を介して Arm Compute Library (ACL) GEMM カーネルをサポートします。 ACL ライブラリは、fp32 形式と bfloat16 形式の両方に対応する、Neon および SVE に最適化された GEMM カーネルを提供します。これらのカーネルにより、SIMD ハードウェアの使用率が向上し、エンドツーエンドの推論待ち時間が短縮されます。
bfloat16のサポート – Graviton16 の bfloat3 サポートにより、bfloat16、fp32、および AMP (Automatic Mixed Precision) を使用してトレーニングされたモデルの効率的なデプロイが可能になります。標準の fp32 モデルは、モデルの量子化を行わずに OneDNN 高速演算モード経由で bfloat16 カーネルを使用し、bfloat32 高速演算サポートなしの既存の fp16 モデル推論と比較して最大 XNUMX 倍高速なパフォーマンスを提供します。
プリミティブキャッシュ – 冗長な GEMM カーネルの初期化とテンソル割り当てのオーバーヘッドを回避するために、conv、matmul、および内積演算子のプリミティブキャッシュも実装しました。

最適化を活用する方法

始める最も簡単な方法は、 AWS深層学習コンテナ (DLC) アマゾンエラスティックコンピューティングクラウド（Amazon EC2） C7g インスタンス or アマゾンセージメーカー。 DLC は以下で入手可能です Amazon エラスティックコンテナレジストリ (Amazon ECR) 用 AWS グラビトン or x86。 SageMaker の詳細については、以下を参照してください。 Amazon SageMaker を使用して AWS Graviton ベースのインスタンスで機械学習推論ワークロードを実行するおよび Amazon SageMaker は、モデルのデプロイメント用に XNUMX つの新しい Graviton ベースのインスタンスを追加します.

AWS DLC を使用する

AWS DLC を使用するには、次のコードを使用します。

sudo apt-get update
sudo apt-get -y install awscli docker # Login to ECR to avoid image download throttling
aws ecr get-login-password --region us-east-1 | docker login --username AWS --password-stdin 763104351884.dkr.ecr.us-east-1.amazonaws.com # Pull the AWS DLC for pytorch
# Graviton
docker pull 763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-inference-graviton:2.0.0-cpu-py310-ubuntu20.04-ec2 # x86
docker pull 763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-inference:2.0.0-cpu-py310-ubuntu20.04-ec2

pip 経由で PyTorch をインストールしたい場合は、公式リポジトリから PyTorch 2.0 ホイールをインストールしてください。この場合、PyTorch を起動して Graviton 最適化を有効にする前に、以下のコードで説明されているように XNUMX つの環境変数を設定する必要があります。

Python ホイールを使用する

Python ホイールを使用するには、次のコードを参照してください。

# Install Python
sudo apt-get update
sudo apt-get install -y python3 python3-pip # Upgrade pip3 to the latest version
python3 -m pip install --upgrade pip # Install PyTorch and extensions
python3 -m pip install torch
python3 -m pip install torchvision torchaudio torchtext # Turn on Graviton3 optimization
export DNNL_DEFAULT_FPMATH_MODE=BF16
export LRU_CACHE_CAPACITY=1024

推論を実行する

PyTorchを使用できますトーチベンチ CPU 推論パフォーマンスの向上を測定するか、さまざまなインスタンスタイプを比較するには、次のようにします。

# Pre-requisite: # pull and run the AWS DLC
# or # pip install PyTorch2.0 wheels and set the previously mentioned environment variables # Clone PyTorch benchmark repo
git clone https://github.com/pytorch/benchmark.git # Setup Resnet50 benchmark
cd benchmark
python3 install.py resnet50 # Install the dependent wheels
python3 -m pip install numba # Run Resnet50 inference in jit mode. On successful completion of the inference runs,
# the script prints the inference latency and accuracy results
python3 run.py resnet50 -d cpu -m jit -t eval --use_cosine_similarity

ベンチマーク

あなたが使用することができます AmazonSageMaker推論レコメンダーさまざまなインスタンスにわたるパフォーマンスのベンチマークを自動化するユーティリティ。 Inference Recommender を使用すると、特定の ML モデルに対して最低コストで最高のパフォーマンスを提供するリアルタイム推論エンドポイントを見つけることができます。 Inference Recommender ノートブックを使用してモデルを運用エンドポイントにデプロイし、前述のデータを収集しました。 Inference Recommender の詳細については、「 GitHubレポ。この投稿では次のモデルのベンチマークを行いました。 ResNet50画像分類, DistilBERT センチメント分析, RoBERTaフィルマスク, RoBERTa 感情分析.

まとめ

AWS は、Torch Hub Resnet50 および複数の Hugging Face モデルにわたる AWS Graviton3 ベースの Amazon Elastic Cloud Compute C7g インスタンスを使用した PyTorch 推論で、同等の EC50 インスタンスと比較して最大 2% のコスト削減を測定しました。これらのインスタンスは、SageMaker および Amazon EC2 で利用できます。の AWS Graviton テクニカルガイドは、さまざまなワークロードにわたって Graviton インスタンスを使用してコスト上のメリットを達成するのに役立つ、最適化されたライブラリとベストプラクティスのリストを提供します。

AWS Graviton で同様のパフォーマンスの向上が観察されないユースケースを見つけた場合は、 AWS Graviton テクニカルガイドそれについて私たちに知らせるために。 Graviton を PyTorch を使用した推論用の最もコスト効率が高く効率的な汎用プロセッサにするために、パフォーマンスの改善をさらに追加し続けます。

著者,

スニタ・ナダンパリ AWS のソフトウェア開発マネージャーです。彼女は、機械学習、HPC、およびマルチメディアワークロードの Graviton ソフトウェアパフォーマンスの最適化をリードしています。彼女は、オープンソース開発と、Arm SoC を使用した費用対効果の高いソフトウェアソリューションの提供に情熱を注いでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/optimized-pytorch-2-0-inference-with-aws-graviton-processors/

タイムスタンプ： 2023 年 5 月 3 日

タイムスタンプ： 2023 年 5 月 4 日

プラトン再発行

Amazon Textract を使用してデータ抽出とドキュメント処理を改善する

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする：パート1

AmazonLexを使用して住所を取得する

Amazon SageMaker JumpStart で大規模な言語モデルを使用してサーバーレス会議要約バックエンドを構築する | アマゾンウェブサービス

PGA TOUR によるクラウドでのボール位置追跡 |アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー