Amazon SageMaker の AWS Inferentia2 と AWS Trainium を使用して、生成 AI 推論で最低コストで高いパフォーマンスを実現

プラトン再発行

フォロワー： 0

人工知能 (AI) と機械学習 (ML) の世界では、人間のようなテキスト、画像、コード、音声を作成できるジェネレーティブ AI モデルの台頭により、パラダイムシフトが起きています。従来の ML モデルと比較して、ジェネレーティブ AI モデルは非常に大きく複雑です。ただし、複雑さが増すと、推論にかかるコストが高くなり、強力なコンピューティングリソースの必要性が高まります。ジェネレーティブ AI モデルの推論コストが高いことは、限られたリソースを持つ企業や研究者にとって参入障壁となる可能性があり、より効率的で費用対効果の高いソリューションが必要になります。さらに、ジェネレーティブ AI のユースケースの大部分は、人間の相互作用または現実世界のシナリオに関係しているため、低レイテンシのパフォーマンスを提供できるハードウェアが必要です。 AWS は、強力で効率的で費用対効果の高いコンピューティングハードウェアに対する高まるニーズに対応するために、専用のチップを使用して革新を続けてきました。

本日は、アマゾンセージメーカーサポート AWS インフェレンシア 2 (ml.inf2) および AWS トレーニング (ml.trn1) ベースの SageMaker インスタンスで、リアルタイムおよび非同期推論用の生成 AI モデルをホストします。 ml.inf2 インスタンスは、米国東部 (オハイオ) の SageMaker と米国東部 (バージニア北部) の ml.trn1 インスタンスでのモデル展開に使用できます。

これらのインスタンスを SageMaker で使用して、ラージ言語モデル (LLM)、Stable Diffusion、ビジョントランスフォーマーなどの生成 AI モデルで低コストで高いパフォーマンスを実現できます。さらに、使用できます AmazonSageMaker推論レコメンダー負荷テストを実行し、これらのインスタンスにモデルをデプロイすることのコストパフォーマンスの利点を評価するのに役立ちます。

ml.inf2 および ml.trn1 インスタンスを使用して、SageMaker で ML アプリケーションを実行して、テキストの要約、コード生成、ビデオと画像の生成、音声認識、パーソナライズ、不正検出などを行うことができます。 SageMaker エンドポイントを設定するときに ml.trn1 または ml.inf2 インスタンスを指定することで、簡単に開始できます。 PyTorch、TensorFlow、Hugging Face、大規模モデル推論 (LMI) 用の ml.trn1 および ml.inf2 互換の AWS Deep Learning Containers (DLC) を使用して、簡単に開始できます。バージョンの完全なリストについては、を参照してください。利用可能なディープラーニングコンテナの画像.

この投稿では、LMI コンテナを利用して、追加のコーディングを必要とせずに、SageMaker を使用して AWS Inferentia2 に大規模な言語モデルをデプロイするプロセスを示します。私たちは、 GPT4ALL-J、微調整された GPT-J 7B モデルで、チャットボットスタイルの対話を提供します。

ml.trn1 および ml.inf2 インスタンスの概要

ml.trn1 インスタンスは、LLM を含む生成 AI モデルの高性能ディープラーニングトレーニングを主な目的として構築された、Trainium アクセラレータを利用しています。ただし、これらのインスタンスは、Inf2 に収まるものよりもさらに大きなモデルの推論ワークロードもサポートします。最大のインスタンスサイズである trn1.32xlarge インスタンスには、16 個の機能がありますトレニウム加速器 512 つのインスタンスで 3.4 GB のアクセラレータメモリを使用して、最大 16 ペタフロップスの FP16/BF16 コンピューティングパワーを提供します。 2台のTrainiumアクセラレータが超高速のNeuronLinkvXNUMXに接続され、集合通信が合理化されます。

ml.Inf2 インスタンスは、 AWS Inferentia2 アクセラレーター、推論専用のアクセラレータ。第 10 世代の AWS Inferentia と比較して、2.48 倍のコンピューティングパフォーマンス、最大 12 倍のスループット、最大 2 分の 384 のレイテンシーを実現します。最大のインスタンスサイズである Inf2.3xlarge は、16 つのインスタンスに 16 GB のアクセラレータメモリを備えた 175 個の AWS Inferentia2 アクセラレータを備えており、BF2/FPXNUMX で合計 XNUMX ペタフロップスの計算能力を発揮します。 XNUMX つのインスタンスで最大 XNUMX 億のパラメーターモデルをデプロイできます。 InfXNUMX は、より高価なトレーニングインスタンスでのみ利用可能な機能であるこの相互接続を提供する唯一の推論最適化インスタンスです。単一のアクセラレータに収まらない超大規模モデルの場合、データは NeuronLink を使用してアクセラレータ間を直接流れ、CPU を完全にバイパスします。 NeuronLink を使用すると、InfXNUMX はより高速な分散推論をサポートし、スループットとレイテンシを改善します。

AWS Inferentia2 と Trainium アクセラレータの両方に XNUMX つのニューロンコア-v2、32 GB HBM メモリスタック、およびマルチアクセラレータの推論を行う際に計算と通信をオーバーラップさせることによりランタイムを自動的に最適化する専用の集合計算エンジン。アーキテクチャの詳細については、次を参照してください。 Trainium および Inferentia デバイス.

次の図は、AWS Inferentia2 を使用したアーキテクチャの例を示しています。

AWS ニューロン SDK

AWS ニューロン AWS Inferentia および Trainium ベースのインスタンスで深層学習ワークロードを実行するために使用される SDK です。 AWS Neuron には、深層学習コンパイラ、ランタイム、および TensorFlow と PyTorch にネイティブに統合されたツールが含まれています。 Neuron を使用すると、ml.trn1 と ml.inf2 で高性能 ML ワークロードを開発、プロファイリング、デプロイできます。

　ニューロンコンパイラさまざまな形式 (TensorFlow、PyTorch、XLA HLO) の ML モデルを受け入れ、Neuron デバイスで実行できるように最適化します。 Neuron コンパイラは ML フレームワーク内で呼び出され、そこで ML モデルが Neuron フレームワークプラグインによってコンパイラに送信されます。結果のコンパイラアーティファクトは NEFF ファイル (Neuron Executable File Format) と呼ばれ、Neuron ランタイムによって Neuron デバイスにロードされます。

　ニューロンの実行時間 AWS Inferentia および Trainium Neuron デバイスにアクセスするための API を提供するカーネルドライバーと C/C++ ライブラリで構成されています。 TensorFlow および PyTorch 用の Neuron ML フレームワークプラグインは、Neuron ランタイムを使用して、NeuronCore でモデルをロードおよび実行します。 Neuron ランタイムは、コンパイルされた深層学習モデル (NEFF) を Neuron デバイスにロードし、高スループットと低遅延のために最適化されています。

SageMaker ml.inf2 インスタンスを使用して NLP モデルをホストする

LLM の提供について深く掘り下げる前に、トランスフォーマー・ニューロンクスは、モデルの大きな重み行列を複数の NeuronCore に分割するためのオープンソースライブラリです。単一の NeuronCore に収まるモデルの一般的な展開フローを簡単に見ていきましょう。

チェック対応機種一覧モデルが AWS Inferentia2 でサポートされていることを確認します。次に、モデルを Neuron Compiler で事前にコンパイルする必要があります。 SageMaker ノートブックまたはアマゾンエラスティックコンピューティングクラウド (Amazon EC2) インスタンスを使用してモデルをコンパイルします。次のコードに示すように、SageMaker Python SDK を使用して、PyTorch などの一般的な深層学習フレームワークを使用してモデルをデプロイできます。モデルを SageMaker ホスティングサービスにデプロイし、推論に使用できるエンドポイントを取得できます。これらのエンドポイントは完全に管理されており、自動スケーリングをサポートしています。

from sagemaker.pytorch.model import PyTorchModel pytorch_model = PyTorchModel( model_data=s3_model_uri, role=role, source_dir="code", entry_point="inference.py", image_uri=ecr_image
) predictor = pytorch_model.deploy( initial_instance_count=1, instance_type="ml.inf2.xlarge"
)

参照する開発者フローサンプルスクリプトを使用した SageMaker での Inf2 の一般的な開発フローの詳細については、こちらをご覧ください。

SageMaker ml.inf2 インスタンスを使用して LLM をホストする

数十億のパラメーターを持つ大規模な言語モデルは、多くの場合、大きすぎて単一のアクセラレーターに収まりません。これには、複数のアクセラレータにわたって LLM をホストするためのモデル並列手法の使用が必要になります。 LLM をホストするためのもう XNUMX つの重要な要件は、高性能モデルサービスソリューションの実装です。このソリューションは、モデルを効率的にロードし、パーティショニングを管理し、HTTP エンドポイントを介してリクエストをシームレスに処理する必要があります。

SageMaker には、モデルの並列処理と大規模なモデルの推論に特化した深層学習コンテナ (DLC)、ライブラリ、ツールが含まれています。 SageMaker で LMI を開始するためのリソースについては、以下を参照してください。モデルの並列処理と大規模なモデルの推論. SageMaker は、AWS インフラストラクチャで GPT、T5、OPT、BLOOM、Stable Diffusion などの大規模モデルをホストするための一般的なオープンソースライブラリを使用して DLC を維持しています。これらの特殊な DLC は、SageMaker LMI コンテナと呼ばれます。

SageMaker LMI コンテナ Transformers-neuronx ライブラリと統合されたモデルサーバーである DJLServing を使用して、NeuronCore 全体でテンソルの並列処理をサポートします。 DJLServing の仕組みの詳細については、次を参照してください。 DJLServing と DeepSpeed モデルの並列推論を使用して、Amazon SageMaker に大規模なモデルをデプロイする. DJL モデルサーバーと Transformers-neuronx ライブラリは、コンテナのコアコンポーネントとして機能し、Neuron SDK も含まれています。この設定により、AWS Inferentia2 アクセラレータへのモデルのロードが容易になり、複数の NeuronCore でモデルが並列化され、HTTP エンドポイントを介したサービスが可能になります。

LMI コンテナは、コンテナからのモデルのロードをサポートしています。 Amazon シンプルストレージサービス (Amazon S3) バケットまたはハグフェイスハブ。デフォルトのハンドラースクリプトはモデルをロードし、コンパイルして Neuron に最適化された形式に変換し、ロードします。 LMI コンテナーを使用して LLM をホストするには、次の XNUMX つのオプションがあります。

ノーコード (推奨) – これは、LMI コンテナーを使用して LLM を展開する最も簡単な方法です。このメソッドでは、提供されたデフォルトのハンドラーモデル名と必要なパラメータを渡すだけです serving.properties ファイルをロードしてモデルをホストします。デフォルトのハンドラーを使用するには、 entryPoint パラメータとして djl_python.transformers-neuronx.
自分のスクリプトを持ってくる – このアプローチでは、モデルのロードと提供に必要なコードを含む独自の model.py ファイルを作成するオプションがあります。このファイルは、 DJLServing API と transformers-neuronx API。モデルのロードプロセスをカスタマイズするには、以下を指定できます。 serving.properties 構成可能なパラメーターを使用します。利用可能な構成可能なパラメーターの包括的なリストについては、次を参照してください。すべての DJL 構成オプション。これが例ですモデル.py ファイルにソフトウェアを指定する必要があります。

ランタイムアーキテクチャ

　 tensor_parallel_degree プロパティ値は、複数の NeuronCore にわたるテンソル並列モジュールの分散を決定します。たとえば、inf2.24xlarge には 2 つの AWS Inferentia2 アクセラレーターがあります。各 AWS Inferentia16 アクセラレーターには 4 つの NeuronCore があります。各 NeuronCore には、テンソル並列モジュールを格納する XNUMX GB の専用の高帯域幅メモリ (HBM) があります。テンソルの並列度が XNUMX の場合、LMI は同じモデルの XNUMX つのモデルコピーを割り当て、それぞれが XNUMX つの NeuronCore を使用します。次の図に示すように、LMI コンテナーが開始すると、モデルがロードされ、最初に CPU のアドレス指定可能なメモリにトレースされます。トレースが完了すると、テンソルの並列度に基づいてモデルが NeuronCore に分割されます。

LMI は、そのモデルサービングスタックとして DJLServing を使用します。 SageMaker でコンテナのヘルスチェックに合格すると、コンテナは推論リクエストを処理する準備が整います。 DJLServing は、に相当する複数の Python プロセスを起動します。 TOTAL NUMBER OF NEURON CORES/TENSOR_PARALLEL_DEGREE. 各 Python プロセスには、C++ に相当するスレッドが含まれています。 TENSOR_PARALLEL_DEGREE. 各 C++ スレッドは、XNUMX つの NeuronCore でモデルの XNUMX つのシャードを保持します。

多くの実践者 (Python プロセス) は、サーバーが複数の独立した要求で呼び出されると、推論を順次実行する傾向があります。セットアップは簡単ですが、通常、アクセラレータの計算能力を利用することはベストプラクティスではありません。これに対処するために、DJLServing は動的バッチ処理の組み込みの最適化を提供し、サーバー側でこれらの独立した推論要求を組み合わせてより大きなバッチを動的に形成し、スループットを向上させます。すべての要求は、最初に動的バッチャーに到達してから、実際のジョブキューに入って推論を待ちます。を使用して、動的バッチ処理の優先バッチサイズを設定できます。 batch_size の設定 serving.properties. 構成することもできます max_batch_delay レイテンシの要件に基づいて、他のリクエストがバッチに参加するのを待つバッチャーの最大遅延時間を指定します。スループットは、モデルコピーの数とコンテナーで起動された Python プロセスグループにも依存します。次の図に示すように、テンソルの並列度を 4 に設定すると、LMI コンテナーは XNUMX つの Python プロセスグループを起動し、それぞれがモデルの完全なコピーを保持します。これにより、バッチサイズを増やしてスループットを向上させることができます。

Amazon SageMaker PlatoBlockchain Data Intelligence 上の AWS Inferentia2 と AWS Trainium を使用して、生成 AI 推論の最低コストで高いパフォーマンスを実現します。垂直検索。あい。

LLM をデプロイするための SageMaker ノートブック

このセクションでは、FP4 で 6 GB の 24 億パラメーターモデルである GPT32All-J を展開するための段階的なウォークスルーを提供します。 GPT4All-J は、文章問題、会話、コード、詩、歌、物語など、さまざまなインタラクションコンテンツでトレーニングされた人気のチャットボットです。 GPT4all-J は微調整された GPT-J モデルで、人間とのやり取りに似た応答を生成します。

この例の完全なノートブックは、 GitHubの. SageMaker Python SDK を使用して、モデルを Inf2 インスタンスにデプロイできます。提供されたものを使用しますデフォルトのハンドラーモデルをロードします。これで、提供する必要があるのはサービング.プロパティファイル。このファイルには、DJL モデルサーバーがモデルをダウンロードしてホストするために必要な構成が含まれています。を使用して、Hugging Face モデルの名前を指定できます。 model_id パラメータを使用して、Hugging Face リポジトリからモデルを直接ダウンロードします。または、Amazon S3 からモデルをダウンロードすることもできます。 s3url パラメータ。ザ・ entryPoint パラメータは、モデルをロードするライブラリを指すように構成されています。詳細については、 djl_python.fastertransformerを参照してください。 GitHubコード.

　 tensor_parallel_degree プロパティ値は、複数のデバイス間でのテンソル並列モジュールの分散を決定します。たとえば、12 個の NeuronCore と 4 のテンソル並列度の場合、LMI は XNUMX つのモデルコピーを割り当て、それぞれが XNUMX 個の NeuronCore を使用します。プロパティを使用して精度タイプを定義することもできます dtype. n_position パラメーターは、モデルの最大入力シーケンス長と出力シーケンス長の合計を定義します。次のコードを参照してください。

%%writefile serving.properties# Start writing content here
engine=Python
option.entryPoint=djl_python.transformers-neuronx
#option.model_id=nomic-ai/gpt4all-j
option.s3url = {{s3url}}
option.tensor_parallel_degree=2
option.model_loading_timeout=2400
option.n_positions=512

構築する tarball 含む serving.properties S3 バケットにアップロードします。この例ではデフォルトのハンドラーが使用されていますが、 model.py 読み込みと提供のプロセスをカスタマイズするためのファイル。インストールが必要なパッケージがある場合は、それらを requirements.txt ファイル。次のコードを参照してください。

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket() # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

DJL コンテナイメージを取得し、SageMaker モデルを作成します。

##Retrieve djl container image
image_uri = image_uris.retrieve( framework="djl-deepspeed", region=sess.boto_session.region_name, version="0.21.0" )
image_uri = image_uri.split(":")[0] + ":" + "0.22.1-neuronx-sdk2.9.0" model = Model(image_uri=image_uri, model_data=code_artifact, env=env, role=role)

次に、前に定義したモデル構成で SageMaker エンドポイントを作成します。コンテナはモデルを /tmp SageMaker が /tmp 〜へ Amazon Elastic Blockストア (Amazon EBS)。追加する必要があります volume_size パラメータを確保する /tmp ディレクトリには、モデルをダウンロードしてコンパイルするのに十分なスペースがあります。設定しました container_startup_health_check_timeout モデルの準備が整った後にヘルスチェックが確実に開始されるように、3,600 秒まで。 ml.inf2.8xlarge インスタンスを使用します。次のコードを参照してください。

instance_type = "ml.inf2.8xlarge"
endpoint_name = sagemaker.utils.name_from_base("lmi-model") model.deploy(initial_instance_count=1, instance_type=instance_type, endpoint_name=endpoint_name, container_startup_health_check_timeout=3600, volume_size=256 )

SageMaker エンドポイントが作成されたら、以下を使用して SageMaker エンドポイントに対してリアルタイムの予測を行うことができます。 Predictor オブジェクト：

# our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor( endpoint_name=endpoint_name, sagemaker_session=sess, serializer=serializers.JSONSerializer(), deserializer=deserializers.JSONDeserializer(),
) predictor.predict( {"inputs": "write a blog on new York", "parameters": {}}
)

クリーンアップ

テストが終了したら、コストを節約するためにエンドポイントを削除します。

# - Delete the end point
sess.delete_endpoint(endpoint_name)
sess.delete_endpoint_config(endpoint_name)
model.delete_model()

まとめ

この投稿では、生成 AI モデルをホストするために ml.inf2 および ml.trn1 インスタンスをサポートするようになった SageMaker の新しくリリースされた機能を紹介しました。コードを一切記述せずに、SageMaker と LMI コンテナを使用して、生成 AI モデルである GPT4ALL-J を AWS Inferentia2 にデプロイする方法を示しました。また、DJLServing と transformers-neuronx モデルをロードし、分割して提供します。

Inf2 インスタンスは、AWS でジェネレーティブ AI モデルを実行するための最も費用対効果の高い方法を提供します。性能の詳細については、 Inf2 パフォーマンス.

チェックアウトします GitHubのサンプルノートブックのレポ。試してみて、ご不明な点がありましたらお知らせください。

著者について

Vivek ガンガサニ アマゾンウェブサービスのシニア機械学習ソリューションアーキテクトです。彼は Machine Learning Startups と協力して、AWS で AI/ML アプリケーションを構築およびデプロイしています。彼は現在、MLOps、ML 推論、およびローコード ML のソリューションの提供に注力しています。彼は、自然言語処理やコンピュータービジョンなど、さまざまな分野のプロジェクトに取り組んできました。

常世博 AWS Annapurna Labs のソリューションアーキテクトです。日本に拠点を置き、AWS による買収前から Annapurna Labs に参加し、Annapurna Labs テクノロジーで一貫して顧客を支援してきました。彼の最近の焦点は、専用のシリコン、AWS Inferentia、Trainium に基づく機械学習ソリューションです。

ダワル・パテル AWSのプリンシパル機械学習アーキテクトです。彼は、分散コンピューティングや人工知能に関連する問題について、大企業から中規模の新興企業に至るまでの組織と協力してきました。彼は、NLPおよびコンピュータービジョンドメインを含むディープラーニングに焦点を当てています。彼は、顧客がSageMakerで高性能モデルの推論を実現するのを支援します。

青蘭 AWS のソフトウェア開発エンジニアです。彼は、高性能 ML 推論ソリューションや高性能ロギングシステムなど、Amazon でいくつかの挑戦的な製品に取り組んできました。 Qing のチームは、Amazon Advertising で最初の XNUMX 億パラメータモデルを成功裏に立ち上げ、非常に低いレイテンシーを必要としました。 Qing は、インフラストラクチャの最適化とディープラーニングの高速化に関する深い知識を持っています。

チンウェイ・リー アマゾンウェブサービスの機械学習スペシャリストです。彼は博士号を取得しました。アドバイザーの研究助成金口座を破り、約束したノーベル賞を授与できなかった後、オペレーションズリサーチで。現在、彼は金融サービスおよび保険業界の顧客がAWSで機械学習ソリューションを構築するのを支援しています。暇なときは、読書と教育が好きです。

アランタン 大規模モデルの推論に関する SageMaker の主要な取り組みのシニアプロダクトマネージャーです。彼は機械学習を分析の分野に適用することに情熱を注いでいます。仕事以外では、アウトドアを楽しんでいます。

Amazon SageMaker PlatoBlockchain Data Intelligence 上の AWS Inferentia2 と AWS Trainium を使用して、生成 AI 推論の最低コストで高いパフォーマンスを実現します。垂直検索。あい。 ヴァルン・シャル ML 推論プラットフォームの重要な顧客向け機能に取り組んでいる AWS Sagemaker のソフトウェア開発エンジニアです。彼は、分散システムと AI の分野で働くことに情熱を注いでいます。余暇には、読書とガーデニングが好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/achieve-high-performance-with-lowest-cost-for-generative-ai-inference-using-aws-inferentia2-and-aws-trainium-on-amazon-sagemaker/

タイムスタンプ： 2023 年 5 月 4 日

タイムスタンプ： 2023 年 1 月 30 日

プラトン再発行

Amazon Personalize と Amazon OpenSearch Service の統合で検索結果をパーソナライズ | アマゾンウェブサービス

Amazon SageMaker の合成データを使用して不正取引を強化する

Amazon SageMaker 異種クラスターを使用して、モデルトレーニングのコストパフォーマンスを向上させます

Amazon SageMaker JumpStart は、カスタム分類とカスタムエンティティ検出のための Amazon Comprehend ノートブックを提供するようになりました

Amazon Comprehend の PDF 事前ラベル付けを自動化する | アマゾンウェブサービス

AWS Trainium を使用した高速かつコスト効率の高い LLaMA 2 微調整 | アマゾンウェブサービス

OCX Cognition が AWS Step Functions と Amazon SageMaker を使用して、ML モデルの開発時間を数週間から数日に短縮し、モデルの更新時間を数日からリアルタイムに短縮した方法 | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー