Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

NVIDIA NIM m イクロサービスと統合するようになりましたアマゾンセージメーカーを使用すると、業界をリードする大規模言語モデル (LLM) をデプロイし、モデルのパフォーマンスとコストを最適化できます。次のようなテクノロジーを使用すると、最先端の LLM を数日ではなく数分で導入できます。 NVIDIA TensorRT, NVIDIA TensorRT-LLM, NVIDIATriton推論サーバー SageMaker によってホストされる NVIDIA 高速インスタンス上。

NIM、の一部 NVIDIA AI Enterprise にリストされているソフトウェアプラットフォーム AWSマーケットプレイスは、最先端の LLM の力をアプリケーションにもたらす一連の推論マイクロサービスで、チャットボットの開発、ドキュメントの要約、またはその他の NLP の実装にかかわらず、自然言語処理 (NLP) と理解機能を提供します。パワードアプリケーション。事前に構築された NVIDIA コンテナーを使用して、特定の NVIDIA GPU に最適化された一般的な LLM をホストして迅速に導入したり、NIM ツールを使用して独自のコンテナーを作成したりできます。

この投稿では、NIM の概要を説明し、SageMaker で NIM を使用する方法を示します。

NVIDIA NIM の概要

NIM は、推論用のさまざまな人気モデルに最適化され、事前に生成されたエンジンを提供します。これらのマイクロサービスは、事前設定されたパフォーマンスと使用率を最大化するために、特定の NVIDIA GPU に合わせて調整された NVIDIA TensorRT エンジンを構築しました。これらのモデルは、アプリケーションを簡単にデプロイするためのモデルホスティングパフォーマンスに最適なハイパーパラメータを使用して厳選されています。

モデルが NVIDIA の厳選されたモデルのセットに含まれていない場合、NIM は Model Repo Generator などの重要なユーティリティを提供します。これにより、TensorRT-LLM アクセラレーションエンジンと NIM 形式のモデルディレクトリを簡単な YAML ファイルを通じて簡単に作成できます。さらに、vLLM の統合コミュニティバックエンドは、TensorRT-LLM に最適化されたスタックにシームレスに統合されていない可能性がある最先端のモデルと新機能のサポートを提供します。

NIM は、推論用に最適化された LLM を作成することに加えて、実行中のバッチ処理などの最適化されたスケジューリング技術などの高度なホスティング技術を提供します。これにより、LLM のテキスト生成プロセス全体をモデル上の複数の反復に分割できます。実行中のバッチ処理では、バッチ全体が終了するのを待ってから次の一連の要求に進むのではなく、NIM ランタイムは終了したシーケンスをバッチから即座に削除します。その後、ランタイムは、他のリクエストがまだ処理中である間に新しいリクエストの実行を開始し、コンピューティングインスタンスと GPU を最大限に活用します。

SageMaker への NIM のデプロイ

NIM は SageMaker と統合されているため、SageMaker の機能を活用しながら、パフォーマンスとコストを最適化して LLM をホストできます。 SageMaker で NIM を使用すると、モデルをホストするインスタンスの数のスケールアウト、ブルー/グリーンデプロイメントの実行、シャドウテストを使用したワークロードの評価などの機能を使用できます。これらはすべて、クラス最高の可観測性とモニタリングを備えています。アマゾンクラウドウォッチ.

まとめ

NIM を使用して最適化された LLM を展開することは、パフォーマンスとコストの両方の点で優れたオプションとなります。また、LLM の導入が容易になります。将来的には、NIM では LoRA や P チューニングなどの Parameter-Efficient Fine-Tuning (PEFT) カスタマイズ方法も可能になる予定です。 NIM は、Triton Inference Server、TensorRT-LLM、および vLLM バックエンドをサポートすることにより、LLM をサポートすることも計画しています。

NVIDIA マイクロサービスと、SageMaker を使用して LLM をデプロイする方法について詳しく学び、利用できるメリットを試してみることをお勧めします。 NIM は、NVIDIA AI Enterprise ソフトウェアサブスクリプションの一部として有料サービスとして利用できます。 AWSマーケットプレイスで入手可能.

近い将来、NIM の詳細なガイドを SageMaker に投稿する予定です。

著者について

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ジェームズ・パーク アマゾンウェブサービスのソリューションアーキテクトです。彼は Amazon.com と協力して AWS 上のテクノロジーソリューションを設計、構築、デプロイしており、特に AI と機械学習に興味を持っています。余暇には、新しい文化、新しい経験を探し、最新のテクノロジートレンドを把握することを楽しんでいます。 LinkedIn.

サウラブ・トリカンデ Amazon SageMaker Inference のシニアプロダクトマネージャーです。彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープラーニングモデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。余暇には、ハイキング、革新的なテクノロジーの学習、TechCrunch のフォロー、家族との時間を楽しんでいます。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。青蘭 AWS のソフトウェア開発エンジニアです。彼は、高性能 ML 推論ソリューションや高性能ロギングシステムなど、Amazon でいくつかの挑戦的な製品に取り組んできました。 Qing のチームは、Amazon Advertising で最初の XNUMX 億パラメータモデルを成功裏に立ち上げ、非常に低いレイテンシーを必要としました。 Qing は、インフラストラクチャの最適化とディープラーニングの高速化に関する深い知識を持っています。

ニキル・クルカルニ は、AWS Machine Learning のソフトウェア開発者であり、クラウド上で機械学習ワークロードのパフォーマンスを向上させることに重点を置いており、トレーニングと推論のための AWS Deep Learning Containers の共同作成者でもあります。彼は分散型深層学習システムに情熱を注いでいます。仕事以外では、本を読んだり、ギターをいじったり、ピザを作ったりすることが趣味です。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ハリッシュ・トゥマラチェラ SageMaker のディープラーニングパフォーマンスチームのソフトウェアエンジニアです。彼は、SageMaker 上で大規模な言語モデルを効率的に提供するためのパフォーマンスエンジニアリングに取り組んでいます。余暇には、ランニング、サイクリング、スキー登山を楽しんでいます。

エリュース・トリアナ・イサザ NVIDIA のデベロッパーリレーションズマネージャーであり、Amazon の AI MLOps、DevOps、科学者、AWS 技術専門家が NVIDIA コンピューティングスタックを習得して、データキュレーション、GPU トレーニング、モデル推論、AWS GPU インスタンスでの本番展開に及ぶ Generative AI Foundation モデルの高速化と最適化を支援しています。。さらに、Eliuth は情熱的なマウンテンバイカー、スキーヤー、テニス、ポーカープレーヤーでもあります。

ジャホン・リュウ NVIDIAのクラウドサービスプロバイダーチームのソリューションアーキテクトです。彼は、クライアントがNVIDIAアクセラレーションコンピューティングを活用してトレーニングと推論の課題に対処する機械学習とAIソリューションを採用するのを支援しています。余暇には、折り紙、DIYプロジェクト、バスケットボールを楽しんでいます。

クシチズ・グプタ NVIDIA のソリューションアーキテクトです。彼は、NVIDIA が提供する GPU AI テクノロジについてクラウドの顧客を教育し、機械学習およびディープラーニングアプリケーションの高速化を支援することに喜びを感じています。仕事以外では、ランニング、ハイキング、野生動物の観察を楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

タイムスタンプ： 2024 年 3 月 18 日

タイムスタンプ： 2022 年 6 月 15 日

プラトン再発行

Amazon Transcribe、Amazon Translate、AmazonPollyで言語の壁を打ち破る

データエクスペリエンスの再発明: 生成 AI と最新のデータアーキテクチャを使用して洞察を引き出す | アマゾンウェブサービス

AmazonSageMakerとAWSSSOによるチームとユーザーの管理

Amazon SageMaker Data WranglerのPySparkおよびAltairコードスニペットを使用して、データをより迅速に準備します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー