Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化する |アマゾン ウェブ サービス

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化する |アマゾン ウェブ サービス

NVIDIA NIM mイクロサービス と統合するようになりました アマゾンセージメーカーを使用すると、業界をリードする大規模言語モデル (LLM) をデプロイし、モデルのパフォーマンスとコストを最適化できます。次のようなテクノロジーを使用すると、最先端の LLM を数日ではなく数分で導入できます。 NVIDIA TensorRT, NVIDIA TensorRT-LLM, NVIDIATriton推論サーバー SageMaker によってホストされる NVIDIA 高速インスタンス上。

NIM、の一部 NVIDIA AI Enterprise にリストされているソフトウェア プラットフォーム AWSマーケットプレイスは、最先端の LLM の力をアプリケーションにもたらす一連の推論マイクロサービスで、チャットボットの開発、ドキュメントの要約、またはその他の NLP の実装にかかわらず、自然言語処理 (NLP) と理解機能を提供します。パワードアプリケーション。事前に構築された NVIDIA コンテナーを使用して、特定の NVIDIA GPU に最適化された一般的な LLM をホストして迅速に導入したり、NIM ツールを使用して独自のコンテナーを作成したりできます。

この投稿では、NIM の概要を説明し、SageMaker で NIM を使用する方法を示します。

NVIDIA NIM の概要

NIM は、推論用のさまざまな人気モデルに最適化され、事前に生成されたエンジンを提供します。これらのマイクロサービスは、事前設定されたパフォーマンスと使用率を最大化するために、特定の NVIDIA GPU に合わせて調整された NVIDIA TensorRT エンジンを構築しました。これらのモデルは、アプリケーションを簡単にデプロイするためのモデル ホスティング パフォーマンスに最適なハイパーパラメータを使用して厳選されています。

モデルが NVIDIA の厳選されたモデルのセットに含まれていない場合、NIM は Model Repo Generator などの重要なユーティリティを提供します。これにより、TensorRT-LLM アクセラレーション エンジンと NIM 形式のモデル ディレクトリを簡単な YAML ファイルを通じて簡単に作成できます。さらに、vLLM の統合コミュニティ バックエンドは、TensorRT-LLM に最適化されたスタックにシームレスに統合されていない可能性がある最先端のモデルと新機能のサポートを提供します。

NIM は、推論用に最適化された LLM を作成することに加えて、実行中のバッチ処理などの最適化されたスケジューリング技術などの高度なホスティング技術を提供します。これにより、LLM のテキスト生成プロセス全体をモデル上の複数の反復に分割できます。実行中のバッチ処理では、バッチ全体が終了するのを待ってから次の一連の要求に進むのではなく、NIM ランタイムは終了したシーケンスをバッチから即座に削除します。その後、ランタイムは、他のリクエストがまだ処理中である間に新しいリクエストの実行を開始し、コンピューティング インスタンスと GPU を最大限に活用します。

SageMaker への NIM のデプロイ

NIM は SageMaker と統合されているため、SageMaker の機能を活用しながら、パフォーマンスとコストを最適化して LLM をホストできます。 SageMaker で NIM を使用すると、モデルをホストするインスタンスの数のスケールアウト、ブルー/グリーン デプロイメントの実行、シャドウ テストを使用したワークロードの評価などの機能を使用できます。これらはすべて、クラス最高の可観測性とモニタリングを備えています。 アマゾンクラウドウォッチ.

まとめ

NIM を使用して最適化された LLM を展開することは、パフォーマンスとコストの両方の点で優れたオプションとなります。また、LLM の導入が容易になります。将来的には、NIM では LoRA や P チューニングなどの Parameter-Efficient Fine-Tuning (PEFT) カスタマイズ方法も可能になる予定です。 NIM は、Triton Inference Server、TensorRT-LLM、および vLLM バックエンドをサポートすることにより、LLM をサポートすることも計画しています。

NVIDIA マイクロサービスと、SageMaker を使用して LLM をデプロイする方法について詳しく学び、利用できるメリットを試してみることをお勧めします。 NIM は、NVIDIA AI Enterprise ソフトウェア サブスクリプションの一部として有料サービスとして利用できます。 AWSマーケットプレイスで入手可能.

近い将来、NIM の詳細なガイドを SageMaker に投稿する予定です。


著者について

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ジェームズ・パーク アマゾン ウェブ サービスのソリューション アーキテクトです。 彼は Amazon.com と協力して AWS 上のテクノロジー ソリューションを設計、構築、デプロイしており、特に AI と機械学習に興味を持っています。 余暇には、新しい文化、新しい経験を探し、最新のテクノロジー トレンドを把握することを楽しんでいます。 LinkedIn.

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。サウラブ・トリカンデ Amazon SageMaker Inference のシニア プロダクト マネージャーです。 彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。 彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープ ラーニング モデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。 余暇には、ハイキング、革新的なテクノロジーの学習、TechCrunch のフォロー、家族との時間を楽しんでいます。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。青蘭 AWS のソフトウェア開発エンジニアです。 彼は、高性能 ML 推論ソリューションや高性能ロギング システムなど、Amazon でいくつかの挑戦的な製品に取り組んできました。 Qing のチームは、Amazon Advertising で最初の XNUMX 億パラメータ モデルを成功裏に立ち上げ、非常に低いレイテンシーを必要としました。 Qing は、インフラストラクチャの最適化とディープ ラーニングの高速化に関する深い知識を持っています。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ニキル・クルカルニ は、AW​​S Machine Learning のソフトウェア開発者であり、クラウド上で機械学習ワークロードのパフォーマンスを向上させることに重点を置いており、トレーニングと推論のための AWS Deep Learning Containers の共同作成者でもあります。 彼は分散型深層学習システムに情熱を注いでいます。 仕事以外では、本を読んだり、ギターをいじったり、ピザを作ったりすることが趣味です。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ハリッシュ・トゥマラチェラ SageMaker のディープラーニング パフォーマンス チームのソフトウェア エンジニアです。 彼は、SageMaker 上で大規模な言語モデルを効率的に提供するためのパフォーマンス エンジニアリングに取り組んでいます。 余暇には、ランニング、サイクリング、スキー登山を楽しんでいます。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。エリュース・トリアナ・イサザ NVIDIA のデベロッパー リレーションズ マネージャーであり、Amazon の AI MLOps、DevOps、科学者、AWS 技術専門家が NVIDIA コンピューティング スタックを習得して、データ キュレーション、GPU トレーニング、モデル推論、AWS GPU インスタンスでの本番展開に及ぶ Generative AI Foundation モデルの高速化と最適化を支援しています。 。 さらに、Eliuth は情熱的なマウンテン バイカー、スキーヤー、テニス、ポーカー プレーヤーでもあります。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ジャホン・リュウ NVIDIAのクラウドサービスプロバイダーチームのソリューションアーキテクトです。 彼は、クライアントがNVIDIAアクセラレーションコンピューティングを活用してトレーニングと推論の課題に対処する機械学習とAIソリューションを採用するのを支援しています。 余暇には、折り紙、DIYプロジェクト、バスケットボールを楽しんでいます。

Amazon SageMaker と NVIDIA NIM マイクロサービスの統合を使用して、NVIDIA GPU での LLM 推論の価格パフォーマンスを最適化します。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。クシチズ・グプタ NVIDIA のソリューション アーキテクトです。 彼は、NVIDIA が提供する GPU AI テクノロジについてクラウドの顧客を教育し、機械学習およびディープ ラーニング アプリケーションの高速化を支援することに喜びを感じています。 仕事以外では、ランニング、ハイキング、野生動物の観察を楽しんでいます。

タイムスタンプ:

より多くの AWS機械学習