NVIDIA NIM mイクロサービス と統合するようになりました アマゾンセージメーカーを使用すると、業界をリードする大規模言語モデル (LLM) をデプロイし、モデルのパフォーマンスとコストを最適化できます。次のようなテクノロジーを使用すると、最先端の LLM を数日ではなく数分で導入できます。 NVIDIA TensorRT, NVIDIA TensorRT-LLM, NVIDIATriton推論サーバー SageMaker によってホストされる NVIDIA 高速インスタンス上。
NIM、の一部 NVIDIA AI Enterprise にリストされているソフトウェア プラットフォーム AWSマーケットプレイスは、最先端の LLM の力をアプリケーションにもたらす一連の推論マイクロサービスで、チャットボットの開発、ドキュメントの要約、またはその他の NLP の実装にかかわらず、自然言語処理 (NLP) と理解機能を提供します。パワードアプリケーション。事前に構築された NVIDIA コンテナーを使用して、特定の NVIDIA GPU に最適化された一般的な LLM をホストして迅速に導入したり、NIM ツールを使用して独自のコンテナーを作成したりできます。
この投稿では、NIM の概要を説明し、SageMaker で NIM を使用する方法を示します。
NVIDIA NIM の概要
NIM は、推論用のさまざまな人気モデルに最適化され、事前に生成されたエンジンを提供します。これらのマイクロサービスは、事前設定されたパフォーマンスと使用率を最大化するために、特定の NVIDIA GPU に合わせて調整された NVIDIA TensorRT エンジンを構築しました。これらのモデルは、アプリケーションを簡単にデプロイするためのモデル ホスティング パフォーマンスに最適なハイパーパラメータを使用して厳選されています。
モデルが NVIDIA の厳選されたモデルのセットに含まれていない場合、NIM は Model Repo Generator などの重要なユーティリティを提供します。これにより、TensorRT-LLM アクセラレーション エンジンと NIM 形式のモデル ディレクトリを簡単な YAML ファイルを通じて簡単に作成できます。さらに、vLLM の統合コミュニティ バックエンドは、TensorRT-LLM に最適化されたスタックにシームレスに統合されていない可能性がある最先端のモデルと新機能のサポートを提供します。
NIM は、推論用に最適化された LLM を作成することに加えて、実行中のバッチ処理などの最適化されたスケジューリング技術などの高度なホスティング技術を提供します。これにより、LLM のテキスト生成プロセス全体をモデル上の複数の反復に分割できます。実行中のバッチ処理では、バッチ全体が終了するのを待ってから次の一連の要求に進むのではなく、NIM ランタイムは終了したシーケンスをバッチから即座に削除します。その後、ランタイムは、他のリクエストがまだ処理中である間に新しいリクエストの実行を開始し、コンピューティング インスタンスと GPU を最大限に活用します。
SageMaker への NIM のデプロイ
NIM は SageMaker と統合されているため、SageMaker の機能を活用しながら、パフォーマンスとコストを最適化して LLM をホストできます。 SageMaker で NIM を使用すると、モデルをホストするインスタンスの数のスケールアウト、ブルー/グリーン デプロイメントの実行、シャドウ テストを使用したワークロードの評価などの機能を使用できます。これらはすべて、クラス最高の可観測性とモニタリングを備えています。 アマゾンクラウドウォッチ.
まとめ
NIM を使用して最適化された LLM を展開することは、パフォーマンスとコストの両方の点で優れたオプションとなります。また、LLM の導入が容易になります。将来的には、NIM では LoRA や P チューニングなどの Parameter-Efficient Fine-Tuning (PEFT) カスタマイズ方法も可能になる予定です。 NIM は、Triton Inference Server、TensorRT-LLM、および vLLM バックエンドをサポートすることにより、LLM をサポートすることも計画しています。
NVIDIA マイクロサービスと、SageMaker を使用して LLM をデプロイする方法について詳しく学び、利用できるメリットを試してみることをお勧めします。 NIM は、NVIDIA AI Enterprise ソフトウェア サブスクリプションの一部として有料サービスとして利用できます。 AWSマーケットプレイスで入手可能.
近い将来、NIM の詳細なガイドを SageMaker に投稿する予定です。
著者について
ジェームズ・パーク アマゾン ウェブ サービスのソリューション アーキテクトです。 彼は Amazon.com と協力して AWS 上のテクノロジー ソリューションを設計、構築、デプロイしており、特に AI と機械学習に興味を持っています。 余暇には、新しい文化、新しい経験を探し、最新のテクノロジー トレンドを把握することを楽しんでいます。 LinkedIn.
サウラブ・トリカンデ Amazon SageMaker Inference のシニア プロダクト マネージャーです。 彼は顧客と協力することに情熱を傾けており、機械学習を民主化するという目標に動機付けられています。 彼は、複雑な ML アプリケーションのデプロイ、マルチテナント ML モデル、コストの最適化、およびディープ ラーニング モデルのデプロイをよりアクセスしやすくすることに関連する主要な課題に焦点を当てています。 余暇には、ハイキング、革新的なテクノロジーの学習、TechCrunch のフォロー、家族との時間を楽しんでいます。
青蘭 AWS のソフトウェア開発エンジニアです。 彼は、高性能 ML 推論ソリューションや高性能ロギング システムなど、Amazon でいくつかの挑戦的な製品に取り組んできました。 Qing のチームは、Amazon Advertising で最初の XNUMX 億パラメータ モデルを成功裏に立ち上げ、非常に低いレイテンシーを必要としました。 Qing は、インフラストラクチャの最適化とディープ ラーニングの高速化に関する深い知識を持っています。
ニキル・クルカルニ は、AWS Machine Learning のソフトウェア開発者であり、クラウド上で機械学習ワークロードのパフォーマンスを向上させることに重点を置いており、トレーニングと推論のための AWS Deep Learning Containers の共同作成者でもあります。 彼は分散型深層学習システムに情熱を注いでいます。 仕事以外では、本を読んだり、ギターをいじったり、ピザを作ったりすることが趣味です。
ハリッシュ・トゥマラチェラ SageMaker のディープラーニング パフォーマンス チームのソフトウェア エンジニアです。 彼は、SageMaker 上で大規模な言語モデルを効率的に提供するためのパフォーマンス エンジニアリングに取り組んでいます。 余暇には、ランニング、サイクリング、スキー登山を楽しんでいます。
エリュース・トリアナ・イサザ NVIDIA のデベロッパー リレーションズ マネージャーであり、Amazon の AI MLOps、DevOps、科学者、AWS 技術専門家が NVIDIA コンピューティング スタックを習得して、データ キュレーション、GPU トレーニング、モデル推論、AWS GPU インスタンスでの本番展開に及ぶ Generative AI Foundation モデルの高速化と最適化を支援しています。 。 さらに、Eliuth は情熱的なマウンテン バイカー、スキーヤー、テニス、ポーカー プレーヤーでもあります。
ジャホン・リュウ NVIDIAのクラウドサービスプロバイダーチームのソリューションアーキテクトです。 彼は、クライアントがNVIDIAアクセラレーションコンピューティングを活用してトレーニングと推論の課題に対処する機械学習とAIソリューションを採用するのを支援しています。 余暇には、折り紙、DIYプロジェクト、バスケットボールを楽しんでいます。
クシチズ・グプタ NVIDIA のソリューション アーキテクトです。 彼は、NVIDIA が提供する GPU AI テクノロジについてクラウドの顧客を教育し、機械学習およびディープ ラーニング アプリケーションの高速化を支援することに喜びを感じています。 仕事以外では、ランニング、ハイキング、野生動物の観察を楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/
- :持っている
- :は
- :not
- $UP
- 100
- 121
- 7
- a
- 私たちについて
- 加速された
- 加速している
- 加速
- アクセス可能な
- 添加
- 住所
- 採用
- 高度な
- 広告運用
- AI
- 許す
- 許可
- また
- Amazon
- アマゾンセージメーカー
- Amazon Webサービス
- Amazon.com
- an
- および
- です
- AS
- 支援する
- アシスト
- At
- 利用できます
- AWS
- AWS機械学習
- バックエンド
- バックエンド
- バスケットボール
- バッチング
- BE
- き
- 始まります
- 恩恵を受ける
- 利点
- BEST
- 本
- 両言語で
- ボックス
- ブレーク
- 持って来る
- ビルド
- by
- 缶
- 機能
- 課題
- 挑戦
- チャットボット
- クライアント
- クラウド
- コード
- COM
- コミュニティ
- 複雑な
- 計算
- コンピューティング
- コンテナ
- 基本
- 費用
- 作ります
- 作成
- 創造
- 文化
- キュレーション
- キュレーション
- Customers
- カスタム化
- 最先端
- データ
- 日付
- 日
- 深いです
- 深い学習
- 民主化
- 展開します
- 展開する
- 展開
- 配備
- 設計
- Developer
- 開発
- 開発
- ディレクトリにジョブを開始します。
- 配布
- Diy
- ドキュメント
- ダウン
- 緩和する
- 教育する
- 効率良く
- 楽な
- 新興の
- エンパワーメント
- 奨励する
- エンジン
- エンジニア
- エンジニアリング
- エンジン
- Enterprise
- エンタープライズソフトウェア
- 本質的な
- 評価します
- エクスペリエンス
- 専門家
- 促進する
- 家族
- 特徴
- File
- もう完成させ、ワークスペースに掲示しましたか?
- 仕上げ
- 名
- フライト
- 焦点を当てて
- 焦点
- フォロー中
- Foundation
- から
- さらに
- 未来
- 世代
- 生々しい
- 生成AI
- ジェネレータ
- 目標
- GPU
- GPU
- 素晴らしい
- ガイド
- 持ってる
- he
- ことができます
- ハイ
- ハイレベル
- 彼に
- 彼の
- host
- 主催
- ホスティング
- 認定条件
- How To
- HTTP
- HTTPS
- 直ちに
- 実装
- in
- 綿密な
- 含めて
- 業界をリードする
- インフラ
- 革新的な
- 革新的な技術
- を取得する必要がある者
- 統合する
- 統合された
- 統合する
- 統合
- 関心
- に
- 概要
- IT
- 繰り返し
- JPEG
- JPG
- 知識
- 言語
- 大
- レイテンシ
- 最新の
- 打ち上げ
- LEARN
- 学習
- 活用します
- ような
- リストされた
- ラマ
- LLM
- ロギング
- ロー
- 機械
- 機械学習
- make
- 作成
- マネージャー
- マスター
- 五月..
- メソッド
- マイクロサービス
- 分
- ML
- MLOps
- モデル
- モニタリング
- 他には?
- やる気
- 山
- 移動する
- の試合に
- ナチュラル
- 自然言語処理
- 近く
- 新作
- 次の
- NLP
- 今
- 数
- Nvidia
- of
- 提供
- 提供すること
- オファー
- on
- 最適な
- 最適化
- 最適化
- 最適化
- 最適化
- 最適化
- オプション
- or
- その他
- でる
- 外側
- 全体
- 自分の
- 支払われた
- 部
- 特定の
- 情熱的な
- パフォーマンス
- 実行
- ピザ
- プラン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイヤー
- 再生
- ポーカー
- 人気
- ポスト
- 電力
- プロセス
- 処理
- プロダクト
- プロダクトマネージャー
- 生産
- 製品
- プロジェクト(実績作品)
- 提供します
- プロバイダー
- は、大阪で
- 提供
- クイック
- むしろ
- リーディング
- 関連する
- 関係
- リクエスト
- の提出が必要です
- ランニング
- ランタイム
- セージメーカー
- SageMaker の推論
- スケーリング
- スケジューリング
- 科学者たち
- シームレス
- を求める
- シニア
- サービス
- サービスプロバイダー
- サービス
- サービング
- セッションに
- いくつかの
- Shadow
- 表示する
- ソフトウェア
- ソフトウェア開発
- ソフトウェアエンジニア
- 溶液
- ソリューション
- 緊張
- 特定の
- 支出
- スタック
- 最先端の
- 滞在
- まだ
- 簡単な
- 購読
- 首尾よく
- そのような
- サポート
- 支援する
- システム
- テーラード
- チーム
- TechCrunchの
- 技術的
- テクニック
- テクノロジー
- テクノロジー
- テニス
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- 未来
- アプリ環境に合わせて
- それら
- その後
- ボーマン
- この
- 介して
- 時間
- 〜へ
- 豊富なツール群
- トレーニング
- トレンド
- トリトン
- 試します
- 理解する
- つかいます
- 公益事業
- 多様
- 非常に
- 待っています
- 見ている
- we
- ウェブ
- Webサービス
- いつ
- かどうか
- which
- while
- 全体
- 意志
- 仕事
- ワーキング
- 作品
- ヤムル
- You
- あなたの
- ゼファーネット