Nvidia: 将来、ソフトウェアは単なる LLM のコレクションになる

Nvidia: 将来、ソフトウェアは単なる LLM のコレクションになる

Nvidia: 将来のソフトウェアは、LLM の PlatoBlockchain Data Intelligence のコレクションにすぎません。垂直検索。あい。

Nvidia CEO の Jensen Huang 氏は、コードの作成に大規模言語モデル (LLM) を使用することを気にする必要はなく、将来のエンタープライズ ソフトウェアはタスクを完了するためにつなぎ合わされた単なるチャット ボットのコレクションになると考えています。

「ゼロから書いたり、大量の Python コードなどを書いたりする可能性は低いです」と彼は GTC のステージで語った。 基調 月曜日。 「あなたが AI のチームを編成する可能性は非常に高いです。」

この AI チームには、リクエストを分解して他のさまざまなモデルに委任するように設計されたモデルが含まれる可能性があるとジェンセン氏は説明します。これらのモデルの一部は、SAP や Service Now などのビジネス サービスを理解するためにトレーニングされる場合がありますが、他のモデルはベクトル データベースに保存されたデータに対して数値分析を実行する場合があります。このデータは結合され、さらに別のモデルによってエンド ユーザーに提示されます。

「私たちは、構築計画、予測、顧客への警告、バグ データベースなど、あらゆるものに関連するレポートを毎日、または毎時入手できます。」と彼は説明しました。

これらすべてのモデルを連結するために、Nvidia は Docker の本の 1 ページを抜粋して、AI 用のコンテナー ランタイムを作成しました。

Nvidia Inference Microservices (略して NIM) と呼ばれるこれらは、基本的に、オープン ソースかプロプライエタリのモデルの両方と、それを実行するために必要なすべての依存関係を含むコンテナ イメージです。これらのコンテナ化されたモデルは、Nvidia で高速化された Kubernetes ノードを含む、任意の数のランタイムにわたってデプロイできます。

「DGX Cloud と呼ばれる当社のインフラストラクチャにデプロイすることも、オンプレミスにデプロイすることも、好きな場所にデプロイすることもできます。一度開発すれば、どこにでも持ち運べるようになります」とジェンセン氏は語った。

もちろん、最初に Nvidia の AI Enterprise スイートのサブスクリプションが必要になりますが、これは GPU あたり年間 4,500 ドル、クラウドでは GPU あたり 1 時間あたり 40 ドルと決して安くはありません。この価格戦略は、LXNUMX で実行しているかどうかに関係なくコストが同じであるため、一般に、より高密度で高性能のシステムを奨励するように見えます。 B100s.

GPU で高速化されたワークロードをコンテナ化するというアイデアに聞き覚えがあるかもしれませんが、これは Nvidia にとってまったく新しいアイデアではありません。 CUDAアクセラレーションは、 Docker、Podman、Containerd、CRI-O など、さまざまなコンテナ ランタイムで長年にわたって使用されてきましたが、Nvidia のコンテナ ランタイムがどこにも行くようには見えません。

NIM の背後にある価値提案は、Nvidia がこれらのモデルのパッケージ化と最適化を処理し、最高のパフォーマンスを引き出すために必要な CUDA、Triton Inference Server、または TensorRT LLM の適切なバージョンを提供することであると思われます。

Nvidia が特定のモデル タイプの推論パフォーマンスを大幅に向上させるアップデートをリリースした場合、その機能を利用するには最新の NIM イメージをプルダウンするだけで済むという議論があります。

ハードウェア固有のモデルの最適化に加えて、Nvidia はコンテナ間の一貫した通信を可能にし、API 呼び出しを介してコンテナ同士がチャットできるようにすることにも取り組んでいます。

私たちが理解しているように、今日市場にあるさまざまな AI モデルで使用される API 呼び出しは常に一貫しているわけではなく、その結果、いくつかのモデルを組み合わせる方が簡単である一方で、他のモデルは追加の作業が必要になる場合があります。

制度上の知識を汎用モデルに活用する

AI チャットボットを使用したことがある人なら、一般的な知識の質問にはかなり優れていますが、あいまいなリクエストや技術的なリクエストに関しては必ずしも最も信頼できるわけではないことをご存知でしょう。

ジェンセン氏は基調講演でこの事実を強調した。 Nvidia 内で使用されている内部プログラムについて尋ねると、当然のことながら、Meta の Llama 2 70B 大型言語モデルが無関係な用語の定義を提供しました。

Nvidia は、企業に独自のモデルをトレーニングしてもらうこと (GPU を大量に販売することになるが、対応可能な市場が大幅に制限されることになる) を試みる代わりに、顧客のデータとプロセスに合わせて NIM を微調整するツールを開発しました。

「私たちは NeMo Microservices と呼ばれるサービスを提供しています。これは、データを厳選し、この AI を搭載できるようにデータを準備するのに役立ちます。それを微調整してからガードレールを作成します。その後、他の例と比較してそのパフォーマンスを評価できます」と Huang 氏は説明しました。

彼はまた、モデルが特にトレーニングされていない情報を表面化するために検索拡張生成 (RAG) を使用するというコンセプトに基づいている Nvidia の NeMo Retriever サービスについても話しました。

ここでの考え方は、ドキュメント、プロセス、その他のデータをモデルに接続されたベクトル データベースにロードできるということです。モデルはクエリに基づいてデータベースを検索し、関連情報を取得し、要約することができます。

RAG を統合するための NIM モデルと NeMo Retriever は現在入手可能であり、NeMo Microservices は早期アクセス中です。 ®

タイムスタンプ:

より多くの 登録