Nvidia: 将来のソフトウェアは単なる LLM のコレクションになる

プラトン再発行

フォロワー： 0

Nvidia: 将来のソフトウェアは、LLM の PlatoBlockchain Data Intelligence のコレクションにすぎません。垂直検索。あい。

Nvidia CEO の Jensen Huang 氏は、コードの作成に大規模言語モデル (LLM) を使用することを気にする必要はなく、将来のエンタープライズソフトウェアはタスクを完了するためにつなぎ合わされた単なるチャットボットのコレクションになると考えています。

「ゼロから書いたり、大量の Python コードなどを書いたりする可能性は低いです」と彼は GTC のステージで語った。基調月曜日。「あなたが AI のチームを編成する可能性は非常に高いです。」

この AI チームには、リクエストを分解して他のさまざまなモデルに委任するように設計されたモデルが含まれる可能性があるとジェンセン氏は説明します。これらのモデルの一部は、SAP や Service Now などのビジネスサービスを理解するためにトレーニングされる場合がありますが、他のモデルはベクトルデータベースに保存されたデータに対して数値分析を実行する場合があります。このデータは結合され、さらに別のモデルによってエンドユーザーに提示されます。

「私たちは、構築計画、予測、顧客への警告、バグデータベースなど、あらゆるものに関連するレポートを毎日、または毎時入手できます。」と彼は説明しました。

これらすべてのモデルを連結するために、Nvidia は Docker の本の 1 ページを抜粋して、AI 用のコンテナーランタイムを作成しました。

Nvidia Inference Microservices (略して NIM) と呼ばれるこれらは、基本的に、オープンソースかプロプライエタリのモデルの両方と、それを実行するために必要なすべての依存関係を含むコンテナイメージです。これらのコンテナ化されたモデルは、Nvidia で高速化された Kubernetes ノードを含む、任意の数のランタイムにわたってデプロイできます。

「DGX Cloud と呼ばれる当社のインフラストラクチャにデプロイすることも、オンプレミスにデプロイすることも、好きな場所にデプロイすることもできます。一度開発すれば、どこにでも持ち運べるようになります」とジェンセン氏は語った。

もちろん、最初に Nvidia の AI Enterprise スイートのサブスクリプションが必要になりますが、これは GPU あたり年間 4,500 ドル、クラウドでは GPU あたり 1 時間あたり 40 ドルと決して安くはありません。この価格戦略は、LXNUMX で実行しているかどうかに関係なくコストが同じであるため、一般に、より高密度で高性能のシステムを奨励するように見えます。 B100s.

GPU で高速化されたワークロードをコンテナ化するというアイデアに聞き覚えがあるかもしれませんが、これは Nvidia にとってまったく新しいアイデアではありません。 CUDAアクセラレーションは、。 Docker、Podman、Containerd、CRI-O など、さまざまなコンテナランタイムで長年にわたって使用されてきましたが、Nvidia のコンテナランタイムがどこにも行くようには見えません。

NIM の背後にある価値提案は、Nvidia がこれらのモデルのパッケージ化と最適化を処理し、最高のパフォーマンスを引き出すために必要な CUDA、Triton Inference Server、または TensorRT LLM の適切なバージョンを提供することであると思われます。

Nvidia が特定のモデルタイプの推論パフォーマンスを大幅に向上させるアップデートをリリースした場合、その機能を利用するには最新の NIM イメージをプルダウンするだけで済むという議論があります。

ハードウェア固有のモデルの最適化に加えて、Nvidia はコンテナ間の一貫した通信を可能にし、API 呼び出しを介してコンテナ同士がチャットできるようにすることにも取り組んでいます。

私たちが理解しているように、今日市場にあるさまざまな AI モデルで使用される API 呼び出しは常に一貫しているわけではなく、その結果、いくつかのモデルを組み合わせる方が簡単である一方で、他のモデルは追加の作業が必要になる場合があります。

制度上の知識を汎用モデルに活用する

AI チャットボットを使用したことがある人なら、一般的な知識の質問にはかなり優れていますが、あいまいなリクエストや技術的なリクエストに関しては必ずしも最も信頼できるわけではないことをご存知でしょう。

ジェンセン氏は基調講演でこの事実を強調した。 Nvidia 内で使用されている内部プログラムについて尋ねると、当然のことながら、Meta の Llama 2 70B 大型言語モデルが無関係な用語の定義を提供しました。

Nvidia は、企業に独自のモデルをトレーニングしてもらうこと (GPU を大量に販売することになるが、対応可能な市場が大幅に制限されることになる) を試みる代わりに、顧客のデータとプロセスに合わせて NIM を微調整するツールを開発しました。

「私たちは NeMo Microservices と呼ばれるサービスを提供しています。これは、データを厳選し、この AI を搭載できるようにデータを準備するのに役立ちます。それを微調整してからガードレールを作成します。その後、他の例と比較してそのパフォーマンスを評価できます」と Huang 氏は説明しました。

彼はまた、モデルが特にトレーニングされていない情報を表面化するために検索拡張生成 (RAG) を使用するというコンセプトに基づいている Nvidia の NeMo Retriever サービスについても話しました。

ここでの考え方は、ドキュメント、プロセス、その他のデータをモデルに接続されたベクトルデータベースにロードできるということです。モデルはクエリに基づいてデータベースを検索し、関連情報を取得し、要約することができます。

RAG を統合するための NIM モデルと NeMo Retriever は現在入手可能であり、NeMo Microservices は早期アクセス中です。 ®

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://go.theregister.com/feed/www.theregister.com/2024/03/19/nvidia_why_write_code_when/

タイムスタンプ： 2024 年 3 月 19 日

タイムスタンプ： 2023 年 5 月 25 日

Nvidia: 将来、ソフトウェアは単なる LLM のコレクションになる

プラトン再発行

制度上の知識を汎用モデルに活用する

より多くの登録

Waymo は自動運転車を移動気象観測所に変える

GPT-4 がオンラインでコンテンツを自動的に管理する方法

Mozilla、MDN でエラーが発生しやすい AI Explain 機能を一時停止

アマゾンは、小包を人間より速く配達しなかった「スカウト」配達ボットの作業を停止します

イーロン・マスクは、2021年にニューラリンクの幹部と秘密の双子をもうけました

OpenAI のメルトダウンと次に何が起こるかを理解する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

制度上の知識を汎用モデルに活用する

より多くの 登録

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの登録