インタビュー Nvidia の GPU テクノロジ カンファレンスは先週閉幕し、同社の Blackwell チップと大いに騒がれている AI の驚異、そしてそれが意味するすべての高価な GPU ハードウェアについての情報をもたらしました。
機械学習モデルによって実現される自動化によって、多くの創造的な取り組みが改善とは言わないまでも、より迅速に行えるという考えに基づいて、同社の株価が記録的な高値を更新しているという話題が社内で広まっている。
それはまだ市場でテストされています。
かつてジョージ・サンタヤナ 書いた:「過去を思い出せない者は、それを繰り返す運命にある。」よく繰り返される言葉です。しかし、過去のことを思い出しても、AI モデルが特別なものになるわけではありません。彼らは過去を思い出すことができますが、それでも要求に応じて、時には間違ってそれを繰り返すことを非難されています。
それでも、多くの人、特に AI ハードウェアやクラウド サービスを販売する企業は全能の AI を信頼しています。 とりわけ、NVIDIA はそれに大きな賭けをしています。 そう 登録 GPU カンファレンスを少し訪れて、大騒ぎの内容を確認しました。それは確かに、木曜日に展示ホールで提供されたレモンバーに関するものではなく、その多くは展示会場のゴミ箱に未完成のまま新規公開を終了した。
会話のほうがはるかに魅力的でした 登録 Nvidia の AI および HPC ソフトウェア開発キットの製品管理担当副社長、Kari Briski と対談しました。彼女は、会社の基盤モデル、ライブラリ、SDK、そして新たに発表されたようなトレーニングと推論を扱うマイクロサービスのソフトウェア製品管理を率いています。 NIM マイクロサービスとより確立されたサービス ニモ 導入フレームワーク。
登録: 企業はクラウドやオンプレミスでこれらのマイクロサービスをどのように利用するのでしょうか?
ブリスキー: 実際、それが私たちが NIM を構築した理由の美しさです。 「NIM」というのはちょっと面白いですね。しかし、私たちはずっと前にこの旅を始めました。私は推論を始めたときからずっと推論に取り組んできました。1.0 年に始めたのは TensorRT 2016 だったと思います。
長年にわたり、私たちは推論スタックを拡大し、コンピューター ビジョンやディープ レコメンダー システムと音声、自動音声認識と音声合成、そして現在では大規模な言語モデルに至るまで、あらゆる種類のワークロードについてさらに学習してきました。これは本当に開発者に焦点を当てたスタックです。そして今、企業は OpenAI と ChatGPT を [見た] ため、これらの大規模な言語モデルを企業データの隣または企業アプリケーション内で実行する必要性を理解しています。
平均的なクラウド サービス プロバイダーは、マネージド サービスのために、推論や最適化技術に取り組む何百人ものエンジニアを抱えています。企業にはそれができません。彼らは価値実現までの時間をただちに把握する必要があります。そのため、私たちは TensorRT、大規模言語モデル、Triton Inference Server、標準 API、ヘルス チェックで長年にわたって学んだすべてをカプセル化しました。 [アイデアは] これらすべてをカプセル化して、5 分以内にゼロから大規模な言語モデルのエンドポイントに到達できるようにすることです。
[オンプレミスとクラウド データセンターに関して]、当社の顧客の多くはハイブリッド クラウドです。彼らはコンピューティングを好みます。そのため、データをマネージド サービスに送信する代わりに、データの近くでマイクロサービスを実行し、必要な場所で実行できます。
登録: Nvidia の AI 用ソフトウェア スタックは、プログラミング言語の観点からどのようなものですか?やはり主に CUDA、Python、C、C++ でしょうか?さらなるスピードと効率性を求めて他を探していますか?
ブリスキー: 私たちは常に開発者が使用している場所を調査しています。それが常に私たちの鍵でした。そのため、Nvidia に入社して以来、私は高速化された数学ライブラリに取り組んできました。まず、並列処理を実現するには CUDA でプログラムする必要がありました。そして、C API がありました。 Python API もありました。つまり、開発者がどこにいてもプラットフォームを利用できるということです。現時点では、開発者は、curl コマンドや Python コマンドなどの非常に単純な API エンドポイントをヒットしたいだけです。したがって、それは非常にシンプルでなければなりません。なぜなら、今日私たちが開発者と会うのはそういう場所だからです。
登録: GPU 計算を効率化する上で、CUDA が大きな役割を果たしているのは明らかです。 Nvidia は CUDA を進化させるために何をしていますか?
ブリスキー: CUDA はすべての GPU の基盤です。これは、CUDA 対応の CUDA プログラム可能な GPU です。数年前、これらのドメイン固有言語があったため、私たちはそれを CUDA-X と呼んでいました。したがって、医療画像処理[アプリケーション]をお持ちであれば、 クシム。自動音声認識機能がある場合は、その最後に CUDA 加速ビーム検索デコーダがあります。したがって、CUDA によって高速化されたさまざまな種類のワークロードごとに、これらすべての固有の機能が存在します。私たちは長年にわたってこれらすべての専門ライブラリを構築してきました。 CUDF および cuML、そして、あれこれ。これらすべての CUDA ライブラリは、私たちが長年にわたって構築してきたものの基礎であり、現在はその上に構築しているところです。
登録: Nvidia は、ソフトウェアとハードウェアの設計方法の観点から、コストをどのように考慮していますか? Nvidia AI Enterprise のようなものでは、GPU あたり毎年 4,500 ドルかかり、これはかなりの金額です。
ブリスキー: まず、中小企業の場合、私たちは常に インセプション プログラム。私たちは常に顧客と協力しています – 90 日間の無料トライアル、それはあなたにとって本当に価値がありますか?本当にそれだけの価値があるのでしょうか?そして、購入時のコストを削減するために、当社は常にソフトウェアを最適化しています。つまり、ライセンスごとに GPU あたり年間 4,500 ドルを購入し、A100 で実行し、明日 H100 で実行する場合、価格は同じになります。コストは [スループットと比較して] 下がります。そのため、私たちは常にこれらの最適化と総所有コストとパフォーマンスをソフトウェアに組み込んでいます。
トレーニングと推論の両方について考えると、トレーニングにはもう少し時間がかかりますが、これらの自動コンフィギュレーターを使用して「どれだけのデータがあるか?」と言うことができます。どれくらいのコンピューティングが必要ですか?どれくらいかかりますか?」したがって、コンピューティングのフットプリントは小さくなりますが、モデルのトレーニングに時間がかかる可能性があります。1 週間でトレーニングしたいですか?それとも1日でトレーニングしますか?したがって、これらのトレードオフを行うことができます。
登録: 現在の問題に関して、特に解決したいことや、克服したい技術的な課題はありますか?
ブリスキー: 現時点ではイベント駆動型です RAG [これは、外部ソースから取得したデータで AI モデルを強化する方法です]。多くの企業は、答えを生成するための古典的なプロンプトだけを考えています。しかし、実際に私たちがやりたいのは、これらの検索拡張された生成システムをすべて [連鎖] することです。なぜなら、自分のこと、そして自分がやり遂げたいタスクのことを考えたとき、次のようになります。「ああ、データベース チームに相談しなければなりません。そして、データベース チームは Tableau チームと話し合う必要があります。ダッシュボードを作ってもらう必要があるのですが、実際にタスクを完了する前に、これらすべての作業が行われる必要があります。これは一種のイベント駆動型 RAG です。 RAG が RAG と会話しているとは言いませんが、本質的には、エージェントが外出して多くの作業を実行し、戻ってくるということです。そして私たちはその頂点に立っています。したがって、2024 年にそれが実現することを本当に楽しみにしていると思います。
登録: Nvidia は独自の AI をドッグフーディングしていますか? AI が社内で役立つと感じたことはありますか?
ブリスキー: 実際、私たちは出発し、昨年、2023 年は探検の年だったので、私が見つけた Nvidia 社内には 150 のチームがありました – もっとたくさんあった可能性があります – そして私たちは、私たちのツールをどのように使用しているか、どのようなものかを言おうとしていましたさまざまなユースケースを検討し、千の花のように学んだことすべてを組み合わせ始め、すべての学んだことをベスト プラクティスとして XNUMX つのリポジトリにまとめました。それは実際に私たちが呼んでいるものとしてリリースしたものです 生成型 AI の例 すべてのベスト プラクティスを 1 か所に集めたかっただけなので、GitHub にあります。
それが私たちが構造的にやったことのようなものです。しかし、明確な例として、私たちはこの本当に素晴らしい論文を書いたと思います。 チップニモ、そして実際には、それはすべて当社の EDA、VLSI 設計チーム、そして彼らが基礎モデルをどのように取得し、当社独自のデータに基づいてトレーニングしたのかに関するものです。当社は VLSI 用に独自のコーディング言語を持っています。そこで彼らは、当社独自の言語を生成できるように、そして当社の VLSI 設計チップのコード作成をよく知らない新しいエンジニアの生産性を支援するために、コパイロット (オープン ソース コード生成モデル) をコーディングしていました。
そしてそれはすべての顧客の共感を呼びました。 SAP に話を聞いてみると、SAP はデータベースに対する独自の SQL のような ABAP (Advanced Business Application Programming) を持っています。そして私は、異なる独自言語を使用する他の 3 人の顧客と話をしました。SQL にも数百もの方言があります。したがって、コード生成を実行できることは、RAG によってすぐに解決できるユースケースではありません。はい、RAG はドキュメントや一部のコード スニペットの取得に役立ちますが、その言語でトークンを生成するようにトレーニングされていない限り、単にコードを作成することはできません。
登録: 大規模な言語モデルと、それらがアプリケーションと連鎖する方法を見るとき、発生する可能性のある遅延とそれに対処する方法について考えていますか?単に決定木をハードコーディングする方が合理的だと思われる場合はありますか?
ブリスキー: その通りです。特定の質問やプロンプトをするとき、たとえ 1 つの質問であっても、すでに 5 つまたは 7 つのモデルが開始されている可能性があるため、プロンプトの書き換え、ガードレール、取得、および再ランキングを取得できます。それから発電機。これが、NIM が非常に重要である理由です。なぜなら、待ち時間を最適化しているからです。
特定のタスクのセットに適した小規模な言語モデルである SLM があり、最終的にはより大きな精度を得るためにより大きなモデルが必要になる場合があるため、基礎モデルのさまざまなバージョンを提供する理由もそこにあります。しかし、レイテンシ ウィンドウに収まるようにすべてを連鎖させることは、多くのハイパースケール サービスやマネージド サービスについて、私たちが長年にわたって解決してきた問題です。彼らにはこのような待ち時間があり、質問したり検索を行ったりすると、実際には何度も質問が表示されなくなります。そのため、「応答全体の小さな部分ごとのレイテンシ ウィンドウはどれくらいか?」という多くの競合状態が発生しています。はい、私たちは常にそれを観察しています。
ハードコーディングについてのあなたの指摘については、今日、ある顧客とそれについて話したところです。私たちはハードコーディングをはるかに超えています…ダイアログマネージャーを使用して、if-then-elseを使用することもできます。 [しかし]何千ものルールを管理するのは本当に不可能です。それが、私たちがガードレールのようなものが好きな理由です。ガードレールは、古典的なダイアログ マネージャーの一種の代替品であるからです。 「野球について話すな、ソフトボールについて話すな、サッカーについて話すな」と言ってそれらを列挙する代わりに、「スポーツについて話すな」と言うだけで済みます。そして、LLM はスポーツとは何かを理解します。時間が節約され、後でそのコードを管理できるようになるので、非常に優れています。 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2024/03/26/nvdiai_kari_briski_interview/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 150
- 2016
- 2023
- 2024
- 500
- 7
- a
- できる
- 私たちについて
- 加速された
- 精度
- 実際に
- 進める
- 高度な
- エージェント
- 前
- AI
- AIモデル
- すべて
- 既に
- また
- 常に
- 間で
- an
- および
- 発表の
- 回答
- 何でも
- 離れて
- API
- API
- 申し込み
- です
- 周りに
- AS
- 頼む
- At
- オート
- オートマチック
- オートメーション
- 平均
- 離れて
- バック
- バー
- 野球
- ベース
- BE
- ビーム
- 美容
- なぜなら
- き
- さ
- BEST
- ベストプラクティス
- より良いです
- 賭け
- 越えて
- ビッグ
- ビン
- ビット
- 両言語で
- 持参
- 建物
- 内蔵
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- 購入
- 買収
- by
- C + +
- コール
- 呼ばれます
- 缶
- 取得することができます
- 場合
- 例
- 確かに
- チェーン
- 鎖の
- 挑戦する
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- 小切手
- チップ
- チップ
- 閉じる
- クラウド
- クラウドサービス
- CO
- コード
- コーディング
- 組み合わせる
- 組み合わせた
- 到来
- 企業
- 会社
- コンプリート
- 計算
- 計算
- コンピュータ
- Computer Vision
- 終了する
- 死刑囚
- 条件
- 講演
- かなりの
- 検討事項
- 消費する
- 会話
- 費用
- コスト
- 可能性
- クリエイティブ
- 電流プローブ
- カスプ
- 顧客
- Customers
- ダッシュボード
- データ
- データベース
- データセンター
- 中
- 取引
- 決定
- 深いです
- 需要
- 展開
- 設計
- デザイン
- 開発者
- 開発
- 対話
- DID
- 異なります
- do
- ドキュメント
- ありません
- すること
- ドン
- 行われ
- ダウン
- 各
- 効果的な
- 効率
- 他の場所で
- 使用可能
- カプセル化
- end
- 努力
- 終わった
- エンドポイント
- 魅力的
- エンジニア
- Enterprise
- 企業
- 本質的に
- 設立
- さらに
- EVER
- あらゆる
- すべてのもの
- 例
- 興奮した
- 展示
- 探査
- 探る
- 外部
- 農業
- 速いです
- フェッチ
- 少数の
- 名
- フィット
- 五
- 床
- サッカー
- フットプリント
- 発見
- Foundation
- フレームワーク
- 無料版
- から
- おかしいです
- 生成する
- 世代
- 生々しい
- ジェネレータ
- 取得する
- GitHubの
- Go
- 行く
- 行って
- だ
- GPU
- GPU
- 素晴らしい
- 大きい
- 成長
- グーテンベルク
- 持っていました
- ホール
- 起こる
- Hardware
- 持ってる
- 頭
- 健康
- 助けます
- ことができます
- 高値
- ヒット
- 認定条件
- How To
- hpc
- HPCソフトウェア
- HTTPS
- 巨大な
- 何百
- ハイブリッド
- i
- アイデア
- if
- イメージング
- 直ちに
- 重要
- 不可能
- in
- 間違って
- 初期
- を取得する必要がある者
- 内部で
- インタビュー
- に
- 紹介する
- IT
- ITS
- 旅
- JPG
- ただ
- キー
- 種類
- 知っている
- 知っている
- ラベル
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 主として
- より大きい
- 姓
- 昨年
- レイテンシ
- 後で
- 学んだ
- 学習
- ライブラリ
- ライセンス
- ような
- リスト
- 少し
- LLM
- 長い
- 長い時間
- より長いです
- 見て
- のように見える
- 探して
- たくさん
- 機械
- 機械学習
- 製
- make
- 作成
- 管理します
- マネージド
- 管理
- マネージャー
- 管理する
- 多くの
- 市場
- math
- 五月..
- me
- 医療の
- ご相談
- マイクロサービス
- マイクロサービス
- かもしれない
- 分
- モデル
- 他には?
- ずっと
- の試合に
- my
- 必要
- 新作
- 新しく
- 次の
- 概念
- 今
- Nvidia
- of
- オフ
- 提供
- 提供すること
- 頻繁に
- oh
- on
- かつて
- ONE
- 開いた
- オープンソース
- OpenAI
- 最適化
- 最適化
- 最適化
- 最適化
- or
- その他
- その他
- 私たちの
- でる
- が
- 克服する
- 自分の
- 所有権
- 紙素材
- 部
- 特定の
- 特に
- 過去
- 以下のために
- パフォーマンス
- 実行
- 場所
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 演劇
- ポイント
- プラクティス
- 優先
- 社長
- ブランド
- 問題
- 問題
- プロダクト
- 製品管理
- 生産性
- 演奏曲目
- プログラミング
- プログラミング言語
- 所有権
- プロバイダー
- 公共
- 購入した
- Python
- 質問
- 非常に
- レース
- ぼろ
- RE
- 本当に
- 認識
- 記録
- 縮小
- 見なす
- 相対
- リリース
- 覚えています
- 繰り返す
- 繰り返される
- 置換
- 表す
- 共鳴した
- 応答
- 書き換え
- 右
- 職種
- ルール
- ラン
- ランニング
- s
- 同じ
- 樹液
- 貯蓄
- 言う
- 格言
- SDK
- を検索
- 見ること
- と思われる
- 見て
- 販売
- 送信
- センス
- サービスを提供
- サービス
- サービスプロバイダー
- サービス
- セッションに
- セブン
- 彼女
- 表示する
- フロアを表示
- 同様の
- 簡単な拡張で
- 単に
- から
- 小さい
- より小さい
- So
- ソフトウェア
- ソフトウェア開発
- 解決する
- 解決
- 一部
- 何か
- ソース
- ソースコード
- 専門の
- 特定の
- スピーチ
- 音声認識
- スピード
- スポーツ
- スポーツ
- スタック
- 標準
- 開始
- 起動
- まだ
- 株式
- スーパー
- 合成
- システム
- タブロー
- 取る
- 取得
- Talk
- 会話
- 仕事
- タスク
- チーム
- チーム
- 技術的
- テクニック
- テクノロジー
- 条件
- テスト
- それ
- バズ
- アプリ環境に合わせて
- それら
- その後
- そこ。
- ボーマン
- 彼ら
- 物事
- 考える
- 考え
- この
- それらの
- 千
- 数千
- 三
- スループット
- 木曜日
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 今日
- 一緒に
- トークン
- 明日
- 取った
- 豊富なツール群
- top
- トータル
- トレード
- トレーニング
- 訓練された
- トレーニング
- ツリー
- トライアル
- トリトン
- しよう
- type
- 下
- わかる
- ない限り、
- つかいます
- 使用事例
- 便利
- 貴重な
- Ve
- バージョン
- 対
- バイス
- 副会長
- ビジョン
- 訪問
- 欲しいです
- wanted
- ました
- 仕方..
- we
- 週間
- 行ってきました
- した
- この試験は
- 何ですか
- いつ
- どこにでも
- which
- 誰
- なぜ
- ウィンドウを使用して入力ファイルを追加します。
- ウィンドウズ
- 以内
- Word
- 仕事
- 働いていました
- ワーキング
- 価値
- でしょう
- とんでもない
- 書き込み
- 書いた
- 年
- 年
- はい
- まだ
- You
- あなたの
- ゼファーネット
- ゼロ