Nvidia:未来软件只是LLM的集合

Nvidia:未来软件只是LLM的集合

Nvidia:未来的软件只是法学硕士柏拉图区块链数据智能的集合。垂直搜索。人工智能。

别介意使用大型语言模型(LLM)来帮助编写代码,Nvidia首席执行官黄仁勋相信,未来的企业软件将只是一组聊天机器人串在一起来完成任务。

“你不太可能从头开始编写它,也不太可能编写一大堆 Python 代码或类似的东西,”他在 GTC 期间在台上说道。 基调 周一。 “很有可能你组建了一支人工智能团队。”

Jensen 解释说,这个人工智能团队可能包括一个旨在分解请求并将其委托给各种其他模型的模型。其中一些模型可能经过训练来理解 SAP 或 Service Now 等业务服务,而其他模型可能会对矢量数据库中存储的数据执行数值分析。然后可以将这些数据组合起来并通过另一个模型呈现给最终用户。

“我们每天都可以收到一份报告,或者你知道,最重要的是与构建计划、某些预测、某些客户警报、某些错误数据库或其他任何情况有关,”他解释道

为了将所有这些模型链接在一起,Nvidia 借鉴了 Docker 的经验,为 AI 创建了一个容器运行时。

这些被称为 Nvidia 推理微服务(简称 NIM)的本质上是容器映像,其中包含模型(无论是开源模型还是专有模型)以及运行该模型所需的所有依赖项。然后,这些容器化模型可以跨任意数量的运行时部署,包括 Nvidia 加速的 Kubernetes 节点。

“您可以将其部署在我们称为 DGX Cloud 的基础设施上,也可以将其部署在本地,或者您可以将其部署在您喜欢的任何地方。一旦你开发了它,你就可以把它带到任何地方,”Jensen 说。

当然,您首先需要订阅 Nvidia 的 AI Enterprise 套件,该套件并不便宜,每个 GPU 每年 4,500 美元,或者云中每个 GPU 每小时 1 美元。一般来说,这种定价策略似乎会激励更密集、更高性能的系统,因为无论您是在 L40 还是在 LXNUMX 上运行,其成本都是相同的。 B100s.

如果容器化 GPU 加速工作负载的想法听起来很熟悉,那么这对于 Nvidia 来说并不是一个新想法。 CUDA加速已 支持的 多年来,Nvidia 的容器运行时一直在各种容器运行时上运行,包括 Docker、Podman、Containerd 或 CRI-O,而且看起来 Nvidia 的容器运行时不会有任何发展。

NIM 背后的价值主张似乎是 Nvidia 将负责这些模型的打包和优化,以便它们拥有正确版本的 CUDA、Triton 推理服务器或 TensorRT LLM,这是获得最佳性能所必需的。

争论的焦点是,如果 Nvidia 发布了一个可以显着提高某些模型类型的推理性能的更新,那么利用该功能只需要下载最新的 NIM 映像即可。

除了特定于硬件的模型优化之外,Nvidia 还致力于实现容器之间的一致通信,以便它们可以通过 API 调用相互聊天。

据我们了解,当今市场上各种人工智能模型使用的 API 调用并不总是一致,导致某些模型更容易组合在一起,而另一些模型可能需要额外的工作。

将机构知识借给通用模型

任何使用过人工智能聊天机器人的人都会知道,虽然它们通常能够很好地解决一般知识问题,但对于晦涩或技术性的请求,它们并不总是最可靠的。

詹森在他的主题演讲中强调了这一事实。当被问及 Nvidia 内部使用的内部程序时,Meta 的 Llama 2 70B 大语言模型毫不奇怪地提供了一个不相关术语的定义。

Nvidia 没有试图让企业训练自己的模型(这会出售大量 GPU,但会极大地限制潜在市场),而是开发了工具来根据客户数据和流程微调其 NIM。

“我们有一项名为 NeMo Microservices 的服务,可以帮助您管理数据、准备数据,以便您可以……使用这个人工智能。你对其进行微调,然后对其进行防护;然后你可以评估……它与其他示例的性能,”黄解释道。

他还谈到了 Nvidia 的 NeMo Retriever 服务,该服务基于使用检索增强生成 (RAG) 来显示模型尚未经过专门训练的信息的概念。

这里的想法是文档、流程和其他数据可以加载到连接到模型的矢量数据库中。然后,模型可以根据查询搜索数据库、检索并总结相关信息。

用于集成 RAG 的 NIM 模型和 NeMo Retriever 现已推出,而 NeMo Microservices 则处于抢先体验阶段。 ®

时间戳记:

更多来自 注册