使用 Amazon SageMaker 与 NVIDIA NIM 微服务集成优化 NVIDIA GPU 上的 LLM 推理的性价比 |亚马逊网络服务

由柏拉图重新发布

关注： 0

NVIDIA公司净息差 m 微服务现在集成亚马逊SageMaker，允许您部署业界领先的大语言模型 (LLM) 并优化模型性能和成本。您可以使用以下技术在几分钟而不是几天内部署最先进的法学硕士英伟达 TensorRT, NVIDIA TensorRT-法学硕士及 NVIDIA Triton 推理服务器在 SageMaker 托管的 NVIDIA 加速实例上。

NIM 的一部分 NVIDIA 人工智能企业列出的软件平台 AWS市场是一组推理微服务，可为您的应用程序带来最先进的 LLM 的强大功能，提供自然语言处理 (NLP) 和理解功能，无论您是开发聊天机器人、总结文档还是实施其他 NLP-供电的应用程序。您可以使用预构建的 NVIDIA 容器来托管针对特定 NVIDIA GPU 优化的流行 LLM，以实现快速部署，或者使用 NIM 工具创建您自己的容器。

在这篇文章中，我们对 NIM 进行了高级介绍，并展示了如何将其与 SageMaker 结合使用。

NVIDIA NIM 简介

NIM 为各种流行的推理模型提供优化和预生成的引擎。这些微服务支持各种 Llama 2（7B、13B 和 70B）、Mistral-7B-Instruct、Mixtral-8x7B、NVIDIA Nemotron-3 22B Persona 和 Code Llama 70B，开箱即用，使用预配置构建了专为特定 NVIDIA GPU 量身定制的 NVIDIA TensorRT 引擎，以实现最大性能和利用率。这些模型使用最佳超参数进行管理，以实现模型托管性能，以便轻松部署应用程序。

如果您的模型不在 NVIDIA 精选模型集中，NIM 会提供基本实用程序，例如模型存储库生成器，它有助于通过简单的 YAML 文件创建 TensorRT-LLM 加速引擎和 NIM 格式的模型目录。此外，vLLM 的集成社区后端为可能尚未无缝集成到 TensorRT-LLM 优化堆栈中的尖端模型和新兴功能提供支持。

除了为推理创建优化的 LLM 之外，NIM 还提供先进的托管技术，例如优化的调度技术（如动态批处理），它可以将 LLM 的整个文本生成过程分解为模型的多个迭代。通过动态批处理，NIM 运行时会立即从批处理中逐出已完成的序列，而不是等待整个批处理完成后再继续处理下一组请求。然后，运行时开始运行新请求，而其他请求仍在进行中，从而充分利用您的计算实例和 GPU。

在 SageMaker 上部署 NIM

NIM 与 SageMaker 集成，使您能够托管具有性能和成本优化的 LLM，同时受益于 SageMaker 的功能。当您在 SageMaker 上使用 NIM 时，您可以使用诸如扩展托管模型的实例数量、执行蓝/绿部署以及使用影子测试评估工作负载等功能，所有这些都具有一流的可观察性和监控功能亚马逊CloudWatch.

结论

使用 NIM 部署优化的 LLM 对于性能和成本来说都是一个不错的选择。它还有助于轻松部署法学硕士。未来，NIM 还将支持参数高效微调 (PEFT) 定制方法，例如 LoRA 和 P-tuning。 NIM 还计划通过支持 Triton Inference Server、TensorRT-LLM 和 vLLM 后端来获得 LLM 支持。

我们鼓励您了解有关 NVIDIA 微服务以及如何使用 SageMaker 部署 LLM 的更多信息，并尝试为您带来的好处。 NIM 作为 NVIDIA AI Enterprise 软件订阅的一部分作为付费产品提供在 AWS Marketplace 上可用.

在不久的将来，我们将在 SageMaker 上发布 NIM 的深入指南。

关于作者

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. 詹姆斯公园 是 Amazon Web Services 的解决方案架构师。他与 Amazon.com 合作，在 AWS 上设计、构建和部署技术解决方案，并且对人工智能和机器学习特别感兴趣。在业余时间，他喜欢探索新文化、新体验，并紧跟最新的技术趋势。您可以在 LinkedIn.

索拉布·特里坎德 是 Amazon SageMaker Inference 的高级产品经理。他热衷于与客户合作，并以机器学习民主化的目标为动力。他专注于与部署复杂的 ML 应用程序、多租户 ML 模型、成本优化以及使深度学习模型的部署更易于访问相关的核心挑战。在业余时间，Saurabh 喜欢徒步旅行、学习创新技术、关注 TechCrunch 以及与家人共度时光。

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. 青岚是 AWS 的一名软件开发工程师。他一直在亚马逊开发几个具有挑战性的产品，包括高性能 ML 推理解决方案和高性能日志记录系统。清的团队以极低的延迟成功推出了亚马逊广告中的第一个十亿参数模型。青对基础设施优化和深度学习加速有深入的了解。

尼基尔·库尔卡尼 是 AWS Machine Learning 的软件开发人员，专注于提高机器学习工作负载在云上的性能，并且是用于训练和推理的 AWS Deep Learning Containers 的共同创建者。他对分布式深度学习系统充满热情。工作之余，他喜欢读书、弹吉他和做披萨。

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. 哈里什·图马拉切拉 是 SageMaker 深度学习性能团队的软件工程师。他致力于在 SageMaker 上高效服务大型语言模型的性能工程。业余时间，他喜欢跑步、骑自行车和滑雪登山。

埃利乌斯·特里亚纳·伊萨萨 是 NVIDIA 的开发人员关系经理，帮助 Amazon 的 AI MLOps、DevOps、科学家和 AWS 技术专家掌握 NVIDIA 计算堆栈，以加速和优化生成式 AI 基础模型，涵盖数据管理、GPU 训练、模型推理和 AWS GPU 实例上的生产部署。此外，Eliuth 还是一位充满热情的山地自行车手、滑雪者、网球和扑克玩家。

刘家宏 是 NVIDIA 云服务提供商团队的解决方案架构师。他帮助客户采用机器学习和人工智能解决方案，利用 NVIDIA 加速计算来解决他们的训练和推理挑战。闲暇时间，他喜欢折纸、DIY项目和打篮球。

克什蒂兹·古普塔 是 NVIDIA 的解决方案架构师。他喜欢向云客户介绍 NVIDIA 必须提供的 GPU AI 技术，并帮助他们加速机器学习和深度学习应用程序。工作之余，他喜欢跑步、远足和观赏野生动物。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

时间戳记： 2024 年 3 月 18 日

时间戳记： 2022 年 6 月 15 日

由柏拉图重新发布

使用 Amazon Transcribe、Amazon Translate 和 Amazon Polly 突破语言障碍

重塑数据体验：使用生成式 AI 和现代数据架构解锁洞察力 | 亚马逊网络服务

使用 Amazon SageMaker 和 AWS SSO 进行团队和用户管理

使用 Amazon SageMaker Data Wrangler 中的 PySpark 和 Altair 代码片段更快地准备数据

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理