Mantium 如何在 Amazon SageMaker 上通过 DeepSpeed 实现低延迟 GPT-J 推理

由柏拉图重新发布

关注： 0

曼腾是一家全球云平台提供商，用于构建 AI 应用程序并对其进行大规模管理。 Mantium 的端到端开发平台使各种规模的企业和企业能够比传统方法更快、更轻松地构建人工智能应用程序和自动化。借助 Mantium，技术和非技术团队可以使用低代码方法对 AI 应用程序进行原型设计、开发、测试和部署。通过自动日志记录、监控和安全功能，Mantium 还使软件和 DevOps 工程师免于花时间重新发明轮子。在高层次上，Mantium 提供：

最先进的人工智能 – 使用简单的 UI 或 API 使用广泛的开源和私有大型语言模型进行试验和开发。
人工智能流程自动化 – 使用不断增长的集成库和 Mantium 的图形 AI Builder 轻松构建 AI 驱动的应用程序。
快速部署 – 通过一键部署将生产时间从几个月缩短到几周甚至几天。此功能一键将 AI 应用程序转换为可共享的 Web 应用程序。
安全法规 – 确保安全并遵守治理政策，并支持人在环流程。

借助 Mantium AI Builder，您可以开发集成外部 API、逻辑操作和 AI 模型的复杂工作流程。以下屏幕截图显示了 Mantium AI 应用程序的示例，它将 Twilio 输入、治理策略、AI 块（可以依赖于 GPT-J 等开源模型）和 Twilio 输出链接在一起。

为了支持这个应用程序，Mantium 不仅提供对来自 Open AI、Co:here 和 AI21 等 AI 提供商的模型 API 的全面和统一访问，还提供最先进的开源模型。在 Mantium，我们相信任何人都应该能够构建他们拥有的端到端的现代 AI 应用程序，我们通过提供对性能优化的开源模型的无代码和低代码访问来支持这一点。

例如，Mantium 的核心开源模型之一是 GPT-J，一种最先进的自然语言处理 (NLP) 模型，由艾柳特人工智能. GPT-J 拥有 6 亿个参数，是最大、性能最好的开源文本生成模型之一。 Mantium 用户可以通过 Mantium 的 AI Builder 将 GPT-J 集成到他们的 AI 应用程序中。在 GPT-J 的情况下，这涉及指定一个提示（模型应该做什么的自然语言表示）并配置一些可选参数。

例如，以下屏幕截图显示了情绪分析提示的简短演示，该提示会产生解释和情绪预测。在这个例子中，作者写道“食物很棒”并且他们的“服务非常出色”。因此，本文表达了积极的情绪。

然而，开源模型面临的一个挑战是它们很少为生产级性能而设计。对于像 GPT-J 这样的大型模型，这可能会使生产部署变得不切实际，甚至不可行，具体取决于用例。

为了确保我们的用户能够获得一流的性能，我们一直在寻找减少核心模型延迟的方法。在这篇文章中，我们描述了一个推理优化实验的结果，其中我们使用 DeepSpeed 的推理引擎将 GPT-J 的推理速度提高了大约 116%。我们还描述了我们如何在我们的亚马逊SageMaker 推理端点。

GPT-J 模型概述

GPT-J 是一种生成式预训练 (GPT) 语言模型，就其架构而言，它可与 Open AI 的 GPT-3 等流行的私有大型语言模型相媲美。如前所述，它由大约 6 亿个参数和 28 层组成，其中包括一个前馈块和一个自注意力块。首次发布时，GPT-J 是最早使用的大型语言模型之一旋转嵌入，一种新的位置编码策略，统一了绝对和相对位置编码器。它还采用了创新的并行化策略，将密集层和前馈层组合在一个层中，从而最大限度地减少通信开销。

尽管按照今天的标准，GPT-J 可能还不够大（大型模型通常包含超过 100 亿个参数），但它仍然具有令人印象深刻的性能，并且通过一些快速的工程或最小的微调，您可以使用它来解决许多问题。此外，它相对适中的尺寸意味着您可以比更大的模型更快地部署它，而且成本要低得多。

也就是说，GPT-J 仍然很大。例如，在 FP32 中使用完全权重更新和 Adam 优化器训练 GPT-J 需要超过 200 GB 内存：24 GB 用于模型参数，24 GB 用于梯度，24 GB 用于 Adam 平方梯度，24 GB 用于优化器状态，以及加载训练批次和存储激活的额外内存需求。当然，FP16 中的训练将这些内存需求几乎减少了一半，但是超过 100 GB 的内存占用仍然需要创新的训练策略。例如，Mantium 的 NLP 团队与 SageMaker 合作开发了一个工作流程使用 SageMaker 分布式模型并行库训练（微调）GPT-J。

相比之下，为 GPT-J 提供推理所需的内存要低得多——在 FP16 中，模型权重占用不到 13 GB，这意味着可以轻松地在单个 16 GB GPU 上进行推理。但是，使用 GPT-J 的开箱即用实现进行推断，例如 Hugging Face Transformers 履行我们使用的，相对较慢。为了支持需要高响应文本生成的用例，我们专注于减少 GPT-J 的推理延迟。

GPT-J 的响应延迟挑战

响应延迟是为现代文本生成提供动力的 GPT-J 等生成预训练转换器 (GPT) 的核心障碍。 GPT 模型通过一系列推理步骤生成文本。在每个推理步骤中，模型都被输入文本作为输入，并且，根据这个输入，它从词汇表中采样一个单词以附加到文本中。例如，给定标记序列“我需要一把雨伞，因为它是”，下一个标记很有可能是“下雨”。然而，它也可以是“sunny”或“bound”，这可能是向“I need an weapon because it's bound to start raining”之类的文本序列迈出的第一步。

像这样的场景对部署 GPT 模型提出了一些有趣的挑战，因为现实世界的用例可能涉及数十、数百甚至数千个推理步骤。例如，生成 1,000 个令牌的响应需要 1,000 个推理步骤！因此，尽管一个模型可能会提供单独看来足够快的推理速度，但当生成长文本时，延迟很容易达到难以维持的水平。我们观察到 V280 GPU 上每个推理步骤的平均延迟为 100 毫秒。对于一个 6.7 亿参数的模型来说，这可能看起来很快，但在这样的延迟下，生成 30 个令牌的响应大约需要 500 秒，从用户体验的角度来看，这并不理想。

使用 DeepSpeed 推理优化推理速度

极速是微软开发的开源深度学习优化库。虽然它主要专注于优化训练大型模型，但 DeepSpeed 还提供了一个推理优化框架，支持一组精选模型，包括 BERT、Megatron、GPT-Neo、GPT2 和 GPT-J。 DeepSpeed Inference 通过模型并行性、推理优化的 CUDA 内核和量化的组合，促进了基于大型 Transformer 架构的高性能推理。

为了提高 GPT-J 的推理速度，我们使用 DeepSpeed 的推理引擎将优化的 CUDA 内核注入到 Hugging Face Transformers GPT-J 实现中。

为了评估 DeepSpeed 推理引擎的速度优势，我们进行了一系列延迟测试，我们在各种配置下对 GPT-J 进行计时。具体来说，我们改变了是否使用 DeepSpeed、硬件、输出序列长度和输入序列长度。我们关注输出和输入序列长度，因为它们都会影响推理速度。要生成 50 个标记的输出序列，模型必须执行 50 个推理步骤。此外，执行推理步骤所需的时间取决于输入序列的大小——较大的输入需要更多的处理时间。尽管输出序列大小的影响远大于输入序列大小的影响，但仍然需要考虑这两个因素。

在我们的实验中，我们使用了以下设计：

DeepSpeed 推理引擎 - 开关
硬件 – T4 (ml.g4dn.2xlarge)、V100 (ml.p3.2xlarge)
输入序列长度 – 50、200、500、1000
输出序列长度 – 50、100、150、200

总的来说，这个设计有这四个因素的 64 种组合，对于每种组合，我们进行了 20 次延迟测试。每个测试都在预先初始化的 SageMaker 推理端点上运行，确保我们的延迟测试反映生产时间，包括 API 交换和预处理。

我们的测试表明，DeepSpeed 的 GPT-J 推理引擎比基线 Hugging Face Transformers PyTorch 实现要快得多。下图说明了 GPT-J 在 ml.g4dn.2xlarge 和 ml.p3.2xlarge SageMaker 推理端点上使用和不使用 DeepSpeed 加速的平均文本生成延迟。

在配备 4 GB NVIDIA T2 GPU 的 ml.g16dn.4xlarge 实例上，我们观察到平均延迟减少了大约 24% [标准偏差 (SD) = 0.05]。这对应于从平均每秒 12.5 (SD = 0.91) 个令牌增加到平均每秒 16.5 (SD = 2.13) 个令牌。值得注意的是，在配备 NVIDIA V3.2 GPU 的 ml.p100xlarge 实例上，DeepSpeed 的加速效果更加强劲。在该硬件上，我们观察到平均延迟减少了 53% (SD = .07)。就每秒令牌而言，这相当于从平均每秒 21.9 (SD = 1.97) 个令牌增加到平均每秒 47.5 (SD = 5.8) 个令牌。

我们还观察到，随着输入序列大小的增加，DeepSpeed 提供的加速在两种硬件配置上都略有衰减。然而，在所有条件下，使用 DeepSpeed 的 GPT-J 优化的推理仍然比基线快得多。例如，在 g4dn 实例上，最大和最小延迟减少分别为 31%（输入序列大小 = 50）和 15%（输入序列大小 = 1000）。在 p3 实例上，最大和最小延迟减少分别为 62%（输入序列大小 = 50）和 40%（输入序列大小 = 1000）。

在 SageMaker 推理端点上使用 DeepSpeed 部署 GPT-J

除了显着提高 GPT-J 的文本生成速度外，DeepSpeed 的推理引擎还易于集成到 SageMaker 推理端点中。在将 DeepSpeed 添加到我们的推理堆栈之前，我们的端点在基于官方 PyTorch 映像的自定义 Docker 映像上运行。 SageMaker 使部署自定义推理端点变得非常容易，集成 DeepSpeed 就像包含依赖项和编写几行代码一样简单。使用 DeepSpeed 部署 GPT-J 的部署工作流程的开源指南可在 GitHub上.

结论

Mantium 致力于引领创新，让每个人都可以使用 AI 快速构建。从人工智能驱动的流程自动化到严格的安全和合规设置，我们的完整平台提供了大规模开发和管理强大、负责任的人工智能应用程序所需的所有工具，并降低了进入门槛。 SageMaker 帮助像 Mantium 这样的公司快速进入市场。

要了解 Mantium 如何帮助您为您的组织构建复杂的 AI 驱动的工作流程，请访问 www.mantiumai.com.

关于作者

乔·胡佛 是 Mantium 人工智能研发团队的高级应用科学家。他热衷于开发模型、方法和基础设施，帮助人们使用尖端 NLP 系统解决现实问题。在业余时间，他喜欢背包旅行、园艺、烹饪以及与家人一起出去玩。

达瓦尔·帕特尔 是 AWS 的首席机器学习架构师。他曾与从大型企业到中型初创公司的组织合作，解决与分布式计算和人工智能相关的问题。他专注于深度学习，包括 NLP 和计算机视觉领域。他帮助客户在 SageMaker 上实现高性能模型推理。

苏尼尔·帕德马纳班 是 AWS 的启动解决方案架构师。作为前创业公司创始人和首席技术官，他对机器学习充满热情，专注于帮助初创公司利用 AI/ML 实现业务成果，并大规模设计和部署 ML/AI 解决方案。

时间戳记： 2022 年 6 月 15 日

时间戳记： 2024 年 2 月 6 日

Mantium 如何在 Amazon SageMaker 上使用 DeepSpeed 实现低延迟 GPT-J 推理

由柏拉图重新发布

GPT-J 模型概述

GPT-J 的响应延迟挑战

使用 DeepSpeed 推理优化推理速度

在 SageMaker 推理端点上使用 DeepSpeed 部署 GPT-J

结论

关于作者

更多来自 AWS机器学习

介绍 Fortuna：不确定性量化库

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理