使用 AWS Graviton 降低 Amazon SageMaker 推理成本

由柏拉图重新发布

关注： 0

亚马逊SageMaker 提供广泛的机器学习 (ML) 基础架构和模型部署选项，以帮助满足您的 ML 推理需求。它是一项完全托管的服务，并与 MLOps 工具集成，因此您可以扩展模型部署、降低推理成本、在生产中更有效地管理模型并减轻运营负担。 SageMaker 提供多种推理选项因此您可以选择最适合您工作量的选项。

由于专门的内置指令，新一代 CPU 在 ML 推理方面提供了显着的性能改进。在这篇文章中，我们重点介绍如何利用 AWS Graviton3基于 Amazon Elastic Compute Cloud (EC2) C7g实例与同类 EC50 实例相比，有助于将推理成本降低高达 2% 实时推理在亚马逊 SageMaker 上。我们展示了如何通过几个步骤评估推理性能并将您的 ML 工作负载切换到 AWS Graviton 实例。

为了涵盖流行和广泛的客户应用程序，在这篇文章中，我们讨论了 PyTorch、TensorFlow、XGBoost 和 scikit-learn 框架的推理性能。我们涵盖了模型的计算机视觉 (CV)、自然语言处理 (NLP)、分类和排名场景，以及用于基准测试的 ml.c6g、ml.c7g、ml.c5 和 ml.c6i SageMaker 实例。

基准测试结果

AWS 测得，与 Amazon SageMaker 上的可比 EC50 实例相比，使用基于 AWS Graviton3 的 EC2 C7g 实例进行 PyTorch、TensorFlow、XGBoost 和 scikit-learn 模型推理可节省高达 2% 的成本。同时，推理的延迟也降低了。

为了比较，我们使用了四种不同的实例类型：

所有四个实例都有 16 个 vCPU 和 32 GiB 内存。

在下图中，我们测量了四种实例类型的每百万推理成本。我们进一步将每百万推理结果的成本标准化为 c5.4xlarge 实例，在图表的 Y 轴上测量为 1。您可以看到，对于 XGBoost 模型，c7g.4xlarge (AWS Graviton3) 的每百万推理成本约为 c50xlarge 的 5.4% 和 c40i.6xlarge 的 4%；对于 PyTorch NLP 模型，与 c30 和 c50i.5xlarge 实例相比，成本节省约为 6-4%。对于其他模型和框架，我们测得与 c30 和 c5i.6xlarge 实例相比至少节省了 4% 的成本。

使用 AWS Graviton PlatoBlockchain 数据智能降低 Amazon SageMaker 推理成本。垂直搜索。哎呀。

与前面的推理成本比较图类似，下图显示了相同四种实例类型的模型 p90 延迟。我们进一步将延迟结果标准化为 c5.4xlarge 实例，在图表的 Y 轴上测量为 1。 c7g.4xlarge (AWS Graviton3) 模型推理延迟比在 c50xlarge 和 c5.4i.6xlarge 上测得的延迟高 4%。

使用 AWS Graviton PlatoBlockchain 数据智能降低 Amazon SageMaker 推理成本。垂直搜索。哎呀。

迁移到 AWS Graviton 实例

要将模型部署到 AWS Graviton 实例，您可以使用 AWS深度学习容器（DLC）或自带容器与 ARMv8.2 架构兼容。

将模型迁移（或新部署）到 AWS Graviton 实例非常简单，因为 AWS 不仅提供容器来托管带有 PyTorch、TensorFlow、scikit-learn 和 XGBoost 的模型，而且这些模型在架构上也是不可知的。您也可以自带库，但请确保您的容器是使用支持 ARMv8.2 架构的环境构建的。有关详细信息，请参阅构建自己的算法容器.

您需要完成三个步骤才能部署您的模型：

创建 SageMaker 模型。除其他参数外，这将包含有关模型文件位置的信息、将用于部署的容器以及推理脚本的位置。（如果您已经在计算优化推理实例中部署了现有模型，则可以跳过此步骤。）
创建端点配置。这将包含有关端点所需实例类型的信息（例如，AWS Graviton7 的 ml.c3g.xlarge）、您在上一步中创建的模型的名称以及每个端点的实例数。
使用在上一步中创建的端点配置启动端点。

有关详细说明，请参阅使用 Amazon SageMaker 在基于 AWS Graviton 的实例上运行机器学习推理工作负载

基准方法

我们用了 Amazon SageMaker 推理推荐器跨不同实例自动化性能基准测试。此服务会比较您的 ML 模型在不同实例上的延迟和成本方面的性能，并推荐能够以最低成本提供最佳性能的实例和配置。我们使用 Inference Recommender 收集了上述性能数据。有关详细信息，请参阅 GitHub回购.

您可以使用样本笔记本运行基准测试并重现结果。我们使用以下模型进行基准测试：

结论

AWS 测得，与 Amazon SageMaker 上的可比 EC50 实例相比，使用基于 AWS Graviton3 的 EC2 C7g 实例进行 PyTorch、TensorFlow、XGBoost 和 scikit-learn 模型推理可节省高达 2% 的成本。您可以按照本文中提供的步骤迁移现有推理用例或在 AWS Graviton 上部署新的 ML 模型。您也可以参考 AWS Graviton 技术指南，其中提供了优化库列表和最佳实践，可帮助您使用 AWS Graviton 实例跨不同工作负载实现成本效益。

如果您发现在 AWS Graviton 上没有观察到类似性能提升的用例，请联系我们。我们将继续添加更多性能改进，使 AWS Graviton 成为最具成本效益和最高效的 ML 推理通用处理器。

关于作者

使用 AWS Graviton PlatoBlockchain 数据智能降低 Amazon SageMaker 推理成本。垂直搜索。哎呀。 苏妮塔·纳达帕利 是 AWS 的软件开发经理。她领导机器学习、高性能计算和多媒体工作负载的 Graviton 软件性能优化。她热衷于开源开发和使用 Arm SoC 提供具有成本效益的软件解决方案。

使用 AWS Graviton PlatoBlockchain 数据智能降低 Amazon SageMaker 推理成本。垂直搜索。哎呀。 杰明·德赛 是 Amazon SageMaker 推理团队的一名软件开发工程师。他热衷于将 AI 推向大众，并通过将最先进的 AI 资产产品化为功能和服务来提高它们的可用性。在空闲时间，他喜欢探索音乐和旅行。

使用 AWS Graviton PlatoBlockchain 数据智能降低 Amazon SageMaker 推理成本。垂直搜索。哎呀。 迈克·施耐德 是亚利桑那州凤凰城的一名系统开发人员。他是 Deep Learning container 的成员，支持各种 Framework 容器镜像，包括 Graviton Inference。他致力于基础设施的效率和稳定性。

莫汉甘地 是 AWS 的高级软件工程师。在过去的 10 年里，他一直在 AWS 工作，并从事过各种 AWS 服务，例如 EMR、EFA 和 RDS。目前，他专注于改进 SageMaker 推理体验。在业余时间，他喜欢远足和马拉松。

使用 AWS Graviton PlatoBlockchain 数据智能降低 Amazon SageMaker 推理成本。垂直搜索。哎呀。 李庆伟 是Amazon Web Services的机器学习专家。他获得了博士学位。在他打破了顾问的研究补助金帐户并未能兑现他所承诺的诺贝尔奖之后，他在运筹学获得了博士学位。目前，他帮助金融服务和保险行业的客户在AWS上构建机器学习解决方案。在业余时间，他喜欢阅读和教学。

韦恩杜 是 AWS Graviton 的专家解决方案架构师。他专注于帮助客户采用 ARM 架构来处理大规模容器工作负载。在加入 AWS 之前，Wayne 曾在多家大型软件供应商工作，包括 IBM 和 Red Hat。

劳伦·穆伦内克斯 是科罗拉多州丹佛市的一名解决方案架构师。她与客户合作，帮助他们在 AWS 上构建解决方案。在业余时间，她喜欢远足和烹饪夏威夷美食。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图爱流。 Web3 数据智能。知识放大。访问这里。
与 Adryenn Ashley 一起铸造未来。访问这里。
使用 PREIPO® 买卖 PRE-IPO 公司的股票。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/reduce-amazon-sagemaker-inference-cost-with-aws-graviton/

时间戳记： 2023 年 5 月 10 日

时间戳记： 2022 年 12 月 8 日

使用 AWS Graviton 降低 Amazon SageMaker 推理成本

由柏拉图重新发布

基准测试结果

迁移到 AWS Graviton 实例

基准方法

结论

关于作者

更多来自 AWS机器学习

使用 Amazon SageMaker Automatic Model Tuning 优化超参数

使用 Amazon EKS 为基于 PyTorch 的蛋白质折叠机器学习模型 OpenFold 运行大规模推理

使用 Amazon SageMaker 终端节点启用完全同态加密以实现安全、实时的推理

Amazon SageMaker Autopilot 现在支持时间序列数据

使用 Amazon SageMaker Data Wrangler 从 Amazon EMR 准备数据用于机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理