Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% | 亚马逊网络服务

Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% | 亚马逊网络服务

这是一篇客座文章,由来自 Getir 的 Nafi Ahmet Turgut、Hasan Burak Yel 和 Damla Şentürk 共同撰写。

成立于2015年 将自己定位为超快速杂货配送领域的开拓者。 这家创新科技公司以其引人注目的“几分钟内送达食品杂货”服务彻底改变了最后一英里的配送领域。 Getir 的业务遍及土耳其、英国、荷兰、德国和美国,已成为一支不可忽视的跨国力量。 如今,Getir 品牌代表了一个多元化的企业集团,涵盖九个不同的垂直领域,所有这些都在一个单一的保护伞下协同运作。

在这篇文章中,我们解释了如何构建端到端产品类别预测管道来帮助商业团队使用 亚马逊SageMakerAWS批处理,减少 90% 的模型训练时间。

详细了解我们现有的产品种类是我们以及许多企业在当今快节奏且竞争激烈的市场中面临的一项重大挑战。 解决这个问题的一个有效方法是产品类别的预测。 生成综合类别树的模型使我们的商业团队能够将我们现有的产品组合与竞争对手的产品组合进行基准比较,从而提供战略优势。 因此,我们的核心挑战是创建和实施准确的产品类别预测模型。

我们利用 AWS 提供的强大工具来应对这一挑战,并有效地驾驭机器学习 (ML) 和预测分析的复杂领域。 我们的努力成功创建了端到端产品类别预测管道,它结合了 SageMaker 和 AWS Batch 的优势。

事实证明,这种预测分析的能力,尤其是产品类别的准确预测,是非常宝贵的。 它为我们的团队提供了关键的数据驱动的见解,优化了库存管理,增强了客户互动,并增强了我们的市场影响力。

我们在这篇文章中解释的方法范围从特征集收集的初始阶段到预测管道的最终实现。 我们战略的一个重要方面是使用 SageMaker 和 AWS Batch 来优化针对七种不同语言的预训练 BERT 模型。 此外,我们与 AWS 的对象存储服务无缝集成 亚马逊简单存储服务 (Amazon S3) 一直是高效存储和访问这些精细模型的关键。

SageMaker 是一项完全托管的 ML 服务。 借助 SageMaker,数据科学家和开发人员可以快速、轻松地构建和训练 ML 模型,然后直接将其部署到生产就绪的托管环境中。

作为一项完全托管的服务,AWS Batch 可帮助您运行任何规模的批量计算工作负载。 AWS Batch 自动预置计算资源并根据工作负载的数量和规模优化工作负载分配。 借助 AWS Batch,无需安装或管理批量计算软件,因此您可以将时间集中在分析结果和解决问题上。 我们使用 GPU 作业来帮助我们运行使用实例 GPU 的作业。

解决方案概述

Getir 数据科学团队和基础设施团队的五名人员共同参与了这个项目。 该项目在一个月内完成,并在经过一周的测试后部署到生产中。

下图显示了解决方案的体系结构。

Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

该模型管道针对每个国家单独运行。 该架构包括每个国家/地区的两个 AWS Batch GPU cron 作业,按定义的计划运行。

我们通过战略性部署 SageMaker 和 AWS Batch GPU 资源克服了一些挑战。 以下各节详细介绍了用于解决每个困难的过程。

使用 AWS Batch GPU 作业微调多语言 BERT 模型

我们寻求一种解决方案来支持不同用户群的多种语言。 BERT 模型是一个显而易见的选择,因为它们具有有效处理复杂自然语言任务的能力。 为了根据我们的需求定制这些模型,我们通过使用单节点 GPU 实例作业来利用 AWS 的强大功能。 这使我们能够针对我们需要支持的七种语言中的每一种语言微调预训练的 BERT 模型。 通过这种方法,我们确保了预测产品类别的高精度,克服了任何潜在的语言障碍。

使用 Amazon S3 进行高效模型存储

我们的下一步是解决模型存储和管理问题。 为此,我们选择了以其可扩展性和安全性而闻名的 Amazon S3。 将经过微调的 BERT 模型存储在 Amazon S3 上,使我们能够轻松访问组织内的不同团队,从而显着简化我们的部署流程。 这是实现运营敏捷性和机器学习工作无缝集成的一个关键方面。

创建端到端预测管道

为了充分利用我们的预训练模型,需要一个高效的管道。 我们首先在 SageMaker 上部署这些模型,该操作可以实现低延迟的实时预测,从而增强我们的用户体验。 对于对我们的运营同样重要的更大规模批量预测,我们利用了 AWS Batch GPU 作业。 这确保了我们资源的最佳利用,为我们提供了性能和效率的完美平衡。

通过 SageMaker MME 探索未来的可能性

随着我们不断发展并寻求 ML 管道的效率,我们热衷于探索的一种途径是使用 SageMaker 多模型端点 (MME) 来部署我们经过微调的模型。 借助 MME,我们可以简化各种微调模型的部署,确保高效的模型管理,同时还受益于 SageMaker 的原生功能,例如影子变体、自动缩放和 亚马逊CloudWatch 一体化。 这一探索与我们不断追求增强预测分析能力并为客户提供卓越体验相一致。

结论

我们对 SageMaker 和 AWS Batch 的成功集成不仅解决了我们的具体挑战,还显着提高了我们的运营效率。 通过实施复杂的产品类别预测管道,我们能够为我们的商业团队提供数据驱动的见解,从而促进更有效的决策。

我们的结果充分说明了我们方法的有效性。 我们在所有四个类别粒度级别上都实现了 80% 的预测准确率,这在塑造我们所服务的每个国家/地区的产品分类方面发挥着重要作用。 这种精确度使我们的业务范围超越了语言障碍,并确保我们以最准确的方式满足多样化的用户群的需求。

此外,通过战略性地使用计划的 AWS Batch GPU 作业,我们已经能够将模型训练持续时间缩短 90%。 这种效率进一步简化了我们的流程并增强了我们的运营敏捷性。 使用 Amazon S3 的高效模型存储在平衡实时和批量预测方面发挥了关键作用。

有关如何开始使用 SageMaker 构建您自己的 ML 管道的更多信息,请参阅 Amazon SageMaker 资源。 如果您正在寻找一种低成本、可扩展的解决方案来以较低的运营开销运行批处理作业,那么 AWS Batch 是一个绝佳的选择。 要开始使用,请参阅 AWS Batch 入门.


作者简介

Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。纳菲·艾哈迈德·图尔古特 完成了电气与电子工程硕士学位,并担任研究生研究科学家。 他的重点是构建机器学习算法来模拟神经网络异常。 他于 2019 年加入 Getir,目前担任高级数据科学与分析经理。 他的团队负责为 Getir 设计、实施和维护端到端机器学习算法和数据驱动的解决方案。

Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。哈桑布拉克耶 在海峡大学获得电气与电子工程学士学位。 曾就职于Turkcell,主要研究时间序列预测、数据可视化和网络自动化。 他于 2021 年加入 Getir,目前担任数据科学与分析经理,负责搜索、推荐和增长领域。

Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。达姆拉·森图尔克 在加拉塔萨雷大学获得计算机工程学士学位。 她在海峡大学继续攻读计算机工程硕士学位。 她于 2022 年加入 Getir,一直担任数据科学家。 她曾从事商业、供应链和发现相关项目。

Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。埃斯拉卡亚巴勒 是 AWS 的高级解决方案架构师,专注于分析领域,包括数据仓库、数据湖、大数据分析、批量和实时数据流以及数据集成。 她拥有 12 年的软件开发和架构经验。 她热衷于学习和教授云技术。

时间戳记:

更多来自 AWS机器学习