通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

通过 Amazon SageMaker JumpStart 解决方案中的机器学习解决端到端业务问题

亚马逊SageMaker JumpStart 为各种问题类型提供预训练的开源模型,以帮助您开始使用机器学习 (ML)。 JumpStart 还提供了为常见用例设置基础设施的解决方案模板,以及用于 ML 的可执行示例笔记本 亚马逊SageMaker.

作为企业用户,您可以使用 JumpStart 解决方案执行以下操作:

  • 探索解决方案并评估哪些解决方案最适合您的业务需求。
  • 单击即可启动解决方案 亚马逊SageMaker Studio。这启动了一个 AWS CloudFormation 模板来创建所需的资源。
  • 通过访问底层笔记本和模型资产来修改解决方案以满足您的需求。
  • 完成后删除获取的资源。

本文重点介绍最近添加的五种机器学习解决方案,以解决五种不同的业务挑战。截至撰写本文时,JumpStart 提供 23 种业务解决方案,从金融交易中的欺诈检测到手写识别。随着更多解决方案的添加,通过 JumpStart 提供的解决方案数量会定期增加。

解决方案概述

五种新的解决方案如下:

  • 价格优化 – 提供可定制的机器学习模型,帮助您做出最佳决策来设置产品或服务的价格,以实现您的业务目标,例如最大化收入、利润或其他自定义指标。
  • 鸟类种类预测 – 展示如何训练和微调对象检测模型。它演示了通过训练图像增强进行模型调整,并绘制了训练作业迭代(时期)中发生的准确性改进的图表。
  • 肺癌生存预测 – 展示如何将 2D 和 3D 放射组学特征以及患者人口统计数据输入 ML 算法,以预测患者的肺癌生存机会。该预测的结果可以帮助提供商采取适当的主动措施。
  • 金融支付分类—— 演示如何训练和部署 ML 模型以根据交易信息对金融交易进行分类。您还可以使用此解决方案作为欺诈检测、个性化或异常检测的中间步骤。
  • 手机客户流失预测 – 演示如何使用移动呼叫交易数据集快速开发客户流失预测模型。对于刚接触 ML 的用户来说,这是一个简单的示例。

先决条件

要使用这些解决方案,请确保您有权访问具有允许您运行 SageMaker 功能的执行角色的 Studio。对于您在 Studio 中的用户角色,请确保 SageMaker 项目和 JumpStart 选项已打开。

在以下部分中,我们将逐一介绍这五个新解决方案,并详细讨论其工作原理,以及有关如何使用它来满足自己的业务需求的一些建议。

价格优化

企业喜欢使用各种杠杆来获得最佳结果。例如,产品或服务的价格是企业可以控制的杠杆。问题是如何决定产品或服务的定价,以最大化利润或收入等业务目标。

该解决方案提供可定制的机器学习模型,帮助您制定产品或服务价格的最佳决策,以实现您的目标,例如最大化收入、利润或其他自定义指标。该解决方案使用机器学习和因果推理方法从历史数据中学习价量关系,并能够实时提出动态价格建议,以优化自定义客观指标。

以下屏幕截图显示了示例输入数据。

解决方案包括三个部分:

  • 价格弹性估计 – 这是通过双 ML 算法进行因果推断来估计的
  • 成交量预测 – 这是使用 Prophet 算法预测的
  • 价格优化 – 这是通过不同价格场景的假设模拟来实现的

该解决方案提供第二天的建议价格,以实现收入最大化。此外,输出还包括估计价格弹性(表示价格对交易量影响的值)和预测模型(能够预测第二天的交易量)。下图显示了与使用 Prophet 使用时间序列数据预测交易量的预测模型相比,包含计算出的价格弹性的因果模型在假设分析(与行为价格存在较大偏差)下的表现如何要好得多。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

您可以将此解决方案应用到您的企业中,用于以下用例:

  • 确定零售店商品的最佳价格
  • 估计折扣券对客户购买的影响
  • 预测任何企业中各种激励方法的效果

鸟类种类预测

如今有多种适合企业的计算机视觉 (CV) 应用程序。这些应用之一是对象检测,其中机器学习算法通过在对象周围绘制边界框来检测图像中对象的位置,并识别对象的类型。学习如何应用对象检测模型并对其进行微调对于有 CV 需求的组织来说非常有价值。

该解决方案提供了一个示例,说明如何在向 SageMaker 算法提供图像时转换边界框规范。该解决方案还演示了如何通过添加水平翻转的训练图像(镜像)来改进对象检测模型。

提供了一个笔记本,用于在存在大量类别(200 种鸟类)时尝试对象检测挑战。该笔记本还展示了如何绘制训练作业各个时期发生的准确性改进的图表。下图显示了鸟类数据集中的示例图像。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

该解决方案包含五个步骤:

  1. 准备数据,包括下载和 RecordIO 文件生成。
  2. 创建并训练对象检测模型。
  3. 部署端点并评估模型性能。
  4. 使用扩展的数据集再次创建并训练对象检测模型。
  5. 部署端点并评估扩展后的模型性能。

您将得到以下输出:

  • 结合盒与测试图像的物体检测结果
  • 经过训练的目标检测模型
  • 带有附加扩展(翻转)数据集的经过训练的对象检测模型
  • 两个单独的端点部署在每个模型之一上

下图显示了训练期间模型迭代(epoch)的模型改进。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

以下示例是两个测试图像的输出。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

您可以将此解决方案应用到您的企业中,用于以下用例:

  • 检测包装行业传送带上的物体
  • 检测披萨上的配料
  • 实施涉及对象检测的供应链运营应用程序

肺癌生存预测

COVID-19 引起了人们对肺部相关医疗挑战的更多关注。这也给医院、医生、护士和放射科医生带来了很大的压力。想象一下,您可以将机器学习作为一种强大的工具来协助医生并帮助他们加快工作速度。在此解决方案中,我们展示了如何将 2D 和 3D 放射组学特征以及患者人口统计数据输入 ML 算法来预测患者的肺癌生存机会。该预测的结果可以帮助提供商采取适当的主动措施。

该解决方案演示了如何为非小细胞肺癌 (NSCLC) 放射基因组学数据集构建可扩展的 ML 管道,该数据集由 RNA 测序数据、临床数据(反映 EHR 数据)和医学图像组成。使用多种类型的数据创建机器模型称为 多模态 ML。该解决方案可预测诊断为非小细胞肺癌的患者的生存结果。

下图显示了非小细胞肺癌 (NSCLC) 放射基因组学数据集中的输入数据示例。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

作为解决方案的一部分,从肿瘤组织中提取总 RNA,并使用 RNA 测序技术进行分析。尽管原始数据包含超过 22,000 个基因,但我们保留了来自 21 个高度共表达的基因簇(元基因)的 10 个基因,这些基因在公开的基因表达队列中被识别、验证,并与预后相关。

临床记录以 CSV 格式存储。每行对应一名患者,列包含患者的信息,包括人口统计、肿瘤分期和生存状态。

对于基因组数据,我们保留了来自 21 个高度共表达的基因簇(宏基因)的 10 个基因,这些基因在公开的基因表达队列中进行了鉴定和验证,并与预后相关。

对于医学成像数据,我们创建患者级 3D 放射组学特征,解释 CT 扫描中观察到的肿瘤的大小、形状和视觉属性。对于每个患者研究,执行以下步骤:

  1. 读取 CT 扫描和肿瘤分割的 2D DICOM 切片文件,将它们组合成 3D 卷,以 NIfTI 格式保存卷。
  2. 对齐 CT 体积和肿瘤分割,以便我们可以将计算集中在肿瘤内部。
  3. 使用放射组学库计算描述肿瘤区域的放射组学特征。
  4. 提取 120 个类别的 XNUMX 个放射组学特征,例如肿瘤感兴趣区域内强度分布和共现的统计表示,以及描述肿瘤形态的基于形状的测量。

为了创建患者的多模态视图以进行模型训练,我们加入了来自三种模态的特征向量。然后我们处理数据。首先,我们使用特征缩放来标准化独立特征的范围。然后,我们对特征进行主成分分析 (PCA),以降低维度并识别对数据贡献 95% 方差的最具辨别力的特征。

这导致维数从 215 个特征减少到 45 个主成分,这些主成分构成了监督学习器的特征。

该解决方案生成一个 ML 模型,以概率的形式预测 NSCLC 患者的生存状态(死亡或活着)。除了模型和预测之外,我们还生成报告来解释模型。医学成像管道可生成 3D 肺部 CT 体积和肿瘤分割,以实现可视化目的。

您可以将此解决方案应用于医疗保健和生命科学用例。

金融支付分类

获取企业或消费者的所有金融交易并将其组织成不同的类别可能非常有帮助。它可以帮助用户了解他们在哪个类别中花费了多少钱,并且还可以在给定类别中的交易或支出意外上升或下降时发出警报。

该解决方案演示了如何训练和部署 ML 模型以根据交易信息对金融交易进行分类。许多银行提供此服务,让最终用户了解他们的消费习惯。您还可以使用此解决方案作为欺诈检测、个性化或异常检测的中间步骤。我们使用 SageMaker 来训练和部署具有所需底层基础设施的 XGBoost 模型。

我们演示该解决方案的合成数据集具有以下特征:

  • 交易类别 – 交易类别,有以下 19 个选项: Uncategorized, Entertainment, Education, Shopping, Personal Care, Health and Fitness, Food and Dining, Gifts and Donations, Investments, Bills and Utilities, Auto and Transport, Travel, Fees and Charges, Business Services, Personal Services, Taxes, Gambling, HomePension and insurances.
  • 接收者_id – 接收方的标识符。标识符由 16 个数字组成。
  • 发件人ID – 发送方的标识符。标识符由 16 个数字组成。
  • – 转移的金额。
  • 时间戳 – 交易时间戳,格式为 YYYY-MM-DD HH:MM:SS。

数据集的前五个观察结果如下:

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

对于此解决方案,我们使用 XGBoost,这是一种流行且高效的梯度提升树算法的开源实现。梯度提升是一种监督学习算法,试图通过组合一组更简单和更弱的模型的估计集合来准确预测目标变量。它的实现可在 SageMaker 内置算法中使用。

金融支付分类解决方案包含四个步骤:

  1. 准备数据。
  2. 建立一个功能商店。
  3. 创建并训练 XGBoost 模型。
  4. 部署端点并评估模型性能。

我们得到以下输出:

  • 基于我们的示例数据集训练的 XGBoost 模型
  • 可以预测事务类别的 SageMaker 端点

运行此解决方案后,您应该会看到类似于以下内容的分类报告。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

您的企业可能的应用包括:

  • 零售和投资银行领域的各种金融应用
  • 当交易需要在任何用例(不仅仅是金融)中进行分类时

手机客户流失预测

预测客户流失是一种非常常见的业务需求。大量研究表明,保留现有客户的成本远低于获取新客户的成本。挑战通常来自于企业很难理解客户流失的原因,或者难以构建预测客户流失的模型。

在此示例中,机器学习新手可以体验如何使用移动呼叫交易数据集快速开发流失预测模型。该解决方案使用 SageMaker 在客户档案数据集上训练和部署 XGBoost 模型,以预测客户是否可能离开移动电话运营商。

该解决方案使用的数据集是公开可用的,并在 Daniel T. Larose 所著的《Discovering Knowledge in Data》一书中提到。作者将其归因于加州大学欧文分校机器学习数据集存储库。

该数据集使用以下 21 个属性来描述未知美国移动运营商的客户资料。

  • 州:客户居住的美国州,由两个字母缩写表示;例如,俄亥俄州或新泽西州
  • 帐户长度:该帐户已激活的天数
  • 区号:对应客户电话号码的三位数区号
  • 电话:剩余七位电话号码
  • 国际套餐:客户是否有国际通话套餐:是/否
  • VMail Plan:客户是否有语音邮件功能:是/否
  • VMail 消息:每月平均语音邮件消息数
  • Day Mins:一天中使用的总通话分钟数
  • Day Calls:当天拨打的电话总数
  • Day Charge:白天通话的计费费用
  • Eve Mins、Eve Calls、Eve Charge:晚上拨打电话的计费费用
  • Night Mins、Night Calls、Night Charge:夜间拨打电话的计费费用
  • Intl Mins、Intl Calls、Intl Charge:国际长途电话的计费费用
  • CustServ Calls:拨打客户服务电话的数量
  • 流失?:客户是否离开服务:true/false

该解决方案包含三个阶段:

  1. 准备数据。
  2. 创建并训练 XGBoost 模型。
  3. 部署端点并评估模型性能。

我们得到以下输出:

  • 基于我们的示例数据集训练的 XGBoost 模型来预测用户流失
  • 可以预测用户流失的 SageMaker 端点

此模型有助于估计 5,000 名移动电话客户中有多少人可能停止使用当前的移动电话运营商。

下图显示了模型输出的流失概率分布。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

您可以将此应用到您的业务中,用于以下用例:

  • 预测您自己企业中的客户流失情况
  • 对哪些客户可以打开您的营销电子邮件以及哪些客户不会打开进行分类(二元分类)
  • 预测哪些学生可能会退学

清理资源

在 JumpStart 中运行完解决方案后,请务必选择 删除所有资源 因此,您在此过程中创建的所有资源都将被删除,并且您的计费将停止。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。

总结

这篇文章向您展示了如何基于 JumpStart 解决方案应用 ML 来解决各种业务问题。尽管本文重点介绍了最近添加到 JumpStart 的 23 个新解决方案,但总共有 XNUMX 个可用解决方案。我们鼓励您登录 Studio 并亲自查看 JumpStart 解决方案,并开始从中获取直接价值。欲了解更多信息,请参阅 亚马逊SageMaker StudioSageMaker 快速启动.

注意:如果您在您所在 AWS 区域的 JumpStart 控制台中没有看到上述所有五种解决方案,请等待一周并再次检查。我们正在分阶段向各个地区发布它们。


作者简介

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。 Raju Penmatcha 博士 是 AWS 人工智能平台的人工智能/机器学习专家解决方案架构师。他致力于 SageMaker 中的低代码/无代码服务套件,帮助客户轻松构建和部署机器学习模型和解决方案。当不帮助顾客时,他喜欢去新的地方旅行。

通过 Amazon SageMaker JumpStart 解决方案 PlatoBlockchain 数据智能中的机器学习,端到端解决业务问题。 垂直搜索。 人工智能。马南沙阿 是 Amazon Web Services 的软件开发经理。他是一名 ML 爱好者,专注于构建无代码/低代码 AI/ML 产品。他致力于帮助其他有才华的技术人员构建出色的软件。

时间戳记:

更多来自 AWS机器学习