使用 Amazon SageMaker Canvas 通过无代码机器学习预测客户流失

由柏拉图重新发布

关注： 0

了解客户行为是当今每个企业的首要任务。深入了解客户购买的原因和方式有助于增加收入。但失去客户（也称为客户流失）始终是一种风险，深入了解客户离开的原因对于维持收入和利润同样重要。机器学习 (ML) 可以帮助获得洞察力，但到目前为止，您需要 ML 专家构建模型来预测客户流失，缺乏模型可能会延迟企业为留住客户而采取的洞察力驱动行动。

在这篇文章中，我们将向您展示业务分析师如何使用以下方法构建客户流失 ML 模型：亚马逊 SageMaker 画布，无需代码。 Canvas 为业务分析师提供了可视化的点击式界面，让您可以自行构建模型并生成准确的 ML 预测，而无需任何 ML 经验或编写一行代码。

解决方案概述

在这篇文章中，我们扮演移动电话运营商营销部门的营销分析师的角色。我们的任务是识别可能面临流失风险的客户。我们可以访问服务使用情况和其他客户行为数据，并想知道这些数据是否可以帮助解释客户离开的原因。如果我们能够确定解释流失的因素，那么我们就可以采取纠正措施来改变预测的行为，例如开展有针对性的保留活动。

为此，我们使用 CSV 文件中的数据，其中包含有关客户使用情况和流失的信息。我们使用Canvas来执行以下步骤：

从以下位置导入流失数据集亚马逊简单存储服务（亚马逊S3）。
训练并构建流失模型。
分析模型结果。
针对模型测试预测。

对于我们的数据集，我们使用合成数据集来自电信移动电话运营商。此示例数据集包含 5,000 条记录，其中每条记录使用 21 个属性来描述客户资料。属性如下：

州/领地 – 客户居住的美国州，以两个字母缩写表示；例如，俄亥俄州或新泽西州
帐户长度 – 该帐户的活跃天数
区域代码 – 客户电话号码的三位数区号
电话 – 剩余的七位电话号码
国际计划 – 客户是否有国际通话套餐（是/否）
VMail计划 – 客户是否有语音邮件功能（是/否）
虚拟邮件消息 – 每月平均语音邮件数量
天分钟 – 当天使用的总通话分钟数
日间通话 – 当天拨打的电话总数
日费 – 白天通话的计费费用
夏娃·分钟, 夏娃来电, 平安夜 – 晚间通话的计费费用
夜间分钟数, 夜间电话, 夜间收费 – 夜间通话的计费费用
国际分钟, 国际电话, 国际收费 – 国际电话的计费费用
客户服务电话 – 拨打客户服务电话的数量
搅拌？ – 客户是否离开服务（正确/错误）

最后一个属性， Churn?，是我们希望 ML 模型预测的属性。目标属性是二元的，这意味着我们的模型将输出预测为两个类别之一（True or False).

先决条件

具有 AWS账户需要具有适当的权限才能完成以下先决条件：

部署亚马逊SageMaker 有关说明，请参见加入 Amazon SageMaker 域.
部署画布。有关说明，请参阅设置和管理 Amazon SageMaker Canvas（适用于 IT 管理员）.
为 Canvas 配置跨域资源共享 (CORS) 策略。有关说明，请参阅让您的用户能够上传本地文件.

创建客户流失模型

首先，我们来下载流失数据集并检查文件以确保所有数据都在那里。然后完成以下步骤：

登录 AWS管理控制台，使用具有适当权限的帐户访问 Canvas。
登录到画布控制台。

这是我们可以管理数据集和创建模型的地方。

进口.

画布导入按钮选择

上传并选择 churn.csv 文件中。
导入日期 将其上传到 Canvas。

画布从 s3 选择数据

导入过程大约需要 10 秒（这可能因数据集大小而异）。完成后，我们可以看到数据集位于 Ready 状态。

Canvas 就绪数据集

要预览数据集的前 100 行，请将鼠标悬停在眼睛图标上。

画布视图数据集

将出现数据集的预览。在这里我们可以验证我们的数据是否正确。

画布验证数据

确认导入的数据集准备就绪后，我们创建模型。

新模式.

画布新模型

选择 churn.csv 数据集并选择 选择数据集.

画布选择数据集

现在我们配置构建模型过程。

针对 目标列，选择 Churn? 列。

针对 型号类型，Canvas自动推荐模型类型，本例 2 类别预测 （数据科学家称之为二元分类）。这适合我们的用例，因为我们只有两个可能的预测值： True or False，所以我们采用 Canvas 提出的建议。

画布构建模型

我们现在验证一些假设。我们希望快速了解其他列是否可以预测我们的目标列。我们可以快速了解模型的估计准确度和列影响（每列在预测目标列时的估计重要性）.

选择所有 21 列并选择 预览模型.

此功能使用我们数据集的子集，并且仅进行一次建模。对于我们的用例，构建预览模型大约需要 2 分钟。

画布预览模型

如下图所示， Phone 和 State 列对我们的预测的影响要小得多。我们在删除文本输入时要小心，因为它可能包含有助于我们预测的重要离散、分类特征。在这里，电话号码相当于帐号，对于预测其他帐户的流失可能性没有价值，而且客户的状态对我们的模型影响不大。

我们删除这些列是因为它们没有主要特征重要性。
我们删除之后 Phone 和 State 列，让我们再次运行预览。

如下图所示，模型精度提升了0.1%。我们的预览模型的估计准确度为 95.9%，影响最大的列是 Night Calls, Eve Mins及 Night Charge。这使我们能够深入了解哪些列对模型的性能影响最大。在这里，我们在进行特征选择时需要小心，因为如果单个特征对模型的结果影响极大，那么它就是一个主要指标目标泄漏，并且该功能在预测时不可用。在这种情况下，很少有列显示出非常相似的影响，因此我们继续构建我们的模型。

画布特征工程之后

Canvas 提供两种构建选项：

标准构建 – 从优化的流程中构建最佳模型 AutoML; 以速度换取最高精度
快速建立 – 与标准构建相比，构建模型所需的时间仅为标准构建的一小部分；潜在的准确性是为了速度而交换的。

对于这篇文章，我们选择 标准构建 选择，因为我们想要拥有最好的模型，并且我们愿意花费额外的时间等待结果。

画布标准构建

构建过程可能需要 2-4 小时。在此期间，Canvas 测试了数百个候选管道，选择最佳模型呈现给我们。在下面的屏幕截图中，我们可以看到预期的构建时间和进度。

画布分析模型

评估模型性能

当模型构建过程完成时，模型预测了 97.9% 的流失率。这看起来不错，但作为分析师，我们希望更深入地研究，看看我们是否可以相信模型可以根据它做出决策。上进球选项卡中，我们可以查看映射到结果的预测的可视化图。这使我们能够更深入地了解我们的模型。

Canvas 将数据集分为训练集和测试集。训练数据集是 Canvas 用于构建模型的数据。测试集用于查看模型在新数据下是否表现良好。以下屏幕截图中的桑基图显示了模型在测试集上的执行情况。要了解更多信息，请参阅在 Amazon SageMaker Canvas 中评估模型的性能.

为了获得桑基图中显示的内容之外的更详细的见解，业务分析师可以使用混淆矩阵分析他们的业务解决方案。例如，我们希望更好地了解模型做出错误预测的可能性。我们可以在桑基图中看到这一点，但想要更多见解，所以我们选择 高级指标。我们会看到一个混淆矩阵，它以视觉格式显示模型的性能，并具有以下值，特定于正类别 - 我们根据它们是否实际上会流失进行测量，因此我们的正类别是 True 在这个例子中：

真阳性 (TP) - 的数量 True 结果被正确预测为 True
真阴性 (TN) - 的数量 False 结果被正确预测为 False
误报 (FP) - 的数量 False 结果被错误地预测为 True
假阴性 (FN) - 的数量 True 结果被错误地预测为 False

我们可以使用这个矩阵图不仅可以确定我们的模型的准确性，还可以确定模型何时出错、出错的频率以及出错的程度。

画布 F1 矩阵

高级指标看起来不错。我们可以相信模型结果。我们发现误报和漏报率非常低。这些情况是，如果模型认为数据集中的客户会流失，但他们实际上不会流失（误报），或者如果模型认为客户会流失，但他们实际上会流失（误报）。两者的高数字可能会让我们更多地思考是否可以使用该模型来做出决策。

让我们回到概述选项卡，查看每列的影响。这些信息可以帮助营销团队获得洞察，从而采取行动减少客户流失。例如，我们可以看到低和高 CustServ Calls 增加客户流失的可能性。营销团队可以根据这些经验采取行动来防止客户流失。例如，在网站上创建详细的常见问题解答以减少客户服务电话，以及针对常见问题解答向客户开展教育活动，以保持参与度。

我们的模型看起来非常准确。我们可以直接对预测选项卡，批量或单个（实时）预测。在此示例中，我们对某些列值进行了一些更改并执行了实时预测。 Canvas 向我们展示了预测结果以及置信度。

画布预测推理

假设我们有一个现有客户，其用途如下： Night Mins 是40和 Eve Mins 是 40。我们可以进行预测，我们的模型返回该客户将会流失的置信度分数为 93.2%（True）。我们现在可能会选择提供促销折扣来留住该客户。

运行一个预测对于单独的假设分析非常有用，但我们还需要同时对许多记录运行预测。画布能够运行批量预测，它允许您大规模运行预测。

结论

在这篇文章中，我们展示了业务分析师如何使用示例数据通过 SageMaker Canvas 创建客户流失模型。 Canvas 允许您的业务分析师使用无代码、可视化、点击式界面创建准确的 ML 模型并生成预测。营销分析人员现在可以使用这些信息来开展有针对性的保留活动并更快地测试新的活动策略，从而减少客户流失。

分析师可以通过与数据科学家同事分享他们的模型来将其提升到一个新的水平。数据科学家可以在以下位置查看 Canvas 模型：亚马逊SageMaker Studio，他们可以在其中探索 Canvas AutoML 所做的选择、验证模型结果，甚至只需单击几下即可将模型投入生产。这可以加速基于机器学习的价值创造，并帮助更快地扩大改进的成果。

要了解有关使用 Canvas 的更多信息，请参阅构建、共享、部署：业务分析师和数据科学家如何使用无代码 ML 和 Amazon SageMaker Canvas 缩短上市时间. 有关使用无代码解决方案创建 ML 模型的更多信息，请参阅宣布推出 Amazon SageMaker Canvas – 面向业务分析师的可视化、无代码机器学习功能.

关于作者

亨利·罗巴利诺 是新泽西州 AWS 的解决方案架构师。他对云和机器学习及其在社会中发挥的作用充满热情。他通过与客户合作，帮助他们使用 AWS 云实现业务目标来实现这一目标。工作之余，您会发现 Henry 和他的毛皮女儿 Arly 一起旅行或探索户外。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能通过无代码机器学习预测客户流失。垂直搜索。哎。 王超然 是位于德克萨斯州达拉斯的 AWS 的解决方案架构师。自 2016 年从德克萨斯大学达拉斯分校获得计算机科学硕士学位以来，他一直在 AWS 工作。超然帮助客户构建可扩展、安全且具有成本效益的应用程序，并找到解决方案来解决 AWS 云上的业务挑战。工作之余，超然喜欢与家人和两只狗 Biubiu 和 Coco 共度时光。