提高开发人员生产力：德勤如何使用 Amazon SageMaker Canvas 进行无代码/低代码机器学习 |亚马逊网络服务

由柏拉图重新发布

关注： 0

在当今数据驱动的世界中，快速构建和部署机器学习 (ML) 模型的能力变得越来越重要。然而，构建机器学习模型需要大量的时间、精力和专业知识。从数据收集和清理到特征工程、模型构建、调整和部署，开发人员通常需要数月才能完成机器学习项目。经验丰富的数据科学家很难找到。

这就是 AWS 低代码和无代码 ML 服务套件成为重要工具的地方。只需点击几下即可使用亚马逊 SageMaker 画布，您无需编写任何代码即可利用 ML 的强大功能。

作为拥有丰富机器学习经验的战略系统集成商，德勤利用 AWS 的无代码和低代码机器学习工具，为德勤客户和内部资产高效构建和部署机器学习模型。这些工具使德勤能够开发机器学习解决方案，而无需手动编码模型和管道。这有助于加快项目交付时间，并使德勤能够承担更多客户工作。

以下是德勤使用这些工具的一些具体原因：

非程序员的可访问性 – 无代码工具向非程序员开放机器学习模型构建。仅具有领域专业知识和很少编码技能的团队成员就可以开发机器学习模型。
新技术的快速采用 – 即用型模型和 AutoML 的可用性和不断改进有助于确保用户不断使用领先的技术。
经济高效的开发 – 无代码工具有助于降低机器学习模型开发所需的成本和时间，使客户更容易使用它，从而帮助他们获得更高的投资回报。

此外，这些工具还提供了全面的解决方案，可加快工作流程，从而实现以下功能：

更快的数据准备 – SageMaker Canvas 具有 300 多种内置转换和使用自然语言的能力，可以加速数据准备并使数据为模型构建做好准备。
更快的模型构建 – SageMaker Canvas 提供即用型模型或亚马逊自动机器学习该技术使您只需点击几下即可在企业数据上构建自定义模型。与从头开始编码模型相比，这有助于加快该过程。
更轻松的部署 – SageMaker Canvas 能够将生产就绪模型部署到亚马逊 Sagmaker 只需点击几下端点即可将其注册到 Amazon SageMaker 模型注册表.

维什维什瓦拉·瓦萨，德勤云首席技术官说：

“通过 AWS 的无代码 ML 服务（例如 SageMaker Canvas 和 SageMaker Data Wrangler），我们德勤咨询公司释放了新的效率，将面向客户和内部项目的开发速度和部署效率提高了 30-40%。”

在这篇文章中，我们通过向您展示如何构建分类模型来预测客户是否会拖欠贷款，从而演示使用 SageMaker Canvas 构建无需代码的端到端 ML 模型的强大功能。通过更准确地预测贷款违约，该模型可以帮助金融服务公司管理风险、适当定价贷款、改善运营、提供额外服务并获得竞争优势。我们演示了 SageMaker Canvas 如何帮助您快速从原始数据转换为已部署的二元分类模型以进行贷款违约预测。

SageMaker Canvas 提供全面的数据准备功能，由亚马逊SageMaker数据牧马人在 SageMaker Canvas 工作区中。这使您能够在单一平台上完成标准 ML 工作流程的所有阶段，从数据准备到模型构建和部署。

数据准备通常是机器学习工作流程中最耗时的阶段。为了减少花在数据准备上的时间，SageMaker Canvas 允许您使用 300 多个内置转换来准备数据。或者，您可以编写自然语言提示，例如“删除 c 列中异常值的行”，并显示此数据准备步骤所需的代码片段。然后，您只需单击几下即可将其添加到数据准备工作流程中。我们也在这篇文章中向您展示了如何使用它。

解决方案概述

下图描述了使用 SageMaker 低代码和无代码工具的贷款违约分类模型的架构。

提高开发人员生产力：德勤如何使用 Amazon SageMaker Canvas 进行无代码/低代码机器学习 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

从包含贷款违约数据详细信息的数据集开始亚马逊简单存储服务 (Amazon S3)，我们使用 SageMaker Canvas 来获取有关数据的见解。然后，我们执行特征工程以应用转换，例如编码分类特征、删除不需要的特征等等。接下来，我们将清理后的数据存储回 Amazon S3。我们使用清理后的数据集创建用于预测贷款违约的分类模型。然后我们就有了一个用于推理的生产就绪模型。

先决条件

确保以下内容先决条件已完成并且您已启用 Canvas 即用型模型 设置 SageMaker 域时的选项。如果您已经设置了域名，编辑您的域设置和去 画布设置 使之成为可能 启用 Canvas 即用型模型 选项。此外，设置并创建 SageMaker Canvas 应用程序，然后请求并启用人择克劳德模型访问 on 亚马逊基岩.

数据集

我们使用来自的公共数据集 kaggle 其中包含有关金融贷款的信息。数据集中的每一行代表一笔贷款，各列提供有关每笔交易的详细信息。下载此数据集并将其存储在您选择的 S3 存储桶中。下表列出了数据集中的字段。

栏名	数据类型	课程描述
`Person_age`	整数	贷款人的年龄
`Person_income`	整数	借款人的收入
`Person_home_ownership`	串	房屋所有权状况（自有或出租）
`Person_emp_length`	十进制	他们的工作年限
`Loan_intent`	串	贷款原因（个人、医疗、教育等）
`Loan_grade`	串	贷款等级（A–E）
`Loan_int_rate`	十进制	利率
`Loan_amnt`	整数	贷款总额
`Loan_status`	整数	目标（无论是否违约）
`Loan_percent_income`	十进制	贷款金额占收入的比例
`Cb_person_default_on_file`	整数	以前的默认值（如果有）
`Cb_person_credit_history_length`	串	他们的信用记录的长度

使用 SageMaker Canvas 简化数据准备

数据准备可能需要 ML 项目中高达 80% 的工作量。正确的数据准备可以带来更好的模型性能和更准确的预测。 SageMaker Canvas 允许交互式数据探索、转换和准备，而无需编写任何 SQL 或 Python 代码。

请完成以下步骤来准备数据：

在 SageMaker Canvas 控制台上，选择 资料准备 在导航窗格中。
点击创建菜单中选择文件.
针对 数据集名称，为您的数据集输入名称。
创建.
选择 Amazon S3 作为数据源并将其连接到数据集。
加载数据集后，使用该数据集创建数据流。
切换到分析选项卡并创建数据质量和洞察报告.

这是分析输入数据集质量的推荐步骤。该报告的输出可生成基于 ML 的即时洞察，例如数据偏差、数据重复、缺失值等等。以下屏幕截图显示了为贷款数据集生成的报告示例。

提高开发人员生产力：德勤如何使用 Amazon SageMaker Canvas 进行无代码/低代码机器学习 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

通过代表您生成这些见解，SageMaker Canvas 为您提供了在数据准备阶段需要修复的一组数据问题。要选择 SageMaker Canvas 识别的前两个问题，您需要对分类特征进行编码并删除重复行，以便模型质量较高。您可以使用 SageMaker Canvas 在可视化工作流程中完成这些操作以及更多操作。

首先，one-hot 编码 loan_intent, loan_grade及 person_home_ownership
你可以放下 cb_person_cred_history_length 列，因为该列的预测能力最低，如数据质量和见解报告中所示。

SageMaker Canvas 最近添加了一个 与数据聊天 选项。此功能利用基础模型的强大功能来解释自然语言查询并生成基于 Python 的代码来应用特征工程转换。此功能由 Amazon Bedrock 提供支持，并且可以配置为完全在您的 VPC 中运行，以便数据永远不会离开您的环境。
要使用此功能删除重复行，请选择旁边的加号 下降柱 变换，然后选择 与数据聊天.
用自然语言输入查询（例如，“从数据集中删除重复行”）。
查看生成的转换并选择 添加到步骤 将转换添加到流程中。
最后，将这些转换的输出导出到 Amazon S3 或可选 Amazon SageMaker功能商店在多个项目中使用这些功能。

您还可以添加另一个步骤来为数据集创建 Amazon S3 目标，以扩展大型数据集的工作流程。下图显示了添加可视化转换后的 SageMaker Canvas 数据流。

提高开发人员生产力：德勤如何使用 Amazon SageMaker Canvas 进行无代码/低代码机器学习 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

您已使用 SageMaker Canvas 中的可视化工作流程完成了整个数据处理和特征工程步骤。这有助于将数据工程师花费在清理和为模型开发准备数据上的时间从几周缩短到几天。下一步是构建 ML 模型。

使用 SageMaker Canvas 构建模型

Amazon SageMaker Canvas 提供了用于构建、分析、测试和部署此二进制分类模型的无代码端到端工作流程。完成以下步骤：

在 SageMaker Canvas 中创建数据集。
指定用于导出数据的 S3 位置或 SageMaker Canvas 作业目标上的 S3 位置。

现在您已准备好构建模型。
型号在导航窗格中并选择 新模式.
命名模型并选择 预测分析 作为模型类型。
选择在上一步中创建的数据集。

下一步是配置模型类型。
选择目标列，模型类型将自动设置为 2 类别预测.
选择您的构建类型， 标准构建 or 快速建立.

一旦您开始构建模型，SageMaker Canvas 就会显示预期的构建时间。标准构建通常需要 2-4 小时；对于较小的数据集，您可以使用“快速构建”选项，该过程只需 2-15 分钟。对于此特定数据集，完成模型构建大约需要 45 分钟。 SageMaker Canvas 让您随时了解构建过程的进度。
模型建立后，可以查看模型性能。

SageMaker Canvas 根据模型类型提供各种指标，例如准确性、精度和 F1 分数。以下屏幕截图显示了此二元分类模型的准确性和其他一些高级指标。
下一步是进行测试预测。
SageMaker Canvas 允许您对多个输入或单个预测进行批量预测，以快速验证模型质量。以下屏幕截图显示了一个示例推理。
最后一步是部署经过训练的模型。
SageMaker Canvas 在 SageMaker 端点上部署模型，现在您就有了一个可供推理的生产模型。以下屏幕截图显示了已部署的端点。