构建、共享、部署：业务分析师和数据科学家如何使用无代码 ML 和 Amazon SageMaker Canvas 实现更快的上市时间

由柏拉图重新发布

关注： 0

机器学习 (ML) 通过优化多个垂直领域的核心业务功能（例如需求预测、信用评分、定价、预测客户流失、确定下一个最佳报价、预测延迟发货和提高制造质量。传统的机器学习开发周期需要几个月的时间，并且需要稀缺的数据科学和机器学习工程技能。分析师对 ML 模型的想法通常长期积压，等待数据科学团队的带宽，而数据科学家则专注于更复杂的 ML 项目，需要他们的全部技能。

为了打破这种僵局，我们已经介绍了 Amazon SageMaker 画布，一种无代码 ML 解决方案，可帮助公司将 ML 解决方案的交付速度缩短至数小时或数天。 SageMaker Canvas 使分析师能够轻松地使用数据湖、数据仓库和运营数据存储中的可用数据；建立机器学习模型；并使用它们以交互方式进行预测并在批量数据集上进行批量评分——所有这些都无需编写任何代码。

在这篇博文中，我们展示了 SageMaker Canvas 如何实现数据科学家和业务分析师之间的协作，从而加快上市时间并加速 ML 解决方案的开发。分析师无需成为 ML 专家即可在 SageMaker Canvas 中获得自己的无代码 ML 工作区。然后，分析师只需单击几下即可从 Canvas 共享他们的模型，数据科学家将能够在其中使用亚马逊SageMaker Studio，一个端到端的 ML 集成开发环境 (IDE)。通过合作，业务分析师可以带来他们的领域知识和实验结果，而数据科学家可以有效地创建管道并简化流程。

让我们深入了解工作流程的样子。

业务分析师构建模型，然后共享它

为了了解 SageMaker Canvas 如何简化业务分析师和数据科学家（或 ML 工程师）之间的协作，我们首先以业务分析师的身份处理该流程。在开始之前，请参阅宣布推出 Amazon SageMaker Canvas – 面向业务分析师的可视化、无代码机器学习功能有关使用 SageMaker Canvas 构建和测试模型的说明。

在这篇文章中，我们使用了修改后的版本信用卡欺诈检测数据集来自 Kaggle，一个著名的二元分类问题数据集。数据集最初是高度不平衡的——它只有很少的条目被归类为负类（异常交易）。无论目标特征分布如何，我们仍然可以使用此数据集，因为 SageMaker Canvas 在自动训练和调整模型时会处理这种不平衡。该数据集由大约 9 万个单元组成。你也可以下载一个此数据集的简化版本. 数据集的大小要小得多，大约为 500,000 个单元，因为它已被随机欠采样，然后使用 SMOTE 技术进行过采样，以确保在此过程中丢失尽可能少的信息。在 SageMaker Canvas 免费套餐下，使用这个缩减的数据集运行整个实验需要 0 美元。

构建模型后，分析师可以使用它直接在 Canvas 中对单个请求或整个输入数据集进行批量预测。

使用 Canvas Standard Build 构建的模型也可以通过单击按钮轻松与使用 SageMaker Studio 的数据科学家和 ML 工程师共享。这允许数据科学家验证您构建的模型的性能并提供反馈。 ML 工程师可以选择您的模型并将其与您的公司和客户可用的现有工作流程和产品集成。请注意，在撰写本文时，无法共享使用 Canvas Quick Build 构建的模型或时间序列预测模型。

通过 Canvas UI 共享模型非常简单：

在显示您创建的模型的页面上，选择一个模型。
Share.
选择您要共享的模型的一个或多个版本。
或者，包括一个注释，提供有关模型或您正在寻找的帮助的更多背景信息。
创建 SageMaker Studio 链接.
复制生成的链接。

就是这样！您现在可以通过 Slack、电子邮件或您喜欢的任何其他方法与您的同事共享链接。数据科学家需要在同一个 SageMaker Studio 域中才能访问您的模型，因此请确保您的组织管理员是这种情况。

数据科学家从 SageMaker Studio 访问模型信息

现在，让我们扮演数据科学家或 ML 工程师的角色，并使用 SageMaker Studio 从他们的角度看待问题。

分析师分享的链接将我们带到 SageMaker Studio，这是第一个用于端到端 ML 工作流的基于云的 IDE。

该选项卡会自动打开，并显示分析师在 SageMaker Canvas 中创建的模型的概览。您可以快速查看模型的名称、ML 问题类型、模型版本以及创建模型的用户（在 Canvas 用户 ID 字段下）。您还可以访问有关输入数据集和 SageMaker 能够生成的最佳模型的详细信息。我们将在后面的文章中深入探讨。

点击 输入数据集 选项卡，您还可以查看从源到输入数据集的数据流。在这种情况下，只使用了一个数据源，并且没有应用任何连接操作，因此只显示了一个数据源。您可以通过选择来分析有关数据集的统计信息和详细信息 打开数据探索笔记本. 此笔记本可让您探索在训练模型之前可用的数据，并包含对目标变量的分析、输入数据的样本、列和行的统计信息和描述，以及其他有用的信息，供数据科学家使用了解有关数据集的更多信息。要了解有关此报告的更多信息，请参阅数据探索报告.

分析输入数据集后，让我们转到模型概览的第二个选项卡， AutoML 作业. 当您在 SageMaker Canvas 中选择标准构建选项时，此选项卡包含 AutoML 作业的描述。

SageMaker Canvas 下的 AutoML 技术消除了构建 ML 模型的繁重工作。它使用自动化方法根据您的数据自动构建、训练和调整最佳 ML 模型，同时允许您保持完全控制和可见性。生成的候选模型以及在 AutoML 过程中使用的超参数的这种可见性包含在候选生成笔记本，在此选项卡上可用。

AutoML 作业 选项卡还包含作为 AutoML 流程的一部分构建的每个模型的列表，按 F1 客观指标排序。为了突出显示已启动的训练作业中的最佳模型，在 最佳模特 柱子。您还可以轻松地可视化在训练和评估阶段使用的其他指标，例如准确度得分和曲线下面积 (AUC)。要详细了解您可以在 AutoML 作业期间训练的模型以及用于评估训练模型性能的指标，请参阅模型支持、指标和验证.

要了解有关模型的更多信息，您现在可以右键单击最佳模型并选择 在模型详细信息中打开. 或者，您可以选择 最佳模型 链接在顶部 型号概述 您第一次访问的部分。

模型详细信息页面包含大量有用信息，这些信息与使用此输入数据表现最佳的模型有关。让我们首先关注页面顶部的摘要。前面的示例屏幕截图显示，在数百次模型训练运行中，XGBoost 模型在输入数据集上的表现最好。在撰写本文时，SageMaker Canvas 可以训练三种类型的 ML 算法：线性学习器、XGBoost 和多层感知器 (MLP)，每种算法都具有多种预处理管道和超参数。要了解有关每种算法的更多信息，请参阅支持的算法页面.

SageMaker 还包括解释性功能，这要归功于可扩展且高效的内核形状，基于来自合作博弈论领域的 Shapley 值的概念，该概念为每个特征分配一个特定预测的重要性值。这使得模型如何得出其预测变得透明，并且定义特征重要性非常有用。可下载 PDF、笔记本或原始数据格式的完整可解释性报告，包括特征重要性。在该报告中，显示了更广泛的指标集以及 AutoML 作业期间使用的超参数的完整列表。要详细了解 SageMaker 如何为 AutoML 解决方案和标准 ML 算法提供集成的可解释性工具，请参阅使用集成的可解释性工具并使用 Amazon SageMaker Autopilot 提高模型质量.

最后，此视图中的其他选项卡显示有关性能详细信息（混淆矩阵、精确召回曲线、ROC 曲线）、用于输入和在 AutoML 作业期间生成的工件以及网络详细信息的信息。

此时，数据科学家有两个选择：直接部署模型，或者创建可以手动或自动调度或触发的训练管道。以下部分提供了对这两个选项的一些见解。

直接部署模型

如果数据科学家对 AutoML 作业获得的结果感到满意，他们可以直接从 型号详情 页。就像选择一样简单 部署模型 型号名称旁边。

SageMaker 向您展示了两种部署选项：实时端点，由 Amazon SageMaker 终端节点和批量推理，由 Amazon SageMaker批量转换.

SageMaker 还提供其他推理模式。要了解更多信息，请参阅部署模型进行推理.

要启用实时预测模式，您只需为端点指定名称、实例类型和实例计数。由于此模型不需要大量计算资源，因此您可以使用初始计数为 1 的基于 CPU 的实例。您可以在 Amazon SageMaker 定价页面在里面 按需定价 部分，选择 实时推理 标签）。如果您不知道应该为部署选择哪个实例，您还可以使用 SageMaker 推理推荐器. 您还可以提供额外的可选参数，关于您是否要从端点捕获请求和响应数据。如果您打算监控你的模型. 您还可以选择希望提供哪些内容作为响应的一部分——无论是预测还是预测概率、所有类别的概率以及目标标签。

要运行批处理评分作业，一次获取整个输入集的预测，您可以从 AWS管理控制台或通过 SageMaker Python SDK。要了解有关批量转换的更多信息，请参阅使用批量转换和示例笔记本。

定义训练管道

机器学习模型很少（如果有的话）被认为是静态的和不变的，因为它们偏离了他们训练过的基线。现实世界的数据会随着时间的推移而发展，并从中出现更多的模式和见解，这些可能会或可能不会被基于历史数据训练的原始模型捕获。为了解决这个问题，您可以设置一个训练管道，使用最新的可用数据自动重新训练您的模型。

在定义此管道时，数据科学家的选择之一是再次将 AutoML 用于训练管道。您可以通过调用 create_auto_ml_job() API 以编程方式启动 AutoML 作业 AWS Boto3 开发工具包. 您可以从 AWS Lambda 内的功能 AWS步骤功能工作流程，或从 LambdaStep 中 Amazon SageMaker管道.

或者，数据科学家可以使用从 AutoML 作业中获得的知识、工件和超参数来定义完整的训练管道。您需要以下资源：

最适合用例的算法 – 您已经从 Canvas 生成的模型的摘要中获得了此信息。对于这个用例，它是 XGBoost 内置算法。有关如何使用 SageMaker Python SDK 通过 SageMaker 训练 XGBoost 算法的说明，请参阅将 XGBoost 与 SageMaker Python SDK 结合使用.

AutoML 作业派生的超参数 – 这些可在 可解释性 部分。在使用 SageMaker Python SDK 定义训练作业时，您可以将它们用作输入。

Artifacts 部分提供的特征工程代码 – 您可以使用此代码在训练之前（例如，通过 Amazon SageMaker 处理）或推理之前（例如，作为 SageMaker 推理管道的一部分）预处理数据。

您可以将这些资源组合为 SageMaker 管道的一部分。我们在这篇文章中省略了实现细节——请继续关注这个主题的更多内容。

结论

SageMaker Canvas 让您无需编写任何代码即可使用 ML 生成预测。业务分析师可以自主开始将其与本地数据集以及已存储在其上的数据一起使用亚马逊简单存储服务（Amazon S3），亚马逊Redshift，或雪花。只需单击几下，他们就可以准备和加入他们的数据集，分析估计的准确性，验证哪些列是有影响的，训练性能最佳的模型，并生成新的个人或批量预测，所有这些都不需要聘请专家数据科学家。然后，根据需要，他们可以与数据科学家或 MLOps 工程师团队共享模型，他们将模型导入 SageMaker Studio，并与分析师一起提供生产解决方案。

业务分析师可以独立地从他们的数据中获得洞察力，而无需获得 ML 学位，也无需编写任何代码。数据科学家现在可以有更多时间从事更具挑战性的项目，这些项目可以更好地利用他们在 AI 和 ML 方面的广泛知识。

我们相信，这种新的合作为您的企业构建更多更强大的机器学习解决方案打开了大门。您现在可以让分析师产生有价值的业务见解，同时让数据科学家和 ML 工程师根据需要帮助改进、调整和扩展。

更多资讯

要了解有关 SageMaker 如何进一步帮助业务分析师的更多信息，请参阅面向业务分析师的 Amazon SageMaker.
要详细了解 SageMaker 如何让数据科学家开发、训练和部署他们的 ML 模型，请查看面向数据科学家的 Amazon SageMaker.
有关 SageMaker 如何帮助 MLOps 工程师使用 MLOps 简化 ML 生命周期的更多信息，请参阅适用于 MLOps 工程师的 Amazon SageMaker.

作者简介

戴维德·加利特利 是 EMEA 地区的 AI/ML 专家解决方案架构师。他常驻布鲁塞尔，与比荷卢三国的客户密切合作。他从小就是一名开发人员，7 岁开始编写代码。他从大学开始学习 AI/ML，从那时起就爱上了它。

马克·罗伊 是AWS的首席机器学习架构师，帮助客户设计和构建AI / ML解决方案。 Mark的工作涉及广泛的ML用例，主要关注计算机视觉，深度学习以及在整个企业范围内扩展ML。他曾帮助许多行业的公司提供服务，包括保险，金融服务，媒体和娱乐，医疗保健，公用事业和制造业。 Mark拥有六项AWS认证，包括ML Specialty认证。在加入AWS之前，Mark曾担任架构师，开发人员和技术主管超过25年，其中包括19年的金融服务。

时间戳记： 2022 年 3 月 10 日

时间戳记： 2022 年 7 月 20 日

由柏拉图重新发布

白皮书：医疗保健和生命科学领域的机器学习最佳实践

使用 Amazon SageMaker Pipelines 本地模式降低成本和开发时间

使用 Amazon SageMaker、HashiCorp Terraform 和 GitLab CI/CD 进行批量推理以及模型监控和再训练的 MLOps | 亚马逊网络服务

重塑数据体验：使用生成式 AI 和现代数据架构解锁洞察力 | 亚马逊网络服务

使用 Amazon Rekognition 和 Amazon Textract 审核、分类和处理文档

使用 AWS Media Intelligence 和 Hugging Face BERT 构建基于分类的上下文定位

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理