数据准备是任何机器学习 (ML) 工作流程中的关键步骤,但它通常涉及繁琐且耗时的任务。 亚马逊 SageMaker 画布 现在支持全面的数据准备功能 亚马逊SageMaker数据牧马人。 通过这种集成,SageMaker Canvas 为客户提供了一个端到端的无代码工作区来准备数据、构建和使用 ML 和基础模型,以加快从数据到业务洞察的速度。 您现在可以轻松发现和聚合来自 50 多个数据源的数据,并使用 SageMaker Canvas 可视化界面中的 300 多个内置分析和转换来探索和准备数据。 您还将看到更快的转换和分析性能,以及用于探索和转换 ML 数据的自然语言界面。
在这篇文章中,我们将引导您完成在 SageMaker Canvas 中为端到端模型构建准备数据的过程。
解决方案概述
对于我们的用例,我们假设金融服务公司的数据专业人员的角色。 我们使用两个样本数据集构建一个机器学习模型,该模型可以预测借款人是否会全额偿还贷款,这对于管理信用风险至关重要。 SageMaker Canvas 的无代码环境使我们能够快速准备数据、设计功能、训练 ML 模型并在端到端工作流程中部署模型,而无需编码。
先决条件
要按照本演练进行操作,请确保您已实现了中详细介绍的先决条件
- 启动 Amazon SageMaker Canvas。 如果您已经是 SageMaker Canvas 用户,请确保您 注销 并重新登录即可使用此新功能。
- 要从 Snowflake 导入数据,请按照以下步骤操作 为 Snowflake 设置 OAuth.
准备交互式数据
设置完成后,我们现在可以创建数据流以启用交互式数据准备。 数据流提供内置转换和实时可视化来处理数据。 完成以下步骤:
- 使用以下方法之一创建新的数据流:
- 数据管理员, 数据流,然后选择 创建.
- 选择 SageMaker Canvas 数据集并选择 创建数据流.
- 导入日期 并选择 表格 从下拉列表中选择。
- 您可以通过 50 多个数据连接器直接导入数据,例如 亚马逊简单存储服务 (Amazon S3), 亚马逊雅典娜, 亚马逊Redshift、雪花和 Salesforce。 在本演练中,我们将介绍直接从 Snowflake 导入数据。
或者,您可以从本地计算机上传相同的数据集。 您可以下载数据集 贷款-part-1.csv 和 贷款-part-2.csv.
- 在“导入数据”页面中,从列表中选择 Snowflake,然后选择 添加连接。
- 输入连接名称,选择 OAuth的 身份验证方法下拉列表中的选项。 输入您的 okta 帐户 ID 并选择添加连接。
- 您将被重定向到 Okta 登录屏幕以输入 Okta 凭据进行身份验证。 身份验证成功后,您将被重定向到数据流页面。
- 浏览并从 Snowflake 数据库中查找贷款数据集
通过将两个贷款数据集从屏幕左侧拖放到右侧来选择它们。 两个数据集将连接,并且将出现带有红色感叹号的连接符号。 单击它,然后为两个数据集选择 id 钥匙。 将连接类型保留为 内. 它应该是这样的:
- 保存并关闭.
- 创建数据集。 为数据集命名。
- 导航到数据流,您将看到以下内容。
- 要快速浏览贷款数据,请选择 获取数据洞察 并选择
loan_status
目标列和 分类 问题类型。
产生的 数据质量和洞察报告 提供关键统计数据、可视化和特征重要性分析。
- 查看有关数据质量问题和不平衡类别的警告,以了解和改进数据集。
对于此用例中的数据集,您应该会收到“快速模型得分非常低”的高优先级警告,并且对少数类(已注销和当前)的模型功效非常低,这表明需要清理和平衡数据。 参考 画布文档 了解有关数据洞察报告的更多信息。
凭借 SageMaker Data Wrangler 支持的 300 多个内置转换,SageMaker Canvas 使您能够快速整理贷款数据。 您可以点击 添加步骤,然后浏览或搜索正确的转换。 对于此数据集,使用 掉落丢失 和 处理异常值 清理数据,然后应用 单热编码, 和 矢量化文本 为 ML 创建特征。
聊天数据准备 是一种新的自然语言功能,通过用简单的英语描述请求来实现直观的数据分析。 例如,您可以使用自然短语对贷款数据进行统计和特征相关性分析。 SageMaker Canvas 通过对话交互理解并运行操作,将数据准备提升到一个新的水平。
我们可以使用 聊天数据准备 并内置转换来平衡贷款数据。
- 首先,输入以下指令:
replace “charged off” and “current” in loan_status with “default”
聊天数据准备 生成代码以将两个少数类合并为一个 default
类。
- 选择内置的 冒烟 转换函数为默认类生成合成数据。
现在您有了一个平衡的目标列。
- 清洗处理贷款数据后,重新生成 数据质量和洞察报告 审查改进措施。
高优先级警告消失,表明数据质量有所改善。 您可以根据需要添加进一步的转换,以提高模型训练的数据质量。
扩展和自动化数据处理
要自动化数据准备,您可以将整个工作流程作为分布式 Spark 处理作业来运行或计划,以大规模处理整个数据集或任何新数据集。
- 在数据流中,添加 Amazon S3 目标节点。
- 通过选择启动 SageMaker 处理作业 建立工作.
- 配置处理作业并选择 创建,使流程能够在数百 GB 的数据上运行,而无需采样。
数据流可以合并到端到端 MLOps 管道中,以自动化 ML 生命周期。 数据流可以作为 SageMaker 管道中的数据处理步骤输入 SageMaker Studio 笔记本,或者用于部署 SageMaker 推理管道。 这使得从数据准备到 SageMaker 训练和托管的流程自动化。
在 SageMaker Canvas 中构建并部署模型
数据准备后,我们可以将最终数据集无缝导出到 SageMaker Canvas,以构建、训练和部署贷款支付预测模型。
- 建立模型 在数据流的最后一个节点或节点窗格中。
这将导出数据集并启动引导模型创建工作流程。
- 命名导出的数据集并选择 出口.
- 建立模型 从通知。
- 命名模型,选择 预测分析,并选择 创建.
这会将您重定向到模型构建页面。
- 通过选择目标列和模型类型来继续 SageMaker Canvas 模型构建体验,然后选择 快速建立 or 标准构建.
要了解有关模型构建经验的更多信息,请参阅 建立模型.
训练完成后,您可以使用模型来预测新数据或部署它。 参考 将 Amazon SageMaker Canvas 中构建的 ML 模型部署到 Amazon SageMaker 实时终端节点 了解有关从 SageMaker Canvas 部署模型的更多信息。
结论
在这篇文章中,我们通过扮演财务数据专业人员的角色,在 SageMaker Data Wrangler 的支持下准备数据来预测贷款支付,展示了 SageMaker Canvas 的端到端功能。 交互式数据准备可以快速清理、转换和分析贷款数据,以设计信息特征。 通过消除编码复杂性,SageMaker Canvas 使我们能够快速迭代以创建高质量的训练数据集。 这种加速的工作流程直接导致构建、训练和部署高性能机器学习模型以产生业务影响。 凭借全面的数据准备和从数据到见解的统一体验,SageMaker Canvas 使您能够改善机器学习结果。 有关如何加速从数据到业务洞察之旅的更多信息,请参阅 SageMaker Canvas 沉浸日 和 AWS 用户指南.
关于作者
Dr. 长沙马 是 AWS 的 AI/ML 专家。 她是一位技术专家,拥有计算机科学博士学位、教育心理学硕士学位,在数据科学和人工智能/机器学习领域拥有多年的独立咨询经验。 她热衷于研究机器和人类智能的方法论。 工作之余,她喜欢徒步旅行、烹饪、狩猎食物以及与朋友和家人共度时光。
阿贾伊戈文达拉姆 是 AWS 的高级解决方案架构师。 他与使用 AI/ML 解决复杂业务问题的战略客户合作。 他的经验在于为适度到大规模的 AI/ML 应用程序部署提供技术指导和设计协助。 他的知识范围从应用程序架构到大数据、分析和机器学习。 他喜欢边休息边听音乐、体验户外活动以及与亲人共度时光。
Huong Nguyen 是 AWS 的高级产品经理。 她负责领导 SageMaker Canvas 和 SageMaker Data Wrangler 的 ML 数据准备工作,拥有 15 年构建以客户为中心的数据驱动产品的经验。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :具有
- :是
- $UP
- 100
- 12
- 13
- 14
- 15 年
- 15%
- 50
- 7
- 8
- a
- Able
- 关于
- 加快
- 加速
- 账号管理
- 行动
- 加
- 骨料
- AI / ML
- 允许
- 允许
- 沿
- 已经
- 还
- Amazon
- 亚马逊SageMaker
- 亚马逊 SageMaker 画布
- 亚马逊网络服务
- an
- 检测值
- 分析
- 分析
- 分析
- 和
- 任何
- 出现
- 应用领域
- 方法
- 架构
- 保健
- AS
- 帮助
- At
- 认证
- 认证
- 自动化
- 自动化
- AWS
- 背部
- 当前余额
- 均衡
- BE
- 大
- 大数据运用
- 无所畏惧
- 借款人
- 都
- 建立
- 建筑物
- 建
- 内建的
- 商业
- by
- CAN
- 可以得到
- 帆布
- 能力
- 能力
- 案件
- 带电
- 选择
- 程
- 类
- 清洁
- 清洁
- 点击
- 码
- 编码
- 柱
- 公司
- 完成
- 复杂
- 复杂性
- 全面
- 一台
- 计算机科学
- 分享链接
- 地都
- 咨询
- 听起来像对话
- 相关
- 外壳
- 创建信息图
- 创建
- 资历
- 信用
- 关键
- 电流
- 合作伙伴
- data
- 数据分析
- 资料准备
- 数据处理
- 数据科学
- 数据驱动
- 数据集
- 默认
- 学位
- 证明
- 部署
- 部署
- 部署
- 描述
- 设计
- 目的地
- 详细
- 方向
- 直接
- 通过各种方式找到
- 分布
- 向下
- 下载
- 下降
- 删除
- 容易
- 教育
- 功效
- 如虎添翼
- enable
- 启用
- 使
- 使
- 端至端
- 工程师
- 英语
- 提高
- 确保
- 输入
- 整个
- 环境
- 例子
- 期望
- 体验
- 经历
- 探索
- 出口
- 出口
- 家庭
- 快
- 专栏
- 特征
- 最后
- 金融
- 财务数据
- 金融服务
- 金融服务公司
- 流
- 流动
- 遵循
- 以下
- 食品
- 针对
- Foundations
- 新鲜
- 朋友
- 止
- 充分
- 功能
- 进一步
- 生成
- 产生
- 产生
- 得到
- 给
- 制导
- 有
- he
- 高
- 高品质
- 他的
- 托管
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- 人
- 人类智慧
- 数百
- 狩猎
- ID
- if
- 不平衡
- 浸没
- 影响力故事
- 实施
- 进口
- 重要性
- 输入
- 改善
- 改善
- 改善
- in
- 成立
- 独立
- 信息
- 信息
- 洞察
- 可行的洞见
- 说明
- 积分
- 房源搜索
- 互动
- 互动
- 接口
- 成
- 直观的
- 问题
- IT
- 它的
- 工作
- 加入
- 旅程
- JPG
- 键
- 知识
- 语言
- 大规模
- (姓氏)
- 启动
- 领导
- 信息
- 学习用品
- 学习
- 离开
- 左
- Level
- 谎言
- 生命周期
- 喜欢
- 清单
- 听力
- 贷款
- 贷款
- 本地
- 日志
- 登录
- 看
- 看起来像
- 爱
- 爱
- 低
- 机
- 机器学习
- 使
- 经理
- 管理的
- 标记
- 硕士
- 合并
- 方法
- 方法
- 少数
- ML
- 多播
- 模型
- 模型
- 谦虚
- 更多
- 音乐
- 姓名
- 自然
- 需求
- 打印车票
- 全新
- 下页
- 节点
- 节点
- 通知
- 现在
- OAuth的
- of
- 折扣
- 经常
- 奥克塔
- on
- 一
- 那些
- 附加选项
- or
- 我们的
- 结果
- 户外活动
- 学校以外
- 超过
- 页
- 面包
- 多情
- 付款
- 性能
- 博士学位
- 短语
- 管道
- 朴素
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 帖子
- 供电
- 预测
- 预测
- 预测
- 准备
- Prepare
- 准备
- 先决条件
- 优先
- 市场问题
- 问题
- 过程
- 处理
- 产品
- 产品经理
- 核心产品
- 所以专业
- 提供
- 优
- 心理学
- 质量
- 很快
- 范围
- 急速
- 实时的
- 红色
- 重定向
- 参考
- 删除
- 报告
- 要求
- 休息
- 检讨
- 右
- 风险
- 角色
- 运行
- 运行
- sagemaker
- SageMaker 推理
- Salesforce的
- 同
- 鳞片
- 始你
- 科学
- 屏风
- 无缝
- 搜索
- 看到
- 选择
- 前辈
- 特色服务
- 服务公司
- 格局
- 她
- 应该
- 侧
- 简易
- 解决方案
- 解决
- 来源
- 火花
- 专家
- 花费
- 统计
- 步
- 步骤
- 存储
- 善用
- 工作室
- 成功
- 这样
- 支持
- 肯定
- 符号
- 合成的
- 综合数据
- 服用
- 目标
- 任务
- 文案
- 技术专家
- 这
- 他们
- 然后
- Free Introduction
- 通过
- 次
- 耗时的
- 至
- 培训
- 产品培训
- 改造
- 转换
- 转型
- 变换
- 二
- 类型
- 理解
- 理解
- 统一
- us
- 使用
- 用例
- 用户
- 运用
- 非常
- 视觉
- 走
- 演练
- 警告
- we
- 卷筒纸
- Web服务
- 井
- 是否
- 这
- 而
- WHO
- 全
- 将
- 也完全不需要
- 工作
- 工作流程
- 合作
- 工作坊
- 将
- 年
- 但
- 完全
- 您一站式解决方案
- 和风网