亚马逊SageMaker数据牧马人 是一个单一的可视化界面,可将准备数据和执行特征工程所需的时间从几周缩短到几分钟,并且能够在机器学习 (ML) 工作流程中选择和清理数据、创建特征以及自动化数据准备,而无需编写任何代码。
SageMaker Data Wrangler 支持 雪花,对于想要执行机器学习的用户来说是一个流行的数据源。 我们从 SageMaker Data Wrangler 启动了 Snowflake 直接连接,以改善客户体验。 在推出此功能之前,管理员需要设置初始存储集成以与 Snowflake 连接,以便在 Data Wrangler 中创建 ML 功能。 这包括配置 亚马逊简单存储服务 (亚马逊 S3)桶, AWS身份和访问管理 (IAM) 访问权限、针对个人用户的 Snowflake 存储集成,以及管理或清理 Amazon S3 中数据副本的持续机制。 对于具有严格数据访问控制和大量用户的客户来说,此过程不可扩展。
在这篇文章中,我们展示了 Snowflake 在 SageMaker Data Wrangler 中的直接连接如何简化管理员的体验和数据科学家从数据到业务洞察的 ML 旅程。
解决方案概述
在此解决方案中,我们使用 SageMaker Data Wrangler 来加速 ML 的数据准备和 亚马逊SageMaker自动驾驶仪 根据您的数据自动构建、训练和微调 ML 模型。 这两项服务都是专门为提高机器学习从业者的生产力并缩短实现价值的时间而设计的。 我们还演示了从 SageMaker Data Wrangler 到 Snowflake 的简化数据访问,并直接连接到查询和创建 ML 功能。
请参阅下图,了解使用 Snowflake、SageMaker Data Wrangler 和 SageMaker Autopilot 的低代码 ML 流程的概述。
工作流程包括以下步骤:
- 导航到 SageMaker Data Wrangler 执行数据准备和功能工程任务。
- 设置 Snowflake 与 SageMaker Data Wrangler 的连接。
- 在 SageMaker Data Wrangler 中探索您的 Snowflake 表,创建 ML 数据集并执行特征工程。
- 使用 SageMaker Data Wrangler 和 SageMaker Autopilot 训练和测试模型。
- 将最佳模型加载到实时推理端点以进行预测。
- 使用Python笔记本调用启动的实时推理端点。
先决条件
对于这篇文章,管理员需要满足以下先决条件:
数据科学家应具备以下先决条件
最后,您应该准备 Snowflake 的数据
- 我们使用的信用卡交易数据来自 Kaggle 构建机器学习模型来检测欺诈性信用卡交易,这样客户就不会为他们未购买的商品付费。 该数据集包括欧洲持卡人 2013 年 XNUMX 月进行的信用卡交易。
- 您应该使用 SnowSQL客户端 并将其安装在本地计算机中,以便您可以使用它将数据集上传到 Snowflake 表。
以下步骤显示如何准备数据集并将其加载到 Snowflake 数据库中。 这是一次性设置。
雪花表和数据准备
完成此一次性设置的以下步骤:
- 首先,作为管理员,创建 Snowflake 虚拟仓库、用户和角色,并向其他用户(例如数据科学家)授予访问权限,以便为其 ML 用例创建数据库和暂存数据:
- 作为数据科学家,我们现在创建一个数据库并将信用卡交易导入到 Snowflake 数据库中,以访问 SageMaker Data Wrangler 中的数据。 出于说明目的,我们创建一个名为的 Snowflake 数据库
SF_FIN_TRANSACTION
: - 将数据集 CSV 文件下载到本地计算机并创建一个阶段以将数据加载到数据库表中。 在运行 PUT 命令将数据导入到创建的阶段之前,更新文件路径以指向下载的数据集位置:
- 创建一个名为的表
credit_card_transactions
: - 将数据从stage导入到创建的表中:
设置 SageMaker Data Wrangler 和 Snowflake 连接
准备好要与 SageMaker Data Wrangler 一起使用的数据集后,让我们在 SageMaker Data Wrangler 中创建一个新的 Snowflake 连接以连接到 sf_fin_transaction
Snowflake 中的数据库并查询 credit_card_transaction
表:
- 雪花 在 SageMaker Data Wrangler 上 连系 : 页面上发布服务提醒。
- 提供一个名称来标识您的连接。
- 选择连接 Snowflake 数据库的身份验证方法:
- 如果使用基本身份验证,请提供 Snowflake 管理员共享的用户名和密码。 在这篇文章中,我们使用基本身份验证来使用我们在上一步中创建的用户凭据连接到 Snowflake。
- 如果您使用 OAuth,请提供您的身份提供商凭据。
默认情况下,SageMaker Data Wrangler 直接从 Snowflake 查询数据,而不在 S3 存储桶中创建任何数据副本。 SageMaker Data Wrangler 的新可用性增强功能使用 Apache Spark 与 Snowflake 集成,为您的 ML 之旅准备并无缝创建数据集。
到目前为止,我们已经在 Snowflake 上创建了数据库,将 CSV 文件导入到 Snowflake 表中,创建了 Snowflake 凭证,并在 SageMaker Data Wrangler 上创建了一个连接器以连接到 Snowflake。 要验证配置的 Snowflake 连接,请对创建的 Snowflake 表运行以下查询:
请注意,以前需要的存储集成选项现在在高级设置中是可选的。
探索雪花数据
验证查询结果后,选择 进口 将查询结果保存为数据集。 我们使用这个提取的数据集进行探索性数据分析和特征工程。
您可以选择在 SageMaker Data Wrangler UI 中对 Snowflake 中的数据进行采样。 另一种选择是使用 SageMaker Data Wrangler 处理作业下载 ML 模型训练用例的完整数据。
在 SageMaker Data Wrangler 中执行探索性数据分析
Data Wrangler 中的数据需要先进行设计,然后才能进行训练。 在本部分中,我们将演示如何使用 SageMaker Data Wrangler 的内置功能对 Snowflake 中的数据执行特征工程。
首先,让我们使用 Data Quality and Insights Report
SageMaker Data Wrangler 中的功能可生成报告,自动验证数据质量并检测 Snowflake 数据中的异常情况。
您可以使用该报告来帮助您清理和处理数据。 它为您提供缺失值数量和异常值数量等信息。 如果您的数据存在问题,例如目标泄漏或不平衡,洞察报告可以提醒您注意这些问题。 如需了解报告详情,请参阅 利用 Amazon SageMaker Data Wrangler 中的数据质量和洞察力加速数据准备.
检查 SageMaker Data Wrangler 应用的数据类型匹配后,请完成以下步骤:
- 选择旁边的加号 资料类型 并选择 添加分析.
- 针对 分析类型,选择 数据质量和洞察报告.
- 创建.
- 请参阅数据质量和见解报告详细信息以查看高优先级警告。
您可以选择先解决报告的警告,然后再继续您的 ML 之旅。
目标列 Class
待预测被分类为字符串。 首先,让我们应用一个转换来删除陈旧的空字符。
- 添加步骤 并选择 格式字符串.
- 在转换列表中,选择 向左和向右剥离.
- 输入要删除的字符并选择 地址.
接下来,我们转换目标列 Class
从字符串数据类型转换为布尔值,因为交易要么合法,要么欺诈。
- 添加步骤.
- 将列解析为类型.
- 对于列,选择
Class
. - 针对 从,选择 串.
- 针对 至,选择 布尔.
- 地址.
目标列变换后,我们减少了特征列的数量,因为原始数据集中有超过 30 个特征。 我们使用主成分分析(PCA)根据特征重要性来减少维度。 要了解有关 PCA 和降维的更多信息,请参阅 主成分分析 (PCA) 算法.
- 添加步骤.
- 降维.
- 针对 改造,选择 主成分分析.
- 针对 输入列,选择除目标列之外的所有列
Class
. - 选择旁边的加号 数据流 并选择 添加分析。
- 针对 分析类型,选择 快速模型.
- 针对 分析名称,输入名称。
- 针对 标签,选择
Class
. - 运行.
根据 PCA 结果,您可以决定使用哪些特征来构建模型。 在下面的屏幕截图中,图表显示了根据从高到低的重要性排序的特征(或维度),以预测目标类别,在此数据集中,目标类别是交易是欺诈还是有效。
您可以根据此分析选择减少功能数量,但对于本文,我们保留默认值不变。
我们的特征工程过程到此结束,尽管您可以选择运行快速模型并再次创建数据质量和见解报告以在执行进一步优化之前了解数据。
导出数据并训练模型
在下一步中,我们使用 SageMaker Autopilot 根据您的数据自动构建、训练和调整最佳的 ML 模型。 借助 SageMaker Autopilot,您仍然可以保持对数据和模型的完全控制和可见性。
现在我们已经完成了探索和特征工程,让我们在数据集上训练模型并导出数据以使用 SageMaker Autopilot 训练 ML 模型。
- 点击 产品培训 标签,选择 出口和培训.
我们可以在等待导出完成时监控导出进度。
让我们通过指定我们想要预测的目标和问题类型来配置 SageMaker Autopilot 以运行自动化训练作业。 在本例中,因为我们正在训练数据集来预测交易是欺诈还是有效,所以我们使用二元分类。
- 输入实验名称,提供 S3 位置数据,然后选择 下一篇:目标与特点.
- 针对 目标,选择
Class
作为要预测的列。 - 下一篇:训练方法.
让我们让 SageMaker Autopilot 根据数据集决定训练方法。
- 针对 训练方法和算法, 选择 汽车.
要了解有关 SageMaker Autopilot 支持的训练模式的更多信息,请参阅 训练模式和算法 支持。
- Next: 部署和高级设置.
- 针对 部署选项,选择 通过 Data Wrangler 的转换自动部署最佳模型,它会在实验完成后加载最佳的推理模型。
- 输入端点的名称。
- 针对 选择机器学习问题类型,选择 二元分类.
- 针对 反对指标,选择 F1.
- 下一个:查看和创建.
- 创建实验.
这将启动一个 SageMaker Autopilot 作业,该作业创建一组训练作业,使用超参数组合来优化目标指标。
等待 SageMaker Autopilot 完成模型构建和最佳 ML 模型的评估。
启动实时推理端点来测试最佳模型
SageMaker Autopilot 运行实验以确定可以将信用卡交易分类为合法或欺诈的最佳模型。
当 SageMaker Autopilot 完成实验后,我们可以通过评估指标查看训练结果,并从 SageMaker Autopilot 作业描述页面探索最佳模型。
- 选择最佳型号并选择 部署模型.
我们使用实时推理端点来测试通过 SageMaker Autopilot 创建的最佳模型。
- 选择 进行实时预测.
当端点可用时,我们可以传递有效负载并获取推理结果。
让我们启动一个 Python 笔记本来使用推理端点。
- 在 SageMaker Studio 控制台上,选择导航窗格中的文件夹图标,然后选择 创建笔记本.
- 使用以下Python代码调用已部署的实时推理端点:
输出显示结果为 false
,这意味着样本特征数据不是欺诈性的。
清理
为了确保您在完成本教程后不会产生费用, 关闭 SageMaker Data Wrangler 应用程序 和 关闭笔记本实例 用于执行推理。 你也应该 删除推理端点 您使用 SageMaker Autopilot 创建以避免产生额外费用。
结论
在这篇文章中,我们演示了如何直接从 Snowflake 获取数据,而无需在此过程中创建任何中间副本。 您可以直接从 Snowflake 采样或将完整数据集加载到 SageMaker Data Wrangler。 然后,您可以使用 SageMaker Data Wrangler 的可视化界面探索数据、清理数据并执行特色工程。
我们还重点介绍了如何直接从 SageMaker Data Wrangler 用户界面使用 SageMaker Autopilot 轻松训练和调整模型。 通过 SageMaker Data Wrangler 和 SageMaker Autopilot 集成,我们可以在完成特征工程后快速构建模型,而无需编写任何代码。 然后,我们引用 SageMaker Autopilot 的最佳模型来使用实时端点运行推理。
立即尝试新的 Snowflake 与 SageMaker Data Wrangler 的直接集成,以使用 SageMaker 使用您的数据轻松构建 ML 模型。
关于作者
哈里哈兰苏雷什 是 AWS 的高级解决方案架构师。 他热衷于数据库、机器学习和设计创新解决方案。 在加入 AWS 之前,Hariharan 是一名产品架构师、核心银行实施专家和开发人员,并在 BFSI 组织工作了 11 年多。 除了技术,他还喜欢滑翔伞和骑自行车。
阿帕拉吉坦·维迪亚纳坦 是 AWS 的首席企业解决方案架构师。 他支持企业客户在 AWS 云上迁移工作负载并实现其现代化。 他是一名云架构师,在设计和开发企业、大型分布式软件系统方面拥有 23 年以上的经验。 他专注于机器学习和数据分析,重点关注数据和特征工程领域。 他是一名有抱负的马拉松运动员,爱好包括徒步旅行、骑自行车以及与妻子和两个儿子共度时光。
蒂姆·宋 是 AWS SageMaker 的软件开发工程师,拥有 10 多年的软件开发人员、顾问和技术领导者经验,他展示了交付可扩展且可靠的产品以及解决复杂问题的能力。 业余时间,他喜欢大自然、户外跑步、徒步旅行等。
博斯科阿尔伯克基 是 AWS 的高级合作伙伴解决方案架构师,在使用企业数据库供应商和云提供商的数据库和分析产品方面拥有超过 20 年的经验。 他曾帮助大型科技公司设计数据分析解决方案,并带领工程团队设计和实施数据分析平台和数据产品。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 汽车/电动汽车, 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 块偏移量。 现代化环境抵消所有权。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- :具有
- :是
- :不是
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 20
- 20 年
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- 对,能力--
- 关于
- 加快
- ACCESS
- 账号管理
- 额外
- 管理员
- 高级
- 后
- 再次
- AI / ML
- 所有类型
- 让
- 还
- 尽管
- Amazon
- 亚马逊SageMaker
- 亚马逊SageMaker数据牧马人
- 亚马逊网络服务
- 量
- an
- 分析
- 分析
- 和
- 另一个
- 任何
- 阿帕奇
- API
- 应用的
- 使用
- 保健
- AS
- 有志
- At
- 关注我们
- 认证
- 自动化
- 自动化
- 自动
- 可使用
- AWS
- 银行业
- 基于
- 基本包
- BE
- 因为
- before
- 如下。
- 最佳
- BFSI
- 身体
- 都
- 带来
- 建立
- 建筑物
- 内建的
- 商业
- 但是
- by
- CAN
- 能力
- 捕获
- 卡
- 案件
- 例
- 字符
- 带电
- 收费
- 查
- 程
- 分类
- 机密
- 分类
- 客户
- 云端技术
- 码
- 柱
- 列
- 组合
- 公司
- 完成
- 完成
- 完成对
- 完成
- 复杂
- 元件
- 配置
- 分享链接
- 地都
- 安慰
- 顾问
- 继续
- 控制
- 兑换
- 核心
- 核心银行
- 创建信息图
- 创建
- 创建
- 创造
- 资历
- 信用
- 信用卡
- 顾客
- 客户体验
- 合作伙伴
- data
- 数据访问
- 数据分析
- 数据分析
- 资料准备
- 数据科学家
- 数据库
- 数据库
- 决定
- 默认
- 默认
- 交付
- 演示
- 证明
- 部署
- 部署
- 部署
- 描述
- 设计
- 设计
- 设计
- 详情
- 确定
- 开发商
- 发展
- 研发支持
- 尺寸
- 直接
- 直接
- 分布
- 域
- 别
- 向下
- 下载
- 容易
- 或
- 端点
- 工程师
- 工程师
- 输入
- 企业
- 等
- 欧洲
- 评估
- 除
- 存在
- 体验
- 实验
- 实验
- 勘探
- 探索性数据分析
- 探索
- 出口
- 远
- 专栏
- 特征
- 特色
- 文件
- 金融
- 完
- 姓氏:
- 浮动
- 专注焦点
- 以下
- 针对
- 格式
- 欺诈
- 止
- ,
- 进一步
- 生成
- 得到
- 给
- 授予
- 图形
- 有
- he
- 帮助
- 帮助
- 最高
- 突出
- 他的
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- ICON
- 鉴定
- 身分
- if
- 失调
- 履行
- 实施
- 进口
- 重要性
- 输入
- 进口
- 改善
- in
- 包括
- 包括
- 增加
- 个人
- 信息
- 初始
- 创新
- 可行的洞见
- 安装
- 整合
- 积分
- 接口
- 内部
- 成
- 问题
- IT
- 项目
- 工作
- 工作机会
- 加盟
- 旅程
- JPG
- JSON
- 大
- 大规模
- 发射
- 推出
- 领导者
- 学习
- 离开
- 导致
- 左
- 合法
- 让
- 自学资料库
- 极限
- 清单
- 加载
- 负载
- 本地
- 圖書分館的位置
- 最低
- 机
- 机器学习
- 制成
- 保持
- 使
- 管理
- 马拉松
- 匹配
- 可能..
- 机制
- 方法
- 公
- 指标
- 迁移
- 分钟
- 失踪
- ML
- 模型
- 模型
- 现代化
- 模式
- 显示器
- 更多
- 姓名
- 命名
- 自然
- 旅游导航
- 需要
- 全新
- 下页
- 笔记本
- 现在
- 数
- OAuth的
- 对象
- 目标
- of
- on
- 正在进行
- 优化
- 附加选项
- or
- 秩序
- 组织
- 原版的
- OS
- 其他名称
- 我们的
- 输出
- 产量
- 学校以外
- 超过
- 简介
- 页
- 面包
- 合伙人
- 通过
- 多情
- 密码
- 径
- 演出
- 执行
- 权限
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 加
- 点
- 热门
- 帖子
- 预测
- 都曾预测
- 预测
- 准备
- Prepare
- 先决条件
- 防止
- 以前
- 校长
- 打印
- 先
- 市场问题
- 问题
- 过程
- 处理
- 产品
- 生产率
- 核心产品
- 进展
- 提供
- 提供者
- 供应商
- 国家
- 采购
- 目的
- 放
- 蟒蛇
- 质量
- 查询
- 快速
- 很快
- 实时的
- 减少
- 减少
- 减少
- 可靠
- 去掉
- 更换
- 报告
- 报道
- 业务报告
- 请求
- 必须
- 响应
- 导致
- 成果
- 检讨
- 骑术
- 角色
- 运行
- 亚军
- 运行
- s
- sagemaker
- 保存
- 可扩展性
- 科学家
- 科学家
- 无缝
- 部分
- 提交
- 前辈
- 九月
- 特色服务
- 集
- 设置
- 格局
- 共用的,
- 应该
- 显示
- 作品
- 签署
- 简易
- 简
- 单
- So
- 软件
- 软件开发
- 方案,
- 解决方案
- 解决
- 歌曲
- 来源
- 火花
- 专家
- 专业
- 特别是
- 速度
- 花费
- 阶段
- 启动
- 步
- 步骤
- 仍
- 存储
- 商店
- 监督
- 串
- 工作室
- 提交
- 成功
- 顺利
- 这样
- SUPPORT
- 支持
- 支持
- 产品
- 表
- 目标
- 任务
- 队
- 科技
- 专业技术
- 科技公司
- test
- 这
- 图
- 其
- 然后
- 那里。
- 他们
- Free Introduction
- 那些
- 通过
- 次
- 至
- 今晚
- 培训
- 熟练
- 产品培训
- 交易
- 交易
- 转型
- 变换
- true
- 教程
- 二
- 类型
- ui
- 理解
- 更新
- us
- 可用性
- 使用
- 用过的
- 用户
- 用户界面
- 用户
- 使用
- 运用
- v1
- 验证
- 折扣值
- 价值观
- 厂商
- 确认
- 查看
- 在线会议
- 能见度
- 等待
- 想
- 是
- we
- 卷筒纸
- Web服务
- 周
- 为
- 是否
- 这
- 而
- WHO
- 妻子
- 中
- 也完全不需要
- 工作
- 工作
- 工作流程
- 工作流程
- 加工
- 写作
- 年
- 完全
- 您一站式解决方案
- 和风网