亚马逊SageMaker数据牧马人 将在 Amazon SageMaker Studio 中为机器学习 (ML) 聚合和准备数据所需的时间从数周缩短至几分钟。 Data Wrangler 使您能够访问来自各种流行来源的数据(Amazon S3, 亚马逊雅典娜, 亚马逊Redshift, 亚马逊电子病历 和 Snowflake)以及 40 多个其他第三方来源。 从今天开始,您可以连接到 亚马逊电子病历 Hive 作为大数据查询引擎,为 ML 引入大数据集。
聚合和准备大量数据是 ML 工作流程的关键部分。 数据科学家和数据工程师使用在 Amazon EMR 上运行的 Apache Spark、Apache Hive 和 Presto 进行大规模数据处理。 这篇博文将介绍数据专业人员如何使用 SageMaker Data Wrangler 的可视化界面来定位和连接到具有 Hive 端点的现有 Amazon EMR 集群。 为了为建模或报告做好准备,他们可以直观地分析数据库、表、模式,并编写 Hive 查询以创建 ML 数据集。 然后,他们可以使用 Data Wrangler 可视化界面快速分析数据,以评估数据质量、发现异常和缺失或不正确的数据,并获得有关如何处理这些问题的建议。 他们可以利用更流行的 ML 支持的内置分析和 Spark 支持的 300 多个内置转换来分析、清理和设计功能,而无需编写一行代码。 最后,他们还可以训练和部署模型 SageMaker自动驾驶仪、计划作业,或从 Data Wrangler 的可视化界面在 SageMaker Pipeline 中操作数据准备。
解决方案概述
借助 SageMaker Studio 设置,数据专业人员可以快速识别并连接到现有的 EMR 集群。 此外,数据专业人员可以从以下位置发现 EMR 集群 使用预定义模板的 SageMaker Studio 按需点击几下。 客户可以使用 SageMaker Studio 通用笔记本并在其中编写代码 Apache Spark, 蜂房, 急板 or 火花 大规模地进行数据准备。 但是,并非所有数据专业人员都熟悉编写 Spark 代码来准备数据,因为其中涉及陡峭的学习曲线。 由于 Amazon EMR 是 Amazon SageMaker Data Wrangler 的数据源,他们现在无需编写一行代码即可快速简单地连接到 Amazon EMR。
下图表示此解决方案中使用的不同组件。
我们演示了两个可用于建立与 EMR 集群的连接的身份验证选项。 对于每个选项,我们部署了一个独特的堆栈 AWS CloudFormation 模板。
选择每个选项后,CloudFormation 模板会执行以下操作:
- 在仅 VPC 模式下创建一个 Studio 域,以及一个名为
studio-user
. - 创建构建块,包括 VPC、端点、子网、安全组、EMR 集群和成功运行示例所需的其他资源。
- 对于 EMR 集群,连接 AWS Glue 数据目录作为 EMR Hive 和 Presto 的元存储,在 EMR 中创建一个 Hive 表,并用来自 美国机场数据集.
- 对于 LDAP CloudFormation 模板,创建一个 亚马逊弹性计算云 (Amazon EC2) 实例来托管 LDAP 服务器以验证 Hive 和 Presto LDAP 用户。
选项 1:轻量级访问目录协议
对于 LDAP 身份验证 CloudFormation 模板,我们使用 LDAP 服务器配置 Amazon EC2 实例,并将 EMR 集群配置为使用此服务器进行身份验证。 这是启用了 TLS。
选项 2:无授权
在无身份验证 CloudFormation 模板中,我们使用未启用身份验证的标准 EMR 集群。
使用 AWS CloudFormation 部署资源
完成以下步骤以部署环境:
- 登录 AWS管理控制台 作为 AWS身份和访问管理 (IAM)用户,最好是管理员用户。
- 启动堆栈 为适当的身份验证场景启动 CloudFormation 模板。 确保用于部署 CloudFormation 堆栈的区域没有现有的 Studio 域。 如果您在某个区域中已有 Studio 域,则可以选择其他区域。
LDAP的 无授权 - 下一页.
- 针对 堆栈名称,输入堆栈名称(例如,
dw-emr-hive-blog
). - 将其他值保留为默认值。
- 要继续,请选择 下一页 从堆栈详细信息页面和堆栈选项。
LDAP 堆栈使用以下凭据。- 用户名:
david
- 密码:
welcome123
- 用户名:
- 在审阅页面上,选中复选框以确认AWS CloudFormation可以创建资源。
- 创建堆栈. 等到堆栈的状态从
CREATE_IN_PROGRESS
至CREATE_COMPLETE
。 该过程通常需要10到15分钟。
在 Data Wrangler 中将 Amazon EMR 设置为数据源
在本节中,我们将介绍如何连接到通过 CloudFormation 模板创建的现有 Amazon EMR 集群作为 Data Wrangler 中的数据源。
创建新的数据流
要创建数据流,请完成以下步骤:
- 在 SageMaker 控制台上,单击 域名,然后点击 工作室域名 通过运行以上 CloudFormation 模板创建。
- 选择 工作室用户 用户配置文件并启动 Studio。
- 开工作室.
- 在 Studio 主页控制台中,选择 以可视化方式导入和准备数据. 或者,在 文件 下拉,选择 全新,然后选择 数据牧马人流程.
- 创建新流可能需要几分钟时间。 创建流后,您会看到 导入日期 页面上发布服务提醒。
- 在 Data Wrangler 中添加 Amazon EMR 作为数据源。 在 添加数据源 菜单中选择 亚马逊电子病历.
您可以浏览您的 Studio 执行角色有权查看的所有 EMR 集群。 您有两种连接到集群的选择; 一种是通过交互式 UI,另一种是首先 使用 AWS Secrets Manager 创建密钥 使用 JDBC URL,包括 EMR 集群信息,然后在 UI 中提供存储的 AWS 秘密 ARN 以连接到 Hive。 在这篇博客中,我们遵循第一个选项。
- 选择您要使用的以下集群之一。 点击 下一页,然后选择端点。
- 选择 蜂巢, 连接到 Amazon EMR,创建一个名称来标识您的连接,然后单击 下一页.
- 选择身份验证类型 轻量级目录访问协议 (LDAP) or 无身份验证.
对于轻量级目录访问协议 (LDAP),选择该选项并单击 接下来,登录集群r,然后提供要进行身份验证的用户名和密码,然后单击“连接”。
对于无身份验证,您将连接到 EMR Hive,而无需在 VPC 中提供用户凭证。 进入 EMR 的 Data Wrangler 的 SQL 资源管理器页面。
- 连接后,您可以交互式地查看数据库树和表格预览或模式。 您还可以查询、探索和可视化来自 EMR 的数据。 对于预览,默认情况下您会看到 100 条记录的限制。 在查询编辑器框中提供 SQL 语句并单击 运行 按钮,查询将在 EMR 的 Hive 引擎上执行以预览数据。
取消查询 按钮允许取消正在进行的查询,如果它们花费了异常长的时间。
- 最后一步是导入。 准备好查询数据后,您可以选择根据采样类型(FirstK、随机或分层)和采样大小更新数据选择的采样设置,以便将数据导入 Data Wrangler。
点击 进口. 将加载准备页面,允许您向数据集添加各种转换和基本分析。
- 导航 数据流 从顶部屏幕,根据转换和分析的需要向流程添加更多步骤。 你可以运行一个 数据洞察报告 识别数据质量问题并获得解决这些问题的建议。 让我们看一些示例转换。
- 在 数据流 视图,您应该看到我们正在使用 EMR 作为使用 Hive 连接器的数据源。
- 让我们点击 + 右边的按钮 资料类型 并选择 添加变换. 当你这样做时,你会回到 时间 视图。
让我们探索数据。 我们看到它具有多种功能,例如 国际航空运输协会代码, 机场, 市, 州, 国家, 纬度及 经度. 我们可以看到整个数据集是基于一个国家,也就是美国,并且在 纬度 和 经度. 数据缺失会导致参数估计出现偏差,会降低样本的代表性,因此我们需要进行一些 归责 并处理我们数据集中的缺失值。
- 让我们点击 添加步骤 右侧导航栏上的按钮。 选择 手柄缺失. 这些配置可以在以下屏幕截图中看到。
下 转变, 选择 估算。 选择 立柱类型 as 数字 和 输入栏 名称 纬度 和 经度。 我们将使用近似中值来估算缺失值。
首先点击 预览 查看缺失值,然后单击更新以添加转换。
- 现在让我们看看另一个示例转换。 构建 ML 模型时,如果列是多余的或对您的模型没有帮助,则会将其删除。 删除列的最常见方法是删除它。 在我们的数据集中,特征 国家 可以删除,因为数据集专门用于美国机场数据。 要管理列,请单击 添加步骤 右侧导航栏上的按钮,然后选择 管理栏. 这些配置可以在以下屏幕截图中看到。 在下面 改造, 选择 下降柱,并在下 要删除的列, 选择 国家.
- 点击 预览 然后 更新 删除列。
- Feature Store 是一个用于存储、共享和管理 ML 模型特征的存储库。 让我们点击 + 右边的按钮 下降柱。 选择 输出到 并选择 SageMaker功能商店 (通过 Jupyter 笔记本).
- 通过选择 SageMaker功能商店 作为目的地,您可以将要素保存到现有要素组中或创建新要素组。
我们现在已经使用 Data Wrangler 创建了特征,并轻松地将这些特征存储在特征存储中。 我们在 Data Wrangler UI 中展示了特征工程的示例工作流程。 然后我们通过创建一个新的特征组将这些特征直接从 Data Wrangler 保存到特征存储中。 最后,我们运行了一个处理作业,将这些特征提取到特征存储中。 Data Wrangler 和 Feature Store 一起帮助我们构建了自动化和可重复的流程,以最少的编码来简化我们的数据准备任务。 Data Wrangler 还为我们提供了灵活性,可以使用以下方法自动执行相同的数据准备流程 预定作业. 我们也可以自动 使用 SageMaker Autopilot 训练和部署模型 从 Data Wrangler 的可视化界面,或使用 SageMaker Pipelines(通过 Jupyter Notebook)创建训练或特征工程管道,并使用 SageMaker 推理管道(通过 Jupyter Notebook)部署到推理端点。
清理
如果您已完成 Data Wrangler 的工作,以下步骤将帮助您删除创建的资源以避免产生额外费用。
- 关闭 SageMaker Studio。
在 SageMaker Studio 中,关闭所有选项卡,然后选择 文件 然后 关闭. 一旦提示选择 全部关机.
根据实例类型,关闭可能需要几分钟时间。 确保删除与用户个人资料关联的所有应用程序。 如果它们没有被删除,请手动删除用户配置文件下关联的应用程序。
- 清空从 CloudFormation 启动时创建的所有 S3 存储桶。
通过在 AWS 控制台搜索中搜索 S3 打开 Amazon S3 页面。 清空配置集群时创建的所有 S3 存储桶。 桶将是格式 dw-emr-hive-blog-
.
- 删除 SageMaker Studio EFS。
通过在 AWS 控制台搜索中搜索 EFS 打开 EFS 页面。
找到 SageMaker 创建的文件系统。 您可以通过单击 文件系统标识 并确认标签 ManagedByAmazonSageMakerResource
在 标签 标签。
- 删除 CloudFormation 堆栈。 通过从 AWS 控制台搜索并打开 CloudFormation 服务来打开 CloudFormation。
选择以开头的模板 dw- 如以下屏幕所示,并通过单击 删除 按钮。
这是预料之中的,我们将回到这里并在后续步骤中对其进行清理。
- 在 CloudFormation 堆栈无法完成后删除 VPC。 首先从 AWS 控制台打开 VPC。
- 接下来,确定由 SageMaker Studio CloudFormation 创建的 VPC,标题为
dw-emr-
,然后按照提示删除VPC。 - 删除 CloudFormation 堆栈。
返回 CloudFormation 并重试堆栈删除 dw-emr-hive-blog
.
完全的! 这篇博文中描述的 CloudFormation 模板提供的所有资源现在将从您的帐户中删除。
结论
在这篇博文中,我们介绍了如何在 Data Wrangler 中将 Amazon EMR 设置为数据源、如何转换和分析数据集,以及如何将结果导出到数据流以供在 Jupyter 笔记本中使用。 在使用 Data Wrangler 的内置分析功能可视化我们的数据集后,我们进一步增强了数据流。 我们无需编写一行代码就创建了数据准备管道这一事实意义重大。
要开始使用 Data Wrangler,请参阅 使用 Amazon SageMaker Data Wrangler 准备 ML 数据 并查看最新信息 Data Wrangler 产品页面 和 AWS 技术文档.
作者简介
阿贾伊戈文达拉姆 是 AWS 的高级解决方案架构师。 他与使用 AI/ML 解决复杂业务问题的战略客户合作。 他的经验在于为适度到大规模的 AI/ML 应用程序部署提供技术指导和设计协助。 他的知识范围从应用程序架构到大数据、分析和机器学习。 他喜欢边休息边听音乐、体验户外活动以及与亲人共度时光。
伊莎杜阿 是旧金山湾区的一名高级解决方案架构师。 她通过了解 AWS 企业客户的目标和挑战来帮助他们成长,并指导他们如何以云原生方式构建他们的应用程序,同时确保弹性和可扩展性。 她对机器学习技术和环境可持续性充满热情。
瓦伦·梅塔(Varun Mehta) 是 AWS 的解决方案架构师。 他热衷于帮助客户在 AWS 云上构建企业级架构完善的解决方案。 他与使用 AI/ML 解决复杂业务问题的战略客户合作。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-insight-with-amazon-sagemaker-data-wrangler-and-the-power-of-apache-hive/
- :是
- $UP
- 1
- 10
- 100
- 11
- 7
- a
- 关于
- 加快
- ACCESS
- 访问协议
- 根据
- 账号管理
- 行动
- 增加
- 额外
- 管理员
- 忠告
- 后
- AI / ML
- 机场
- 所有类型
- 允许
- 允许
- 已经
- Amazon
- Amazon EC2
- 亚马逊电子病历
- 亚马逊SageMaker
- 亚马逊SageMaker数据牧马人
- 亚马逊SageMaker Studio
- 量
- 检测值
- 分析
- 分析
- 分析
- 分析
- 和
- 另一个
- 阿帕奇
- 应用
- 应用领域
- 应用领域
- 适当
- 应用
- 架构
- 保健
- 国家 / 地区
- AS
- 帮助
- 相关
- At
- 认证
- 认证
- 认证
- 作者
- 自动化
- 自动表
- 自动
- AWS
- AWS CloudFormation
- AWS胶水
- 背部
- 酒吧
- 基于
- 海湾
- BE
- 因为
- 作为
- 偏见
- 大
- 大数据运用
- 吹氣梢
- 博客
- 盒子
- 带来
- 建立
- 建筑物
- 内建的
- 商业
- 按键
- by
- CAN
- 检索目录
- 原因
- 挑战
- 更改
- 查
- 点击
- 关闭
- 云端技术
- 簇
- 码
- 编码
- 柱
- 列
- 如何
- 相当常见
- 完成
- 复杂
- 组件
- 计算
- 确认
- 分享链接
- 已联繫
- 连接
- 地都
- 所连接
- 安慰
- 继续
- 国家
- 外壳
- 创建信息图
- 创建
- 创建
- 创造
- 资历
- 危急
- 曲线
- 合作伙伴
- data
- 资料准备
- 数据处理
- 数据库
- 数据集
- 处理
- 默认
- 需求
- 演示
- 部署
- 部署
- 描述
- 设计
- 目的地
- 详情
- 不同
- 方向
- 直接
- 通过各种方式找到
- 域
- 别
- 向下
- 下降
- 下降
- 每
- 容易
- 编辑
- 或
- 启用
- 使
- 端点
- 发动机
- 工程师
- 工程师
- 工程师
- 增强
- 保证
- 输入
- 企业
- 整个
- 环境
- 环境的
- 必要
- 建立
- 评估
- 例子
- 例子
- 执行
- 现有
- 预期
- 体验
- 经历
- 探索
- 探险家
- 出口
- 失败
- 熟悉
- 专栏
- 特征
- 费用
- 少数
- 终于
- (名字)
- 固定
- 流
- 遵循
- 以下
- 针对
- 旧金山
- 止
- 进一步
- 得到
- Go
- 理想中
- 团队
- 组的
- 增长
- 指南
- 处理
- 有
- 帮助
- 帮助
- 帮助
- 帮助
- 蜂房
- 主页
- 主持人
- 创新中心
- How To
- 但是
- HTML
- HTTP
- HTTPS
- 鉴定
- 身分
- 进口
- 输入
- in
- 包含
- 信息
- 洞察
- 例
- 互动
- 接口
- 参与
- 问题
- IT
- 工作
- 工作机会
- JPG
- 知识
- 大
- 大规模
- (姓氏)
- 最新
- 发射
- 学习
- 杠杆作用
- 谎言
- 轻巧
- 极限
- Line
- 听力
- 长
- 长时间
- 看
- 爱
- 机
- 机器学习
- 使
- 管理
- 颠覆性技术
- 方式
- 手动
- 菜单
- 可能
- 最低限度
- 分钟
- 失踪
- ML
- 时尚
- 模型
- 模型
- 更多
- 最先进的
- 多
- 音乐
- 姓名
- 命名
- 名称
- 旅游导航
- 需求
- 全新
- 笔记本
- of
- on
- 一
- 正在进行
- 打开
- 开放
- 附加选项
- 附加选项
- 其他名称
- 户外活动
- 页
- 参数
- 部分
- 多情
- 密码
- 演出
- 施行
- 权限
- 管道
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 热门
- 帖子
- 功率
- Prepare
- 准备
- 预览
- 问题
- 过程
- 过程
- 处理
- 产品
- 专业人士
- 本人简介
- 协议
- 提供
- 提供
- 优
- 规定
- 质量
- 很快
- 随机
- 准备
- 建议
- 记录
- 减少
- 减少
- 地区
- 去掉
- 去除
- 可重复的
- 报告
- 知识库
- 代表
- 必须
- 弹性
- 资源
- 成果
- 检讨
- 角色
- 运行
- 运行
- sagemaker
- SageMaker 推理
- SageMaker管道
- 同
- 圣
- 旧金山
- 保存
- 可扩展性
- 鳞片
- 脚本
- 始你
- 科学家
- 屏风
- 截图
- 搜索
- 搜索
- 秘密
- 部分
- 保安
- 选
- 选择
- 选择
- 前辈
- 服务
- 集
- 设置
- Share
- 应该
- 如图
- 显著
- 只是
- 自
- 单
- 尺寸
- So
- 方案,
- 解决方案
- 解决
- 一些
- 来源
- 来源
- 火花
- 特别是
- 花费
- Spot
- 堆
- 堆栈
- 标准
- 开始
- 开始
- 个人陈述
- 统计
- Status
- 步
- 步骤
- 商店
- 存储
- 善用
- 精简
- 工作室
- 子网
- 随后
- 顺利
- 这样
- 支持
- 永续发展
- 系统
- 表
- 行李牌
- 采取
- 需要
- 服用
- 任务
- 文案
- 技术
- 模板
- 模板
- 谢谢
- 这
- 其
- 他们
- 博曼
- 第三方
- 通过
- 次
- 至
- 今晚
- 一起
- 最佳
- 培训
- 产品培训
- 改造
- 转换
- ui
- 下
- 理解
- 独特
- 普遍
- 更新
- 网址
- us
- 使用
- 用户
- 平时
- 折扣值
- 价值观
- 各种
- 各个
- 通过
- 查看
- 等待
- 方法..
- 周
- 井
- 这
- 而
- WHO
- 宽
- 维基百科上的数据
- 将
- 中
- 也完全不需要
- 工作
- 合作
- 将
- 写
- 写代码
- 写作
- 雅姆
- 完全
- 您一站式解决方案
- 和风网