转向数据驱动文化的组织在决策中采用数据和机器学习 (ML)。 要根据数据做出基于 ML 的决策,您需要可用、可访问、干净且格式正确的数据来训练 ML 模型。 具有多账户架构的组织希望避免必须从一个账户提取数据并将其加载到另一个账户以进行数据准备活动的情况。 在不同账户中手动构建和维护不同的提取、转换和加载 (ETL) 作业会增加复杂性和成本,并使维护治理、合规性和安全最佳实践以确保数据安全变得更加困难。
亚马逊Redshift 是一个快速、完全托管的云数据仓库。 Amazon Redshift 跨账户数据共享功能提供了一种简单且安全的方式,可以与不同 AWS 账户中的任意数量的利益相关者共享您的 Amazon Redshift 数据仓库中的新鲜、完整和一致的数据。 亚马逊SageMaker数据牧马人 是一种能力 亚马逊SageMaker 这使数据科学家和工程师可以更快地使用可视化界面为 ML 应用程序准备数据。 Data Wrangler 允许您通过连接到 Amazon Redshift 数据共享来探索和转换用于 ML 的数据。
在这篇文章中,我们将介绍使用 Amazon Redshift 数据共享设置跨账户集成并使用 Data Wrangler 准备数据。
解决方案概述
我们从两个 AWS 账户开始:一个使用 Amazon Redshift 数据仓库的生产者账户,以及一个用于 SageMaker ML 用例的消费者账户。 对于这篇文章,我们使用 银行数据集. 接下来,将数据集下载到本地计算机。 以下是工作流程的高级概述:
- 在生产者账户中实例化 Amazon Redshift RA3 集群并加载数据集。
- 在生产者账户中创建一个 Amazon Redshift 数据共享,并允许消费者账户访问数据。
- 访问消费者账户中的 Amazon Redshift 数据共享。
- 在消费者帐户中使用 Data Wrangler 分析和处理数据,并构建您的数据准备工作流程。
注意 注意事项 使用 Amazon Redshift 数据共享:
- 多个 AWS 账户 – 您至少需要两个 AWS 账户:一个生产者账户和一个消费者账户。
- 集群类型 – RA3 集群类型支持数据共享。 实例化 Amazon Redshift 集群时,请确保选择 RA3 集群类型。
- 加密 – 要使数据共享工作,生产者和消费者集群都必须加密,并且应该在同一个 AWS 区域中。
- 地区 – 跨账户数据共享适用于所有 Amazon Redshift RA3 节点类型 美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、亚太地区(孟买)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(斯德哥尔摩)和南美洲(圣保罗)。
- 定价 – 跨账户数据共享可跨同一区域中的集群进行。 共享数据是免费的。 您只需为参与共享的 Amazon Redshift 集群付费。
跨账户数据共享是一个两步过程。 首先,生产者集群管理员创建数据共享、添加对象并授予对消费者帐户的访问权限。 然后生产者账户管理员授权给指定消费者共享数据。 您可以从 Amazon Redshift 控制台执行此操作。
在生产者账户中创建 Amazon Redshift 数据共享
要创建您的数据共享,请完成以下步骤:
- 在 Amazon Redshift 控制台上,创建一个 Amazon Redshift 集群。
- 指定 生产 并选择 RA3 节点类型。
- 下 附加配置,取消选择 使用默认值.
- 下 数据库配置,为您的集群设置加密。
- 创建集群后,导入直销银行数据集。 您可以从以下网址下载: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- 上传
bank-additional-full.csv
到 亚马逊简单存储服务 (Amazon S3) 您的集群有权访问的存储桶。 - 使用 Amazon Redshift 查询编辑器并运行以下 SQL 查询将数据复制到 Amazon Redshift:
- 导航到集群详细信息页面,然后在 数据共享 标签,选择 创建数据共享.
- 针对 数据共享名称,输入名称。
- 针对 数据库名称,选择一个数据库。
- 在 添加数据共享对象 部分,从数据库中选择要包含在数据共享中的对象。
您可以精细控制选择与他人共享的内容。 为简单起见,我们共享所有表格。 在实践中,您可能会选择一个或多个表、视图或用户定义的函数。 - 地址.
- 要添加数据使用者,请选择 将 AWS 账户添加到数据共享 并添加您的辅助 AWS 账户 ID。
- 创建数据共享.
- 要授权您刚刚创建的数据使用者,请转到 数据共享 Amazon Redshift 控制台上的页面并选择新的数据共享。
- 选择数据消费者并选择 授权.
消费者状态从 Pending authorization
至 Authorized
.
访问使用者 AWS 账户中的 Amazon Redshift 跨账户数据共享
现在数据共享已设置,切换到您的使用者 AWS 账户以使用数据共享。 确保在您的消费者账户中至少创建了一个 Amazon Redshift 集群。 集群必须加密并与源位于同一区域。
- 在 Amazon Redshift 控制台上,选择 数据共享 在导航窗格中。
- 点击 来自其他账户 选项卡,选择您创建的数据共享并选择 律师.
- 您可以将数据共享与此账户中的一个或多个集群关联,或者将数据共享与整个账户关联,以便消费者账户中的当前和未来集群可以访问此共享。
- 指定您的连接详细信息并选择 分享链接.
- 从数据共享创建数据库 并输入新数据库的名称。
- 要测试数据共享,请转到查询编辑器并针对新数据库运行查询,以确保所有对象都可作为数据共享的一部分。
使用 Data Wrangler 分析和处理数据
您现在可以使用 Data Wrangler 访问在 Amazon Redshift 中创建为数据共享的跨账户数据。
- 可选 亚马逊SageMaker Studio.
- 点击 文件 菜单中选择 全新 和 数据牧马人流程.
- 点击 进口 标签,选择 添加数据源 和 亚马逊Redshift.
- 输入您刚刚在数据共享的使用者账户中创建的 Amazon Redshift 集群的连接详细信息。
- 分享链接.
- 使用 AWS身份和访问管理 您用于 Amazon Redshift 集群的 (IAM) 角色。
请注意,即使数据共享是 Amazon Redshift 集群中的新数据库,您也无法直接从 Data Wrangler 连接到它。
正确的做法是先连接默认的集群数据库,然后使用SQL查询datashare数据库。 提供连接到默认集群数据库所需的信息。 请注意,一个 AWS密钥管理服务 连接时不需要 (AWS KMS) 密钥 ID。
Data Wrangler 现在已连接到 Amazon Redshift 实例。
将数据加载到 Data Wrangler 后,您可以进行探索性数据分析并为 ML 准备数据。
- 选择加号并选择 添加分析.
Data Wrangler 提供内置分析。 这些包括但不限于数据质量和洞察报告、数据相关性、预训练偏差报告、数据集摘要和可视化(如直方图和散点图)。 您还可以创建自己的自定义可视化。
您可以使用数据质量和洞察报告自动生成可视化和分析,以识别数据质量问题,并为您的数据集推荐正确的转换。
Data Wrangler 会为您的数据集创建详细报告。 您还可以将报告下载到本地计算机。
在撰写本文时,Data Wrangler 提供了 300 多个内置转换。 您还可以使用 Pandas 或 PySpark 编写自己的转换。
您现在可以根据您的业务需求开始构建转换和分析。
结论
在这篇文章中,我们探索了使用 Amazon Redshift 数据共享跨账户共享数据,而无需手动下载和上传数据。 我们介绍了如何使用 Data Wrangler 访问共享数据并为您的 ML 用例准备数据。 Amazon Redshift 数据共享和 Data Wrangler 的这种无代码/低代码功能可加快训练数据准备,并通过更快的迭代数据准备提高数据工程师和数据科学家的敏捷性。
要了解有关 Amazon Redshift 和 SageMaker 的更多信息,请参阅 Amazon Redshift 数据库开发人员指南 和 亚马逊 SageMaker 文档.
作者简介
Meenakshisundaram 坦达瓦拉扬 是 AWS 的高级 AI/ML 专家。 他帮助高科技战略客户进行 AI 和 ML 之旅。 他对数据驱动的人工智能充满热情。
詹姆斯吴 是 AWS 的高级 AI/ML 专家解决方案架构师。 帮助客户设计和构建 AI/ML 解决方案。 James 的工作涵盖了广泛的 ML 用例,主要兴趣在于计算机视觉、深度学习和在整个企业中扩展 ML。 在加入 AWS 之前,James 担任了 10 多年的架构师、开发人员和技术领导者,其中包括 6 年的工程经验和 4 年的营销和广告行业经验。
- "
- &
- 10
- 100
- 11
- 7
- a
- 关于
- ACCESS
- 无障碍
- 账号管理
- 横过
- 活动
- 广告
- 驳
- AI
- 所有类型
- 允许
- Amazon
- 美国
- 分析
- 另一个
- 应用领域
- 架构
- 亚洲
- 亚太
- 律师
- 自动
- 可使用
- AWS
- 银行
- 最佳
- 最佳实践
- 边界
- 建立
- 建筑物
- 内建的
- 商业
- 加州
- 营销活动
- 加拿大
- 例
- 中央
- 分类
- 云端技术
- 完成
- 符合
- 一台
- 分享链接
- 已联繫
- 连接
- 地都
- 一贯
- 安慰
- 消耗
- 消费者
- 消费者
- CONTACT
- 控制
- 创建信息图
- 创建
- 创建
- 资历
- 文化塑造
- 电流
- 习俗
- 合作伙伴
- data
- 数据分析
- 数据共享
- 数据库
- 决定
- 深
- 设计
- 详细
- 详情
- 开发商
- 不同
- 难
- 直接
- 直接
- 下载
- 编辑
- 教育
- 拥抱
- 加密
- 工程师
- 工程师
- 输入
- 企业
- 欧洲
- 探索
- 高效率
- 快
- 专栏
- 姓氏:
- 流
- 遵循
- 以下
- 格式
- 新鲜
- 止
- 功能
- 未来
- 生成
- 治理
- 有
- 帮助
- 帮助
- 住房
- 创新中心
- How To
- HTTPS
- 鉴定
- 身分
- 包括
- 包含
- 行业
- 信息
- 可行的洞见
- 例
- 积分
- 兴趣
- 接口
- 爱尔兰
- 问题
- IT
- 工作
- 工作机会
- 加盟
- 旅程
- 保持
- 键
- 领导者
- 学习用品
- 学习
- 有限
- 加载
- 本地
- 圖書分館的位置
- 伦敦
- 机
- 机器学习
- 保持
- 使
- 制作
- 管理
- 颠覆性技术
- 手动
- 营销
- 可能
- ML
- 模型
- 月
- 更多
- 移动
- 孟买
- 旅游导航
- 数
- 俄亥俄州
- 秩序
- 俄勒冈
- 组织
- 其他名称
- 己
- 太平洋
- 巴黎
- 部分
- 参加
- 多情
- 在练习上
- Prepare
- 以前
- 小学
- 市场问题
- 过程
- 制片人
- 提供
- 提供
- 质量
- 范围
- 建议
- 地区
- 报告
- 必须
- 角色
- 运行
- 安全
- 同
- 缩放
- 科学家
- 次
- 安全
- 保安
- 首尔
- 集
- 设置
- Share
- 共用的,
- 共享
- 签署
- 简易
- 新加坡
- So
- 固体
- 方案,
- 解决方案
- 南部
- 专家
- 开始
- 个人陈述
- Status
- 存储
- 善用
- 支持
- Switch 开关
- 悉尼
- 专业技术
- test
- 通过
- 次
- 东京
- 向
- 产品培训
- 改造
- 转型
- 转换
- us
- 使用
- 弗吉尼亚州
- 愿景
- 可视化
- 西部
- 什么是
- 也完全不需要
- 工作
- 工作流程
- 加工
- 写作
- 年
- 您一站式解决方案