Amazon SageMaker功能商店 是一个完全托管的专用存储库,用于存储、共享和管理机器学习 (ML) 模型的功能。 特征 是训练和推理期间使用的 ML 模型的输入。例如,在推荐音乐播放列表的应用程序中,功能可能包括歌曲评级、收听时长和听众人口统计数据。特征被多个团队重复使用,特征质量对于确保模型高度准确至关重要。此外,当用于批量离线训练模型的特征可用于实时推理时,很难保持两个特征存储同步。 SageMaker Feature Store 提供了一个安全且统一的存储,用于在整个 ML 生命周期中大规模处理、标准化和使用功能。
SageMaker Feature Store 现在可以轻松跨 AWS 账户共享、发现和访问功能组。这项新功能可以促进参与 ML 模型和应用程序开发的团队的协作并最大程度地减少重复工作,特别是在具有跨不同业务部门或职能的多个帐户的企业环境中。
通过此次发布,帐户所有者可以使用以下方式向其他帐户授予对选定功能组的访问权限: AWS 资源访问管理器 (AWS 内存)。获得访问权限后,这些帐户的用户可以通过以下方式方便地查看其所有功能组,包括共享的功能组: 亚马逊SageMaker Studio 或 SDK。这使团队能够发现和利用其他团队开发的功能,促进知识共享和效率。此外,还可以通过以下方式监控共享资源的使用详细信息 亚马逊CloudWatch 和 AWS 云跟踪。如需深入了解,请参阅 跨账户功能组的可发现性和访问.
在这篇文章中,我们讨论具有跨账户访问的集中式特征存储的原因和方式。我们展示了如何设置它并运行示例演示,以及您在组织中使用此新功能可以获得的好处。
谁需要跨账户特征存储
组织需要在团队之间安全地共享功能,以构建准确的机器学习模型,同时防止未经授权的访问敏感数据。 SageMaker Feature Store 现在允许通过 AWS RAM 跨账户精细共享功能,从而实现协作模型开发和治理。
SageMaker Feature Store 为训练和推理过程中使用的 ML 功能提供专门构建的存储和管理。借助跨账户支持,您现在可以有选择地与组织中的其他账户共享存储在一个 AWS 账户中的功能。
例如,分析团队可以在中央管理帐户中管理客户资料、交易历史和产品目录等功能。其他部门(例如营销、欺诈检测等)的 ML 开发人员需要安全地访问这些数据来构建模型。
以下是跨账户共享 ML 功能的主要好处:
- 一致且可重用的功能 – 集中共享精选特征,通过提供一致的输入数据进行训练,提高模型的准确性。团队可以发现并直接使用其他人创建的功能,而不是在每个帐户中复制它们。
- 功能组访问控制 – 您可以仅授予对帐户用例所需的特定功能组的访问权限。例如,营销团队可能只能访问推荐模型所需的客户资料特征组。
- 跨团队协作 – 共享功能允许欺诈、营销和销售等不同团队使用相同的可靠数据协作构建 ML 模型,而不是创建孤立的功能。
- 合规性审计跟踪 – 管理员可以使用 CloudTrail 事件日志集中监控所有帐户的功能使用情况。这提供了治理和合规性所需的审计跟踪。
在跨账户特征商店中区分生产者和消费者
在机器学习领域,特征存储充当了至关重要的桥梁,将数据提供者与数据利用者连接起来。使用特征存储的跨账户设置可以有效地管理这种二分法。让我们使用以下角色和现实世界的类比来揭开这一点:
- 数据和机器学习工程师(所有者和生产者) – 他们通过将数据输入特征存储来奠定基础
- 数据科学家(消费者) – 他们提取并利用这些数据来制作他们的模型
数据工程师充当架构师,绘制最初的蓝图。他们的任务是构建和监督高效的数据管道。他们从源系统中提取数据,将原始数据属性塑造成可辨别的特征。以“年龄”为例。尽管它仅代表从现在到生日的时间跨度,但它的解释可能因组织而异。确保质量、统一性和一致性在这里至关重要。他们的目标是将数据输入集中式特征存储,将其建立为无可争议的参考点。
机器学习工程师完善了这些基本功能,并针对成熟的机器学习工作流程进行了定制。在银行业中,他们可能会从账户余额中推断出统计见解,识别趋势和流动模式。他们经常面临的障碍是裁员。在不同的机器学习计划中经常会看到重复的特征创建管道。
想象一下,数据科学家就像美食厨师,正在寻找储备充足的食品储藏室,为他们的下一个烹饪杰作寻找最好的食材。他们的时间应该花在制定创新的数据配方上,而不是花在重新组装食品储藏室上。目前的障碍是发现正确的数据。一个用户友好的界面,配备高效的搜索工具和全面的功能描述是必不可少的。
从本质上讲,跨账户特征存储设置精心划分了数据生产者和消费者的角色,确保了效率、清晰度和创新。无论您是在奠定基础还是在基础上进行构建,了解您的角色和工具都至关重要。
下图显示了来自两个不同 AWS 账户的两个不同数据科学家团队,他们共享并使用相同的中央功能存储来选择构建 ML 模型所需的最佳功能。中央特征存储位于由数据工程师和机器学习工程师管理的不同帐户中,数据治理层和数据湖通常位于其中。
跨账户功能组控制
借助 SageMaker Feature Store,您可以跨账户共享功能组资源。资源所有者帐户与资源使用者帐户共享资源。与共享资源相关的权限有两种不同类别:
- 可发现性权限 – 可发现性 意味着能够查看功能组名称和元数据。当您授予可发现性权限时,您共享的帐户(资源所有者帐户)中的所有功能组实体都可以被您共享的帐户(资源使用者帐户)发现。例如,如果您使资源所有者帐户可由资源使用者帐户发现,则资源使用者帐户的主体可以查看资源所有者帐户中包含的所有功能组。此权限是通过使用 SageMaker 目录资源类型授予资源使用者帐户的。
- 存取权限 – 当您授予访问权限时,您是在功能组资源级别(而不是帐户级别)执行的。这使您可以更精细地控制授予数据访问权限。可以授予的访问权限类型为只读、读/写和管理。例如,您可以根据您的业务需求,仅从资源所有者帐户中选择某些功能组可供资源使用者帐户的主体访问。通过使用功能组资源类型并指定功能组实体向资源使用者帐户授予此权限。
以下示例图直观地展示了共享授予可发现性权限的 SageMaker 目录资源类型与共享具有访问权限的功能组资源类型实体。 SageMaker 目录包含您的所有功能组实体。当被授予可发现性权限时,资源使用者帐户可以搜索和发现资源所有者帐户内的所有功能组实体。功能组实体包含您的 ML 数据。当被授予访问权限时,资源使用者帐户可以访问特征组数据,其访问权限由相关访问权限确定。
解决方案概述
请完成以下步骤,以使用 SageMaker Feature Store 在帐户之间安全地共享功能:
- 在源(所有者)帐户中,提取数据集并准备标准化特征。将相关功能组织成称为功能组的逻辑组。
- 创建资源共享以授予对特定功能组的跨账户访问权限。定义允许的操作(例如获取和放置),并将访问限制为仅授权帐户。
- 在目标(消费者)账户中,接受 AWS RAM 邀请以访问共享功能。查看访问策略以了解授予的权限。
目标帐户中的开发人员现在可以使用 SageMaker SDK 检索共享功能,加入其他数据,并使用它们来训练 ML 模型。源账户可以使用 CloudTrail 事件日志监控所有账户对共享功能的访问。审核日志提供对功能使用情况的集中可见性。
通过这些步骤,您可以使整个组织的团队能够安全地使用共享的 ML 功能进行协作模型开发。
先决条件
我们假设您已经创建了功能组并在您的所有者帐户中引入了相应的功能。有关入门的更多信息,请参阅 Amazon SageMaker Feature Store入门.
授予可发现性权限
首先,我们演示如何在所有者帐户中共享 SageMaker Feature Store 目录。完成以下步骤:
- 在 SageMaker Feature Store 目录的所有者账户中,打开 AWS RAM 控制台。
- 下 由我分享 在导航窗格中,选择 资源份额.
- 创建资源共享.
- 输入资源共享名称并选择 SageMaker 资源目录 作为资源类型。
- 下一页.
- 对于仅可发现性访问,请输入
AWSRAMPermissionSageMakerCatalogResourceSearch
托管权限. - 下一页.
- 输入您的消费者帐户 ID 并选择 地址。您可以添加多个消费者帐户。
- 下一页 并完成您的资源共享。
现在,共享的 SageMaker Feature Store 目录应该显示在 资源份额 页面上发布服务提醒。
您可以使用以下方法获得相同的结果 AWS命令行界面 (AWS CLI) 使用以下命令(提供您的 AWS 区域、所有者账户 ID 和消费者账户 ID):
接受资源共享邀请
要接受资源共享邀请,请完成以下步骤:
- 在目标(消费者)账户中,打开 AWS RAM 控制台。
- 下 与我分享 在导航窗格中,选择 资源份额.
- 选择新的待处理资源共享。
- 接受资源共享.
您可以使用 AWS CLI 通过以下命令获得相同的结果:
从前面命令的输出中,检索以下值 resourceShareInvitationArn
然后使用以下命令接受邀请:
通过 AWS RAM 与另一个账户共享功能组的工作流程相同。
与目标账户共享一些功能组后,您可以检查 SageMaker 功能存储,您可以在其中观察到新目录可用。
授予访问权限
通过访问权限,我们可以在功能组资源级别授予权限。完成以下步骤:
- 在 SageMaker Feature Store 目录的所有者账户中,打开 AWS RAM 控制台。
- 下 由我分享 在导航窗格中,选择 资源份额.
- 创建资源共享.
- 输入资源共享名称并选择 SageMaker 功能组 作为资源类型。
- 选择一个或多个要共享的功能组。
- 下一页.
- 对于读/写访问,请输入
AWSRAMPermissionSageMakerFeatureGroupReadWrite
托管权限. - 下一页.
- 输入您的消费者帐户 ID 并选择 地址。您可以添加多个消费者帐户。
- 下一页 并完成您的资源共享。
现在共享目录应该显示在 资源份额 页面上发布服务提醒。
您可以通过使用 AWS CLI 和以下命令来实现相同的结果(提供您的区域、所有者账户 ID、使用者账户 ID 和功能组名称):
您可以向功能组授予三种类型的访问权限:
- AWSRAMPermissionSageMakerFeatureGroupReadOnly – 只读权限允许资源使用者帐户读取共享功能组中的记录并查看详细信息和元数据
- AWSRAMPermissionSageMakerFeatureGroupReadWrite – 除了读取权限外,读/写权限还允许资源使用者帐户向共享功能组写入记录和从共享功能组中删除记录
- AWSRAMPermissionSagemakerFeatureGroupAdmin – 管理员权限允许资源使用者帐户除了读/写权限外,还可以更新共享功能组内功能的描述和参数,并更新共享功能组的配置
接受资源共享邀请
要接受资源共享邀请,请完成以下步骤:
- 在目标(消费者)账户中,打开 AWS RAM 控制台。
- 下 与我分享 在导航窗格中,选择 资源份额.
- 选择新的待处理资源共享。
- 接受资源共享.
使用 AWS CLI 接受资源共享的过程与前面的可发现性部分相同,使用 get-resource-share-invitations 和 Accept-resource-share-invitation 命令。
展示此新功能的示例笔记本
两个笔记本已添加到 SageMaker Feature Store Workshop 中 GitHub存储库 在文件夹 09-module-security/09-03-cross-account-access 中:
- m9_03_nb1_cross-account-admin.ipynb – 这需要在您的管理员或所有者 AWS 帐户上启动
- m9_03_nb2_cross-account-consumer.ipynb – 这需要在您的消费者 AWS 账户上启动
第一个脚本演示如何在管理员或所有者账户中为现有功能组创建可发现性资源共享,并使用 AWS RAM API 以编程方式与另一个使用者账户共享 create_resource_share()
。它还展示了如何向所有者账户中的现有功能组授予访问权限,并使用 AWS RAM 与另一个使用者账户共享这些权限。在运行笔记本之前,您需要提供您的消费者 AWS 账户 ID。
第二个脚本接受 AWS RAM 邀请,以从所有者级别发现和访问跨账户功能组。然后,它展示了如何发现所有者账户上的跨账户功能组并将其列出在消费者账户上。您还可以了解如何访问所有者账户上的读/写跨账户功能组,并从消费者账户执行以下操作: describe()
, get_record()
, ingest()
及 delete_record()
.
结论
SageMaker Feature Store 跨账户功能提供了多项引人注目的优势。首先,它通过支持跨多个 AWS 账户共享功能组来促进无缝协作。这增强了数据的可访问性和利用率,允许不同帐户的团队在其机器学习工作流程中使用共享功能。
此外,跨账户功能增强了数据治理和安全性。通过 AWS RAM 进行受控访问和权限,组织可以维护集中式功能存储,同时确保每个账户都具有定制的访问级别。这不仅简化了数据管理,还通过限制授权用户的访问来加强安全措施。
此外,跨帐户共享功能组的能力简化了在协作环境中构建和部署 ML 模型的过程。它促进了更加集成和高效的工作流程,减少了数据存储的冗余,并促进创建具有共享、高质量特征的强大模型。总体而言,Feature Store 的跨账户功能优化了跨不同 AWS 账户的 ML 开发的协作、治理和效率。尝试一下,并在评论中告诉我们您的想法。
作者简介
伊万卡塔纳 是 AWS 的高级人工智能和机器学习专家解决方案架构师。他帮助客户在 AWS 云中开发和扩展他们的 ML 解决方案。 Ioan 拥有 20 多年的经验,主要从事软件架构设计和云工程。
菲利普·坎德尔 是 AWS 的高级人工智能和机器学习解决方案架构师。他拥有数据科学和机械工程背景,专注于帮助客户在人工智能的帮助下创造持久的业务影响。工作之余,Philipp 喜欢摆弄 3D 打印机、航海和徒步旅行。
达瓦尔沙阿 是 AWS 的高级解决方案架构师,专门从事机器学习。他非常关注数字原生业务,帮助客户使用 AWS 并推动其业务增长。作为一名机器学习爱好者,Dhaval 热衷于创建有影响力的解决方案,从而带来积极的变化。闲暇之余,他热爱旅行,珍惜与家人在一起的美好时光。
米扎努尔·拉曼(Mizanur Rahman) 是 Amazon SageMaker Feature Store 的高级软件工程师,在 AI 和 ML 领域拥有 10 多年的实践经验。他在理论和实际应用方面拥有坚实的基础,拥有博士学位。使用机器学习进行欺诈检测,反映了他对推进该领域的奉献精神。他的专业知识涉及广泛,包括可扩展架构、分布式计算、大数据分析、微服务和组织云基础设施。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-feature-store-now-supports-cross-account-sharing-discovery-and-access/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 10
- 150
- 20
- 20 年
- 3d
- 7
- 8
- 9
- a
- 对,能力--
- Able
- 关于
- 接受
- 接受
- 接受
- ACCESS
- 访问数据
- 访问
- 访问
- 无障碍
- 账号管理
- 账户
- 精准的
- 横过
- 行动
- 行为
- 加
- 添加
- 增加
- 额外
- 另外
- 管理员
- 管理员
- 前进
- 后
- AI
- 瞄准
- 所有类型
- 让
- 允许
- 允许
- 允许
- 已经
- 还
- 尽管
- Amazon
- 亚马逊SageMaker
- 亚马逊网络服务
- an
- 分析
- 和
- 另一个
- API
- 应用领域
- 应用程序开发
- 应用领域
- 建筑师
- 架构
- 架构
- 保健
- 人造的
- 人工智能
- 人工智能和机器学习
- AS
- 相关
- 承担
- At
- 属性
- 审计
- 授权
- 可使用
- AWS
- 背景
- 结余
- 银行业
- BE
- 成为
- before
- 作为
- 好处
- 最佳
- 之间
- 大
- 大数据运用
- 蓝图
- 都
- 桥
- 带来
- 广阔
- 建立
- 建筑物
- 商业
- 企业
- 但是
- by
- 被称为
- CAN
- 可以得到
- 能力
- 案件
- 检索目录
- 目录
- 类别
- 中央
- 集中
- 一定
- 更改
- 明晰
- CLI
- 云端技术
- 合作
- 合作
- 共同
- 注释
- 相当常见
- 引人注目
- 完成
- 符合
- 全面
- 计算
- 配置
- 连接
- 一贯
- 安慰
- 建设
- 消耗
- 消费者
- 消费者
- 包含
- 包含
- 上下文
- 控制
- 受控
- 方便地
- 相应
- 可以
- 手艺
- 创建信息图
- 创建
- 创造
- 创建
- 危急
- 关键
- 治愈
- 策划
- 顾客
- 合作伙伴
- data
- 数据分析
- 数据湖
- 数据管理
- 数据科学
- 数据科学家
- 数据存储
- 数据集
- 贡献
- 深
- 深潜
- 定义
- 人口统计
- 演示
- 揭开神秘面纱
- 部门
- 根据
- 部署
- 描述
- 设计
- 详情
- 检测
- 决心
- 开发
- 发达
- 开发
- 研发支持
- 图表
- 不同
- 数字
- 直接
- 通过各种方式找到
- 发现
- 发现
- 讨论
- 不同
- 不同
- 分布
- 分布式计算
- 潜水
- 不同
- do
- 画
- 驾驶
- 驱动
- 复制
- 为期
- ,我们将参加
- 每
- 只
- 效率
- 高效
- 毫不费力
- 授权
- 如虎添翼
- enable
- 使
- 使
- 包含
- 工程师
- 工程师
- 工程师
- 增强
- 确保
- 保证
- 输入
- 企业
- 爱好者
- 实体
- 实体
- 环境
- 环境中
- 配备
- 本质
- 建立
- 活动
- 例子
- 现有
- 体验
- 专门知识
- 提取
- 面部彩妆
- 功能有助于
- 促进
- 家庭
- 专栏
- 特征
- 喂养
- 部分
- 姓氏:
- 流
- 专注焦点
- 以下
- 针对
- 培养
- 寄养
- 基金会
- 基础
- 骗局
- 欺诈检测
- 止
- 充分
- 功能
- 得到
- 越来越
- 给
- 给
- 治理
- 授予
- 授予
- 发放
- 粒状
- 基础
- 团队
- 组的
- 事业发展
- 动手
- 硬
- 马具
- 有
- he
- 帮助
- 帮助
- 此处
- 高品质
- 高度
- 他的
- 历史
- 持有
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- 栏
- ID
- 确定
- if
- 影响力故事
- 有影响力的
- 提高
- in
- 其他
- 包括
- 包含
- 信息
- 基础设施
- 初始
- 项目
- 創新
- 创新
- 输入
- 输入
- 内
- 可行的洞见
- 例
- 代替
- 集成
- 房源搜索
- 接口
- 解释
- 成
- 投资
- 请帖
- 邀请
- 参与
- IT
- 它的
- 加入
- JPG
- 契机
- 保持
- 键
- 知道
- 会心
- 知识
- 湖泊
- 持久
- 发射
- 推出
- 铺设
- 层
- 铺设
- 学习
- 让
- Level
- 各级
- 生命周期
- 喜欢
- 限制
- Line
- 清单
- 倾听者
- 听力
- 位于
- 合乎逻辑的
- 爱
- 机
- 机器学习
- 制成
- 保持
- 使
- 制作
- 管理
- 管理
- 颠覆性技术
- 营销
- 杰作
- 成熟
- 可能..
- 手段
- 措施
- 机械
- 仅仅
- 元数据
- 精心
- 微
- 可能
- 最小化
- ML
- 模型
- 模型
- 美好瞬间
- 显示器
- 监控
- 更多
- 大多
- 多
- 音乐
- 姓名
- 名称
- 本地人
- 旅游导航
- 需求
- 打印车票
- 需要
- 全新
- 下页
- 笔记本
- 现在
- 观察
- of
- 优惠精选
- 这一点在线下监测数字化产品的影响方面尤为明显。
- 经常
- on
- 一
- 那些
- 仅由
- 打开
- 运营
- 优化
- or
- 组织
- 组织
- 其他名称
- 其它
- 我们的
- 产量
- 学校以外
- 超过
- 最划算
- 监视
- 业主
- 业主
- 页
- 面包
- 参数
- 最重要的
- 尤其
- 情
- 模式
- 有待
- 演出
- 允许
- 权限
- 关键的
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 政策
- 积极
- 帖子
- 实用
- 前
- Prepare
- 预防
- 以前
- 校长
- 特权
- 过程
- 生产者
- 产品
- 本人简介
- 促进
- 提供
- 提供
- 优
- 放
- 质量
- 内存
- 评分
- 原
- 阅读
- 真实的世界
- 实时的
- 境界
- 推荐
- 建议
- 记录
- 减少
- 参考
- 参考
- 提炼
- 反映
- 地区
- 有关
- 相应
- 可靠
- 反复
- 重复的
- 知识库
- 代表
- 必须
- 资源
- 资源
- 限制
- 导致
- 可重复使用
- 检讨
- 右
- 健壮
- 角色
- 角色
- 运行
- 运行
- sagemaker
- 帆船
- 销售
- 同
- 样品
- 可扩展性
- 鳞片
- 科学
- 科学家
- 科学家
- 脚本
- SDK
- sdk
- 无缝的
- 搜索
- 其次
- 部分
- 担保
- 安全
- 保安
- 保安措施
- 看到
- 寻求
- 中模板
- 选择
- 前辈
- 敏感
- 服务
- 特色服务
- 集
- 格局
- 几个
- Share
- 共用的,
- 分享
- 共享
- 应该
- 显示
- 陈列宣传
- 作品
- 孤立的
- 简化
- 位于
- So
- 软件
- 软件工程师
- 解决方案
- 一些
- 歌曲
- 来源
- 跨度
- 张力
- 跨度
- 专家
- 专业
- 具体的
- 指定
- 光谱
- 开始
- 统计
- 步骤
- 存储
- 商店
- 存储
- 商店
- 流线
- 加强
- 强烈
- 供应
- SUPPORT
- 支持
- 产品
- 量身定制
- 剪裁
- 采取
- 目标
- 任务
- 团队
- 队
- 这
- 其
- 他们
- 然后
- 理论
- 那里。
- 博曼
- 他们
- 认为
- Free Introduction
- 那些
- 三
- 通过
- 次
- 至
- 工具
- 线索
- 培训
- 产品培训
- 交易
- 旅行
- 趋势
- 尝试
- 二
- 类型
- 类型
- 擅自
- 理解
- 统一
- 单位
- 更新
- us
- 用法
- 使用
- 用例
- 用过的
- 用户友好
- 用户
- 运用
- 平时
- 利用
- 折扣值
- 变化
- 通过
- 查看
- 能见度
- vs
- we
- 卷筒纸
- Web服务
- 井
- 为
- 什么是
- ,尤其是
- 是否
- 而
- WHO
- 为什么
- 中
- 工作
- 工作流程
- 工作流程
- 车间
- 写
- 年
- 完全
- 您一站式解决方案
- 和风网