数据准备是任何数据驱动项目中的关键步骤,拥有正确的工具可以大大提高运营效率。 亚马逊SageMaker数据牧马人 将聚合和准备机器学习 (ML) 表格和图像数据所需的时间从几周缩短到几分钟。 借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并通过单个可视化界面完成数据准备工作流程的每个步骤,包括数据选择、清理、探索和可视化。
在这篇文章中,我们将探讨 SageMaker Data Wrangler 专为改善操作体验而设计的最新功能。 我们深入研究支持 简单的存储服务 (亚马逊 S3) 舱单 文件、交互式数据流中的推理工件以及与 JSON(JavaScript对象表示法) 推理格式,强调这些增强功能如何使数据准备变得更容易、更高效。
介绍新功能
在本节中,我们将讨论 SageMaker Data Wrangler 用于优化数据准备的新功能。
用于 ML 推理的 SageMaker Autopilot 支持 S3 清单文件
SageMaker Data Wrangler 支持 统一数据准备和模型训练 有经验 亚马逊SageMaker自动驾驶仪 只需点击几下即可。 您可以使用 SageMaker Autopilot 针对您在数据流中转换的数据自动训练、调整和部署模型。
现在,通过 S3 清单文件支持,这种体验得到了进一步简化。 S3 清单文件是一个文本文件,列出了 S3 存储桶中存储的对象(文件)。 如果您在 SageMaker Data Wrangler 中导出的数据集相当大,并且在 Amazon S3 中分成多个部分的数据文件,现在 SageMaker Data Wrangler 将自动在 S3 中创建一个代表所有这些数据文件的清单文件。 现在可以将生成的清单文件与 SageMaker Data Wrangler 中的 SageMaker Autopilot UI 结合使用,以获取所有分区数据进行训练。
在此功能推出之前,当使用根据 SageMaker Data Wrangler 准备的数据训练的 SageMaker Autopilot 模型时,您只能选择一个数据文件,该文件可能无法代表整个数据集,尤其是在数据集非常大的情况下。 借助这种新的清单文件体验,您不再局限于数据集的子集。 您可以使用清单文件通过 SageMaker Autopilot 构建表示所有数据的 ML 模型,并将其用于 ML 推理和生产部署。 此功能通过使用 SageMaker Autopilot 简化训练 ML 模型并简化数据处理工作流程,从而提高运营效率。
添加了对生成工件中的推理流的支持
客户希望将应用于模型训练数据的数据转换(例如 one-hot 编码、PCA 和插补缺失值)应用于生产中的实时推理或批量推理。 为此,您必须拥有 SageMaker Data Wrangler 推理工件,该工件由 SageMaker 模型使用。
以前,推理工件只能在导出到 SageMaker Autopilot 训练或导出推理管道笔记本时从 UI 生成。 如果您想将 SageMaker Data Wrangler 流程带到外部,这并不能提供灵活性。 亚马逊SageMaker Studio 环境。 现在,您可以通过 SageMaker Data Wrangler 处理作业为任何兼容的流文件生成推理工件。 这使得能够通过 SageMaker Data Wrangler 流程实现编程式、端到端 MLOps,以实现代码优先的 MLOps 角色,以及通过从 UI 创建作业来获取推理工件的直观、无代码路径。
简化数据准备
JSON 已成为现代数据生态系统中广泛采用的数据交换格式。 SageMaker Data Wrangler 与 JSON 格式的集成使您能够无缝处理 JSON 数据以进行转换和清理。 通过提供对 JSON 的本机支持,SageMaker Data Wrangler 简化了处理结构化和半结构化数据的流程,使您能够提取有价值的见解并高效准备数据。 SageMaker Data Wrangler 现在支持批量和实时推理端点部署的 JSON 格式。
解决方案概述
对于我们的用例,我们使用示例 亚马逊顾客评论数据集 展示 SageMaker Data Wrangler 如何简化使用 SageMaker Autopilot 构建新 ML 模型的操作工作。 亚马逊客户评论数据集包含来自亚马逊的产品评论和元数据,其中包括 142.8 年 1996 月至 2014 年 XNUMX 月的 XNUMX 亿条评论。
在较高层面上,我们使用 SageMaker Data Wrangler 来管理这个大型数据集并执行以下操作:
- 使用所有数据集(而不仅仅是样本)在 SageMaker Autopilot 中开发 ML 模型。
- 使用 SageMaker Data Wrangler 生成的推理工件构建实时推理管道,并使用 JSON 格式进行输入和输出。
SageMaker Autopilot 支持 S3 清单文件
使用 SageMaker Data Wrangler 创建 SageMaker Autopilot 实验时,您以前只能指定单个 CSV 或 Parquet 文件。 现在,您还可以使用 S3 清单文件,从而可以使用大量数据进行 SageMaker Autopilot 实验。 SageMaker Data Wrangler 会自动将输入数据文件分区为几个较小的文件,并生成可在 SageMaker Autopilot 实验中使用的清单,以从交互式会话中提取所有数据,而不仅仅是一个小样本。
完成以下步骤:
- 将 Amazon 客户评论数据从 CSV 文件导入到 SageMaker Data Wrangler。 确保导入数据时禁用采样。
- 指定标准化数据的转换。 在此示例中,使用 SageMaker Data Wrangler 的内置转换删除符号并将所有内容转换为小写。
- 火车模型 开始训练。
为了使用 SageMaker Autopilot 训练模型,SageMaker 会自动将数据导出到 S3 存储桶。 对于像这样的大型数据集,它会自动将文件分解为较小的文件,并生成包含较小文件位置的清单。
- 首先,选择您的输入数据。
此前,SageMaker Data Wrangler 没有选项来生成与 SageMaker Autopilot 一起使用的清单文件。 今天,随着清单文件支持的发布,SageMaker Data Wrangler 将自动将清单文件导出到 Amazon S3,使用清单文件 S3 位置预填充 SageMaker Autopilot 训练的 S3 位置,并将清单文件选项切换为 支持。 生成或使用清单文件不需要任何工作。
- 通过选择模型预测的目标来配置您的实验。
- 接下来,选择训练方法。 在这种情况下,我们选择 汽车 并让 SageMaker Autopilot 根据数据集大小决定最佳训练方法。
- 指定部署设置。
- 最后,检查作业配置并提交 SageMaker Autopilot 实验进行训练。 当 SageMaker Autopilot 完成实验时,您可以查看训练结果并探索最佳模型。
由于对清单文件的支持,您可以使用整个数据集进行 SageMaker Autopilot 实验,而不仅仅是数据的子集。
有关将 SageMaker Autopilot 与 SageMaker Data Wrangler 结合使用的更多信息,请参阅 使用 Amazon SageMaker Data Wrangler 和 Amazon SageMaker Autopilot 进行统一数据准备和模型训练。
从 SageMaker 处理作业生成推理工件
现在,让我们看看如何通过 SageMaker Data Wrangler UI 和 SageMaker Data Wrangler 笔记本生成推理工件。
SageMaker 数据牧马人 UI
对于我们的用例,我们希望通过 UI 处理数据,然后使用生成的数据通过 SageMaker 控制台训练和部署模型。 完成以下步骤:
- 打开您在上一节中创建的数据流。
- 选择最后一个变换旁边的加号,选择 添加目的地,并选择 Amazon S3。 这将是处理后的数据的存储位置。
- 建立工作.
- 选择 生成推理工件 在推理参数部分中生成推理工件。
- 对于推理工件名称,输入推理工件的名称(使用 .tar.gz 作为文件扩展名)。
- 对于推理输出节点,输入与应用于训练数据的转换相对应的目标节点。
- 配置作业.
- 下 作业配置,输入路径 流文件S3位置。 一个名为
data_wrangler_flows
将在此位置下创建,并且推理工件将上传到此文件夹。 要更改上传位置,请设置不同的 S3 位置。 - 保留所有其他选项的默认值并选择 创建 创建处理作业。
处理作业将创建一个tarball (.tar.gz)
包含修改后的数据流文件和新添加的推理部分,允许您将其用于推理。 在部署推理解决方案时,您需要推理工件的 S3 统一资源标识符 (URI) 来向 SageMaker 模型提供工件。 URI 的形式为{Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz
. - 如果您之前没有记下这些值,则可以选择处理作业的链接来查找相关详细信息。 在我们的示例中,URI 是
s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
- 复制的值 处理图像; 创建模型时我们也需要这个 URI。
- 现在,我们可以使用此 URI 在 SageMaker 控制台上创建 SageMaker 模型,稍后可以将其部署到端点或批量转换作业。
- 下 模型设置¸ 输入模型名称并指定您的 IAM 角色。
- 针对 容器输入选项, 选择 提供模型工件和推理图像位置.
- 针对 推理代码图像的位置,输入处理图像URI。
- 针对 模型工件的位置,输入推理工件 URI。
- 此外,如果您的数据具有将由经过训练的 ML 模型预测的目标列,请在下面指定该列的名称 环境变量,
INFERENCE_TARGET_COLUMN_NAME
as 键 列名称为 值. - 通过选择完成模型创建 建立模型.
我们现在有了一个可以部署到端点或批量转换作业的模型。
SageMaker Data Wrangler 笔记本
对于从处理作业生成推理工件的代码优先方法,我们可以通过选择来找到示例代码 输出到 在节点菜单上并选择 Amazon S3, SageMaker管道或 SageMaker 推理管道。 我们选择 SageMaker 推理管道 在这个例子中。
在此笔记本中,有一个标题为 创建处理器 (这在 SageMaker Pipelines 笔记本中是相同的,但在 Amazon S3 笔记本中,等效代码将位于 作业配置 部分)。 本节的底部是我们的推理工件的配置,称为 inference_params
。 它包含我们在 UI 中看到的相同信息,即推理工件名称和推理输出节点。 这些值将被预先填充,但可以修改。 另外还有一个参数叫做 use_inference_params
,需要设置为 True
在处理作业中使用此配置。
再往下是一个标题为 定义管道步骤,其中 inference_params
配置附加到作业参数列表并传递到 SageMaker Data Wrangler 处理步骤的定义中。 在 Amazon S3 笔记本中, job_arguments
紧随其后定义 作业配置 部分。
通过这些简单的配置,此笔记本创建的处理作业将在与我们的流文件(之前在我们的笔记本中定义)相同的 S3 位置生成推理工件。 我们可以通过编程方式确定此 S3 位置,并使用此工件来创建 SageMaker 模型 SageMaker Python 开发工具包,这在 SageMaker Inference Pipeline 笔记本中进行了演示。
相同的方法可以应用于创建 SageMaker Data Wrangler 处理作业的任何 Python 代码。
JSON 文件格式支持推理过程中的输入和输出
网站和应用程序使用 JSON 作为 API 的请求/响应是很常见的,这样信息就很容易被不同的编程语言解析。
以前,在拥有经过训练的模型后,您只能通过 CSV 作为 SageMaker Data Wrangler 推理管道中的输入格式与其进行交互。 如今,您可以使用 JSON 作为输入和输出格式,从而在与 SageMaker Data Wrangler 推理容器交互时提供更大的灵活性。
要开始在推理管道笔记本中使用 JSON 进行输入和输出,请完成以下步骤:
- 定义有效负载。
对于每个有效负载,模型都需要一个键命名实例。 该值是一个对象列表,每个对象都有自己的数据点。 这些对象需要一个称为特征的键,并且值应该是要提交给模型的单个数据点的特征。 可以在单个请求中提交多个数据点,每个请求的总大小最多为 6 MB。
请参见以下代码:
- 指定
ContentType
asapplication/json
. - 向模型提供数据并接收 JSON 格式的推理。
我们 用于推理的通用数据格式 有关示例输入和输出 JSON 示例。
清理
当您使用完 SageMaker Data Wrangler 后,我们建议您关闭其运行的实例,以避免产生额外费用。 有关如何关闭 SageMaker Data Wrangler 应用程序和关联实例的说明,请参阅 关闭数据管理员.
结论
SageMaker Data Wrangler 的新功能,包括对 S3 清单文件的支持、推理功能和 JSON 格式集成,改变了数据准备的操作体验。 这些增强功能简化了数据导入、自动化数据转换并简化了 JSON 数据的处理。 借助这些功能,您可以提高运营效率、减少手动工作量并轻松从数据中提取有价值的见解。 充分利用 SageMaker Data Wrangler 新功能的强大功能,释放数据准备工作流程的全部潜力。
要开始使用 SageMaker Data Wrangler,请查看有关 SageMaker Data Wrangler 的最新信息 SageMaker Data Wrangler 产品页面.
关于作者
慕尼黑达布拉 是 Amazon Web Services (AWS) 的首席解决方案架构师。 他目前关注的领域是人工智能/机器学习和可观察性。 他在设计和构建可扩展的分布式系统方面拥有深厚的背景。 他喜欢帮助客户在 AWS 中进行业务创新和转型。 领英: /姆达布拉
帕特里克·林 是 Amazon SageMaker Data Wrangler 的软件开发工程师。 他致力于使 Amazon SageMaker Data Wrangler 成为生产化 ML 工作流的第一大数据准备工具。 工作之余,你可以看到他阅读、听音乐、与朋友交谈以及在他的教堂服务。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 汽车/电动汽车, 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 块偏移量。 现代化环境抵消所有权。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/optimize-data-preparation-with-new-features-in-aws-sagemaker-data-wrangler/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 100
- 1996
- 2014
- 7
- 8
- 9
- a
- 行动
- 添加
- 额外
- 另外
- 采用
- 后
- AI / ML
- 所有类型
- 允许
- 允许
- 还
- Amazon
- 亚马逊SageMaker
- 亚马逊SageMaker自动驾驶仪
- 亚马逊SageMaker数据牧马人
- 亚马逊网络服务
- 亚马逊网络服务(AWS)
- 量
- an
- 和
- 任何
- APIs
- 应用
- 应用领域
- 应用的
- 使用
- 的途径
- 保健
- 地区
- 参数
- AS
- 相关
- At
- 自动化
- 自动
- 避免
- AWS
- 背景
- 基于
- BE
- 成为
- 作为
- 最佳
- 大
- 都
- 半身裙/裤
- 午休
- 建立
- 建筑物
- 内建的
- 商业
- 但是
- by
- 被称为
- CAN
- 能力
- 案件
- 更改
- 收费
- 查
- 选择
- 教会
- 清洁
- 码
- 柱
- 提交
- 相当常见
- 兼容
- 完成
- 完成对
- 配置
- 安慰
- 消费
- 集装箱
- 包含
- 对话
- 相应
- 可以
- 创建信息图
- 创建
- 创建
- 创造
- 危急
- 电流
- 顾客
- 合作伙伴
- data
- 数据交换
- 数据点
- 资料准备
- 数据处理
- 数据驱动
- 数据集
- 天
- 决定
- 默认
- 定义
- 定义
- 钻研
- 证明
- 部署
- 部署
- 部署
- 设计
- 设计
- 目的地
- 详情
- 确定
- 研发支持
- 不同
- 讨论
- 分布
- 分布式系统
- do
- 向下
- ,我们将参加
- 每
- 此前
- 缓解
- 更容易
- 易
- 生态系统
- 效率
- 高效
- 有效
- 努力
- 或
- 拥抱
- 使
- 使
- 端至端
- 端点
- 工程师
- 工程师
- 提高
- 增强
- 增强
- 输入
- 整个
- 环境
- 特别
- EVER
- 所有的
- 每天
- 一切
- 例子
- 例子
- 交换
- 期待
- 体验
- 实验
- 实验
- 勘探
- 探索
- 出口
- 出口
- 延期
- 提取
- 专栏
- 特征
- 少数
- 文件
- 档
- 找到最适合您的地方
- 高度灵活
- 流
- 流动
- 专注焦点
- 遵循
- 以下
- 针对
- 申请
- 格式
- 朋友
- 止
- ,
- 进一步
- 生成
- 产生
- 得到
- 非常
- 民政事务总署
- 处理
- 有
- 有
- he
- 帮助
- 高
- 突出
- 他
- 他的
- 创新中心
- How To
- HTML
- HTTPS
- i
- 相同
- 识别码
- if
- 图片
- 立即
- 进口
- 输入
- 改善
- in
- 包括
- 包含
- 信息
- 创新
- 输入
- 可行的洞见
- 例
- 说明
- 积分
- 拟
- 相互作用
- 互动
- 互动
- 接口
- 成
- 直观的
- IT
- 它的
- JavaScript的
- 工作
- JPG
- JSON
- 七月
- 只是
- 键
- 语言
- 大
- (姓氏)
- 后来
- 最新
- 发射
- 学习
- 让
- Level
- 喜欢
- 有限
- 友情链接
- 清单
- 听力
- 书单
- 圖書分館的位置
- 看
- 机
- 机器学习
- 使
- 制作
- 管理
- 手册
- 可能..
- 菜单
- 元数据
- 方法
- 可能
- 百万
- 分钟
- 失踪
- ML
- 多播
- 模型
- 模型
- 现代
- 改性
- 更多
- 更高效
- 多
- 音乐
- 必须
- 姓名
- 命名
- 亦即
- 本地人
- 必要
- 需求
- 需要
- 全新
- 新功能
- 新
- 下页
- 没有
- 节点
- 笔记本
- 现在
- 数
- 对象
- 对象
- of
- on
- 一
- 仅由
- 操作
- 最佳
- 优化
- 附加选项
- 附加选项
- or
- 其他名称
- 我们的
- 输出
- 产量
- 学校以外
- 己
- 参数
- 参数
- 通过
- 径
- 为
- 演出
- 挑
- 管道
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 加
- 点
- 点
- 帖子
- 潜力
- 功率
- 预测
- 都曾预测
- 准备
- Prepare
- 准备
- 漂亮
- 先前
- 校长
- 过程
- 处理
- 处理
- 产品
- 产品评论
- 生产
- 程序化
- 代码编程
- 编程语言
- 项目
- 提供
- 优
- 蟒蛇
- 阅读
- 实时的
- 接收
- 建议
- 减少
- 减少
- 释放
- 相应
- 去掉
- 代表
- 代表
- 请求
- 要求
- 资源
- 导致
- 成果
- 检讨
- 评论
- 右
- 角色
- 运行
- s
- sagemaker
- SageMaker 推理
- SageMaker管道
- 同
- 锯
- 可扩展性
- 无缝的
- 无缝
- 部分
- 看到
- 选择
- 选择
- 特色服务
- 服务
- 会议
- 集
- 设置
- 几个
- 应该
- 显示
- 关闭
- 签署
- 简易
- 简
- 简化
- 简化
- 单
- 尺寸
- 小
- 小
- So
- 软件
- 软件开发
- 方案,
- 解决方案
- 特别是
- 分裂
- 开始
- 开始
- 步
- 步骤
- 存储
- 存储
- 精简
- 精简
- 强烈
- 结构化
- 提交
- 提交
- 这样
- SUPPORT
- 支持
- 肯定
- 产品
- 采取
- 需要
- 目标
- 这
- 信息
- 其
- 然后
- 那里。
- 博曼
- Free Introduction
- 那些
- 通过
- 次
- 标题
- 至
- 今晚
- 也有
- 工具
- 工具
- 合计
- 培训
- 熟练
- 产品培训
- 改造
- 转型
- 转换
- 转化
- 变换
- 两次
- ui
- 下
- 开锁
- 上传
- 使用
- 用例
- 用过的
- 运用
- 有价值
- 折扣值
- 价值观
- 非常
- 通过
- 查看
- 可视化
- 想
- 通缉
- we
- 卷筒纸
- Web服务
- 网站
- 周
- 井
- ,尤其是
- 这
- 广泛
- 将
- 工作
- 工作流程
- 工作流程
- 加工
- 完全
- 您一站式解决方案
- 和风网