亚马逊SageMaker数据牧马人 将机器学习 (ML) 的数据汇总和准备时间从几周缩短到几分钟。 借助 Data Wrangler,您只需单击几下即可选择和查询数据,使用 300 多种内置数据转换快速转换数据,并通过内置可视化了解您的数据,而无需编写任何代码。
此外,您可以创建 自定义转换 独特的您的要求。 自定义转换允许您使用 PySpark、Pandas 或 SQL 编写自定义转换。
Data Wrangler 现在支持自定义 Pandas 用户自定义函数 (UDF) 转换,可以有效地处理大型数据集。 您可以从两种自定义 Pandas UDF 模式中进行选择:Pandas 和 Python。 这两种模式都为处理数据集提供了有效的解决方案,您选择的模式取决于您的偏好。
在这篇文章中,我们将演示如何在任一模式下使用新的 Pandas UDF 转换。
解决方案概述
在撰写本文时,您可以将数据集从以下位置导入 Data Wrangler 亚马逊简单存储服务 (Amazon S3), 亚马逊雅典娜, 亚马逊Redshift、Databricks 和雪花。 对于这篇文章,我们使用 Amazon S3 存储 2014 亚马逊评论数据集.
数据有一个名为 reviewText
包含用户生成的文本。 文中还包含几 停用词,这是不提供太多信息的常用词,例如“a”、“an”和“the”。 去除停用词是自然语言处理 (NLP) 管道中常见的预处理步骤。 我们可以创建一个自定义函数来从评论中删除停用词。
创建自定义 Pandas UDF 转换
让我们来看看使用 Pandas 和 Python 模式创建两个 Data Wrangler 自定义 Pandas UDF 转换的过程。
- 下载 数字音乐评论数据集 并将其上传到 Amazon S3。
- 可选 亚马逊SageMaker Studio 并创建一个新的 Data Wrangler 流。
- 下 导入日期,选择 Amazon S3 并导航到数据集位置。
- 针对 文件类型,选择 jsonl.
数据的预览应显示在表中。
现在我们创建自定义转换来删除停用词。
- 指定输入列、输出列、返回类型和模式。
以下示例使用 Pandas 模式。 这意味着该函数应该接受并返回相同长度的 Pandas 系列。 您可以将 Pandas 系列视为表中的列或列的一部分。 这是性能最高的 Pandas UDF 模式,因为 Pandas 可以对一批值的操作进行矢量化,而不是一次一个。 这 pd.Series
在 Pandas 模式下需要类型提示。
如果您更喜欢使用纯 Python 而不是 Pandas API,Python 模式允许您指定一个纯 Python 函数,该函数接受单个参数并返回单个值。 以下示例在输出方面与前面的 Pandas 代码等效。 Python 模式不需要类型提示。
- 地址 添加您的自定义转换。
结论
Data Wrangler 有 300 多个内置转换,您还可以根据您的要求添加独特的自定义转换。 在这篇文章中,我们演示了如何使用 Data Wrangler 的新自定义 Pandas UDF 转换处理数据集,同时使用 Pandas 和 Python 模式。 您可以根据自己的喜好使用任一模式。 要了解有关 Data Wrangler 的更多信息,请参阅 创建和使用数据管理员流.
作者简介
本·哈里斯 是一名软件工程师,拥有跨多个领域设计、部署和维护可扩展数据管道和机器学习解决方案的经验。 Ben 建立了用于数据收集和标记、图像和文本分类、序列到序列建模、嵌入和聚类等的系统。
海德尔纳克维 是 AWS 的解决方案架构师。 他拥有丰富的软件开发和企业架构经验。 他专注于帮助客户通过 AWS 实现业务成果。 他常驻纽约。
维沙尔·斯利瓦斯塔瓦 是 AWS 的技术客户经理。 他拥有软件开发和分析方面的背景,主要与金融服务部门和数字原生企业客户合作,并支持他们的云之旅。 在空闲时间,他喜欢和家人一起旅行。
- "
- 10
- 100
- 9
- 关于
- 账号管理
- 横过
- Amazon
- 其中
- 分析
- API
- 架构
- 可使用
- AWS
- 背景
- 内建的
- 商业
- 分类
- 云端技术
- 码
- 采集
- 柱
- 相当常见
- 包含
- 创建信息图
- 创造
- 习俗
- 合作伙伴
- data
- 演示
- 证明
- 依靠
- 部署
- 设计
- 研发支持
- 数字
- 域名
- 高效
- 有效
- 使
- 工程师
- 企业
- 例子
- 体验
- 广泛
- 家庭
- 金融
- 金融服务
- 流
- 重点
- 以下
- Free
- 功能
- 创新中心
- How To
- HTTPS
- 图片
- 信息
- 输入
- IT
- 加入
- 标签
- 语言
- 大
- 学习用品
- 学习
- 圖書分館的位置
- 机
- 机器学习
- 经理
- 匹配
- ML
- 更多
- 最先进的
- 音乐
- 自然
- 纽约
- 运营
- Prepare
- 预览
- 过程
- 处理
- 提供
- 快速
- 很快
- 必须
- 岗位要求
- 回报
- 回报
- 评论
- 可扩展性
- 扇形
- 系列
- 特色服务
- 简易
- 软件
- 软件开发
- 软件工程师
- 方案,
- 解决方案
- 剩余名额
- 存储
- 商店
- 支持
- 产品
- 文案
- 通过
- 次
- 象征
- 令牌
- 改造
- 旅行
- 理解
- 独特
- 使用
- 折扣值
- 各种
- 也完全不需要
- 话
- 合作
- 写作