如今,训练深度学习模型的数据科学家需要识别和修复模型训练问题以满足生产部署的准确性目标,并且需要一种利用标准工具调试模型训练的方法。 在数据科学家社区中,TensorBoard 是一个流行的工具包,它允许数据科学家可视化和分析他们的机器学习 (ML) 模型和训练过程的各个方面。 它提供了一套工具,用于可视化训练指标、检查模型架构、探索嵌入等。 TensorFlow 和 PyTorch 项目都认可并在其官方文档和示例中使用 TensorBoard。
亚马逊SageMaker with TensorBoard 是一种将 TensorBoard 的可视化工具引入 SageMaker 的功能。 它与 SageMaker 训练作业和域集成,为 SageMaker 域用户提供对 TensorBoard 数据的访问权限,并帮助域用户使用 SageMaker TensorBoard 可视化插件执行模型调试任务。 当他们创建 SageMaker 训练作业时,域用户可以通过 SageMaker Python SDK 或 Boto3 API 使用 TensorBoard。 SageMaker with TensorBoard 由 SageMaker Data Manager 插件支持,域用户可以使用该插件在 TensorBoard 应用程序中的一个位置访问多个训练作业。
在本文中,我们演示了如何使用 SageMaker Python SDK 在 SageMaker 中使用 TensorBoard 设置训练作业、访问 SageMaker TensorBoard、探索 TensorBoard 中可视化的训练输出数据,以及删除未使用的 TensorBoard 应用程序。
解决方案概述
SageMaker 中深度学习的典型训练作业包括两个主要步骤:准备训练脚本和配置 SageMaker 训练作业启动器。 在这篇文章中,我们将引导您完成所需的更改,以从 SageMaker 培训中收集与 TensorBoard 兼容的数据。
先决条件
要开始将 SageMaker 与 TensorBoard 结合使用,您需要在 AWS 账户下使用 Amazon VPC 设置 SageMaker 域。 每个用户的域用户配置文件都需要访问 SageMaker 上的 TensorBoard,并且 AWS身份和访问管理 (IAM) 执行角色需要一组最低权限,包括以下内容:
sagemaker:CreateApp
sagemaker:DeleteApp
sagemaker:DescribeTrainingJob
sagemaker:Search
s3:GetObject
s3:ListBucket
有关如何设置 SageMaker 域和用户配置文件的更多信息,请参阅 使用快速设置载入 Amazon SageMaker 域 和 添加和删除用户配置文件.
目录结构
使用时 亚马逊SageMaker Studio,目录结构可以组织如下:
在这里, script/train.py
是你的训练脚本,并且 simple_tensorboard.ipynb
启动 SageMaker 训练作业。
修改你的训练脚本
您可以使用以下任何工具来收集张量和标量:TensorBoardX、TensorFlow Summary Writer、PyTorch Summary Writer 或 Amazon SageMaker调试器,并指定数据输出路径为训练容器中的log目录(log_dir
). 在此示例代码中,我们使用 TensorFlow 为分类任务训练一个简单的全连接神经网络。 其他选项请参考 使用 TensorBoard 输出数据配置准备训练作业。 在 train()
函数,我们使用 tensorflow.keras.callbacks
.TensorBoard 工具收集张量和标量,指定 /opt/ml/output/tensorboard
作为训练容器中的日志目录,并将其传递给模型训练回调参数。 请参见以下代码:
使用 TensorBoard 数据配置构建 SageMaker 训练启动器
在配置 SageMaker 框架估算器时使用 sagemaker.debugger.TensorBoardOutputConfig,它映射 亚马逊简单存储服务 (Amazon S3) 您指定的用于保存 TensorBoard 数据的存储桶,其中包含训练容器中的本地路径(例如, /opt/ml/output/tensorboard
). 您可以使用不同的容器本地输出路径。 但是,它必须与值一致 LOG_DIR
变量,如上一步中指定,让 SageMaker 成功搜索训练容器中的本地路径并将 TensorBoard 数据保存到 S3 输出桶。
接下来,将模块的对象传递给 tensorboard_output_config
估计器类的参数。 以下代码片段显示了使用 TensorBoard 输出配置参数准备 TensorFlow 估计器的示例。
以下是样板代码:
以下代码用于训练容器:
下面的代码是TensorBoard的配置:
使用以下代码启动训练作业:
在 SageMaker 上访问 TensorBoard
您可以使用两种方法访问 TensorBoard:以编程方式使用 sagemaker.interactive_apps.tensorboard
生成 URL 的模块或使用 SageMaker 控制台上的 TensorBoard 登陆页面。 打开 TensorBoard 后,SageMaker 会运行 TensorBoard 插件,并在训练期间或训练后自动从与训练作业配对的 S3 存储桶中以 TensorBoard 兼容的文件格式查找并加载所有训练作业输出数据。
以下代码自动生成 TensorBoard 控制台登录页面的 URL:
这将返回以下消息,其中包含可打开 TensorBoard 登录页面的 URL。
如需从 SageMaker 控制台打开 TensorBoard,请参阅 如何在 SageMaker 上访问 TensorBoard.
当您打开 TensorBoard 应用程序时,TensorBoard 会打开 SageMaker 数据管理器 标签。 以下屏幕截图显示了完整视图 SageMaker 数据管理器 TensorBoard 应用程序中的选项卡。
点击 SageMaker 数据管理器 选项卡,您可以选择任何训练作业并从 Amazon S3 加载与 TensorBoard 兼容的训练输出数据。
- 在 添加训练作业 部分,使用复选框选择要从中提取数据并可视化以进行调试的训练作业。
- 添加选定的工作.
所选作业应出现在 跟踪培训工作 部分。
通过选择右上角的刷新图标来刷新查看器,成功加载作业数据后应该会出现可视化选项卡。
探索 TensorBoard 中可视化的训练输出数据
点击 时间序列 选项卡和其他基于图形的选项卡,您可以看到列表 跟踪培训工作 在左窗格中。 您还可以使用训练作业的复选框来显示或隐藏可视化。 TensorBoard 动态插件会根据您设置训练脚本的方式动态激活,以包括摘要编写器以及张量和标量集合的传递回调,并且图形选项卡也会动态显示。 以下屏幕截图显示了每个选项卡的示例视图,其中包含两个训练作业收集的指标的可视化。 指标包括时间序列、标量、图形、分布和直方图插件。
以下截图是 时间序列 选项卡视图。
以下截图是 标量 选项卡视图。
以下截图是 图 选项卡视图。
以下截图是 分布 选项卡视图。
以下截图是 直方图 选项卡视图。
清理
在 TensorBoard 中完成作业的监控和试验后,关闭 TensorBoard 应用程序:
- 在SageMaker控制台上,选择 域名 在导航窗格中。
- 选择您的域名。
- 选择您的用户配置文件。
- 下 应用,选择 删除应用 对于 TensorBoard 行。
- 是的,删除应用.
- 在文本框中输入删除,然后选择 删除.
页面顶部应显示一条消息:“正在删除默认值”。
结论
TensorBoard 是可视化、分析和调试深度学习模型的强大工具。 在本文中,我们提供了将 SageMaker 与 TensorBoard 结合使用的指南,包括如何使用 SageMaker Python SDK 在 SageMaker 训练作业中设置 TensorBoard、访问 SageMaker TensorBoard、探索 TensorBoard 中可视化的训练输出数据,以及删除未使用的 TensorBoard 应用程序。 通过执行这些步骤,您可以开始在 SageMaker 中使用 TensorBoard 进行工作。
我们鼓励您尝试不同的功能和技术。
关于作者
孙百川博士 是 AWS AI/ML 的高级数据科学家。 他热衷于在云上使用数据驱动的方法与客户解决战略业务问题,他一直在具有挑战性的领域领导项目,包括机器人计算机视觉、时间序列预测、价格优化、预测性维护、药物开发、产品推荐系统、等。在他的业余时间,他喜欢旅行和与家人一起出去玩。
马诺拉维 是 Amazon SageMaker 的高级产品经理。 他热衷于构建下一代 AI 产品,并致力于开发软件和工具,让客户更轻松地进行大规模机器学习。 他拥有哈斯商学院的工商管理硕士学位和卡内基梅隆大学的信息系统管理硕士学位。 在业余时间,Manoj 喜欢打网球和追求风光摄影。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图爱流。 Web3 数据智能。 知识放大。 访问这里。
- 与 Adryenn Ashley 一起铸造未来。 访问这里。
- 使用 PREIPO® 买卖 PRE-IPO 公司的股票。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-with-tensorboard-overview-of-a-hosted-tensorboard-experience/
- :具有
- :是
- $UP
- 1
- 10
- 100
- 11
- 15%
- 26%
- 28
- 7
- 8
- 9
- a
- 关于
- ACCESS
- 账号管理
- Adam
- 后
- AI
- AI / ML
- 所有类型
- 允许
- 还
- Amazon
- 亚马逊SageMaker
- 其中
- an
- 分析
- 分析
- 和
- 任何
- API
- 应用
- 出现
- 应用领域
- 应用领域
- 保健
- 地区
- 论点
- AS
- 方面
- At
- 自动
- AWS
- BE
- 很
- 作为
- 都
- 盒子
- 箱
- 带来
- 建筑物
- 商业
- by
- CAN
- 卡耐基 - 梅隆大学
- 挑战
- 更改
- 查
- 选择
- 程
- 云端技术
- 码
- 收集
- 采集
- 社体的一部分
- 一台
- 计算机视觉
- 配置
- 已联繫
- 一贯
- 安慰
- 容器
- 角落
- 创建信息图
- 合作伙伴
- data
- 数据科学家
- 数据驱动
- 数据集
- 日期时间
- 深
- 深入学习
- 演示
- 根据
- 部署
- 研发支持
- 分配
- 文件
- 域
- 域名
- 完成
- 向下
- ,我们将参加
- 动态
- 动态
- 每
- 更容易
- 其他
- 鼓励
- 拥护
- 时代
- 等
- 评估
- 检查
- 例子
- 例子
- 执行
- 体验
- 实验
- 探索
- 探索
- 家庭
- 特征
- 适合
- 以下
- 如下
- 针对
- 格式
- 骨架
- 止
- ,
- 充分
- 功能
- 产生
- 图形
- 图像
- 指南
- 有
- he
- 帮助
- 隐藏
- 他的
- 持有
- 托管
- 创新中心
- How To
- 但是
- HTML
- HTTP
- HTTPS
- ICON
- 鉴定
- 身分
- if
- 进口
- in
- 包括
- 包含
- 个人
- 信息
- 信息系统
- 集成
- 成
- 问题
- IT
- 工作
- 工作机会
- JPG
- JSON
- 凯拉斯
- 着陆
- 景观
- 大规模
- 启动
- 层
- 领导
- 学习
- 左
- 清单
- 加载
- 负载
- 本地
- 日志
- 离
- 机
- 机器学习
- 主要
- 保养
- 使
- 颠覆性技术
- 经理
- 许多
- 地图
- 满足
- 梅隆
- 的话
- 研究方法
- 方法
- 指标
- 最低限度
- ML
- 模型
- 模型
- 模块
- 监控
- 更多
- 必须
- 导航
- 旅游导航
- 需求
- 需要
- 网络
- 神经网络
- 数
- 对象
- of
- on
- 一
- 打开
- 开放
- 打开
- 优化
- 附加选项
- or
- 举办
- OS
- 其他名称
- 输出
- 产量
- 简介
- 页
- 配对
- 面包
- 参数
- 通过
- 多情
- 径
- 演出
- 权限
- 制药
- 摄影
- 地方
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 请
- 插入
- 插件
- 热门
- 帖子
- 强大
- 准备
- 以前
- 车资
- 问题
- 过程
- 产品
- 产品经理
- 生产
- 核心产品
- 项目
- 提供
- 提供
- 蟒蛇
- pytorch
- 快速
- 推荐
- 地区
- 去掉
- 要求
- 必须
- 回报
- 回报
- 机器人
- 角色
- 行
- sagemaker
- 保存
- 保存
- 学校
- 科学家
- 科学家
- 截图
- SDK
- 搜索
- 看到
- 选
- 前辈
- 系列
- 会议
- 集
- 格局
- 应该
- 显示
- 作品
- 简易
- 软件
- 解决
- 标准
- 开始
- 步
- 步骤
- 存储
- 商店
- 善用
- 战略业务
- 结构体
- 工作室
- 顺利
- 套房
- 概要
- 支持
- 系统
- 产品
- 目标
- 任务
- 任务
- 技术
- tensorflow
- 测试
- 这
- 其
- 然后
- 博曼
- 他们
- Free Introduction
- 通过
- 次
- 时间序列
- 至
- 工具
- 工具箱
- 工具
- 最佳
- 培训
- 产品培训
- 旅游
- 二
- 类型
- 普遍
- 下
- 大学
- 未使用
- 网址
- 使用
- 用户
- 用户
- 运用
- 利用
- 折扣值
- 各个
- 查看
- 意见
- 愿景
- 可视化
- 想
- 方法..
- we
- ,尤其是
- 这
- 而
- WHO
- 中
- 工作
- 合作
- 作家
- 完全
- 您一站式解决方案
- 和风网