这是与 Nielsen Sports 的 Tamir Rubinsky 和 Aviad Aranias 共同撰写的客座帖子.
尼尔森体育 作为受众洞察、数据和分析领域的全球领导者,塑造世界媒体和内容。通过我们对所有渠道和平台上的人员及其行为的了解,我们为客户提供独立且可操作的情报,以便他们能够与现在和未来的受众建立联系并互动。
在尼尔森体育,我们的使命是为我们的客户(品牌和权利持有者)提供衡量体育赞助广告活动跨所有渠道(包括电视、在线、社交媒体和媒体)的投资回报率 (ROI) 和有效性的能力。甚至报纸,并在地方、国家和国际层面提供准确的定位。
在这篇文章中,我们描述了 Nielsen Sports 如何通过使用 亚马逊SageMaker 多模型端点 (MME) 并将运营和财务成本降低了 75%。
频道视频分割面临的挑战
我们的技术基于人工智能 (AI),特别是计算机视觉 (CV),这使我们能够跟踪品牌曝光度并准确识别其位置。例如,我们识别品牌是否出现在横幅或衬衫上。此外,我们还会识别商品上品牌的位置,例如标志或封套的顶角。下图显示了我们的标签系统的示例。
为了了解我们的规模和成本挑战,让我们看一些有代表性的数字。每个月,我们在不同渠道识别超过 120 亿次品牌印象,系统必须支持识别超过 100,000 个品牌以及不同品牌的变体。我们建立了世界上最大的品牌印象数据库之一,拥有超过 6 亿个数据点。
我们的媒体评估流程包括几个步骤,如下图所示:
- 首先,我们使用国际录音系统录制全球数千个频道。
- 我们将内容与广播时间表(电子节目指南)结合流式传输到下一阶段,即游戏广播本身与其他内容或广告之间的分段和分离。
- 我们执行媒体监控,向每个细分添加额外的元数据,例如联赛分数、相关球队和球员。
- 我们对品牌的知名度进行曝光分析,然后结合受众信息来计算活动的估值。
- 该信息通过仪表板或分析报告传递给客户。分析师可以直接访问原始数据或通过我们的数据仓库访问。
由于我们每年的运营规模超过一千个频道和数万小时的视频,因此我们必须拥有一个可扩展的自动化系统来进行分析过程。我们的解决方案自动对广播进行分段,并知道如何将相关视频剪辑与其余内容隔离开来。
我们使用我们开发的专用算法和模型来分析通道的具体特征。
总的来说,我们在生产中运行了数千个不同的模型来支持这一任务,但成本高昂、会产生运营开销、容易出错且速度缓慢。具有新模型架构的模型花了几个月的时间才投入生产。
这就是我们想要创新和重新架构我们的系统的地方。
使用 SageMaker MME 经济高效地扩展 CV 模型
我们的旧视频分割系统很难测试、更改和维护。其中一些挑战包括使用旧的机器学习框架、组件之间的相互依赖关系以及难以优化的工作流程。这是因为我们的管道基于 RabbitMQ,这是一个有状态的解决方案。为了调试一个组件(例如特征提取),我们必须测试所有管道。
下图展示了之前的架构。
作为分析的一部分,我们发现了性能瓶颈,例如在机器上运行单个模型,显示 GPU 利用率较低,为 30-40%。我们还发现模型的流水线运行和调度算法效率低下。
因此,我们决定基于 SageMaker 构建新的多租户架构,该架构将实现性能优化改进、支持动态批量大小并同时运行多个模型。
工作流程的每次运行都针对一组视频。每个视频长度在 30 到 90 分钟之间,每个组有五个以上的模型要运行。
让我们看一个例子:一个视频可能长达 60 分钟,由 3,600 张图像组成,每个图像在第一阶段需要由三个不同的 ML 模型进行推断。借助 SageMaker MME,我们可以并行运行 12 个图像的批次,并且整个批次在不到 2 秒的时间内完成。正常情况下,我们有 20 多组视频,而在繁忙的周末,我们可以有 100 多组视频。
下图显示了我们使用 SageMaker MME 的全新简化架构。
成果
通过新架构,我们实现了许多预期的结果,并比旧架构有一些看不见的优势:
- 更好的运行时间 – 通过增加批量大小(并行 12 个视频)和同时运行多个模型(并行 33 个模型),我们将整体管道运行时间减少了 1%,从 40 小时减少到 XNUMX 分钟。
- 改善基础设施 – 借助 SageMaker,我们升级了现有基础设施,现在使用带有更新 GPU(例如 g5.xlarge)的更新 AWS 实例。这一变化的最大好处之一是使用 TorchScript 和 CUDA 优化带来的即时性能提升。
- 优化基础设施使用 – 通过拥有可以托管多个模型的单个端点,我们可以减少端点数量和需要维护的机器数量,并且还可以提高单台机器及其 GPU 的利用率。对于包含五个视频的特定任务,我们现在仅使用五台 g5 实例机器,这使我们比之前的解决方案节省了 75% 的成本效益。对于白天的典型工作负载,我们使用单个端点和单台 g5.xlarge 机器,GPU 利用率超过 80%。相比之下,之前的解决方案利用率不到 40%。
- 提高敏捷性和生产力 – 使用 SageMaker 让我们能够花更少的时间迁移模型,并花更多的时间改进我们的核心算法和模型。这提高了我们的工程和数据科学团队的生产力。我们现在可以在 7 天内研究和部署新的 ML 模型,而不是之前的 1 个多月。这在速度和规划方面提高了 75%。
- 更好的品质和信心 – 借助 SageMaker A/B 测试功能,我们可以逐步部署模型并能够安全回滚。更快的生产生命周期也提高了我们的机器学习模型的准确性和结果。
下图显示了我们在之前架构下的 GPU 利用率(30–GPU 利用率为 40%)。
下图显示了我们采用新的简化架构时的 GPU 利用率(90% GPU 利用率)。
结论
在这篇文章中,我们分享了 Nielsen Sports 如何使用 SageMaker MME 对生产中运行数千个不同模型的系统进行现代化改造,并将其运营和财务成本降低了 75%。
如需进一步阅读,请参阅以下内容:
作者简介
埃坦·塞拉(Eitan Sela) 是 Amazon Web Services 的生成式 AI 和机器学习专家解决方案架构师。他与 AWS 客户合作,提供指导和技术援助,帮助他们在 AWS 上构建和运营生成式 AI 和机器学习解决方案。业余时间,Eitan 喜欢慢跑和阅读最新的机器学习文章。
盖尔·戈德曼 是 AWS 的高级软件工程师和企业高级解决方案架构师,对尖端解决方案充满热情。他专注于并开发了许多分布式机器学习服务和解决方案。 Gal 还致力于帮助 AWS 客户加速并克服他们的工程和生成式 AI 挑战。
塔尔·潘切克 是 Amazon Web Services 人工智能和机器学习的高级业务开发经理。作为 BD 专家,他负责提高 AWS 服务的采用率、利用率和收入。他收集客户和行业需求,并与 AWS 产品团队合作创新、开发和交付 AWS 解决方案。
塔米尔鲁宾斯基 领导尼尔森体育的全球研发工程,在构建创新产品和管理高绩效团队方面拥有丰富的经验。他的工作通过创新的人工智能解决方案改变了体育赞助媒体的评估。
阿维亚德·阿拉尼亚斯 是 MLOps 团队领导者和尼尔森体育分析架构师,专门设计复杂的管道来分析多个渠道的体育赛事视频。他擅长构建和部署深度学习模型以有效处理大规模数据。在业余时间,他喜欢烘烤美味的那不勒斯披萨。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/nielsen-sports-sees-75-cost-reduction-in-video-analysis-with-amazon-sagemaker-multi-model-endpoints/
- :具有
- :是
- :在哪里
- 000
- 1
- 100
- 12
- 120
- 150
- 20
- 40
- 60
- 600
- 7
- a
- 对,能力--
- Able
- 加快
- ACCESS
- 精准的
- 准确
- 实现
- 横过
- 可行的
- 加
- 增加
- 额外
- 采用
- 优点
- 广告
- AI
- AI供电
- 算法
- 所有类型
- 允许
- 允许
- 还
- Amazon
- 亚马逊SageMaker
- 亚马逊网络服务
- an
- 分析
- 分析人士
- 分析
- 分析
- 和
- 架构
- 保健
- 围绕
- 刊文
- 人造的
- 人工智能
- 人工智能(AI)
- 人工智能和机器学习
- AS
- 帮助
- At
- 听众
- 自动
- 自动化和干细胞工程
- AWS
- 背部
- 旗帜
- 基于
- BD
- BE
- 因为
- 行为
- 得益
- 好处
- 之间
- 最大
- 亿
- 都
- 瓶颈
- 品牌
- 品牌
- 瞻
- 播放
- 广播
- 建立
- 建筑物
- 建
- 商业
- 业务发展
- by
- 计算
- 营销活动
- CAN
- 能力
- 挑战
- 更改
- 渠道
- 通道
- 特点
- 客户
- 剪辑
- 组合
- 结合
- 对照
- 完成对
- 复杂
- 元件
- 组件
- 一台
- 计算机视觉
- 信心
- 分享链接
- 组成
- 内容
- 核心
- 角落
- 价格
- 降低成本
- 昂贵
- 手工艺
- 顾客
- 合作伙伴
- 前沿
- XNUMX月XNUMX日
- data
- 数据点
- 数据科学
- 数据库
- 天
- 一年中的
- 决定
- 下降
- 专用
- 深
- 深入学习
- 交付
- 提升
- 部署
- 部署
- 描述
- 期望
- 开发
- 发达
- 研发支持
- 图表
- 不同
- 难
- 直接
- 直接访问
- 发现
- 分布
- do
- ,我们将参加
- 动态
- 每
- 效用
- 有效
- 电子
- 授权
- 端点
- 从事
- 工程师
- 工程师
- 企业
- 评估
- 甚至
- 活动
- 所有的
- 检查
- 例子
- 现有
- 体验
- 曝光
- 萃取
- 快
- 专栏
- 数字
- 金融
- 姓氏:
- 五
- 重点
- 以下
- 针对
- 骨架
- 止
- ,
- 进一步
- 未来
- GAL
- 游戏
- 生成的
- 生成式人工智能
- 得到
- 特定
- 给
- 全球
- 高盛
- GPU
- 图形处理器
- 逐步
- 团队
- 组的
- 成长
- 客人
- 游客发表
- 指导
- 指南
- 民政事务总署
- 处理
- 有
- 有
- he
- 帮助
- 高绩效
- 他的
- 主持人
- 小时
- HOURS
- 创新中心
- How To
- HTTPS
- 鉴定
- 确定
- 鉴定
- if
- 说明
- 图片
- 图片
- 即时
- 实施
- 改进
- 改善
- 改善
- in
- 包括
- 包括
- 包含
- 增加
- 增加
- 增加
- 独立
- 行业中的应用:
- 低效
- 推断
- 信息
- 基础设施
- 创新
- 创新
- 可行的洞见
- 代替
- 房源搜索
- 国际
- 成
- 投资
- IT
- 它的
- JPG
- 知道
- 大规模
- 最大
- 最新
- 领导者
- 信息
- 联盟
- 学习
- 遗产
- 减
- 各级
- 生命周期
- 本地
- 圖書分館的位置
- 长
- 看
- 低
- 机
- 机器学习
- 机
- 保持
- 经理
- 管理的
- 许多
- 衡量
- 媒体
- 元数据
- 迁移
- 百万
- 分钟
- 使命
- ML
- 多播
- 模型
- 模型
- 监控
- 月
- 个月
- 更多
- 多
- 必须
- National
- 需求
- 需要
- 全新
- 较新
- 报纸
- 下页
- 现在
- 数
- 数字
- 众多
- of
- 老
- on
- 一
- 在线
- 仅由
- 操作
- 操作
- 优化
- 优化
- or
- 其他名称
- 我们的
- 结果
- 超过
- 最划算
- 克服
- 开销
- 包装
- 并行
- 部分
- 合伙人
- 情
- 员工
- 演出
- 性能
- 管道
- 规划行程
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 球员
- 点
- 帖子
- 以前
- 先前
- 过程
- 产品
- 生产
- 生产率
- 热销产品
- 代码编程
- 提供
- 质量
- 研发
- 原
- 阅读
- 记录
- 了解
- 减少
- 减少
- 减少
- 参考
- 定期
- 相应
- 业务报告
- 代表
- 研究
- 提供品牌战略规划
- REST的
- 成果
- 回报
- 收入
- 权利
- 投资回报率
- 滚
- 运行
- 运行
- 运行
- 运行
- 安然
- sagemaker
- 可扩展性
- 鳞片
- 缩放
- 始你
- 调度
- 科学
- 分数
- 秒
- 看到
- 段
- 分割
- 中模板
- 前辈
- 特色服务
- 几个
- 形状
- 共用的,
- 显示
- 作品
- 签署
- 简
- 同时
- 单
- 尺寸
- 放慢
- So
- 社会
- 社会化媒体
- 软件
- 软件工程师
- 方案,
- 解决方案
- 一些
- 专家
- 专业
- 具体的
- 特别是
- 花
- 赞助
- 运动
- 运动
- 阶段
- 步骤
- 流
- 这样
- SUPPORT
- 系统
- 瞄准
- 目标
- 任务
- 团队
- 队
- 文案
- 专业技术
- HAST
- test
- 测试
- 比
- 这
- 未来
- 世界
- 其
- 他们
- 他们自己
- 然后
- 他们
- Free Introduction
- 千
- 数千
- 三
- 通过
- 次
- 至
- 了
- 最佳
- 合计
- 跟踪时
- 转化
- tv
- 普遍
- 下
- 理解
- 理解
- 升级
- us
- 用法
- 使用
- 运用
- 评估
- 变化
- 广阔
- 速度
- 视频
- 视频
- 能见度
- 愿景
- 通缉
- 是
- 方法..
- we
- 卷筒纸
- Web服务
- 周末
- 为
- 这
- WHO
- 工作
- 工作流程
- 加工
- 合作
- 世界
- 世界
- 将
- 年
- 和风网