今天,NFL 正在继续他们的旅程,以增加由 下一代统计平台 所有 32 支球队和球迷都一样。 借助源自机器学习 (ML) 的高级分析,NFL 正在创造新的方法来量化足球,并为球迷提供增加他们对足球知识的工具。 游戏中的游戏 足球。 对于 2022 赛季,NFL 旨在利用球员跟踪数据和新的高级分析技术 更好地了解特种部队.
该项目的目标是预测回球手在平底船或开球比赛中将获得多少码。 为弃踢和开球回归建立预测模型时面临的挑战之一是非常罕见的事件(例如达阵)的可用性,这些事件在比赛的动态中具有重要意义。 带有肥尾的数据分布在现实世界的应用程序中很常见,其中罕见事件对模型的整体性能有重大影响。 使用稳健的方法准确模拟极端事件的分布对于提高整体性能至关重要。
在本文中,我们演示了如何使用 GluonTS 中实现的 Spliced Binned-Pareto 分布对此类肥尾分布进行稳健建模。
我们首先描述使用的数据集。 接下来,我们介绍应用于数据集的数据预处理和其他转换方法。 然后我们解释 ML 方法和模型训练过程的细节。 最后,我们展示了模型性能结果。
数据集
在这篇文章中,我们使用了两个数据集来为平底船和开球回报建立单独的模型。 玩家跟踪数据包含玩家的位置、方向、加速度等(在 x,y 坐标中)。 NFL 的四个赛季(3,000-4,000 年)分别有大约 2018 和 2021 次弃踢和开球比赛。 此外,数据集中很少有与弃踢和开球相关的触地得分——分别只有 0.23% 和 0.8%。 弃踢和开球的数据分布不同。 例如,开球和弃踢的真实码数分布相似但有所不同,如下图所示。
数据预处理和特征工程
首先,跟踪数据被过滤为仅与弃踢和开球回报相关的数据。 玩家数据用于导出模型开发的特征:
- X – 沿场地长轴的球员位置
- Y – 沿场地短轴的球员位置
- S – 以码/秒为单位的速度; 换成Dis*10 更准确(Dis为过去0.1秒的距离)
- 你 – 玩家运动的角度(度)
由上述数据,每场比赛转化为10X11X14的数据,进攻球员10人(不包括持球者),防守球员11人,衍生特征14个:
- sX – 玩家的 x 速度
- sY – 玩家的 y 速度
- s – 球员的速度
- aX – 玩家的 x 加速度
- aY – 玩家的 y 加速度
- 相对X – x 球员相对于持球者的距离
- 依靠 – 球员相对于持球者的 y 距离
- 相对值 – x 球员相对于持球者的速度
- 相关性 – 球员相对于持球者的 y 速度
- 相对距离 – 球员相对于持球者的欧氏距离
- 对手 – x 进攻球员相对于防守球员的距离
- 机会 – y 进攻球员相对于防守球员的距离
- 对手 –x 进攻球员相对于防守球员的速度
- 机会 – y 进攻球员相对于防守球员的速度
为了扩充数据并说明左右位置,还镜像了 X 和 Y 位置值以说明左右场位置。 数据预处理和特征工程改编自 NFL 大数据碗 Kaggle 上的比赛。
机器学习方法和模型训练
因为我们对比赛的所有可能结果感兴趣,包括触地得分的概率,所以我们不能简单地将平均码数预测为回归问题。 我们需要预测所有可能的码数增益的完整概率分布,因此我们将问题定义为概率预测。
实现概率预测的一种方法是将获得的码数分配给几个箱子(例如小于 0、从 0-1、从 1-2、...、从 14-15、大于 15)并将箱子预测为分类问题。 这种方法的缺点是我们希望小 bin 具有分布的高清图片,但小 bin 意味着每个 bin 的数据点更少,我们的分布,尤其是尾部,可能估计不佳且不规则。
实现概率预测的另一种方法是将输出建模为具有有限数量参数(例如,高斯或伽马分布)的连续概率分布并预测参数。 这种方法给出了非常高的清晰度和规则的分布图,但过于僵硬,无法适应多模态和重尾的真实码数分布。
为了充分利用这两种方法,我们使用 拼接的 Binned-Pareto 分布 (SBP),其中有大量数据可用的分布中心的箱子,以及 广义帕累托分布 (GPD) 在两端,可能会发生罕见但重要的事件,例如触地得分。 GPD 有两个参数:一个用于比例,一个用于尾重,如下图所示(来源:维基百科)。
通过将 GPD 与两侧的 binned 分布(见下左图)拼接,我们在右侧获得以下 SBP。 进行拼接的下限和上限阈值是超参数。
作为基准,我们使用赢得我们的模型 NFL 大数据碗 Kaggle 上的比赛。 该模型使用 CNN 层从准备好的数据中提取特征,并将结果预测为“每箱 1 码”分类问题。 对于我们的模型,我们保留了基线的特征提取层,只修改了最后一层以输出 SBP 参数而不是每个 bin 的概率,如下图所示(图像编辑自帖子 第一名解决方案动物园).
我们使用了由 胶子. GluonTS 是一个用于概率时间序列建模的 Python 包,但 SBP 分布并不特定于时间序列,我们能够将其重新用于回归。 有关如何使用 GluonTS SBP 的更多信息,请参见以下演示 笔记本.
模型在 2018、2019 和 2020 赛季进行了训练和交叉验证,并在 2021 赛季进行了测试。 为了避免交叉验证期间的泄漏,我们将同一游戏的所有游戏分组到同一折叠中。
为了评估,我们保留了 Kaggle 竞赛中使用的指标,即 连续排序概率得分 (CRPS),这可以看作是对异常值更稳健的对数似然的替代方法。 我们还使用了 皮尔逊相关系数 和 均方根误差 作为一般和可解释的准确性指标。 此外,我们查看了触地得分的概率和概率图来评估校准。
该模型使用 CRPS 损失进行训练 随机权重平均 并提前停止。
为了处理输出分布分箱部分的不规则性,我们使用了两种技术:
- 与两个连续 bin 之间的平方差成正比的平滑度惩罚
- 在交叉验证期间训练的集成模型
模型性能结果
对于每个数据集,我们对以下选项进行了网格搜索:
- 概率模型
- 基线是每码一个概率
- SBP 是中心每码一个概率,尾部是广义 SBP
- 分布平滑
- 无平滑(平滑度惩罚 = 0)
- 平滑度惩罚 = 5
- 平滑度惩罚 = 10
- 训练和推理过程
- 10 折交叉验证和集成推理 (k10)
- 训练 10 轮或 20 轮的训练和验证数据
然后我们查看了按 CRPS 排序的前五个模型的指标(越低越好)。
对于开球数据,SBP 模型在 CRPS 方面略微表现出色,但更重要的是,它更好地估计了触地得分概率(测试集中的真实概率为 0.80%)。 我们看到最好的模型使用 10 倍集成 (k10) 并且没有平滑度惩罚,如下表所示。
产品培训 | 型号 | 顺利 | CRPS | 均方根误差 | 修正百分比 | P(触地得分)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | 底线 | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | 底线 | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | 底线 | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
下面的观测频率和预测概率图表明我们的最佳模型得到了很好的校准,两个分布之间的 RMSE 为 0.27。 请注意出现在真实(蓝色)经验分布尾部的高码数(例如 100),其概率比基线方法更容易被 SBP 捕获。
对于平底船数据,基线优于 SBP,这可能是因为极端码数的尾部实现较少。 因此,捕获 0-10 码峰值之间的模态是一个更好的权衡; 与开球数据相反,最佳模型使用平滑度惩罚。 下表总结了我们的发现。
产品培训 | 型号 | 顺利 | CRPS | 均方根误差 | 修正百分比 | P(触地得分)% |
k10 | 底线 | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | 底线 | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | 底线 | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
以下两个最佳平底船模型的观测频率(蓝色)和预测概率图表明,非平滑模型(橙色)的校准略好于平滑模型(绿色),并且可能是总体上更好的选择。
结论
在这篇文章中,我们展示了如何使用肥尾数据分布构建预测模型。 我们使用了在 GluonTS 中实现的 Spliced Binned-Pareto 分布,它可以对这种肥尾分布进行稳健建模。 我们使用这种技术来构建弃踢和开球回报的模型。 我们可以将此解决方案应用于类似的用例,在这些用例中,数据中的事件很少,但这些事件对模型的整体性能有重大影响。
如果您希望在产品和服务中加快使用ML的帮助,请联系 亚马逊机器学习解决方案实验室 程序。
作者简介
特斯法加比尔·梅哈里兹吉 是 亚马逊机器学习解决方案实验室 他帮助医疗保健和生命科学、制造、汽车、体育和媒体等各个行业的 AWS 客户加速使用机器学习和 AWS 云服务来解决他们的业务挑战。
马克·范·奥德斯登 是 Amazon Web Services 的 Amazon ML Solutions Lab 团队的高级数据科学家。 他与 AWS 客户合作,利用人工智能和机器学习解决业务问题。 工作之余,您可能会在海滩上找到他,和他的孩子们玩耍、冲浪或风筝冲浪。
许盼盼 是 AWS 的 Amazon ML 解决方案实验室的高级应用科学家和经理。 她正在研究和开发机器学习算法,用于各种工业垂直领域的高影响客户应用程序,以加速他们的人工智能和云采用。 她的研究兴趣包括模型可解释性、因果分析、人在环人工智能和交互式数据可视化。
Kyeong Hoon (Jonathan) 郑 是国家橄榄球联盟的高级软件工程师。 在过去的七年里,他一直在 Next Gen Stats 团队工作,帮助构建平台,从流式传输原始数据、构建微服务来处理数据,到构建公开已处理数据的 API。 他与亚马逊机器学习解决方案实验室合作,为他们提供干净的数据以供使用,并提供有关数据本身的领域知识。 工作之余,他喜欢在洛杉矶骑自行车和在 Sierras 徒步旅行。
迈克尔·季 是国家橄榄球联盟的高级技术总监,负责监督下一代统计数据和数据工程。 他拥有伊利诺伊大学香槟分校的数学和计算机科学学位。 Michael 于 2007 年首次加入 NFL,主要关注足球统计技术和平台。 在业余时间,他喜欢与家人一起在户外度过时光。
迈克乐队 是国家橄榄球联盟 Next Gen Stats 的研究和分析高级经理。 自 2018 年加入该团队以来,他一直负责为球迷、NFL 广播合作伙伴和 32 个俱乐部等从球员跟踪数据中得出的关键统计数据和见解的构思、开发和交流。 Mike 拥有芝加哥大学的分析硕士学位、佛罗里达大学的体育管理学士学位,以及在明尼苏达维京人队球探部门和招聘部门的经验,为球队带来了丰富的知识和经验佛罗里达鳄鱼足球队。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Able
- 关于
- 加快
- 加速
- 账号管理
- 精准的
- 准确
- 横过
- 增加
- 采用
- 高级
- AI
- 算法
- 所有类型
- 替代
- Amazon
- 亚马逊机器学习
- 亚马逊机器学习解决方案实验室
- 亚马逊网络服务
- 分析
- 分析
- 和
- 洛杉矶
- 应用领域
- 应用的
- 使用
- 的途径
- 架构
- 围绕
- 人造的
- 人工智能
- 人工智能和机器学习
- 汽车
- 可用性
- 可使用
- AWS
- 轴
- 球
- 底线
- 海滩
- 因为
- 最佳
- 更好
- 之间
- 大
- 大数据运用
- 蓝色
- 双方
- 带来
- 播放
- 建立
- 建筑物
- 商业
- 捕获
- 例
- Center
- 挑战
- 芝加哥
- 儿童
- 选择
- 分类
- 云端技术
- 云采用
- 云服务
- 俱乐部
- 美国有线电视新闻网
- 合作
- 相当常见
- 沟通
- 竞争
- 一台
- 计算机科学
- 连续
- CONTACT
- 包含
- 继续
- 连续
- 相反
- 相关
- 创造
- 关键
- 顾客
- 合作伙伴
- data
- 数据点
- 数据科学家
- 数据可视化
- 数据集
- 处理
- 捍卫者
- 国防
- 学位
- 演示
- 问题类型
- 派生
- 描述
- 详情
- 研发支持
- 差异
- 不同
- 方向
- 副总经理
- 距离
- 分配
- 分布
- 域
- 缺点
- ,我们将参加
- 动力学
- 每
- 早
- 结束
- 工程师
- 工程师
- 时代
- 特别
- 估计
- 估计
- 评估
- 评估
- 事件
- 例子
- 排除
- 体验
- 说明
- 提取
- 极端
- 家庭
- 球迷
- 脂肪
- 专栏
- 特征
- 少数
- 部分
- 数字
- 终于
- 找到最适合您的地方
- 姓氏:
- 适合
- 佛罗里达
- 重点
- 以下
- 足球
- 止
- ,
- 此外
- Gain增益
- 收益
- 游戏
- 根
- 其他咨询
- 得到
- 给
- 目标
- 非常好
- GPD
- 图形
- 绿色
- 格
- 发生
- 医疗保健
- 帮助
- 帮助
- 帮助
- 高
- 创新中心
- How To
- HTTPS
- 伊利诺伊州
- 图片
- 影响力故事
- 实施
- 实施
- 重要性
- 重要
- in
- 包括
- 包含
- 增加
- 表示
- 产业
- 行业
- 信息
- 可行的洞见
- 代替
- 房源搜索
- 互动
- 兴趣
- 有兴趣
- IT
- 本身
- 加盟
- 加盟
- 旅程
- 键
- 知识
- 实验室
- 名:
- 层
- 层
- 联盟
- 学习
- 杠杆作用
- 生活
- 生命科学
- 有限
- 长
- 看着
- 该
- 洛杉矶
- 离
- 占地
- 机
- 机器学习
- 使
- 颠覆性技术
- 经理
- 制造业
- 许多
- 硕士
- 数学
- 媒体
- 方法
- 研究方法
- 方法
- 公
- 指标
- Michael (中国)
- 微服务
- ML
- 模型
- 模型
- 改性
- 更多
- 运动
- National
- 需求
- 全新
- 下页
- 下一代
- 橄榄球
- 数
- 获得
- 进攻
- 一
- 附加选项
- 橘色
- 其他名称
- 成果
- 户外活动
- 性能优于
- 学校以外
- 最划算
- 包
- 参数
- 部分
- 伙伴
- 过去
- 性能
- 也许
- 图片
- 地方
- 平台
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 播放机
- 球员
- 播放
- 请
- 点
- 位置
- 职位
- 可能
- 帖子
- 预测
- 都曾预测
- 预测
- 预测
- 预测
- 准备
- 当下
- 主要
- 市场问题
- 问题
- 程序
- 过程
- 处理
- 核心产品
- 曲目
- 项目
- 提供
- 提供
- 优
- 蟒蛇
- 排名
- 罕见
- 原
- 真实的世界
- 招聘
- 定期
- 有关
- 更换
- 研究
- 研究和开发
- 提供品牌战略规划
- 成果
- 回报
- 回报
- 硬性
- 健壮
- 同
- 鳞片
- 科学
- 科学
- 科学家
- 搜索
- 季节
- 季节
- 秒
- 前辈
- 分开
- 系列
- 特色服务
- 集
- XNUMX所
- 几个
- 短
- 如图
- 双方
- 显著
- 类似
- 只是
- 自
- 小
- So
- 软件
- 软件工程师
- 方案,
- 解决方案
- 解决
- 来源
- 特别
- 具体的
- 速度
- 花费
- 运动
- 运动
- 平方
- 统计
- 统计
- 停车
- 流
- 这样
- 表
- 团队
- 队
- 技术
- 专业技术
- 条款
- test
- 其
- 因此
- 次
- 时间序列
- 至
- 也有
- 工具
- 最佳
- 跟踪
- 培训
- 熟练
- 产品培训
- 转型
- 转化
- true
- 理解
- 大学
- University of Chicago
- 使用
- 验证
- 价值观
- 各种
- 各个
- 垂直
- 维京人
- 可视化
- 方法
- 财富
- 卷筒纸
- Web服务
- 重量
- 这
- 维基百科上的数据
- 中
- 韩元
- 工作
- 加工
- 合作
- 将
- X
- 年
- 完全
- 您一站式解决方案
- 和风网