Прогнозуйте ярди повернення футбольного удару та удару з удару за допомогою Fat-tailed Distribution за допомогою GluonTS

Перевидано Платоном

читають: 0

Сьогодні НФЛ продовжує свій шлях до збільшення кількості статистичних даних, які надає Статистична платформа нового покоління всім 32 командам і вболівальникам. Завдяки передовій аналітиці, отриманій від машинного навчання (ML), НФЛ створює нові способи кількісної оцінки футболу та надає вболівальникам інструменти, необхідні для покращення їхніх знань про футбол. ігри в грі футболу. У сезоні 2022 року НФЛ прагнула використати дані відстеження гравців і нові передові методи аналітики щоб краще зрозуміти спеціальні команди.

Мета проекту полягала в тому, щоб передбачити, скільки ярдів виграє гравець, який повертається, під час удару з панта чи удару. Однією з проблем під час побудови прогностичних моделей для віддачі від удару руками та удару з початку є наявність дуже рідкісних подій, таких як приземлення, які мають значне значення для динаміки гри. Розподіл даних із товстими хвостами є поширеним у реальних програмах, де рідкісні події мають значний вплив на загальну продуктивність моделей. Використання надійного методу для точного моделювання розподілу екстремальних подій має вирішальне значення для кращої загальної продуктивності.

У цій публікації ми демонструємо, як використовувати зрощений розподіл Біннеда-Парето, реалізований у GluonTS, для надійного моделювання таких розподілів із товстими хвостами.

Спочатку ми опишемо використаний набір даних. Далі ми представляємо попередню обробку даних та інші методи перетворення, застосовані до набору даних. Потім ми пояснюємо деталі методології ML і процедури навчання моделі. Нарешті, ми представляємо результати продуктивності моделі.

Набір даних

У цьому дописі ми використали два набори даних, щоб побудувати окремі моделі для віддачі від удару з точки та з початку. Дані відстеження гравця містять положення гравця, напрямок, прискорення тощо (у координатах x,y). Є близько 3,000 і 4,000 розіграшів за чотири сезони НФЛ (2018–2021) для ігор з панта та стартового удару відповідно. Крім того, у наборах даних дуже мало тачдаунів, пов’язаних з ударами з руки та стартовим ударом — лише 0.23% та 0.8% відповідно. Розподіл даних для панту та початкового удару відрізняється. Наприклад, справжній розподіл у ярдах для початкового удару та ударів з руки подібний, але зміщений, як показано на наступному малюнку.

Розподіл ярдів повернення при ударах руками та початковим ударом

Попередня обробка даних і розробка функцій

По-перше, дані відстеження були відфільтровані лише для даних, пов’язаних з ударами з руки та поверненнями з початку. Дані гравців використовувалися для отримання функцій для розробки моделі:

X – Розташування гравця вздовж довгої осі поля
Y – Розташування гравця по короткій осі поля
S – Швидкість у ярдах/секунда; замінено на Dis*10, щоб зробити його більш точним (Dis — відстань за останні 0.1 секунди)
Бруд – Кут руху гравця (градуси)

З попередніх даних кожна гра була перетворена в дані 10X11X14 із 10 гравцями нападу (за винятком носія м’яча), 11 захисниками та 14 похідними характеристиками:

sX – х швидкість гравця
sY – y швидкість гравця
s – Швидкість гравця
aX – x прискорення гравця
aY – y прискорення гравця
relX – х відстань гравця відносно носія м’яча
relY – y відстань гравця відносно носія м’яча
relSx – х швидкість гравця відносно носія м’яча
relSy – y швидкість гравця відносно носія м’яча
relDist – Евклідова відстань гравця відносно носія м’яча
oppX – х відстань гравця нападу відносно гравця захисту
oppY – y відстань гравця нападу відносно гравця захисту
oppSx –x швидкість гравця нападу відносно гравця захисту
oppSy – y швидкість гравця нападу відносно гравця захисту

Щоб збільшити дані та врахувати положення правого та лівого полів, значення позицій X та Y також було віддзеркалено для врахування положень правого та лівого полів. Попередня обробка даних і розробка функцій були адаптовані з переможця NFL Big Data Bowl конкурс на Kaggle.

Методологія ML і тренування моделі

Оскільки нас цікавлять усі можливі результати гри, включаючи ймовірність тачдауну, ми не можемо просто передбачити середню кількість отриманих ярдів як проблему регресії. Нам потрібно передбачити повний розподіл ймовірностей усіх можливих приростів у ярдах, тому ми сформулювали проблему як імовірнісний прогноз.

Один із способів реалізації імовірнісних прогнозів полягає в тому, щоб призначити отримані ярди до кількох бінів (наприклад, менше 0, від 0–1, від 1–2, …, від 14–15, більше 15) і передбачити ярд як класифікацію проблема. Недоліком цього підходу є те, що ми хочемо, щоб маленькі контейнери мали зображення розподілу високої чіткості, але маленькі контейнери означають менше точок даних на контейнер, і наш розподіл, особливо хвости, може бути погано оціненим і нерегулярним.

Інший спосіб реалізації імовірнісних передбачень полягає в моделюванні результату як безперервного розподілу ймовірностей з обмеженою кількістю параметрів (наприклад, розподіл Гаусса або гамма-розподілу) і прогнозування параметрів. Цей підхід дає дуже високу чіткість і регулярну картину розподілу, але є надто жорстким, щоб відповідати справжньому розподілу отриманих ярдів, який є мультимодальним і важким.

Щоб отримати найкраще від обох методів, ми використовуємо Зрощений розподіл Біннеда-Парето (SBP), який має контейнери для центру розподілу, де доступно багато даних, і Узагальнений розподіл Парето (GPD) на обох кінцях, де можуть відбуватися рідкісні, але важливі події, наприклад приземлення. GPD має два параметри: один для масштабу та один для ваги хвоста, як показано на наступному графіку (джерело: Вікіпедія).

З’єднуючи GPD з розподілом у binned (див. наступний лівий графік) з обох боків, ми отримуємо наступний SBP праворуч. Нижній і верхній пороги, за яких виконується сплайсинг, є гіперпараметрами.

Біновані та SPB розподіли

За базову лінію ми використали модель, яка перемогла NFL Big Data Bowl конкурс на Kaggle. Ця модель використовує шари CNN для вилучення ознак із підготовлених даних і прогнозує результат як проблему класифікації «1 ярд на контейнер». Для нашої моделі ми зберегли шари виділення ознак із базової лінії та змінили лише останній рівень, щоб виводити параметри SBP замість ймовірностей для кожного біну, як показано на наступному малюнку (зображення відредаговано з публікації 1 місце рішення Зоопарк).

Архітектура моделі

Ми використовували розподіл SBP, наданий глюонТС. GluonTS — це пакет Python для ймовірнісного моделювання часових рядів, але розподіл SBP не є специфічним для часових рядів, і ми змогли перепрофілювати його для регресії. Щоб дізнатися більше про те, як використовувати GluonTS SBP, перегляньте наступну демонстрацію ноутбук.

Моделі були навчені та перехресно перевірені в сезонах 2018, 2019 і 2020 років і протестовані в сезоні 2021 року. Щоб уникнути витоку під час перехресної перевірки, ми згрупували всі ігри з однієї гри в одну частину.

Для оцінки ми зберегли метрику, яка використовується в конкурсі Kaggle, the неперервна оцінка ймовірності (CRPS), який можна розглядати як альтернативу логарифму правдоподібності, який є більш стійким до викидів. Ми також використовували Коефіцієнт кореляції Пірсона і RMSE як загальні та інтерпретовані показники точності. Крім того, ми розглянули ймовірність приземлення та графіки ймовірностей для оцінки калібрування.

Модель була навчена на втрату CRPS за допомогою Стохастичне усереднення ваги і рання зупинка.

Щоб усунути нерівномірність розділеної частини вихідних розподілів, ми використали дві методики:

Штраф гладкості, пропорційний квадрату різниці між двома послідовними бінами
Об’єднання моделей, навчених під час перехресної перевірки

Результати роботи моделі

Для кожного набору даних ми виконали пошук у сітці за такими параметрами:

Імовірнісні моделі
- Базова лінія становила одну ймовірність на ярд
- SBP була одна ймовірність на ярд у центрі, узагальнений SBP у хвостах
Згладжування розподілу
- Без згладжування (штраф за згладжування = 0)
- Штраф за плавність = 5
- Штраф за плавність = 10
Процедура навчання та висновку
- 10-кратна перехресна перевірка та ансамблевий висновок (k10)
- Навчання на поїзді та перевірка даних для 10 епох або 20 епох

Потім ми переглянули показники п’яти найкращих моделей, відсортованих за CRPS (нижче – краще).

Що стосується початкових даних, модель SBP трохи перевищує ефективність з точки зору CRPS, але, що більш важливо, вона краще оцінює ймовірність приземлення (справжня ймовірність становить 0.80% у тестовому наборі). Ми бачимо, що в найкращих моделях використовується 10 складок (k10) і немає штрафу за гладкість, як показано в наступній таблиці.

Навчання	Model	Гладкості	CRPS	RMSE	CORR %	P (тачдаун)%
k10	СБП	0	4.071	9.641	47.15	0.78
k10	Базова лінія	0	4.074	9.62	47.585	0.306
k10	Базова лінія	5	4.075	9.626	47.43	0.274
k10	СБП	5	4.079	9.656	46.977	0.682
k10	Базова лінія	10	4.08	9.621	47.519	0.265

Наведений нижче графік спостережуваних частот і прогнозованих ймовірностей вказує на хороше калібрування нашої найкращої моделі з середньоквадратичним значенням 0.27 між двома розподілами. Зверніть увагу на випадки великого розміру (наприклад, 100), які трапляються в хвості справжнього (синього) емпіричного розподілу, ймовірності яких краще охоплює SBP, ніж базовий метод.

Частоти спостережень Kickoff і прогнозований розподіл ймовірностей

Для даних про пант базова лінія перевершує SBP, можливо, через те, що хвости екстремальних ярдів мають менше реалізацій. Таким чином, кращим компромісом є захоплення модальності між піками 0–10 ярдів; і на відміну від початкових даних, найкраща модель використовує покарання за гладкість. Наступна таблиця підсумовує наші висновки.

Навчання	Model	Гладкості	CRPS	RMSE	CORR %	P (тачдаун)%
k10	Базова лінія	5	3.961	8.313	35.227	0.547
k10	Базова лінія	0	3.972	8.346	34.227	0.579
k10	Базова лінія	10	3.978	8.351	34.079	0.555
k10	СБП	5	3.981	8.342	34.971	0.723
k10	СБП	0	3.991	8.378	33.437	0.677

Наведений нижче графік спостережуваних частот (синім кольором) і прогнозованих ймовірностей для двох найкращих моделей пунтів вказує на те, що незгладжена модель (помаранчевим кольором) трохи краще відкалібрована, ніж згладжена модель (зеленим кольором), і загалом може бути кращим вибором.

Пунт істинні та прогнозовані ймовірності

Висновок

У цьому дописі ми показали, як створювати прогнозні моделі з розповсюдженням даних. Ми використали зрощений розподіл Біннеда-Парето, реалізований у GluonTS, який може надійно моделювати такі розподіли з товстими хвостами. Ми використали цю техніку, щоб побудувати моделі повернених ударів з панта та початкового удару. Ми можемо застосувати це рішення до подібних випадків використання, коли в даних дуже мало подій, але ці події мають значний вплив на загальну продуктивність моделей.

Якщо вам потрібна допомога щодо прискорення використання ML у ваших продуктах і послугах, зверніться до Лабораторія рішень Amazon ML програми.

Про авторів

Прогнозуйте ярди повернення футбольних ударів і початкового удару за допомогою розпізнавання даних GluonTS PlatoBlockchain. Вертикальний пошук. Ai. Тесфагабір Мехарізгі є Data Scientist в Лабораторія рішень Amazon ML де він допомагає клієнтам AWS у різних галузях, таких як охорона здоров’я та біологія, виробництво, автомобілебудування, спорт і ЗМІ, прискорити використання машинного навчання та хмарних сервісів AWS для вирішення їхніх бізнес-завдань.

Марк ван Оудхойден є старшим спеціалістом із обробки даних у команді Amazon ML Solutions Lab у Amazon Web Services. Він працює з клієнтами AWS над вирішенням бізнес-проблем за допомогою штучного інтелекту та машинного навчання. Поза роботою ви можете зустріти його на пляжі, грати з дітьми, займатися серфінгом або кайтсерфінгом.

Панпан Сю є старшим прикладним науковим співробітником і менеджером Amazon ML Solutions Lab в AWS. Вона працює над дослідженням і розробкою алгоритмів машинного навчання для високопродуктивних додатків клієнтів у різноманітних промислових галузях, щоб прискорити впровадження штучного інтелекту та хмари. Її наукові інтереси включають можливість інтерпретації моделі, причинно-наслідковий аналіз, штучний інтелект людини в циклі та інтерактивну візуалізацію даних.

Прогнозуйте ярди повернення футбольних ударів і початкового удару за допомогою розпізнавання даних GluonTS PlatoBlockchain. Вертикальний пошук. Ai. Кьон Хун (Джонатан) Юнг є старшим інженером програмного забезпечення Національної футбольної ліги. Протягом останніх семи років він працював із командою Next Gen Stats, допомагаючи створювати платформу від потокової передачі необроблених даних, створення мікросервісів для обробки даних до створення API, які надають оброблені дані. Він співпрацює з лабораторією Amazon Machine Learning Solutions Lab, надаючи їм чисті дані для роботи, а також надаючи знання про самі дані. Поза роботою він любить їздити на велосипеді в Лос-Анджелесі та піти в гори Сьєрра.

Прогнозуйте ярди повернення футбольних ударів і початкового удару за допомогою розпізнавання даних GluonTS PlatoBlockchain. Вертикальний пошук. Ai. Майкл Чи є старшим директором із технологій, який наглядає за статистикою наступного покоління та розробкою даних у Національній футбольній лізі. Він отримав ступінь з математики та інформатики в Університеті Іллінойсу в Урбана-Шампейн. Майкл вперше приєднався до НФЛ у 2007 році та в основному зосереджувався на технологіях і платформах для футбольної статистики. У вільний час любить проводити час із сім’єю на природі.

Майк Бенд є старшим менеджером із досліджень та аналітики для статистики наступного покоління в Національній футбольній лізі. З моменту приєднання до команди в 2018 році він відповідав за створення ідей, розробку та передачу ключових статистичних даних і інформації, отриманої з даних відстеження гравців, для вболівальників, партнерів трансляції НФЛ і 32 клубів. Майк привносить у команду величезні знання та досвід, отримавши ступінь магістра з аналітики в Чиказькому університеті, ступінь бакалавра спортивного менеджменту в Університеті Флориди, а також досвід роботи в скаутському відділі Minnesota Vikings і відділі рекрутингу. футбольного клубу Florida Gator Football.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Часова мітка: 2 Лютого, 2023

Часова мітка: Квітень 5, 2022

Перевидано Платоном

Готуйте масштабні дані в Amazon SageMaker Studio за допомогою інтерактивних сеансів AWS Glue без сервера

Конвеєр збільшення зображення для Amazon Lookout для Vision

Дозвольте людям з вадами зору чути документи за допомогою Amazon Textract і Amazon Polly

Інтегруйте ServiceNow з чат-ботом Amazon Lex для обробки квитків

Хмарна технологія AWS для виявлення серцевої аномалії майже в режимі реального часу за допомогою даних із носимих пристроїв

Створюйте синтетичні дані для конвеєрів комп’ютерного зору на AWS

Налаштуйте контейнер алгоритму Amazon SageMaker XGBoost

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки