Сьогодні НФЛ продовжує свій шлях до збільшення кількості статистичних даних, які надає Статистична платформа нового покоління всім 32 командам і вболівальникам. Завдяки передовій аналітиці, отриманій від машинного навчання (ML), НФЛ створює нові способи кількісної оцінки футболу та надає вболівальникам інструменти, необхідні для покращення їхніх знань про футбол. ігри в грі футболу. У сезоні 2022 року НФЛ прагнула використати дані відстеження гравців і нові передові методи аналітики щоб краще зрозуміти спеціальні команди.
Мета проекту полягала в тому, щоб передбачити, скільки ярдів виграє гравець, який повертається, під час удару з панта чи удару. Однією з проблем під час побудови прогностичних моделей для віддачі від удару руками та удару з початку є наявність дуже рідкісних подій, таких як приземлення, які мають значне значення для динаміки гри. Розподіл даних із товстими хвостами є поширеним у реальних програмах, де рідкісні події мають значний вплив на загальну продуктивність моделей. Використання надійного методу для точного моделювання розподілу екстремальних подій має вирішальне значення для кращої загальної продуктивності.
У цій публікації ми демонструємо, як використовувати зрощений розподіл Біннеда-Парето, реалізований у GluonTS, для надійного моделювання таких розподілів із товстими хвостами.
Спочатку ми опишемо використаний набір даних. Далі ми представляємо попередню обробку даних та інші методи перетворення, застосовані до набору даних. Потім ми пояснюємо деталі методології ML і процедури навчання моделі. Нарешті, ми представляємо результати продуктивності моделі.
Набір даних
У цьому дописі ми використали два набори даних, щоб побудувати окремі моделі для віддачі від удару з точки та з початку. Дані відстеження гравця містять положення гравця, напрямок, прискорення тощо (у координатах x,y). Є близько 3,000 і 4,000 розіграшів за чотири сезони НФЛ (2018–2021) для ігор з панта та стартового удару відповідно. Крім того, у наборах даних дуже мало тачдаунів, пов’язаних з ударами з руки та стартовим ударом — лише 0.23% та 0.8% відповідно. Розподіл даних для панту та початкового удару відрізняється. Наприклад, справжній розподіл у ярдах для початкового удару та ударів з руки подібний, але зміщений, як показано на наступному малюнку.
Попередня обробка даних і розробка функцій
По-перше, дані відстеження були відфільтровані лише для даних, пов’язаних з ударами з руки та поверненнями з початку. Дані гравців використовувалися для отримання функцій для розробки моделі:
- X – Розташування гравця вздовж довгої осі поля
- Y – Розташування гравця по короткій осі поля
- S – Швидкість у ярдах/секунда; замінено на Dis*10, щоб зробити його більш точним (Dis — відстань за останні 0.1 секунди)
- Бруд – Кут руху гравця (градуси)
З попередніх даних кожна гра була перетворена в дані 10X11X14 із 10 гравцями нападу (за винятком носія м’яча), 11 захисниками та 14 похідними характеристиками:
- sX – х швидкість гравця
- sY – y швидкість гравця
- s – Швидкість гравця
- aX – x прискорення гравця
- aY – y прискорення гравця
- relX – х відстань гравця відносно носія м’яча
- relY – y відстань гравця відносно носія м’яча
- relSx – х швидкість гравця відносно носія м’яча
- relSy – y швидкість гравця відносно носія м’яча
- relDist – Евклідова відстань гравця відносно носія м’яча
- oppX – х відстань гравця нападу відносно гравця захисту
- oppY – y відстань гравця нападу відносно гравця захисту
- oppSx –x швидкість гравця нападу відносно гравця захисту
- oppSy – y швидкість гравця нападу відносно гравця захисту
Щоб збільшити дані та врахувати положення правого та лівого полів, значення позицій X та Y також було віддзеркалено для врахування положень правого та лівого полів. Попередня обробка даних і розробка функцій були адаптовані з переможця NFL Big Data Bowl конкурс на Kaggle.
Методологія ML і тренування моделі
Оскільки нас цікавлять усі можливі результати гри, включаючи ймовірність тачдауну, ми не можемо просто передбачити середню кількість отриманих ярдів як проблему регресії. Нам потрібно передбачити повний розподіл ймовірностей усіх можливих приростів у ярдах, тому ми сформулювали проблему як імовірнісний прогноз.
Один із способів реалізації імовірнісних прогнозів полягає в тому, щоб призначити отримані ярди до кількох бінів (наприклад, менше 0, від 0–1, від 1–2, …, від 14–15, більше 15) і передбачити ярд як класифікацію проблема. Недоліком цього підходу є те, що ми хочемо, щоб маленькі контейнери мали зображення розподілу високої чіткості, але маленькі контейнери означають менше точок даних на контейнер, і наш розподіл, особливо хвости, може бути погано оціненим і нерегулярним.
Інший спосіб реалізації імовірнісних передбачень полягає в моделюванні результату як безперервного розподілу ймовірностей з обмеженою кількістю параметрів (наприклад, розподіл Гаусса або гамма-розподілу) і прогнозування параметрів. Цей підхід дає дуже високу чіткість і регулярну картину розподілу, але є надто жорстким, щоб відповідати справжньому розподілу отриманих ярдів, який є мультимодальним і важким.
Щоб отримати найкраще від обох методів, ми використовуємо Зрощений розподіл Біннеда-Парето (SBP), який має контейнери для центру розподілу, де доступно багато даних, і Узагальнений розподіл Парето (GPD) на обох кінцях, де можуть відбуватися рідкісні, але важливі події, наприклад приземлення. GPD має два параметри: один для масштабу та один для ваги хвоста, як показано на наступному графіку (джерело: Вікіпедія).
З’єднуючи GPD з розподілом у binned (див. наступний лівий графік) з обох боків, ми отримуємо наступний SBP праворуч. Нижній і верхній пороги, за яких виконується сплайсинг, є гіперпараметрами.
За базову лінію ми використали модель, яка перемогла NFL Big Data Bowl конкурс на Kaggle. Ця модель використовує шари CNN для вилучення ознак із підготовлених даних і прогнозує результат як проблему класифікації «1 ярд на контейнер». Для нашої моделі ми зберегли шари виділення ознак із базової лінії та змінили лише останній рівень, щоб виводити параметри SBP замість ймовірностей для кожного біну, як показано на наступному малюнку (зображення відредаговано з публікації 1 місце рішення Зоопарк).
Ми використовували розподіл SBP, наданий глюонТС. GluonTS — це пакет Python для ймовірнісного моделювання часових рядів, але розподіл SBP не є специфічним для часових рядів, і ми змогли перепрофілювати його для регресії. Щоб дізнатися більше про те, як використовувати GluonTS SBP, перегляньте наступну демонстрацію ноутбук.
Моделі були навчені та перехресно перевірені в сезонах 2018, 2019 і 2020 років і протестовані в сезоні 2021 року. Щоб уникнути витоку під час перехресної перевірки, ми згрупували всі ігри з однієї гри в одну частину.
Для оцінки ми зберегли метрику, яка використовується в конкурсі Kaggle, the неперервна оцінка ймовірності (CRPS), який можна розглядати як альтернативу логарифму правдоподібності, який є більш стійким до викидів. Ми також використовували Коефіцієнт кореляції Пірсона і RMSE як загальні та інтерпретовані показники точності. Крім того, ми розглянули ймовірність приземлення та графіки ймовірностей для оцінки калібрування.
Модель була навчена на втрату CRPS за допомогою Стохастичне усереднення ваги і рання зупинка.
Щоб усунути нерівномірність розділеної частини вихідних розподілів, ми використали дві методики:
- Штраф гладкості, пропорційний квадрату різниці між двома послідовними бінами
- Об’єднання моделей, навчених під час перехресної перевірки
Результати роботи моделі
Для кожного набору даних ми виконали пошук у сітці за такими параметрами:
- Імовірнісні моделі
- Базова лінія становила одну ймовірність на ярд
- SBP була одна ймовірність на ярд у центрі, узагальнений SBP у хвостах
- Згладжування розподілу
- Без згладжування (штраф за згладжування = 0)
- Штраф за плавність = 5
- Штраф за плавність = 10
- Процедура навчання та висновку
- 10-кратна перехресна перевірка та ансамблевий висновок (k10)
- Навчання на поїзді та перевірка даних для 10 епох або 20 епох
Потім ми переглянули показники п’яти найкращих моделей, відсортованих за CRPS (нижче – краще).
Що стосується початкових даних, модель SBP трохи перевищує ефективність з точки зору CRPS, але, що більш важливо, вона краще оцінює ймовірність приземлення (справжня ймовірність становить 0.80% у тестовому наборі). Ми бачимо, що в найкращих моделях використовується 10 складок (k10) і немає штрафу за гладкість, як показано в наступній таблиці.
Навчання | Model | Гладкості | CRPS | RMSE | CORR % | P (тачдаун)% |
k10 | СБП | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Базова лінія | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Базова лінія | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | СБП | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Базова лінія | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Наведений нижче графік спостережуваних частот і прогнозованих ймовірностей вказує на хороше калібрування нашої найкращої моделі з середньоквадратичним значенням 0.27 між двома розподілами. Зверніть увагу на випадки великого розміру (наприклад, 100), які трапляються в хвості справжнього (синього) емпіричного розподілу, ймовірності яких краще охоплює SBP, ніж базовий метод.
Для даних про пант базова лінія перевершує SBP, можливо, через те, що хвости екстремальних ярдів мають менше реалізацій. Таким чином, кращим компромісом є захоплення модальності між піками 0–10 ярдів; і на відміну від початкових даних, найкраща модель використовує покарання за гладкість. Наступна таблиця підсумовує наші висновки.
Навчання | Model | Гладкості | CRPS | RMSE | CORR % | P (тачдаун)% |
k10 | Базова лінія | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Базова лінія | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Базова лінія | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | СБП | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | СБП | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Наведений нижче графік спостережуваних частот (синім кольором) і прогнозованих ймовірностей для двох найкращих моделей пунтів вказує на те, що незгладжена модель (помаранчевим кольором) трохи краще відкалібрована, ніж згладжена модель (зеленим кольором), і загалом може бути кращим вибором.
Висновок
У цьому дописі ми показали, як створювати прогнозні моделі з розповсюдженням даних. Ми використали зрощений розподіл Біннеда-Парето, реалізований у GluonTS, який може надійно моделювати такі розподіли з товстими хвостами. Ми використали цю техніку, щоб побудувати моделі повернених ударів з панта та початкового удару. Ми можемо застосувати це рішення до подібних випадків використання, коли в даних дуже мало подій, але ці події мають значний вплив на загальну продуктивність моделей.
Якщо вам потрібна допомога щодо прискорення використання ML у ваших продуктах і послугах, зверніться до Лабораторія рішень Amazon ML програми.
Про авторів
Тесфагабір Мехарізгі є Data Scientist в Лабораторія рішень Amazon ML де він допомагає клієнтам AWS у різних галузях, таких як охорона здоров’я та біологія, виробництво, автомобілебудування, спорт і ЗМІ, прискорити використання машинного навчання та хмарних сервісів AWS для вирішення їхніх бізнес-завдань.
Марк ван Оудхойден є старшим спеціалістом із обробки даних у команді Amazon ML Solutions Lab у Amazon Web Services. Він працює з клієнтами AWS над вирішенням бізнес-проблем за допомогою штучного інтелекту та машинного навчання. Поза роботою ви можете зустріти його на пляжі, грати з дітьми, займатися серфінгом або кайтсерфінгом.
Панпан Сю є старшим прикладним науковим співробітником і менеджером Amazon ML Solutions Lab в AWS. Вона працює над дослідженням і розробкою алгоритмів машинного навчання для високопродуктивних додатків клієнтів у різноманітних промислових галузях, щоб прискорити впровадження штучного інтелекту та хмари. Її наукові інтереси включають можливість інтерпретації моделі, причинно-наслідковий аналіз, штучний інтелект людини в циклі та інтерактивну візуалізацію даних.
Кьон Хун (Джонатан) Юнг є старшим інженером програмного забезпечення Національної футбольної ліги. Протягом останніх семи років він працював із командою Next Gen Stats, допомагаючи створювати платформу від потокової передачі необроблених даних, створення мікросервісів для обробки даних до створення API, які надають оброблені дані. Він співпрацює з лабораторією Amazon Machine Learning Solutions Lab, надаючи їм чисті дані для роботи, а також надаючи знання про самі дані. Поза роботою він любить їздити на велосипеді в Лос-Анджелесі та піти в гори Сьєрра.
Майкл Чи є старшим директором із технологій, який наглядає за статистикою наступного покоління та розробкою даних у Національній футбольній лізі. Він отримав ступінь з математики та інформатики в Університеті Іллінойсу в Урбана-Шампейн. Майкл вперше приєднався до НФЛ у 2007 році та в основному зосереджувався на технологіях і платформах для футбольної статистики. У вільний час любить проводити час із сім’єю на природі.
Майк Бенд є старшим менеджером із досліджень та аналітики для статистики наступного покоління в Національній футбольній лізі. З моменту приєднання до команди в 2018 році він відповідав за створення ідей, розробку та передачу ключових статистичних даних і інформації, отриманої з даних відстеження гравців, для вболівальників, партнерів трансляції НФЛ і 32 клубів. Майк привносить у команду величезні знання та досвід, отримавши ступінь магістра з аналітики в Чиказькому університеті, ступінь бакалавра спортивного менеджменту в Університеті Флориди, а також досвід роботи в скаутському відділі Minnesota Vikings і відділі рекрутингу. футбольного клубу Florida Gator Football.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Здатний
- МЕНЮ
- прискорювати
- прискорення
- рахунки
- точність
- точний
- точно
- через
- доповнення
- Прийняття
- просунутий
- AI
- алгоритми
- ВСІ
- альтернатива
- Amazon
- Амазонське машинне навчання
- Лабораторія рішень Amazon ML
- Amazon Web Services
- аналіз
- аналітика
- та
- -Анджелесі
- застосування
- прикладної
- Застосовувати
- підхід
- архітектура
- навколо
- штучний
- штучний інтелект
- Штучний інтелект і машинне навчання
- автомобільний
- наявність
- доступний
- середній
- AWS
- Вісь
- м'яч
- Базова лінія
- Пляж
- оскільки
- КРАЩЕ
- Краще
- між
- Великий
- Великий даних
- синій
- Обидві сторони
- Приносить
- віщати
- будувати
- Створюємо
- бізнес
- захоплення
- випадків
- Центр
- проблеми
- Чикаго
- діти
- вибір
- класифікація
- хмара
- прийняття хмари
- хмарні сервіси
- клуби
- CNN
- співпрацював
- загальний
- Комунікація
- конкурс
- комп'ютер
- Інформатика
- поспіль
- контакт
- містить
- триває
- безперервний
- навпаки
- Кореляція
- створення
- вирішальне значення
- клієнт
- Клієнти
- дані
- точки даних
- вчений даних
- візуалізація даних
- набори даних
- угода
- Захисники
- оборони
- Ступінь
- демонструвати
- відділ
- Отриманий
- описувати
- деталі
- розробка
- різниця
- різний
- напрям
- Директор
- відстань
- розподіл
- Розподілу
- домен
- зворотний бік
- під час
- динаміка
- кожен
- Рано
- закінчується
- інженер
- Машинобудування
- епохи
- особливо
- оцінка
- Оцінки
- оцінювати
- оцінка
- Події
- приклад
- виключення
- досвід
- Пояснювати
- витяг
- екстремальний
- сім'я
- вентилятори
- Жир
- особливість
- риси
- кілька
- поле
- Рисунок
- в кінці кінців
- знайти
- Перший
- відповідати
- Флорида
- увагу
- після
- футбол
- від
- Повний
- Крім того
- Отримувати
- прибуток
- гра
- Gen
- Загальне
- отримати
- дає
- мета
- добре
- GPD
- графік
- зелений
- сітка
- траплятися
- охорона здоров'я
- допомога
- допомогу
- допомагає
- Високий
- Як
- How To
- HTTPS
- Іллінойс
- зображення
- Impact
- здійснювати
- реалізовані
- значення
- важливо
- in
- includes
- У тому числі
- Augmenter
- вказує
- промислові
- промисловості
- інформація
- розуміння
- замість
- Інтелект
- інтерактивний
- інтерес
- зацікавлений
- IT
- сам
- приєднався
- приєднання
- подорож
- ключ
- знання
- lab
- останній
- шар
- шарів
- Ліга
- вивчення
- Важіль
- життя
- Life Sciences
- обмеженою
- Довго
- подивився
- в
- Лос-Анджелес
- від
- серія
- машина
- навчання за допомогою машини
- зробити
- управління
- менеджер
- виробництво
- багато
- магістра
- математика
- Медіа
- метод
- Методологія
- методика
- метрика
- Метрика
- Майкл
- мікросервіс
- ML
- модель
- Моделі
- модифікований
- більше
- рух
- National
- Необхідність
- Нові
- наступний
- next gen
- NFL
- номер
- отримувати
- наступ
- ONE
- Опції
- помаранчевий
- Інше
- Результат
- на відкритому повітрі
- Переважає
- поза
- загальний
- пакет
- параметри
- частина
- партнери
- Минуле
- продуктивність
- може бути
- картина
- місце
- платформа
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- Play
- гравець
- гравці
- ігри
- будь ласка
- точок
- положення
- позиції
- це можливо
- пошта
- передбачати
- передвіщений
- прогноз
- Прогнози
- Прогнози
- підготовлений
- представити
- в першу чергу
- Проблема
- проблеми
- Процедури
- процес
- Оброблено
- Продукти
- програма
- проект
- забезпечувати
- за умови
- забезпечення
- Python
- ранг
- РІДНІ
- Сировина
- Реальний світ
- наймання
- регулярний
- пов'язаний
- замінити
- дослідження
- дослідження і розробка
- відповідальний
- результати
- повертати
- Умови повернення
- жорсткий
- міцний
- то ж
- шкала
- наука
- НАУКИ
- вчений
- Пошук
- Сезон
- сезони
- seconds
- старший
- окремий
- Серія
- Послуги
- комплект
- сім
- кілька
- Короткий
- показаний
- Сторони
- значний
- аналогічний
- просто
- з
- невеликий
- So
- Софтвер
- Інженер-програміст
- рішення
- Рішення
- ВИРІШИТИ
- Source
- спеціальний
- конкретний
- швидкість
- Витрати
- Спорт
- SPORTS
- в квадраті
- статистика
- статистика
- зупинка
- потоковий
- такі
- таблиця
- команда
- команди
- методи
- Технологія
- terms
- тест
- Команда
- їх
- отже
- час
- Часовий ряд
- до
- занадто
- інструменти
- топ
- Відстеження
- поїзд
- навчений
- Навчання
- Перетворення
- перетворений
- правда
- розуміти
- університет
- Чиказький університет
- використання
- перевірка достовірності
- Цінності
- різноманітність
- різний
- вертикалі
- вікінги
- візуалізації
- способи
- Багатство
- Web
- веб-сервіси
- вага
- який
- Вікіпедія
- в
- Виграв
- Work
- робочий
- працює
- б
- X
- років
- Ти
- вашу
- зефірнет