Сегодня НФЛ продолжает свой путь к увеличению количества статистических данных, предоставляемых Платформа статистики следующего поколения всем 32 командам и болельщикам. С помощью расширенной аналитики, основанной на машинном обучении (ML), НФЛ создает новые способы количественной оценки футбола и предоставляет болельщикам инструменты, необходимые для расширения их знаний о футболе. игры внутри игры футбола. В сезоне 2022 года НФЛ стремилась использовать данные отслеживания игроков и новые передовые методы аналитики. лучше разбираться в специальных командах.
Цель проекта заключалась в том, чтобы предсказать, сколько ярдов наберет игрок, возвращающий мяч, в результате игры с плоскодонки или начального удара. Одной из проблем при построении прогностических моделей для возвратов плоскодонки и начального удара является доступность очень редких событий, таких как тачдауны, которые имеют большое значение в динамике игры. Распределение данных с толстыми хвостами распространено в реальных приложениях, где редкие события оказывают значительное влияние на общую производительность моделей. Использование надежного метода для точного моделирования распределения экстремальных событий имеет решающее значение для повышения общей производительности.
В этом посте мы покажем, как использовать распределение Spliced Binned-Pareto, реализованное в GluonTS, для надежного моделирования таких распределений с толстыми хвостами.
Сначала мы опишем используемый набор данных. Далее мы представляем предварительную обработку данных и другие методы преобразования, примененные к набору данных. Затем мы объясняем детали методологии машинного обучения и процедуры обучения модели. Наконец, мы представляем результаты работы модели.
Dataset
В этом посте мы использовали два набора данных для построения отдельных моделей для возвратов плоскодонки и начального удара. Данные отслеживания игрока содержат положение игрока, направление, ускорение и многое другое (в координатах x,y). За четыре сезона НФЛ (3,000–4,000) было сыграно около 2018 и 2021 игр в плоскодонке и начальном матче соответственно. Кроме того, в наборах данных очень мало тачдаунов, связанных с плоскодонкой и начальным ударом — всего 0.23% и 0.8% соответственно. Распределение данных для плоскодонки и начального удара отличается. Например, истинное распределение ярдов для начального удара и плоскодонки похоже, но смещено, как показано на следующем рисунке.
Предварительная обработка данных и разработка функций
Во-первых, данные отслеживания были отфильтрованы только для данных, связанных с плоскодонками и начальными ответами. Данные игрока использовались для получения функций для разработки модели:
- X – Положение игрока по длинной оси поля
- Y – Положение игрока по короткой оси поля
- S – скорость в ярдах/секунду; заменено на Dis*10, чтобы сделать его более точным (Dis — это расстояние за последние 0.1 секунды)
- Вы – Угол движения игрока (градусы)
Из предыдущих данных каждая игра была преобразована в 10X11X14 данных с 10 нападающими (исключая игрока с мячом), 11 защитниками и 14 производными характеристиками:
- sX - х скорость игрока
- sY – y скорость игрока
- s - Скорость игрока
- aX – x ускорение игрока
- aY – y ускорение игрока
- relX – x расстояние игрока относительно игрока с мячом
- полагаться – y расстояние от игрока относительно игрока с мячом
- отнSx – x скорость игрока относительно игрока с мячом
- РелСи – y скорость игрока относительно игрока с мячом
- relDist – Евклидово расстояние игрока относительно игрока с мячом
- оппX – x расстояние игрока нападения относительно игрока защиты
- оппY – y расстояние от игрока нападения относительно игрока защиты
- оппСкс –x скорость игрока нападения относительно игрока защиты
- оппсы – y скорость игрока нападения относительно игрока защиты
Для дополнения данных и учета правого и левого положения значения положения X и Y также были зеркально отражены для учета положения правого и левого поля. Предварительная обработка данных и разработка признаков были адаптированы из победителя Чаша больших данных НФЛ конкурс на Kaggle.
Методология машинного обучения и обучение модели
Поскольку нас интересуют все возможные результаты игры, включая вероятность тачдауна, мы не можем просто предсказать среднее количество набранных ярдов с помощью регрессионной задачи. Нам нужно предсказать полное распределение вероятностей всех возможных выигрышей в ярдах, поэтому мы сформулировали задачу как вероятностное предсказание.
Одним из способов реализации вероятностных прогнозов является присвоение набранных ярдов нескольким ячейкам (например, меньше 0, от 0 до 1, от 1 до 2, …, от 14 до 15, более 15) и предсказание ячейки как классификации. проблема. Недостатком этого подхода является то, что мы хотим, чтобы маленькие ячейки имели картину распределения высокой четкости, но маленькие ячейки означают меньше точек данных на ячейку, и наше распределение, особенно хвосты, может быть плохо оцененным и нерегулярным.
Другой способ реализации вероятностных прогнозов — смоделировать выходные данные как непрерывное распределение вероятностей с ограниченным числом параметров (например, гауссово или гамма-распределение) и спрогнозировать параметры. Этот подход дает очень четкое и регулярное представление о распределении, но он слишком жесткий, чтобы соответствовать истинному распределению набранных ярдов, которое является многомодальным и имеет тяжелые хвосты.
Чтобы получить лучшее из обоих методов, мы используем Сплайсированное распределение Биннеда-Парето (SBP), который имеет бины для центра распределения, где доступно много данных, и Обобщенное распределение Парето (GPD) на обоих концах, где могут происходить редкие, но важные события, такие как приземление. GPD имеет два параметра: один для масштаба и один для веса хвоста, как показано на следующем графике (источник: Википедия).
Соединяя GPD с бинарным распределением (см. следующий левый график) с обеих сторон, мы получаем следующий SBP справа. Нижний и верхний пороги, на которых выполняется сплайсинг, являются гиперпараметрами.
В качестве основы мы использовали модель, которая выиграла наш Чаша больших данных НФЛ конкурс на Kaggle. Эта модель использует слои CNN для извлечения признаков из подготовленных данных и прогнозирует результат как задачу классификации «1 ярд на бункер». Для нашей модели мы сохранили слои извлечения признаков из базовой линии и изменили только последний слой, чтобы выводить параметры SBP вместо вероятностей для каждого бина, как показано на следующем рисунке (изображение, отредактированное из публикации 1 место решение Зоопарк).
Мы использовали дистрибутив SBP, предоставленный ГлюонТС. GluonTS — это пакет Python для вероятностного моделирования временных рядов, но распределение SBP не является специфичным для временных рядов, и мы смогли переназначить его для регрессии. Для получения дополнительной информации о том, как использовать GluonTS SBP, см. следующую демонстрацию. ноутбук.
Модели были обучены и перекрестно проверены в сезонах 2018, 2019 и 2020 годов и протестированы в сезоне 2021 года. Чтобы избежать утечки во время перекрестной проверки, мы сгруппировали все воспроизведения из одной и той же игры в одну группу.
Для оценки мы сохранили метрику, используемую в конкурсе Kaggle, непрерывная ранжированная оценка вероятности (CRPS), который можно рассматривать как альтернативу логарифмическому правдоподобию, более устойчивому к выбросам. Мы также использовали Коэффициент корреляции Пирсона и СКО как общие и интерпретируемые показатели точности. Кроме того, мы рассмотрели вероятность приземления и графики вероятности для оценки калибровки.
Модель была обучена на потери CRPS с использованием Стохастическое усреднение веса и ранняя остановка.
Чтобы справиться с неравномерностью бинарной части выходных распределений, мы использовали два метода:
- Штраф за гладкость пропорционален квадрату разницы между двумя последовательными бинами.
- Сборка моделей, обученных во время перекрестной проверки
Результаты работы модели
Для каждого набора данных мы выполнили поиск в сетке по следующим параметрам:
- Вероятностные модели
- Исходным уровнем была одна вероятность на ярд
- САД — одна вероятность на ярд в центре, обобщенное САД — на хвосте.
- Сглаживание распределения
- Нет сглаживания (штраф за гладкость = 0)
- Штраф за гладкость = 5
- Штраф за гладкость = 10
- Процедура обучения и вывода
- 10-кратная перекрестная проверка и вывод ансамбля (k10)
- Обучение на данных обучения и проверки для 10 эпох или 20 эпох
Затем мы рассмотрели показатели пяти лучших моделей, отсортированных по CRPS (чем ниже, тем лучше).
Что касается данных о старте, модель SBP немного превосходит результаты с точки зрения CRPS, но, что более важно, она лучше оценивает вероятность приземления (истинная вероятность составляет 0.80% в тестовом наборе). Мы видим, что в лучших моделях используется 10-кратное объединение (k10) и отсутствие штрафа за гладкость, как показано в следующей таблице.
Обучение | Модель | ровность | КРОУ | СКО | КОРРЕКЦИЯ % | P (приземление)% |
k10 | СБП | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Базовая линия | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Базовая линия | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | СБП | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Базовая линия | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Следующий график наблюдаемых частот и предсказанных вероятностей указывает на хорошую калибровку нашей лучшей модели со среднеквадратичным отклонением 0.27 между двумя распределениями. Обратите внимание на случаи большого количества ярдов (например, 100), которые встречаются в хвосте истинного (синего) эмпирического распределения, вероятность которых лучше фиксируется SBP, чем базовым методом.
Для данных плоскодонки базовый уровень превосходит SBP, возможно, потому, что хвосты экстремальных метров имеют меньшее количество реализаций. Таким образом, лучшим компромиссом является захват модальности между пиками 0–10 ярдов; и, вопреки начальным данным, лучшая модель использует штраф за гладкость. Следующая таблица суммирует наши выводы.
Обучение | Модель | ровность | КРОУ | СКО | КОРРЕКЦИЯ % | P (приземление)% |
k10 | Базовая линия | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Базовая линия | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Базовая линия | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | СБП | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | СБП | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Следующий график наблюдаемых частот (синий цвет) и прогнозируемых вероятностей для двух лучших моделей плоскодонки показывает, что несглаженная модель (оранжевый цвет) немного лучше откалибрована, чем сглаженная модель (зеленый цвет), и в целом может быть лучшим выбором.
Заключение
В этом посте мы показали, как строить прогностические модели с распределением данных с толстыми хвостами. Мы использовали распределение Spliced Binned-Pareto, реализованное в GluonTS, которое может надежно моделировать такие распределения с толстыми хвостами. Мы использовали эту технику для построения моделей возвратов плоскодонки и начального удара. Мы можем применить это решение к аналогичным случаям использования, когда в данных очень мало событий, но эти события оказывают значительное влияние на общую производительность моделей.
Если вам нужна помощь в ускорении использования машинного обучения в ваших продуктах и услугах, обратитесь в Лаборатория решений Amazon ML программу.
Об авторах
Тесфагабир Мехаризги специалист по данным Лаборатория решений Amazon ML где он помогает клиентам AWS в различных отраслях, таких как здравоохранение и медико-биологические науки, производство, автомобилестроение, спорт и средства массовой информации, ускорить использование машинного обучения и облачных сервисов AWS для решения своих бизнес-задач.
Марк ван Аудхойсден является старшим специалистом по данным в команде Amazon ML Solutions Lab в Amazon Web Services. Он работает с клиентами AWS над решением бизнес-задач с помощью искусственного интеллекта и машинного обучения. Вне работы вы можете найти его на пляже, играющим с детьми, занимающимся серфингом или кайтсерфингом.
Панпан Сюй является старшим научным сотрудником и менеджером лаборатории решений Amazon ML в AWS. Она занимается исследованием и разработкой алгоритмов машинного обучения для высокоэффективных клиентских приложений в различных отраслях промышленности, чтобы ускорить внедрение ИИ и облачных технологий. Ее исследовательский интерес включает интерпретируемость моделей, причинно-следственный анализ, искусственный интеллект с участием человека и интерактивную визуализацию данных.
Кён Хун (Джонатан) Чон старший инженер-программист Национальной футбольной лиги. Он работал в команде Next Gen Stats в течение последних семи лет, помогая развивать платформу от потоковой передачи необработанных данных, создания микросервисов для обработки данных до создания API-интерфейсов, предоставляющих обработанные данные. Он сотрудничал с лабораторией Amazon Machine Learning Solutions Lab, предоставляя им чистые данные для работы, а также предоставляя знания предметной области о самих данных. Помимо работы, он любит кататься на велосипеде по Лос-Анджелесу и ходить в походы по горам Сьерры.
Майкл Чи является старшим директором по технологиям, курирующим статистику нового поколения и разработку данных в Национальной футбольной лиге. Он имеет степень по математике и компьютерным наукам Университета Иллинойса в Урбана-Шампейн. Майкл впервые присоединился к НФЛ в 2007 году и в основном занимался технологиями и платформами для футбольной статистики. В свободное время любит проводить время с семьей на природе.
Майк Бэнд является старшим менеджером по исследованиям и аналитике статистики следующего поколения в Национальной футбольной лиге. С момента присоединения к команде в 2018 году он отвечал за создание идей, разработку и распространение ключевых статистических данных и идей, полученных на основе данных отслеживания игроков, для болельщиков, партнеров по трансляциям НФЛ и 32 клубов. Майк привносит в команду богатые знания и опыт со степенью магистра аналитики Чикагского университета, степенью бакалавра спортивного менеджмента Университета Флориды и опытом работы как в скаутском отделе Minnesota Vikings, так и в отделе по подбору персонала. Флорида Гатор Футбол.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- в состоянии
- О нас
- ускорять
- ускоряющий
- Учетная запись
- точность
- точный
- точно
- через
- дополнение
- Принятие
- продвинутый
- AI
- алгоритмы
- Все
- альтернатива
- Amazon
- Амазонское машинное обучение
- Лаборатория решений Amazon ML
- Amazon Web Services
- анализ
- аналитика
- и
- -Анджелесе
- Приложения
- прикладной
- Применить
- подхода
- архитектура
- около
- искусственный
- искусственный интеллект
- Искусственный интеллект и машинное обучение
- автомобильный
- свободных мест
- доступен
- в среднем
- AWS
- Ось
- мяч
- Базовая линия
- Beach
- , так как:
- ЛУЧШЕЕ
- Лучшая
- между
- большой
- Big Data
- Синии
- Обе стороны
- Приносит
- вещания
- строить
- Строительство
- бизнес
- захватить
- случаев
- Центр
- проблемы
- Чикаго
- Дети
- выбор
- классификация
- облако
- принятие облака
- облачные сервисы
- клубы
- CNN
- сотрудничало
- Общий
- Связь
- конкурс
- компьютер
- Информатика
- последовательный
- обращайтесь
- содержит
- продолжающийся
- (CIJ)
- вопреки
- Корреляция
- Создающий
- решающее значение
- клиент
- Клиенты
- данным
- точки данных
- ученый данных
- визуализация данных
- Наборы данных
- сделка
- Защитники
- Защита
- Степень
- демонстрировать
- Кафедра
- Производный
- описывать
- подробнее
- Развитие
- разница
- различный
- направление
- директор
- расстояние
- распределение
- распределения
- домен
- нижняя сторона
- в течение
- динамика
- каждый
- Рано
- окончания поездки
- инженер
- Проект и
- эпохи
- особенно
- к XNUMX году
- Оценки
- оценивать
- оценка
- События
- пример
- без учета
- опыт
- Объяснять
- извлечение
- экстремальный
- семья
- вентиляторы
- Жир
- Особенность
- Особенности
- несколько
- поле
- фигура
- в заключение
- Найдите
- Во-первых,
- соответствовать
- Флорида
- внимание
- после
- футбол
- от
- полный
- Более того
- Gain
- Доходы
- игра
- Gen
- Общие
- получить
- дает
- цель
- хорошо
- GPD
- график
- Зелёная
- сетка
- происходить
- здравоохранение
- помощь
- помощь
- помогает
- High
- Как
- How To
- HTTPS
- Иллинойс
- изображение
- Влияние
- осуществлять
- в XNUMX году
- значение
- важную
- in
- включает в себя
- В том числе
- Увеличение
- указывает
- промышленность
- промышленности
- информация
- размышления
- вместо
- Интеллекта
- интерактивный
- интерес
- заинтересованный
- IT
- саму трезвость
- присоединился
- присоединение
- путешествие
- Основные
- знания
- лаборатория
- Фамилия
- слой
- слоев
- Лига
- изучение
- Кредитное плечо
- ЖИЗНЬЮ
- Медико-биологическая промышленность
- Ограниченный
- Длинное
- смотрел
- лос
- Лос-Анджелес
- от
- серия
- машина
- обучение с помощью машины
- сделать
- управление
- менеджер
- производство
- многих
- магистра
- математика
- Медиа
- метод
- Методология
- методы
- метрический
- Метрика
- Майкл
- microservices
- ML
- модель
- Модели
- модифицировало
- БОЛЕЕ
- движение
- национальный
- Необходимость
- Новые
- следующий
- следующего поколения
- NFL
- номер
- получать
- наступление
- ONE
- Опции
- Апельсин
- Другое
- Результат
- на открытом воздухе
- Превосходит
- внешнюю
- общий
- пакет
- параметры
- часть
- партнеры
- мимо
- производительность
- возможно
- картина
- Часть
- Платформа
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- игрок
- игроки
- игры
- пожалуйста
- пунктов
- должность
- позиции
- возможное
- После
- предсказывать
- предсказанный
- прогноз
- Predictions
- предсказывает
- подготовленный
- представить
- в первую очередь
- Проблема
- проблемам
- Процедуры
- процесс
- Обработанный
- Продукция
- FitPartner™
- Проект
- обеспечивать
- при условии
- обеспечение
- Питон
- вошел
- РЕДКИЙ
- Сырье
- реальный мир
- наем
- регулярный
- Связанный
- заменить
- исследованиям
- исследование и разработка
- ответственный
- Итоги
- возвращают
- Возвращает
- жесткий
- надежный
- то же
- Шкала
- Наука
- НАУКА
- Ученый
- Поиск
- Время года
- сезоны
- секунды
- старший
- отдельный
- Серии
- Услуги
- набор
- семь
- несколько
- Короткое
- показанный
- Стороны
- значительный
- аналогичный
- просто
- с
- небольшой
- So
- Software
- Инженер-программист
- Решение
- Решения
- РЕШАТЬ
- Источник
- особый
- конкретный
- скорость
- Расходы
- Спорт
- Спорт
- В квадрате
- статистика
- Статистика
- остановка
- потоковый
- такие
- ТАБЛИЦЫ
- команда
- команды
- снижения вреда
- Технологии
- terms
- тестXNUMX
- Ассоциация
- их
- следовательно
- время
- Временные ряды
- в
- слишком
- инструменты
- топ
- Отслеживание
- Train
- специалистов
- Обучение
- трансформация
- преобразован
- правда
- понимать
- Университет
- Чикагский университет
- использование
- Проверка
- Наши ценности
- разнообразие
- различный
- вертикалей
- Викинги
- визуализация
- способы
- Богатство
- Web
- веб-сервисы
- вес
- который
- Википедия.
- в
- Выиграл
- Работа
- работает
- работает
- бы
- X
- лет
- Ты
- ВАШЕ
- зефирнет