Прогнозирование ярдов футбольного пунта и ответного удара с помощью распределения с толстым хвостом с использованием GluonTS

Переиздано Платоном

Читают: 0

Сегодня НФЛ продолжает свой путь к увеличению количества статистических данных, предоставляемых Платформа статистики следующего поколения всем 32 командам и болельщикам. С помощью расширенной аналитики, основанной на машинном обучении (ML), НФЛ создает новые способы количественной оценки футбола и предоставляет болельщикам инструменты, необходимые для расширения их знаний о футболе. игры внутри игры футбола. В сезоне 2022 года НФЛ стремилась использовать данные отслеживания игроков и новые передовые методы аналитики. лучше разбираться в специальных командах.

Цель проекта заключалась в том, чтобы предсказать, сколько ярдов наберет игрок, возвращающий мяч, в результате игры с плоскодонки или начального удара. Одной из проблем при построении прогностических моделей для возвратов плоскодонки и начального удара является доступность очень редких событий, таких как тачдауны, которые имеют большое значение в динамике игры. Распределение данных с толстыми хвостами распространено в реальных приложениях, где редкие события оказывают значительное влияние на общую производительность моделей. Использование надежного метода для точного моделирования распределения экстремальных событий имеет решающее значение для повышения общей производительности.

В этом посте мы покажем, как использовать распределение Spliced Binned-Pareto, реализованное в GluonTS, для надежного моделирования таких распределений с толстыми хвостами.

Сначала мы опишем используемый набор данных. Далее мы представляем предварительную обработку данных и другие методы преобразования, примененные к набору данных. Затем мы объясняем детали методологии машинного обучения и процедуры обучения модели. Наконец, мы представляем результаты работы модели.

Dataset

В этом посте мы использовали два набора данных для построения отдельных моделей для возвратов плоскодонки и начального удара. Данные отслеживания игрока содержат положение игрока, направление, ускорение и многое другое (в координатах x,y). За четыре сезона НФЛ (3,000–4,000) было сыграно около 2018 и 2021 игр в плоскодонке и начальном матче соответственно. Кроме того, в наборах данных очень мало тачдаунов, связанных с плоскодонкой и начальным ударом — всего 0.23% и 0.8% соответственно. Распределение данных для плоскодонки и начального удара отличается. Например, истинное распределение ярдов для начального удара и плоскодонки похоже, но смещено, как показано на следующем рисунке.

Распределение ярдов для ударов и начальных возвратов

Предварительная обработка данных и разработка функций

Во-первых, данные отслеживания были отфильтрованы только для данных, связанных с плоскодонками и начальными ответами. Данные игрока использовались для получения функций для разработки модели:

X – Положение игрока по длинной оси поля
Y – Положение игрока по короткой оси поля
S – скорость в ярдах/секунду; заменено на Dis*10, чтобы сделать его более точным (Dis — это расстояние за последние 0.1 секунды)
Вы – Угол движения игрока (градусы)

Из предыдущих данных каждая игра была преобразована в 10X11X14 данных с 10 нападающими (исключая игрока с мячом), 11 защитниками и 14 производными характеристиками:

sX - х скорость игрока
sY – y скорость игрока
s - Скорость игрока
aX – x ускорение игрока
aY – y ускорение игрока
relX – x расстояние игрока относительно игрока с мячом
полагаться – y расстояние от игрока относительно игрока с мячом
отнSx – x скорость игрока относительно игрока с мячом
РелСи – y скорость игрока относительно игрока с мячом
relDist – Евклидово расстояние игрока относительно игрока с мячом
оппX – x расстояние игрока нападения относительно игрока защиты
оппY – y расстояние от игрока нападения относительно игрока защиты
оппСкс –x скорость игрока нападения относительно игрока защиты
оппсы – y скорость игрока нападения относительно игрока защиты

Для дополнения данных и учета правого и левого положения значения положения X и Y также были зеркально отражены для учета положения правого и левого поля. Предварительная обработка данных и разработка признаков были адаптированы из победителя Чаша больших данных НФЛ конкурс на Kaggle.

Методология машинного обучения и обучение модели

Поскольку нас интересуют все возможные результаты игры, включая вероятность тачдауна, мы не можем просто предсказать среднее количество набранных ярдов с помощью регрессионной задачи. Нам нужно предсказать полное распределение вероятностей всех возможных выигрышей в ярдах, поэтому мы сформулировали задачу как вероятностное предсказание.

Одним из способов реализации вероятностных прогнозов является присвоение набранных ярдов нескольким ячейкам (например, меньше 0, от 0 до 1, от 1 до 2, …, от 14 до 15, более 15) и предсказание ячейки как классификации. проблема. Недостатком этого подхода является то, что мы хотим, чтобы маленькие ячейки имели картину распределения высокой четкости, но маленькие ячейки означают меньше точек данных на ячейку, и наше распределение, особенно хвосты, может быть плохо оцененным и нерегулярным.

Другой способ реализации вероятностных прогнозов — смоделировать выходные данные как непрерывное распределение вероятностей с ограниченным числом параметров (например, гауссово или гамма-распределение) и спрогнозировать параметры. Этот подход дает очень четкое и регулярное представление о распределении, но он слишком жесткий, чтобы соответствовать истинному распределению набранных ярдов, которое является многомодальным и имеет тяжелые хвосты.

Чтобы получить лучшее из обоих методов, мы используем Сплайсированное распределение Биннеда-Парето (SBP), который имеет бины для центра распределения, где доступно много данных, и Обобщенное распределение Парето (GPD) на обоих концах, где могут происходить редкие, но важные события, такие как приземление. GPD имеет два параметра: один для масштаба и один для веса хвоста, как показано на следующем графике (источник: Википедия).

Соединяя GPD с бинарным распределением (см. следующий левый график) с обеих сторон, мы получаем следующий SBP справа. Нижний и верхний пороги, на которых выполняется сплайсинг, являются гиперпараметрами.

Binned и SPB дистрибутивы

В качестве основы мы использовали модель, которая выиграла наш Чаша больших данных НФЛ конкурс на Kaggle. Эта модель использует слои CNN для извлечения признаков из подготовленных данных и прогнозирует результат как задачу классификации «1 ярд на бункер». Для нашей модели мы сохранили слои извлечения признаков из базовой линии и изменили только последний слой, чтобы выводить параметры SBP вместо вероятностей для каждого бина, как показано на следующем рисунке (изображение, отредактированное из публикации 1 место решение Зоопарк).

Модельная архитектура

Мы использовали дистрибутив SBP, предоставленный ГлюонТС. GluonTS — это пакет Python для вероятностного моделирования временных рядов, но распределение SBP не является специфичным для временных рядов, и мы смогли переназначить его для регрессии. Для получения дополнительной информации о том, как использовать GluonTS SBP, см. следующую демонстрацию. ноутбук.

Модели были обучены и перекрестно проверены в сезонах 2018, 2019 и 2020 годов и протестированы в сезоне 2021 года. Чтобы избежать утечки во время перекрестной проверки, мы сгруппировали все воспроизведения из одной и той же игры в одну группу.

Для оценки мы сохранили метрику, используемую в конкурсе Kaggle, непрерывная ранжированная оценка вероятности (CRPS), который можно рассматривать как альтернативу логарифмическому правдоподобию, более устойчивому к выбросам. Мы также использовали Коэффициент корреляции Пирсона и СКО как общие и интерпретируемые показатели точности. Кроме того, мы рассмотрели вероятность приземления и графики вероятности для оценки калибровки.

Модель была обучена на потери CRPS с использованием Стохастическое усреднение веса и ранняя остановка.

Чтобы справиться с неравномерностью бинарной части выходных распределений, мы использовали два метода:

Штраф за гладкость пропорционален квадрату разницы между двумя последовательными бинами.
Сборка моделей, обученных во время перекрестной проверки

Результаты работы модели

Для каждого набора данных мы выполнили поиск в сетке по следующим параметрам:

Вероятностные модели
- Исходным уровнем была одна вероятность на ярд
- САД — одна вероятность на ярд в центре, обобщенное САД — на хвосте.
Сглаживание распределения
- Нет сглаживания (штраф за гладкость = 0)
- Штраф за гладкость = 5
- Штраф за гладкость = 10
Процедура обучения и вывода
- 10-кратная перекрестная проверка и вывод ансамбля (k10)
- Обучение на данных обучения и проверки для 10 эпох или 20 эпох

Затем мы рассмотрели показатели пяти лучших моделей, отсортированных по CRPS (чем ниже, тем лучше).

Что касается данных о старте, модель SBP немного превосходит результаты с точки зрения CRPS, но, что более важно, она лучше оценивает вероятность приземления (истинная вероятность составляет 0.80% в тестовом наборе). Мы видим, что в лучших моделях используется 10-кратное объединение (k10) и отсутствие штрафа за гладкость, как показано в следующей таблице.

Обучение	Модель	ровность	КРОУ	СКО	КОРРЕКЦИЯ %	P (приземление)%
k10	СБП	0	4.071	9.641	47.15	0.78
k10	Базовая линия	0	4.074	9.62	47.585	0.306
k10	Базовая линия	5	4.075	9.626	47.43	0.274
k10	СБП	5	4.079	9.656	46.977	0.682
k10	Базовая линия	10	4.08	9.621	47.519	0.265

Следующий график наблюдаемых частот и предсказанных вероятностей указывает на хорошую калибровку нашей лучшей модели со среднеквадратичным отклонением 0.27 между двумя распределениями. Обратите внимание на случаи большого количества ярдов (например, 100), которые встречаются в хвосте истинного (синего) эмпирического распределения, вероятность которых лучше фиксируется SBP, чем базовым методом.

Начальные наблюдаемые частоты и прогнозируемое распределение вероятностей

Для данных плоскодонки базовый уровень превосходит SBP, возможно, потому, что хвосты экстремальных метров имеют меньшее количество реализаций. Таким образом, лучшим компромиссом является захват модальности между пиками 0–10 ярдов; и, вопреки начальным данным, лучшая модель использует штраф за гладкость. Следующая таблица суммирует наши выводы.

Обучение	Модель	ровность	КРОУ	СКО	КОРРЕКЦИЯ %	P (приземление)%
k10	Базовая линия	5	3.961	8.313	35.227	0.547
k10	Базовая линия	0	3.972	8.346	34.227	0.579
k10	Базовая линия	10	3.978	8.351	34.079	0.555
k10	СБП	5	3.981	8.342	34.971	0.723
k10	СБП	0	3.991	8.378	33.437	0.677

Следующий график наблюдаемых частот (синий цвет) и прогнозируемых вероятностей для двух лучших моделей плоскодонки показывает, что несглаженная модель (оранжевый цвет) немного лучше откалибрована, чем сглаженная модель (зеленый цвет), и в целом может быть лучшим выбором.

Punt true и предсказанные вероятности

Заключение

В этом посте мы показали, как строить прогностические модели с распределением данных с толстыми хвостами. Мы использовали распределение Spliced Binned-Pareto, реализованное в GluonTS, которое может надежно моделировать такие распределения с толстыми хвостами. Мы использовали эту технику для построения моделей возвратов плоскодонки и начального удара. Мы можем применить это решение к аналогичным случаям использования, когда в данных очень мало событий, но эти события оказывают значительное влияние на общую производительность моделей.

Если вам нужна помощь в ускорении использования машинного обучения в ваших продуктах и услугах, обратитесь в Лаборатория решений Amazon ML программу.

Об авторах

Прогнозируйте ярды футбольных пантов и ответных ударов с помощью распределения с толстым хвостом, используя GluonTS PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Тесфагабир Мехаризги специалист по данным Лаборатория решений Amazon ML где он помогает клиентам AWS в различных отраслях, таких как здравоохранение и медико-биологические науки, производство, автомобилестроение, спорт и средства массовой информации, ускорить использование машинного обучения и облачных сервисов AWS для решения своих бизнес-задач.

Марк ван Аудхойсден является старшим специалистом по данным в команде Amazon ML Solutions Lab в Amazon Web Services. Он работает с клиентами AWS над решением бизнес-задач с помощью искусственного интеллекта и машинного обучения. Вне работы вы можете найти его на пляже, играющим с детьми, занимающимся серфингом или кайтсерфингом.

Панпан Сюй является старшим научным сотрудником и менеджером лаборатории решений Amazon ML в AWS. Она занимается исследованием и разработкой алгоритмов машинного обучения для высокоэффективных клиентских приложений в различных отраслях промышленности, чтобы ускорить внедрение ИИ и облачных технологий. Ее исследовательский интерес включает интерпретируемость моделей, причинно-следственный анализ, искусственный интеллект с участием человека и интерактивную визуализацию данных.

Прогнозируйте ярды футбольных пантов и ответных ударов с помощью распределения с толстым хвостом, используя GluonTS PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Кён Хун (Джонатан) Чон старший инженер-программист Национальной футбольной лиги. Он работал в команде Next Gen Stats в течение последних семи лет, помогая развивать платформу от потоковой передачи необработанных данных, создания микросервисов для обработки данных до создания API-интерфейсов, предоставляющих обработанные данные. Он сотрудничал с лабораторией Amazon Machine Learning Solutions Lab, предоставляя им чистые данные для работы, а также предоставляя знания предметной области о самих данных. Помимо работы, он любит кататься на велосипеде по Лос-Анджелесу и ходить в походы по горам Сьерры.

Прогнозируйте ярды футбольных пантов и ответных ударов с помощью распределения с толстым хвостом, используя GluonTS PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Майкл Чи является старшим директором по технологиям, курирующим статистику нового поколения и разработку данных в Национальной футбольной лиге. Он имеет степень по математике и компьютерным наукам Университета Иллинойса в Урбана-Шампейн. Майкл впервые присоединился к НФЛ в 2007 году и в основном занимался технологиями и платформами для футбольной статистики. В свободное время любит проводить время с семьей на природе.

Майк Бэнд является старшим менеджером по исследованиям и аналитике статистики следующего поколения в Национальной футбольной лиге. С момента присоединения к команде в 2018 году он отвечал за создание идей, разработку и распространение ключевых статистических данных и идей, полученных на основе данных отслеживания игроков, для болельщиков, партнеров по трансляциям НФЛ и 32 клубов. Майк привносит в команду богатые знания и опыт со степенью магистра аналитики Чикагского университета, степенью бакалавра спортивного менеджмента Университета Флориды и опытом работы как в скаутском отделе Minnesota Vikings, так и в отделе по подбору персонала. Флорида Гатор Футбол.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Отметка времени: 2 февраля 2023

Отметка времени: Июнь 8, 2023

Переиздано Платоном

Настройте распределение затрат на уровне предприятия для сред и рабочих нагрузок машинного обучения с помощью тегов ресурсов в Amazon SageMaker.

Интерпретация ввода вызывающего абонента с использованием типов слотов грамматики в Amazon Lex

Организуйте разработку машинного обучения, используя общие пространства в SageMaker Studio для совместной работы в режиме реального времени.

Безопасный подход к генеративному искусственному интеллекту с помощью AWS | Веб-сервисы Amazon

Используйте Amazon SageMaker Data Wrangler в Amazon SageMaker Studio с конфигурацией жизненного цикла по умолчанию.

Развертывайте конвейеры машинного обучения и управляйте ими с помощью Terraform с помощью Amazon SageMaker.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись