Prédire les yards de retour de botté de dégagement et de coup d'envoi du football avec une distribution à queue grasse à l'aide de GluonTS

Republié par Platon

Suiveurs: 0

Aujourd'hui, la NFL poursuit son voyage pour augmenter le nombre de statistiques fournies par le Plate-forme de statistiques de nouvelle génération aux 32 équipes et fans. Avec des analyses avancées dérivées de l'apprentissage automatique (ML), la NFL crée de nouvelles façons de quantifier le football et de fournir aux fans les outils nécessaires pour accroître leur connaissance du jeux dans le jeu du foot. Pour la saison 2022, la NFL visait à tirer parti des données de suivi des joueurs et de nouvelles techniques d'analyse avancées pour mieux comprendre les équipes spéciales.

Le but du projet était de prédire combien de verges un retourneur gagnerait lors d'un botté de dégagement ou d'un coup d'envoi. L'un des défis lors de la construction de modèles prédictifs pour les retours de botté de dégagement et de coup d'envoi est la disponibilité d'événements très rares - tels que les touchés - qui ont une importance significative dans la dynamique d'un match. Une distribution de données avec des queues épaisses est courante dans les applications du monde réel, où des événements rares ont un impact significatif sur les performances globales des modèles. L'utilisation d'une méthode robuste pour modéliser avec précision la distribution sur les événements extrêmes est cruciale pour une meilleure performance globale.

Dans cet article, nous montrons comment utiliser la distribution Spliced Binned-Pareto implémentée dans GluonTS pour modéliser de manière robuste ces distributions à queue grasse.

Nous décrivons d'abord le jeu de données utilisé. Ensuite, nous présentons le prétraitement des données et d'autres méthodes de transformation appliquées au jeu de données. Nous expliquons ensuite les détails de la méthodologie ML et des procédures de formation du modèle. Enfin, nous présentons les résultats de performance du modèle.

Ensemble de données

Dans cet article, nous avons utilisé deux ensembles de données pour créer des modèles distincts pour les retours de botté et de coup d'envoi. Les données de suivi du joueur contiennent la position, la direction, l'accélération du joueur, etc. (en coordonnées x, y). Il y a environ 3,000 4,000 et 2018 2021 jeux de quatre saisons de la NFL (0.23-0.8) pour les jeux de dégagement et de coup d'envoi, respectivement. De plus, il y a très peu de touchés liés au botté de dégagement et au coup d'envoi dans les ensembles de données - seulement XNUMX% et XNUMX%, respectivement. La distribution des données pour le botté de dégagement et le coup d'envoi est différente. Par exemple, la véritable répartition des distances pour le coup d'envoi et les bottés de dégagement est similaire mais décalée, comme le montre la figure suivante.

Répartition des bottés de dégagement et des verges de retour de coup d'envoi

Prétraitement des données et ingénierie des fonctionnalités

Tout d'abord, les données de suivi ont été filtrées uniquement pour les données liées aux bottés de dégagement et aux retours de coup d'envoi. Les données du joueur ont été utilisées pour dériver des fonctionnalités pour le développement du modèle :

X – Position du joueur le long de l'axe longitudinal du terrain
Y – Position du joueur le long de l'axe court du terrain
S – Vitesse en yards/seconde ; remplacé par Dis*10 pour le rendre plus précis (Dis est la distance au cours des 0.1 dernières secondes)
Dir – Angle de mouvement du joueur (degrés)

A partir des données précédentes, chaque jeu a été transformé en 10X11X14 de données avec 10 joueurs offensifs (hors porteur du ballon), 11 défenseurs, et 14 caractéristiques dérivées :

sX – vitesse x d'un joueur
sY – y vitesse d'un joueur
s - Vitesse d'un joueur
aX – x accélération d'un joueur
aY – y accélération d'un joueur
détendez-vous – x distance du joueur par rapport au porteur du ballon
compter sur – y distance du joueur par rapport au porteur du ballon
relSx – x vitesse du joueur par rapport au porteur du ballon
relSy – y vitesse du joueur par rapport au porteur du ballon
relDiste – Distance euclidienne du joueur par rapport au porteur du ballon
oppX – x distance du joueur attaquant par rapport au joueur défenseur
oppY – y distance du joueur attaquant par rapport au joueur défenseur
oppSx –x vitesse du joueur attaquant par rapport au joueur défenseur
oppSy – y vitesse du joueur attaquant par rapport au joueur défenseur

Pour augmenter les données et tenir compte des positions droite et gauche, les valeurs de position X et Y ont également été mises en miroir pour tenir compte des positions de champ droite et gauche. Le prétraitement des données et l'ingénierie des fonctionnalités ont été adaptés du gagnant du Big Data Bowl de la NFL compétition sur Kaggle.

Méthodologie ML et formation sur les modèles

Parce que nous nous intéressons à tous les résultats possibles du jeu, y compris la probabilité d'un touché, nous ne pouvons pas simplement prédire les verges moyennes gagnées comme un problème de régression. Nous devons prédire la distribution de probabilité complète de tous les gains de verges possibles, nous avons donc défini le problème comme une prédiction probabiliste.

Une façon de mettre en œuvre des prédictions probabilistes consiste à attribuer les yards gagnés à plusieurs classes (par exemple moins de 0, de 0 à 1, de 1 à 2, …, de 14 à 15, plus de 15) et de prédire la classe comme une classification problème. L'inconvénient de cette approche est que nous voulons que les petits groupes aient une image haute définition de la distribution, mais les petits groupes signifient moins de points de données par groupe et notre distribution, en particulier les queues, peut être mal estimée et irrégulière.

Une autre façon de mettre en œuvre des prédictions probabilistes consiste à modéliser la sortie sous la forme d'une distribution de probabilité continue avec un nombre limité de paramètres (par exemple, une distribution gaussienne ou gamma) et à prédire les paramètres. Cette approche donne une très haute définition et une image régulière de la distribution, mais est trop rigide pour s'adapter à la véritable distribution des verges gagnées, qui est multimodale et à queue lourde.

Pour tirer le meilleur parti des deux méthodes, nous utilisons Distribution épissée Binned-Pareto (SBP), qui a des bacs pour le centre de la distribution où beaucoup de données sont disponibles, et Distribution de Pareto généralisée (GPD) aux deux extrémités, où des événements rares mais importants peuvent se produire, comme un touché. Le GPD a deux paramètres : un pour l'échelle et un pour la lourdeur de la queue, comme le montre le graphique suivant (source : Wikipedia).

En épissant le GPD avec la distribution groupée (voir le graphique de gauche suivant) des deux côtés, nous obtenons le SBP suivant à droite. Les seuils inférieur et supérieur où l'épissage est effectué sont des hyperparamètres.

Distributions groupées et SPB

Comme ligne de base, nous avons utilisé le modèle qui a remporté notre Big Data Bowl de la NFL compétition sur Kaggle. Ce modèle utilise des couches CNN pour extraire les caractéristiques des données préparées et prédit le résultat comme un problème de classification "1 mètre par bac". Pour notre modèle, nous avons conservé les couches d'extraction de caractéristiques de la ligne de base et modifié uniquement la dernière couche pour générer les paramètres SBP au lieu des probabilités pour chaque bac, comme le montre la figure suivante (image éditée à partir du post Solution 1ère place Le Zoo).

Architecture du modèle

Nous avons utilisé la distribution SBP fournie par GluonTS. GluonTS est un package Python pour la modélisation probabiliste des séries chronologiques, mais la distribution SBP n'est pas spécifique aux séries chronologiques et nous avons pu la réutiliser pour la régression. Pour plus d'informations sur l'utilisation de GluonTS SBP, consultez la démo suivante cahier.

Les modèles ont été entraînés et validés sur les saisons 2018, 2019 et 2020 et testés sur la saison 2021. Pour éviter les fuites lors de la validation croisée, nous avons regroupé tous les jeux du même jeu dans le même pli.

Pour l'évaluation, nous avons conservé la métrique utilisée dans le concours Kaggle, la score de probabilité classé continu (CRPS), qui peut être considérée comme une alternative à la log-vraisemblance plus robuste aux valeurs aberrantes. Nous avons également utilisé le Coefficient de corrélation de Pearson et par RMSE en tant que mesures de précision générales et interprétables. De plus, nous avons examiné la probabilité d'un touché et des diagrammes de probabilité pour évaluer l'étalonnage.

Le modèle a été formé sur la perte de CRPS en utilisant Moyenne stochastique du poids et arrêt précoce.

Pour traiter l'irrégularité de la partie compartimentée des distributions de sortie, nous avons utilisé deux techniques :

Une pénalité de lissage proportionnelle à la différence au carré entre deux cases consécutives
Assemblage de modèles entraînés lors de la validation croisée

Résultats des performances du modèle

Pour chaque ensemble de données, nous avons effectué une recherche par grille parmi les options suivantes :

Modèles probabilistes
- La ligne de base était une probabilité par mètre
- SBP était une probabilité par mètre au centre, SBP généralisé dans les queues
Lissage de distribution
- Pas de lissage (pénalité de lissage = 0)
- Pénalité de douceur = 5
- Pénalité de douceur = 10
Procédure d'entraînement et d'inférence
- 10 fois la validation croisée et l'inférence d'ensemble (k10)
- Formation sur les données de train et de validation pour 10 époques ou 20 époques

Ensuite, nous avons examiné les métriques des cinq meilleurs modèles triés par CRPS (le plus bas est le meilleur).

Pour les données de lancement, le modèle SBP sur-performe légèrement en termes de CRPS mais, plus important encore, il estime mieux la probabilité de toucher des roues (la probabilité réelle est de 0.80 % dans l'ensemble de test). Nous voyons que les meilleurs modèles utilisent un assemblage de 10 plis (k10) et aucune pénalité de lissage, comme le montre le tableau suivant.

Formation	Modèle	Douceur	CRPS	RMSE	CORR %	P (atterrissage) %
k10	PAS	0	4.071	9.641	47.15	0.78
k10	Baseline	0	4.074	9.62	47.585	0.306
k10	Baseline	5	4.075	9.626	47.43	0.274
k10	PAS	5	4.079	9.656	46.977	0.682
k10	Baseline	10	4.08	9.621	47.519	0.265

Le graphique suivant des fréquences observées et des probabilités prédites indique un bon calibrage de notre meilleur modèle, avec un RMSE de 0.27 entre les deux distributions. Notez les occurrences de métrage élevé (par exemple, 100) qui se produisent dans la queue de la vraie distribution empirique (bleue), dont les probabilités sont plus capturables par le SBP que la méthode de référence.

Coup d'envoi des fréquences observées et de la distribution de probabilité prédite

Pour les données de punt, la ligne de base surpasse le SBP, peut-être parce que les queues de métrage extrême ont moins de réalisations. Par conséquent, c'est un meilleur compromis pour capturer la modalité entre les pics de 0 à 10 mètres ; et contrairement aux données de lancement, le meilleur modèle utilise une pénalité de lissage. Le tableau suivant résume nos constatations.

Formation	Modèle	Douceur	CRPS	RMSE	CORR %	P (atterrissage) %
k10	Baseline	5	3.961	8.313	35.227	0.547
k10	Baseline	0	3.972	8.346	34.227	0.579
k10	Baseline	10	3.978	8.351	34.079	0.555
k10	PAS	5	3.981	8.342	34.971	0.723
k10	PAS	0	3.991	8.378	33.437	0.677

Le graphique suivant des fréquences observées (en bleu) et des probabilités prédites pour les deux meilleurs modèles de dégagement indique que le modèle non lissé (en orange) est légèrement mieux calibré que le modèle lissé (en vert) et peut être un meilleur choix dans l'ensemble.

Punt probabilités vraies et prédites

Conclusion

Dans cet article, nous avons montré comment créer des modèles prédictifs avec une distribution de données à queue grasse. Nous avons utilisé la distribution Spliced Binned-Pareto, implémentée dans GluonTS, qui peut modéliser de manière robuste de telles distributions à queue grasse. Nous avons utilisé cette technique pour construire des modèles pour les retours de dégagement et de coup d'envoi. Nous pouvons appliquer cette solution à des cas d'utilisation similaires où il y a très peu d'événements dans les données, mais ces événements ont un impact significatif sur les performances globales des modèles.

Si vous souhaitez obtenir de l'aide pour accélérer l'utilisation du ML dans vos produits et services, veuillez contacter le Laboratoire de solutions Amazon ML .

À propos des auteurs

Prédisez les verges de retour de botté de dégagement et de coup d'envoi du football avec une distribution à queue épaisse à l'aide de GluonTS PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Tesfagabir Meharizghi est Data Scientist au Laboratoire de solutions Amazon ML où il aide les clients d'AWS dans divers secteurs tels que la santé et les sciences de la vie, la fabrication, l'automobile, les sports et les médias, à accélérer leur utilisation de l'apprentissage automatique et des services cloud AWS pour résoudre leurs défis commerciaux.

Marc van Oudheusden est Senior Data Scientist au sein de l'équipe Amazon ML Solutions Lab chez Amazon Web Services. Il travaille avec des clients AWS pour résoudre des problèmes commerciaux grâce à l'intelligence artificielle et à l'apprentissage automatique. En dehors du travail, vous pouvez le trouver à la plage, jouer avec ses enfants, surfer ou faire du kitesurf.

Pan Pan Xu est scientifique appliquée senior et responsable du laboratoire de solutions Amazon ML chez AWS. Elle travaille sur la recherche et le développement d'algorithmes d'apprentissage automatique pour les applications client à fort impact dans une variété de secteurs industriels verticaux afin d'accélérer leur adoption de l'IA et du cloud. Ses intérêts de recherche comprennent l'interprétabilité des modèles, l'analyse causale, l'IA humaine dans la boucle et la visualisation interactive des données.

Prédisez les verges de retour de botté de dégagement et de coup d'envoi du football avec une distribution à queue épaisse à l'aide de GluonTS PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Kyeong Hoon (Jonathan) Jung est ingénieur logiciel senior à la National Football League. Il fait partie de l'équipe Next Gen Stats depuis sept ans et a aidé à développer la plate-forme depuis le streaming des données brutes, la création de microservices pour traiter les données, jusqu'à la création d'API qui exposent les données traitées. Il a collaboré avec Amazon Machine Learning Solutions Lab pour leur fournir des données propres avec lesquelles travailler, ainsi que pour fournir des connaissances de domaine sur les données elles-mêmes. En dehors du travail, il aime faire du vélo à Los Angeles et faire de la randonnée dans les Sierras.

Prédisez les verges de retour de botté de dégagement et de coup d'envoi du football avec une distribution à queue épaisse à l'aide de GluonTS PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Michel Chi est un directeur principal de la technologie supervisant les statistiques de nouvelle génération et l'ingénierie des données à la Ligue nationale de football. Il est titulaire d'un diplôme en mathématiques et en informatique de l'Université de l'Illinois à Urbana Champaign. Michael a rejoint la NFL pour la première fois en 2007 et s'est principalement concentré sur la technologie et les plateformes pour les statistiques de football. Dans ses temps libres, il aime passer du temps avec sa famille à l'extérieur.

Mike Bande est directeur principal de la recherche et de l'analyse pour les statistiques de nouvelle génération à la Ligue nationale de football. Depuis qu'il a rejoint l'équipe en 2018, il a été responsable de l'idéation, du développement et de la communication des statistiques clés et des informations dérivées des données de suivi des joueurs pour les fans, les partenaires de diffusion de la NFL et les 32 clubs. Mike apporte une richesse de connaissances et d'expérience à l'équipe avec une maîtrise en analyse de l'Université de Chicago, un baccalauréat en gestion du sport de l'Université de Floride et une expérience à la fois dans le département de dépistage des Vikings du Minnesota et le département de recrutement. du Florida Gator Football.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Horodatage: 2 février 2023

Horodatage: 5 avril 2022

Republié par Platon

Préparez des données à grande échelle dans Amazon SageMaker Studio à l'aide de sessions interactives AWS Glue sans serveur

Pipeline d'augmentation d'image pour Amazon Lookout for Vision

Permettre aux malvoyants d'entendre des documents à l'aide d'Amazon Textract et d'Amazon Polly

Intégrez ServiceNow au chatbot Amazon Lex pour le traitement des tickets

Technologie AWS Cloud pour la détection d'anomalies cardiaques en temps quasi réel à l'aide de données provenant d'appareils portables

Créer des données synthétiques pour les pipelines de vision par ordinateur sur AWS

Personnaliser le conteneur d'algorithme Amazon SageMaker XGBoost

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte