Aujourd'hui, la NFL poursuit son voyage pour augmenter le nombre de statistiques fournies par le Plate-forme de statistiques de nouvelle génération aux 32 équipes et fans. Avec des analyses avancées dérivées de l'apprentissage automatique (ML), la NFL crée de nouvelles façons de quantifier le football et de fournir aux fans les outils nécessaires pour accroître leur connaissance du jeux dans le jeu du foot. Pour la saison 2022, la NFL visait à tirer parti des données de suivi des joueurs et de nouvelles techniques d'analyse avancées pour mieux comprendre les équipes spéciales.
Le but du projet était de prédire combien de verges un retourneur gagnerait lors d'un botté de dégagement ou d'un coup d'envoi. L'un des défis lors de la construction de modèles prédictifs pour les retours de botté de dégagement et de coup d'envoi est la disponibilité d'événements très rares - tels que les touchés - qui ont une importance significative dans la dynamique d'un match. Une distribution de données avec des queues épaisses est courante dans les applications du monde réel, où des événements rares ont un impact significatif sur les performances globales des modèles. L'utilisation d'une méthode robuste pour modéliser avec précision la distribution sur les événements extrêmes est cruciale pour une meilleure performance globale.
Dans cet article, nous montrons comment utiliser la distribution Spliced Binned-Pareto implémentée dans GluonTS pour modéliser de manière robuste ces distributions à queue grasse.
Nous décrivons d'abord le jeu de données utilisé. Ensuite, nous présentons le prétraitement des données et d'autres méthodes de transformation appliquées au jeu de données. Nous expliquons ensuite les détails de la méthodologie ML et des procédures de formation du modèle. Enfin, nous présentons les résultats de performance du modèle.
Ensemble de données
Dans cet article, nous avons utilisé deux ensembles de données pour créer des modèles distincts pour les retours de botté et de coup d'envoi. Les données de suivi du joueur contiennent la position, la direction, l'accélération du joueur, etc. (en coordonnées x, y). Il y a environ 3,000 4,000 et 2018 2021 jeux de quatre saisons de la NFL (0.23-0.8) pour les jeux de dégagement et de coup d'envoi, respectivement. De plus, il y a très peu de touchés liés au botté de dégagement et au coup d'envoi dans les ensembles de données - seulement XNUMX% et XNUMX%, respectivement. La distribution des données pour le botté de dégagement et le coup d'envoi est différente. Par exemple, la véritable répartition des distances pour le coup d'envoi et les bottés de dégagement est similaire mais décalée, comme le montre la figure suivante.
Prétraitement des données et ingénierie des fonctionnalités
Tout d'abord, les données de suivi ont été filtrées uniquement pour les données liées aux bottés de dégagement et aux retours de coup d'envoi. Les données du joueur ont été utilisées pour dériver des fonctionnalités pour le développement du modèle :
- X – Position du joueur le long de l'axe longitudinal du terrain
- Y – Position du joueur le long de l'axe court du terrain
- S – Vitesse en yards/seconde ; remplacé par Dis*10 pour le rendre plus précis (Dis est la distance au cours des 0.1 dernières secondes)
- Dir – Angle de mouvement du joueur (degrés)
A partir des données précédentes, chaque jeu a été transformé en 10X11X14 de données avec 10 joueurs offensifs (hors porteur du ballon), 11 défenseurs, et 14 caractéristiques dérivées :
- sX – vitesse x d'un joueur
- sY – y vitesse d'un joueur
- s - Vitesse d'un joueur
- aX – x accélération d'un joueur
- aY – y accélération d'un joueur
- détendez-vous – x distance du joueur par rapport au porteur du ballon
- compter sur – y distance du joueur par rapport au porteur du ballon
- relSx – x vitesse du joueur par rapport au porteur du ballon
- relSy – y vitesse du joueur par rapport au porteur du ballon
- relDiste – Distance euclidienne du joueur par rapport au porteur du ballon
- oppX – x distance du joueur attaquant par rapport au joueur défenseur
- oppY – y distance du joueur attaquant par rapport au joueur défenseur
- oppSx –x vitesse du joueur attaquant par rapport au joueur défenseur
- oppSy – y vitesse du joueur attaquant par rapport au joueur défenseur
Pour augmenter les données et tenir compte des positions droite et gauche, les valeurs de position X et Y ont également été mises en miroir pour tenir compte des positions de champ droite et gauche. Le prétraitement des données et l'ingénierie des fonctionnalités ont été adaptés du gagnant du Big Data Bowl de la NFL compétition sur Kaggle.
Méthodologie ML et formation sur les modèles
Parce que nous nous intéressons à tous les résultats possibles du jeu, y compris la probabilité d'un touché, nous ne pouvons pas simplement prédire les verges moyennes gagnées comme un problème de régression. Nous devons prédire la distribution de probabilité complète de tous les gains de verges possibles, nous avons donc défini le problème comme une prédiction probabiliste.
Une façon de mettre en œuvre des prédictions probabilistes consiste à attribuer les yards gagnés à plusieurs classes (par exemple moins de 0, de 0 à 1, de 1 à 2, …, de 14 à 15, plus de 15) et de prédire la classe comme une classification problème. L'inconvénient de cette approche est que nous voulons que les petits groupes aient une image haute définition de la distribution, mais les petits groupes signifient moins de points de données par groupe et notre distribution, en particulier les queues, peut être mal estimée et irrégulière.
Une autre façon de mettre en œuvre des prédictions probabilistes consiste à modéliser la sortie sous la forme d'une distribution de probabilité continue avec un nombre limité de paramètres (par exemple, une distribution gaussienne ou gamma) et à prédire les paramètres. Cette approche donne une très haute définition et une image régulière de la distribution, mais est trop rigide pour s'adapter à la véritable distribution des verges gagnées, qui est multimodale et à queue lourde.
Pour tirer le meilleur parti des deux méthodes, nous utilisons Distribution épissée Binned-Pareto (SBP), qui a des bacs pour le centre de la distribution où beaucoup de données sont disponibles, et Distribution de Pareto généralisée (GPD) aux deux extrémités, où des événements rares mais importants peuvent se produire, comme un touché. Le GPD a deux paramètres : un pour l'échelle et un pour la lourdeur de la queue, comme le montre le graphique suivant (source : Wikipedia).
En épissant le GPD avec la distribution groupée (voir le graphique de gauche suivant) des deux côtés, nous obtenons le SBP suivant à droite. Les seuils inférieur et supérieur où l'épissage est effectué sont des hyperparamètres.
Comme ligne de base, nous avons utilisé le modèle qui a remporté notre Big Data Bowl de la NFL compétition sur Kaggle. Ce modèle utilise des couches CNN pour extraire les caractéristiques des données préparées et prédit le résultat comme un problème de classification "1 mètre par bac". Pour notre modèle, nous avons conservé les couches d'extraction de caractéristiques de la ligne de base et modifié uniquement la dernière couche pour générer les paramètres SBP au lieu des probabilités pour chaque bac, comme le montre la figure suivante (image éditée à partir du post Solution 1ère place Le Zoo).
Nous avons utilisé la distribution SBP fournie par GluonTS. GluonTS est un package Python pour la modélisation probabiliste des séries chronologiques, mais la distribution SBP n'est pas spécifique aux séries chronologiques et nous avons pu la réutiliser pour la régression. Pour plus d'informations sur l'utilisation de GluonTS SBP, consultez la démo suivante cahier.
Les modèles ont été entraînés et validés sur les saisons 2018, 2019 et 2020 et testés sur la saison 2021. Pour éviter les fuites lors de la validation croisée, nous avons regroupé tous les jeux du même jeu dans le même pli.
Pour l'évaluation, nous avons conservé la métrique utilisée dans le concours Kaggle, la score de probabilité classé continu (CRPS), qui peut être considérée comme une alternative à la log-vraisemblance plus robuste aux valeurs aberrantes. Nous avons également utilisé le Coefficient de corrélation de Pearson et par RMSE en tant que mesures de précision générales et interprétables. De plus, nous avons examiné la probabilité d'un touché et des diagrammes de probabilité pour évaluer l'étalonnage.
Le modèle a été formé sur la perte de CRPS en utilisant Moyenne stochastique du poids et arrêt précoce.
Pour traiter l'irrégularité de la partie compartimentée des distributions de sortie, nous avons utilisé deux techniques :
- Une pénalité de lissage proportionnelle à la différence au carré entre deux cases consécutives
- Assemblage de modèles entraînés lors de la validation croisée
Résultats des performances du modèle
Pour chaque ensemble de données, nous avons effectué une recherche par grille parmi les options suivantes :
- Modèles probabilistes
- La ligne de base était une probabilité par mètre
- SBP était une probabilité par mètre au centre, SBP généralisé dans les queues
- Lissage de distribution
- Pas de lissage (pénalité de lissage = 0)
- Pénalité de douceur = 5
- Pénalité de douceur = 10
- Procédure d'entraînement et d'inférence
- 10 fois la validation croisée et l'inférence d'ensemble (k10)
- Formation sur les données de train et de validation pour 10 époques ou 20 époques
Ensuite, nous avons examiné les métriques des cinq meilleurs modèles triés par CRPS (le plus bas est le meilleur).
Pour les données de lancement, le modèle SBP sur-performe légèrement en termes de CRPS mais, plus important encore, il estime mieux la probabilité de toucher des roues (la probabilité réelle est de 0.80 % dans l'ensemble de test). Nous voyons que les meilleurs modèles utilisent un assemblage de 10 plis (k10) et aucune pénalité de lissage, comme le montre le tableau suivant.
Formation | Modèle | Douceur | CRPS | RMSE | CORR % | P (atterrissage) % |
k10 | PAS | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | PAS | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Le graphique suivant des fréquences observées et des probabilités prédites indique un bon calibrage de notre meilleur modèle, avec un RMSE de 0.27 entre les deux distributions. Notez les occurrences de métrage élevé (par exemple, 100) qui se produisent dans la queue de la vraie distribution empirique (bleue), dont les probabilités sont plus capturables par le SBP que la méthode de référence.
Pour les données de punt, la ligne de base surpasse le SBP, peut-être parce que les queues de métrage extrême ont moins de réalisations. Par conséquent, c'est un meilleur compromis pour capturer la modalité entre les pics de 0 à 10 mètres ; et contrairement aux données de lancement, le meilleur modèle utilise une pénalité de lissage. Le tableau suivant résume nos constatations.
Formation | Modèle | Douceur | CRPS | RMSE | CORR % | P (atterrissage) % |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | PAS | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | PAS | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Le graphique suivant des fréquences observées (en bleu) et des probabilités prédites pour les deux meilleurs modèles de dégagement indique que le modèle non lissé (en orange) est légèrement mieux calibré que le modèle lissé (en vert) et peut être un meilleur choix dans l'ensemble.
Conclusion
Dans cet article, nous avons montré comment créer des modèles prédictifs avec une distribution de données à queue grasse. Nous avons utilisé la distribution Spliced Binned-Pareto, implémentée dans GluonTS, qui peut modéliser de manière robuste de telles distributions à queue grasse. Nous avons utilisé cette technique pour construire des modèles pour les retours de dégagement et de coup d'envoi. Nous pouvons appliquer cette solution à des cas d'utilisation similaires où il y a très peu d'événements dans les données, mais ces événements ont un impact significatif sur les performances globales des modèles.
Si vous souhaitez obtenir de l'aide pour accélérer l'utilisation du ML dans vos produits et services, veuillez contacter le Laboratoire de solutions Amazon ML .
À propos des auteurs
Tesfagabir Meharizghi est Data Scientist au Laboratoire de solutions Amazon ML où il aide les clients d'AWS dans divers secteurs tels que la santé et les sciences de la vie, la fabrication, l'automobile, les sports et les médias, à accélérer leur utilisation de l'apprentissage automatique et des services cloud AWS pour résoudre leurs défis commerciaux.
Marc van Oudheusden est Senior Data Scientist au sein de l'équipe Amazon ML Solutions Lab chez Amazon Web Services. Il travaille avec des clients AWS pour résoudre des problèmes commerciaux grâce à l'intelligence artificielle et à l'apprentissage automatique. En dehors du travail, vous pouvez le trouver à la plage, jouer avec ses enfants, surfer ou faire du kitesurf.
Pan Pan Xu est scientifique appliquée senior et responsable du laboratoire de solutions Amazon ML chez AWS. Elle travaille sur la recherche et le développement d'algorithmes d'apprentissage automatique pour les applications client à fort impact dans une variété de secteurs industriels verticaux afin d'accélérer leur adoption de l'IA et du cloud. Ses intérêts de recherche comprennent l'interprétabilité des modèles, l'analyse causale, l'IA humaine dans la boucle et la visualisation interactive des données.
Kyeong Hoon (Jonathan) Jung est ingénieur logiciel senior à la National Football League. Il fait partie de l'équipe Next Gen Stats depuis sept ans et a aidé à développer la plate-forme depuis le streaming des données brutes, la création de microservices pour traiter les données, jusqu'à la création d'API qui exposent les données traitées. Il a collaboré avec Amazon Machine Learning Solutions Lab pour leur fournir des données propres avec lesquelles travailler, ainsi que pour fournir des connaissances de domaine sur les données elles-mêmes. En dehors du travail, il aime faire du vélo à Los Angeles et faire de la randonnée dans les Sierras.
Michel Chi est un directeur principal de la technologie supervisant les statistiques de nouvelle génération et l'ingénierie des données à la Ligue nationale de football. Il est titulaire d'un diplôme en mathématiques et en informatique de l'Université de l'Illinois à Urbana Champaign. Michael a rejoint la NFL pour la première fois en 2007 et s'est principalement concentré sur la technologie et les plateformes pour les statistiques de football. Dans ses temps libres, il aime passer du temps avec sa famille à l'extérieur.
Mike Bande est directeur principal de la recherche et de l'analyse pour les statistiques de nouvelle génération à la Ligue nationale de football. Depuis qu'il a rejoint l'équipe en 2018, il a été responsable de l'idéation, du développement et de la communication des statistiques clés et des informations dérivées des données de suivi des joueurs pour les fans, les partenaires de diffusion de la NFL et les 32 clubs. Mike apporte une richesse de connaissances et d'expérience à l'équipe avec une maîtrise en analyse de l'Université de Chicago, un baccalauréat en gestion du sport de l'Université de Floride et une expérience à la fois dans le département de dépistage des Vikings du Minnesota et le département de recrutement. du Florida Gator Football.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
- La source: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Capable
- A Propos
- accélérer
- accélérer
- Compte
- précision
- Avec cette connaissance vient le pouvoir de prendre
- avec précision
- à travers
- ajout
- Adoption
- Avancée
- AI
- algorithmes
- Tous
- alternative
- Amazon
- Apprentissage automatique d'Amazon
- Laboratoire de solutions Amazon ML
- Amazon Web Services
- selon une analyse de l’Université de Princeton
- analytique
- ainsi que le
- Angeles
- applications
- appliqué
- Appliquer
- une approche
- architecture
- autour
- artificiel
- intelligence artificielle
- L'INTELLIGENCE ARTIFICIELLE ET LE MACHINE LEARNING
- l'automobile
- disponibilité
- disponibles
- moyen
- AWS
- Axis
- balle
- Baseline
- Plage
- car
- LES MEILLEURS
- Améliorée
- jusqu'à XNUMX fois
- Big
- Big Data
- Bleu
- Des deux côtés
- Apportez le
- diffusion
- construire
- Développement
- la performance des entreprises
- capturer
- cas
- Canaux centraux
- globaux
- Chicago
- Enfants
- le choix
- classification
- le cloud
- adoption du cloud
- services de cloud computing
- clubs
- CNN
- collaboré
- Commun
- Communication
- concurrence
- ordinateur
- Informatique
- consécutif
- contact
- contient
- continue
- continu
- contraire
- Corrélation
- La création
- crucial
- des clients
- Clients
- données
- points de données
- Data Scientist
- visualisation de données
- ensembles de données
- affaire
- défenseurs
- Défense
- Degré
- démontrer
- Département
- Dérivé
- décrire
- détails
- Développement
- différence
- différent
- direction
- Directeur
- distance
- distribution
- distributions
- domaine
- inconvénient
- pendant
- dynamique
- chacun
- "Early Bird"
- se termine
- ingénieur
- ENGINEERING
- époques
- notamment
- estimé
- estimations
- évaluer
- évaluation
- événements
- exemple
- à l'exclusion
- d'experience
- Expliquer
- extrait
- extrême
- famille
- .fans
- Lipides
- Fonctionnalité
- Fonctionnalités:
- few
- champ
- Figure
- finalement
- Trouvez
- Prénom
- s'adapter
- Floride
- concentré
- Abonnement
- Football
- De
- plein
- En outre
- Gain
- Gains
- jeu
- Gen
- Général
- obtenez
- donne
- objectif
- Bien
- GPD
- graphique
- Vert
- Grille
- arriver
- la médecine
- vous aider
- aider
- aide
- Haute
- Comment
- How To
- HTTPS
- Illinois
- image
- Impact
- Mettre en oeuvre
- mis en œuvre
- importance
- important
- in
- inclut
- Y compris
- Améliore
- indique
- industriel
- secteurs
- d'information
- idées.
- plutôt ;
- Intelligence
- Interactif
- intérêt
- intéressé
- IT
- lui-même
- rejoint
- joindre
- chemin
- ACTIVITES
- spécialisées
- laboratoire
- Nom de famille
- couche
- poules pondeuses
- Ligue
- apprentissage
- Levier
- VIE
- Life Sciences
- limité
- Location
- regardé
- les
- Los Angeles
- perte
- Lot
- click
- machine learning
- a prendre une
- gestion
- manager
- fabrication
- de nombreuses
- maîtrise
- mathématiques
- Médias
- méthode
- Méthodologie
- méthodes
- métrique
- Métrique
- Michael
- microservices
- ML
- modèle
- numériques jumeaux (digital twin models)
- modifié
- PLUS
- mouvement
- Nationales
- Besoin
- Nouveauté
- next
- prochaine génération
- NFL
- nombre
- obtenir
- offensive
- ONE
- Options
- Orange
- Autre
- Résultat
- l'extérieur
- Surperforme
- au contrôle
- global
- paquet
- paramètres
- partie
- partenaires,
- passé
- performant
- être
- image
- Place
- plateforme
- Plateformes
- Platon
- Intelligence des données Platon
- PlatonDonnées
- Jouez
- joueur
- joueurs
- jouer
- veuillez cliquer
- des notes bonus
- position
- positions
- possible
- Post
- prévoir
- prédit
- prédiction
- Prédictions
- Prévoit
- préparé
- représentent
- qui se déroulent
- Problème
- d'ouvrabilité
- procédures
- processus
- Traité
- Produits
- Programme
- Projet
- fournir
- à condition de
- aportando
- Python
- classé
- RARE
- raw
- monde réel
- recrutement
- Standard
- en relation
- remplacé
- un article
- Recherche et développement
- responsables
- Résultats
- retourner
- Retours
- rigide
- robuste
- même
- Escaliers intérieurs
- Sciences
- STARFLEET SCIENCES
- Scientifique
- Rechercher
- Saison
- saisons
- secondes
- supérieur
- séparé
- Série
- Services
- set
- sept
- plusieurs
- Shorts
- montré
- Accompagnements
- significative
- similaires
- simplement
- depuis
- petit
- So
- Logiciels
- Software Engineer
- sur mesure
- Solutions
- RÉSOUDRE
- Identifier
- spécial
- groupe de neurones
- vitesse
- Dépenses
- Sportive
- Sports
- quadrillé
- statistiques
- stats
- arrêt
- streaming
- tel
- table
- équipe
- équipes
- techniques
- Technologie
- conditions
- tester
- La
- leur
- donc
- fiable
- Des séries chronologiques
- à
- trop
- les outils
- top
- Tracking
- Train
- qualifié
- Formation
- De La Carrosserie
- transformé
- oui
- comprendre
- université
- Université de Chicago
- utilisé
- validation
- Valeurs
- variété
- divers
- verticales
- Vikings
- visualisation
- façons
- Richesse
- web
- services Web
- poids
- qui
- Wikipédia
- dans les
- A gagné
- activités principales
- de travail
- vos contrats
- pourra
- X
- années
- Vous n'avez
- Votre
- zéphyrnet