Prognostizieren Sie Fußball-Punts und Kickoff-Return-Yards mit Fat-Tailed-Verteilung mithilfe von GluonTS

Neuauflage von Plato

Verfolger: 0

Heute setzt die NFL ihre Reise fort, um die Anzahl der von der bereitgestellten Statistiken zu erhöhen Statistikplattform der nächsten Generation an alle 32 Teams und Fans gleichermaßen. Mit fortschrittlichen Analysen, die auf maschinellem Lernen (ML) basieren, schafft die NFL neue Wege, um den Fußball zu quantifizieren und den Fans die Tools zur Verfügung zu stellen, die sie benötigen, um ihr Wissen über den Fußball zu erweitern Spiele im Spiel des Fußballs. Für die Saison 2022 wollte die NFL Spieler-Tracking-Daten und neue fortschrittliche Analysetechniken nutzen Spezialteams besser zu verstehen.

Das Ziel des Projekts war es, vorherzusagen, wie viele Yards ein Returner bei einem Punt- oder Kickoff-Spiel gewinnen würde. Eine der Herausforderungen beim Erstellen von Vorhersagemodellen für Punt- und Kickoff-Returns ist die Verfügbarkeit sehr seltener Ereignisse – wie Touchdowns – die für die Dynamik eines Spiels von erheblicher Bedeutung sind. Eine Datenverteilung mit Fat Tails ist in realen Anwendungen üblich, bei denen seltene Ereignisse einen erheblichen Einfluss auf die Gesamtleistung der Modelle haben. Die Verwendung einer robusten Methode zur genauen Modellierung der Verteilung über Extremereignisse ist entscheidend für eine bessere Gesamtleistung.

In diesem Beitrag zeigen wir, wie die in GluonTS implementierte Spliced Binned-Pareto-Verteilung verwendet wird, um solche Fat-Tail-Verteilungen robust zu modellieren.

Wir beschreiben zunächst den verwendeten Datensatz. Als nächstes stellen wir die Datenvorverarbeitung und andere Transformationsmethoden vor, die auf den Datensatz angewendet werden. Anschließend erläutern wir die Details der ML-Methodik und modellieren Trainingsverfahren. Abschließend präsentieren wir die Ergebnisse der Modellleistung.

Datensatz

In diesem Beitrag haben wir zwei Datensätze verwendet, um separate Modelle für Punt- und Kickoff-Returns zu erstellen. Die Spielerverfolgungsdaten enthalten die Position, Richtung, Beschleunigung und mehr des Spielers (in x-, y-Koordinaten). Es gibt rund 3,000 bzw. 4,000 Spiele aus vier NFL-Saisons (2018–2021) für Punt- bzw. Kickoff-Spiele. Darüber hinaus gibt es in den Datensätzen nur sehr wenige Punt- und Kickoff-bezogene Touchdowns – nur 0.23 % bzw. 0.8 %. Die Datenverteilung für Punt und Kickoff ist unterschiedlich. Beispielsweise ist die wahre Yardage-Verteilung für Kickoff und Punts ähnlich, aber verschoben, wie in der folgenden Abbildung dargestellt.

Punts und Kickoff-Return-Yards-Verteilung

Datenvorverarbeitung und Feature Engineering

Zunächst wurden die Tracking-Daten nur nach den Daten gefiltert, die sich auf Punts und Kickoff-Returns beziehen. Aus den Spielerdaten wurden Features für die Modellentwicklung abgeleitet:

X – Spielerposition entlang der Längsachse des Feldes
Y – Spielerposition entlang der kurzen Feldachse
S – Geschwindigkeit in Yards/Sekunde; ersetzt durch Dis*10, um es genauer zu machen (Dis ist die Entfernung in den letzten 0.1 Sekunden)
Dir – Bewegungswinkel des Spielers (Grad)

Aus den vorherigen Daten wurde jedes Spiel in 10 x 11 x 14 Daten mit 10 Offensivspielern (ohne Ballträger), 11 Verteidigern und 14 abgeleiteten Merkmalen umgewandelt:

sX – x Geschwindigkeit eines Spielers
sY – y Geschwindigkeit eines Spielers
s – Geschwindigkeit eines Spielers
aX – x Beschleunigung eines Spielers
aY – y Beschleunigung eines Spielers
relX – x Abstand Spieler zum Ballträger
vertrauen – y Abstand des Spielers zum Ballträger
relSx – x Geschwindigkeit des Spielers relativ zum Ballträger
relSy – y Geschwindigkeit des Spielers relativ zum Ballträger
relDist – Euklidischer Abstand des Spielers zum Ballträger
oppX – x Distanz des Offensivspielers zum Verteidiger
opPY – y Abstand des Angriffsspielers zum Verteidigungsspieler
oppSx –x Geschwindigkeit des Angriffsspielers relativ zum Verteidigungsspieler
oppSy – y Geschwindigkeit des Angriffsspielers relativ zum Verteidigungsspieler

Um die Daten zu erweitern und die rechten und linken Positionen zu berücksichtigen, wurden die X- und Y-Positionswerte auch gespiegelt, um die rechten und linken Feldpositionen zu berücksichtigen. Die Datenvorverarbeitung und das Feature-Engineering wurde vom Gewinner des angepasst Big-Data-Bowl der NFL Konkurrenz auf Kaggle.

ML-Methodik und Modelltraining

Da wir an allen möglichen Ergebnissen des Spiels interessiert sind, einschließlich der Wahrscheinlichkeit eines Touchdowns, können wir die durchschnittlich gewonnenen Yards nicht einfach als Regressionsproblem vorhersagen. Wir müssen die volle Wahrscheinlichkeitsverteilung aller möglichen Yard-Gewinne vorhersagen, also haben wir das Problem als probabilistische Vorhersage formuliert.

Eine Möglichkeit, probabilistische Vorhersagen zu implementieren, besteht darin, die gewonnenen Yards mehreren Bins zuzuordnen (z. B. weniger als 0, von 0–1, von 1–2, …, von 14–15, mehr als 15) und den Bin als Klassifizierung vorherzusagen Problem. Der Nachteil dieses Ansatzes besteht darin, dass wir möchten, dass kleine Bins ein hochauflösendes Bild der Verteilung haben, aber kleine Bins bedeuten weniger Datenpunkte pro Bin und unsere Verteilung, insbesondere die Schwänze, kann schlecht geschätzt und unregelmäßig sein.

Eine andere Möglichkeit, probabilistische Vorhersagen zu implementieren, besteht darin, die Ausgabe als kontinuierliche Wahrscheinlichkeitsverteilung mit einer begrenzten Anzahl von Parametern (z. B. einer Gauß- oder Gamma-Verteilung) zu modellieren und die Parameter vorherzusagen. Dieser Ansatz ergibt eine sehr hohe Auflösung und ein regelmäßiges Bild der Verteilung, ist jedoch zu starr, um der wahren Verteilung der gewonnenen Yards zu entsprechen, die multimodal und schwer angebunden ist.

Um das Beste aus beiden Methoden herauszuholen, verwenden wir Gespleißte Binned-Pareto-Verteilung (SBP), das Behälter für das Zentrum der Verteilung hat, wo viele Daten verfügbar sind, und Verallgemeinerte Pareto-Verteilung (GPD) an beiden Enden, wo seltene, aber wichtige Ereignisse wie ein Touchdown passieren können. Der GPD hat zwei Parameter: einen für die Waage und einen für die Heckschwere, wie in der folgenden Grafik zu sehen ist (Quelle: Wikipedia).

Durch Spleißen der GPD mit der klassierten Verteilung (siehe die folgende linke Grafik) auf beiden Seiten erhalten wir die folgende SBP auf der rechten Seite. Die unteren und oberen Schwellenwerte, an denen Splicing durchgeführt wird, sind Hyperparameter.

Klassierte und SPB-Verteilungen

Als Grundlage haben wir das Modell verwendet, das unsere gewonnen hat Big-Data-Bowl der NFL Konkurrenz auf Kaggle. Dieses Modell verwendet CNN-Layer, um Features aus den vorbereiteten Daten zu extrahieren, und sagt das Ergebnis als „1 Yard pro Bin“-Klassifizierungsproblem voraus. Für unser Modell haben wir die Merkmalsextraktionsschichten von der Basislinie beibehalten und nur die letzte Schicht geändert, um SBP-Parameter anstelle von Wahrscheinlichkeiten für jeden Abschnitt auszugeben, wie in der folgenden Abbildung gezeigt (Bild bearbeitet aus dem Post 1. Platz Lösung Der Zoo).

Modellarchitektur

Wir haben die von bereitgestellte SBP-Distribution verwendet GluonTS. GluonTS ist ein Python-Paket für die probabilistische Zeitreihenmodellierung, aber die SBP-Verteilung ist nicht spezifisch für Zeitreihen, und wir konnten sie für die Regression wiederverwenden. Weitere Informationen zur Verwendung von GluonTS SBP finden Sie in der folgenden Demo Notizbuch.

Die Modelle wurden in den Saisons 2018, 2019 und 2020 trainiert und kreuzvalidiert und in der Saison 2021 getestet. Um ein Durchsickern während der Kreuzvalidierung zu vermeiden, haben wir alle Spiele aus demselben Spiel in derselben Falte gruppiert.

Für die Bewertung haben wir die im Kaggle-Wettbewerb verwendete Metrik beibehalten, die Continuous Ranking Probability Score (CRPS), die als Alternative zur Log-Likelihood angesehen werden kann, die robuster gegenüber Ausreißern ist. Wir haben auch die verwendet Pearson-Korrelationskoeffizient und für RMSE als allgemeine und interpretierbare Genauigkeitsmetriken. Darüber hinaus haben wir uns die Wahrscheinlichkeit eines Aufsetzens und Wahrscheinlichkeitsplots angesehen, um die Kalibrierung zu bewerten.

Das Modell wurde auf den CRPS-Verlust trainiert Stochastische Gewichtsmittelung und frühes Aufhören.

Um mit der Unregelmäßigkeit des klassierten Teils der Ausgabeverteilungen umzugehen, haben wir zwei Techniken verwendet:

Eine Glattheitsstrafe proportional zur quadrierten Differenz zwischen zwei aufeinanderfolgenden Bins
Ensembling-Modelle, die während der Kreuzvalidierung trainiert wurden

Ergebnisse der Modellleistung

Für jeden Datensatz haben wir eine Rastersuche über die folgenden Optionen durchgeführt:

Wahrscheinlichkeitsmodelle
- Die Grundlinie war eine Wahrscheinlichkeit pro Yard
- SBP war eine Wahrscheinlichkeit pro Yard in der Mitte, verallgemeinerte SBP in den Schwänzen
Verteilungsglättung
- Keine Glättung (Smoothness Penalty = 0)
- Sanftheitsmalus = 5
- Sanftheitsmalus = 10
Training und Inferenzverfahren
- 10-fache Kreuzvalidierung und Ensemble-Inferenz (k10)
- Training auf Zug- und Validierungsdaten für 10 Epochen oder 20 Epochen

Dann haben wir uns die Metriken für die fünf besten Modelle angesehen, sortiert nach CRPS (niedriger ist besser).

Bei Kickoff-Daten übertrifft das SBP-Modell in Bezug auf CRPS leicht, aber was noch wichtiger ist, es schätzt die Touchdown-Wahrscheinlichkeit besser ein (die wahre Wahrscheinlichkeit beträgt 0.80 % im Testsatz). Wir sehen, dass die besten Modelle 10-Falten-Ensembling (k10) und keine Glattheitsstrafe verwenden, wie in der folgenden Tabelle gezeigt.

Ausbildung	Modell	Glätte	CRPS	RMSE	KORR %	P (Aufsetzen) %
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Baseline	0	4.074	9.62	47.585	0.306
k10	Baseline	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Baseline	10	4.08	9.621	47.519	0.265

Das folgende Diagramm der beobachteten Häufigkeiten und vorhergesagten Wahrscheinlichkeiten zeigt eine gute Kalibrierung unseres besten Modells mit einem RMSE von 0.27 zwischen den beiden Verteilungen. Beachten Sie die Vorkommen von hohen Yards (z. B. 100), die am Ende der wahren (blauen) empirischen Verteilung auftreten, deren Wahrscheinlichkeiten von der SBP-Methode besser erfasst werden können als von der Basislinienmethode.

Kickoff beobachtete Häufigkeiten und vorhergesagte Wahrscheinlichkeitsverteilung

Bei Punt-Daten übertrifft die Basislinie die SBP, vielleicht weil die Schwänze mit extremer Yardzahl weniger Realisierungen haben. Daher ist es ein besserer Kompromiss, die Modalität zwischen 0-10-Yard-Spitzen zu erfassen; und im Gegensatz zu Kickoff-Daten verwendet das beste Modell eine Glattheitsstrafe. Die folgende Tabelle fasst unsere Ergebnisse zusammen.

Ausbildung	Modell	Glätte	CRPS	RMSE	KORR %	P (Aufsetzen) %
k10	Baseline	5	3.961	8.313	35.227	0.547
k10	Baseline	0	3.972	8.346	34.227	0.579
k10	Baseline	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Das folgende Diagramm der beobachteten Häufigkeiten (in Blau) und der vorhergesagten Wahrscheinlichkeiten für die beiden besten Punt-Modelle zeigt, dass das nicht geglättete Modell (in Orange) etwas besser kalibriert ist als das geglättete Modell (in Grün) und möglicherweise insgesamt eine bessere Wahl ist.

Punt wahre und vorhergesagte Wahrscheinlichkeiten

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie man Vorhersagemodelle mit Fat-Tail-Datenverteilung erstellt. Wir haben die in GluonTS implementierte Spliced Binned-Pareto-Verteilung verwendet, die solche Fat-Tail-Verteilungen robust modellieren kann. Wir haben diese Technik verwendet, um Modelle für Punt- und Kickoff-Returns zu erstellen. Wir können diese Lösung auf ähnliche Anwendungsfälle anwenden, in denen die Daten nur sehr wenige Ereignisse enthalten, diese Ereignisse jedoch einen erheblichen Einfluss auf die Gesamtleistung der Modelle haben.

Wenn Sie Hilfe bei der Beschleunigung der Verwendung von ML in Ihren Produkten und Dienstleistungen benötigen, wenden Sie sich bitte an die Amazon ML-Lösungslabor

Über die Autoren

Prognostizieren Sie Fußball-Punts und Kickoff-Return-Yards mit Fat-Tailed-Verteilung mithilfe von GluonTS PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Tesfagabir Meharizghi ist ein Data Scientist an der Amazon ML-Lösungslabor wo er AWS-Kunden in verschiedenen Branchen wie Gesundheitswesen und Biowissenschaften, Fertigung, Automobil sowie Sport und Medien hilft, ihre Nutzung von maschinellem Lernen und AWS-Cloud-Services zu beschleunigen, um ihre geschäftlichen Herausforderungen zu meistern.

Marc van Oudheusden ist Senior Data Scientist im Amazon ML Solutions Lab-Team bei Amazon Web Services. Er arbeitet mit AWS-Kunden zusammen, um Geschäftsprobleme mit künstlicher Intelligenz und maschinellem Lernen zu lösen. Außerhalb der Arbeit findet man ihn vielleicht am Strand, beim Spielen mit seinen Kindern, beim Surfen oder Kitesurfen.

Panpan Xu ist Senior Applied Scientist und Manager im Amazon ML Solutions Lab bei AWS. Sie arbeitet an der Forschung und Entwicklung von Algorithmen für maschinelles Lernen für hochwirksame Kundenanwendungen in einer Vielzahl von Branchen, um deren KI- und Cloud-Einführung zu beschleunigen. Ihre Forschungsinteressen umfassen Modellinterpretierbarkeit, Kausalanalyse, Human-in-the-Loop-KI und interaktive Datenvisualisierung.

Prognostizieren Sie Fußball-Punts und Kickoff-Return-Yards mit Fat-Tailed-Verteilung mithilfe von GluonTS PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Kyeong Hoon (Jonathan) Jung ist Senior Software Engineer bei der National Football League. Er war in den letzten sieben Jahren im Team von Next Gen Stats und half beim Aufbau der Plattform vom Streaming der Rohdaten über den Aufbau von Mikrodiensten zur Verarbeitung der Daten bis hin zum Aufbau von APIs, die die verarbeiteten Daten verfügbar machen. Er hat mit dem Amazon Machine Learning Solutions Lab zusammengearbeitet, um saubere Daten für die Arbeit bereitzustellen und Domänenwissen über die Daten selbst bereitzustellen. Außerhalb der Arbeit fährt er gerne Fahrrad in Los Angeles und wandert in den Sierras.

Prognostizieren Sie Fußball-Punts und Kickoff-Return-Yards mit Fat-Tailed-Verteilung mithilfe von GluonTS PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Michael Chi ist Senior Director of Technology und beaufsichtigt Next Gen Stats and Data Engineering bei der National Football League. Er hat einen Abschluss in Mathematik und Informatik von der University of Illinois at Urbana Champaign. Michael kam 2007 zum ersten Mal zur NFL und hat sich hauptsächlich auf Technologie und Plattformen für Fußballstatistiken konzentriert. In seiner Freizeit verbringt er gerne Zeit mit seiner Familie im Freien.

Mike Band ist Senior Manager of Research and Analytics for Next Gen Stats bei der National Football League. Seit er 2018 dem Team beigetreten ist, ist er für die Ideenfindung, Entwicklung und Kommunikation wichtiger Statistiken und Erkenntnisse verantwortlich, die aus Spieler-Tracking-Daten für Fans, NFL-Übertragungspartner und die 32 Clubs gleichermaßen gewonnen wurden. Mike bringt mit einem Master-Abschluss in Analytik von der University of Chicago, einem Bachelor-Abschluss in Sportmanagement von der University of Florida und Erfahrung sowohl in der Scouting-Abteilung der Minnesota Vikings als auch in der Rekrutierungsabteilung einen reichen Wissens- und Erfahrungsschatz in das Team ein von Florida Gator Football.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Zeitstempel: 2. Februar 2023

Zeitstempel: 5. April 2022

Neuauflage von Plato

Bereiten Sie Daten in Amazon SageMaker Studio mit serverlosen interaktiven AWS Glue-Sitzungen in großem Maßstab vor

Bilderweiterungspipeline für Amazon Lookout for Vision

Ermöglichen Sie Sehbehinderten das Hören von Dokumenten mit Amazon Textract und Amazon Polly

Integrieren Sie ServiceNow mit dem Amazon Lex-Chatbot für die Ticketbearbeitung

AWS Cloud-Technologie für die Erkennung von Herzanomalien nahezu in Echtzeit unter Verwendung von Daten von tragbaren Geräten

Erstellen Sie synthetische Daten für Computer-Vision-Pipelines auf AWS

Passen Sie den Amazon SageMaker XGBoost-Algorithmus-Container an

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto