Heute setzt die NFL ihre Reise fort, um die Anzahl der von der bereitgestellten Statistiken zu erhöhen Statistikplattform der nächsten Generation an alle 32 Teams und Fans gleichermaßen. Mit fortschrittlichen Analysen, die auf maschinellem Lernen (ML) basieren, schafft die NFL neue Wege, um den Fußball zu quantifizieren und den Fans die Tools zur Verfügung zu stellen, die sie benötigen, um ihr Wissen über den Fußball zu erweitern Spiele im Spiel des Fußballs. Für die Saison 2022 wollte die NFL Spieler-Tracking-Daten und neue fortschrittliche Analysetechniken nutzen Spezialteams besser zu verstehen.
Das Ziel des Projekts war es, vorherzusagen, wie viele Yards ein Returner bei einem Punt- oder Kickoff-Spiel gewinnen würde. Eine der Herausforderungen beim Erstellen von Vorhersagemodellen für Punt- und Kickoff-Returns ist die Verfügbarkeit sehr seltener Ereignisse – wie Touchdowns – die für die Dynamik eines Spiels von erheblicher Bedeutung sind. Eine Datenverteilung mit Fat Tails ist in realen Anwendungen üblich, bei denen seltene Ereignisse einen erheblichen Einfluss auf die Gesamtleistung der Modelle haben. Die Verwendung einer robusten Methode zur genauen Modellierung der Verteilung über Extremereignisse ist entscheidend für eine bessere Gesamtleistung.
In diesem Beitrag zeigen wir, wie die in GluonTS implementierte Spliced Binned-Pareto-Verteilung verwendet wird, um solche Fat-Tail-Verteilungen robust zu modellieren.
Wir beschreiben zunächst den verwendeten Datensatz. Als nächstes stellen wir die Datenvorverarbeitung und andere Transformationsmethoden vor, die auf den Datensatz angewendet werden. Anschließend erläutern wir die Details der ML-Methodik und modellieren Trainingsverfahren. Abschließend präsentieren wir die Ergebnisse der Modellleistung.
Datensatz
In diesem Beitrag haben wir zwei Datensätze verwendet, um separate Modelle für Punt- und Kickoff-Returns zu erstellen. Die Spielerverfolgungsdaten enthalten die Position, Richtung, Beschleunigung und mehr des Spielers (in x-, y-Koordinaten). Es gibt rund 3,000 bzw. 4,000 Spiele aus vier NFL-Saisons (2018–2021) für Punt- bzw. Kickoff-Spiele. Darüber hinaus gibt es in den Datensätzen nur sehr wenige Punt- und Kickoff-bezogene Touchdowns – nur 0.23 % bzw. 0.8 %. Die Datenverteilung für Punt und Kickoff ist unterschiedlich. Beispielsweise ist die wahre Yardage-Verteilung für Kickoff und Punts ähnlich, aber verschoben, wie in der folgenden Abbildung dargestellt.
Datenvorverarbeitung und Feature Engineering
Zunächst wurden die Tracking-Daten nur nach den Daten gefiltert, die sich auf Punts und Kickoff-Returns beziehen. Aus den Spielerdaten wurden Features für die Modellentwicklung abgeleitet:
- X – Spielerposition entlang der Längsachse des Feldes
- Y – Spielerposition entlang der kurzen Feldachse
- S – Geschwindigkeit in Yards/Sekunde; ersetzt durch Dis*10, um es genauer zu machen (Dis ist die Entfernung in den letzten 0.1 Sekunden)
- Dir – Bewegungswinkel des Spielers (Grad)
Aus den vorherigen Daten wurde jedes Spiel in 10 x 11 x 14 Daten mit 10 Offensivspielern (ohne Ballträger), 11 Verteidigern und 14 abgeleiteten Merkmalen umgewandelt:
- sX – x Geschwindigkeit eines Spielers
- sY – y Geschwindigkeit eines Spielers
- s – Geschwindigkeit eines Spielers
- aX – x Beschleunigung eines Spielers
- aY – y Beschleunigung eines Spielers
- relX – x Abstand Spieler zum Ballträger
- vertrauen – y Abstand des Spielers zum Ballträger
- relSx – x Geschwindigkeit des Spielers relativ zum Ballträger
- relSy – y Geschwindigkeit des Spielers relativ zum Ballträger
- relDist – Euklidischer Abstand des Spielers zum Ballträger
- oppX – x Distanz des Offensivspielers zum Verteidiger
- opPY – y Abstand des Angriffsspielers zum Verteidigungsspieler
- oppSx –x Geschwindigkeit des Angriffsspielers relativ zum Verteidigungsspieler
- oppSy – y Geschwindigkeit des Angriffsspielers relativ zum Verteidigungsspieler
Um die Daten zu erweitern und die rechten und linken Positionen zu berücksichtigen, wurden die X- und Y-Positionswerte auch gespiegelt, um die rechten und linken Feldpositionen zu berücksichtigen. Die Datenvorverarbeitung und das Feature-Engineering wurde vom Gewinner des angepasst Big-Data-Bowl der NFL Konkurrenz auf Kaggle.
ML-Methodik und Modelltraining
Da wir an allen möglichen Ergebnissen des Spiels interessiert sind, einschließlich der Wahrscheinlichkeit eines Touchdowns, können wir die durchschnittlich gewonnenen Yards nicht einfach als Regressionsproblem vorhersagen. Wir müssen die volle Wahrscheinlichkeitsverteilung aller möglichen Yard-Gewinne vorhersagen, also haben wir das Problem als probabilistische Vorhersage formuliert.
Eine Möglichkeit, probabilistische Vorhersagen zu implementieren, besteht darin, die gewonnenen Yards mehreren Bins zuzuordnen (z. B. weniger als 0, von 0–1, von 1–2, …, von 14–15, mehr als 15) und den Bin als Klassifizierung vorherzusagen Problem. Der Nachteil dieses Ansatzes besteht darin, dass wir möchten, dass kleine Bins ein hochauflösendes Bild der Verteilung haben, aber kleine Bins bedeuten weniger Datenpunkte pro Bin und unsere Verteilung, insbesondere die Schwänze, kann schlecht geschätzt und unregelmäßig sein.
Eine andere Möglichkeit, probabilistische Vorhersagen zu implementieren, besteht darin, die Ausgabe als kontinuierliche Wahrscheinlichkeitsverteilung mit einer begrenzten Anzahl von Parametern (z. B. einer Gauß- oder Gamma-Verteilung) zu modellieren und die Parameter vorherzusagen. Dieser Ansatz ergibt eine sehr hohe Auflösung und ein regelmäßiges Bild der Verteilung, ist jedoch zu starr, um der wahren Verteilung der gewonnenen Yards zu entsprechen, die multimodal und schwer angebunden ist.
Um das Beste aus beiden Methoden herauszuholen, verwenden wir Gespleißte Binned-Pareto-Verteilung (SBP), das Behälter für das Zentrum der Verteilung hat, wo viele Daten verfügbar sind, und Verallgemeinerte Pareto-Verteilung (GPD) an beiden Enden, wo seltene, aber wichtige Ereignisse wie ein Touchdown passieren können. Der GPD hat zwei Parameter: einen für die Waage und einen für die Heckschwere, wie in der folgenden Grafik zu sehen ist (Quelle: Wikipedia).
Durch Spleißen der GPD mit der klassierten Verteilung (siehe die folgende linke Grafik) auf beiden Seiten erhalten wir die folgende SBP auf der rechten Seite. Die unteren und oberen Schwellenwerte, an denen Splicing durchgeführt wird, sind Hyperparameter.
Als Grundlage haben wir das Modell verwendet, das unsere gewonnen hat Big-Data-Bowl der NFL Konkurrenz auf Kaggle. Dieses Modell verwendet CNN-Layer, um Features aus den vorbereiteten Daten zu extrahieren, und sagt das Ergebnis als „1 Yard pro Bin“-Klassifizierungsproblem voraus. Für unser Modell haben wir die Merkmalsextraktionsschichten von der Basislinie beibehalten und nur die letzte Schicht geändert, um SBP-Parameter anstelle von Wahrscheinlichkeiten für jeden Abschnitt auszugeben, wie in der folgenden Abbildung gezeigt (Bild bearbeitet aus dem Post 1. Platz Lösung Der Zoo).
Wir haben die von bereitgestellte SBP-Distribution verwendet GluonTS. GluonTS ist ein Python-Paket für die probabilistische Zeitreihenmodellierung, aber die SBP-Verteilung ist nicht spezifisch für Zeitreihen, und wir konnten sie für die Regression wiederverwenden. Weitere Informationen zur Verwendung von GluonTS SBP finden Sie in der folgenden Demo Notizbuch.
Die Modelle wurden in den Saisons 2018, 2019 und 2020 trainiert und kreuzvalidiert und in der Saison 2021 getestet. Um ein Durchsickern während der Kreuzvalidierung zu vermeiden, haben wir alle Spiele aus demselben Spiel in derselben Falte gruppiert.
Für die Bewertung haben wir die im Kaggle-Wettbewerb verwendete Metrik beibehalten, die Continuous Ranking Probability Score (CRPS), die als Alternative zur Log-Likelihood angesehen werden kann, die robuster gegenüber Ausreißern ist. Wir haben auch die verwendet Pearson-Korrelationskoeffizient und für RMSE als allgemeine und interpretierbare Genauigkeitsmetriken. Darüber hinaus haben wir uns die Wahrscheinlichkeit eines Aufsetzens und Wahrscheinlichkeitsplots angesehen, um die Kalibrierung zu bewerten.
Das Modell wurde auf den CRPS-Verlust trainiert Stochastische Gewichtsmittelung und frühes Aufhören.
Um mit der Unregelmäßigkeit des klassierten Teils der Ausgabeverteilungen umzugehen, haben wir zwei Techniken verwendet:
- Eine Glattheitsstrafe proportional zur quadrierten Differenz zwischen zwei aufeinanderfolgenden Bins
- Ensembling-Modelle, die während der Kreuzvalidierung trainiert wurden
Ergebnisse der Modellleistung
Für jeden Datensatz haben wir eine Rastersuche über die folgenden Optionen durchgeführt:
- Wahrscheinlichkeitsmodelle
- Die Grundlinie war eine Wahrscheinlichkeit pro Yard
- SBP war eine Wahrscheinlichkeit pro Yard in der Mitte, verallgemeinerte SBP in den Schwänzen
- Verteilungsglättung
- Keine Glättung (Smoothness Penalty = 0)
- Sanftheitsmalus = 5
- Sanftheitsmalus = 10
- Training und Inferenzverfahren
- 10-fache Kreuzvalidierung und Ensemble-Inferenz (k10)
- Training auf Zug- und Validierungsdaten für 10 Epochen oder 20 Epochen
Dann haben wir uns die Metriken für die fünf besten Modelle angesehen, sortiert nach CRPS (niedriger ist besser).
Bei Kickoff-Daten übertrifft das SBP-Modell in Bezug auf CRPS leicht, aber was noch wichtiger ist, es schätzt die Touchdown-Wahrscheinlichkeit besser ein (die wahre Wahrscheinlichkeit beträgt 0.80 % im Testsatz). Wir sehen, dass die besten Modelle 10-Falten-Ensembling (k10) und keine Glattheitsstrafe verwenden, wie in der folgenden Tabelle gezeigt.
Ausbildung | Modell | Glätte | CRPS | RMSE | KORR % | P (Aufsetzen) % |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Das folgende Diagramm der beobachteten Häufigkeiten und vorhergesagten Wahrscheinlichkeiten zeigt eine gute Kalibrierung unseres besten Modells mit einem RMSE von 0.27 zwischen den beiden Verteilungen. Beachten Sie die Vorkommen von hohen Yards (z. B. 100), die am Ende der wahren (blauen) empirischen Verteilung auftreten, deren Wahrscheinlichkeiten von der SBP-Methode besser erfasst werden können als von der Basislinienmethode.
Bei Punt-Daten übertrifft die Basislinie die SBP, vielleicht weil die Schwänze mit extremer Yardzahl weniger Realisierungen haben. Daher ist es ein besserer Kompromiss, die Modalität zwischen 0-10-Yard-Spitzen zu erfassen; und im Gegensatz zu Kickoff-Daten verwendet das beste Modell eine Glattheitsstrafe. Die folgende Tabelle fasst unsere Ergebnisse zusammen.
Ausbildung | Modell | Glätte | CRPS | RMSE | KORR % | P (Aufsetzen) % |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Das folgende Diagramm der beobachteten Häufigkeiten (in Blau) und der vorhergesagten Wahrscheinlichkeiten für die beiden besten Punt-Modelle zeigt, dass das nicht geglättete Modell (in Orange) etwas besser kalibriert ist als das geglättete Modell (in Grün) und möglicherweise insgesamt eine bessere Wahl ist.
Zusammenfassung
In diesem Beitrag haben wir gezeigt, wie man Vorhersagemodelle mit Fat-Tail-Datenverteilung erstellt. Wir haben die in GluonTS implementierte Spliced Binned-Pareto-Verteilung verwendet, die solche Fat-Tail-Verteilungen robust modellieren kann. Wir haben diese Technik verwendet, um Modelle für Punt- und Kickoff-Returns zu erstellen. Wir können diese Lösung auf ähnliche Anwendungsfälle anwenden, in denen die Daten nur sehr wenige Ereignisse enthalten, diese Ereignisse jedoch einen erheblichen Einfluss auf die Gesamtleistung der Modelle haben.
Wenn Sie Hilfe bei der Beschleunigung der Verwendung von ML in Ihren Produkten und Dienstleistungen benötigen, wenden Sie sich bitte an die Amazon ML-Lösungslabor
Über die Autoren
Tesfagabir Meharizghi ist ein Data Scientist an der Amazon ML-Lösungslabor wo er AWS-Kunden in verschiedenen Branchen wie Gesundheitswesen und Biowissenschaften, Fertigung, Automobil sowie Sport und Medien hilft, ihre Nutzung von maschinellem Lernen und AWS-Cloud-Services zu beschleunigen, um ihre geschäftlichen Herausforderungen zu meistern.
Marc van Oudheusden ist Senior Data Scientist im Amazon ML Solutions Lab-Team bei Amazon Web Services. Er arbeitet mit AWS-Kunden zusammen, um Geschäftsprobleme mit künstlicher Intelligenz und maschinellem Lernen zu lösen. Außerhalb der Arbeit findet man ihn vielleicht am Strand, beim Spielen mit seinen Kindern, beim Surfen oder Kitesurfen.
Panpan Xu ist Senior Applied Scientist und Manager im Amazon ML Solutions Lab bei AWS. Sie arbeitet an der Forschung und Entwicklung von Algorithmen für maschinelles Lernen für hochwirksame Kundenanwendungen in einer Vielzahl von Branchen, um deren KI- und Cloud-Einführung zu beschleunigen. Ihre Forschungsinteressen umfassen Modellinterpretierbarkeit, Kausalanalyse, Human-in-the-Loop-KI und interaktive Datenvisualisierung.
Kyeong Hoon (Jonathan) Jung ist Senior Software Engineer bei der National Football League. Er war in den letzten sieben Jahren im Team von Next Gen Stats und half beim Aufbau der Plattform vom Streaming der Rohdaten über den Aufbau von Mikrodiensten zur Verarbeitung der Daten bis hin zum Aufbau von APIs, die die verarbeiteten Daten verfügbar machen. Er hat mit dem Amazon Machine Learning Solutions Lab zusammengearbeitet, um saubere Daten für die Arbeit bereitzustellen und Domänenwissen über die Daten selbst bereitzustellen. Außerhalb der Arbeit fährt er gerne Fahrrad in Los Angeles und wandert in den Sierras.
Michael Chi ist Senior Director of Technology und beaufsichtigt Next Gen Stats and Data Engineering bei der National Football League. Er hat einen Abschluss in Mathematik und Informatik von der University of Illinois at Urbana Champaign. Michael kam 2007 zum ersten Mal zur NFL und hat sich hauptsächlich auf Technologie und Plattformen für Fußballstatistiken konzentriert. In seiner Freizeit verbringt er gerne Zeit mit seiner Familie im Freien.
Mike Band ist Senior Manager of Research and Analytics for Next Gen Stats bei der National Football League. Seit er 2018 dem Team beigetreten ist, ist er für die Ideenfindung, Entwicklung und Kommunikation wichtiger Statistiken und Erkenntnisse verantwortlich, die aus Spieler-Tracking-Daten für Fans, NFL-Übertragungspartner und die 32 Clubs gleichermaßen gewonnen wurden. Mike bringt mit einem Master-Abschluss in Analytik von der University of Chicago, einem Bachelor-Abschluss in Sportmanagement von der University of Florida und Erfahrung sowohl in der Scouting-Abteilung der Minnesota Vikings als auch in der Rekrutierungsabteilung einen reichen Wissens- und Erfahrungsschatz in das Team ein von Florida Gator Football.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Fähig
- LiveBuzz
- beschleunigen
- beschleunigend
- Konto
- Genauigkeit
- genau
- genau
- über
- Zusatz
- Adoption
- advanced
- AI
- Algorithmen
- Alle
- Alternative
- Amazon
- Amazon Machine Learning
- Amazon ML-Lösungslabor
- Amazon Web Services
- Analyse
- Analytik
- und
- Angeles
- Anwendungen
- angewandt
- Bewerben
- Ansatz
- Architektur
- um
- künstlich
- künstliche Intelligenz
- Künstliche Intelligenz und maschinelles Lernen
- Automobilindustrie
- Verfügbarkeit
- verfügbar
- durchschnittlich
- AWS
- Achse
- Ball
- Baseline
- Beach
- weil
- BESTE
- Besser
- zwischen
- Big
- Big Data
- Blau
- Beide Seiten
- Brings
- Sendung
- bauen
- Building
- Geschäft
- Erfassung
- Fälle
- Center
- Herausforderungen
- Chicago
- weltweit
- Wahl
- Einstufung
- Cloud
- Cloud-Einführung
- Cloud-Services
- Clubs
- CNN
- arbeitete zusammen
- gemeinsam
- Kommunikation
- Wettbewerb
- Computer
- Computerwissenschaften
- aufeinanderfolgenden
- Kontakt
- enthält
- fortgesetzt
- kontinuierlich
- Gegenteil
- Korrelation
- Erstellen
- wichtig
- Kunde
- Kunden
- technische Daten
- Datenpunkte
- Datenwissenschaftler
- Datenvisualisierung
- Datensätze
- Deal
- Defenders
- Militär
- Grad
- zeigen
- Abteilung
- Abgeleitet
- beschreiben
- Details
- Entwicklung
- Unterschied
- anders
- Richtung
- Direktor
- Abstand
- Verteilung
- Ausschüttungen
- Domain
- Nachteil
- im
- Dynamik
- jeder
- Früh
- endet
- Ingenieur
- Entwicklung
- Epochen
- insbesondere
- geschätzt
- Schätzungen
- bewerten
- Auswertung
- Veranstaltungen
- Beispiel
- ohne
- ERFAHRUNGEN
- Erklären
- Extrakt
- Extrem
- Familie
- Fans
- Fett
- Merkmal
- Eigenschaften
- wenige
- Feld
- Abbildung
- Endlich
- Finden Sie
- Vorname
- passen
- Florida
- konzentriert
- Folgende
- Fußball
- für
- voller
- Außerdem
- Gewinnen
- Gewinne
- Spiel
- Jan
- Allgemeines
- bekommen
- gibt
- Kundenziele
- gut
- GPD
- Graph
- Grün
- Gitter
- passieren
- Gesundheitswesen
- Hilfe
- Unternehmen
- hilft
- GUTE
- Ultraschall
- Hilfe
- HTTPS
- Illinois
- Image
- Impact der HXNUMXO Observatorien
- implementieren
- umgesetzt
- Bedeutung
- wichtig
- in
- Dazu gehören
- Einschließlich
- Erhöhung
- zeigt
- industriell
- Branchen
- Information
- Einblicke
- beantragen müssen
- Intelligenz
- interaktive
- Interesse
- interessiert
- IT
- selbst
- beigetreten
- Beitritt
- Reise
- Wesentliche
- Wissen
- Labor
- Nachname
- Schicht
- Lagen
- Liga
- lernen
- Hebelwirkung
- Lebensdauer
- Biowissenschaften
- Limitiert
- Lang
- sah
- die
- Los Angeles
- Verlust
- Los
- Maschine
- Maschinelles Lernen
- um
- Management
- Manager
- Herstellung
- viele
- Meister
- Mathematik
- Medien
- Methode
- Methodik
- Methoden
- Metrisch
- Metrik
- Michael
- Microservices
- ML
- Modell
- für
- geändert
- mehr
- Bewegung
- National
- Need
- Neu
- weiter
- nächste gen
- NFL
- Anzahl
- erhalten
- Offensive
- EINEM
- Optionen
- Orange
- Andere
- Ergebnis
- im Freien
- Übertrifft
- aussen
- Gesamt-
- Paket
- Parameter
- Teil
- passt
- Leistung
- vielleicht
- ein Bild
- Ort
- Plattform
- Plattformen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Play
- Spieler
- spielend
- Bitte
- Punkte
- Position
- für einige Positionen
- möglich
- Post
- vorhersagen
- vorhergesagt
- Prognose
- Prognosen
- sagt voraus,
- bereit
- Gegenwart
- in erster Linie
- Aufgabenstellung:
- Probleme
- Verfahren
- Prozessdefinierung
- Verarbeitet
- Produkte
- Programm
- Projekt
- die
- vorausgesetzt
- Bereitstellung
- Python
- Platz
- RARE
- Roh
- realen Welt
- Rekrutierung
- regulär
- bezogene
- ersetzt
- Forschungsprojekte
- Forschung und Entwicklung
- für ihren Verlust verantwortlich.
- Die Ergebnisse
- Rückkehr
- Rückgabe
- starr
- robust
- gleich
- Skalieren
- Wissenschaft
- WISSENSCHAFTEN
- Wissenschaftler
- Suche
- Jahreszeit
- Jahreszeiten
- Sekunden
- Senior
- getrennte
- Modellreihe
- Lösungen
- kompensieren
- sieben
- mehrere
- Short
- gezeigt
- Seiten
- signifikant
- ähnlich
- einfach
- da
- klein
- So
- Software
- Software IngenieurIn
- Lösung
- Lösungen
- LÖSEN
- Quelle
- besondere
- spezifisch
- Geschwindigkeit
- Ausgabe
- Sport
- Sports
- Kariert
- Statistiken
- Statistik
- Einstellung
- Streaming
- so
- Tabelle
- Team
- Teams
- Techniken
- Technologie
- AGB
- Test
- Das
- ihr
- deswegen
- Zeit
- Zeitfolgen
- zu
- auch
- Werkzeuge
- Top
- Tracking
- Training
- trainiert
- Ausbildung
- Transformation
- verwandelt
- was immer dies auch sein sollte.
- verstehen
- Universität
- University of Chicago
- -
- Bestätigung
- Werte
- Vielfalt
- verschiedene
- Vertikalen
- Wikinger
- Visualisierung
- Wege
- Reichtum
- Netz
- Web-Services
- Gewicht
- welche
- Wikipedia
- .
- Gewonnen
- Arbeiten
- arbeiten,
- Werk
- würde
- X
- Jahr
- Du
- Ihr
- Zephyrnet