Förutsäg fotbollsmatch och kickoff returgårdar med fettsvansfördelning med hjälp av GluonTS

Återutgiven av Platon

anhängare: 0

Idag fortsätter NFL sin resa för att öka antalet statistik som tillhandahålls av Nästa generations statistikplattform till alla 32 lag och fans. Med avancerad analys från maskininlärning (ML) skapar NFL nya sätt att kvantifiera fotboll och förse fansen med de verktyg som behövs för att öka sina kunskaper om spel i spelet av fotboll. För säsongen 2022 hade NFL som mål att utnyttja spelarspårningsdata och nya avancerade analystekniker för att bättre förstå specialteam.

Målet med projektet var att förutsäga hur många yards en återvändare skulle vinna på ett punt- eller kickoffspel. En av utmaningarna när man bygger prediktiva modeller för poäng- och kickoff-avkastning är tillgängligheten av mycket sällsynta händelser – såsom touchdowns – som har stor betydelse för dynamiken i ett spel. En datafördelning med feta svansar är vanlig i verkliga tillämpningar, där sällsynta händelser har betydande inverkan på modellernas övergripande prestanda. Att använda en robust metod för att exakt modellera distributionen över extrema händelser är avgörande för bättre övergripande prestanda.

I det här inlägget visar vi hur man använder Spliced Binned-Pareto-distribution implementerad i GluonTS för att robust modellera sådana fettsvansfördelningar.

Vi beskriver först den datauppsättning som används. Därefter presenterar vi dataförbehandlingen och andra transformationsmetoder som tillämpas på datasetet. Vi förklarar sedan detaljerna i ML-metodik och modellutbildningsprocedurer. Slutligen presenterar vi modellens prestandaresultat.

dataset

I det här inlägget använde vi två datauppsättningar för att bygga separata modeller för punt- och kickoff-returer. Spelarens spårningsdata innehåller spelarens position, riktning, acceleration och mer (i x,y-koordinater). Det finns cirka 3,000 4,000 och 2018 2021 spelningar från fyra NFL-säsonger (0.23–0.8) för punt- respektive avsparksspel. Dessutom finns det väldigt få punt- och kickoff-relaterade touchdowns i datamängderna – endast XNUMX % respektive XNUMX %. Datafördelningen för punt och kickoff är olika. Till exempel är den sanna yardage-fördelningen för kickoff och punts liknande men förskjuten, som visas i följande figur.

Fördelning av poäng och kickoff returyards

Förbehandling av data och funktionsteknik

Först filtrerades spårningsdata för bara data relaterade till poäng och kickoff-returer. Spelardata användes för att härleda funktioner för modellutveckling:

X – Spelarens position längs fältets långa axel
Y – Spelarens position längs fältets korta axel
S – Hastighet i yards/sekund; ersatt av Dis*10 för att göra det mer exakt (Dis är avståndet under de senaste 0.1 sekunderna)
Dir – Vinkel för spelarens rörelse (grader)

Från föregående data omvandlades varje spel till 10X11X14 data med 10 offensiva spelare (exklusive bollbäraren), 11 försvarare och 14 härledda funktioner:

sX – x hastighet för en spelare
sY – y hastighet för en spelare
s – En spelares hastighet
aX – x acceleration av en spelare
aY – y acceleration av en spelare
relX – x spelarens avstånd i förhållande till bollhållaren
bero – y spelarens avstånd i förhållande till bollhållaren
relSx – x spelarens hastighet i förhållande till bollhållaren
relSy – y spelarens hastighet i förhållande till bollbäraren
relDist – Euklidiskt avstånd för spelaren i förhållande till bollbärare
oppX – x avstånd för offensiv spelare i förhållande till försvarsspelare
uppY – y avstånd från anfallsspelare i förhållande till försvarsspelare
oppSx –x hastighet av anfallsspelare i förhållande till försvarsspelare
oppSy – y anfallsspelarens hastighet i förhållande till försvarsspelaren

För att utöka data och ta hänsyn till höger och vänster positioner speglades X- och Y-positionsvärdena också för att ta hänsyn till höger och vänster fältpositioner. Dataförbearbetningen och funktionstekniken anpassades från vinnaren av NFL Big Data Bowl tävling på Kaggle.

ML metodik och modellträning

Eftersom vi är intresserade av alla möjliga resultat från spelet, inklusive sannolikheten för en touchdown, kan vi inte bara förutsäga de genomsnittliga yards som erhållits som ett regressionsproblem. Vi måste förutsäga den fullständiga sannolikhetsfördelningen av alla möjliga gårdsvinster, så vi formulerade problemet som en probabilistisk förutsägelse.

Ett sätt att implementera probabilistiska förutsägelser är att tilldela de erhållna varven till flera lagerplatser (som mindre än 0, från 0–1, från 1–2, …, från 14–15, mer än 15) och förutsäga lagerplatsen som en klassificering problem. Nackdelen med detta tillvägagångssätt är att vi vill att små fack ska ha en högupplöst bild av fördelningen, men små fack betyder färre datapunkter per bin och vår distribution, särskilt svansarna, kan vara dåligt uppskattade och oregelbundna.

Ett annat sätt att implementera probabilistiska förutsägelser är att modellera utdata som en kontinuerlig sannolikhetsfördelning med ett begränsat antal parametrar (till exempel en Gauss- eller Gamma-fördelning) och förutsäga parametrarna. Detta tillvägagångssätt ger en mycket hög definition och en regelbunden bild av fördelningen, men är för stel för att passa den verkliga fördelningen av erhållna varv, som är multimodal och tunga svansade.

För att få ut det bästa av båda metoderna använder vi Splitsad Binned-Pareto distribution (SBP), som har fack för distributionens centrum där mycket data är tillgänglig, och Generaliserad Pareto-distribution (GPD) i båda ändar, där sällsynta men viktiga händelser kan hända, som en touchdown. GPD har två parametrar: en för skala och en för svanstyngd, som visas i följande graf (källa: Wikipedia).

Genom att splitsa GPD med den lagrade fördelningen (se följande graf till vänster) på båda sidor får vi följande SBP till höger. De nedre och övre tröskelvärdena där skarvning görs är hyperparametrar.

Binned och SPB distributioner

Som utgångspunkt använde vi modellen som vann vår NFL Big Data Bowl tävling på Kaggle. Den här modellen använder CNN-lager för att extrahera funktioner från förberedda data och förutsäger resultatet som ett klassificeringsproblem "1 yard per bin". För vår modell behöll vi funktionsextraktionsskikten från baslinjen och modifierade endast det sista lagret för att mata ut SBP-parametrar istället för sannolikheter för varje fack, som visas i följande figur (bilden redigerad från inlägget 1:a plats lösning The Zoo).

Modellarkitektur

Vi använde SBP-distributionen som tillhandahålls av GluonTS. GluonTS är ett Python-paket för probabilistisk tidsseriemodellering, men SBP-fördelningen är inte specifik för tidsserier, och vi kunde återanvända den för regression. För mer information om hur du använder GluonTS SBP, se följande demo anteckningsbok.

Modellerna tränades och korsvaliderades under säsongerna 2018, 2019 och 2020 och testades under säsongen 2021. För att undvika läckage under korsvalidering grupperade vi alla spel från samma spel i samma veck.

För utvärdering behöll vi måtten som användes i Kaggle-tävlingen, den kontinuerligt rankad sannolikhetspoäng (CRPS), vilket kan ses som ett alternativ till log-sannolikheten som är mer robust mot extremvärden. Vi använde också Pearson korrelationskoefficient och RMSE som allmänna och tolkbara noggrannhetsmått. Vidare tittade vi på sannolikheten för en touchdown och sannolikhetsplottar för att utvärdera kalibrering.

Modellen tränades på CRPS-förlusten med hjälp av Stokastisk viktgenomsnitt och tidigt stopp.

För att hantera oegentligheten i den arkiverade delen av utmatningsdistributionerna använde vi två tekniker:

En jämnhetsstraff som är proportionell mot den kvadratiska skillnaden mellan två på varandra följande fack
Ensembling av modeller tränade under korsvalidering

Modellprestandaresultat

För varje datamängd utförde vi en rutnätssökning över följande alternativ:

Probabilistiska modeller
- Baslinjen var en sannolikhet per gård
- SBP var en sannolikhet per gård i mitten, generaliserat SBP i svansarna
Distributionsutjämning
- Ingen utjämning (jämnhetsstraff = 0)
- Jämnhetsstraff = 5
- Jämnhetsstraff = 10
Utbildning och slutledningsprocedur
- 10-faldig korsvalidering och ensembleinferens (k10)
- Träning på tåg- och valideringsdata för 10 epoker eller 20 epoker

Sedan tittade vi på måtten för de fem bästa modellerna sorterade efter CRPS (lägre är bättre).

För kickoff-data överpresterar SBP-modellen något när det gäller CRPS, men ännu viktigare uppskattar den touchdown-sannolikheten bättre (den sanna sannolikheten är 0.80 % i testsetet). Vi ser att de bästa modellerna använder 10 veck ensembling (k10) och ingen jämnhetsstraff, som visas i följande tabell.

Utbildning	Modell	jämnhet	CRPS	RMSE	CORR %	P(touchdown)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Baslinje	0	4.074	9.62	47.585	0.306
k10	Baslinje	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Baslinje	10	4.08	9.621	47.519	0.265

Följande plot av de observerade frekvenserna och förutspådda sannolikheter indikerar en bra kalibrering av vår bästa modell, med en RMSE på 0.27 mellan de två fördelningarna. Notera förekomsterna av hög yardage (till exempel 100) som förekommer i svansen av den sanna (blå) empiriska fördelningen, vars sannolikheter är mer fångad av SBP än baslinjemetoden.

Kickoff observerade frekvenser och förutspådd sannolikhetsfördelning

För punktdata överträffar baslinjen SBP, kanske för att svansarna av extrem yardage har färre realiseringar. Därför är det en bättre avvägning att fånga modaliteten mellan 0–10 yards toppar; och i motsats till avsparksdata använder den bästa modellen en jämnhetsstraff. Följande tabell sammanfattar våra resultat.

Utbildning	Modell	jämnhet	CRPS	RMSE	CORR %	P(touchdown)%
k10	Baslinje	5	3.961	8.313	35.227	0.547
k10	Baslinje	0	3.972	8.346	34.227	0.579
k10	Baslinje	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Följande plot av observerade frekvenser (i blått) och förutspådda sannolikheter för de två bästa puntmodellerna indikerar att den icke-utjämnade modellen (i orange) är något bättre kalibrerad än den utjämnade modellen (i grönt) och kan vara ett bättre val totalt sett.

Punkt sanna och förutspådda sannolikheter

Slutsats

I det här inlägget visade vi hur man bygger prediktiva modeller med fettsvansad datadistribution. Vi använde Spliced Binned-Pareto-distribution, implementerad i GluonTS, som robust kan modellera sådana fettsvansfördelningar. Vi använde denna teknik för att bygga modeller för punt- och kickoff-avkastning. Vi kan tillämpa den här lösningen på liknande användningsfall där det finns mycket få händelser i data, men dessa händelser har betydande inverkan på modellernas övergripande prestanda.

Om du vill ha hjälp med att påskynda användningen av ML i dina produkter och tjänster, vänligen kontakta Amazon ML Solutions Lab programmet.

Om författarna

Förutsäg fotbollsspel och kickoff-returyards med fat-tailed distribution med GluonTS PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Tesfagabir Meharizghi är datavetare vid Amazon ML Solutions Lab där han hjälper AWS-kunder inom olika branscher som sjukvård och biovetenskap, tillverkning, fordon samt sport och media att påskynda deras användning av maskininlärning och AWS molntjänster för att lösa deras affärsutmaningar.

Marc van Oudheusden är Senior Data Scientist med Amazon ML Solutions Lab-teamet på Amazon Web Services. Han arbetar med AWS-kunder för att lösa affärsproblem med artificiell intelligens och maskininlärning. Utanför jobbet kan du hitta honom på stranden, leka med sina barn, surfa eller kitesurfa.

Panpan Xu är senior tillämpad forskare och chef med Amazon ML Solutions Lab på AWS. Hon arbetar med forskning och utveckling av Machine Learning-algoritmer för högeffektiva kundapplikationer i en mängd olika industriella vertikaler för att påskynda deras AI- och molninförande. Hennes forskningsintresse inkluderar modelltolkbarhet, kausalanalys, human-in-the-loop AI och interaktiv datavisualisering.

Förutsäg fotbollsspel och kickoff-returyards med fat-tailed distribution med GluonTS PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Kyeong Hoon (Jonathan) Jung är en senior mjukvaruingenjör vid National Football League. Han har varit med Next Gen Stats-teamet under de senaste sju åren och hjälpt till att bygga ut plattformen från att strömma rådata, bygga ut mikrotjänster för att bearbeta data, till att bygga API:er som exponerar den bearbetade datan. Han har samarbetat med Amazon Machine Learning Solutions Lab för att tillhandahålla ren data för dem att arbeta med samt ge domänkunskap om själva datan. Utanför jobbet tycker han om att cykla i Los Angeles och att vandra i Sierras.

Förutsäg fotbollsspel och kickoff-returyards med fat-tailed distribution med GluonTS PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Michael Chi är en Senior Director of Technology som övervakar nästa generations statistik och datateknik vid National Football League. Han har en examen i matematik och datavetenskap från University of Illinois i Urbana Champaign. Michael gick med i NFL först 2007 och har främst fokuserat på teknik och plattformar för fotbollsstatistik. På fritiden spenderar han gärna tid med familjen utomhus.

Mike Band är Senior Manager of Research and Analytics for Next Gen Stats på National Football League. Sedan han gick med i laget 2018 har han varit ansvarig för idéer, utveckling och kommunikation av nyckelstatistik och insikter som härrör från spelarspårningsdata för fans, NFL-sändningspartners och de 32 klubbarna. Mike tillför en mängd kunskap och erfarenhet till teamet med en magisterexamen i analytics från University of Chicago, en kandidatexamen i sport management från University of Florida och erfarenhet från både scoutingavdelningen i Minnesota Vikings och rekryteringsavdelningen från Florida Gator Football.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Tidsstämpel: Februari 2, 2023

Tidsstämpel: April 5, 2022

Återutgiven av Platon

Förbered data i stor skala i Amazon SageMaker Studio med hjälp av serverlösa AWS Glue interaktiva sessioner

Bildförstärkningspipeline för Amazon Lookout for Vision

Gör det möjligt för synskadade att höra dokument med Amazon Textract och Amazon Polly

Integrera ServiceNow med Amazon Lex chatbot för ärendehantering

AWS Cloud-teknik för detektering av hjärtavvikelser i nästan realtid med hjälp av data från bärbara enheter

Skapa syntetisk data för pipelines för datorseende på AWS

Anpassa Amazon SageMaker XGBoost-algoritmbehållaren

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto