Idag fortsätter NFL sin resa för att öka antalet statistik som tillhandahålls av Nästa generations statistikplattform till alla 32 lag och fans. Med avancerad analys från maskininlärning (ML) skapar NFL nya sätt att kvantifiera fotboll och förse fansen med de verktyg som behövs för att öka sina kunskaper om spel i spelet av fotboll. För säsongen 2022 hade NFL som mål att utnyttja spelarspårningsdata och nya avancerade analystekniker för att bättre förstå specialteam.
Målet med projektet var att förutsäga hur många yards en återvändare skulle vinna på ett punt- eller kickoffspel. En av utmaningarna när man bygger prediktiva modeller för poäng- och kickoff-avkastning är tillgängligheten av mycket sällsynta händelser – såsom touchdowns – som har stor betydelse för dynamiken i ett spel. En datafördelning med feta svansar är vanlig i verkliga tillämpningar, där sällsynta händelser har betydande inverkan på modellernas övergripande prestanda. Att använda en robust metod för att exakt modellera distributionen över extrema händelser är avgörande för bättre övergripande prestanda.
I det här inlägget visar vi hur man använder Spliced Binned-Pareto-distribution implementerad i GluonTS för att robust modellera sådana fettsvansfördelningar.
Vi beskriver först den datauppsättning som används. Därefter presenterar vi dataförbehandlingen och andra transformationsmetoder som tillämpas på datasetet. Vi förklarar sedan detaljerna i ML-metodik och modellutbildningsprocedurer. Slutligen presenterar vi modellens prestandaresultat.
dataset
I det här inlägget använde vi två datauppsättningar för att bygga separata modeller för punt- och kickoff-returer. Spelarens spårningsdata innehåller spelarens position, riktning, acceleration och mer (i x,y-koordinater). Det finns cirka 3,000 4,000 och 2018 2021 spelningar från fyra NFL-säsonger (0.23–0.8) för punt- respektive avsparksspel. Dessutom finns det väldigt få punt- och kickoff-relaterade touchdowns i datamängderna – endast XNUMX % respektive XNUMX %. Datafördelningen för punt och kickoff är olika. Till exempel är den sanna yardage-fördelningen för kickoff och punts liknande men förskjuten, som visas i följande figur.
Förbehandling av data och funktionsteknik
Först filtrerades spårningsdata för bara data relaterade till poäng och kickoff-returer. Spelardata användes för att härleda funktioner för modellutveckling:
- X – Spelarens position längs fältets långa axel
- Y – Spelarens position längs fältets korta axel
- S – Hastighet i yards/sekund; ersatt av Dis*10 för att göra det mer exakt (Dis är avståndet under de senaste 0.1 sekunderna)
- Dir – Vinkel för spelarens rörelse (grader)
Från föregående data omvandlades varje spel till 10X11X14 data med 10 offensiva spelare (exklusive bollbäraren), 11 försvarare och 14 härledda funktioner:
- sX – x hastighet för en spelare
- sY – y hastighet för en spelare
- s – En spelares hastighet
- aX – x acceleration av en spelare
- aY – y acceleration av en spelare
- relX – x spelarens avstånd i förhållande till bollhållaren
- bero – y spelarens avstånd i förhållande till bollhållaren
- relSx – x spelarens hastighet i förhållande till bollhållaren
- relSy – y spelarens hastighet i förhållande till bollbäraren
- relDist – Euklidiskt avstånd för spelaren i förhållande till bollbärare
- oppX – x avstånd för offensiv spelare i förhållande till försvarsspelare
- uppY – y avstånd från anfallsspelare i förhållande till försvarsspelare
- oppSx –x hastighet av anfallsspelare i förhållande till försvarsspelare
- oppSy – y anfallsspelarens hastighet i förhållande till försvarsspelaren
För att utöka data och ta hänsyn till höger och vänster positioner speglades X- och Y-positionsvärdena också för att ta hänsyn till höger och vänster fältpositioner. Dataförbearbetningen och funktionstekniken anpassades från vinnaren av NFL Big Data Bowl tävling på Kaggle.
ML metodik och modellträning
Eftersom vi är intresserade av alla möjliga resultat från spelet, inklusive sannolikheten för en touchdown, kan vi inte bara förutsäga de genomsnittliga yards som erhållits som ett regressionsproblem. Vi måste förutsäga den fullständiga sannolikhetsfördelningen av alla möjliga gårdsvinster, så vi formulerade problemet som en probabilistisk förutsägelse.
Ett sätt att implementera probabilistiska förutsägelser är att tilldela de erhållna varven till flera lagerplatser (som mindre än 0, från 0–1, från 1–2, …, från 14–15, mer än 15) och förutsäga lagerplatsen som en klassificering problem. Nackdelen med detta tillvägagångssätt är att vi vill att små fack ska ha en högupplöst bild av fördelningen, men små fack betyder färre datapunkter per bin och vår distribution, särskilt svansarna, kan vara dåligt uppskattade och oregelbundna.
Ett annat sätt att implementera probabilistiska förutsägelser är att modellera utdata som en kontinuerlig sannolikhetsfördelning med ett begränsat antal parametrar (till exempel en Gauss- eller Gamma-fördelning) och förutsäga parametrarna. Detta tillvägagångssätt ger en mycket hög definition och en regelbunden bild av fördelningen, men är för stel för att passa den verkliga fördelningen av erhållna varv, som är multimodal och tunga svansade.
För att få ut det bästa av båda metoderna använder vi Splitsad Binned-Pareto distribution (SBP), som har fack för distributionens centrum där mycket data är tillgänglig, och Generaliserad Pareto-distribution (GPD) i båda ändar, där sällsynta men viktiga händelser kan hända, som en touchdown. GPD har två parametrar: en för skala och en för svanstyngd, som visas i följande graf (källa: Wikipedia).
Genom att splitsa GPD med den lagrade fördelningen (se följande graf till vänster) på båda sidor får vi följande SBP till höger. De nedre och övre tröskelvärdena där skarvning görs är hyperparametrar.
Som utgångspunkt använde vi modellen som vann vår NFL Big Data Bowl tävling på Kaggle. Den här modellen använder CNN-lager för att extrahera funktioner från förberedda data och förutsäger resultatet som ett klassificeringsproblem "1 yard per bin". För vår modell behöll vi funktionsextraktionsskikten från baslinjen och modifierade endast det sista lagret för att mata ut SBP-parametrar istället för sannolikheter för varje fack, som visas i följande figur (bilden redigerad från inlägget 1:a plats lösning The Zoo).
Vi använde SBP-distributionen som tillhandahålls av GluonTS. GluonTS är ett Python-paket för probabilistisk tidsseriemodellering, men SBP-fördelningen är inte specifik för tidsserier, och vi kunde återanvända den för regression. För mer information om hur du använder GluonTS SBP, se följande demo anteckningsbok.
Modellerna tränades och korsvaliderades under säsongerna 2018, 2019 och 2020 och testades under säsongen 2021. För att undvika läckage under korsvalidering grupperade vi alla spel från samma spel i samma veck.
För utvärdering behöll vi måtten som användes i Kaggle-tävlingen, den kontinuerligt rankad sannolikhetspoäng (CRPS), vilket kan ses som ett alternativ till log-sannolikheten som är mer robust mot extremvärden. Vi använde också Pearson korrelationskoefficient och RMSE som allmänna och tolkbara noggrannhetsmått. Vidare tittade vi på sannolikheten för en touchdown och sannolikhetsplottar för att utvärdera kalibrering.
Modellen tränades på CRPS-förlusten med hjälp av Stokastisk viktgenomsnitt och tidigt stopp.
För att hantera oegentligheten i den arkiverade delen av utmatningsdistributionerna använde vi två tekniker:
- En jämnhetsstraff som är proportionell mot den kvadratiska skillnaden mellan två på varandra följande fack
- Ensembling av modeller tränade under korsvalidering
Modellprestandaresultat
För varje datamängd utförde vi en rutnätssökning över följande alternativ:
- Probabilistiska modeller
- Baslinjen var en sannolikhet per gård
- SBP var en sannolikhet per gård i mitten, generaliserat SBP i svansarna
- Distributionsutjämning
- Ingen utjämning (jämnhetsstraff = 0)
- Jämnhetsstraff = 5
- Jämnhetsstraff = 10
- Utbildning och slutledningsprocedur
- 10-faldig korsvalidering och ensembleinferens (k10)
- Träning på tåg- och valideringsdata för 10 epoker eller 20 epoker
Sedan tittade vi på måtten för de fem bästa modellerna sorterade efter CRPS (lägre är bättre).
För kickoff-data överpresterar SBP-modellen något när det gäller CRPS, men ännu viktigare uppskattar den touchdown-sannolikheten bättre (den sanna sannolikheten är 0.80 % i testsetet). Vi ser att de bästa modellerna använder 10 veck ensembling (k10) och ingen jämnhetsstraff, som visas i följande tabell.
Utbildning | Modell | jämnhet | CRPS | RMSE | CORR % | P(touchdown)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baslinje | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baslinje | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baslinje | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Följande plot av de observerade frekvenserna och förutspådda sannolikheter indikerar en bra kalibrering av vår bästa modell, med en RMSE på 0.27 mellan de två fördelningarna. Notera förekomsterna av hög yardage (till exempel 100) som förekommer i svansen av den sanna (blå) empiriska fördelningen, vars sannolikheter är mer fångad av SBP än baslinjemetoden.
För punktdata överträffar baslinjen SBP, kanske för att svansarna av extrem yardage har färre realiseringar. Därför är det en bättre avvägning att fånga modaliteten mellan 0–10 yards toppar; och i motsats till avsparksdata använder den bästa modellen en jämnhetsstraff. Följande tabell sammanfattar våra resultat.
Utbildning | Modell | jämnhet | CRPS | RMSE | CORR % | P(touchdown)% |
k10 | Baslinje | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baslinje | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baslinje | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Följande plot av observerade frekvenser (i blått) och förutspådda sannolikheter för de två bästa puntmodellerna indikerar att den icke-utjämnade modellen (i orange) är något bättre kalibrerad än den utjämnade modellen (i grönt) och kan vara ett bättre val totalt sett.
Slutsats
I det här inlägget visade vi hur man bygger prediktiva modeller med fettsvansad datadistribution. Vi använde Spliced Binned-Pareto-distribution, implementerad i GluonTS, som robust kan modellera sådana fettsvansfördelningar. Vi använde denna teknik för att bygga modeller för punt- och kickoff-avkastning. Vi kan tillämpa den här lösningen på liknande användningsfall där det finns mycket få händelser i data, men dessa händelser har betydande inverkan på modellernas övergripande prestanda.
Om du vill ha hjälp med att påskynda användningen av ML i dina produkter och tjänster, vänligen kontakta Amazon ML Solutions Lab programmet.
Om författarna
Tesfagabir Meharizghi är datavetare vid Amazon ML Solutions Lab där han hjälper AWS-kunder inom olika branscher som sjukvård och biovetenskap, tillverkning, fordon samt sport och media att påskynda deras användning av maskininlärning och AWS molntjänster för att lösa deras affärsutmaningar.
Marc van Oudheusden är Senior Data Scientist med Amazon ML Solutions Lab-teamet på Amazon Web Services. Han arbetar med AWS-kunder för att lösa affärsproblem med artificiell intelligens och maskininlärning. Utanför jobbet kan du hitta honom på stranden, leka med sina barn, surfa eller kitesurfa.
Panpan Xu är senior tillämpad forskare och chef med Amazon ML Solutions Lab på AWS. Hon arbetar med forskning och utveckling av Machine Learning-algoritmer för högeffektiva kundapplikationer i en mängd olika industriella vertikaler för att påskynda deras AI- och molninförande. Hennes forskningsintresse inkluderar modelltolkbarhet, kausalanalys, human-in-the-loop AI och interaktiv datavisualisering.
Kyeong Hoon (Jonathan) Jung är en senior mjukvaruingenjör vid National Football League. Han har varit med Next Gen Stats-teamet under de senaste sju åren och hjälpt till att bygga ut plattformen från att strömma rådata, bygga ut mikrotjänster för att bearbeta data, till att bygga API:er som exponerar den bearbetade datan. Han har samarbetat med Amazon Machine Learning Solutions Lab för att tillhandahålla ren data för dem att arbeta med samt ge domänkunskap om själva datan. Utanför jobbet tycker han om att cykla i Los Angeles och att vandra i Sierras.
Michael Chi är en Senior Director of Technology som övervakar nästa generations statistik och datateknik vid National Football League. Han har en examen i matematik och datavetenskap från University of Illinois i Urbana Champaign. Michael gick med i NFL först 2007 och har främst fokuserat på teknik och plattformar för fotbollsstatistik. På fritiden spenderar han gärna tid med familjen utomhus.
Mike Band är Senior Manager of Research and Analytics for Next Gen Stats på National Football League. Sedan han gick med i laget 2018 har han varit ansvarig för idéer, utveckling och kommunikation av nyckelstatistik och insikter som härrör från spelarspårningsdata för fans, NFL-sändningspartners och de 32 klubbarna. Mike tillför en mängd kunskap och erfarenhet till teamet med en magisterexamen i analytics från University of Chicago, en kandidatexamen i sport management från University of Florida och erfarenhet från både scoutingavdelningen i Minnesota Vikings och rekryteringsavdelningen från Florida Gator Football.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Able
- Om oss
- accelerera
- accelererande
- Konto
- noggrannhet
- exakt
- exakt
- tvärs
- Dessutom
- Antagande
- avancerat
- AI
- algoritmer
- Alla
- alternativ
- amason
- Amazon maskininlärning
- Amazon ML Solutions Lab
- Amazon Web Services
- analys
- analytics
- och
- Angeles
- tillämpningar
- tillämpas
- Ansök
- tillvägagångssätt
- arkitektur
- runt
- konstgjord
- artificiell intelligens
- Konstgjord intelligens och maskininlärning
- fordonsindustrin
- tillgänglighet
- tillgänglig
- genomsnitt
- AWS
- Axis
- boll
- Baslinje
- Beach
- därför att
- BÄST
- Bättre
- mellan
- Stor
- Stora data
- Blå
- Båda sidor
- Bringar
- sända
- SLUTRESULTAT
- Byggnad
- företag
- fånga
- fall
- Centrum
- utmaningar
- chicago
- Barn
- val
- klassificering
- cloud
- moln adoption
- molntjänster
- klubbarna
- CNN
- samarbetat
- Gemensam
- Kommunikation
- konkurrens
- dator
- Datavetenskap
- i följd
- kontakta
- innehåller
- fortsätter
- kontinuerlig
- motsats
- Korrelation
- Skapa
- avgörande
- kund
- Kunder
- datum
- datapunkter
- datavetare
- datavisualisering
- datauppsättningar
- behandla
- Försvararna
- Försvar
- Examen
- demonstrera
- Avdelning
- Härledd
- beskriva
- detaljer
- Utveckling
- Skillnaden
- olika
- riktning
- Direktör
- avstånd
- fördelning
- Distributioner
- domän
- nackdelen
- under
- Dynamiken
- varje
- Tidig
- slutar
- ingenjör
- Teknik
- epoker
- speciellt
- beräknad
- uppskattningar
- utvärdera
- utvärdering
- händelser
- exempel
- exklusive
- erfarenhet
- Förklara
- extrahera
- extrem
- familj
- fans
- Fett
- Leverans
- Funktioner
- få
- fält
- Figur
- Slutligen
- hitta
- Förnamn
- passa
- florida
- fokuserade
- efter
- fotboll
- från
- full
- Vidare
- Få
- resultat
- lek
- Gen
- Allmänt
- skaffa sig
- ger
- Målet
- god
- GPD
- diagram
- Grön
- Rutnät
- hända
- hälso-och sjukvård
- hjälpa
- hjälpa
- hjälper
- Hög
- Hur ser din drömresa ut
- How To
- HTTPS
- Illinois
- bild
- Inverkan
- genomföra
- genomföras
- vikt
- med Esport
- in
- innefattar
- Inklusive
- Öka
- pekar på
- industriell
- industrier
- informationen
- insikter
- istället
- Intelligens
- interaktiva
- intresse
- intresserad
- IT
- sig
- fogade
- sammanfogning
- resa
- Nyckel
- kunskap
- lab
- Efternamn
- lager
- skikt
- League
- inlärning
- Hävstång
- livet
- Life Sciences
- Begränsad
- Lång
- såg
- den
- Los Angeles
- förlust
- Lot
- Maskinen
- maskininlärning
- göra
- ledning
- chef
- Produktion
- många
- master
- matematik
- Media
- metod
- Metodik
- metoder
- metriska
- Metrics
- Michael
- microservices
- ML
- modell
- modeller
- modifierad
- mer
- rörelse
- nationell
- Behöver
- Nya
- Nästa
- nästa generation
- NFL
- antal
- få
- offensiv
- ONE
- Tillbehör
- Orange
- Övriga
- Resultat
- utomhus
- utklassar
- utanför
- övergripande
- paket
- parametrar
- del
- partner
- Tidigare
- prestanda
- kanske
- Bild
- Plats
- plattform
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- Spela
- Spelaren
- spelare
- i
- snälla du
- poäng
- placera
- positioner
- möjlig
- Inlägg
- förutse
- förutsagda
- förutsägelse
- Förutsägelser
- Förutspår
- beredd
- presentera
- primärt
- Problem
- problem
- förfaranden
- process
- Bearbetad
- Produkter
- Program
- projektet
- ge
- förutsatt
- tillhandahålla
- Python
- rankad
- SÄLLSYNT
- Raw
- verkliga världen
- rekrytera
- regelbunden
- relaterad
- ersättas
- forskning
- forskning och utveckling
- ansvarig
- Resultat
- avkastning
- återgår
- styv
- robusta
- Samma
- Skala
- Vetenskap
- VETENSKAPER
- Forskare
- Sök
- Säsong
- säsonger
- sekunder
- senior
- separat
- Serier
- Tjänster
- in
- sju
- flera
- Kort
- visas
- Sidor
- signifikant
- liknande
- helt enkelt
- eftersom
- Small
- So
- Mjukvara
- Programvara ingenjör
- lösning
- Lösningar
- LÖSA
- Källa
- speciell
- specifik
- fart
- Spendera
- Sporter
- Sporter
- squared
- statistik
- statistik
- stoppa
- streaming
- sådana
- bord
- grupp
- lag
- tekniker
- Teknologi
- villkor
- testa
- Smakämnen
- deras
- därför
- tid
- Tidsföljder
- till
- alltför
- verktyg
- topp
- Spårning
- Tåg
- tränad
- Utbildning
- Transformation
- transformerad
- sann
- förstå
- universitet
- University of Chicago
- användning
- godkännande
- Värden
- mängd
- olika
- vertikaler
- Vikings
- visualisering
- sätt
- Rikedom
- webb
- webbservice
- vikt
- som
- wikipedia
- inom
- Vann
- Arbete
- arbetssätt
- fungerar
- skulle
- X
- år
- Om er
- Din
- zephyrnet